logistic回归（线性和非线性）的开发笔记

作者：雪蝴蝶的诺言forever | 来源：互联网 | 2023-12-14 21:40

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。

本文由编程笔记#小编为大家整理，主要介绍了logistic 回归（线性和非线性）相关的知识，希望对你有一定的参考价值。

一：线性logistic 回归

代码如下：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.optimize as opt
import seaborn as sns
#读取数据集
path = ‘ex2data1.txt‘
data = pd.read_csv(path, header=None, names=[‘Exam 1‘, ‘Exam 2‘, ‘Admitted‘])
#将正负数据集分开
positive = data[data[‘Admitted‘].isin([1])]
negative = data[data[‘Admitted‘].isin([0])]
‘‘‘
#查看分布
fig, ax = plt.subplots(figsize=(12, 8))
ax.scatter(positive[‘Exam 1‘], positive[‘Exam 2‘], s=60, c=‘b‘, marker=‘o‘, label=‘Admitted‘)
ax.scatter(negative[‘Exam 1‘], negative[‘Exam 2‘], s=50, c=‘r‘, marker=‘x‘, label=‘UnAdmitted‘)
ax.legend()
ax.set_xlabel(‘Exam 1 Score‘)
ax.set_ylabel(‘Exam 2 Score‘)
plt.show()
‘‘‘
#sigmoid函数实现
def sigmoid(h):
return 1 / (1 + np.exp(-h))
‘‘‘
#测试sigmoid函数
nums = np.arange(-10, 11, step=1)
fig, ax = plt.subplots(figsize=(12, 8))
ax.plot(nums, sigmoid(nums), ‘k‘)
plt.show()
‘‘‘
#计算损失函数值
def cost(theta, X, y):
theta = np.matrix(theta)
X = np.matrix(X)
y = np.matrix(y)
part1 = np.multiply(-y, np.log(sigmoid(X * theta.T)))
part2 = np.multiply((1-y), np.log(1-sigmoid(X * theta.T)))
return np.sum(part1-part2) / len(X)
#在原矩阵第1列前加一列全1
data.insert(0, ‘ones‘, 1)
cols = data.shape[1]
X = data.iloc[:, 0:cols-1]
y = data.iloc[:, cols-1:cols]
X = np.array(X.values)
y = np.array(y.values)
theta = np.zeros(3) #这里是一个行向量
#返回梯度向量，注意是向量
def gradient(theta, X, y):
theta = np.matrix(theta)
X = np.matrix(X)
y = np.matrix(y)
parameters = theta.ravel().shape[1]
grad = np.zeros(parameters)
error = sigmoid(X * theta.T) - y
grad = error.T.dot(X)
grad = grad / len(X)
return grad
#通过高级算法计算出最好的theta值
result = opt.fmin_tnc(func=cost, x0=theta, fprime=gradient, args=(X, y))
#print(cost(result[0], X, y))
#测试所得theta的性能
#计算原数据集的预测情况
def predict(theta, X):
theta = np.matrix(theta)
X = np.matrix(X)
probability = sigmoid(X * theta.T)
return [1 if i > 0.5 else 0 for i in probability]
theta_min = result[0]
predictions = predict(theta_min, X)
correct = [1 if((a == 1 and b == 1) or(a == 0 and b == 0)) else 0 for(a, b) in zip(predictions, y)]
accuracy = (sum(map(int, correct)) % len(correct))
print(‘accuracy = {0}%‘.format(accuracy))#训练集测试准确度89%
# 作图
theta_temp = theta_min
theta_temp = theta_temp / theta_temp[2]
x = np.arange(130, step=0.1)
y = -(theta_temp[0] + theta_temp[1] * x)
#画出原点
sns.set(cOntext=‘notebook‘, color: #800000">‘ticks‘, font_scale=1.5)
sns.lmplot(‘Exam 1‘, ‘Exam 2‘, hue=‘Admitted‘, data=data,
size=6,
fit_reg=False,
scatter_kws={"s": 25}
)
#画出分界线
plt.plot(x, y, ‘grey‘)
plt.xlim(0, 130)
plt.ylim(0, 130)
plt.title(‘Decision Boundary‘)
plt.show()

二：非线性logistic 回归（正则化）

代码如下：

import pandas as pd
import numpy as np
import scipy.optimize as opt
import matplotlib.pyplot as plt
path = ‘ex2data2.txt‘
data = pd.read_csv(path, header=None, names=[‘Test 1‘, ‘Test 2‘, ‘Accepted‘])
positive = data[data[‘Accepted‘].isin([1])]
negative = data[data[‘Accepted‘].isin([0])]
‘‘‘
#显示原始数据的分布
fig, ax = plt.subplots(figsize=(12, 8))
ax.scatter(positive[‘Test 1‘], positive[‘Test 2‘], s=50, c=‘b‘, marker=‘o‘, label=‘Accepted‘)
ax.scatter(negative[‘Test 1‘], negative[‘Test 2‘], s=50, c=‘r‘, marker=‘x‘, label=‘Unaccepted‘)
ax.legend() #显示右上角的Accepted 和 Unaccepted标签
ax.set_xlabel(‘Test 1 Score‘)
ax.set_ylabel(‘Test 2 Score‘)
plt.show()
‘‘‘
degree = 5
x1 = data[‘Test 1‘]
x2 = data[‘Test 2‘]
#在data的第三列插入一列全1
data.insert(3, ‘Ones‘, 1)
#创建多项式特征值，最高阶为4
for i in range(1, degree):
for j in range(0, i):
data[‘F‘ + str(i) + str(j)] = np.power(x1, i-j) * np.power(x2, j)
#删除原数据中的test 1和test 2两列
data.drop(‘Test 1‘, axis=1, inplace=True)
data.drop(‘Test 2‘, axis=1, inplace=True)
#sigmoid函数实现
def sigmoid(h):
return 1 / (1 + np.exp(-h))
def cost(theta, X, y, learnRate):
theta = np.matrix(theta)
X = np.matrix(X)
y = np.matrix(y)
first = np.multiply(-y, np.log(sigmoid(X * theta.T)))
second = np.multiply((1 - y), np.log(1 - sigmoid(X * theta.T)))
reg = (learnRate / (2 * len(X))) * np.sum(np.power(theta[:, 1:theta.shape[1]], 2))
return np.sum(first - second) / len(X) + reg
learnRate = 1
cols = data.shape[1]
X = data.iloc[:, 1:cols]
y = data.iloc[:, 0:1]
X = np.array(X)
y = np.array(y)
theta = np.zeros(X.shape[1])
#计算原数据集的预测情况
def predict(theta, X):
theta = np.matrix(theta)
X = np.matrix(X)
probability = sigmoid(X * theta.T)
return [1 if i > 0.5 else 0 for i in probability]
def gradientReg(theta, X, y, learnRate):
theta = np.matrix(theta)
X = np.matrix(X)
y = np.matrix(y)
paramates = int(theta.ravel().shape[1])
grad = np.zeros(paramates)
grad = (sigmoid(X * theta.T) - y).T * X / len(X) + (learnRate / len(X)) * theta[:, i]
grad[0] = grad[0] - (learnRate / len(X)) * theta[:, i]
return grad
result = opt.fmin_tnc(func=cost, x0=theta, fprime=gradientReg, args=(X, y, learnRate))
print(result)
theta_min = np.matrix(result[0])
predictions = predict(theta_min, X)
correct = [1 if((a == 1 and b == 1) or(a == 0 and b == 0)) else 0 for(a, b) in zip(predictions, y)]
accuracy = (sum(map(int, correct)) % len(correct))
print(‘accuracy = {0}%‘.format(accuracy))

推荐阅读

char
网站前端开发的核心理念与必备技能解析

网站前端开发的核心理念与必备技能解析 ... [详细]

蜡笔小新 2024-10-24 10:26:17
char
数据科学笔记26：深入解析随机森林分类算法及其在Python和R中的应用

### 摘要随机森林是一种在集成学习领域备受推崇的算法，被誉为“集成学习技术的典范”。该方法因其简洁性、易实现性和较低的计算成本而被广泛应用。本文将深入探讨随机森林的工作原理，特别是其在Python和R中的具体应用。随机森林通过结合多个决策树和Bagging技术，有效提高了模型的准确性和鲁棒性。我们将详细解析其核心机制，并通过实际案例展示如何在不同编程环境中高效实现这一强大的分类算法。 ... [详细]

蜡笔小新 2024-10-24 11:40:42
process
决策树在鸢尾花数据集上对不同特征组合的分类效果分析及模型性能比较

本文探讨了决策树算法在鸢尾花数据集上的应用，分析了不同特征组合对分类效果的影响，并对模型性能进行了详细比较。决策树作为一种层次化的分类方法，通过递归地划分特征空间，形成树状结构，每个节点代表一个特征判断，最终达到分类目的。研究结果表明，不同特征组合对模型性能有显著影响，为实际应用提供了重要参考。 ... [详细]

蜡笔小新 2024-10-25 19:17:40
process
如何使用Python高效绘制并解读混淆矩阵

如何使用Python高效绘制并解读混淆矩阵 ... [详细]

蜡笔小新 2024-10-23 17:23:13
char
【Markdown】高级应用技巧与实践

注：写博客或者项目的README文档经常用到markdown语法，所以markdown的语法做了一个总结，本文是基于【markdown】基 ... [详细]

蜡笔小新 2024-10-23 11:54:55
char
深入学习C#与Java：掌握Java基础语法的关键点

c#学Java–Java基本语法1.类比JAVA .NETJVM CLRJDK FCL2.java命名约定类名称应以大写字母开头，并成为容易理解的名词或组合。如 ... [详细]

蜡笔小新 2024-10-23 18:49:38
char
【 Tulip 】I/O 阻塞的简单示例解析

本文将深入探讨Python的Tulip网络库（即3.4版本后更名为asyncio）的实现机制。通过详细解析Tulip的工作原理，旨在帮助读者理解其如何高效处理I/O阻塞问题，并展示其实现非阻塞流程的具体方法。 ... [详细]

蜡笔小新 2024-10-25 18:09:26
search
沙拉可能比巨无霸汉堡更易导致体重增加

某些超市销售的沙拉含有的脂肪和热量甚至超过了巨无霸汉堡加薯条。对于希望在夏季享受轻盈饮食的人来说，这一发现可能令人意外。选择不当的沙拉不仅无法达到减肥效果，反而可能导致体重增加。建议消费者在挑选沙拉时，仔细查看营养成分标签，以做出更健康的选择。 ... [详细]

蜡笔小新 2024-10-25 11:25:07
runtime
探讨 javax.jms.JMSException 中 getLocalizedMessage 方法的应用与实例代码分析

探讨 javax.jms.JMSException 中 getLocalizedMessage 方法的应用与实例代码分析 ... [详细]

蜡笔小新 2024-10-24 18:22:06
runtime
基于遗传算法的MATLAB入门与应用指南

遗传算法作为一种模拟自然界生物遗传和进化的自适应全局优化方法，在解决复杂优化问题中展现出显著优势。本文基于MATLAB平台，详细介绍了遗传算法的基本原理及其在求解NP难题、非线性及多峰函数优化、多目标优化等领域的应用实例，为初学者提供了一套系统的学习和实践指南。 ... [详细]

蜡笔小新 2024-10-24 18:06:26
runtime
深入解析下一代互联网协议：IPv6在网络架构中的应用与优势

随着互联网的迅猛发展，IPv4的32位地址资源在2011年2月宣告枯竭，导致互联网服务提供商（ISP）无法再申请新的地址段。为应对这一挑战，下一代互联网协议IPv6应运而生，并在网络架构中展现出显著的优势。本文深入解析了IPv6在提升网络容量、增强安全性及简化管理等方面的独特价值，探讨了其在网络架构中的应用前景和实际效益。 ... [详细]

蜡笔小新 2024-10-24 15:49:54
char
OpenCV 2.4.9 源码解析：级联分类器的错误率与尺寸分析

OpenCV 2.4.9 源码解析：级联分类器的错误率与尺寸分析 ... [详细]

蜡笔小新 2024-10-24 13:33:27
command
基于灰度直方图的水果识别系统开发：MATLAB源代码及图形用户界面设计

基于灰度直方图的水果识别系统开发：MATLAB源代码及图形用户界面设计 ... [详细]

蜡笔小新 2024-10-24 12:23:09
char
金字塔图表：自定义可视化与模拟漏斗分析

金子塔图，自定义图表，伪漏斗图简易的金字塔图，设置不太灵活，可供使用者参考，需要使用者根据页面的需求复杂度等再做修改。另附链接地址：https:www.isqqw.compcent ... [详细]

蜡笔小新 2024-10-23 12:58:23
char
如何在 PySP 中使用 Python 将数据框中的字符串列转换为双精度浮点类型

这里不需要UDF。Column已提供simpleString方法和simpleString实例：frompyspark.sql.typesimportDoubleTy ... [详细]

蜡笔小新 2024-10-22 17:47:46

雪蝴蝶的诺言forever

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章