头歌——机器学习——逻辑回归如何实现分类 - 码农知识堂 - 文章详情页

头歌——机器学习——逻辑回归如何实现分类
第1关：逻辑回归如何实现分类

任务描述

本关任务：编写一个使用逻辑回归实现分类的程序

相关知识

为了完成本关任务，你需要掌握：1.逻辑回归基本原理。2.适用sklearn进行逻辑回归分类。

逻辑回归算法

一般来说逻辑回归用于处理二元分类问题,即 y⊂0,1

当样本中有多个类别时 y⊂0,1,2,...,n

Logistic Regression和Linear Regression的原理是相似的，可以简单的描述为这样的过程：

1，找一个合适的预测函数，一般表示为h函数，该函数就是我们需要找的分类函数，它用来预测输入数据的判断结果。这个过程时非常关键的，需要对数据有一定的了解或分析，知道或者猜测预测函数的“大概”形式，比如是线性函数还是非线性函数。

2，构造一个Cost函数（损失函数），该函数表示预测的输出（h）与训练数据类别（y）之间的偏差，可以是二者之间的差（h-y）或者是其他的形式。综合考虑所有训练数据的“损失”，将Cost求和或者求平均，记为J(θ)函数，表示所有训练数据预测值与实际类别的偏差。

3，显然，J(θ)函数的值越小表示预测函数越准确（即h函数越准确），所以这一步需要做的是找到J(θ)函数的最小值。找函数的最小值有不同的方法，Logistic Regression实现时有的是梯度下降法（Gradient Descent）。

逻辑回归模型

预测函数 Logistic Regression虽然名字里带“回归”，但是它实际上是一种分类方法，用于两分类问题（即输出只有两种）。根据上述步骤的说明，需要先找到一个预测函数（h），显然，该函数的输出必须是两个值（分别代表两个类别），所以利用了Logistic函数（或称为Sigmoid函数），函数形式为

h(x)=1+e−θTx1

hθ(x)函数的值有特殊的含义，他表示结果取1的概率，听此对于输入x分类结果类别为1和类别0的概率分布为

P(y=1∣x;θ)=hθ(x) P(y=0∣x;θ)=1−hθ(x)

代价函数

J=−m1i=1∑my(i)log(h(xi))+(1−y(i))log(1−h(x(i)))

这里的J(θ)是基于最大似然估计推导得到的

P(y∣x;θ)=(hθ(x))y(1−htheta(x))1−y

取似然函数为

L(θ)=i=1∏mP(y(i)∣x(i);θ)=i=1∏m(hθ(x(i)))y(i)(1−hθ(x(i)))1−y(i)

对数似然函数为

l(θ)=logL(θ)=i=1∑m(y(i)loghθ(x(i))+(1−y(i)log(1−hθ(x(i))))

最大似然估计就是要求使J(θ)取最大值时的θ,其实这里可以使用梯度上升法求解，求得的θ就是要求你的最佳参数。

J(θ)=−m1l(θ)

因为乘了个负的系数m1，所以J(θ)取最小值时的θ为要求的最佳参数。

梯度下降

求J(θ)的最小值可以使用梯度下降法，根据梯度下降法可得θ的更新过程：

θj:=θj−α∗m1∗i=1∑m(h(x)−y)xj(i) 其中α为学习率

逻辑回归在形式上更新参数与线性回归相同，实则不同。在线性回归中，h(x)是一个线性函数，而在逻辑回归中，h(x)是一个sigmoid函数

sklearn库的使用
- # 使用sklearn中的make_classification函数构建二分类的数据
- # 其中n_samples=100是样本的数量，n_classes是样本的种类
- x, y = make_classification(n_samples=100, n_classes=2)
- # 从sklearn中导入逻辑回归分类器
- from sklearn.linear_model import LogisticRegressionCV
- # 实例化一个逻辑回归分类器,使用默认参数
- logistic = LogisticRegressionCV()
- # 传入数据进行模型训练
- logistic.fit(x, y)
- # 传入数据进行模型评估
- logistic.score(x, y)
编程要求

根据提示，在右侧编辑器补充代码，完善代码，

测试说明

平台会对你编写的代码进行测试：

预期输出： 0.9

第1关任务——代码题
```
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import numpy as np
 
np.random.seed(10)
 
if __name__ == '__main__':
    # ********** Begin ********** #
    # 使用sklearn中的make_classification函数构建二分类的数据，样本数量为100
    X, y = make_classification(n_samples=100, n_features=20, n_informative=2, n_redundant=10, random_state=42, flip_y=0.1)
 
    # 将数据集拆分成测试集与训练集，训练集占所有数据的80%
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
 
    # 进行模型训练并评估模型
    model = LogisticRegression(max_iter=1000, random_state=42)
    model.fit(X_train, y_train)
 
    # 预测测试集结果
    y_pred = model.predict(X_test)
 
    # 评估模型的准确率
    accuracy = accuracy_score(y_test, y_pred)
    print(round(accuracy, 1))
    # ********** End ********** #
```
第2关：超参数

任务描述

本关任务：编写一个使用网格搜索进行最佳参数寻找的程序

相关知识

为了完成本关任务，你需要掌握：1.模型欠拟合和过拟合的解决方案。2.使用网格搜索进行寻找最佳超参数

模型参数与超参数

模型参数 简单来说，模型参数就是模型内部可以通过计算的到的，例如线性回归中的的系数

通常，我们要获取最好的模型参数是由一些优化算法来获取的

模型超参数 而模型超参数是模型外部就已经确定了值，在模型内部无法进行修改的，例如线性回归中梯度下降中使用的学习速率

对于指定的问题，一般我们是无法知道最好的模型超参数的，只能由平常设置参数的经验或者反复去实验寻找超参数

过拟合和欠拟合

欠拟合对于给定的数据集，欠拟合的成因大多是模型不够复杂、拟合函数能力不够，为此，可以增加迭代次数继续训练、尝试更换其他算法、增加模型的参数数量和复杂程度，或者采用集成方法

过拟合过拟合成因是给定的数据集相对过于简单，使得模型在拟合函数时过分的考虑了噪声等不必要的数据间的关联。或者说相对于给定数据集，模型过于复杂、拟合能力过强

解决方案：

提前停止训练：

减少训练的迭代次数，理论上来说，可以找到一个训练程度，使得验证集误差率最低，视为拟合效果最好的点

正则化：

L0正则化

损失函数后面加入L0范数λ||w||0,也就是权向量中非零参数的个数他的特点是可以实现参数的稀疏性，是尽可能多的参数值为0，这与稀疏编码的思想温和，但是缺点在于优化比较困难，因此实际更常用的是L1范数

L1正则化

损失函数L0后面加上参数（权向量w）的L1范数项:λ||w||1=λ∑ni=1||wi||1，其中 n 是权向量 w 的长度(参数数量)，λ 是正则化参数，用来调和L0 与正则项 L1正则项等价于先验概率服从拉普拉斯分布；L1范数是L0范数的最优凸近似，比L0范数容易优化，而且也可以很好地实现参数稀疏性，常别称作“稀疏规则算子”，因此相对L0正则化更常用。同时L1和L0因为具有使参数稀疏的特点，常用于特征选择。

L2正则化

损失函数L0后面加上参数L2范数的平方项：λ2n||w||22=λ2n∑ni=1w2i 　，其大小由参数weight-decay(权值衰减)调节其中分母有无n均可，L2正则项等价于先验概率服从高斯分布；与L0,L1不同的是，L2很难使某些参数达到0，它只能使参数接近0。如今在许多问题中，更常用L2正则是因为：一方面我们通常想考虑更多的参数对问题的影响（因此不能让参数稀疏），另一方面在优化时，L2范数有利于解决condition number: k(A)=||A||||A−1||　　太大（远大于1）的情况下（此时存在某些参数，对结果有过大的影响）矩阵求逆很困难的问题，这使得优化求解变得更快更稳定。

上述解决模型过拟合和欠拟合问题的方式中，涉及到一些超参数在sklearn中，可以使用网格搜索的方式寻找最佳的参数

逻辑回归网格搜索

在sklearn中，GridSearchCv 用来生成超参数的组合，自动选择效果最好的参数。 sklearn.linear_model.LogisticRegressionCV(*, Cs=10, fit_intercept=True，penalty='l2', tol=0.0001, max_iter=100)

cs:cs中的每个值都描述了正则强度的倒数，较小的值指定更强的正则化 fit_intercept:指定是否将常量添加到决策函数 penalty：使用的正则化规范，默认值为"l2" tol:停止训练的标准 max_iter:优化算法最大迭代次数
- from sklearn.linear_model import LogisticRegressionCV
- logistic = LogisticRegressionCV()
- from sklearn.model_selection import GridSearchCV
- # param说明
- # {参数名1：[参数值1，参数值2]，...}
- param = {
- 'penalty':["l1", "l2"],
- 'c':[1, 10]
- }
- # 参数说明：
- # logistic 逻辑回归分类器
- # param_dict 超参字典
- model = GridSearchCV(logistic, param_dict=param)
- # 使用网格搜索进行模型训练找出最佳参数
- model.fit(x, y)
编程要求

根据提示，在右侧编辑器补充代码，完善代码，使得代码能够通过测试

测试说明

平台会对你编写的代码进行测试：

预期输出： 测试通过

第2关任务——代码题
```
from sklearn.linear_model import LogisticRegressionCV
from sklearn.model_selection import GridSearchCV,train_test_split
from sklearn.datasets import load_iris
 
 
def model_train(x_train, x_test, y_train, y_test):
    # ********** Begin ********** #
    # 设置param进行网格搜索参数设置
    param_dict = {'Cs': [0.1, 1, 10], 'penalty': ['l1', 'l2']}
    # {参数名1：[参数值1， 参数值2]，...}
    # 参数说明：
    # logistic 逻辑回归分类器
    logistic = LogisticRegressionCV(cv=5)
    # param_dict 超参字典
    # 使用网格搜索进行模型训练找出最佳参数
    grid_search = GridSearchCV(logistic, param_grid=param_dict, cv=5)
    grid_search.fit(x_train, y_train)
    # 计算模型在测试集上的准确率
    score = grid_search.score(x_test, y_test)
    # ********* End ********** #
    return score
 
if __name__ == '__main__':
    iris = load_iris()
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2)
    score = model_train(x_train, x_test, y_train, y_test)
    if score >= 0.8:
        print("测试通过")
    else:
        print("测试失败")
```
相关阅读:
Disruptor在流程编排中的应用与探索
 “精准分割视频，误差降低至零——视频剪辑的新革命！”
D. Chip Move（思维，模拟）
PCL 点云按时间进行分段
 Learn Prompt- Midjourney案例:网页设计
 导入导出问题
 记一次gateway微服务启动报错
 C++---哈希
 【论文报告】2022 | HIRE：首个基于HGNN的即插即用的通用高效知识蒸馏框架
 Flutter 中使用 extension 使项目更具可读性和效率 01
原文地址：https://blog.csdn.net/absths/article/details/139835037