分类模型

生成虚拟变量
分类问题的因变量就是种类,定性的变量,要变为虚拟变量

- 清风采用SPSS软件进行分类问题求解
- 本人用mac懒得下载了,求解用在线版的spss pro或用代码python、matlab实现


- 逻辑回归精髓就是:y是分类变量,y>0.5发生,有y<0.5不发生
线性概率模型存在两个问题

- 为了方便写成向量乘积形式
- 第一个问题:显然可以看出存在内生性问题,x与u协方差不为0,有相关性,回归系数估计出来有偏
- 第二个问题:预测值存在>1或<0的情况,不合逻辑
解决第二个问题

- 添加一个连接函数,将x与y连接起来,保证函数值域在[0,1]之间,就能解决这个问题
- 给定x条件下,对y求期望(相当于y_hat)就等于y=1发生的概率
连接函数取法


- 采用sigmoid函数,因为用极大似然估计好算,方便

- 和线性概率模型的差别就是对于右边这一串添加一个连接函数,使其值域约束在[0,1]之间

论文中写:通过极大似然估计估计出β_hat,再用于预测y_hat
SPSS实战



本人在spss pro上试了一下,也挺好用的。【在线spss数据分析】零基础逻辑回归入门教程
不过好像无法实现预测。
之后会自学matlab和python上求解逻辑回归。这里主要学习模型求解过程与思想,以及论文写作


过拟合现象
预测结果差
- spss中求出来只有76%
- 由于逻辑回归是预测型回归而不是解释型回归,所以可以在回归模型中加入平方项、交互项

- 结果拟合优度非常好,百分之百,但是每个自变量的系数都不显著
- 其实这是过拟合现象

交叉验证
数据分为训练组和预测组

Fisher线性判别分析


- 定义一个类间距离和类内距离。目标函数是类间距离/类内距离,使函数取最大值,得到估计的ω。

- 然后带入一组样本数据就能得到分类

SPSS操作


- 放入论文中的:线性系数向量、成功率、需要预测的几个样本
多分类问题
原理:线性判别分析(LDA)和python实现(多分类问题)
(讲的不算特别好但暂时找不到其他的)





- 多元逻辑回归属于预测型回归
- 预测型回归更看重 R^2,而解释型回归更多的关注模型整体显著性以及自变量的统计显著性和经济意义显著性即可
- 所以可以忽略这里的多重共线性

作业:鸢尾花分类



本笔记来自清风老师的数学建模,强烈推荐该课程!