• 心血管疾病预测--逻辑回归实现二分类


    一、实现效果

      实现心血管疾病的预测准确率70%以上

    二、数据集介绍

     数据共计70000条,其中心血管疾病患者人数为34979,未患病人数为35021。数据特征属性12个分别为如下所示:生理指标(性别、年龄、体重、身高等)、 医疗检测指标(血压、血糖、胆固醇水平等)和患者提供的主观信息(吸烟、饮酒、运动等):

    age年龄
    gender性别 1女性, 2 男性
    height身高
    weight 体重
    ap_hi收缩压
    ap_lo 舒张压
    cholesterol胆固醇 1:正常; 2:高于正常; 3:远高于正常

    gluc 葡萄糖,1:正常; 2:高于正常; 3:远高于正常

    smoke 病人是否吸烟 alco 酒精摄入量

    active 体育活动

    cardio 有无心血管疾病,0:无;1:有

    数据来源;http://idatascience.cn/

    三、实现步骤

    3.1 数据导入与分析

    1. # 导入需要的工具包
    2. import pandas as pd # data processing
    3. import numpy as np
    4. import matplotlib.pyplot as plt
    5. #matplotlib inline
    6. import seaborn as sns # plot
    7. from sklearn.model_selection import train_test_split
    8. from sklearn.linear_model import LogisticRegression
    9. from sklearn.metrics import classification_report,confusion_matrix
    10. from sklearn.neighbors import KNeighborsClassifier
    11. from sklearn.preprocessing import StandardScaler
    12. import warnings
    13. warnings.filterwarnings("ignore")
    14. import random
    15. data = pd.read_csv('E: /心脏疾病预测分析/cardio_train.csv',sep=',')
    16. data.drop(columns=['id'],inplace=True)
    17. data.head()

     

     

     相关性分析

    1. correlations = data.corr()['cardio'].drop('cardio') #drop默认删除行
    2. print(correlations)

     

     

    3.2  划分数据集(训练数据集、测试数据集、验证数据集)

    1. # 切分数据集
    2. np.random.seed(1)#便于调试代码(设置种子-保证执行代码样本及结果一致--稳定复现结果)
    3. # 获取当前随机状态
    4. state = random.getstate()
    5. # 获取随机种子
    6. seed = state[1][0]
    7. msk = np.random.rand(len(data))<0.85
    8. df_train_test = data[msk]# 筛选出59450个随机样本
    9. df_val = data[~msk]#剩下的随机样本--用作验证数据集
    10. X = df_train_test.drop('cardio',axis=1)#删除最后一列,只包含样本特征
    11. y = df_train_test['cardio']#样本对应的标签
    12. X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=70)#调用的训练和测试数据集样本划分函数

    3.3  数据标准化

    1. # 数据标准化
    2. scale = StandardScaler()
    3. scale.fit(X_train)
    4. X_train_scaled = scale.transform(X_train)
    5. X_train_ = pd.DataFrame(X_train_scaled,columns=data.columns[:-1])#添加列名,除去最后一列名(标签)
    6. scale.fit(X_test)
    7. X_test_scaled = scale.transform(X_test)
    8. X_test_ = pd.DataFrame(X_test_scaled,columns=data.columns[:-1])

     3.4  特征选择

    逻辑回归默认的算法为:lbfgs,L2正则化项。

    模型的具体参数信息:

    1. #特征选择
    2. def feat_select(threshold):
    3. abs_cor = correlations.abs()
    4. features = abs_cor[abs_cor > threshold].index.tolist()
    5. return features
    6. def model(mod,X_tr,X_te):
    7. mod.fit(X_tr,y_train)
    8. pred = mod.predict(X_te)
    9. print('Model score = ',mod.score(X_te,y_test)*100,'%')#子集准确性
    10. # 逻辑回归
    11. #筛选出合适的阈值
    12. lr = LogisticRegression()
    13. #lr = LogisticRegression(penalty='l2', solver='saga')
    14. # lr = LogisticRegression(solver='newton-cholesky')
    15. # lr = LogisticRegression(solver='sag')
    16. # lr = LogisticRegression(solver='newton-cg')
    17. threshold = [0.001,0.002,0.005,0.01,0.02,0.05,0.06,0.08,0.1]
    18. for i in threshold:
    19. print("Threshold is {}".format(i))
    20. feature_i = feat_select(i)
    21. X_train_i = X_train[feature_i]#训练集
    22. X_test_i = X_test[feature_i]#测试集
    23. model(lr,X_train_i,X_test_i)
    24. feat_final = feat_select(0.005)# 筛选出重要特征,列表
    25. print(feat_final)

     3.5  预测及结果评估

    1. #验证数据集的标准化
    2. X_val = np.asanyarray(df_val[feat_final])#删除最后一列,只包含样本特征 --转换为数组
    3. y_val = np.asanyarray(df_val['cardio']) #--转换为数组
    4. scale.fit(X_val)
    5. X_val_scaled = scale.transform(X_val)
    6. X_val_ = pd.DataFrame(X_val_scaled,columns=df_val[feat_final].columns)
    7. #逻辑回归预测
    8. lr.fit(X_train,y_train)
    9. pred = lr.predict(X_val_)
    10. #结果评估
    11. print('Confusion Matrix =\n',confusion_matrix(y_val,pred))
    12. print('\n',classification_report(y_val,pred))
    13. lr.get_params()

     参考:

       sklearn.linear_model.LogisticRegression — scikit-learn 1.2.2 documentation

  • 相关阅读:
    【教3妹学算法】矩形面积 II
    一本通1061;求整数的和与均值
    浅谈UTON WALLET数字钱包及其安全性
    appium用例参数化
    SSD_SEND开头LCD初始化代码格式转换(MTK)
    SVG文件动态绘制echarts图表
    DAY-7 | 牛客-BM21 寻找旋转数组的最小元素:二分法分治思想真的很可靠
    Redis学习(11)|Redis键值管理与Spring Boot集成实战
    最强Java面试八股文秋招offer召唤术
    【力扣周赛】第 113 场双周赛(贪心&异或性质&换根DP)
  • 原文地址:https://blog.csdn.net/heda3/article/details/130442729