码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Kaggle比赛:成人人口收入分类


    拿到数据首先查看数据信息和描述  

    1. import pandas as pd
    2. import seaborn as sns
    3. import matplotlib.pyplot as plt
    4. # 加载数据(保留原路径,但在实际应用中建议使用相对路径或环境变量)
    5. data = pd.read_csv(r"C:\Users\11794\Desktop\收入分类\training.csv", encoding='utf-8', encoding_errors='replace')
    6. # 查看数据信息和描述
    7. data.info()

    选择数值列进行相关性分析计算相关性矩阵绘制热力图  

    1. import pandas as pd
    2. import seaborn as sns
    3. import matplotlib.pyplot as plt
    4. # 加载数据(保留原路径,但在实际应用中建议使用相对路径或环境变量)
    5. data = pd.read_csv(r"C:\Users\11794\Desktop\收入分类\training.csv", encoding='utf-8', encoding_errors='replace')
    6. # 绘制热力图
    7. # 选择数值列进行相关性分析
    8. numerical_columns = data.select_dtypes(include=['int64', 'float64']).columns
    9. # 计算相关性矩阵
    10. correlation_matrix = data[numerical_columns].corr()
    11. # 绘制热力图
    12. plt.figure(figsize=(12, 10))
    13. sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', linewidths=0.5)
    14. plt.title('Correlation Heatmap')
    15. plt.savefig('correlation_heatmap.png', bbox_inches='tight') # 保存热力图到当前目录

    随后就是数据分割 ,创建并训练模型,这里我选择用决策树分类器  

    1. import pandas as pd
    2. from sklearn.model_selection import train_test_split
    3. from sklearn.tree import DecisionTreeClassifier # 导入决策树分类器
    4. from sklearn.metrics import classification_report
    5. import matplotlib.pyplot as plt
    6. from sklearn.metrics import roc_curve, auc
    7. import numpy as np
    8. # 加载数据(假设数据保存在CSV文件中)
    9. data = pd.read_csv(r"C:\Users\11794\Desktop\收入分类\training.csv", encoding='utf-8', encoding_errors='replace')
    10. test_data = pd.read_csv(r"C:\Users\11794\Desktop\收入分类\testing.csv", encoding='utf-8', encoding_errors='replace')
    11. # 选择特征和目标变量
    12. X = data.drop(['id', 'Class'], axis=1)
    13. y = data['Class'] # 目标变量是'Class'列
    14. # 数据分割
    15. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.01, random_state=42)
    16. # 创建并训练模型
    17. # 使用决策树分类器
    18. model = DecisionTreeClassifier(max_depth=30, random_state=42) # 修改此行
    19. model.fit(X_train, y_train)
    20. # 预测测试集并评估模型
    21. y_pred = model.predict(X_test)
    22. print(classification_report(y_test, y_pred)) # 打印分类报告
    23. # 选择test_data中的特征列
    24. test_X = test_data.drop(['id'], axis=1)
    25. # 使用训练好的模型进行预测
    26. test_y_pred = model.predict(test_X)

    准确率直接1.0 我没在验证集验证,比赛的文件也分享在csdn里了。

  • 相关阅读:
    通师高专科技创新社训练赛(20221127)
    基于Springboot的少儿编程管理系统(有报告)。Javaee项目,springboot项目。
    QT中什么时候使用智能指针:智能指针解决了什么
    SpingBoot整合Quartz框架实现动态定时任务(支持实时增删改查任务)
    net-java-php-python-个人财物管理系统计算机毕业设计程序个人财物管理系统计算机毕业设计程序
    layui+java spring 实现图片文件新增到数据库
    uniapp 微信小程序登录 新手专用 引入即可
    信息系统项目管理师必背核心考点(二十四)WBS分解的原则
    mybatis-plus 根据任意字段saveOrUpdateBatch
    怎么在火狐浏览器中添加IDM下载器扩展?
  • 原文地址:https://blog.csdn.net/2301_79675943/article/details/139756510
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号