码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 癌症分类预测-良/恶性乳腺癌肿瘤预测


    数据介绍

    • https://archive.ics.uci.edu/ml/machine-learning-databases/icon-default.png?t=M7J4https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/

      数据描述

      (1)699条样本,共11列数据,第一列用语检索的id,后9列分别是与肿瘤

      相关的医学特征,最后一列表示肿瘤类型的数值。

      (2)包含16个缺失值,用”?”标出。

    分析

    1. 获取数据
    2. 基本数据处理
    3.      缺失值处理
    4.      确定特征值  目标值
    5.      分割数据
    6. 特征工程(标准化)
    7. 机器学习(逻辑回归)
    8. 模型评估

    代码实现

    1. import pandas as pd
    2. import numpy as np
    3. from sklearn.model_selection import train_test_split
    4. from sklearn.preprocessing import StandardScaler
    5. from sklearn.linear_model import LogisticRegression
    6. #ssl报错的话就导入
    7. import ssl
    8. ssl._create_default_https_context = ssl._create_unverified_context
    1. # 1.获取数据
    2. names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape',
    3. 'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin',
    4. 'Normal Nucleoli', 'Mitoses', 'Class']
    5. data = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",
    6. names=names)
    7. data.head()

    上述代码可以直接导入先看看结果,因为列名不对 所以才用names指定列名

    1. # 2.基本数据处理
    2. # 2.1 缺失值处理
    3. data = data.replace(to_replace="?", value=np.NaN)
    4. data = data.dropna()
    5. # 2.2 确定特征值,目标值
    6. x = data.iloc[:, 1:10]
    7. x.head()
    8. y = data["Class"]
    9. y.head()
    10. # 2.3 分割数据
    11. x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)

    data.ioc[:,1:10]  解释

    :表示所有行

    1:10 表示1到10列

    1. # 3.特征工程(标准化)
    2. transfer = StandardScaler()
    3. x_train = transfer.fit_transform(x_train)
    4. x_test = transfer.transform(x_test)

    以上是对数据进行标准化处理

    1. # 4.机器学习(逻辑回归)
    2. estimator = LogisticRegression()
    3. estimator.fit(x_train, y_train)

    采用逻辑回归  将训练数据 和 训练的目标值y 传进去

    自动出结果

    1. # 5.模型评估
    2. y_predict = estimator.predict(x_test)
    3. y_predict
    4. estimator.score(x_test, y_test)

    用测试数据苹果预测结果!

  • 相关阅读:
    openGauss通过VIP实现的故障转移
    软件安全学习课程实践3:软件漏洞利用实验
    工业控制系统协议的安全性
    Rasa 3.x 学习系列-Rasa 3.2.1 新版本发布
    软件测试大环境求职难,跳槽难?我在大军中异军突起
    若依(ruoyi-vue)后端部署windows系统
    SpringBoot详解
    满满干货赶紧进来!!!轻松掌握C语言中的函数
    【细读经典】delay model and timing analysis
    前端HTML5 +CSS3 3. HMTL基础 3 表单标签
  • 原文地址:https://blog.csdn.net/weixin_44199723/article/details/126508227
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号