• 1、案例二:使用Pandas库进行进行机器学习建模步骤【Python人工智能】


    人工智能和机器学习项目中,数据处理是一个至关重要的环节。Pandas是Python中一个强大的数据处理库,它提供了高效、灵活的数据结构和数据分析工具。下面是一个使用Pandas库进行数据处理的例子,涉及数据清洗、特征工程和基本的统计分析。

    示例:泰坦尼克号乘客生存预测

    在这个例子中,我们使用著名的泰坦尼克号乘客数据集。我们的目标是通过数据处理和特征工程,为机器学习模型预测乘客是否能生存提供清洗后的数据。

    1. 导入必要的库
    1. import pandas as pd
    2. import numpy as np
    2. 加载数据
    1. # 读取CSV文件到Pandas DataFrame
    2. df = pd.read_csv('titanic.csv')

    3. 数据预览

    1. # 显示数据前几行
    2. print(df.head())
    3. # 查看数据的基本信息
    4. print(df.info())
    5. # 查看数据统计信息
    6. print(df.describe())
    4. 数据清洗
    1. 处理缺失值
      1. # 查看每列的缺失值
      2. print(df.isnull().sum())
      3. # 填充缺失的年龄(使用中位数)
      4. df['Age'].fillna(df['Age'].median(), inplace=True)
      5. # 填充缺失的登船港口(使用最常见的值)
      6. df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)
      7. # 舍弃包含大量缺失值的列(如客舱号)
      8. df.drop(columns=['Cabin'], inplace=True)

    2. 转换分类变量为数值型
      1. # 使用Pandas的get_dummies方法进行独热编码
      2. df = pd.get_dummies(df, columns=['Sex', 'Embarked'], drop_first=True)
      5. 特征工程
    • 创建新的特征
      1. # 创建家庭成员总数特征
      2. df['FamilySize'] = df['SibSp'] + df['Parch'] + 1
      3. # 创建是否独自一人旅行特征
      4. df['IsAlone'] = (df['FamilySize'] == 1).astype(int)

    • 特征选择

      1. # 选择有用的特征进行建模
      2. features = ['Pclass', 'Age', 'Fare', 'FamilySize', 'IsAlone', 'Sex_male', 'Embarked_Q', 'Embarked_S']
      3. X = df[features]
      4. y = df['Survived']
      6. 数据标准化
      1. from sklearn.preprocessing import StandardScaler
      2. scaler = StandardScaler()
      3. X = scaler.fit_transform(X)
      7. 简单的统计分析
      1. # 计算各类乘客的生存率
      2. survival_rate = df.groupby('Pclass')['Survived'].mean()
      3. print(survival_rate)
      4. # 查看不同性别的生存率
      5. gender_survival_rate = df.groupby('Sex_male')['Survived'].mean()
      6. print(gender_survival_rate)
      8. 准备训练模型

      我们已经完成了数据清洗和特征工程,现在可以使用处理后的数据进行机器学习模型的训练。例如,使用逻辑回归模型:

      1. from sklearn.linear_model import LogisticRegression
      2. from sklearn.model_selection import train_test_split
      3. from sklearn.metrics import accuracy_score
      4. # 分割数据集为训练集和测试集
      5. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
      6. # 初始化和训练逻辑回归模型
      7. model = LogisticRegression()
      8. model.fit(X_train, y_train)
      9. # 预测和评估模型
      10. y_pred = model.predict(X_test)
      11. accuracy = accuracy_score(y_test, y_pred)
      12. print(f'模型准确率: {accuracy:.2f}')

      结论

      通过这个例子,我们展示了如何使用Pandas库进行数据加载、清洗、特征工程和简单的统计分析。这些步骤是进行机器学习建模的基础,能够帮助我们准备高质量的数据,为模型提供可靠的输入。

  • 相关阅读:
    【计算机网络(1)】计算机网络体系结构1:计算机网络概述
    基于kafka项目之Keepalived高可用详细介绍
    leetcode算法题--把数组排成最小的数
    SpringBoot集成Mybatis-Plus
    记录一次makefile + dockerfile + dockerfile-compose + shell 部署项目
    <C++>三大特性 继承:你真的get到了吗?
    白嫖Amazon MemoryDB并构建你专属的Redis内存数据库
    C++ —— 单机软件加入Licence许可权限流程(附详细流程图、详细代码已持续更新..)
    从零开始操作系统-08:计时器
    软设上午题错题知识点8
  • 原文地址:https://blog.csdn.net/zxwscau/article/details/140054346