• 开源的 Python 数据分析库Pandas 简介


             阅读本文之前请参阅-----如何系统的自学python

            Pandas 是一个开源的 Python 数据分析库,它提供了高性能、易用的数据结构和数据分析工具。Pandas 特别适合处理表格数据,例如时间序列数据、异构数据等。以下是对 Pandas 的简明扼要的介绍,包括一些基本的概念和操作示例。

            Pandas 的核心数据结构

    1. **Series**:一维的带标签数组,可以存储任何数据类型(整数、字符串、浮点数、Python 对象等)。
    2. **DataFrame**:二维的表格型数据结构,具有灵活的行索引和可变的列名。DataFrame 可以被看作是一个由 Series 组成的字典。

            安装 Pandas

    在 Python 环境中,你可以使用 pip 来安装 Pandas:

    1. pip install pandas

            创建 Series

    创建一个 Series 非常简单,你只需要传递一个列表或数组给 Series 构造器,并为它指定一个索引。

    1. import pandas as pd
    2. # 创建一个 Series
    3. s = pd.Series([1, 3, 5, 7, 9], index=['a', 'b', 'c', 'd', 'e'])
    4. print(s)

    输出:


    a    1
    b    3
    c    5
    d    7
    e    9
    dtype: int64
     

            创建 DataFrame

    DataFrame 可以通过多种方式创建,例如从一个字典、一个列表的列表、一个 Series 的字典等。

    1. ```python
    2. # 创建一个 DataFrame
    3. df = pd.DataFrame({
    4.     'Name': ['Alice', 'Bob', 'Charlie'],
    5.     'Age': [24, 27, 22],
    6.     'Salary': [85000, 92000, 60000]
    7. })
    8. print(df)

    输出:


           Name  Age  Salary
    0    Alice   24   85000
    1      Bob   27   92000
    2  Charlie   22   60000
     

            数据访问

    在 Pandas 中,你可以使用多种方式来访问数据。

    1. # 访问单个值
    2. print(df.loc[0, 'Name'])  # 输出:Alice
    3. # 访问多行多列
    4. print(df.loc[0:1, ['Name', 'Age']])
    5. # 访问列
    6. print(df['Name'])
    7. # 访问行
    8. print(df.loc[0])
    9. # 使用条件访问数据
    10. print(df[df['Age'] > 25])

            数据操作

    Pandas 提供了丰富的数据操作功能,包括排序、筛选、合并、分组等。

    1. # 排序
    2. df_sorted = df.sort_values(by='Age', ascending=False)
    3. print(df_sorted)
    4. # 筛选
    5. df_filtered = df[df['Salary'] > 70000]
    6. print(df_filtered)
    7. # 合并
    8. df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
    9. df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
    10. df_merged = pd.merge(df1, df2, on='A')
    11. print(df_merged)
    12. # 分组
    13. grouped = df.groupby('Name')['Salary'].mean()
    14. print(grouped)

            数据清洗

    Pandas 提供了多种数据清洗工具,例如处理缺失值、重复值等。

    1. # 处理缺失值
    2. df['Missing'] = [1, 2, None, 4]
    3. df_cleaned = df.dropna()  # 删除包含缺失值的行
    4. print(df_cleaned)
    5. # 处理重复值
    6. df['Duplicate'] = [1, 1, 2, 2]
    7. df_unique = df.drop_duplicates()  # 删除重复的行
    8. print(df_unique)

            数据聚合

    Pandas 允许你对数据进行聚合操作,例如计算总和、平均值、最大值、最小值等。

    1. # 聚合操作
    2. print(df.sum())  # 计算每列的总和
    3. print(df.mean())  # 计算每列的平均值
    4. print(df.max())  # 计算每列的最大值
    5. print(df.min())  # 计算每列的最小值

            时间序列分析

    Pandas 在处理时间序列数据方面非常强大,它提供了许多用于日期和时间的工具。

    1. # 创建时间序列数据
    2. dates = pd.date_range('20230101', periods=3)
    3. ts = pd.Series([1.5, -1.2, 2.8], index=dates)
    4. print(ts)
    5. # 时间序列操作
    6. print(ts.resample('D').mean())  # 按天聚合数据

            结论

            Pandas 是一个功能强大的数据分析库,它提供了丰富的数据结构和数据分析工具。通过使用 Pandas,你可以轻松地进行数据清洗、处理、分析和可视化。无论是数据科学家、数据分析师还是数据工程师,Pandas 都是 Python 生态系统中不可或缺的一部分。掌握 Pandas 的基本用法,将极大地提高你的数据处理能力。

  • 相关阅读:
    企典软件:一套系统解决85%以上企业管理难题
    动态内存管理
    LeetCode-66-加一
    见鬼了!我家的 WiFi 只有下雨天才能正常使用...
    狂神。SpringBoot学习(1)
    第四篇文章:Object类(equals方法和hashcode方法)
    配置Maven并使用IDEA新建一个简单的Springboot项目
    第15章、 友元、异常和其他
    给电脑一键重装系统后找回照片查看器的方法
    uniapp小程序才到第五层就报错navigateto:fail webview count limit exceed
  • 原文地址:https://blog.csdn.net/u013558123/article/details/136344630