• 超越NumPy和Pandas的Python库


    大家好,Python是世界上使用最广泛的编程语言之一,并为开发人员提供了大量的库。然而,当涉及到数据处理和科学计算时,用户通常会想到诸如NumpyPandasSciPy等库。

    本文将介绍3个你可能感兴趣的Python库。

    1.Dask

    Dask是一个灵活的并行计算库,可实现大规模数据处理的分布式计算和并行计算。

    Python已经发展成为数据分析和通用编程中的主流语言。这种增长得益于像NumPy、Pandas和scikit-learn等计算库。然而,这些包并不适用于超越单台机器的规模。当数据集超过内存时,Dask被开发出来原生地扩展这些包及其周边生态系统,以适应多核机器和分布式集群。

    当需要像使用Pandas一样常用时,使用Dask DataFrame,通常是因为Pandas在处理数据量或计算速度方面存在问题:

    • 处理大型数据集,即使这些数据集无法容纳在内存中

    • 通过使用多个内核加速长时间计算

    • 对使用标准Pandas操作的大型数据集进行分布式计算,例如groupbyjoin和时间序列计算

    因此,当需要处理巨大的Pandas数据帧时,Dask是一个不错的选择。这是因为Dask允许用户在笔记本电脑上处理100GB以上的数据集,或者在工作站上处理1TB以上的数据集。 

    Dask DataFrames协调许多按索引排列的Pandas DataFrames/Series。Dask DataFrame以行为单位进行分区,通过索引值对行进行分组,以提高效率。这些Pandas对象可以存在于磁盘上或其他机器上。 

    首先,需要安装Dask。可以通过pipconda进行安装,如下所示:

    1. $ pip install dask[complete]
    2. or
    3. $ conda install dask
    功能一:打开 csv 文件

    可以展示Dask的第一个功能,即如何打开CSV文件,如下所示:

    1. import dask.dataframe as dd
    2. # 使用Dask加载大型CSV文件
    3. df_dask = dd.read_csv('my_very_large_dataset.csv')
    4. # 在Dask DataFrame上执行操作
    5. mean_value_dask = df_dask['column_name'].mean().compute()

    因此,正如在代码中看到的,本文使用Dask的方式与Pandas非常相似。尤其是:

    • 使用read_csv()方法与Pandas完全相同

    • 截取列的方式与Pandas完全相同。事实上,如果有一个名为df的Pandas数据框架,我们会这样截取一列:df['column_name']

    • mean()方法应用于截取的列,这与Pandas类似,但这里还需要添加compute()方法。

    此外,即使打开CSV文件的方法与Pandas相同,Dask也能毫不费力地处理超过单台机器内存容量的大型数据集。

    这意味着,除了在Pandas中无法打开大型数据帧,而在Dask中可以打开之外,无法看到任何实际的差异。

    功能二:扩展机器学习工作流程

    可以使用Dask创建一个具有大量样本的分类数据集。然后可以将其分割为训练集和测试集,使用机器学习模型拟合训练集,并计算测试集的预测结果,如下所示:

    1. import dask_ml.datasets as dask_datasets
    2. from dask_ml.linear_model import LogisticRegression
    3. from dask_ml.model_selection import train_test_split
    4. # 使用Dask加载分类数据集
    5. X, y = dask_datasets.make_classification(n_samples=100000, chunks=1000)
    6. # 将数据分割为训练集和测试集
    7. X_train, X_test, y_train, y_test = train_test_split(X, y)
    8. # 并行训练逻辑回归模型
    9. model = LogisticRegression()
    10. model.fit(X_train, y_train)
    11. # 对测试集进行预测
    12. y_pred = model.predict(X_test).compute()

    该示例强调了Dask处理大规模数据集的能力,即使是在机器学习问题的情况下,也可以通过在多个内核之间分布计算来实现。

    具体而言,可以使用dask_datasets.make_classification()方法为分类问题创建一个“Dask dataset” ,并且可以指定样本数量和块大小(甚至是非常巨大的数量)。

    与之前类似,预测结果是通过compute()方法获得的。

    1. # 注意:
    2. # 在这种情况下,可能需要安装模块`dask_ml`。
    3. # 可以按以下方式进行安装:
    4. $ pip install dask_ml
    功能三:高效图像处理

    Dask所利用的并行处理能力也可以应用于图像处理。

    特别是可以打开多个图像,调整其大小,并保存调整后的图像。按以下方式操作:

    1. import dask.array as da
    2. import dask_image.imread
    3. from PIL import Image
    4. # 使用Dask加载图像集合
    5. images = dask_image.imread.imread('image*.jpg')
    6. # 并行调整图像大小
    7. resized_images = da.stack([da.resize(image, (300300)) for image in images])
    8. # 计算结果
    9. result = resized_images.compute()
    10. # 保存调整后的图像
    11. for i, image in enumerate(result):
    12.     resized_image = Image.fromarray(image)
    13.     resized_image.save(f'resized_image_{i}.jpg')

    因此,下面是整个过程:

    1. 使用dask_image.imread.imread("image*.jpg")方法打开当前文件夹中的所有".jpg"图像(或者可以指定一个文件夹)。

    2. 使用da.stack()方法和列表推导式将所有图像的大小调整为300x300。

    3. 使用compute()方法计算结果,就像之前一样。

    4. 使用for循环保存所有调整过大小的图像。

    2.SymPy

    如果需要进行数学计算,并希望使用Python进行操作,可以尝试使用SymPy。它旨在成为一个功能齐全的计算机代数系统(CAS),同时保持代码尽可能简单,以便易于理解和扩展,SymPy完全使用Python编写。

    SymPy具有以下特点:

    • 免费:SymPy采用BSD许可证,既具有言论自由,也免费。

    • 基于Python:SymPy完全使用Python编写,并使用Python作为其语言。

    • 轻量级:SymPy仅依赖于mpmath,这是一个用于任意浮点数算术的纯Python库,因此易于使用。

    • 作为库存在:除了作为交互工具使用外,SymPy还可以嵌入到其他应用程序中,并使用自定义函数进行扩展。

    首先需要安装:

    $ pip install sympy
    
    1. 请注意:
    2. 如果写成`$ pip install simpy`,将安装另一个(完全不同的!)库。
    3. 因此,第二个字母是"y",而不是"i"
    功能一:解代数方程

    如果需要解代数方程,可以这样使用SymPy:

    1. from sympy import symbols, Eq, solve
    2. # 定义符号
    3. x, y = symbols('x y')
    4. # 定义方程
    5. equation = Eq(x**2 + y**225)
    6. # 解方程
    7. solutions = solve(equation, (x, y))
    8. # 打印解
    9. print(solutions)
    10. >>>
    11. [(-sqrt(25 - y**2), y), (sqrt(25 - y**2), y)]

    所以,这就是整个过程:

    1. 使用symbols()方法定义方程的符号。

    2. 使用Eq方法编写代数方程。

    3. 使用solve()方法解方程。

    正如上述所看到的,SymPy是一个非常易读和用户友好的Python库。

    功能二:计算导数

    计算导数是在分析数据时可能需要的另一个数学任务,原因有很多。通常情况下,可能因为各种原因需要进行计算,而SymPy真正简化了这个过程。如下所示:

    1. from sympy import symbols, diff
    2. # 定义符号
    3. x = symbols('x')
    4. # 定义函数
    5. f = x**3 + 2*x**2 + 3*x + 4
    6. # 计算导数
    7. derivative = diff(f, x)
    8. # 打印导数
    9. print(derivative)
    10. >>>
    11. 3*x**2 + 4*x + 3

    因此,正如上述所看到的,这个过程非常简单和容易自解释:

    1. 使用symbols()方法定义要求导的函数的符号。

    2. 定义函数。

    3. 使用diff()计算导数,并指定函数和要计算导数的符号(这是一个绝对导数,但在具有xy变量的函数的情况下,甚至也可以进行计算偏导数)。

    如果进行测试,就会发现结果在2或3秒钟内就会出现。因此,它的速度也相当快。

    功能三:计算积分

    当然,如果SymPy可以计算导数,它也可以计算积分,如下所示:

    1. from sympy import symbols, integrate, sin
    2. # 定义符号
    3. x = symbols('x')
    4. # 执行符号积分
    5. integral = integrate(sin(x), x)
    6. # 打印积分
    7. print(integral)
    8. >>>
    9. -cos(x)

    所以,本文在这里使用integrate()方法,指定要积分的函数和积分变量。

     3.Xarray

    Xarray是一个扩展了NumPy特性和功能的Python库,使用户能够使用带有标签的数组和数据集进行工作。Xarray在类似于NumPy的原始多维数组之上引入了维度、坐标和属性形式的标签,这使得开发者的体验更加直观、简洁,减少了错误的发生。

    换句话说,它通过向数组维度添加标签或坐标来扩展NumPy数组的功能。这些标签提供了元数据,可以对多维数据进行更高级的分析和操作。

    例如,在NumPy中,使用基于整数的索引访问数组。而在Xarray中,每个维度都可以关联一个标签,这样就可以根据有意义的名称更容易地理解和操作数据。

    在Xarray中,用户可以使用arr.sel(x=0, y=1, z=2)来访问数据,其中xyz是维度的标签,而不是使用arr[0, 1, 2]来访问数据。

    首先要进行安装:

    $ pip install xarray
    
    功能一:使用标注坐标

    假设用户想创建与温度相关的一些数据,并且想将它们标记为纬度和经度等坐标,如下所示:

    1. import xarray as xr
    2. import numpy as np
    3. # 创建温度数据
    4. temperature = np.random.rand(100100) * 20 + 10
    5. # 创建经纬度坐标数组
    6. latitudes = np.linspace(-9090100)
    7. longitudes = np.linspace(-180180100)
    8. # 创建带有标注坐标的Xarray数据数组
    9. da = xr.DataArray(
    10.     temperature,
    11.     dims=['latitude''longitude'],
    12.     coords={'latitude': latitudes, 'longitude': longitudes}
    13. )
    14. # 使用标注坐标访问数据
    15. subset = da.sel(latitude=slice(-4545), longitude=slice(-900))

    如果打印出来,就会得到:

    1. # 打印数据
    2. print(subset)
    3. >>>
    4. array([[13.4506478629.1521806114.77363206, ..., 12.00262833,
    5.         16.4271241115.61353963],
    6.        [23.4749811720.2555424714.44056286, ..., 19.04096482,
    7.         15.6039849124.69535367],
    8.        [25.4897110520.6494453421.2263141 , ..., 25.80933737,
    9.         16.7262930229.48307134],
    10.        ...,
    11.        [10.1961583317.106716  , 10.79594252, ..., 29.6897709 ,
    12.         20.6854960229.4015482 ],
    13.        [26.5425330414.2193969911.085207  , ..., 15.56702191,
    14.         19.6428559518.03809074],
    15.        [26.5067635115.2121752623.63645069, ..., 17.22512125,
    16.         13.9694237713.93766583]])
    17. Coordinates:
    18.   * latitude   (latitude) float64 -44.55 -42.73 -40.91 ... 40.91 42.73 44.55
    19.   * longitude  (longitude) float64 -89.09 -85.45 -81.82 ... -9.091 -5.455 -1.818

    所以,接下来逐步了解这个过程:

    1. 将温度值创建为一个NumPy数组。

    2. 将纬度和经度值定义为NumPy数组。

    3. 使用DataArray()方法将所有数据存储在一个Xarray数组中。

    4. 使用sel()方法选择了一个经纬度子集,该方法为子集选择了我们想要的值。

    这样得到的结果也很容易阅读,因此标签在很多情况下非常有帮助。

    功能二:处理缺失数据

    假设用户正在收集与一年中与温度相关的数据,并且想知道数组中是否有空值,如下所示:

    1. import xarray as xr
    2. import numpy as np
    3. import pandas as pd
    4. # 创建有缺失值的温度数据
    5. temperature = np.random.rand(3655050) * 20 + 10
    6. temperature[0:10, :, :] = np.nan  # Set the first 10 days as missing values
    7. # 创建时间、纬度和经度坐标数组
    8. times = pd.date_range('2023-01-01', periods=365, freq='D')
    9. latitudes = np.linspace(-909050)
    10. longitudes = np.linspace(-18018050)
    11. # 创建带有缺失值的Xarray数据数组
    12. da = xr.DataArray(
    13.     temperature,
    14.     dims=['time''latitude''longitude'],
    15.     coords={'time': times, 'latitude': latitudes, 'longitude': longitudes}
    16. )
    17. # 沿时间维度计算缺失值的数量
    18. missing_count = da.isnull().sum(dim='time')
    19. # 打印缺失值
    20. print(missing_count)
    21. >>>
    22. array([[101010, ..., 101010],
    23.        [101010, ..., 101010],
    24.        [101010, ..., 101010],
    25.        ...,
    26.        [101010, ..., 101010],
    27.        [101010, ..., 101010],
    28.        [101010, ..., 101010]])
    29. Coordinates:
    30.   * latitude   (latitude) float64 -90.0 -86.33 -82.65 ... 82.65 86.33 90.0
    31.   * longitude  (longitude) float64 -180.0 -172.7 -165.3 ... 165.3 172.7 180.0

    这样,我们就得到了10个空数值。

    此外,如果我们仔细查看代码,就会发现我们可以将Pandas的方法应用到Xarray中,比如isnull.sum(),在本例中,它可以计算缺失值的总数。

    功能三:处理和分析多维数据

    当我们可以给数组贴标签时,处理和分析多维数据的诱惑就会很大。例如,假设用户仍在收集与特定纬度和经度相关的温度数据。

    我们可能想要计算温度的平均值、最大值和中值,可以进行如下操作:

    1. import xarray as xr
    2. import numpy as np
    3. import pandas as pd
    4. # 创建合成温度数据
    5. temperature = np.random.rand(3655050) * 20 + 10
    6. # 创建时间、纬度和经度坐标数组
    7. times = pd.date_range('2023-01-01', periods=365, freq='D')
    8. latitudes = np.linspace(-909050)
    9. longitudes = np.linspace(-18018050)
    10. # 创建Xarray数据集
    11. ds = xr.Dataset(
    12.     {
    13.         'temperature': (['time''latitude''longitude'], temperature),
    14.     },
    15.     coords={
    16.         'time': times,
    17.         'latitude': latitudes,
    18.         'longitude': longitudes,
    19.     }
    20. )
    21. # 对温度数据进行统计分析
    22. mean_temperature = ds['temperature'].mean(dim='time')
    23. max_temperature = ds['temperature'].max(dim='time')
    24. min_temperature = ds['temperature'].min(dim='time')
    25. # 打印数值
    26. print(f"mean temperature:\n {mean_temperature}\n")
    27. print(f"max temperature:\n {max_temperature}\n")
    28. print(f"min temperature:\n {min_temperature}\n")
    29. >>>
    30. mean temperature:
    31.  
    32. array([[19.9993170120.3639501620.04110699, ..., 19.98811842,
    33.         20.0889580319.86064693],
    34.        [19.8401649119.8707781220.27445405, ..., 19.8071972 ,
    35.         19.6266595319.58231185],
    36.        [19.6391116519.6205197619.61247548, ..., 19.85043831,
    37.         20.1308689119.80267099],
    38.        ...,
    39.        [20.1859051420.0593114920.17133483, ..., 20.52858247,
    40.         19.8388243320.66808513],
    41.        [19.5645557519.9009112820.32566232, ..., 19.88689221,
    42.         19.7881114519.91205212],
    43.        [19.8226829720.1424227919.60842148, ..., 19.68290006,
    44.         20.0032729419.68955107]])
    45. Coordinates:
    46.   * latitude   (latitude) float64 -90.0 -86.33 -82.65 ... 82.65 86.33 90.0
    47.   * longitude  (longitude) float64 -180.0 -172.7 -165.3 ... 165.3 172.7 180.0
    48. max temperature:
    49.  
    50. array([[29.9846553129.9760917129.96821276, ..., 29.86639343,
    51.         29.9506955829.98807808],
    52.        [29.9180204929.9287031229.87625447, ..., 29.92519055,
    53.         29.9964299 , 29.99792388],
    54.        [29.9664701629.7934891 , 29.89731136, ..., 29.99174546,
    55.         29.9726705229.96058079],
    56.        ...,
    57.        [29.9169911729.9892055529.83798369, ..., 29.90271746,
    58.         29.9374704129.97244906],
    59.        [29.9917191129.9905194329.92706773, ..., 29.90578739,
    60.         29.9943384729.94506567],
    61.        [29.9943862129.9879869929.97664488, ..., 29.98669576,
    62.         29.9129638229.93100249]])
    63. Coordinates:
    64.   * latitude   (latitude) float64 -90.0 -86.33 -82.65 ... 82.65 86.33 90.0
    65.   * longitude  (longitude) float64 -180.0 -172.7 -165.3 ... 165.3 172.7 180.0
    66. min temperature:
    67.  
    68. array([[10.0326431 , 10.0766602910.02795524, ..., 10.17215336,
    69.         10.0026490910.05387097],
    70.        [10.0035585810.0061094210.02567816, ..., 10.29100316,
    71.         10.0086179210.16955806],
    72.        [10.0163621610.0285661910.00389027, ..., 10.0929342 ,
    73.         10.0150410310.06219179],
    74.        ...,
    75.        [10.0047700310.0303088 , 10.04494723, ..., 10.05720692,
    76.         10.122994  , 10.04947012],
    77.        [10.0042218210.0211205 , 10.00183528, ..., 10.03818058,
    78.         10.0263269710.06722953],
    79.        [10.1099458110.1244522210.03002468, ..., 10.06937041,
    80.         10.0492404610.00645499]])
    81. Coordinates:
    82.   * latitude   (latitude) float64 -90.0 -86.33 -82.65 ... 82.65 86.33 90.0
    83.   * longitude  (longitude) float64 -180.0 -172.7 -165.3 ... 165.3 172.7 180.0

    然后获得了我们想要的结果,而且结果非常清晰易读。且正如之前所提到的,为了计算温度的最大值、最小值和平均值,本文使用了应用于数组的Pandas函数。

     

  • 相关阅读:
    Jmeter 分布式压测
    ElasticSearch中keyword和text类型区别和模糊查询
    用于非线性多载波卫星信道的多输入多输出符号速率信号数字预失真器DPD(Matlab代码实现)
    一文深刻解析UWB是什么技术?
    【软件与系统安全笔记】二、软件与系统安全基础
    Linux内核中ideapad-laptop.c文件全解析9
    使用css 与 js 两种方式实现导航栏吸顶效果
    计算机毕业设计ssm高校图书馆网站m7o77系统+程序+源码+lw+远程部署
    C语言牛客网(NowCoder)刷题篇
    Docker两个容器互相请求接口
  • 原文地址:https://blog.csdn.net/csdn1561168266/article/details/133190511