• 比pandas速度更快的数据分析工具-polars,已支持python语言


    Polars 是使用 Apache Arrow 列格式作为内存模型,使用rust语言实现,目前已经支持python、rust、nodejs编程语言。

    polars非标准库实现了多线程、查询优化以及强大的表达式接口,在同样场景的数据分析中效率提高了很多。

    开始之前,我们还是一如既往的来安装一下相关的python非标准库。除了这次需要安装的polars,我们安装pandas库来做运行效率上的对比。

    下面的测试案例是通过读取excel数据来观察效率的,polars读取excel数据时需要一个额外的python非标准库xlsx2csv。

    pip install pandas -i https://pypi.mirrors.ustc.edu.cn/simple/
    
    pip install polars -i https://pypi.mirrors.ustc.edu.cn/simple/
    
    pip install xlsx2csv -i https://pypi.mirrors.ustc.edu.cn/simple/
    
    • 1
    • 2
    • 3
    • 4
    • 5

    这里说一下我遇到的坑,本来开始是在windows7上面安装polars的,结果费了好大的劲缺了这个缺那个。最后换到windows10上面直接使用pip一下就安装成功了。

    话不多说,下面直接进入正题吧,先将我们测试执行效率需要的python模块导入进来。

    import pandas as pd
    import polars as pl
    import timeit  # 记录时间点的python库
    
    • 1
    • 2
    • 3

    开始处理数据之前我创建了两个data1.xlsx和data2.xlsx的Excel数据文件,接下来通过excel数据的读取时间以及数据合并的执行时间来看看pandas和polars的执行效率。

    1、数据读取时间

    使用pandas的read_excel函数来读取data1.xlsx中的数据,并记录开始和结束时间。

    begin = timeit.default_timer()
    df = pd.read_excel("C:/test/data1.xlsx")
    df = df.sort_values("年龄", ascending=False).head()
    end = timeit.default_timer()
    print('pandas读取data1.xlsx文件耗时: {} 秒'.format(str(end - begin)))
    
    # pandas读取data1.xlsx文件耗时: 1.3099589000000003 秒
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    使用polars的read_excel函数来读取data1.xlsx中的数据,并记录开始和结束时间。

    begin = timeit.default_timer()
    data = pl.read_excel("C:/test/data1.xlsx")
    data.sort(by="年龄", reverse=True).head()
    end = timeit.default_timer()
    print('polars读取data1.xlsx文件耗时: {} 秒'.format(str(end - begin)))
    
    # polars读取data1.xlsx文件耗时: 0.04866970000000004 秒
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    结果分析:从两者的读取时间上面来看,使用polars读取excel数据的时间直接比使用pandas的读取时间减少了三分之二。

    2、数据合并时间

    使用pandas的read_excel函数来读取data1.xlsx和data2.xlsx合并后的数据,并记录开始和结束时间。

    begin = timeit.default_timer()
    df_1 = pd.read_excel('C:/test/data1.xlsx')
    df_2 = pd.read_excel('C:/test/data2.xlsx')
    df_1.append(df_2, ignore_index=True)
    end = timeit.default_timer()
    print('pandas合并data1.xlsx和data2.xlsx文件数据耗时: {} 秒'.format(str(end - begin)))
    
    # pandas合并data1.xlsx和data2.xlsx文件数据耗时: 0.09114529999999998 秒
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    使用polars的read_excel函数来读取data1.xlsx和data2.xlsx合并后的数据,并记录开始和结束时间。

    begin = timeit.default_timer()
    data_1 = pl.read_excel('C:/test/data1.xlsx')
    data_2 = pl.read_excel('C:/test/data2.xlsx')
    data_1.vstack(data_2)
    end = timeit.default_timer()
    print('polars合并data1.xlsx和data2.xlsx文件数据耗时: {} 秒'.format(str(end - begin)))
    
    # # polars合并data1.xlsx和data2.xlsx文件数据耗时: 0.034866100000000344 秒
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    结果分析:从两者的合并数据的时间上面来看,使用polars读取excel数据的时间直接比使用pandas的读取时间也减少了将近三分之二。

    因此,个人觉得若是处理数据体量介于小体量及大体量数据之间的数据体量的数据处理则可以采用polars库来进行处理。毕竟相当庞大的数据体量还有spark等数据处理库。

  • 相关阅读:
    Netty(一)NIO-基础
    AJAX基于XML的数据交换、XML和JSON的区别
    C语言 数据在内存中的存储
    产品经理与项目经理的区别?
    【C++】模板(初级)
    Day20_脚手架,分析脚手架结构,render()函数
    高精度定时器学习(通过官方手册学习)
    036-第三代软件开发-系统时间设置
    canvas图片自适应和居中显示
    C#的预处理指令
  • 原文地址:https://blog.csdn.net/chengxuyuan_110/article/details/126860545