• python常用pandas函数nlargest / nsmallest及其手动实现


    `pandas`是Python中一个非常强大的数据处理库,它提供了大量的函数和方法来进行数据分析和操作。`nlargest`和`nsmallest`是`pandas`中两个非常有用的函数,它们可以用来快速找出Series或DataFrame中最大或最小的n个值。

    ### `nlargest`

    `nlargest`函数用于获取数据中最大的n个值。对于Series,其基本语法如下:

    ```python
    Series.nlargest(n, keep='first')
    ```

    对于DataFrame,其基本语法如下:

    ```python
    DataFrame.nlargest(n, columns, keep='first')
    ```

    - `n` 是要返回的元素数量。
    - `columns` 是DataFrame中用于选择最大值的列名。
    - `keep` 参数用于在遇到相等的值时如何处理,'first' 表示保留第一个遇到的值,'last' 则相反,而'all' 则保留所有相同的最大值。

    ### `nsmallest`

    `nsmallest`函数用于获取数据中最小的n个值。其基本用法与`nlargest`类似。

    ### 手动实现`nlargest`和`nsmallest`

    虽然`pandas`提供了这些方便的函数,但了解如何手动实现它们也是很有用的。以下是一个简单的实现方式,使用了`sort_values`方法:

    ```python
    import pandas as pd

    # 创建一个示例DataFrame
    df = pd.DataFrame({
        'A': [1, 2, 3, 4, 5],
        'B': [5, 4, 3, 2, 1]
    })

    # 手动实现nlargest
    def manual_nlargest(df, n, column):
        return df.sort_values(by=column, ascending=False).head(n)

    # 手动实现nsmallest
    def manual_nsmallest(df, n, column):
        return df.sort_values(by=column).head(n)

    # 使用手动实现的函数
    print(manual_nlargest(df, 3, 'A'))
    print(manual_nsmallest(df, 3, 'A'))
    ```

    这里我们使用了`sort_values`方法来对DataFrame进行排序,然后通过`head(n)`方法获取前n个最大或最小的值。

    虽然这种手动方法较为简单,但在处理非常大的数据集时,可能不如`pandas`的`nlargest`和`nsmallest`函数高效。这是因为`pandas`的这些函数在内部实现了优化,可以更快地处理大规模数据。

  • 相关阅读:
    从零开始的C++(十七)
    MySQL — VARCHAR 长度截断问题
    2022 年 前40道 ReactJS 面试问题和答案
    Spring源码-6.动态代理原理分析
    指令系统(408)
    【MySQL】关于MySQL升级到8.0版本的实践方案
    onnxruntime(c++)
    市场调研实业怎样使用自动化程序自动识别信息
    帆软学习记录
    Android 应用启动过程优化
  • 原文地址:https://blog.csdn.net/2301_79507619/article/details/136464376