python常用pandas函数nlargest / nsmallest及其手动实现

`pandas`是Python中一个非常强大的数据处理库，它提供了大量的函数和方法来进行数据分析和操作。`nlargest`和`nsmallest`是`pandas`中两个非常有用的函数，它们可以用来快速找出Series或DataFrame中最大或最小的n个值。

### `nlargest`

`nlargest`函数用于获取数据中最大的n个值。对于Series，其基本语法如下：

```python
Series.nlargest(n, keep='first')
```

对于DataFrame，其基本语法如下：

```python
DataFrame.nlargest(n, columns, keep='first')
```

- `n` 是要返回的元素数量。
- `columns` 是DataFrame中用于选择最大值的列名。
- `keep` 参数用于在遇到相等的值时如何处理，'first' 表示保留第一个遇到的值，'last' 则相反，而'all' 则保留所有相同的最大值。

### `nsmallest`

`nsmallest`函数用于获取数据中最小的n个值。其基本用法与`nlargest`类似。

### 手动实现`nlargest`和`nsmallest`

虽然`pandas`提供了这些方便的函数，但了解如何手动实现它们也是很有用的。以下是一个简单的实现方式，使用了`sort_values`方法：

```python
import pandas as pd

# 创建一个示例DataFrame
df = pd.DataFrame({
'A': [1, 2, 3, 4, 5],
'B': [5, 4, 3, 2, 1]
})

# 手动实现nlargest
def manual_nlargest(df, n, column):
return df.sort_values(by=column, ascending=False).head(n)

# 手动实现nsmallest
def manual_nsmallest(df, n, column):
return df.sort_values(by=column).head(n)

# 使用手动实现的函数
print(manual_nlargest(df, 3, 'A'))
print(manual_nsmallest(df, 3, 'A'))
```

这里我们使用了`sort_values`方法来对DataFrame进行排序，然后通过`head(n)`方法获取前n个最大或最小的值。

虽然这种手动方法较为简单，但在处理非常大的数据集时，可能不如`pandas`的`nlargest`和`nsmallest`函数高效。这是因为`pandas`的这些函数在内部实现了优化，可以更快地处理大规模数据。

相关阅读:
从零开始的C++（十七）
MySQL — VARCHAR 长度截断问题
2022 年前40道 ReactJS 面试问题和答案
Spring源码-6.动态代理原理分析
指令系统（408）
【MySQL】关于MySQL升级到8.0版本的实践方案
onnxruntime（c++）
市场调研实业怎样使用自动化程序自动识别信息
帆软学习记录
Android 应用启动过程优化

原文地址：https://blog.csdn.net/2301_79507619/article/details/136464376