数据分析 | Pandas 200道练习题，每日10道题，学完必成大神（5） - 码农知识堂

数据分析 | Pandas 200道练习题，每日10道题，学完必成大神（5）
文章目录
- 前期准备
  1. 将create Time列设置为索引
  2. 生成一个和df长度相同的随机数DataFrame
  3. 将上一题生成的DataFrame与df合并
  4. 生成的新的一列new值为salary列减去之前生成的随机数列
  5. 检查数据中是否含有空值
  6. 将salary类型转换成浮点数
  7. 计算salary 大于10000的次数
  8. 查看education共有几种学历
  9. 查看每种学历出现的次数
  10. 提取salary与new的和大于60000的最后3行
本章的10道题仍然是基于前章的文件，主要学习了有设置索引、合并两个DataFrame对象、更改数据类型，不同列之间的运算，统计一列不同值得个数以及不同值分别出现得次数，还有如何灵活的运用布尔值运算。

前期准备
```
##  前期准备
本章的十道题与前面的试题相连接，数据集用的同一个数据集一些操作也是基于上一个练习的

本次导包多导入了一个绘图的包，在这里我们只是简单的应用，后面会有详细的讲解用法
```python
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt 
1
2
3
4
5
6
7
8
```
数据集没有的可以私信我，也可以直接去我的资源里面找
```
df = pd.read_excel('data1.xlsx')
def fun(x):
    a,b = x.split('-')
    a = int(a.strip('k'))*1000
    b = int(b.strip('k'))*1000
    return int((a+b)/2)
df['salary'] = df['salary'].apply(fun)
1
2
3
4
5
6
7
```
1. 将create Time列设置为索引

set_index() 将DataFrame的某一列快速设置成索引(index)默认会删除原来的列同样也可以是使用drop=False不删除原来的列
```
df.set_index('createTime')
1
```
2. 生成一个和df长度相同的随机数DataFrame

随机数的范围1-1000
随机生成
```
df1=pd.DataFrame(pd.Series(np.random.randint(1,1000,df.shape[0])))
1
```
3. 将上一题生成的DataFrame与df合并

其实这个题本质上就是合并两个DataFrame对象
- 使用merge
  这个merge多用于内连接和外连接
```
pd.merge(df,df1) 
1
```
- 使用concat
```
df = pd.concat([df,df1],axis=1)
df
1
2
```
- 使用join
```
df.join(df1)
1
```
两个合并之后的情况

 4. 生成的新的一列new值为salary列减去之前生成的随机数列
```
df['new'] = df['salary'].astype('int') - df['rom']
df
1
2
```
5. 检查数据中是否含有空值

isnull()对所有的元素判断是否是空值

any() 当序列中有一个True值时返回True否则返回False
all() 当序列中所有的值为True值时返回True否则返回False
```
df.isnull().values.any()
1
```
6. 将salary类型转换成浮点数

类型转换
这种方式并不会修改原数据，会返回一个修改后的新对象
```
df['salary'].astype('float') # 方式1
df['salary'].astype(np.float64) # 方式2
1
2
```
7. 计算salary 大于10000的次数

其实这个里面用了一个布尔值计算的等价计算

True代表1 False代表0
```
sum(df['salary']>10000)
1
```
8. 查看education共有几种学历

统计一列中的不同值得个数
```
# 方式1
df.education.nunique()
# 方式2
df['education'].nunique()
1
2
3
4
```
9. 查看每种学历出现的次数

统计每一种值出现得次数
```
df['education'].value_counts()  # 方式1

df.education.value_counts()     # 方式2
1
2
3
```
10. 提取salary与new的和大于60000的最后3行

推荐使用前两种
```
# 提取salary与new的和大于60000的最后3行
# 方式1
df[df['salary']+df['new']>60000].tail(3)
# 方式2
df[df['salary']+df['new']>60000][-3:]

# 方式3 
df2 = df[['salary','new']]
rowsums = df2.apply(np.sum,axis=1)
res = df.iloc[np.where(rowsums>60000)[0][-3:],:]
res
1
2
3
4
5
6
7
8
9
10
11
```
期待您的关注
相关阅读:
气传导耳机什么意思？备受好评的气传导耳机推荐
 PCB - 封装焊盘阻焊层的检查
 pytest-gitignore插件详解
 synchronized下的 i+=2 和 i++ i++执行结果居然不一样
 注意分号；的在语法节奏感
 Python小游戏——小鸟管道游戏【含完整源码】
RabbitMQ的工作模式——WorkQueues
在Windbg中设置断点追踪打开软件远程调试开关的模块
 【Python】模块与包的组织
 JVM 知识点全面梳理！
原文地址：https://blog.csdn.net/qq_52007481/article/details/127579502

数据分析 | Pandas 200道练习题，每日10道题，学完必成大神（5）

文章目录

前期准备

1. 将create Time列设置为索引

2. 生成一个和df长度相同的随机数DataFrame

3. 将上一题生成的DataFrame与df合并

4. 生成的新的一列new值为salary列减去之前生成的随机数列

5. 检查数据中是否含有空值

6. 将salary类型转换成浮点数

7. 计算salary 大于10000的次数

8. 查看education共有几种学历

9. 查看每种学历出现的次数

10. 提取salary与new的和大于60000的最后3行