第五章Pandas数据载入与预处理

文章目录

1：选择题
2：判断题
3：填空题
4：简答题

1：选择题

1：利用下面哪个可视化绘图可以发现数据的异常点

A.密度图
B.直方图
C.盒图

D.概率图
知识点解析：
密度图：表现与数据值对应的边界或域对象的一种理论图形表示方法
直方图：直方图是数值数据分布的精确图形表示
盒图：是结构化编程中的一种可视化建模
概率图：用图来表示变量概率依赖关系的理论

2：以下关于缺失值检测的说法中，正确的是
A.null和notnull可以对缺失值进行处理
B.dropna方法既可以删除观测记录，还可以删除特征
C.fillna方法中用来替换缺失值的值只能是数据框
D.Pandas库中的interpolate模块包含了多种插值方法
**知识点解析：
处理缺失值的三种方法：isnull()，notnull()，isna()

3：在现实世界的数据中，缺失值是常有的，一般的处理方法有

A.忽略
B.删除
C.平均值填充
D.最大值填充

2：判断题

1：Pandas中利用merge函数合并数据表时默认的是内连接方式正确

2：Pandas中的描述性统计一般会包括缺失数据错误

3：语句dataframe.dropna(thresh=len(df)*0.9,axis=1) 表示如果某列的缺失值超过90%则删除该列错误
知识点解析：
格式：DataFrame.dropna(self, axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
用途：删除缺失的值。
thresh ： int，可选需要许多非NA值。
axis ： 0或’index’，1或’columns’，默认0确定是否删除包含缺失值的行或列。
0或’index’：删除包含缺失值的行。 1或“列”：删除包含缺失值的列。
可得此题应为：如果某列的缺失值不到90%则删除该列

4：利用merge方法合并数据时允许合并的DataFrame之间没有连接键错误

5：哑变量（Dummy Variables）又称虚拟变量，是用以反映质的属性的一个人工变量正确

6：Pandas中使用isnull().sum()可以统计缺失值正确

7：Pandas中的dropna中的thresh=N时表明要求一行有N个NaN值时该数据才能保留错误

8：DataFrame的duplicates方法可以用来删除重复数据错误

9:网络关联关系在大数据中是一种常见的关系正确

3：填空题

1：Pandas中drop方法中的参数how取值为 ___时表示只要某行有缺失值就将改行丢弃 any

2：Pandas中drop方法中的参数how取值为 ___时表示某行全部为缺失值就将改行丢弃 all

3：Pandas通过read_json函数读取___数据 JSON

4：Pandas要读取Mysql中的数据，首先要安装 ___包，然后进行数据文件读取 Mysqldb

5：Pandas要读取SQL sever中的数据，首先要安装 ___包，然后进行数据文件读取 pymssql

4：简答题

1：简述Pandas删除空缺值方法dropna中参数thresh的使用方法
dropna中的参数thresh当传入thresh = N时，表示要求一行至少具有N个非NaN才能存活

2：简述Python中利用数据统计方法检测异常值的常用方法及其原理
方法：a.散点图方法观察 b. 箱线图分析 c. 3σ法则
原理：标准正态分布下的曲线为钟型曲线，期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。因此对于一组数据，如果符合正态分布，则可以通过经验法则来检测异常值，同图中可以发现，68.2%的测量值落在μ值处正负一个标准差σ的区间内，95.4%的测量值将落在μ值处正负两个标准差σ的区间内，99.7%的值落在μ值处正负三个标准差σ的区间内。因此，对于一组符合正态分布的数据，如果某个值距离μ值超过三个标准差σ则可以判断这个值属于异常数据

3：简述数据分析中要进行数据标准化的主要原因
不同特征之间往往具有不同的量纲，由此造成数值间的差异很大。因此为了消除特征之间量纲和取值范围的差异可能会造成的影响，需要对数据进行标准化处理。

4：简述Pandas中利用cut方法进行数据离散化的用法
将数据的值域划分成具有相同宽度的区间，区间个数由数据本身的特点决定或由用户指定。Pandas提供了cut函数，可以进行连续型数据的等宽离散化。cut函数的基础语法格式为：
pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3)

相关阅读:
C++游戏引擎Easy2D教程（1） —— 第一个程序
【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（9 月 12 日论文合集）
【探索Linux】—— 强大的命令行工具 P.10（进程的控制——创建、终止、等待、程序替换）
预训练模型的多任务主动学习
stlink故障修复
直方图，条形图，饼图
使用Go语言测试Redis性能
SpringBoot 官网翻译
科大讯飞智慧课堂全新升级：深耕主场景、拥抱新样态
「BUAA OO Unit 2 HW8」第二单元总结

原文地址：https://blog.csdn.net/qq_52331221/article/details/128178231