数据分析是一项从自然环境、社会环境、网络环境中提取数据,实施分析,得出结论并验证的工作。

不是为了分析而做分析
针对特定的问题,用适当的学科知识从数据中提炼信息,形成结论


数据搜集:

数据清洗:
做数据清洗的原因:脏数据;不满足分析要求

可视化数据包含的信息不会超过数据本身,但是能让使用者更加容易发掘数据的信息。在数据可视化下,信息的获取、加工、输出会变得更加简洁。





正态性检验:QQ-plot

相关性检验:scatter matrix

时间序列:ACF

专业工具:
通用工具:

在分析过程中,存在一个或多个“目标”变量,使得我们需要去研究其他变量(称为独立变量,或者特征)如何影响这(些)个目标变量。
例如下面的2个案例:
单一目标变量占了绝大多数的场景。
当目标变量是连续型数值变量时,是回归模型,如案例1
当目标变量是取值为2或更多的类别型变量时,是分类模型,如案例2
回归:线性回归,部分广义线性回归,神经网络/深度学习模型等
分类:SVM,分类树,朴素贝叶斯,逻辑回归,kNN,神经网络/深度学习模型
排序:page rank
有监督模型的损失函数
𝑙𝑜𝑠𝑠 𝑓𝑢𝑛𝑐𝑡𝑖𝑜𝑛=𝑒𝑟𝑟𝑜𝑟 𝑐𝑜𝑠𝑡+𝑐𝑜𝑚𝑝𝑙𝑒𝑥𝑖𝑡𝑦 𝑐𝑜𝑠𝑡
说明:
回归和分类,并没有本质的区别。部分模型同时适用于二者,如ANN,DL,CART等
除了上述的单一模型外,还有各种集成模型。例如基于bagging 的随机森林,基于boosting 的AdaBoost,GBDT,xgboost。又: GBDT,xgboost仅仅是集成框架,不表示具体的回归或者分类模型
对特征:主成分分析、因子分析等
对样本:关联分析、部分聚类分析、复杂网络、生成模型(如自动编码机、GAN等)
说明
除了有/无监督外,还有半监督模型
增强学习不认为是有/无监督模型

R:
面向统计分析的编程语言,丰富的作图功能,开源
CRAN
Rstudio
install.packages(), library()
Python:
自由软件,胶水语言,免费的MATLAB
pip install yourPackage
import yourPackage as pkg
From yourPackage import yourFunction
数据源:
链接:https://pan.baidu.com/s/1B_7fPpYSt8fmSwSX0vNJqw
提取码:qjlf
根据提供的数据,按照要求,生成如下图形:

首先使用sql进行预处理:
select concat(sum(case when NAME_CONTRACT_TYPE = 'Cash loans' then 1 else 0 end)*100/count(*),'%') as Cash_loans,
concat(sum(case when NAME_CONTRACT_TYPE = 'Revolving loans' then 1 else 0 end)*100/count(*),'%') as Revolving_loans
from application_train_small
选中一行数据,插入->饼图->三维饼图的第一个

选择合适的图表布局 以及图表样式

根据提供的数据,按照要求,生成如下图形:

首先需要加工一下原数据:
select t.NAME_CONTRACT_TYPE,
concat(round(sum(case when t.CODE_GENDER = 'F' then 1 else 0 end)*100/count(*),2),'%') F,
concat(round(sum(case when t.CODE_GENDER = 'M' then 1 else 0 end)*100/count(*),2),'%') M
from application_train_small t
where t.NAME_CONTRACT_TYPE not in ('XNA')
group by t.NAME_CONTRACT_TYPE
选中一行数据,插入->柱形图->三维柱形图的第三个

出现如下图表:

先切换行和列,然后再选择第4个样例

最终出来的图表就是题目要求的

根据提供的数据,按照要求,生成如下图形:
