1. 查文献
- 知网:先看硕博士论文
- 谷歌学术镜像:http://scholar.scqylaw.com/
- Open Access Library:https://www.oalib.com/
2. 找数据
- 优先:知网,谷歌学术
- 国家统计局:https://data.stats.gov.cn/
- Github:包含经济、地理、能源、教育等数据。https://github.com/awesomedata/awesome-public-datasets
- EPSDATA 平台:EPSDATA平台有丰富的数据资源和大量分析处理过的数据结果,是收费的,不过可以申请7天的试用。https://www.epsnet.com.cn/index.html#/Index
- 其它:国家信息中心,kaggle,和鲸社区。
2. 数据预处理
2.1 缺失值
比赛提供的数据发现有些单元格是 null 或者是空的。
2.2 异常值
样本中明显和其他数值差异很大的数据,例如一群人的身高数据中有个3米2的。
找异常值:
-
正态分布 3
σ
\sigma
σ 原则
- 数值分布在 (
μ
−
3
σ
\mu-3\sigma
μ−3σ,
μ
+
3
σ
\mu+3\sigma
μ+3σ) 中的概率为 99.76%,其中
μ
\mu
μ 为平均值,
σ
\sigma
σ 为标准差。
- 求解步骤:1. 计算均值和标准差;2. 判断每个数据值是都在 (
μ
−
3
σ
\mu-3\sigma
μ−3σ,
μ
+
3
σ
\mu+3\sigma
μ+3σ) 内,不在则为异常值。
- 适用题目:总体符合正态分布,例如人口数据、测量误差、生产加工质量、考试成绩等。
- 不适用题目:总体符合其它分别,例如公交站人数排队论符合泊松分布。
-
画箱型图
- 箱型图中,把数据从小到大排序。下四分位数
Q
1
Q_1
Q1 是排第 25% 的数值,上四分位数
Q
3
Q_3
Q3 是排第 75% 的数值。
- 四分位距
I
Q
R
=
Q
3
−
Q
1
IQR = Q_3 - Q_1
IQR=Q3−Q1, 也就是排名第75%的减去第 25%的数值。
- 一般设
[
Q
1
−
1.5
×
I
Q
R
,
Q
3
+
1.5
×
I
Q
R
]
[Q_1 - 1.5 \times IQR, Q_3 + 1.5 \times IQR]
[Q1−1.5×IQR,Q3+1.5×IQR] 内为正常值。
- 适用题目:普遍使用。

- 灰色预测模型:https://www.bilibili.com/read/cv14816370/