这篇博文是前一篇的拓展版,总结了更多的原始数据格式。
数据库下载的数据一般包含以下三个要素:
年份、个体、变量名
而这三类要素又可以通过两种方式储存在数据中。
通过行的方式进行储存、通过以列的方式进行储存
在stata的panel data形式中,我们需要的形式是:
变量名通过行的方式进行储存,年份和个体以列的方式进行储存。
不过我们仍然会碰到各种奇奇怪怪的数据储存方式。本文将总结各种类型的储存方式,以及处理这些特殊的数据储存方式。
1.变量名没有以行的方式进行储存(如下表所示)
处理思路:Long to wide。(需要进行一定的数据预处理)
- *由列转行
- spread 项目 税额
2.变量名没有以行的方式进行储存,同时个体名以行的方式进行储存
处理思路:Wide to long+Long to wide(同样需要进行一定的数据预处理)
- *由行转列
- gather 全省-省局稽查局,variable(市区) value(数量)
- *由列转行
- spread 项目 数量