- # -*- coding: utf-8 -*-
-
- import pandas as pd
- from sklearn.cluster import KMeans
- """
- programmer_1-->关于原始数据的一些特征描述并保存为新表,使用describe函数
- programmer_2-->对原始数据进行清理,对其中某些数据做运算,并进行保存
- programmer_3-->标准化数据并进行保存
- programmer_4-->使用KMeans对数据进行聚类分析
- """
-
-
- def programmer_1():
-
- datafile = 'data/air_data.csv'
- resultfile = 'tmp/explore.xls'
-
- data = pd.read_csv(datafile, encoding='utf-8')
-
- # 包括对数据的基本描述,percentiles参数是指定计算多少的分位数表(如1/4分位数、中位数等);T是转置,转置后更方便查阅
- explore = data.describe(percentiles=[], include='all').T
- # describe()函数自动计算非空值数,需要手动计算空值数
- explore['null'] = len(data) - explore['count']
-
- explore = explore[['null', 'max', 'min']]
- explore.columns = [u'空值数', u'最大值', u'最小值']
- '''这里只选取部分探索结果。
-