1、汇总类统计
2、唯一去重和按值计数
3、相关系数和协方差
import pandas as pd
- fpath='./datas/beijing_tianqi/beijing_tianqi_2018.csv'
- df=pd.read_csv(fpath)
- df.head()
- df.loc[:,'bWendu']=df['bWendu'].str.replace('℃','').astype('int32')
- df.loc[:,'yWendu']=df['yWendu'].str.replace('℃','').astype('int32')
- df.head()
- #提取出所有数字列统计结果
- df.describe()
查看单个Series的数据---最高温度的平均值---df['bWendu'].mean()
- # 查看单个Series的数据---最高温度的平均值
- df['bWendu'].mean()
查看最高温度----df['bWendu'].max()
- #查看最高温度
- df['bWendu'].max()
最低温度----df['yWendu'].min()
- #最低温度
- df['yWendu'].min()
一般不用于数值列,而是枚举,分类列-----df[“ ” ].unique()
- df['fengxiang'].unique()
- df['tianqi'].unique()
- df['fengli'].unique()
- df['fengxiang'].value_counts()
- df['tianqi'].value_counts()
- df['fengli'].value_counts()
1.两只股票,是不是同涨同跌?程度多大?正相关还是负相关?
2.产品销量的波动,跟哪些因素正相关、负相关,程度有多大?
对于两个变量X、Y:
1.协方差︰衡量同向反向程度,如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;如果协方差为负,说明×,Y反向运动,协方差越小说明反向程度越高。
2.相关系数:衡量相似度程度,当他们的相关系数为1时,说明两个变量变化时的正向相似度最大,当相关系数为- 1时,说明两个变量变化的反向相似度最大¶
协方差矩阵-----df.cov()
- #协方差矩阵
- df.cov()
相关系数矩阵----df.corr()
- #相关系数矩阵
- df.corr()
单独查看空气质量和最高温度的相关系数----df['aqi'].corr(df['bWendu'])
- #单独查看空气质量和最高温度的相关系数
- df['aqi'].corr(df['bWendu'])
- df['aqi'].corr(df['yWendu'])
检测空气质量和温差的相关系数----df['aqi'].corr(df['bWendu']-df['yWendu'])
- #检测空气质量和温差的相关系数
- df['aqi'].corr(df['bWendu']-df['yWendu'])
以上就是特征方程对于机器学习重要性的一个例子
注:什么是特征方程?
特征方程是为研究相应的数学对象而引入的一些等式,它因数学对象不同而不同,包括数列特征方程、矩阵特征方程、微分方程特征方程、积分方程特征方程等等。
下面所介绍的仅仅是数列的特征方程。
一个数列:
设 有r,s使
所以
得
消去s就导出特征方程式