• Part 5:Pandas 数据统计函数【汇总类统计、唯一去重和按值计数、相关系数和协方差】


    Pandas 数据统计函数

    1、汇总类统计

    2、唯一去重和按值计数

    3、相关系数和协方差

    import pandas as pd

    1、预备步骤,对数据进行读取和预处理(将温度都改为Int类型)

    1. fpath='./datas/beijing_tianqi/beijing_tianqi_2018.csv'
    2. df=pd.read_csv(fpath)
    3. df.head()

     

    1. df.loc[:,'bWendu']=df['bWendu'].str.replace('℃','').astype('int32')
    2. df.loc[:,'yWendu']=df['yWendu'].str.replace('℃','').astype('int32')
    3. df.head()

    2、对数据进行汇总类统计 

    1. #提取出所有数字列统计结果
    2. df.describe()

    查看单个Series的数据---最高温度的平均值---df['bWendu'].mean() 

    1. # 查看单个Series的数据---最高温度的平均值
    2. df['bWendu'].mean()

    查看最高温度----df['bWendu'].max()

    1. #查看最高温度
    2. df['bWendu'].max()

    最低温度----df['yWendu'].min()

    1. #最低温度
    2. df['yWendu'].min()

    3、唯一去重和按值计算

    3.1唯一去重性

    一般不用于数值列,而是枚举,分类列-----df[“  ” ].unique()

    1. df['fengxiang'].unique()
    2. df['tianqi'].unique()
    3. df['fengli'].unique()

     

    4.2 按值计数(对数据探索十分有用)  

    1. df['fengxiang'].value_counts()
    2. df['tianqi'].value_counts()
    3. df['fengli'].value_counts()

     

    5、相关系数和协方差用途(超级厉害)︰

    1.两只股票,是不是同涨同跌?程度多大?正相关还是负相关?

    2.产品销量的波动,跟哪些因素正相关、负相关,程度有多大?

    对于两个变量X、Y:

    1.协方差︰衡量同向反向程度,如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;如果协方差为负,说明×,Y反向运动,协方差越小说明反向程度越高。

    2.相关系数:衡量相似度程度,当他们的相关系数为1时,说明两个变量变化时的正向相似度最大,当相关系数为- 1时,说明两个变量变化的反向相似度最大

     协方差矩阵-----df.cov()

    1. #协方差矩阵
    2. df.cov()

    相关系数矩阵----df.corr()

    1. #相关系数矩阵
    2. df.corr()

    单独查看空气质量和最高温度的相关系数----df['aqi'].corr(df['bWendu'])

    1. #单独查看空气质量和最高温度的相关系数
    2. df['aqi'].corr(df['bWendu'])
    3. df['aqi'].corr(df['yWendu'])

    检测空气质量和温差的相关系数----df['aqi'].corr(df['bWendu']-df['yWendu'])

    1. #检测空气质量和温差的相关系数
    2. df['aqi'].corr(df['bWendu']-df['yWendu'])

     

    以上就是特征方程对于机器学习重要性的一个例子 

    注:什么是特征方程?

    特征方程是为研究相应的数学对象而引入的一些等式,它因数学对象不同而不同,包括数列特征方程、矩阵特征方程、微分方程特征方程、积分方程特征方程等等。

    下面所介绍的仅仅是数列的特征方程。

    一个数列:

            

     

    设 有r,s使

     

    所以

     

     

    消去s就导出特征方程式

     

  • 相关阅读:
    Python制作炫酷的个人足迹地图
    视频转换gif图是怎么做的?怎么把视频转成gif表情包?
    1-4 AUTOSAR方法论
    OpenCV(二十三):中值滤波
    scrapy实现分布式爬虫,scrapy-redis所遇到的问题,终端进入虚拟环境
    从另一个角度谈谈Redis的常用数据结构
    激活函数总结(三十三):激活函数补充(QReLU、m-QReLU)
    SQL 查询并拼接字段的两种方法主要用于多级分类表格显示(一级/二级/三级/)
    linux xhost命令
    布隆过滤器及其用法
  • 原文地址:https://blog.csdn.net/qq_46044325/article/details/126808110