作者: 艾文,计算机硕士学位,企业内训讲师和金牌面试官,公司资深算法专家,现就职BAT一线大厂。
邮箱: 1121025745@qq.com
博客:https://wenjie.blog.csdn.net/
内容:跟艾文学编程《零基础入门学Python》
pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库。本文是对它的一个入门教程。
pandas提供了快速,灵活和富有表现力的数据结构,目的是使“关系”或“标记”数据的工作既简单又直观。它旨在成为在Python中进行实际数据分析的高级构建块。
pandas最核心的就是Series和DataFrame两个数据结构。
这两种类型的数据结构对比如下:
DataFrame可以看做是Series的容器,即:一个DataFrame中可以包含若干个Series。
一维的数据结构,数组与字典的组合,有序,但是可以使用非数字下标进行访问
DataFrame:表格,并包含拍好序的列。 也可以简单理解Excel 表格
每列都有不同的数值类型(数字,字符串,布尔)。
DataFrame 有行索引(row index) 和 列索引(col index)
通过数据dict 类型,来创建一个DataFrame
时间序列指能在任何能在时间上观测到的数据。很多时间序列是有固定频率(fixed frequency)的,意思是数据点会遵照某种规律定期出现,比如每15秒,每5分钟,或每个月。时间序列也可能是不规律的(irregular),没有一个固定的时间规律。如何参照时间序列数据取决于我们要做什么样的应用,我们可能会遇到下面这些:
Timestamps(时间戳),具体的某一个时刻
Fixed periods(固定的时期),比如2007年的一月,或者2010年整整一年
Intervals of time(时间间隔),通常有一个开始和结束的时间戳。Periods(时期)可能被看做是Intervals(间隔)的一种特殊形式
python 标准包表示时间和日期数据。
有重复部分。我们可以unique和value_counts,从一个数组提取不同的数值,并计算频度
让我们一起加油