





p59
1.使用read_csv
2.导入html时,需要网页一定具有table标签

求和sum()函数,求均值mean()函数求中位数median()函数,具体使用方法书本p93。
求分位数:

我们在处理完数据之后,总会发现数据格式不一致,至此,我们就需要学习如何将数据格式化。
1.设置小数位:
df.round()
- import pandas as pd
- import numpy as np
- df = pd.DataFrame(np.random.random([5, 5]),
- columns=['A1', 'A2', 'A3','A4','A5'])
-
- print(df.round(2))
- #保留小数点后两位
-
- print(df.round({'A1': 1, 'A2': 2}))
- #A1列保留小数点后一位、A2列保留小数点后两位
-
- s1 = pd.Series([1, 0, 2], index=['A1', 'A2', 'A3'])
- print(df.round(s1))
- #设置Series对象小数位数
2.设置百分比:
df.apply(lambda x: format(x,'.0%')) #百分号后保留0位小数
df.map()
- import pandas as pd
- import numpy as np
- df = pd.DataFrame(np.random.random([5, 5]),
- columns=['A1', 'A2', 'A3','A4','A5'])
- df['百分比']=df['A1'].apply(lambda x: format(x,'.0%')) #整列保留0位小数
- print(df)
- df['百分比']=df['A1'].apply(lambda x: format(x,'.2%')) #整列保留两位小数
- print(df)
- df['百分比']=df['A1'].map(lambda x:'{:.0%}'.format(x)) #整列保留0位小数,也可以使用map函数
- print(df)
3.设置千位分隔符:
df.apply(lambda x: format(int(x),',')) 设置千位分隔符
⚠️设置千位分隔符后数据不再是数字,而是由字符串。所以设置需谨慎。
- import pandas as pd
-
- data = [['零基础学Python','1月',49768889],['零基础学Python','2月',11777775],['零基础学Python','3月',13799990]]
- columns = ['图书','月份','码洋']
- df = pd.DataFrame(data=data, columns=columns)
- df['码洋']=df['码洋'].apply(lambda x:format(int(x),','))
- print(df)