
stud_alcoh = df.loc[: , "school":"guardian"]
stud_alcoh.head()

capitalizer = lambda x: x.capitalize()
stud_alcoh['Mjob'].apply(capitalizer)
stud_alcoh['Fjob'].apply(capitalizer)
stud_alcoh['Mjob'] = stud_alcoh['Mjob'].apply(capitalizer)
stud_alcoh['Fjob'] = stud_alcoh['Fjob'].apply(capitalizer)
stud_alcoh.tail()
def majority(x):
if x > 17:
return True
else:
return False
stud_alcoh['legal_drinker'] = stud_alcoh['age'].apply(majority)
stud_alcoh.head()
def times10(x):
if type(x) is int:
return 10 * x
return x
stud_alcoh.applymap(times10).head(10)

是否注意到年份的类型是 int64。但是pandas有一种不同的类型来使用时间序列
# pd.to_datetime(crime)
crime.Year = pd.to_datetime(crime.Year, format='%Y')
crime.info()

crime = crime.set_index('Year', drop = True)
crime.head()

# resample,重新采样,是对原样本重新处理的一个方法,是一个对常规时间序列数据重新采样和频率转换的便捷的方法。重新取样时间序列数据。
# 下采样是将一个时间序列数据集重新采样到一个更大的时间框架。从几分钟到几小时,从几天到几年。结果的行数将减少,并且可以使用mean()、min()、max()、sum()等聚合值。
# 使用resample去对每十年求和
crimes = crime.resample('10AS').sum()
# 使用resample去获取“Population”列的最大值
population = crime['Population'].resample('10AS').max()
# Updating the "Population" column
crimes['Population'] = population
crimes

# dataframe.idxmax()函数返回在请求的轴上第一次出现最大值的索引
crime.idxmax(0)
