DataFrame数据合并主要使用merge()方法和concat()方法。
Pandas模块的merge()进行数据合并时,两个DataFrame对象必须有相同的列。
1.常规合并
- import pandas as pd
-
- df1 = pd.DataFrame({'编号':['mr001','mr002','mr003'],
- '语文':[110,105,109],
- '数学':[105,88,120],
- '英语':[99,115,130]})
-
- df2 = pd.DataFrame({'编号':['mr001','mr002','mr003'],
- '体育':[34.5,39.7,38]})
-
- df_merge=pd.merge(df1,df2,on='编号')
- print(df_merge)
该示例中,编号是相同的,所以会将df2中“体育”作为新的一列加入到df1中。
2.通过索引合并
- import pandas as pd
-
- df1 = pd.DataFrame({'编号':['mr001','mr002','mr003'],
- '语文':[110,105,109],
- '数学':[105,88,120],
- '英语':[99,115,130]})
-
- df2 = pd.DataFrame({'编号':['mr001','mr002','mr003'],
- '体育':[34.5,39.7,38]})
-
- df_merge=pd.merge(df1,df2,left_index=True,right_index=True)
- print(df_merge)
3.对合并数据去重
使用到how属性,就是让df1保留所有的行列数据,df2则根据df1的行列进行补全。
- import pandas as pd
-
- df1 = pd.DataFrame({'编号':['mr001','mr002','mr003'],
- '语文':[110,105,109],
- '数学':[105,88,120],
- '英语':[99,115,130]})
-
- df2 = pd.DataFrame({'编号':['mr001','mr002','mr003'],
- '体育':[34.5,39.7,38]})
-
- df_merge=pd.merge(df1,df2,on='编号',left_index=True,right_index=True)
- print(df_merge)
- df_merge=pd.merge(df1,df2,on='编号',how='left')
- print(df_merge)
4.多对一的数据合并
根据共有列中的数据进行合并,df2根据df1的行列进行补全。
- import pandas as pd
-
- df1 = pd.DataFrame({'编号':['mr001','mr002','mr003'],
- '学生姓名':['明日同学','高猿员','钱多多']})
-
- df2 = pd.DataFrame({'编号':['mr001','mr001','mr003'],
- '语文':[110,105,109],
- '数学':[105,88,120],
- '英语':[99,115,130],
- '时间':['1月','2月','1月']})
-
- df_merge=pd.merge(df1,df2,on='编号')
- print(df_merge)
5.多对多的数据合并
根据共有列中的数据进行合并,df2,df1相互补全。
- import pandas as pd
-
- df1 = pd.DataFrame({'编号':['mr001','mr002','mr003','mr001','mr001'],
- '体育':[34.5,39.7,38,33,35]})
-
- df2 = pd.DataFrame({'编号':['mr001','mr002','mr003','mr003','mr003'],
- '语文':[110,105,109,110,108],
- '数学':[105,88,120,123,119],
- '英语':[99,115,130,109,128]})
-
- df_merge=pd.merge(df1,df2)
- print(df_merge)
1.相同字段的表首尾相连
- dfs = [df1,df2,df3]
- result = pd.concat(dfs)
如果需要标记源数据来自于哪张表,可以使用:
result = pd.concat(dfs, keys=['第一张表','第二张表','第三张表'])
2.横向表合并(行对齐)
用于数据列名不一致,缺失的数据使用Nan填充 。其中axis=1代表行合并。
result = pd.concat([df1,df4],axis=1)
3.交叉合并
交叉合并需要加上join参数,如值为inner,结果为两张表的交集;如果值为outer,结果为两张表的并集。
result = pd.concat([df1,df4],axis=1,join='inner')
4.指定表对其数据(行对齐)
如果指定参数join_axes,就可以指定根据哪张表来对齐数据。如下述代码,根据df4表对其,结果表的行术和df4的行术一致,在此基础上拼接df1表。
result = pd.concat([df1,df4],axis=1,join_axes[df4.index])
《python数据分析》p120