使用pandas第三方库是能够创建出来Dataframe这个数据结构对象的,而它因为是以行列形式来保存数据,所以也会将这个对象称为数据集或数据表。那么下面文章主要介绍的就是两张表的合并方法,正在学习这个知识的小伙伴可以看一下作为参考资料。
1.那么两张表合并时也会几种情况出现,第一种情况就是两张表的结构都是一样的,也就是数据行数是相同的。那么此时就是可以按照列去合并,将两张表的列放在一起。如果两张表中有一个列是相同的,那么这个列就是可以作为参照列,详细代码示例如下所示:
import pandas as pd df1 = pd.DataFrame({'id': ['001', '002', '003'],'num1': [120, 101, 104]}) df2 = pd.DataFrame({'id': ['001', '002', '003'],'num4': [80, 86, 79]}) df_merge = pd.merge(df1, df2, on='id') print(df_merge)
合并完成之后列num4就是放在了第一个表中列num1的后面,而且相同列id就是只会一次数据而不会保留重复数据。
2.另外一种情况也是当两张表的结构相同,也就是每一列的数据量都是相同的。但是在合并时可以选择作为基准数据索引,而当使用了左右两表作为基准数据时,会发现两个表的数据是完全放在了一起,代码示例如下所示:
df_merge = pd.merge(df1, df2, left_index=True, right_index=True) print(df_merge)
并且方法之中右表df2在合并之后数据是默认添加在新生成表的后面,而且两个表中是有相同列id存在的,也分别给其加上了下划线xy来区分开来。
以上就是关于“Pandas合并数据集怎么做?Python如何用pandas合并两张表”的全部内容了,希望对你有所帮助。