您好,登錄后才能下訂單哦!
這篇文章給大家分享的是有關pandas如何實現數據合并的內容。小編覺得挺實用的,因此分享給大家做個參考,一起跟隨小編過來看看吧。
數據合并有多種方式,其中最常見的應該就是交集和并集的求取。之前通過分析總結過pandas數據merge功能默認的行為,其實默認下求取的就是兩個數據的“交集”。
有如下數據定義:
In [26]: df1 Out[26]: data1 key 0 0 b 1 1 b 2 2 a 3 3 c 4 4 a 5 5 a 6 6 b
In [27]: df2 Out[27]: data2 key 0 0 a 1 1 b 2 2 d 3 3 b
進行merge的結果:
In [28]: pd.merge(df1,df2) Out[28]: data1 key data2 0 0 b 1 1 0 b 3 2 1 b 1 3 1 b 3 4 6 b 1 5 6 b 3 6 2 a 0 7 4 a 0 8 5 a 0
從上面的結果中能夠看出,merge的默認處理行為是求取了兩組數據key的交集,但是對于key的值進行了并集的求取。其實也很好理解,如果僅僅是求取交集而數據沒有任何合并那就不叫做數據合并了。
接下來試一下制定了參數的的交集數據合并處理:
In [29]: pd.merge(df1,df2,how='inner') Out[29]: data1 key data2 0 0 b 1 1 0 b 3 2 1 b 1 3 1 b 3 4 6 b 1 5 6 b 3 6 2 a 0 7 4 a 0 8 5 a 0
In [30]: result_inner = pd.merge(df1,df2,how='inner') In [31]: result_default = pd.merge(df1,df2)
In [32]: result_inner == result_default Out[32]: data1 key data2 0 True True True 1 True True True 2 True True True 3 True True True 4 True True True 5 True True True 6 True True True 7 True True True 8 True True True
通過上面的結果可以看出:制定了參數的的交集數據合并處理的結果與數據合并方法merge的默認行為是一致的。
再試一下并集數據合并處理方法,這需要制定參數how為outer:
In [35]: result_outer = pd.merge(df1,df2,how='outer')
In [36]: result_outer Out[36]: data1 key data2 0 0.0 b 1.0 1 0.0 b 3.0 2 1.0 b 1.0 3 1.0 b 3.0 4 6.0 b 1.0 5 6.0 b 3.0 6 2.0 a 0.0 7 4.0 a 0.0 8 5.0 a 0.0 9 3.0 c NaN 10 NaN d 2.0
通過上面的執行結果可以看出:合并后的數據中的key擁有了兩組數據所有的key,而數據雖然有一部分兩組數據不能夠重合,但也通過NaN的值進行了相應的填補。
還有一點需要注意的,那就是合并之后的數據個數。合并后的數據中,key的個數是兩組數據中分別擁有的數據的笛卡爾乘積。如果其中一組沒有的時候,進行合并的時候另一組數據中會創建一個NaN數值的對象與之進行合并。
感謝各位的閱讀!關于“pandas如何實現數據合并”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,讓大家可以學到更多知識,如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。