您好,登錄后才能下訂單哦!
在最新版的pandas中(不知道之前的版本有沒有這個問題),當我們對具有多層次索引的對象做切片或者通過df[bool_list]的方式索引的時候,得到的新的對象盡管實際索引已經發生了改變,但是當直接使用df_new.index調取新對象的MultiIndex對象的時候,這個MultiIndex對象還是和原對象的索引保持一致的,而不是和新對象的實際索引保持一致。這點需要特別注意,因為正常情況下,我們自然會認為df.index的MultiIndex對象和df的實際索引是一致的,基于此,我們可能會寫出一些難以發現的bug。可以看下面的例子。
import pandas as pd df_t1=pd.DataFrame([[1,2],[2,3],[2,3],[3,5]],index=[['a','a','b','b'],[0,1,0,1]]) df_t1 Out[39]: 0 1 a 0 1 2 1 2 3 b 0 2 3 1 3 5 df_t2=df_t1.loc[[x=='a' for x in df_t1.index.levels[0]]] df_t2 Out[41]: 0 1 a 0 1 2 df_t2.index #從上面df_t2對象的輸出結果和下面index的輸出結果可以發現,df_t2的index和其實際的索引并不一致 Out[42]: MultiIndex(levels=[['a', 'b'], [0, 1]], codes=[[0], [0]]) df_t3=df_t1.iloc[:2,:] df_t3 Out[46]: 0 1 a 0 1 2 1 2 3 df_t3.index #從上面df_t3對象的輸出結果和下面index的輸出結果可以發現,df_t3的index和其實際的索引也不一致 Out[47]: MultiIndex(levels=[['a', 'b'], [0, 1]], codes=[[0, 0], [0, 1]])
從上面的例子可以看出,當通過bool索引和切片索引時,就會出現這種問題,其他的索引方式一般不會出現這種問題。當遇到這種問題時,如果我們需要始終保持新對象的index得到的對象和實際索引一致,該如何做呢?請看下面代碼
df_t2.index.remove_unused_levels() Out[62]: MultiIndex(levels=[['a'], [0]], codes=[[0], [0]]) df_t2.index=df_t2.index.remove_unused_levels() df_t2.index Out[75]: MultiIndex(levels=[['a'], [0]], codes=[[0], [0]]) df_t2 Out[76]: 0 1 a 0 1 2
可以看到,MultiIndex對象有一個remove_unused_levels()函數,其作用是把沒有被使用的索引被去處掉,這樣就可以使得對象的MultiIndex對象和其實際顯示出來的索引保持一致了。故其實在遇到多層次索引的切片索引或者bool索引之后,加上一條df.index.remove_unused_levels()語句不失為一個好的習慣,或者至少得有這種意識,意識到此處可能會出現這種問題。
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持億速云。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。