您好,登錄后才能下訂單哦!
小編這次要給大家分享的是Pandas如何實現一列數據分隔為兩列,文章內容豐富,感興趣的小伙伴可以來了解一下,希望大家閱讀完這篇文章之后能夠有所收獲。
分割成一個包含兩個元素列表的列
對于一個已知分隔符的簡單分割(例如,用破折號分割或用空格分割).str.split() 方法就足夠了 。 它在字符串的列(系列)上運行,并返回列表(系列)。
>>> import pandas as pd >>> df = pd.DataFrame({'AB': ['A1-B1', 'A2-B2']}) >>> df AB 0 A1-B1 1 A2-B2 >>> df['AB_split'] = df['AB'].str.split('-') >>> df AB AB_split 0 A1-B1 [A1, B1] 1 A2-B2 [A2, B2]
分割成兩列,每列包含列表的相應元素
下面來看下如何從:分割成一個包含兩個元素列表的列至分割成兩列,每列包含列表的相應元素。
>>> df['AB'].str[0] 0 A 1 A Name: AB, dtype: object >>> df['AB'].str[1] 0 1 1 2 Name: AB, dtype: object
因此可以得到
>>> df['AB'].str.split('-', 1).str[0] 0 A1 1 A2 Name: AB, dtype: object >>> df['AB'].str.split('-', 1).str[1] 0 B1 1 B2 Name: AB, dtype: object
可以通過如下代碼將pandas的一列分成兩列:
>>> df['A'], df['B'] = df['AB'].str.split('-', 1).str >>> df AB AB_split A B 0 A1-B1 [A1, B1] A1 B1 1 A2-B2 [A2, B2] A2 B2
補充知識:pandas某一列中每一行拆分成多行的方法
在處理數據過程中,常會遇到將一條數據拆分成多條,比如一個人的地址信息中,可能有多條地址,既有家庭地址也有工作地址,還有電話信息等等類似的情況,實際使用數據的時候又需要分開處理,這個時候就需要將這一條數據進行拆分成多條,以方便使用。
在pandas中如何對DataFrame進行相關操作呢,經查閱相關資料,發現了一個簡單的辦法,
info.drop(['city'], axis=1).join(info['city'].str.split(' ', expand=True).stack().reset_index(level=1, drop=True).rename('city'))
看起來非常之長,分開來看,流程如下:
將需要拆分的數據使用split拆分工具拆分,并使用expand功能拆分成多列
將拆分后的多列數據進行列轉行操作(stack),合并成一列
將生成的復合索引重新進行reset保留原始的索引,并命名
將上面處理后的DataFrame和原始DataFrame進行join操作,默認使用的是索引進行連接
具體操作如下:
預操作:生成需要使用的DataFrame
# 用來生成DataFrame的工具 from pydbgen import pydbgen myDB=pydbgen.pydb() # 生成一個DataFrame info = myDB.gen_dataframe(10,['name','phone','city','state'])
結果如下:
name | phone-number | city | state | |
---|---|---|---|---|
0 | Hannah Richard | 810-859-7815 | Irwinville | Louisiana |
1 | Ronald Berry | 591-564-0585 | Glen Ellen | Minnesota |
2 | Caitlin Barron | 969-840-8580 | Dubois | Oklahoma |
3 | Felicia Stephens | 154-858-1233 | Veedersburg | Alaska |
4 | Shelly Dennis | 343-104-9365 | Mattapex | Virginia |
5 | Nicholas Hill | 992-239-1954 | Moneta | Minnesota |
6 | Steve Bradshaw | 164-081-7811 | Ten Broeck | Colorado |
7 | Gail Johnston | 155-259-9514 | Wayan | Virginia |
8 | John Gray | 409-892-4716 | Darlington | Pennsylvania |
9 | Katherine Bautista | 185-861-1677 | McNab | Texas |
假如現在我們要對city列進行進行拆分,按照空格拆分,轉換成多行的數據,
第一步:拆分,生成多列
info_city = info['city'].str.split(' ', expand=True)
結果如下:
0 | 1 | |
---|---|---|
0 | Irwinville | None |
1 | Glen | Ellen |
2 | Dubois | None |
3 | Veedersburg | None |
4 | Mattapex | None |
5 | Moneta | None |
6 | Ten | Broeck |
7 | Wayan | None |
8 | Darlington | None |
9 | McNab | None |
可以看到已經將原始數據拆分成了2列,對于無法拆分的數據為None
第二步:行轉列
info_city = info_city.stack()
結果如下:
0 | 0 | Irwinville |
1 | 0 | Glen |
1 | Ellen | |
2 | 0 | Dubois |
3 | 0 | Veedersburg |
4 | 0 | Mattapex |
5 | 0 | Moneta |
6 | 0 | Ten |
1 | Broeck | |
7 | 0 | Wayan |
8 | 0 | Darlington |
9 | 0 | McNab |
其中前面兩列是索引,返回的是一個series,沒有名字的series
第三步:重置索引,并命名(并刪除多于的索引)
info_city = info_city.reset_index(level=1, drop=True)
結果如下:
0 | Irwinville |
1 | Glen |
1 | Ellen |
2 | Dubois |
3 | Veedersburg |
4 | Mattapex |
5 | Moneta |
6 | Ten |
6 | Broeck |
7 | Wayan |
8 | Darlington |
9 | McNab |
第四步:和原始數據合并
info_new = info.drop(['city'], axis=1).join(info_city)
結果如下:
name | phone-number | state | city | |
---|---|---|---|---|
0 | Hannah Richard | 810-859-7815 | Louisiana | Irwinville |
1 | Ronald Berry | 591-564-0585 | Minnesota | Glen |
1 | Ronald Berry | 591-564-0585 | Minnesota | Ellen |
2 | Caitlin Barron | 969-840-8580 | Oklahoma | Dubois |
3 | Felicia Stephens | 154-858-1233 | Alaska | Veedersburg |
4 | Shelly Dennis | 343-104-9365 | Virginia | Mattapex |
5 | Nicholas Hill | 992-239-1954 | Minnesota | Moneta |
6 | Steve Bradshaw | 164-081-7811 | Colorado | Ten |
6 | Steve Bradshaw | 164-081-7811 | Colorado | Broeck |
7 | Gail Johnston | 155-259-9514 | Virginia | Wayan |
8 | John Gray | 409-892-4716 | Pennsylvania | Darlington |
9 | Katherine Bautista | 185-861-1677 | Texas | McNab |
需要特別注意的是,需要使用原始的連接新生成的,因為新生成的是一個series沒有join方法,也可以通過將生成的series通過to_frame方法轉換成DataFrame,這樣就沒有什么差異了
寫了這么多,記住下面的就行了:
info.drop([‘city'], axis=1).join(info[‘city'].str.split(' ', expand=True).stack().reset_index(level=1, drop=True).rename(‘city'))
如果原數據中已經是list了,可以將info[‘city'].str.split(' ', expand=True)這部分替換成info[‘city'].apply(lambda x: pd.Series(x)),就可以達到相同的目的。
看完這篇關于Pandas如何實現一列數據分隔為兩列的文章,如果覺得文章內容寫得不錯的話,可以把它分享出去給更多人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。