在Python的Pandas庫中,可以使用np.where()
函數或者pd.cut()
函數來模擬CASE WHEN功能。
np.where()
函數:np.where()
函數可以根據指定的條件返回不同的值。其語法格式為:np.where(condition, value_if_true, value_if_false)
。其中,condition
是要測試的條件,value_if_true
是條件為真時返回的值,value_if_false
是條件為假時返回的值。
例如,下面的代碼將根據列A
中的值生成一個新列B
,如果A
的值大于10,則B
的值為"大于10",否則為"小于等于10":
import pandas as pd
import numpy as np
# 創建一個示例DataFrame
df = pd.DataFrame({'A': [5, 12, 7, 15, 3]})
# 使用np.where()函數模擬CASE WHEN功能
df['B'] = np.where(df['A'] > 10, '大于10', '小于等于10')
print(df)
pd.cut()
函數:pd.cut()
函數可以將連續型數據劃分為多個區間,并返回每個數據屬于哪個區間。其語法格式為:pd.cut(x, bins, labels=None, right=True, include_lowest=False)
。其中,x
是要劃分的數據列,bins
是劃分區間的列表,labels
是每個區間的標簽(可選),right
表示區間的右側是否包含(默認為True),include_lowest
表示是否將最小值包含在第一個區間內(默認為False)。
雖然pd.cut()
函數主要用于劃分區間,但可以通過一些技巧來模擬CASE WHEN功能。例如,下面的代碼將根據列A
中的值生成一個新列B
,如果A
的值大于10,則B
的值為"大于10",否則為"小于等于10":
import pandas as pd
# 創建一個示例DataFrame
df = pd.DataFrame({'A': [5, 12, 7, 15, 3]})
# 使用pd.cut()函數模擬CASE WHEN功能
df['B'] = pd.cut(df['A'], bins=[0, 10, np.inf], labels=['小于等于10', '大于10'])
print(df)
請注意,pd.cut()
函數返回的是區間標簽,而不是具體的值。如果需要返回具體的值,可以使用map()
函數將區間標簽映射到具體的值。例如,可以將上面的代碼修改為:
import pandas as pd
# 創建一個示例DataFrame
df = pd.DataFrame({'A': [5, 12, 7, 15, 3]})
# 使用pd.cut()函數獲取區間標簽
labels = pd.cut(df['A'], bins=[0, 10, np.inf], labels=['小于等于10', '大于10'])
# 使用map()函數將區間標簽映射到具體的值
df['B'] = labels.map({'小于等于10': '小于等于10', '大于10': '大于10'})
print(df)