在Pandas中,處理文本數據的特征提取可以通過使用str屬性和相應的字符串處理方法來實現。以下是一些常用的方法:
df['text_length'] = df['text'].str.len()
df['contains_word'] = df['text'].str.contains('word').astype(int)
df['word_count'] = df['text'].str.split().apply(len)
df['uppercase_count'] = df['text'].apply(lambda x: sum(1 for c in x if c.isupper()))
df['lowercase_count'] = df['text'].apply(lambda x: sum(1 for c in x if c.islower()))
df['digit_count'] = df['text'].apply(lambda x: sum(1 for c in x if c.isdigit()))
除了以上方法,還可以使用正則表達式等更復雜的方法來提取文本數據的特征。在Pandas中,可以通過str屬性的方法來應用正則表達式。