您好,登錄后才能下訂單哦!
這篇文章主要介紹“Python怎么進行字符串處理和文本分析”,在日常操作中,相信很多人在Python怎么進行字符串處理和文本分析問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”Python怎么進行字符串處理和文本分析”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!
空格剝離
空格剝離作為處理字符串的基本操作,常用方法有lstrip()(剝離簽到空格)、rstrip()(剝離尾隨空格)、strip()(剝離前導和尾隨空格)。
s = ' This is a sentence with whitespace. \n'
print('Strip leading whitespace: {}'.format(s.lstrip()))
print('Strip trailing whitespace: {}'.format(s.rstrip()))
print('Strip all whitespace: {}'.format(s.strip()))
Strip leading whitespace: This is a sentence with whitespace.
Strip trailing whitespace: This is a sentence with whitespace.
Strip all whitespace: This is a sentence with whitespace.
當然同樣的方法也有很多,另一個比較常見的就是通過指定想要剝離的字符來處理字符串:
s = 'This is a sentence with unwanted characters.AAAAAAAA'
print('Strip unwanted characters: {}'.format(s.rstrip('A')))
字符串拆分
字符串拆分是利用Python中的split()將字符串拆分成較小的字符串列表。
s = 'KDnuggets is a fantastic resource'
print(s.split())
未加參數時,split()默認根據空格進行拆分,但同樣也可以按指定字符進行拆分字符串。
s = 'these,words,are,separated,by,comma'
print('\',\' separated split -> {}'.format(s.split(',')))
s = 'abacbdebfgbhhgbabddba'
print('\'b\' separated split -> {}'.format(s.split('b')))
',' separated split -> ['these', 'words', 'are', 'separated', 'by', 'comma']
'b' separated split -> ['a', 'ac', 'de', 'fg', 'hhg', 'a', 'dd', 'a']
將列表元素合成字符串
上述講了如何講一個字符串拆分成許多了,這里講如何將許多個字符串合成一個字符串。那就要用到join()方法。
s = ['KDnuggets', 'is', 'a', 'fantastic', 'resource']
print(' '.join(s))
KDnuggets is a fantastic resource
字符串反轉
Python目前沒有字符串反轉的方法,但是我們可以先將一個字符串當做多個字符組成的列表,在利用反轉表元素的方式對整個字符串進行反轉。
大小寫轉換
Python中字符串的大小寫轉換還是非常簡單的,只需要利用好upper()、lower()、swapcase()這三個方法,就能實現大小寫之間的轉換。
s = 'KDnuggets'
print('\'KDnuggets\' as uppercase: {}'.format(s.upper()))
print('\'KDnuggets\' as lowercase: {}'.format(s.lower()))
print('\'KDnuggets\' as swapped case: {}'.format(s.swapcase()))
'KDnuggets' as uppercase: KDNUGGETS
'KDnuggets' as lowercase: kdnuggets
'KDnuggets' as swapped case: kdNUGGETS
檢查是否有字符串成員
Python中檢測字符串成員最簡單的方法就是使用in運算符。它的語法和自然語十分相似。
s1 = 'perpendicular'
s2 = 'pen'
s3 = 'pep'
print('\'pen\' in \'perpendicular\' -> {}'.format(s2 in s1))
print('\'pep\' in \'perpendicular\' -> {}'.format(s3 in s1))
'pen' in 'perpendicular' -> True
'pep' in 'perpendicular' -> False
當然如果不單單只是為了檢測字符是否存在,而是要找到具體的位置,則需要使用find()方法。
s = 'Does this string contain a substring?'
print('\'string\' location -> {}'.format(s.find('string')))
print('\'spring\' location -> {}'.format(s.find('spring')))
'string' location -> 10
'spring' location -> -1
默認情況下,find()返回子字符串第一次出現的第一個字符的索引,如果找不到子字符串,則返回-1。
子字符串替換
如果在找到字符串之后,我們想替換這一字符串,該怎么辦?那就要用到replace()方法的功能。
s1 = 'The theory of data science is of the utmost importance.'
s2 = 'practice'
print('The new sentence: {}'.format(s1.replace('theory', s2)))
The new sentence: The practice of data science is of the utmost importance.
如果同一個子字符串出現多次的話,利用計數參數這一選項,可以指定要進行連續替換的最大次數。
到此,關于“Python怎么進行字符串處理和文本分析”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。