您好,登錄后才能下訂單哦!
這篇文章給大家介紹如何在Python中使用re正則表達式模塊,內容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。
python 中的正則跟其他語言相比略有差異:
1、替換字符串時,替換的字符串可以是一個函數
2、split 函數可以指定分割次數,這會導致有個坑
3、前項界定的表達式必須定長
下面詳細描述下 re 模塊的使用方法,其實,注意上面提到的三點差異就好
1、match
說明:
re.match 嘗試從字符串的起始位置匹配一個模式,如果不是起始位置匹配成功的話,match()就返回 None。
語法:
re.match(pattern, string, flags=0)
flags為可選標識,多個標識可以通過按位或 (|) 來指定。如 re.I | re.M 被設置成 I 和 M 標識:
修飾符 | 描述 |
re.I | 使匹配對大小寫不敏感 |
re.L | 做本地化識別(locale-aware)匹配 |
re.M | 多行匹配,影響 ^ 和 $ |
re.S | 使 . 匹配包括換行在內的所有字符 |
re.U | 根據Unicode字符集解析字符。這個標志影響 \w, \W, \b, \B. |
re.X | 該標志通過給予你更靈活的格式以便你將正則表達式寫得更易于理解。 |
匹配成功re.match方法返回一個匹配的對象,可以使用group(num) 或 groups() 匹配對象函數來獲取匹配表達式。group() 或 group(0),返回整個正則表達式的匹配結果。
舉例:
s= 'abc123abc' print(re.match('[a-z]+', s)) # <_sre.SRE_Match object; span=(0, 3), match='abc'> print(re.match('[a-z]+', s).group(0)) # abc print(re.match('[\d]+', s)) # None print(re.match('[A-Z]+', s, re.I).group(0)) # abc print(re.match('[a-z]+', s).span()) # (0, 3)
2、search
說明:
re.search 掃描整個字符串并返回第一個成功的匹配。
語法:
re.search(pattern, string, flags=0)
匹配成功re.search方法返回一個匹配的對象,否則返回None。可以使用group(num) 或 groups() 匹配對象函數來獲取匹配表達式。
s = 'abc123abc' print(re.search('[a-z]+', s).group()) # abc print(re.search('[a-z]+', s).span()) # (0, 3) print(re.search('[\d]+', s).group()) # 123 print(re.search('[\d]+', s).span()) # (3, 6) print(re.search('xyz', s)) # None
groupdict
groupdict 返回匹配到的所有命名子組的字典。
print(re.search('[a-z]+', s).groupdict()) # {} print(re.search('(?P<letter>[a-z]+)(?P<num>\d+)', s).groupdict()) # {'num': '123', 'letter': 'abc'}
3、sub 和 subn
說明:
re.sub用于替換字符串中的匹配項。
re.subn返回一個元組,包含替換后的字符串及替換次數。
語法:
sub(pattern, repl, string, count=0, flags=0)
repl: 替換的字符串,也可為一個函數。
count: 模式匹配后替換的最大次數,默認 0 表示替換所有的匹配。
舉例:
s = 'abc123abc' print(re.sub('[\d]+', '數字', s)) # abc數字abc print(re.sub('[a-z]+', '字母', s, 1)) # 字母123abc # 將匹配的數字乘以 2 def double(matched): value = int(matched.group('value')) return str(value * 2) # repl是一個函數 print(re.sub('(?P<value>\d+)', double, s)) # abc246abc print(re.subn('[\d]+', '數字', s)) # ('abc數字abc', 1) print(re.subn('[a-z]+', '字母', s,)) # ('字母123字母', 2) print(re.subn('[a-z]+', '字母', s, 1)) # ('字母123字母', 1)
4、compile
說明:
re.compile 用于編譯正則表達式,生成一個正則表達式(Pattern)對象,供 match() 和 search() 這兩個函數使用。
語法:
compile(pattern, flags=0)
舉例:
s = 'abc123abc' p = re.compile('[\d]+') print(p.match(s, 4, 5).group(0)) # 2 從位置4開始匹配到位置5 print(p.search(s).group(0)) # 123
5、findall
說明:
re.findall 在字符串中查找正則表達式所匹配的所有子串,并返回一個列表,如果沒有找到匹配的,則返回空列表。
語法:
findall(pattern, string, flags=0)
舉例:
s = 'abc123abc' print(re.findall('[a-z]+', s)) # ['abc', 'abc'] print(re.findall('[h-n]+', s)) # []
6、finditer
說明:
finditer和 findall 類似,在字符串中查找正則表達式所匹配的所有子串,并把它們作為一個迭代器返回。
語法:
finditer(pattern, string, flags=0)
舉例:
s = 'abc123def' it = re.finditer('[a-z]+', s) for match in it: print(match.group())
7、split
說明:
re.split 方法按照能夠匹配的子串將字符串分割后返回列表。
語法:
split(pattern, string, maxsplit=0, flags=0)
maxsplit:分隔次數,maxsplit=1 分隔一次,默認為 0,不限制次數。
舉例:
print(re.split('a', '1A1a2A3', re.I)) # ['1A1', '2A3'] # 輸出結果并未能區分大小寫,這是因為re.split(pattern,string,maxsplit, flags)默認是四個參數,當我們傳入的三個參數的時候,系統會默認re.I是第三個參數,所以就沒起作用。 # 如果想讓這里的re.I起作用,寫成flags=re.I即可。 print(re.split('a', '1A1a2A3', flags=re.I)) # ['1', '1', '2', '3']
8、escape
說明:
re.escape對字符串里面的特殊字符串進行轉義。
語法:
escape(pattern)
舉例:
print(re.escape('www.dxy.cn')) # www\.dxy\.cn
9、正則
“(?P<name>…)”:分組,并將其命名為<name>。
“(?P=name)”:引用別名為<name>的分組匹配到的串。
10、前項(否定)界定中的特殊
正則中常用的前項界定(?<=exp)和前項否定界定(?<!exp)在 python 中會報錯:look-behind requires fixed-width pattern,原因是 python 中前項界定的表達式必須是定長的,例如
(?<=aaa) # 正確 (?<=aaa|bbb) # 正確 (?<=aaa|bb) # 錯誤 (?<=\d+) # 錯誤 (?<=\d{3}) # 正確
關于如何在Python中使用re正則表達式模塊就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。