Python3快速入門（七）——Python3正則表達式

發布時間：2020-04-09 01:49:14 來源：網絡閱讀：811 作者：天山老妖S 欄目：編程語言

Python3快速入門（七）——Python3正則表達式

1、re模塊簡介

re 模塊提供 Perl 風格的正則表達式模式，使 Python 語言擁有全部的正則表達式功能。

2、正則表達式模式

模式字符串使用特殊的語法來表示一個正則表達式：
正則表達式模式中的字母和數字匹配同樣的字符串；多數字母和數字前加一個反斜杠時會有不同的含義；標點符號通常有特殊的含義，只有被轉義時才匹配自身；反斜杠本身需要使用反斜杠轉義。
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符，除了換行符，當re.DOTALL標記被指定時，則可以匹配包括換行符的任意字符。
[...]匹配任意字符，除了換行符，當re.DOTALL標記被指定時，則可以匹配包括換行符的任意字符。
[^...]匹配任意字符，除了換行符，當re.DOTALL標記被指定時，則可以匹配包括換行符的任意字符。
re匹配0個或多個的表達式。
re+匹配1個或多個的表達式。
re?匹配0個或1個由前面的正則表達式定義的片段，非貪婪方式
re{ n}匹配n個前面表達式。例如，"o{2}"不能匹配"Bob"中的"o"，但是能匹配"food"中的兩個o。
re{ n,}精確匹配n個前面表達式。例如，"o{2,}"不能匹配"Bob"中的"o"，但能匹配"foooood"中的所有o。"o{1,}"等價于"o+"。"o{0,}"則等價于"o"。
re{ n, m}匹配 n 到 m 次由前面的正則表達式定義的片段，貪婪方式
a| b匹配a或b
(re)匹配括號內的表達式，也表示一個組
(?imx)正則表達式包含三種可選標志：i, m, 或 x 。只影響括號中的區域。
(?-imx)正則表達式關閉 i, m, 或 x 可選標志。只影響括號中的區域。
(?imx: re)在括號中使用i, m, 或 x 可選標志
(?-imx: re)在括號中不使用i, m, 或 x 可選標志
(?#...)注釋
(?= re)前向肯定界定符。如果所含正則表達式，以 ... 表示，在當前位置成功匹配時成功，否則失敗。但一旦所含表達式已經嘗試，匹配引擎根本沒有提高；模式的剩余部分還要嘗試界定符的右邊。
(?! re)前向否定界定符。與肯定界定符相反；當所含表達式不能在字符串當前位置匹配時成功。
(?> re)匹配的獨立模式，省去回溯。
\w匹配數字字母下劃線
\W匹配非數字字母下劃線
\s匹配任意空白字符，等價于 [\t\n\r\f]。
\S匹配任意非空字符
\d匹配任意數字，等價于 [0-9]。
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束，如果是存在換行，只匹配到換行前的結束字符串。
\z匹配字符串結束
\G匹配最后匹配完成的位置。
\b匹配一個單詞邊界，也就是指單詞和空格間的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B匹配非單詞邊界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\n, \t,匹配一個換行符。匹配一個制表符
\1...\9匹配第n個分組的內容。
\10匹配第n個分組的內容，如果它經匹配。否則指的是八進制字符碼的表達式。

3、正則表達式實例

python匹配 "python"
[Pp]ython匹配 "Python" 或 "python"
[aeiou]匹配中括號內的任意一個字母
[0-9]匹配任何數字
[a-z]匹配任何小寫字母
[A-Z]匹配任何大寫字母
[a-zA-Z0-9]匹配任何字母及數字
[^aeiou]匹配除aeiou字母外的所有字符
[^0-9]匹配除數字外的字符

4、re模塊常用函數

re.compile(pattern[, flags])
compile 函數根據一個模式字符串和可選的標志參數生成一個正則表達式對象，正在表達式對象擁有一系列方法用于正則表達式匹配和替換。
pattern : 一個字符串形式的正則表達式
flags 可選，表示匹配模式，具體參數為：
re.I 忽略大小寫
re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依賴于當前環境
re.M 多行模式
re.S 即為' . '并且包括換行符在內的任意字符（' . '不包括換行符）
re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依賴于 Unicode 字符屬性數據庫
re.X 為了增加可讀性，忽略空格和' # '后面的注釋
re.match(pattern, string, flags=0)
嘗試從字符串的起始位置匹配一個模式，匹配成功返回第一個匹配的對象，否則返回None。
pattern匹配的正則表達式
string要匹配的字符串。
flags標志位，用于控制正則表達式的匹配方式，如：是否區分大小寫，多行匹配等等。
可以使用group(num) 或 groups() 匹配對象函數來獲取匹配表達式。group() 可以一次輸入多個組號，在這種情況下它將返回一個包含那些組所對應值的元組。
re.search(pattern, string, flags=0)
re.search 掃描整個字符串并返回第一個成功的匹配。
匹配成功re.search方法返回一個匹配的對象，否則返回None。
可以使用group(num) 或 groups() 匹配對象函數來獲取匹配表達式。
re.sub(pattern, repl, string, count=0, flags=0)
re.sub用于替換字符串中的匹配項。
pattern : 正則中的模式字符串。
repl : 替換的字符串，也可為一個函數。
string : 要被查找替換的原始字符串。
count : 模式匹配后替換的最大次數，默認 0 表示替換所有的匹配。
flags : 編譯時用的匹配模式，數字形式
findall(string[, pos[, endpos]])
在字符串中找到正則表達式所匹配的所有子串，并返回一個列表，如果沒有找到匹配的，則返回空列表。
string?待匹配的字符串。
pos?可選參數，指定字符串的起始位置，默認為 0。
endpos?可選參數，指定字符串的結束位置，默認為字符串的長度。
re.finditer(pattern, string, flags=0)
在字符串中找到正則表達式所匹配的所有子串，并查找結果作為一個迭代器返回。
re.split(pattern, string[, maxsplit=0, flags=0])
split 方法按照能夠匹配的子串將字符串分割后返回列表
pattern匹配的正則表達式
string要匹配的字符串。
maxsplit分隔次數，maxsplit=1 分隔一次，默認為 0，不限制次數。
flags標志位，用于控制正則表達式的匹配方式，如：是否區分大小寫，多行匹配等等

# -*- coding:utf-8 -*-
import re

# 將匹配的數字乘于 2
def double(matched):
    value = int(matched.group('value'))
    return str(value * 2)

if __name__ == '__main__':
    phone = "2004-959-559"
    # 返回第一個匹配的對象
    groups = re.match("\d+", phone)
    print(groups.group(0))
    # 返回第一個匹配的對象
    groups = re.search("\d+", phone)
    print(groups.group(0))
    # 返回匹配的所有對象的數組
    groups = re.findall("\d+", phone)
    print(groups)

    num = re.sub(r'\D', "", phone)
    print("Phone:", num)

    s = 'A23G4HFD567'
    print(re.sub('(?P<value>\d+)', double, s))

# output:
# 2004
# 2004
# ['2004', '959', '559']
# Phone: 2004959559
# A46G8HFD1134

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Python3快速入門（七）——Python3正則表達式