您好,登錄后才能下訂單哦!
這篇文章主要為大家展示了“正則表達式組的示例分析”,內容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領大家一起研究并學習一下“正則表達式組的示例分析”這篇文章吧。
正則表達式組的理解
把正則表達式的一部分放在圓括號內,你可以將它們形成組。然后你可以對整個組使用一些正則操作,例如重復操作符。
要注意的是,只有圓括號“()”才能用于形成組。“[]”用于定義字符集。“{}”用于定義重復操作。
當用“()”定義了一個正則表達式組后,正則引擎則會把被匹配的組按照順序編號,存入緩存。當對被匹配的組進行向后引用的時候,可以用“\數字”的方式進行引用。﹤﹤\1﹥﹥引用***個匹配的后向引用組,﹤﹤\2﹥﹥引用第二個組,以此類推,﹤﹤\n﹥﹥引用第n個組。而﹤﹤\0﹥﹥則引用整個被匹配的正則表達式本身。我們看一個例子。
假設你想匹配一個HTML標簽的開始標簽和結束標簽,以及標簽中間的文本。比如﹤B﹥This is a test﹤/B﹥,我們要匹配﹤B﹥和﹤/B﹥以及中間的文字。我們可以用如下正則表達式:“﹤([A-Z][A-Z0-9]*)[^﹥]*﹥.*?﹤/\1﹥”
首先,“﹤”將會匹配“﹤B﹥”的***個字符“﹤”。然后[A-Z]匹配B,[A-Z0-9]*將會匹配0到多次字母數字,后面緊接著0到多個非“﹥”的字符。***正則表達式的“﹥”將會匹配“﹤B﹥”的“﹥”。接下來正則引擎將對結束標簽之前的字符進行惰性匹配,直到遇到一個“﹤/”符號。然后正則表達式中的“\1”表示對前面匹配的組“([A-Z][A-Z0-9]*)”進行引用,在本例中,被引用的是標簽名“B”。所以需要被匹配的結尾標簽為“﹤/B﹥”
正則表達式組的相關解析:
你可以對相同的后向引用組進行多次引用,﹤﹤([a-c])x\1x\1﹥﹥將匹配“axaxa”、“bxbxb”以及“cxcxc”。如果用數字形式引用的組沒有有效的匹配,則引用到的內容簡單的為空。
一個后向引用不能用于它自身。﹤﹤([abc]\1)﹥﹥是錯誤的。因此你不能將﹤﹤\0﹥﹥用于一個正則表達式匹配本身,它只能用于替換操作中。
后向引用不能用于字符集內部。﹤﹤(a)[\1b]﹥﹥中的﹤﹤\1﹥﹥并不表示后向引用。在字符集內部,﹤﹤\1﹥﹥可以被解釋為八進制形式的轉碼。
向后引用會降低引擎的速度,因為它需要存儲匹配的組。如果你不需要向后引用,你可以告訴引擎對某個組不存儲。例如:﹤﹤Get(?:Value)﹥﹥。其中“(”后面緊跟的“?:”會告訴引擎對于組(Value),不存儲匹配的值以供后向引用。
正則表達式組之重復操作與后向引用
當對組使用重復操作符時,緩存里后向引用內容會被不斷刷新,只保留***匹配的內容。例如:﹤﹤([abc]+)=\1﹥﹥將匹配“cab=cab”,但是﹤﹤([abc])+=\1﹥﹥卻不會。因為([abc])***次匹配“c”時,“\1”代表“c”;然后([abc])會繼續匹配“a”和“b”。***“\1”代表“b”,所以它會匹配“cab=b”。
應用:檢查重復單詞--當編輯文字時,很容易就會輸入重復單詞,例如“the the”。使用﹤﹤\b(\w+)\s+\1\b﹥﹥可以檢測到這些重復單詞。要刪除第二個單詞,只要簡單的利用替換功能替換掉“\1”就可以了。
正則表達式組的命名和引用
在PHP,Python中,可以用﹤﹤(?P﹤name﹥group)﹥﹥來對組進行命名。在本例中,詞法?P﹤name﹥就是對組(group)進行了命名。其中name是你對組的起的名字。你可以用(?P=name)進行引用。
.NET的命名組
.NET framework也支持命名組。不幸的是,微軟的程序員們決定發明他們自己的語法,而不是沿用Perl、Python的規則。目前為止,還沒有任何其他的正則表達式實現支持微軟發明的語法。
下面是.NET中的例子:
(?﹤first﹥group)(?’second’group)
正如你所看到的,.NET提供兩種詞法來創建命名組:一是用尖括號“﹤﹥”,或者用單引號“’’”。尖括號在字符串中使用更方便,單引號在ASP代碼中更有用,因為ASP代碼中“﹤﹥”被用作HTML標簽。
要引用一個命名組,使用\k﹤name﹥或\k’name’.
當進行搜索替換時,你可以用“${name}”來引用一個命名組。
以上是“正則表達式組的示例分析”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。