Python如何獲取指定開頭指定結尾所夾中間內容

發布時間：2023-02-24 17:23:26 來源：億速云閱讀：122 作者：iii 欄目：開發技術

本篇內容介紹了“Python如何獲取指定開頭指定結尾所夾中間內容”的有關知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠學有所成！

需求

獲取文章中指定開頭、指定結尾中所夾的內容。其中，開頭和結尾均有多種，但最多也就十幾種，所以代碼還是具有可行性的。

例：

X X 市人民檢察院指控： &oline; \underline{XX市人民檢察院指控：} XX市人民檢察院指控：被告人XXX與被害人YYY（女，歿年41歲，系XXX妻子）因家庭矛盾多次發生爭執。X年Y月Z日早晨,被告人XXX在X市X市場…被告人XXX為偏執性精神障礙，具有限制刑事責任能力。
公訴機關認為 &oline; \underline{公訴機關認為} 公訴機關認為，被告人XXX故意非法剝奪他人生命，致一人死亡，其行為應以故意殺人罪追究刑事責任

所需內容為：第一個下劃線到第二個下劃線中間的內容，即“被告人XXX…責任能力。”。其中，“檢察院指控”是指定開頭，“公訴機關認為”是指定結尾。

解決方案

原本想著NLP有沒有現成的庫可以直接調包，后來搜了半天沒搜到，然后看到了正則表達式（真香）。

代碼

低配方法：

適用于只有一種固定開頭和結尾，多種就不行了

import re
def GetMiddleStr(content,startStr,endStr):
#     patternStr = r'.*%s(.+?)%s.*'%(startStr,endStr) # 此模式不能跨段，‘.'只能匹配除了'\n'外所有單個字符
    patternStr = r'[\s\S]*%s(.+?)%s[\s\S]*'%(startStr,endStr)
#     patternStr = re.compile(patternStr,re.IGNORECASE) # 忽略大小寫 ，這個適用于英文文章
    middleStr= re.match(patternStr,content)
    if middleStr:
        return middleStr.group(1)

中配方法：

適用于多種固定開頭和結尾，不過是蠻力法，可以優化判斷，減少循環次數

import re
def GetMiddleStr2(content,startStr,endStr):
#     patternStr = r'.*%s(.+?)%s.*'%(startStr,endStr)
    goalStr = str('')
    
    for sStr in startStr:
        for eStr in endStr:
            patternStr = r'[\s\S]*%s(.+?)%s[\s\S]*'%(sStr,eStr)
            middleStr= re.match(patternStr,content)
            if middleStr:
                if not goalStr: # 判斷 空 時候的值
                    goalStr = middleStr.group(1)
                else:        # 非空時，將將短的留下來 
                    goalStr = middleStr.group(1) if len(goalStr)>len(middleStr.group(1)) else goalStr
                    
    return goalStr

運行效果

content='且得到被害人家屬諒解。綜上，建議法庭對被告人XXX減輕處罰。經審理查明：被告人XXX與被害人YYY因家庭矛盾多次發生爭執。X年Y月Z日清晨,被告人XXX在X市X市場......被告人XXX為偏執性精神障礙，具有限制刑事責任能力。公訴機關認為，被告人XXX故意非法剝奪他人生命，致一人死亡，其行為應以故意殺人罪追究刑事責任'
startStr = '經審理查明：'
endStr = '公訴機關認為，'
print(GetMiddleStr(content,startStr,endStr))

Python如何獲取指定開頭指定結尾所夾中間內容

第二種運行時將startStr和endStr分別賦值為：[‘AAA’,‘BBB’,…]，即可
例如:
startStr = [‘審理查明：’,‘審理查明:’,‘檢察院指控’]
endStr = [‘經鑒定’,‘經鑒定，’, ‘歸案后’]

代碼講解

正則表達式查一下手冊即可：
.*：除了’\n’以外所有字符重復多次
[\s\S]:空白字符或者非空白字符，即所有字符（一個集合∪它在全集中的補集，即全集）
其余查一下手冊就ok

“Python如何獲取指定開頭指定結尾所夾中間內容”的內容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站，小編將為大家輸出更多高質量的實用文章！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Python如何獲取指定開頭指定結尾所夾中間內容

需求

解決方案

代碼

低配方法：

中配方法：

代碼講解

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Python如何獲取指定開頭指定結尾所夾中間內容

需求

解決方案

代碼

低配方法：

中配方法：

代碼講解

猜你喜歡

最新資訊

相關推薦

相關標簽