您好,登錄后才能下訂單哦!
本篇內容介紹了“Python如何獲取指定開頭指定結尾所夾中間內容”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!
獲取文章中指定開頭、指定結尾中所夾的內容。其中,開頭和結尾均有多種,但最多也就十幾種,所以代碼還是具有可行性的。
例:
X X 市 人 民 檢 察 院 指 控 : ‾ \underline{XX市人民檢察院指控:} XX市人民檢察院指控:被告人XXX與被害人YYY(女,歿年41歲,系XXX妻子)因家庭矛盾多次發生爭執。X年Y月Z日早晨,被告人XXX在X市X市場…被告人XXX為偏執性精神障礙,具有限制刑事責任能力。
公 訴 機 關 認 為 ‾ \underline{公訴機關認為} 公訴機關認為,被告人XXX故意非法剝奪他人生命,致一人死亡,其行為應以故意殺人罪追究刑事責任
所需內容為:第一個下劃線到第二個下劃線中間的內容,即“被告人XXX…責任能力。”。其中,“檢察院指控”是指定開頭,“公訴機關認為”是指定結尾。
原本想著NLP有沒有現成的庫可以直接調包,后來搜了半天沒搜到,然后看到了正則表達式(真香)。
適用于只有一種固定開頭和結尾,多種就不行了
import re def GetMiddleStr(content,startStr,endStr): # patternStr = r'.*%s(.+?)%s.*'%(startStr,endStr) # 此模式不能跨段,‘.'只能匹配除了'\n'外所有單個字符 patternStr = r'[\s\S]*%s(.+?)%s[\s\S]*'%(startStr,endStr) # patternStr = re.compile(patternStr,re.IGNORECASE) # 忽略大小寫 ,這個適用于英文文章 middleStr= re.match(patternStr,content) if middleStr: return middleStr.group(1)
適用于多種固定開頭和結尾,不過是蠻力法,可以優化判斷,減少循環次數
import re def GetMiddleStr2(content,startStr,endStr): # patternStr = r'.*%s(.+?)%s.*'%(startStr,endStr) goalStr = str('') for sStr in startStr: for eStr in endStr: patternStr = r'[\s\S]*%s(.+?)%s[\s\S]*'%(sStr,eStr) middleStr= re.match(patternStr,content) if middleStr: if not goalStr: # 判斷 空 時候的值 goalStr = middleStr.group(1) else: # 非空時,將將短的留下來 goalStr = middleStr.group(1) if len(goalStr)>len(middleStr.group(1)) else goalStr return goalStr
運行效果
content='且得到被害人家屬諒解。綜上,建議法庭對被告人XXX減輕處罰。經審理查明:被告人XXX與被害人YYY因家庭矛盾多次發生爭執。X年Y月Z日清晨,被告人XXX在X市X市場......被告人XXX為偏執性精神障礙,具有限制刑事責任能力。公訴機關認為,被告人XXX故意非法剝奪他人生命,致一人死亡,其行為應以故意殺人罪追究刑事責任'
startStr = '經審理查明:'
endStr = '公訴機關認為,'
print(GetMiddleStr(content,startStr,endStr))
第二種運行時將startStr和endStr分別賦值為:[‘AAA’,‘BBB’,…],即可
例如:
startStr = [‘審理查明:’,‘審理查明:’,‘檢察院指控’]
endStr = [‘經鑒定’,‘經鑒定,’, ‘歸案后’]
正則表達式查一下手冊即可:
.*:除了’\n’以外所有字符重復多次
[\s\S]:空白字符或者非空白字符,即所有字符(一個集合∪它在全集中的補集,即全集)
其余查一下手冊就ok
“Python如何獲取指定開頭指定結尾所夾中間內容”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。