python用match()函數爬數據方法詳解

發布時間：2020-09-07 03:28:20 來源：腳本之家閱讀：155 作者：Ma_Qiao2020 欄目：開發技術

match()函數的使用。以及從文本中提取數據的方法。在學習re模塊的相關函數前應了解正則表達式的特殊字符

準備一個要爬取的文本文檔：

直接從某個網頁拷貝一份代碼，粘貼在一個txt文件里，以供學習。

方法很簡單，比如打開百度視頻的熱門電影網頁，右鍵點擊查看源代碼，然后復制，粘貼到一個txt文件里，保存到工作目錄下。

有4000多行。

python用match()函數爬數據方法詳解

re.match(pattern, string, flags=0)

①pattern，是正則表達式。string，被檢驗的字符串。

②flags是可選參數，此標記是用來對patten的補充。例如：re.S，可以讓正則表達式中的點匹配換行符\n。(如圖片中，可以看幫助文檔，查看有哪些標記）

③ match()函數由左向右檢驗string，若匹配到正則表達式，返回一個匹配對象，否則就返回None.

④re.match() 匹配字符串的開始位置，而不匹配每行開始。

----所以才將網頁的每行放入列表，以供match函數對每行操作。

python用match()函數爬數據方法詳解

比如要在文檔中，提取電影的網址，和電影名。

①復制那行文本作為表達式，

②將要提取的網址和和電影名替換為(.*)，這只是暫時的，可以在接下來的代碼中調整。

python用match()函數爬數據方法詳解

讀取文本：

①用with open（）語句讀取；

②用readlines，一次性讀完，返回一個列表，元素是文本的每一行。

with open('aa.txt','r',encoding='utf-8') as f:
  lines=f.readlines()

python用match()函數爬數據方法詳解

①判斷每行是否返回了匹配的對象，

②接收匹配對象，并用groups()提取表達式內括號的內容；

for line in lines:
  if re.match(pat,line):   #判斷過濾掉返回None的行，
    ret=re.match(pat,line) #接收匹配對象
    print(ret.groups())

python用match()函數爬數據方法詳解

發現有不符合的行，稍加修改，過濾掉不符合的行：

因為，不合的行都有空格（或其他字符）。可以給第二子組的點 . 換成非[^ ]；非空格的任意字符，意思就是不要有空格的。

python用match()函數爬數據方法詳解

用f-string格式化對輸出的文本稍加修飾，使用group(1)，group(2);

python用match()函數爬數據方法詳解

可以將這段代碼封裝為一個函數。爬取百度視頻的其他欄目。

python用match()函數爬數據方法詳解

測試: 百度視頻的電影，電視劇，和動漫等欄目，網頁上的格式基本相同，所以用上面的函數直接套用。

打開百度視頻的動漫，復制源代碼，存為bb.txt。

同樣可以爬取網址和視頻名稱。

以上僅是練習match()函數的例子。

python用match()函數爬數據方法詳解

以上就是關于python如何用match()函數爬數據的全部內容，感謝大家的閱讀和對億速云的支持。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本