要寫一個簡單的爬蟲框架,可以使用Python的requests庫來發送HTTP請求,并使用BeautifulSoup庫來解析HTML頁面。以下是一個簡單的爬蟲框架示例:
import requests
from bs4 import BeautifulSoup
def get_html(url):
response = requests.get(url)
return response.text
def parse_html(html):
soup = BeautifulSoup(html, 'html.parser')
# 在這里編寫解析HTML的代碼
# 例如提取頁面中的鏈接、標題等信息
links = [link.get('href') for link in soup.find_all('a')]
return links
def crawl(url):
html = get_html(url)
links = parse_html(html)
for link in links:
print(link)
if __name__ == '__main__':
url = 'https://www.example.com'
crawl(url)
在這個示例中,我們定義了三個函數:get_html
用于發送HTTP請求并獲取HTML頁面內容,parse_html
用于解析HTML頁面并提取鏈接信息,crawl
用于爬取指定URL頁面的鏈接并打印出來。最后在main
函數中指定了要爬取的URL,并調用crawl
函數開始爬取。
當然,這只是一個簡單的爬蟲框架示例,實際項目中可能需要更多的功能和處理邏輯,比如處理頁面的js渲染、處理異常、保存數據等。建議在實際項目中根據需求進行相應的擴展和改進。