要使用Python進行網頁抓取,通常需要以下幾個步驟:
import requests
from bs4 import BeautifulSoup
url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
find()
和find_all()
方法查找特定的HTML元素,然后使用.text
屬性獲取元素的文本內容。title = soup.find('title').text
links = soup.find_all('a')
for link in links:
print(link.get('href'))
with open('output.txt', 'w', encoding='utf-8') as f:
f.write(title)
這只是一個簡單的示例,實際爬蟲可能會涉及到更復雜的邏輯,如處理JavaScript渲染的頁面、登錄、翻頁、遵循robots.txt規則等。在實際應用中,你可能需要根據具體需求調整代碼。