要使用Python抓取網頁內容并保存到CSV文件,可以按照以下步驟進行操作:
requests
用于發送HTTP請求,csv
用于操作CSV文件。import requests
import csv
requests.get()
方法來發送GET請求,并使用.text
屬性來獲取網頁內容。url = "http://example.com" # 替換為需要抓取的網頁URL
response = requests.get(url)
content = response.text
BeautifulSoup
)來解析網頁。# 使用示例:使用正則表達式從網頁內容中提取所有的鏈接
import re
pattern = '<a href="(.*?)".*?>'
links = re.findall(pattern, content)
csv.writer
對象來寫入CSV文件,通過調用其writerow()
方法來寫入一行數據。filename = "data.csv" # 替換為所需的CSV文件名
with open(filename, 'w', newline='') as file:
writer = csv.writer(file)
writer.writerow(["Link"]) # 寫入表頭
for link in links:
writer.writerow([link]) # 寫入數據
完整的代碼示例:
import requests
import csv
import re
url = "http://example.com" # 替換為需要抓取的網頁URL
response = requests.get(url)
content = response.text
pattern = '<a href="(.*?)".*?>'
links = re.findall(pattern, content)
filename = "data.csv" # 替換為所需的CSV文件名
with open(filename, 'w', newline='') as file:
writer = csv.writer(file)
writer.writerow(["Link"]) # 寫入表頭
for link in links:
writer.writerow([link]) # 寫入數據
運行上述代碼后,會在當前目錄下生成一個名為"data.csv"的文件,其中包含了抓取到的網頁鏈接信息。根據實際需求,可以調整代碼來提取其他所需的數據并寫入CSV文件。