Python爬蟲學習之獲取指定網頁源碼

發布時間：2020-10-17 08:48:18 來源：腳本之家閱讀：234 作者：羅思洋欄目：開發技術

本文實例為大家分享了Python獲取指定網頁源碼的具體代碼，供大家參考，具體內容如下

1、任務簡介

前段時間一直在學習Python基礎知識，故未更新博客，近段時間學習了一些關于爬蟲的知識，我會分為多篇博客對所學知識進行更新，今天分享的是獲取指定網頁源碼的方法，只有將網頁源碼抓取下來才能從中提取我們需要的數據。

2、任務代碼

Python獲取指定網頁源碼的方法較為簡單，我在Java中使用了38行代碼才獲取了網頁源碼（大概是學藝不精），而Python中只用了6行就達到了效果。

Python中獲取網頁源碼最簡單的方法就是使用urllib包，具體代碼如下：

import urllib.request    #導入urllib.request庫
b = str(input("請輸入："))  #提示用戶輸入信息，并強制類型轉換為字符串型
a = urllib.request.urlopen(b)#打開指定網址
html = a.read()       #讀取網頁源碼
html = html.decode("utf-8") #解碼為unicode碼
print(html)         #打印網頁源碼

我輸入的網址是我博客主頁的網址https://blog.csdn.net/lsylsy726

運行結果如下：

Python爬蟲學習之獲取指定網頁源碼

3、總結

這篇博客介紹的方法較為簡單，其實有的網站會“反爬蟲”，這時就需要我們使用User-Agent或者代理，這些東西都會在后面的博客中進行更新，我預計在后面博客中更新“讀取CSDN博客訪問量的小程序”和“有道翻譯小程序”及其他更難一些的知識，由于剛開始學習爬蟲，水平有限，請大家多多包涵。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持億速云。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Python爬蟲學習之獲取指定網頁源碼

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Python爬蟲學習之獲取指定網頁源碼

猜你喜歡

最新資訊

相關推薦

相關標簽