91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python寫爬蟲都會使用什么庫

發布時間:2020-07-09 15:21:53 來源:億速云 閱讀:155 作者:Leah 欄目:編程語言

今天就跟大家聊聊有關Python寫爬蟲都會使用什么庫,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結了以下內容,希望大家根據這篇文章可以有所收獲。

Python爬蟲,全稱Python網絡爬蟲,是一種按照一定的規則,自動地抓取萬維網信息的程序或腳本,主要用于抓取證券交易數據、天氣數據、網站用戶數據和圖片數據等,Python為支持網絡爬蟲正常功能實現,內置了大量的庫,主要有幾種類型。下面本篇文章就來給大家介紹。

一、Python爬蟲網絡庫

Python爬蟲網絡庫主要包括:urllib、requests、grab、pycurl、urllib3、httplib2、RoboBrowser、MechanicalSoup、mechanize、socket、Unirest for Python、hyper、PySocks、treq以及aiohttp等。

二、Python網絡爬蟲框架

Python網絡爬蟲框架主要包括:grab、scrapy、pyspider、cola、portia、restkit以及demiurge等。

三、HTML/XML解析器?

● lxml:C語言編寫高效HTML/ XML處理庫。支持XPath。

● cssselect:解析DOM樹和CSS選擇器。

● pyquery:解析DOM樹和jQuery選擇器。

● BeautifulSoup:低效HTML/ XML處理庫,純Python實現。

● html5lib:根據WHATWG規范生成HTML/ XML文檔的DOM。該規范被用在現在所有的瀏覽器上。

● feedparser:解析RSS/ATOM feeds。

● MarkupSafe:為XML/HTML/XHTML提供了安全轉義的字符串。

● xmltodict:一個可以讓你在處理XML時感覺像在處理JSON一樣的Python模塊。

● xhtml2pdf:將HTML/CSS轉換為PDF。

● untangle:輕松實現將XML文件轉換為Python對象。

四、文本處理

用于解析和操作簡單文本的庫。

● difflib:(Python標準庫)幫助進行差異化比較。

● Levenshtein:快速計算Levenshtein距離和字符串相似度。

● fuzzywuzzy:模糊字符串匹配。

● esmre:正則表達式加速器。

● ftfy:自動整理Unicode文本,減少碎片化。

五、特定格式文件處理

解析和處理特定文本格式的庫。

● tablib:一個把數據導出為XLS、CSV、JSON、YAML等格式的模塊。

● textract:從各種文件中提取文本,比如 Word、PowerPoint、PDF等。

● messytables:解析混亂的表格數據的工具。

● rows:一個常用數據接口,支持的格式很多(目前支持CSV,HTML,XLS,TXT:將來還會提供更多!)。

看完上述內容,你們對Python寫爬蟲都會使用什么庫有進一步的了解嗎?如果還想了解更多知識或者相關內容,請關注億速云行業資訊頻道,感謝大家的支持。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

漳浦县| 衡南县| 新平| 辽宁省| 常州市| 水城县| 普洱| 庆城县| 湖口县| 法库县| 岑巩县| 广昌县| 靖州| 长宁区| 澎湖县| 陆良县| 道真| 德兴市| 南召县| 太谷县| 灵石县| 齐齐哈尔市| 绍兴县| 华阴市| 平泉县| 宣城市| 克山县| 玉林市| 永嘉县| 大邑县| 临沭县| 巴青县| 合水县| 尖扎县| 中卫市| 乐昌市| 新泰市| 涞源县| 墨竹工卡县| 固始县| 棋牌|