91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

小白的python爬蟲,40代碼教你爬取豆瓣小說

發布時間:2020-06-26 22:46:36 來源:網絡 閱讀:1290 作者:星火燎愿 欄目:編程語言

這篇文章寫了很久了,一直沒有發布;
爬蟲學的差不多了,覺得這篇文章對新手實踐還是有些作用的。畢竟這也是我剛學爬蟲的時候練習的,爬取了比較好爬的網站,也比較經典;多余的解釋不說了,代碼里每一行都有注釋,解釋的很清楚;
后續有時間的話還會發布一些爬蟲文章的;

=============================================

直接上代碼:

import requests
from bs4 import BeautifulSoup
from lxml import etree
#抓取豆瓣小說的 書名、評分;

page = 0            #定義頁數初始值;
lists_book = []     #定義書名列表;
lists_grade = []    #定義評分的列表;
for u in range(0,20):   #循環20次,每一次循環爬取一頁,即:抓取20頁;
    basic_url = 'https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=' + str(page) + '&type=T'
    page += 20      #每循環一次 +20,適應鏈接變化;

    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
    }
    #發送請求
    response = requests.get(basic_url, headers=headers, timeout=10)     #requests請求;
    response.encoding = 'utf-8'     #設置編碼
    htm = response.text     #返回text文本;

    #解析請求
    selector = etree.HTML(htm)      #利用 etree.HTML 初始化
    book_name = selector.xpath('//*[@id="subject_list"]/ul/li/div[2]/h3/a/text()')  #獲取書名
    grade = selector.xpath('//*[@id="subject_list"]/ul/li/div[2]/div[2]/span[2]/text()')    #獲取評分;

    #將書名存入到lists_book列表;
    for i in book_name:
        lists_book.append(i.strip())     #去除字符串空格,存入列表;
        while '' in lists_book:      #如果列表中有空元素,則刪除空元素;
            lists_book.remove('')
    #將評分存入到lists_grade列表;
    for i in grade:
        lists_grade.append(i.strip())     #去除字符串空格,存入列表;
        while '' in lists_grade:      #如果列表中有空元素,則刪除空元素;
            lists_grade.remove('')

print(lists_book)           #輸出爬取的書名列表;
print(len(lists_book))      #輸出列表的長度,即:爬取了多少本書
print(lists_grade)          #輸出評分的列表;
print(len(lists_grade))     #輸出評分列表的長度;為了和書的數目核對,防止偏差;
print("評分最高: "+ str(max(lists_grade)) + "\n" + "書名: " + lists_book[lists_grade.index(max(lists_grade))])

運行后結果輸出到了屏幕上,并沒有存入數據庫,后續需要也可以繼續添加代碼將爬取結果存入數據庫;

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

怀仁县| 集贤县| 丹东市| 东至县| 通山县| 天长市| 邯郸县| 双城市| 和静县| 阳谷县| 乡宁县| 永兴县| 富蕴县| 常州市| 泗水县| 夹江县| 岳普湖县| 平潭县| 小金县| 塘沽区| 泽州县| 常山县| 沂南县| 长汀县| 溧水县| 汉沽区| 新营市| 安宁市| 中江县| 庆元县| 静海县| 灵川县| 酒泉市| 青川县| 遵义县| 孝昌县| 沙河市| 大英县| 顺义区| 郸城县| 改则县|