91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python超簡化的18行代碼爬一本小說

發布時間:2020-06-12 16:10:42 來源:網絡 閱讀:488 作者:大大大棉花 欄目:編程語言

import urllib.request
import re
def getnvvel():
html = urllib.request.urlopen("http://www.quanshuwang.com/book/44/44683").read().decode('gbk') # download sould code
urls = re.findall(r'<li><a href="(.?)" title=".?">(.?)</a></li>', html) # regular expression
title = "douluo" # Normoally,you should use request.urlopen
f = open('../novel/%s.txt' % title, 'w') # create a douluo.txt
for url in urls:
chapter_url = url[0]
chapter_title = url[1]
chapter_content_list = urllib.request.urlopen(chapter_url).read().decode("gbk")
chapter_content_list = re.findall(r'</script>    .
?<br />(.*?)<script type="text/javascript">', chapter_content_list, re.S)
for chapter_content in chapter_content_list:
chapter_content = chapter_content.replace("    ", "")
chapter_content = chapter_content.replace("<br />", "")
f.write(chapter_title) # type chapter_title in douluo.txt
f.write(chapter_content) # type chapter_content in douluo.txt
f.write('\n') #為了分行更清楚
getnvvel()

如果你想你的代碼不容易被發現你可以加上一個header比如

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36'}

html = request.urlopen(url, headers=headers)

當然為了和諧你也可以

import time

在后面某個位置加上下載的位置加上一個

time.sleep(1)

當然,想要加上一些其他防爬蟲的東西你就得自己再努力深造了

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

胶南市| 巫溪县| 沽源县| 平南县| 靖远县| 大同市| 马边| 黄陵县| 桃源县| 龙井市| 彰武县| 绥阳县| 黎川县| 宁南县| 浏阳市| 南昌市| 张北县| 灵丘县| 灌南县| 岳普湖县| 公安县| 肇源县| 屏东市| 陇川县| 双城市| 瑞金市| 汝州市| 响水县| 金山区| 宝山区| 图木舒克市| 琼中| 遂宁市| 武定县| 上林县| 新龙县| 卓尼县| 棋牌| 建阳市| 罗田县| 德保县|