91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

爬取豆瓣的tp250電影名單

發布時間:2020-07-28 23:41:19 來源:網絡 閱讀:410 作者:even_07 欄目:編程語言
#       https://movie.douban.com/top250?start=25&filter=   要爬取的網頁

import re
from urllib.request import urlopen

def getPage(url):
    response=urlopen(url)
    return response.read().decode('utf-8')

def parsePage(s):
    ret=com.finditer(s)
    for i in ret:
        ret={
            'id': i.group('id'),
            'move_name':i.group('move_name'),
            'move_d':i.group( 'move_d'),
            'move_t':i.group('move_t'),
            'content': i.group('content'),
            'infor':i.group('infor')
        }
        yield  ret

def main(num):
    url='https://movie.douban.com/top250?start=%s&filter= ' %num
    res=getPage(url)
    ret=parsePage(res)
    print(ret)
    f=open('move',mode='a+',encoding='utf-8')
    for obj in ret:
        print(obj)
        data1=str(obj).replace('\\n','')
        data2=data1.replace(' ','')
        f.write(data2 + '\n')
    f.close()

com=re.compile('<div class="item">(?:.*?)<em class="">(?P<id>.*?)</em>(?:.*?)alt=(?P<move_name>.*?)src(?:.*?)導演:'
            '(?P<move_d>.*?)&nbsp;(?:.*?)<br>(?P<move_t>.*?)&nbsp(?:.*?)&nbsp;/&nbsp;(?P<content>.*?)</p>(?:.*?)<span class="inq">(?P<infor>.*?)</span>',re.S)

count=0
for i in range(10):
    main(count)
    count+=25
向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

肥东县| 德化县| 泸定县| 昌都县| 越西县| 内黄县| 双牌县| 五莲县| 西青区| 东平县| 体育| 寿宁县| 英吉沙县| 徐州市| 若尔盖县| 辽阳市| 法库县| 襄樊市| 吴堡县| 闸北区| 江都市| 安溪县| 全椒县| 东台市| 嵊泗县| 晋州市| 区。| 昭觉县| 治县。| 闽侯县| 瑞安市| 斗六市| 喜德县| 兰西县| 当雄县| 武隆县| 辽中县| 新乡县| 东乡族自治县| 平邑县| 广汉市|