91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

用Python如何爬取下載kindle網站電子書

發布時間:2020-06-30 15:08:25 來源:億速云 閱讀:338 作者:清晨 欄目:編程語言

這篇文章將為大家詳細講解有關用Python如何爬取下載kindle網站電子書,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

一個下載看kindle(kankindle.com)的所有電子書的python腳本,程序會自動下載首頁部分13頁的所有電子書,下載到ebook目錄下,程序會檢測是否下載過。

 用Python如何爬取下載kindle網站電子書

#!/usr/bin/env python
# coding=utf-8
from bs4 import BeautifulSoup
import urllib2
import socket
import re
import unicodedata
import os
from urwid.text_layout import trim_line
def download(url):
    print 'starting download %s' % url
    response=urllib2.urlopen(url,timeout=30)
    html_data=response.read()
    
    soup=BeautifulSoup(html_data)
    print 'start to analayse---------------'
    
    
    title_soup=soup.find_all(class_='yanshi_xiazai')
    name_soup = soup.find_all('h2')
    tag_a = title_soup[0].a.attrs['href']
    tag_name= title_soup[0].a.contents
    link_name = name_soup[0]
    link_name = str(link_name).replace("<h2>","").replace("</h2>","")
    #print tag_name[0]
    #print link_name
    
    
    filename = link_name+".mobi"
    filename = "ebook/"+filename
    print 'filename is :%s' % filename
    
    print "downloading with urllib2 %s" % tag_a
    if os.path.exists(filename):
        print 'already donwload ,ignore'
    else:
        try:
            f = urllib2.urlopen(tag_a,timeout=60)
            data = f.read()
            #print 'the data is %s'% data
            with open(filename, "wb") as code:
                code.write(data)
        except Exception,e:
            print e
def get_all_link(url):
    print 'Starting get all the list'
    response=urllib2.urlopen(url,timeout=30)
    html_data=response.read()
    #print html_data
    
    soup=BeautifulSoup(html_data)
    link_soup = soup.find_all('a')
    #print link_soup
   
    for each_link in link_soup:
        if re.search('view',str(each_link)):
            #print each_link
            print each_link
            print each_link.attrs['href']
            download(each_link.attrs['href'])
if __name__ == '__main__':
    for page in range(1,13):
        url = "http://kankindle.com/simple/page/3"+str(page)
        url = url.strip()
        print url
        get_all_link(url)

關于用Python如何爬取下載kindle網站電子書就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

北京市| 江门市| 洪湖市| 淄博市| 荣昌县| 自治县| 肃南| 六盘水市| 津南区| 明光市| 宜兰县| 武穴市| 永川市| 同德县| 肇东市| 德安县| 河池市| 天等县| 兴义市| 普兰县| 礼泉县| 弥渡县| 荆州市| 襄城县| 上饶县| 和林格尔县| 祥云县| 来宾市| 南京市| 台东县| 衡阳市| 潜山县| 玛沁县| 当阳市| 邢台市| 丹棱县| 石狮市| 德钦县| 土默特右旗| 武乡县| 甘孜县|