您好,登錄后才能下訂單哦!
在Python中,數據存儲方式分為同步存儲和異步存儲。同步寫入速度比較慢,而爬蟲速度比較快,有可能導致數據保存不完整,一部分數據沒有入庫。而異步可以將爬蟲和寫入數據庫操作分開執行,互不影響,所以寫入速度比較快,能夠保證數據的完整性。
異步存儲數據庫大致看分為以下步驟:
1. 在settings中配置Mysql鏈接需要的參數(主機地址、用戶賬號、密碼、需要操作的表名、編碼格式等)
2. 自定義Pipeline,實現from_settings函數
3. from twisted.enterprise import adbapi 引入連接池模塊
4. from pymysql import cursors 引入游標模塊
5. 在from_settings中,準備鏈接數據庫參數,創建db_pool連接池,創建返回當前類的對象,傳入db_pool
6. 實現初始化函數,在初始化函數中,將db_pool賦值self的屬性
7. 實現process_item函數
7.1 query = self.db_pool.runInteraction(執行插入數據操作的函數對象,函數需要參數),并接受執行返回結果
7.2 query.addErrback(錯誤回調函數,函數需要參數),添加執行sql失敗回調的函數,在回調函數中對錯誤數據進一步處理
8. 實現插入數據操作的函數,準備sql,執行sql
9. 實現錯誤回調函數,在回調函數中對錯誤數據進一步處理
下面,我們以天堂圖片網為例,大致熟悉一下異步存儲:
1. 在存儲之前,可以選擇手動創建數據庫(表名、字段名、字段類型等自己定義),也可以選擇代碼創建。
2. 存儲數據之前還得先拿到數據
import scrapy from ..items import ImgItem class IvskySpider(scrapy.Spider): name = 'ivsky' allowed_domains = ['ivsky.com'] start_urls = ['http://www.ivsky.com/tupian/ziranfengguang/'] def parse(self, response): imgs = response.xpath('//div[@class="il_img"]/a/img') for img in imgs: alt = img.xpath('@alt').extract_first('') src = img.xpath('@src').extract_first('') item = ImgItem() item['alt'] = alt item['src'] = src yield item
3. 自定義item,并把數據傳進去
import scrapy class IvskySpiderItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() pass class ImgItem(scrapy.Item): alt = scrapy.Field() src = scrapy.Field()
4. 接下來就是settings中的配置,代碼如下(robots協議記得改為False):
MYSQL_HOST = '127.0.0.1' MYSQL_USER = 'root' MYSQL_PW = '123456' MYSQL_DB = 'ivskydb' MYSQL_CHARSET = 'utf8'
5. 再然后自定義pipeline,并把該pipeline在settings中配置(設置優先級):
from twisted.enterprise import adbapi from pymysql import cursors class TwistedMysqlPipeline(object): # 在調用TwistedMysqlPipeline時,第一個調用該函數 @classmethod def from_settings(cls, settings): #準備需要用到的鏈接mysql的參數 db_prams = dict( host=settings['MYSQL_HOST'], user=settings['MYSQL_USER'], password=settings['MYSQL_PW'], db=settings['MYSQL_DB'], port=3306, use_unicode=True, charset=settings['MYSQL_CHARSET'], # 指定使用的游標類型 cursorclass=cursors.DictCursor ) # 創建連接池對象,需要傳入兩個參數 # 1.使用操作mysql第三方包名 # 2.連接數據庫需要的參數 db_pool = adbapi.ConnectionPool('pymysql', **db_prams) return cls(db_pool) def __init__(self, db_pool): # 將連接池對象賦值self.db_pool屬性 self.db_pool = db_pool def process_item(self, item, spider): # 準備sql # 執行sql # 執行一個將item數據寫入數據庫的動作 # 1.執行操作的函數 # 2.執行函數需要的參數.... query = self.db_pool.runInteraction(self.insert_item, item) # 執行sql出現異常錯誤時,回調的函數 query.addErrback(self.handle_error, item, spider) return item # 插入數據出現錯誤時,回調的函數 def handle_error(self, failure, item, spider): print(failure) print(item) # 執行插入數據的函數 def insert_item(self, cursor, item): # 創建sql sql = "INSERT INTO ivs(alt,src)VALUES(%s,%s)" # 執行sql cursor.execute(sql,(item['alt'], item['src']))
6. pipeline在settings中的配置
ITEM_PIPELINES = { # 'ivsky_spider.pipelines.MysqlPipeline': 300, 'ivsky_spider.pipelines.TwistedMysqlPipeline': 300, }
代碼到這里就結束了。
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持億速云。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。