91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

【Python】抓取淘寶數據庫月報,發送郵件,本地存檔,保存元信息

發布時間:2020-04-10 07:59:42 來源:網絡 閱讀:959 作者:對唔住 欄目:編程語言

用途

  • 定期抓取淘寶數據庫月報
  • 發送郵件,保存到本地,最好是git中
  • 發送元數據到mysql中,后期可以做成接口集成到運維平臺中,便于查詢

使用方式

# 下載(必須)
cd ~ && git clone https://github.com/naughtyGitCat/spider_taobao_mysql.git

# 修改配置(必須)
vim config.py

# 安裝crontab(可選)
"0 10 8 * * source ~/.bashrc && python3 ~/spider_taobao_mysql/main.py" 

# 安裝依賴
pip3 install logbook
pip3 install html2text
pip3 install pymysql
pip3 install requests_html

# 創建元信息庫表(可選)
mysql -d mysql -u root -p < taobao_monthly_report.sql 

# 執行程序
python3 main.py

完成情況:

  • 定期抓取用crontab來做,不放到本腳本中
  • 發送郵件,保存到本地(html)皆完成
  • 保存元數據

問題

  • 為什么郵件正文只有前言部分?因為郵件有反垃圾措施,全文容易被屏蔽
  • 為什么收件人只有一個?因為郵件有反垃圾措施,多人容易被屏蔽,可以發送到同一個郵箱中,然后自動轉發
  • 可以也可以保存md格式到本地,但是我的md編輯器好像加載不了圖片,就是用了html的格式本地保存
  • 本地保存以及發送html時都損失了樣式,不太美觀,但我在郵件正文中增加了原文鏈接。
  • 文章中的圖片沒有本地化,理論上是有圖片失效的問題的。但考慮到各位都有閱讀后及時總結整理的好習慣,也就無所謂了。

注意

  • 一個月運行一次就夠了,可以放到crontab中每月執行一次,自動抓取上個月的文章內容
  • 阿里的頁面是到下個月后一次性放出上個月所有的文章,總數目前看基本是10篇,
  • 如果發現其一次放出了>10篇的文章,請聯系我進行更改

依賴包

  • logbook 日志
  • html2text 格式轉換為md
  • pymysql 上傳元數據
  • requests_html 抓取網頁的正文

TODO:

  • 緩存本地圖片
  • 把insert into 改成replace into

【Python】抓取淘寶數據庫月報,發送郵件,本地存檔,保存元信息

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

周至县| 沁源县| 商城县| 兴安县| 宣化县| 自贡市| 双流县| 根河市| 石阡县| 青神县| 晋江市| 凤山市| 大冶市| 台中市| 龙游县| 山东省| 马龙县| 贞丰县| 拜城县| 松桃| 九江市| 济源市| 井冈山市| 龙山县| 虞城县| 新泰市| 县级市| 陕西省| 新兴县| 玉山县| 嘉鱼县| 潮安县| 黑山县| 卢龙县| 玛沁县| 龙海市| 苗栗县| 延津县| 朝阳区| 广元市| 临沧市|