如何使用python爬取網站文章將圖片保存到本地并將HTML的src屬性更改到本地

發布時間：2022-01-13 15:05:32 來源：億速云閱讀：153 作者：小新欄目：大數據

這篇文章主要為大家展示了“如何使用python爬取網站文章將圖片保存到本地并將HTML的src屬性更改到本地”，內容簡而易懂，條理清晰，希望能夠幫助大家解決疑惑，下面讓小編帶領大家一起研究并學習一下“如何使用python爬取網站文章將圖片保存到本地并將HTML的src屬性更改到本地”這篇文章吧。

每次當你爬取一篇文章時，不管是從csdn或者其他網站，基本內容都是保存在一個富文本編輯器中，將內容提取出來還是一個html,保存之后圖片還在別人的圖片服務器上。我今天要說的就是將圖片保存之后并將它的src屬性替換成本地的地址。并且以次替換，按照原文章排版順序替換。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2018/11/5 15:06
# @Author  : jia.zhao
# @Desc    : 
# @File    : img_test.py
# @Software: PyCharm

import urllib.request
import re


def getHtml(url):
    # 通過urllib去請求
    page = urllib.request.urlopen(url)
    # 讀取頁面內容
    html = page.read()
    return html


def getImg(html):

    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    # Python3需要加的
    html = html.decode('utf-8')
    # 找到所有匹配項
    imglist = re.findall(imgre, html)

    x = 0
    # 循環
    for i in range(len(imglist)):
        # 保存圖片
        # urllib.request.urlretrieve(imgurl, 'img/%s.jpg' % x)
        # 根據每個圖片的src的內容進行替換
        html = re.sub(imglist[i], "G:/pachong/img/%s.jpg" % str(i), html)
        x += 1
    print(html)


html = getHtml("http://tieba.baidu.com/p/2460150866")

print(getImg(html))

這個demo知識貼吧的一個帖子里的圖片，大家可以依據自己的需求去更改此代碼。

以上是“如何使用python爬取網站文章將圖片保存到本地并將HTML的src屬性更改到本地”這篇文章的所有內容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內容對大家有所幫助，如果還想學習更多知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

如何使用python爬取網站文章將圖片保存到本地并將HTML的src屬性更改到本地

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

如何使用python爬取網站文章將圖片保存到本地并將HTML的src屬性更改到本地

猜你喜歡

最新資訊

相關推薦

相關標簽