91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python對網頁文本的格式化的方法是什么

發布時間:2021-10-12 10:13:36 來源:億速云 閱讀:140 作者:iii 欄目:開發技術

這篇文章主要講解了“python對網頁文本的格式化的方法是什么”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“python對網頁文本的格式化的方法是什么”吧!

1、一個網頁通常包含文本信息。對于不同的文本類型,我們可以選擇合適的HTML語義元素進行標記。

2、em元素用于標記和強調部分內容,small元素用于注釋和署名文本。

實例

<body>
    <h2>論語學而篇第一</h2>
    <p><small>
    <b>作者:</b><abbr title="名丘,字仲尼">孔子<sup><a href="#" rel="external nofollow" >1</a></sup></abbr>(<time>前551年9月28日-前479年4月11日</time>)
    </small></p>
    <h3>本篇引語</h3>
    <p>《學而》是《論語》第一篇的篇名。《論語》中各篇一般都是以第一章的前二三個字作為該篇的篇名。《學而》一篇包括16章,內容涉及諸多方面。其中重點是
     <strong>「吾日三省吾身」;「節用而愛人,使民以時」;「禮之用,和為貴」以及仁、孝、信等</strong>道德范疇。</p>
    <h3>原文</h3>
    <p>子曰:「<mark>學而時習之,不亦說乎?</mark>有朋自遠方來,不亦樂乎?人不知,而不慍,不亦君子乎?」 </p>
  </body>

知識點擴展:

Python int與string之間的轉化

string–>int

1、10進制string轉化為int

int(‘12')

2、16進制string轉化為int

int(‘12', 16)

int–>string

1、int轉化為10進制string

str(18)

2、int轉化為16進制string

hex(18)


2 . 由于鏈家網上面選中第二頁的時候,只是在頁面后面多了一個“d2”, 如: http://sh.lianjia.com/ershoufang/pudong/d2 , 所以要想爬取更多的網頁只需要循環更新requests 的頁面URL

3 . 增加了一個循環之后,可以打印所有的爬取結果

from lxml import etree
import requests
import string
url = 'http://sh.lianjia.com/ershoufang/'
region = 'pudong'
price = 'p23'
finalURL = url+region+price

def spider_room(finallyURL):
   r= requests.get(finallyURL)
   html = requests.get(finalURL).content.decode('utf-8')
   dom_tree = etree.HTML(html)
   # all the messages
   all_message = dom_tree.xpath("//ul[@class='js_fang_list']/li")
   for index in range(len(all_message)):
      print(all_message[index].xpath('string(.)').strip())
   return
for i in range(20):
   finallyURL = finalURL + '/d'+str(i)
   spider_room(finallyURL)

4 . 爬取了20頁的內容,可是內容的結果輸出的形式并沒有改變

感謝各位的閱讀,以上就是“python對網頁文本的格式化的方法是什么”的內容了,經過本文的學習后,相信大家對python對網頁文本的格式化的方法是什么這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

衡阳市| 峨山| 普洱| 曲沃县| 通化市| 大庆市| 松江区| 邮箱| 临高县| 东乡| 依安县| 安平县| 蕲春县| 日土县| 绥滨县| 富阳市| 南丹县| 日喀则市| 石河子市| 繁昌县| 集贤县| 东宁县| 鄯善县| 肃宁县| 四子王旗| 临西县| 天镇县| 塔城市| 工布江达县| 兴业县| 丘北县| 诸城市| 克什克腾旗| 锡林浩特市| 靖边县| 富阳市| 美姑县| 如皋市| 临夏县| 温州市| 英德市|