您好,登錄后才能下訂單哦!
這篇文章將為大家詳細講解有關怎么在Python中利用get_text()方法從html中提取文本,文章內容質量較高,因此小編分享給大家做個參考,希望大家閱讀完這篇文章后對相關知識有一定的了解。
如下所示:
<textarea rows="" cols="" name="id"><DIV class=MsoNormal><SPAN ><?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /><o:p> </o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>第一條 為促進微博客信息服務健康有序發展,保護公民、法人和其他組織的合法權益,維護國家安全和公共利益,根據《中華人民共和國網絡安全法》《國務院關于授權國家互聯網信息辦公室負責互聯網信息內容管理工作的通知》,制定本規定。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>第二條 在中華人民共和國境內從事微博客信息服務,應當遵守本規定。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>本規定所稱微博客,是指基于使用者關注機制,主要以簡短文字、圖片、視頻等形式實現信息傳播、獲取的社交網絡服務。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>微博客服務提供者是指提供微博客平臺服務的主體。微博客服務使用者是指使用微博客平臺從事信息發布、互動交流等的行為主體。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>微博客信息服務是指提供微博客平臺服務及使用微博客平臺從事信息發布、傳播等行為。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>第三條 國家互聯網信息辦公室負責全國微博客信息服務的監督管理執法工作。地方互聯網信息辦公室依據職責負責本行政區域內的微博客信息服務的監督管理執法工作。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>第四條 微博客服務提供者應當依法取得法律法規規定的相關資質。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>向社會公眾提供互聯網新聞信息服務的,應當依法取得互聯網新聞信息服務許可,并在許可范圍內開展服務,禁止未經許可或超越許可范圍開展互聯網新聞信息服務活動。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>第五條 微博客服務提供者應當發揮促進經濟發展、服務社會大眾的積極作用,弘揚社會主義核心價值觀,傳播先進文化,堅持正確輿論導向,倡導依法上網、文明上網、安全上網。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>第六條 微博客服務提供者應當落實信息內容安全管理主體責任,建立健全用戶注冊、信息發布審核、跟帖評論管理、應急處置、從業人員教育培訓等制度及總編輯制度,具有安全可控的技術保障和防范措施,配備與服務規模相適應的管理人員。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>微博客服務提供者應當制定平臺服務規則,與微博客服務使用者簽訂服務協議,明確雙方權利、義務,要求微博客服務使用者遵守相關法律法規。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>第七條 微博客服務提供者應當按照“后臺實名、前臺自愿”的原則,對微博客服務使用者進行基于組織機構代碼、身份證件號碼、移動電話號碼等方式的真實身份信息認證、定期核驗。微博客服務使用者不提供真實身份信息的,微博客服務提供者不得為其提供信息發布服務。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>微博客服務提供者應當保障微博客服務使用者的信息安全,不得泄露、篡改、毀損,不得出售或者非法向他人提供。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>第八條 微博客服務使用者申請前臺實名認證賬號的,應當提供與認證信息相符的有效證明材料。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>境內具有組織機構特征的微博客服務使用者申請前臺實名認證賬號的,應當提供組織機構代碼證、營業執照等有效證明材料。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>境外組織和機構申請前臺實名認證賬號的,應當提供駐華機構出具的有效證明材料。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>第九條 微博客服務提供者應當按照分級分類管理原則,根據微博客服務使用者主體類型、發布內容、關注者數量、信用等級等制定具體管理制度,提供相應服務,并向國家或省、自治區、直轄市互聯網信息辦公室備案。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>第十條 微博客服務提供者應當對申請前臺實名認證賬號的微博客服務使用者進行認證信息審核,并按照注冊地向國家或省、自治區、直轄市互聯網信息辦公室分類備案。微博客服務使用者提供的證明材料與認證信息不相符的,微博客服務提供者不得為其提供前臺實名認證服務。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>各級黨政機關、企事業單位、人民團體和新聞媒體等組織機構對所開設的前臺實名認證賬號發布的信息內容及其跟帖評論負有管理責任。微博客服務提供者應當提供管理權限等必要支持。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>第十一條 微博客服務提供者應當建立健全辟謠機制,發現微博客服務使用者發布、傳播謠言或不實信息,應當主動采取辟謠措施。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>第十二條 微博客服務提供者和微博客服務使用者不得利用微博客發布、傳播法律法規禁止的信息內容。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>微博客服務提供者發現微博客服務使用者發布、傳播法律法規禁止的信息內容,應當依法立即停止傳輸該信息、采取消除等處置措施,保存有關記錄,并向有關主管部門報告。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>第十三條 微博客服務提供者應用新技術、調整增設具有新聞輿論屬性或社會動員能力的應用功能,應當報國家或省、自治區、直轄市互聯網信息辦公室進行安全評估。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>第十四條 微博客服務提供者應當自覺接受社會監督,設置便捷的投訴舉報入口,及時處理公眾投訴舉報。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>第十五條 國家鼓勵和指導互聯網行業組織建立健全微博客行業自律制度和行業準則,推動微博客行業信用等級評價和信用體系建設,督促微博客服務提供者依法提供服務、接受社會監督。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>第十六條 微博客服務提供者應當遵守國家相關法律法規規定,配合有關部門開展監督管理執法工作,并提供必要的技術支持和協助。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>微博客服務提供者應當記錄微博客服務使用者日志信息,保存時間不少于六個月。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>第十七條 微博客服務提供者違反本規定的,由有關部門依照相關法律法規處理。</SPAN><SPAN ><o:p></o:p></SPAN></DIV> <DIV class=MsoNormal><SPAN ><FONT face=宋體>第十八條 本規定自2018年3月20日起施行。</SPAN><SPAN ><o:p></o:p></SPAN></DIV><!--EndFragment--></textarea>
比如這兒有這么一大段帶html的字串,想要從中提取文本,首先發現這是一個textarea
我們使用beautifulsoup
def get_content(url): resp = urllib.request.urlopen(url) html = resp.read() bs = BeautifulSoup(html, "html.parser") return bs.textarea.get_text()
首先用那段html字符串初始化beautifulsoup對象
然后bs.textarea返回找到的第一個textarea,找到后使用get_text()清空所有html標簽元素
之后就會返回干凈的文字
關于怎么在Python中利用get_text()方法從html中提取文本就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。