91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

【更新】爬取姓名大全的名字

發布時間:2020-07-12 12:38:19 來源:網絡 閱讀:906 作者:努力的C 欄目:開發技術

接上文,可以不用一個網址一個網址的輸入了,能抓取頁面

http://www.yw11.com/namelist.php

上列出的所有名字大全,不必再像上一個程序一樣一個網址一個網址的輸入了。嘿嘿。


#coding=utf-8
import urllib2
import re
from bs4 import BeautifulSoup
import sys
reload(sys)  
sys.setdefaultencoding('utf-8') 
def getHtml(url):
 	page=urllib2.urlopen(url)
 	html=page.read()
 	return html
def getAllUrl(url):
	html=getHtml(url)
	soup=BeautifulSoup(html,'html.parser')
	ul=soup.find_all('ul',attrs={'class':'e3'})[0]
	a=ul.find_all('a')
	# for i in a:
	# 	urls=i['href']
	# 	print urls
	# print "一共有"+str(len(a))
	return a
url='http://www.yw11.com/namelist.php'
user_agent='Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/600.7.12 (KHTML, like Gecko) Version/8.0.7 Safari/600.7.12'
headers={"User-Agent":user_agent}
urls=getAllUrl(url)
f=open('name.txt','a')
for index in range(len(urls)):
	lianjie=urls[index]['href']
	mingzi=urls[index].text
	print "正在抓取姓"+mingzi +"的名字......"
	request=urllib2.Request(lianjie,headers=headers)
	html=getHtml(request)
	soup=BeautifulSoup(html,'html.parser')
	divs=soup.find_all('div',attrs={"class":"listbox1_text"})[0]
	ul=divs.find_all('ul')[0]
	lis=ul.find_all('li')
	for index in range(len(lis)):
		name=lis[index].text.lstrip()#左對齊
		f.write(name)
		f.write('\r\n')
	print "抓取了"+(str(index)+1)+"個"+mingzi+"名字"
f.close()
f=open('name.txt','r')
lines=f.readlines()
print "當前一共有"+str(len(lines))
f.close()


向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

浦县| 曲阜市| 连江县| 孟连| 黄梅县| 临洮县| 莱州市| 鹤庆县| 长顺县| 刚察县| 剑阁县| 板桥市| 临泽县| 唐海县| 连平县| 姚安县| 香格里拉县| 江北区| 新竹市| 吉木萨尔县| 徐水县| 大兴区| 亚东县| 潮安县| 上犹县| 土默特左旗| 肃南| 宜宾市| 桃源县| 永泰县| 山东| 简阳市| 宁晋县| 阳春市| 武威市| 信阳市| 紫云| 扎兰屯市| 盐源县| 邮箱| 三河市|