from bs4 import BeautifulSoup #BeautifulSoup最主要的功能是從網頁抓取數據,Beautiful Soup自動將輸入文檔轉換為Unicode編碼 import requests #requests是python實現的最簡單易用的HTTP庫 import requests.exceptions import urllib.parse from collections import deque #deque 是一個雙端隊列, 如果要經常從兩端append 的數據, 選擇這個數據結構就比較好了, 如果要實現隨機訪問,不建議用這個,請用列表. import re #是一個正則表達式的庫
user_url=str(input('[+] Enter Target URL to Scan:')) urls =deque([user_url]) #把目標地址放入deque對象列表 scraped_urls= set()#set() 函數創建一個無序不重復元素集,可進行關系測試,刪除重復數據,還可以計算交集、差集、并集等。 emails = set()
count=0 try: while len(urls): #如果urls有長度的話進行循環 count += 1 #添加計數器來記錄爬取鏈接的條數 if count ==101: break url = urls.popleft() #popleft()會刪除urls里左邊第一條數據并傳給url scraped_urls.add(url) parts = urllib.parse.urlsplit(url) # 打印 parts會顯示:SplitResult(scheme='http', netloc='www.baidu.com', path='', query='', fragment='') base_url = '{0.scheme}://{0.netloc}'.format(parts)#scheme:協議;netloc:域名 path = url[:url.rfind('/')+1] if '/' in parts.path else url#提取路徑 print('[%d] Processing %s' % (count,url)) try: head = {'User-Agent':"Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11"} response = requests.get(url,headers = head) except(requests.exceptions.MissingSchema,requests.exceptions.ConnectionError): continue new_emails = set(re.findall(r'[a-z0-0\.\-+_]+@[a-z0-9\.\-+_]+\.[a-z]+', response.text ,re.I))#通過正則表達式從獲取的網頁中提取郵箱,re.I表示忽略大小寫 emails.update(new_emails)#將獲取的郵箱地址存在emalis中。
soup = BeautifulSoup(response.text, features='lxml') for anchor in soup.find_all('a'): #尋找錨點。在html中,<a>標簽代表一個超鏈接,herf屬性就是鏈接地址 link = anchor.attrs['href'] if 'href' in anchor.attrs else '' #如果,我們找到一個超鏈接標簽,并且該標簽有herf屬性,那么herf后面的地址就是我們需要錨點鏈接。 if link.startswith('/'):#如果該鏈接以/開頭,那它只是一個路徑,我們就需要加上協議和域名,base_url就是剛才分離出來的協議+域名 link = base_url + link elif not link.startswith('http'):#如果不是以/和http開頭的話,就要加上路徑。 link =path + link if not link in urls and not link in scraped_urls:#如果該鏈接在之前沒還有被收錄的話,就把該鏈接進行收錄。 urls.append(link) except KeyboardInterrupt: print('[+] Closing') for mail in emails: print(mail)
