91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么使用PyCharm Profile分析異步爬蟲效率

發布時間:2022-03-24 14:19:31 來源:億速云 閱讀:158 作者:iii 欄目:web開發

這篇文章主要介紹“怎么使用PyCharm Profile分析異步爬蟲效率”的相關知識,小編通過實際案例向大家展示操作過程,操作方法簡單快捷,實用性強,希望這篇“怎么使用PyCharm Profile分析異步爬蟲效率”文章能幫助大家解決問題。

第一個代碼如下,就是一個普通的 for 循環爬蟲。原文地址。

import requests
import bs4
from colorama import Fore


def main():
 get_title_range()
 print("Done.")


def get_html(episode_number: int) -> str:
 print(Fore.YELLOW + f"Getting HTML for episode {episode_number}", flush=True)

 url = f'https://talkpython.fm/{episode_number}'
 resp = requests.get(url)
 resp.raise_for_status()

 return resp.text


def get_title(html: str, episode_number: int) -> str:
 print(Fore.CYAN + f"Getting TITLE for episode {episode_number}", flush=True)
 soup = bs4.BeautifulSoup(html, 'html.parser')
 header = soup.select_one('h2')
 if not header:
  return "MISSING"

 return header.text.strip()


def get_title_range():
 # Please keep this range pretty small to not DDoS my site. ;)
 for n in range(185, 200):
  html = get_html(n)
  title = get_title(html, n)
  print(Fore.WHITE + f"Title found: {title}", flush=True)


if __name__ == '__main__':
 main()

這段代碼跑完花了37s,然后我們用 pycharm 的 profiler 工具來具體看看哪些地方比較耗時間。

點擊Profile (文件名稱)

怎么使用PyCharm Profile分析異步爬蟲效率

之后獲取到得到一個詳細的函數調用關系、耗時圖:

怎么使用PyCharm Profile分析異步爬蟲效率

可以看到 get_html 這個方法占了96.7%的時間。這個程序的 IO 耗時達到了97%,獲取 html 的時候,這段時間內程序就在那死等著。如果我們能夠讓他不要在那兒傻傻地等待 IO 完成,而是開始干些其他有意義的事,就能節省大量的時間。

稍微做一個計算,試用asyncio異步抓取,能將時間降低多少?

get_html這個方法耗時36.8s,一共調用了15次,說明實際上獲取一個鏈接的 html 的時間為36.8s / 15 = 2.4s。**要是全異步的話,獲取15個鏈接的時間還是2.4s。**然后加上get_title這個函數的耗時0.6s,所以我們估算,改進后的程序將可以用 3s 左右的時間完成,也就是性能能夠提升13倍。

再看下改進后的代碼。原文地址。

import asyncio
from asyncio import AbstractEventLoop

import aiohttp
import requests
import bs4
from colorama import Fore


def main():
 # Create loop
 loop = asyncio.get_event_loop()
 loop.run_until_complete(get_title_range(loop))
 print("Done.")


async def get_html(episode_number: int) -> str:
 print(Fore.YELLOW + f"Getting HTML for episode {episode_number}", flush=True)

 # Make this async with aiohttp's ClientSession
 url = f'https://talkpython.fm/{episode_number}'
 # resp = await requests.get(url)
 # resp.raise_for_status()

 async with aiohttp.ClientSession() as session:
  async with session.get(url) as resp:
   resp.raise_for_status()

   html = await resp.text()
   return html


def get_title(html: str, episode_number: int) -> str:
 print(Fore.CYAN + f"Getting TITLE for episode {episode_number}", flush=True)
 soup = bs4.BeautifulSoup(html, 'html.parser')
 header = soup.select_one('h2')
 if not header:
  return "MISSING"

 return header.text.strip()


async def get_title_range(loop: AbstractEventLoop):
 # Please keep this range pretty small to not DDoS my site. ;)
 tasks = []
 for n in range(190, 200):
  tasks.append((loop.create_task(get_html(n)), n))

 for task, n in tasks:
  html = await task
  title = get_title(html, n)
  print(Fore.WHITE + f"Title found: {title}", flush=True)


if __name__ == '__main__':
 main()

同樣的步驟生成profile 圖:

怎么使用PyCharm Profile分析異步爬蟲效率

可見現在耗時為大約3.8s,基本符合我們的預期了。

怎么使用PyCharm Profile分析異步爬蟲效率

關于“怎么使用PyCharm Profile分析異步爬蟲效率”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識,可以關注億速云行業資訊頻道,小編每天都會為大家更新不同的知識點。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

寻甸| 崇义县| 营山县| 宝山区| 思茅市| 六盘水市| 衡南县| 万荣县| 青川县| 七台河市| 沐川县| 加查县| 固始县| 元氏县| 城口县| 务川| 东乌珠穆沁旗| 湛江市| 河北省| 灵石县| 珲春市| 东平县| 永吉县| 望江县| 中阳县| 秦皇岛市| 托克逊县| 阿拉尔市| 霍邱县| 辽宁省| 云南省| 莱阳市| 洛南县| 青田县| 香格里拉县| 贵港市| 兴城市| 尉氏县| 通道| 密云县| 安溪县|