91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

什么是網絡爬蟲技術

發布時間:2020-07-27 10:14:39 來源:億速云 閱讀:238 作者:Leah 欄目:互聯網科技

今天就跟大家聊聊有關什么是網絡爬蟲技術,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結了以下內容,希望大家根據這篇文章可以有所收獲。

網絡爬蟲技術是指按照一定的規則,自動地抓取萬維網信息的技術。網絡爬蟲又稱為網頁蜘蛛、網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者;另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

網絡爬蟲技術是指按照一定的規則,自動地抓取萬維網信息的技術

網絡爬蟲(又稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

抓取目標的描述和定義是決定網頁分析算法與URL搜索策略如何制訂的基礎。而網頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務形式和爬蟲網頁抓取行為的關鍵所在。這兩個部分的算法又是緊密相關的。

現有聚焦爬蟲對抓取目標的描述可分為基于目標網頁特征、基于目標數據模式和基于領域概念3種。

基于目標網頁特征

基于目標網頁特征的爬蟲所抓取、存儲并索引的對象一般為網站或網頁。根據種子樣本獲取方式可分為:

(1) 預先給定的初始抓取種子樣本;

(2) 預先給定的網頁分類目錄和與分類目錄對應的種子樣本,如Yahoo!分類結構等;

(3) 通過用戶行為確定的抓取目標樣例,分為:

(a) 用戶瀏覽過程中顯示標注的抓取樣本;

(b) 通過用戶日志挖掘得到訪問模式及相關樣本。

其中,網頁特征可以是網頁的內容特征,也可以是網頁的鏈接結構特征,等等。

基于目標數據模式

基于目標數據模式的爬蟲針對的是網頁上的數據,所抓取的數據一般要符合一定的模式,或者可以轉化或映射為目標數據模式。

基于領域概念

另一種描述方式是建立目標領域的本體或詞典,用于從語義角度分析不同特征在某一主題中的重要程度。

看完上述內容,你們對什么是網絡爬蟲技術有進一步的了解嗎?如果還想了解更多知識或者相關內容,請關注億速云行業資訊頻道,感謝大家的支持。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

沁阳市| 临城县| 娄烦县| 图木舒克市| 开鲁县| 时尚| 平利县| 兴仁县| 东山县| 沁源县| 荥经县| 利辛县| 吉木乃县| 宁阳县| 韩城市| 绥滨县| 平顶山市| 临漳县| 来安县| 竹溪县| 江北区| 平泉县| 湘西| 涿鹿县| 乐东| 博乐市| 定日县| 盐源县| 太康县| 林口县| 偏关县| 山阳县| 合江县| 绥芬河市| 溧阳市| 乌兰察布市| 东宁县| 张家川| 雅安市| 竹溪县| 昌吉市|