搜索引擎工作原理是什么

發布時間：2021-12-21 12:00:20 來源：億速云閱讀：149 作者：iii 欄目：大數據

本篇內容介紹了“搜索引擎工作原理是什么”的有關知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠學有所成！

搜索引擎發展過程

現代意義上的搜索引擎的祖先，是1990年由蒙特利爾大學學生Alan Emtage發明的Archie。即便沒有英特網，網絡中文件傳輸還是相當頻繁的，而且由于大量的文件散布在各個分散的FTP主機中，查詢起來非常不便，因此Alan Emtage想到了開發一個可以以文件名查找文件的系統，于是便有了Archie。Archie工作原理與現在的搜索引擎已經很接近，它依靠腳本程序自動搜索網上的文件，然后對有關信息進行索引，供使用者以一定的表達式查詢。

互聯網興起后，需要能夠監控的工具。世界上第一個用于監測互聯網發展規模的“機器人”程序是Matthew Gray開發的World wide Web Wanderer，剛開始它只用來統計互聯網上的服務器數量，后來則發展為能夠檢索網站域名。

隨著互聯網的迅速發展，每天都會新增大量的網站、網頁，檢索所有新出現的網頁變得越來越困難，因此，在Matthew Gray的Wanderer基礎上，一些編程者將傳統的“蜘蛛”程序工作原理作了些改進。現代搜索引擎都是以此為基礎發展的。

搜索引擎分類

全文搜索引擎

當前主流的是全文搜索引擎，較為典型的代表是Google、百度。全文搜索引擎是指通過從互聯網上提取的各個網站的信息（以網頁文字為主），保存在自己建立的數據庫中。用戶發起檢索請求后，系統檢索與用戶查詢條件匹配的相關記錄，然后按一定的排列順序將結果返回給用戶。從搜索結果來源的角度，全文搜索引擎又可細分為兩種，一種是擁有自己的檢索程序（Indexer），俗稱“蜘蛛”（Spider）程序或“機器人”（Robot）程序，并自建網頁數據庫，搜索結果直接從自身的數據存儲層中調用；另一種則是租用其他引擎的數據庫，并按自定的格式排列搜索結果，如Lycos引擎。

雖然有搜索功能，但嚴格意義上不能稱為真正的搜索引擎，只是按目錄分類的網站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息，不依靠關鍵詞（Keywords）進行查詢。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo、新浪分類目錄搜索。

元搜索引擎
元搜索引擎在接受用戶查詢請求時，同時在其他多個引擎上進行搜索，并將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等，中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結果排列方面，有的直接按來源引擎排列搜索結果，如Dogpile，有的則按自定的規則將結果重新排列組合，如Vivisimo。

自己實現搜索引擎

如果我們想要實現搜索引擎，最重要的是索引模塊和搜索模塊。索引模塊在不同的機器上各自進行對資源的索引，并把索引文件統一傳輸到同一個地方（可以是在遠程服務器上，也可以是在本地）。搜索模塊則利用這些從多個索引模塊收集到的數據完成用戶的搜索請求。因此，我們可以理解兩個模塊之間相對是獨立的，它們之間的關聯不是通過代碼，而是通過索引和元數據，如下圖所示。

搜索引擎工作原理是什么

對于索引的建立，我們需要注意性能問題。當需要進行索引的資源數目不多時，隔一定的時間進行一次完全索引，不會占用很長時間。但在大型應用中，資源的容量是巨大的，如果每次都進行完整的索引，耗費的時間會很驚人。我們可以通過跳過已經索引的資源內容，刪除已不存在的資源內容的索引，并進行增量索引來解決這個問題。這可能會涉及文件校驗和索引刪除等。另一方面，框架可以提供查詢緩存功能，提高查詢效率。框架可以在內存中建立一級緩存，并使用如 OSCache或 EHCache緩存框架，實現磁盤上的二級緩存。當索引的內容變化不頻繁時，使用查詢緩存更會明顯地提高查詢速度、降低資源消耗。

搜索引擎解決方案

Sphinx

俄羅斯一家公司開源的全文搜索引擎軟件Sphinx，單一索引最大可包含1億條記錄，在1千萬條記錄情況下的查詢速度為0.x秒（毫秒級）。Sphinx創建索引的速度很快，根據網上的資料，Sphinx創建100萬條記錄的索引只需3～4分鐘，創建1000萬條記錄的索引可以在50分鐘內完成，而只包含最新10萬條記錄的增量索引，重建一次只需幾十秒。

OmniFind

OmniFind 是 IBM 公司推出的企業級搜索解決方案。基于 UIMA (Unstructured Information Management Architecture) 技術，它提供了強大的索引和獲取信息功能，支持巨大數量、多種類型的文檔資源（無論是結構化還是非結構化），并為 Lotus?Domino?和 WebSphere?Portal 專門進行了優化。
下一代搜索引擎

從技術和產品層面來看，接下來的幾年，甚至于更長時間，應該沒有哪一家搜索引擎可以撼動谷歌的技術領先優勢和產品地位。但是我們也可以發現一些現象，例如搜索假期租房的時候，人們更喜歡使用Airbub，而不是Google，這就是針對匿名/個性化搜索需求，這些需求是谷歌所不能完全覆蓋到的，畢竟原始數據并不在谷歌。我們可以看一個例子：DuckDuckGo。這是一款有別于大眾理解的搜索引擎，DuckDuckGo強調的是最佳答案，而不是更多的結果，所以每個人搜索相同關鍵詞時，返回的結果是不一樣的。

另一個方面技術趨勢是引入人工智能技術。在搜索體驗上，通過大量算法的引入，對用戶搜索的內容和訪問偏好進行分析，將標題摘要進行一定程度的優化，以更容易理解的方式呈現給用戶。谷歌在搜索引擎AI化的步驟領先于其他廠商，2016年，隨著Amit Singhal被退休，John Giannandrea上位的交接班過程后，正式開啟了自身的革命。Giannandrea是深度神經網絡、近似人腦中的神經元網絡研究方面的頂級專家，通過分析海量級的數字數據，這些神經網絡可以學習排列方式，例如對圖片進行分類、識別智能手機的語音控制等等，對應也可以應用在搜索引擎。因此，Singhal向Giannandrea的過渡，也意味著傳統人為干預的規則設置的搜索引擎向AI技術的過渡。引入深度學習技術之后的搜索引擎，通過不斷的模型訓練，它會深層次地理解內容，并為客戶提供更貼近實際需求的服務，這才是它的有用，或者可怕之處。

Google搜索引擎的工作流程

貼個圖，自己感受下。

搜索引擎工作原理是什么

詳細點的：
搜索引擎工作原理是什么

“搜索引擎工作原理是什么”的內容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站，小編將為大家輸出更多高質量的實用文章！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

搜索引擎工作原理是什么

搜索引擎發展過程

搜索引擎分類

相關實現技術

自己實現搜索引擎

搜索引擎解決方案

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

搜索引擎工作原理是什么

搜索引擎發展過程

搜索引擎分類

相關實現技術

自己實現搜索引擎

搜索引擎解決方案

猜你喜歡

最新資訊

相關推薦

相關標簽