您好,登錄后才能下訂單哦!
今天小編給大家分享一下使用開源搜索引擎YaCy的技巧是什么的相關知識點,內容詳細,邏輯清晰,相信大部分人都還太了解這方面的知識,所以分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后有所收獲,下面我們一起來了解一下吧。
YaCy 安裝好之后,只需要訪問 localhost:8090
就可以使用了。要自定義搜索引擎,只需要點擊右上角的“管理”按鈕(它可能隱藏在小屏幕的菜單圖標中)。
你可以在管理面板中配置 YaCy 對系統資源的使用策略,以及如何跟其它的 YaCy 客戶端進行交互。
YaCy profile selector
例如,點擊側欄中的“第一步”按鈕可以配置備用端口,以及設置 YaCy 對內存和硬盤的使用量;而“監控”面板則可以監控 YaCy 的運行狀況。大多數功能都只需要在面板上點擊幾下就可以完成了,例如以下幾個常用的功能。
目前市面上也有不少公司推出了內網搜索應用,而 YaCy 可以免費為你提供一個。對于能夠通過 HTTP、FTP、Samba 等協議訪問的文件,YaCy 都可以進行索引,因此無論是作為私人的文件搜索還是企業內部的本地共享文件搜索,YaCy 都可以實現。它可以讓內部網絡中的用戶使用你個人的 YaCy 實例來查找共享文件,于此同時保持對內部網絡以外的用戶不可見。
YaCy 在默認情況下就支持隱私和隔離。點擊“用例與賬號”頁面頂部的“網絡配置”鏈接,即可進入網絡配置面板設置對等網絡。
YaCy network configuration
YaCy 的分布式運作方式決定了它對頁面的爬取是由用戶驅動的。并沒有一個大型公司對整個互聯網上的所有可訪問頁面都進行搜索,對于 YaCy 來說也是這樣,一個站點只有在被用戶指定爬取的前提下,才會被 YaCy 爬取并進入索引。
YaCy 客戶端提供了兩種爬取頁面的方式:你可以手動爬取,并讓 YaCy 根據建議去爬取。
YaCy advanced crawler
手動爬取是指由用戶輸入指定的網站 URL 并啟動 YaCy 的爬蟲任務。只需要點擊“高級爬蟲”并輸入計劃爬取的若干 URL,然后選擇頁面底部的“進行遠程索引”選項,這個選項會讓客戶端向互聯網廣播它要索引的 URL,可選地接受這些請求的客戶端可以幫助你爬取這些 URL。
點擊頁面底部的“開始新爬蟲任務”按鈕就可以開始進行爬取了,我就是這樣對一些常用和有用站點進行爬取和索引的。
爬蟲任務啟動之后,YaCy 會將這些 URL 對應的頁面在本地生成和存儲索引。在高級模式下,也就是本地計算機允許 8090 端口流量進出時,全網的 YaCy 用戶都可以使用到這一份索引。
盡管一些非常敬業的 YaCy 高級用戶已經強迫癥般地在互聯網上爬取了很多頁面,但對于全網浩如煙海的頁面而言也只是滄海一粟。單個用戶所擁有的資源遠不及很多大公司的網絡爬蟲,但大量 YaCy 用戶如果聯合起來成為一個社區,能產生的力量就大得多了。只要開啟了 YaCy 的爬蟲請求廣播功能,就可以讓其它客戶端參與進來爬取更多頁面。
只需要在“高級爬蟲”面板中點擊頁面頂部的“遠程爬取”,勾選“加載”旁邊的復選框,就可以讓你的客戶端接受其它人發來的爬蟲任務請求了。
YaCy remote crawling
YaCy 除了作為一個非常強大的搜索引擎,還提供了很豐富的主題和用戶體驗。你可以在“監控”面板中監控 YaCy 客戶端的網絡運行狀況,甚至還可以了解到有多少人從 YaCy 社區中獲取到了自己所需要的東西。
YaCy monitoring screen
你使用 YaCy 的時間越長,就越會思考搜索引擎如何改變自己的視野,因為你對互聯網的體驗很大一部分來自于你在搜索引擎中一次次簡單查詢的結果。實際上,當你和不同行業的人交流時,可能會注意到每個人對“互聯網”的理解都有所不同。有些人會認為,互聯網的搜索引擎中充斥著各種廣告和推廣,同時也僅僅能從搜索結果中獲取到有限的信息。例如,假設有人不斷搜索關于關鍵詞 X 的內容,那么大部分商業搜索引擎都會在搜索結果中提高關鍵詞 X 的權重,但與此同時,另一個關鍵詞 Y 的權重則會相對降低,從而讓關鍵詞 Y 被淹沒在搜索結果當中,即使這樣對完成特定任務更好。
以上就是“使用開源搜索引擎YaCy的技巧是什么”這篇文章的所有內容,感謝各位的閱讀!相信大家閱讀完這篇文章都有很大的收獲,小編每天都會為大家更新不同的知識,如果還想學習更多的知識,請關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。