nutch中怎么配置hadoop

發布時間：2021-08-11 15:20:40 來源：億速云閱讀：189 作者：Leah 欄目：開發技術

這期內容當中小編將會給大家帶來有關nutch中怎么配置hadoop，文章內容豐富且以專業的角度為大家分析和敘述，閱讀完這篇文章希望大家可以有所收獲。

中文分詞：
1.對建立索引所用分詞工具的修改
將下載的中文分詞包放到lib目錄下，改名為analysis-zh.jar(當然，你也可以不用改）。找到下面文件
src\java\org\apache\nutch\analysis\NutchDocumentAnalyzer.java
修改tokenStream方法如下
publicTokenStreamtokenStream(StringfieldName,Readerreader){
Analyzeranalyzer;
analyzer=newMMAnalyzer();
returnanalyzer.tokenStream(fieldName,reader);
}
注意：由于加入信息的分析類，你需要將該類導入。使用如下語句。
importjeasy.analysis.*;

2.對查詢所用分析部分的修改
nutch+hadoop配置使用總需要對查詢所用分析部分的修改。src\java\org\apache\nutch\analysis\中的NutchAnalysis.jj文件
將<SIGRAM:<CJK>>
改為:|<SIGRAM:(<CJK>)+>
使用javacc工具將NutchAnalysis.jj生成java文件，共會生成7個java文件，將他們拷貝到下面的文件夾中替換原有文件。
src\java\org\apache\nutch\analysis

如何安裝與使用javacc？
下載javacc并解壓，然后將javacc的主目錄添加到環境變量下。進入命令行，輸入javacc，如果不出現不能識別該命令之類的說法，證明安裝成功。
進入NutchAnalysis.jj文件所在的目錄，輸入javaccNutchAnalysis.jj命令就會生成7個java文件了。

3.重新編譯工程文件
這里你需要用到ant工具了，那么ant工具怎么安裝呢？
ant的安裝與配置與javacc類似，下載后解壓，然后在path環境變量中加如指向ant下的bin文件夾的路徑。
使用：從命令行進入nutch目錄中，輸入ant命令，它會自動根據當前目錄下的build.xml進行重建。重建完畢后會在改目錄下產生一個build文件夾。

4.重建后的文件替換
一、將nutch-0.x.x.job文件拷貝出來替換nutch目錄下的同名文件。
二、將\build\classes\org\apache\nutch\analysis目錄下的所有文件拷貝替換nutch-0.x.x.jar中org\apache\nutch\analysis目錄下的文件。
三、將nutch-0.x.x.jar文件和你的分詞包（我的是analysis-zh.jar）拷貝到tomcat中WEB-INF\lib下面。

5.重新爬行與建立索引，重新啟動tomcat即可。

nutch搜索url過濾規則：
對于每一次(由depth決定)對url進行filter，所以要搜子頁面，首頁一定要通過filter，否則搜索不到。

上述就是小編為大家分享的nutch中怎么配置hadoop了，如果剛好有類似的疑惑，不妨參照上述分析進行理解。如果想知道更多相關知識，歡迎關注億速云行業資訊頻道。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

nutch中怎么配置hadoop

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

nutch中怎么配置hadoop

猜你喜歡

最新資訊

相關推薦

相關標簽