您好,登錄后才能下訂單哦!
這篇文章給大家分享的是有關nutch+hadoop如何配置的內容。小編覺得挺實用的,因此分享給大家做個參考,一起跟隨小編過來看看吧。
nutch+hadoop配置使用
配置nutch+hadoop
1,下載nutch。如果不需要特別開發hadoop,則不需要下載hadoop。因為nutch里面帶了hadoopcore包以及相關配置
2,建立目錄(根據自己喜好)
/nutch
/search(nutchinstallationgoeshere)nutch安裝到這里,也就是解壓到這里
/filesystemhadoop的文件系統存放點
/local/crawl后放置索引用來search用的
/home(nutchuser'shomedirectory)如果你用系統用戶,這個基本沒用
/tomcat啟動nutch.war用來search索引的app
3,conf/hadoop-env.sh一定要配置JAVA_HOME,否則系統起不來
4,配置master和slave的ssh,否則每次都要輸入passwd
ssh-keygen-trsa
然后回車即可
cpid_rsa.pubauthorized_keys
(copy到其它的slave上)scp/nutch/home/.ssh/authorized_keysnutch@devcluster02:/nutch/home/.ssh/authorized_keys
5,將bin和conf下所有的.sh、nuch、hadoop文件dos2unix
dos2unix/nutch/search/bin/*.sh/nutch/search/bin/hadoop
配置hadoop-size.xml
6,記住要把master文件從nutch/hadoopcopy到這個nutch中,應該是bug。也就是說啟動需要這個文件,文件內容為默認的localhost即可(如果是分布式,可能需要配置)
7,nutch+hadoop配置過程中需要格式化namenode
bin/hadoopnamenode-format
8,啟動:bin/start-all.sh
9,配置crawl(以配置一個網址lucene.apache.org為例)
cd/nutch/search mkdirurls viurls/urllist.txthttp://lucene.apache.org cd/nutch/search bin/hadoopdfs-puturlsurls cd/nutch/search viconf/crawl-urlfilter.txt changethelinethatreads:+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/ toread:+^http://([a-z0-9]*\.)*apache.org/
10,啟動crawl
bin/nutchcrawlurls-dircrawled-depth4
11,查詢
bin/hadoopdfs-copyToLocalcrawled/media/do/nutch/local/(crawled)將index的東西copy到以上配置的local中,因為search不能用dfs中搜索(從文檔看是這樣)
12,啟動nutch.war,測試
vinutch-site.xmlnutch.war中classes下
starttomcat
注意點:
1,masters文件nutch原來沒有,需要copy到conf下
2,crawl的log4j配置默認有問題,需要增加:
hadoop.log.dir=.
hadoop.log.file=hadoop.log
3,nutch2.0一定要配置nutch-site.xml。重新配置http.agent。default.xml里面已經存在。
nutch+hadoop配置使用時的問題:
1,運行hadoop程序時,中途我把它終止了,然后再向hdfs加文件或刪除文件時,出現Namenodeisinsafemode錯誤:
rmr:org.apache.hadoop.dfs.SafeModeException:Cannotdelete/user/hadoop/input.Namenodeisinsafemode
解決的命令:
bin/hadoopdfsadmin-safemodeleave#關閉safemode
索引命令:
bin/nutchindexplainindex/paodingindexesplainindex/crawldbplainindex/linkdbplainindex/
segments/20090528132511plainindex/segments/20090528132525plainindex/segments/20090528132602
eg:
index:
bin/nutchindexcrawled/indexes_newcrawled/crawldbcrawled/linkdbcrawled/segments/20100313132517
merge:
bin/nutchmergecrawled/index_newcrawled/indexes_new
去重dedup:
bin/nutchdedupcrawled/index_new。
感謝各位的閱讀!關于“nutch+hadoop如何配置”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,讓大家可以學到更多知識,如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。