您好,登錄后才能下訂單哦!
在線爬蟲是大快大數據一體化開發框架的重要組成部分,本篇重點分享在線爬蟲的安裝。
爬蟲安裝前準備工作:大快大數據平臺安裝完成、zookeeper、redis、elasticsearch、mysql等組件安裝啟動成功。
1、修改爬蟲安裝配置文件(最好在線下修改好后再上傳平臺)
2、修改crawler\dkcrw\jdbc.properties配置文件(只修改圖片里的內容其他內容默認即可)
Hbase.zookeeper.quorum所填地址應在DKM監控平臺查看:
Redis相關配置看如下界面:
3、把已修改的crawler\dkcrw\下的jdbc.properties配置文件替換到\crawler\dkcrw-tomcat-7.0.56\webapps\ROOT\WEB-INF\classes下(這下面有一個沒有改好的直接替換)
修改好后把修改好的爬蟲文件打壓成壓縮文件
4、上傳平臺主節點并解壓(這里就不介紹怎么上傳了的了,本次例子是上傳到root目錄下,安裝包上傳到任何目錄下都可以推選root目錄)
unzip 解壓命令,解壓唱功后會多了一個 cuawler 的文件夾
使用cd crawler 命令進入 crawler 文件夾下
使用mysql -uroot -p123456 < numysql.sql 命令添加numysql.sql數據庫
5、分發爬蟲文件
每個節點都需要有dkcrw文件, dkcrw-tomcat-7.0.56文件只能放在一個節點上,不能放在主節點上(推選放在從節點)
命令:
scp -r {要分發的文件名可填寫多個,如果不在要分發文件的目錄下請添加路徑} {分發到的服務器ip或名稱:分發到的路徑}
例如:
cd /opt/dkh
scp -r dkcrw dk2:/opt/dkh/
scp -r dkcrw dkcrw-tomcat-7.0.56/ dk2:/opt/dkh/
6、在分發了dkcrw-tomcat-7.0.56文件的節點上給文件添加權限
命令:
chmod -R 755 {需要給權限的文件等}
例如:
cd /opt/dkh
chmod -R 755 dkcrw dkcrw-tomcat-7.0.56/
7、啟動爬蟲界面
命令:
cd /opt/dkh/dkcrw-tomcat-7.0.56/bin/
./startup.sh
啟動界面之后再瀏覽器中輸入啟動界面節點的IP,來打開爬蟲界面看是否啟動成功(賬號密碼是默認的)
8、啟動每個節點的dkcrw.jar
命令:
主節點運行
cd /opt/dkh/dkcrw/
nohup java -jar dkcrw.jar master > dkcrw.log 2>&1 &
從節點運行
cd /opt/dkh/dkcrw/
nohup java -jar dkcrw.jar slave > dkcrw.log 2>&1 &
注意:可以先使用前臺啟動爬蟲,確定爬蟲沒錯誤。
前臺啟動命令java -jar dkcrw.jar master/slave
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。