開源大數據索引項目hive-solr的示例分析

發布時間：2021-12-10 11:48:19 來源：億速云閱讀：189 作者：小新欄目：云計算

這篇文章主要介紹開源大數據索引項目hive-solr的示例分析，文中介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們一定要看完！

最新更新：
（1）添加了對solrcloud集群的支持
（2）修復了在反序列時對于hive中null列和空值的處理bug
（3）優化了在構建索引時對于null值和空值的忽略

一些測試：

數據量：約一千二百萬，8個字段，其中一個是大文本，2個是分詞字段，索引前數據體積約20G

索引總耗時：約15分鐘

索引后體積：每個shard約6G，共約18G

Hive：限制最大并發map數為30個，怕影響Hbase服務，注意使用Hive建完索引后，需要手動commit一次，使內存索引flush到磁盤上

批處理：每個map里面10萬數據，批量處理提交一次，不commit，這個值根據情況設定，太大了容易solrcloud容易丟數據，太小了會影響速度

solrcloud集群版本為5.1使用3臺機器，每臺一個shard，無副本，jetty的內存給了10G

CPU：24核，注意大文本分詞字段非常耗cpu

solr的jvm參數調整：
（1）調大 SurvivorRatio 區占比，降低survivor區的內存空間
（2）調小NewRatio區占比，增大新生代的內存空間
（3）調大永久代MaxPermSize內存至256M
（4）調整MaxTenuringThreshold=0 ，使大對象加速進入老年代，避免在survivor和eden區來回拷貝，使用YGC次數變多
其他參數還是默認配置

solr服務端配置：
（1）關閉自動commit
（2）設置ramBufferSizeMB為1000 ，約等1G
（3）設置maxBufferedDocs等-1，禁用maxBufferDocs
（4）設置mergeFactor為100

以上是“開源大數據索引項目hive-solr的示例分析”這篇文章的所有內容，感謝各位的閱讀！希望分享的內容對大家有幫助，更多相關知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

開源大數據索引項目hive-solr的示例分析

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

開源大數據索引項目hive-solr的示例分析

猜你喜歡

最新資訊

相關推薦

相關標簽