如何使用Hanlp加載大字典

發布時間：2021-11-11 10:45:26 來源：億速云閱讀：192 作者：小新欄目：數據庫

這篇文章將為大家詳細講解有關如何使用Hanlp加載大字典，小編覺得挺實用的，因此分享給大家做個參考，希望大家閱讀完這篇文章后可以有所收獲。

　問題

因為需要加載一個近 1G 的字典到Hanlp中，一開始使用了CustomDictionay.add() 方法來一條條的加載，果然到了中間，維護DoubleArraTre 的成本太高，添加一個節點，都會很長時間，本來時間長一點沒有關系，只要訓練出.bin 的文件，第二次加載就會很快，然而作為以空間換時間的DAT結構，內存消耗很大，預料之內的出現了

out of memory: heap size

的問題。　后來嘗試直接加載了1G 的字典，顯然更不行。

思路

閱讀了Hanlp的　部分源碼，也請教了原作者一部分問題，　就打算從源碼入手。初步想法大概是將原始字典

split 成多份，然后分別將多份的小字典訓練成多個小的.bin 文件，再完整的加載到內存中，基于的原則則是：加載兩個10M的字典的消耗比一個20M的要小。

然后又優化了一部分，現在加載一個大概1G的字典，占內存約3g+ ，已經可以使用了。

大概流程

修改　CustomDictionary.java　設置一個 hashmap　或者一個 list 來存儲所有的小Dat

將所有的dat加載完，這里就不再區分主副字典了。

修改Segment.java里面的combineByCustomDictionary 函數，源碼中只有一個dat，這里我們需要選擇我們容器中其中某一個dat作為要匹配使用，之前使用的方案是，遍歷所有的dat，知道有了匹配，但是這樣缺陷很明顯，解決不了多個字典匹配同一個詞的字串的情況，這里我的考察方案是，字典中的同一個字開始的詞條映射到同一個文件，這樣不會出現字串問題了。

關于“如何使用Hanlp加載大字典”這篇文章就分享到這里了，希望以上內容可以對大家有一定的幫助，使各位可以學到更多知識，如果覺得文章不錯，請把它分享出去讓更多的人看到。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

如何使用Hanlp加載大字典

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

如何使用Hanlp加載大字典

猜你喜歡

最新資訊

相關推薦

相關標簽