您好,登錄后才能下訂單哦!
這篇文章給大家分享的是有關Nlpir Parser搜索與挖掘智能平臺的有什么功能的內容。小編覺得挺實用的,因此分享給大家做個參考,一起跟隨小編過來看看吧。
文本挖掘已經成為數據挖掘中一個日益流行而重要的研究領域。與一般數據挖掘以關系、事務和數據倉庫中的結構數據為研究目標所不同的是,文本挖掘所研究的文本數據庫, 由來自各種數據源的大量文檔組成。這些文檔可能包含標題、作者、出版日期、長度等結構化數據, 也可能包含摘要和內容等非結構化的文本成分,而且這些文檔的內容是人類所使用的自然語言,計算機很難處理其語義。因此傳統的信息檢索技術已不適應日益增加的大量文本數據處理的需要,進而人們提出文本挖掘的方法進行不同的文檔比較以及文檔重要性和相關性排列,又或者找出多文檔的模式或趨勢等分析。
Nlpir Parser搜索與挖掘智能平臺是網絡搜索、自然語言理解和文本挖掘的技術開發的基礎工具集,開發平臺由多個中間件組成,各個中間件API可以無縫地融合到客戶的各類復雜應用系統之中,可兼容Windows,Linux,FreeBSD等不同操作系統,可以供Java,C,C#等各類開發語言使用。
Nlpir Parser搜索與挖掘智能平臺是一套專門針對原始文本集進行處理和加工的軟件,提供了中間件處理效果的可視化展示,也可以作為小規模數據的處理加工工具。用戶可以使用該軟件對自己的數據進行處理。
Nlpir Parser搜索與挖掘智能平臺的十二大功能:
1. 全文精準檢索:支持文本、數字、日期、字符串等各種數據類型,多字段的高效搜索,支持AND/OR/NOT以及NEAR鄰近等查詢語法,支持維語、藏語、蒙語、阿拉伯、韓語等多種少數民族語言的檢索。可以無縫地與現有文本處理系統與數據庫系統融合。
2. 新詞發現:從文件集合中挖掘出內涵的新詞語列表,可以用于用戶專業詞典的編撰;還可以進一步編輯標注,導入分詞詞典中,從而提高分詞系統的準確度,并適應新的語言變化。
3. 分詞標注:對原始語料進行分詞、自動識別人名地名機構名等未登錄詞、新詞標注以及詞性標注。并可在分析過程中,導入用戶定義的詞典。
4. 統計分析與術語翻譯:針對切分標注結果,系統可以自動地進行一元詞頻統計、二元詞語轉移概率統計(統計兩個詞左右連接的頻次即概率)。針對常用的術語,會自動給出相應的英文解釋。
5. 文本聚類及熱點分析:能夠從大規模數據中自動分析出熱點事件,并提供事件話題的關鍵特征描述。同時適用于長文本和短信、微博等短文本的熱點分析。
6. 分類過濾:針對事先指定的規則和示例樣本,系統自動從海量文檔中篩選出符合需求的樣本。
7. 正負面分析:針對事先指定的分析對象和示例樣本,系統自動從海量文檔中篩選出正負面的得分和句子樣例。
8. 自動摘要:能夠對單篇或多篇文章,自動提煉出內容的精華,方便用戶快速瀏覽文本內容。
9. 關鍵詞提取:能夠對單篇文章或文章集合,提取出若干個代表文章中心思想的詞匯或短語,可用于精化閱讀、語義查詢和快速匹配等。
10. 文檔去重:能夠快速準確地判斷文件集合或數據庫中是否存在相同或相似內容的記錄,同時找出所有的重復記錄。
11. HTML正文提取:自動剔除導航性質的網頁,剔除網頁中的HTML標簽和導航、廣告等干擾性文字,返回有價值的正文內容。適用于大規模互聯網信息的預處理和分析。
12. 編碼自動識別與轉換:自動識別內容的編碼,并把編碼統一轉換為GBK編碼。
在多數情況下,文本挖掘的數據集十分龐大而且在不斷增加,因此,這些數據不可能存儲在一臺機器上進行運算。因此需要研究一種能夠并行運行的文本挖掘算法以在計算機集群上并行地執行文本挖掘任務。顯然,這結合了云計算以及數據密集型計算的需求,而且這本身也是一個在不斷成長的領域。
感謝各位的閱讀!關于“Nlpir Parser搜索與挖掘智能平臺的有什么功能”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,讓大家可以學到更多知識,如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。