您好,登錄后才能下訂單哦!
小編給大家分享一下計算機中文本分類指的是什么意思,希望大家閱讀完這篇文章之后都有所收獲,下面讓我們一起去探討吧!
“文本分類”是自然語言處理的重要應用,也可以說是最基礎的應用。文本分類用電腦對文本集按照一定的分類體系或標準進行自動分類標記;它根據一個已被標注的訓練文檔集合,找到文檔特征和文檔類別間的關系模型,然后利用這種關系模型對新的文檔進行類別判斷。
文本分類用電腦對文本集(或其他實體或物件)按照一定的分類體系或標準進行自動分類標記。 它根據一個已經被標注的訓練文檔集合, 找到文檔特征和文檔類別之間的關系模型, 然后利用這種學習得到的關系模型對 新的文檔進行類別判斷 。文本分類從基于知識的方法逐漸轉變為基于統計 和機器學習的方法。
文本分類一般包括了文本的表達、 分類器的選擇與訓練、 分類結果的評價與反饋等過程,其中文本的表達又可細分為文本預處理、索引和統計、特征抽取等步驟。文本分類系統的總體功能模塊為:
(1) 預處理:將原始語料格式化為同一格式,便于后續的統一處理;
(2) 索引:將文檔分解為基本處理單元,同時降低后續處理的開銷;
(3) 統計:詞頻統計,項(單詞、概念)與分類的相關概率;
(4) 特征抽取:從文檔中抽取出反映文檔主題的特征;
(5)分類器:分類器的訓練;
(6) 評價:分類器的測試結果分析。
看完了這篇文章,相信你對“計算機中文本分類指的是什么意思”有了一定的了解,如果想了解更多相關知識,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。