91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python英文文本分詞(無空格)模塊wordninja的使用實例

發布時間:2020-08-31 23:40:00 來源:腳本之家 閱讀:353 作者:Together_CZ 欄目:開發技術

在NLP中,數據清洗與分詞往往是很多工作開始的第一步,大多數工作中只有中文語料數據需要進行分詞,現有的分詞工具也已經有了很多了,這里就不再多介紹了。英文語料由于其本身存在空格符所以無需跟中文語料同樣處理,如果英文數據中沒有了空格,那么應該怎么處理呢?

今天介紹一個工具就是專門針對上述這種情況進行處理的,這個工具叫做:wordninja,地址在這里。

下面簡單以實例看一下它的功能:

def wordinjaFunc():
  '''
  https://github.com/yishuihanhan/wordninja
  '''
  import wordninja
  print wordninja.split('derekanderson')
  print wordninja.split('imateapot')
  print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
  print wordninja.split('littlelittlestar')

結果如下:

['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']

從簡單的結果上來看,效果還是不錯的,之后在實際的使用中會繼續評估。

總結

以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對億速云的支持。如果你想了解更多相關內容請查看下面相關鏈接

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

裕民县| 石阡县| 左贡县| 宣武区| 连南| 万全县| 静海县| 临澧县| 辽阳市| 镇坪县| 平凉市| 古交市| 上杭县| 潢川县| 凯里市| 泾源县| 汝城县| 岳阳市| 定西市| 平顺县| 太仆寺旗| 横峰县| 屏东县| 女性| 承德县| 迁西县| 长春市| 龙山县| 齐河县| 沁水县| 蓝田县| 噶尔县| 宁河县| 镇远县| 双江| 周宁县| 武安市| 内乡县| 司法| 莆田市| 治县。|