您好,登錄后才能下訂單哦!
這篇文章主要介紹“Python怎么使用Spacy進行分詞”,在日常操作中,相信很多人在Python怎么使用Spacy進行分詞問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”Python怎么使用Spacy進行分詞”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!
說明
1、Spacy語言模型包含一些強大的文本分析功能,如詞性標記和命名實體識別。
2、導入spacy相關模塊后,需要加載中文處理包。然后讀小說數據,nlp處理天龍八部小說,包括分詞、定量、詞性標注、語法分析、命名實體識別,用符號/分隔小說。最后,通過is_stop函數判斷單詞中的單詞是否為無效單詞,刪除無效單詞后,將結果寫入txt文件。
實例
import spacy import pandas as pd import time from spacy.lang.zh.stop_words import STOP_WORDS nlp = spacy.load('zh_core_web_sm') def fenci_stopwords(data,newdata1): fenci = [] qc_stopwords =[] article = pd.read_table(data,encoding="utf-8") start1 = time.time() with open(newdata1,'w',encoding='utf-8') as f1: for i in article["天龍八部"]:#分詞 doc = nlp(i) result1 = '/'.join([t.text for t in doc]) fenci.append(result1) for j in fenci:#去除停用詞 words = nlp.vocab[j] if words.is_stop == False: qc_stopwords.append(j) result2 = '/'.join(qc_stopwords) f1.write(result2) end1 = time.time() return end1-start1
到此,關于“Python怎么使用Spacy進行分詞”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。