91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python3爬蟲中如何實現中文分詞

發布時間:2020-07-30 09:02:21 來源:億速云 閱讀:520 作者:小豬 欄目:開發技術

這篇文章主要為大家展示了Python3爬蟲中如何實現中文分詞,內容簡而易懂,希望大家可以學習一下,學習完之后肯定會有收獲的,下面讓小編帶大家一起來看看吧。

原理

中文分詞,即 Chinese Word Segmentation,即將一個漢字序列進行切分,得到一個個單獨的詞。表面上看,分詞其實就是那么回事,但分詞效果好不好對信息檢索、實驗結果還是有很大影響的,同時分詞的背后其實是涉及各種各樣的算法的。

中文分詞與英文分詞有很大的不同,對英文而言,一個單詞就是一個詞,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區分標記,需要人為切分。根據其特點,可以把分詞算法分為四大類:

·基于規則的分詞方法

·基于統計的分詞方法

·基于語義的分詞方法

·基于理解的分詞方法

下面我們對這幾種方法分別進行總結。

基于規則的分詞方法

這種方法又叫作機械分詞方法、基于字典的分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行匹配。若在詞典中找到某個字符串,則匹配成功。該方法有三個要素,即分詞詞典、文本掃描順序和匹配原則。文本的掃描順序有正向掃描、逆向掃描和雙向掃描。匹配原則主要有最大匹配、最小匹配、逐詞匹配和最佳匹配。

·最大匹配法(MM)。基本思想是:假設自動分詞詞典中的最長詞條所含漢字的個數為 i,則取被處理材料當前字符串序列中的前 i 個字符作為匹配字段,查找分詞詞典,若詞典中有這樣一個 i 字詞,則匹配成功,匹配字段作為一個詞被切分出來;若詞典中找不到這樣的一個 i 字詞,則匹配失敗,匹配字段去掉最后一個漢字,剩下的字符作為新的匹配字段,再進行匹配,如此進行下去,直到匹配成功為止。統計結果表明,該方法的錯誤率 為 1/169。

·逆向最大匹配法(RMM)。該方法的分詞過程與 MM 法相同,不同的是從句子(或文章)末尾開始處理,每次匹配不成功時去掉的是前面的一個漢字。統計結果表明,該方法的錯誤率為 1/245。

·逐詞遍歷法。把詞典中的詞按照由長到短遞減的順序逐字搜索整個待處理的材料,一直到把全部的詞切分出來為止。不論分詞詞典多大,被處理的材料多么小,都得把這個分詞詞典匹配一遍。

·設立切分標志法。切分標志有自然和非自然之分。自然切分標志是指文章中出現的非文字符號,如標點符號等;非自然標志是利用詞綴和不構成詞的詞(包 括單音詞、復音節詞以及象聲詞等)。設立切分標志法首先收集眾多的切分標志,分詞時先找出切分標志,把句子切分為一些較短的字段,再用 MM、RMM 或其它的方法進行細加工。這種方法并非真正意義上的分詞方法,只是自動分詞的一種前處理方式而已,它要額外消耗時間掃描切分標志,增加存儲空間存放那些非 自然切分標志。

·最佳匹配法(OM)。此法分為正向的最佳匹配法和逆向的最佳匹配法,其出發點是:在詞典中按詞頻的大小順序排列詞條,以求縮短對分詞詞典的檢索時 間,達到最佳效果,從而降低分詞的時間復雜度,加快分詞速度。實質上,這種方法也不是一種純粹意義上的分詞方法,它只是一種對分詞詞典的組織方式。OM 法的分詞詞典每條詞的前面必須有指明長度的數據項,所以其空間復雜度有所增加,對提高分詞精度沒有影響,分詞處理的時間復雜度有所降低。

此種方法優點是簡單,易于實現。但缺點有很多:匹配速度慢;存在交集型和組合型歧義切分問題;詞本身沒有一個標準的定義,沒有統一標準的詞集;不同詞典產生的歧義也不同;缺乏自學習的智能性。

基于統計的分詞方法

該方法的主要思想:詞是穩定的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞。因此字與字相鄰出現的概率或頻率能較好地反映成詞的可信度。可以對訓練文本中相鄰出現的各個字的組合的頻度進行統計,計算它們之間的互現信息。互現信息體現了漢字之間結合關系的緊密程度。當緊密程 度高于某一個閾值時,便可以認為此字組可能構成了一個詞。該方法又稱為無字典分詞。

該方法所應用的主要的統計模型有:N 元文法模型(N-gram)、隱馬爾可夫模型(Hiden Markov Model,HMM)、最大熵模型(ME)、條件隨機場模型(Conditional Random Fields,CRF)等。

在實際應用中此類分詞算法一般是將其與基于詞典的分詞方法結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。

基于語義的分詞方法

語義分詞法引入了語義分析,對自然語言自身的語言信息進行更多的處理,如擴充轉移網絡法、知識分詞語義分析法、鄰接約束法、綜合匹配法、后綴分詞法、特征詞庫法、矩陣約束法、語法分析法等。

·擴充轉移網絡法。該方法以有限狀態機概念為基礎。有限狀態機只能識別正則語言,對有限狀態機作的第一次擴充使其具有遞歸能力,形成遞歸轉移網絡 (RTN)。在RTN 中,弧線上的標志不僅可以是終極符(語言中的單詞)或非終極符(詞類),還可以調用另外的子網絡名字分非終極符(如字或字串的成詞條件)。這樣,計算機在 運行某個子網絡時,就可以調用另外的子網絡,還可以遞歸調用。詞法擴充轉移網絡的使用, 使分詞處理和語言理解的句法處理階段交互成為可能,并且有效地解決了漢語分詞的歧義。

·矩陣約束法。其基本思想是:先建立一個語法約束矩陣和一個語義約束矩陣, 其中元素分別表明具有某詞性的詞和具有另一詞性的詞相鄰是否符合語法規則, 屬于某語義類的詞和屬于另一詞義類的詞相鄰是否符合邏輯,機器在切分時以之約束分詞結果。

基于理解的分詞方法

基于理解的分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。目前基于理解的分詞方法主要有專家系統分詞法和神經網絡分詞法等。

·專家系統分詞法。從專家系統角度把分詞的知識(包括常識性分詞知識與消除歧義切分的啟發性知識即歧義切分規則)從實現分詞過程的推理機中獨立出來,使知識庫的維護與推理機的實現互不干擾,從而使知識庫易于維護和管理。它還具有發現交集歧義字段和多義組合歧義字段的能力和一定的自學習功能。

·神經網絡分詞法。該方法是模擬人腦并行,分布處理和建立數值計算模型工作的。它將分詞知識所分散隱式的方法存入神經網絡內部,通過自學習和訓練修改內部權值,以達到正確的分詞結果,最后給出神經網絡自動分詞結果,如使用 LSTM、GRU 等神經網絡模型等。

·神經網絡專家系統集成式分詞法。該方法首先啟動神經網絡進行分詞,當神經網絡對新出現的詞不能給出準確切分時,激活專家系統進行分析判斷,依據知識庫進行推理,得出初步分析,并啟動學習機制對神經網絡進行訓練。該方法可以較充分發揮神經網絡與專家系統二者優勢,進一步提高分詞效率。

以上便是對分詞算法的基本介紹,接下來我們再介紹幾個比較實用的分詞 Python 庫及它們的使用方法。

分詞工具

在這里介紹幾個比較有代表性的支持分詞的 Python 庫,主要有:

1. jieba

專用于分詞的 Python 庫,GitHub:https://github.com/fxsjy/jieba,分詞效果較好。

支持三種分詞模式:

·精確模式,試圖將句子最精確地切開,適合文本分析。

·全模式,將句子中所有的可能成詞的詞語都掃描出來,速度非常快,但是不能解決歧義。

·搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適用于搜索引擎分詞。

另外 jieba 支持繁體分詞,支持自定義詞典。

其使用的算法是基于統計的分詞方法,主要有如下幾種:

·基于前綴詞典實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖 (DAG);

·采用了動態規劃查找最大概率路徑, 找出基于詞頻的最大切分組合;

·對于未登錄詞,采用了基于漢字成詞能力的 HMM 模型,使用了 Viterbi 算法。

精確模式分詞

首先我們來看下精確模式分詞,使用 lcut() 方法,類似 cut() 方法,其參數和 cut() 是一致的,只不過返回結果是列表而不是生成器,默認使用精確模式,代碼如下:

import jieba
string = '這個把手該換了,我不喜歡日本和服,別把手放在我的肩膀上,工信處女干事每月經過下屬科室都要親口交代24口
交換機等技術性器件的安裝工作'
result = jieba.lcut(string)
print(len(result), '/'.join(result))

結果:

38 這個/把手/該換/了/,/我/不/喜歡/日本/和服/,/別/把手/放在/我/的/肩膀/上/,/工信處/女干事/每月/經過/下屬/科室
/都/要/親口/交代/24/口/交換機/等/技術性/器件/的/安裝/工作

可見分詞效果還是不錯的。

全模式分詞

使用全模式分詞需要添加 cut_all 參數,將其設置為 True,代碼如下:

result = jieba.lcut(string, cut_all=True)
print(len(result), '/'.join(result))

結果如下:

51 這個/把手/該換/了///我/不/喜歡/日本/和服///別/把手/放在/我/的/肩膀/上///工信處/處女/女干事/干事/每月/月經
/經過/下屬/科室/都/要/親口/口交/交代/24/口交/交換/交換機/換機/等/技術/技術性/性器/器件/的/安裝/安裝工/裝工/工作

搜索引擎模式分詞

使用搜索引擎模式分詞需要調用 cut_for_search() 方法,代碼如下:

result = jieba.lcut_for_search(string)
print(len(result), '/'.join(result))

結果如下:

42 這個/把手/該換/了/,/我/不/喜歡/日本/和服/,/別/把手/放在/我/的/肩膀/上/,/工信處/干事/女干事/每月/經過/下屬
/科室/都/要/親口/交代/24/口/交換/換機/交換機/等/技術/技術性/器件/的/安裝/工作

另外可以加入自定義詞典,如我們想把 日本和服 作為一個整體,可以把它添加到詞典中,代碼如下:

jieba.add_word('日本和服')
result = jieba.lcut(string)
print(len(result), '/'.join(result))

結果如下:

37 這個/把手/該換/了/,/我/不/喜歡/日本和服/,/別/把手/放在/我/的/肩膀/上/,/工信處/女干事/每月/經過/下屬/科室
/都/要/親口/交代/24/口/交換機/等/技術性/器件/的/安裝/工作

可以看到切分結果中,日本和服 四個字就作為一個整體出現在結果中了,分詞數量比精確模式少了一個。

詞性標注

另外 jieba 還支持詞性標注,可以輸出分詞后每個詞的詞性,實例如下:

words = pseg.lcut(string)
print(list(map(lambda x: list(x), words)))

運行結果:

[['這個', 'r'], ['把手', 'v'], ['該', 'r'], ['換', 'v'], ['了', 'ul'], [',', 'x'], ['我', 'r'], ['不', 'd'], 
['喜歡', 'v'], ['日本和服', 'x'], [',', 'x'], ['別', 'r'], ['把手', 'v'], ['放在', 'v'], ['我', 'r'], ['的', 'uj'], 
['肩膀', 'n'], ['上', 'f'], [',', 'x'], ['工信處', 'n'], ['女干事', 'n'], ['每月', 'r'], ['經過', 'p'], 
['下屬', 'v'], ['科室', 'n'], ['都', 'd'], ['要', 'v'], ['親口', 'n'], ['交代', 'n'], ['24', 'm'], ['口', 'n'], 
['交換機', 'n'], ['等', 'u'], ['技術性', 'n'], ['器件', 'n'], ['的', 'uj'], ['安裝', 'v'], ['工作', 'vn']]

關于詞性的說明可以參考:https://gist.github.com/luw2007/6016931。

2. SnowNLP

SnowNLP: Simplified Chinese Text Processing,可以方便的處理中文文本內容,是受到了 TextBlob 的啟發而寫的,由于現在大部分的自然語言處理庫基本都是針對英文的,于是寫了一個方便處理中文的類庫,并且和 TextBlob 不同的是,這里沒有用 NLTK,所有的算法都是自己實現的,并且自帶了一些訓練好的字典。GitHub地址:https://github.com/isnowfy/snownlp。

分詞

這里的分詞是基于 Character-Based Generative Model 來實現的,論文地址:http://aclweb.org/anthology//Y/Y09/Y09-2047.pdf,我們還是以上面的例子說明,相關使用說明如下:

from snownlp import SnowNLP
string = '這個把手該換了,我不喜歡日本和服,別把手放在我的肩膀上,工信處女干事每月經過下屬科室都要親口交代24口
交換機等技術性器件的安裝工作'
s = SnowNLP(string)
result = s.words
print(len(result), '/'.join(result))

運行結果:

40 這個/把手/該/換/了/,/我/不/喜歡/日本/和/服/,/別把手/放在/我/的/肩膀/上/,/工/信處女/干事/每月/經過/下屬/科室
/都/要/親口/交代/24/口/交換機/等/技術性/器件/的/安裝/工作

經過觀察,可以發現分詞效果其實不怎么理想,和服 被分開了,工信處 也被分開了,女干事 也被分開了。

另外 SnowNLP 還支持很多功能,例如詞性標注(HMM)、情感分析、拼音轉換(Trie樹)、關鍵詞和摘要生成(TextRank)。

我們簡單看一個實例:

print('Tags:', list(s.tags))
print('Sentiments:', s.sentiments)
print('Pinyin:', s.pinyin)

運行結果:

Tags: [('這個', 'r'), ('把手', 'Ng'), ('該', 'r'), ('換', 'v'), ('了', 'y'), (',', 'w'), ('我', 'r'), ('不', 'd'), 
('喜歡', 'v'), ('日本', 'ns'), ('和', 'c'), ('服', 'v'), (',', 'w'), ('別把手', 'ad'), ('放在', 'v'), ('我', 'r'), 
('的', 'u'), ('肩膀', 'n'), ('上', 'f'), (',', 'w'), ('工', 'j'), ('信處女', 'j'), ('干事', 'n'), ('每月', 'r'), 
('經過', 'p'), ('下屬', 'v'), ('科室', 'n'), ('都', 'd'), ('要', 'v'), ('親口', 'd'), ('交代', 'v'), ('24', 'm'), 
('口', 'q'), ('交換機', 'n'), ('等', 'u'), ('技術性', 'n'), ('器件', 'n'), ('的', 'u'), ('安裝', 'vn'), ('工作', 'vn')]
Sentiments: 0.015678817603646866
Pinyin: ['zhe', 'ge', 'ba', 'shou', 'gai', 'huan', 'liao', ',', 'wo', 'bu', 'xi', 'huan', 'ri', 'ben', 'he', 'fu', 
',', 'bie', 'ba', 'shou', 'fang', 'zai', 'wo', 'de', 'jian', 'bang', 'shang', ',', 'gong', 'xin', 'chu', 'nv', 
'gan', 'shi', 'mei', 'yue', 'jing', 'guo', 'xia', 'shu', 'ke', 'shi', 'dou', 'yao', 'qin', 'kou', 'jiao', 'dai', 
'24', 'kou', 'jiao', 'huan', 'ji', 'deng', 'ji', 'shu', 'xing', 'qi', 'jian', 'de', 'an', 'zhuang', 'gong', 'zuo']

3. THULAC

THULAC(THU Lexical Analyzer for Chinese)由清華大學自然語言處理與社會人文計算實驗室研制推出的一套中文詞法分析工具包,GitHub 鏈接:https://github.com/thunlp/THULAC-Python,具有中文分詞和詞性標注功能。THULAC具有如下幾個特點:

能力強。利用集成的目前世界上規模最大的人工分詞和詞性標注中文語料庫(約含5800萬字)訓練而成,模型標注能力強大。

準確率高。該工具包在標準數據集Chinese Treebank(CTB5)上分詞的F1值可達97.3%,詞性標注的F1值可達到92.9%,與該數據集上最好方法效果相當。

速度較快。同時進行分詞和詞性標注速度為300KB/s,每秒可處理約15萬字。只進行分詞速度可達到1.3MB/s。

我們用一個實例看一下分詞效果:

import thulac
string = '這個把手該換了,我不喜歡日本和服,別把手放在我的肩膀上,工信處女干事每月經過下屬科室都要親口交代24口
交換機等技術性器件的安裝工作'
t = thulac.thulac()
result = t.cut(string)
print(result)

運行結果:

[['這個', 'r'], ['把手', 'n'], ['該', 'v'], ['換', 'v'], ['了', 'u'], [',', 'w'], ['我', 'r'], ['不', 'd'], 
['喜歡', 'v'], ['日本', 'ns'], ['和服', 'n'], [',', 'w'], ['別把手', 'n'], ['放', 'v'], ['在', 'p'], ['我', 'r'], 
['的', 'u'], ['肩膀', 'n'], ['上', 'f'], [',', 'w'], ['工信處', 'n'], ['女', 'a'], ['干事', 'n'], ['每月', 'r'], 
['經過', 'p'], ['下屬', 'v'], ['科室', 'n'], ['都', 'd'], ['要', 'v'], ['親口', 'd'], ['交代', 'v'], ['24', 'm'], 
['口', 'q'], ['交換機', 'n'], ['等', 'u'], ['技術性', 'n'], ['器件', 'n'], ['的', 'u'], ['安裝', 'v'], ['工作', 'v']]

4. NLPIR

NLPIR 分詞系統,前身為2000年發布的 ICTCLAS 詞法分析系統,GitHub 鏈接:https://github.com/NLPIR-team/NLPIR,是由北京理工大學張華平博士研發的中文分詞系統,經過十余年的不斷完善,擁有豐富的功能和強大的性能。NLPIR是一整套對原始文本集進行處理和加工的軟件,提供了中間件處理效果的可視化展示,也可以作為小規模數據的處理加工工具。主要功能包括:中文分詞,詞性標注,命名實體識別,用戶詞典、新詞發現與關鍵詞提取等功能。另外對于分詞功能,它有 Python 實現的版本,GitHub 鏈接:https://github.com/tsroten/pynlpir。

使用方法如下:

import pynlpir
pynlpir.open()
string = '這個把手該換了,我不喜歡日本和服,別把手放在我的肩膀上,工信處女干事每月經過下屬科室都要親口交代24口
交換機等技術性器件的安裝工作'
result = pynlpir.segment(string)
print(result)

運行結果如下:

[('這個', 'pronoun'), ('把', 'preposition'), ('手', 'noun'), ('該', 'pronoun'), ('換', 'verb'), 
('了', 'modal particle'), (',', 'punctuation mark'), ('我', 'pronoun'), ('不', 'adverb'), ('喜歡', 'verb'), 
('日本', 'noun'), ('和', 'conjunction'), ('服', 'verb'), (',', 'punctuation mark'), ('別', 'adverb'), 
('把', 'preposition'), ('手', 'noun'), ('放', 'verb'), ('在', 'preposition'), ('我', 'pronoun'), ('的', 'particle'), 
('肩膀', 'noun'), ('上', 'noun of locality'), (',', 'punctuation mark'), ('工', 'noun'), ('信', 'noun'), 
('處女', 'noun'), ('干事', 'noun'), ('每月', 'pronoun'), ('經過', 'preposition'), ('下屬', 'verb'), ('科室', 'noun'), 
('都', 'adverb'), ('要', 'verb'), ('親口', 'adverb'), ('交代', 'verb'), ('24', 'numeral'), ('口', 'classifier'), 
('交換機', 'noun'), ('等', 'particle'), ('技術性', 'noun'), ('器件', 'noun'), ('的', 'particle'), ('安裝', 'verb'), 
('工作', 'verb')]

這里 把手 和 和服 也被分開了。

5. NLTK

NLTK,Natural Language Toolkit,是一個自然語言處理的包工具,各種多種 NLP 處理相關功能,GitHub 鏈接:https://github.com/nltk/nltk。

但是 NLTK 對于中文分詞是不支持的,示例如下:

from nltk import word_tokenize
string = '這個把手該換了,我不喜歡日本和服,別把手放在我的肩膀上,工信處女干事每月經過下屬科室都要親口交代24口
交換機等技術性器件的安裝工作'
result = word_tokenize(string)
print(result)

結果:

['這個把手該換了,我不喜歡日本和服,別把手放在我的肩膀上,工信處女干事每月經過下屬科室都要親口交代24口交換機等
技術性器件的安裝工作']

如果要用中文分詞的話,可以使用 FoolNLTK,它使用 Bi-LSTM 訓練而成,包含分詞、詞性標注、實體識別等功能,同時支持自定義詞典,可以訓練自己的模型,可以進行批量處理。

使用方法如下:

import fool
string = '這個把手該換了,我不喜歡日本和服,別把手放在我的肩膀上,工信處女干事每月經過下屬科室都要親口交代24口交換機
等技術性器件的安裝工作'
result = fool.cut(string)
print(result)

運行結果:

[['這個', '把手', '該', '換', '了', ',', '我', '不', '喜歡', '日本', '和服', ',', '別', '把', '手', '放', '在', 
'我', '的', '肩膀', '上', ',', '工信處', '女', '干事', '每月', '經過', '下屬', '科室', '都', '要', '親', '口', 
'交代', '24', '口', '交換機', '等', '技術性', '器件', '的', '安裝', '工作']]

可以看到這個分詞效果還是不錯的。

另外還可以進行詞性標注,實體識別:

result = fool.pos_cut(string)
print(result)
_, ners = fool.analysis(string)
print(ners)

運行結果:

[[('這個', 'r'), ('把手', 'n'), ('該', 'r'), ('換', 'v'), ('了', 'y'), (',', 'wd'), ('我', 'r'), ('不', 'd'), 
('喜歡', 'vi'), ('日本', 'ns'), ('和服', 'n'), (',', 'wd'), ('別', 'd'), ('把', 'pba'), ('手', 'n'), ('放', 'v'), 
('在', 'p'), ('我', 'r'), ('的', 'ude'), ('肩膀', 'n'), ('上', 'f'), (',', 'wd'), ('工信處', 'ns'), ('女', 'b'), 
('干事', 'n'), ('每月', 'r'), ('經過', 'p'), ('下屬', 'v'), ('科室', 'n'), ('都', 'd'), ('要', 'v'), ('親', 'a'), 
('口', 'n'), ('交代', 'v'), ('24', 'm'), ('口', 'q'), ('交換機', 'n'), ('等', 'udeng'), ('技術性', 'n'), 
('器件', 'n'), ('的', 'ude'), ('安裝', 'n'), ('工作', 'n')]]
[[(12, 15, 'location', '日本')]]

6. LTP

語言技術平臺(Language Technology Platform,LTP)是哈工大社會計算與信息檢索研究中心歷時十年開發的一整套中文語言處理系統。LTP制定了基于XML的語言處理結果表示,并在此基礎上提供了一整套自底向上的豐富而且高效的中文語言處理模塊(包括詞法、句法、語義等6項中文處理核心技術),以及基于動態鏈接庫(Dynamic Link Library, DLL)的應用程序接口、可視化工具,并且能夠以網絡服務(Web Service)的形式進行使用。

LTP 有 Python 版本,GitHub地址:https://github.com/HIT-SCIR/pyltp,另外運行的時候需要下載模型,模型還比較大,下載地址:http://ltp.ai/download.html。

示例代碼如下:

from pyltp import Segmentor
string = '這個把手該換了,我不喜歡日本和服,別把手放在我的肩膀上,工信處女干事每月經過下屬科室都要親口交代24口交換機
等技術性器件的安裝工作'
segmentor = Segmentor()
segmentor.load('./cws.model')
result = list(segmentor.segment(string))
segmentor.release()
print(result)

運行結果:

41 這個/把手/該/換/了/,/我/不/喜歡/日本/和服/,/別/把/手/放在/我/的/肩膀/上/,/工信/處女/干事/每月/經過/下屬/科室
/都/要/親口/交代/24/口/交換機/等/技術性/器件/的/安裝/工作

可以發現 工信處、女干事 沒有正確分開。

以上就是關于Python3爬蟲中如何實現中文分詞的內容,如果你們有學習到知識或者技能,可以把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

辽阳市| 旌德县| 长宁县| 宁安市| 耿马| 五家渠市| 湘阴县| 阆中市| 江油市| 济南市| 阿鲁科尔沁旗| 甘谷县| 城口县| 铜川市| 兴山县| 砀山县| 工布江达县| 蓝山县| 连云港市| 融水| 抚远县| 邹平县| 绵阳市| 漾濞| 庄河市| 永泰县| 衡阳市| 靖西县| 尼玛县| 永宁县| 阿克苏市| 页游| 伊金霍洛旗| 韶山市| 嘉定区| 青冈县| 台湾省| 千阳县| 武隆县| 哈尔滨市| 蓝田县|