Python StandfordNLP庫怎么用

發布時間：2022-01-17 17:25:47 來源：億速云閱讀：236 作者：iii 欄目：互聯網科技

這篇文章主要講解了“Python StandfordNLP庫怎么用”，文中的講解內容簡單清晰，易于學習與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學習“Python StandfordNLP庫怎么用”吧！

版本特性

新版的StandfordNLP包含以下特性：

純python庫，沒有什么設置項，pip install后直接可用
擁有自然語言處理所需的幾乎所有方法
包含預訓練模型，支持73個樹庫中的53種語言
與斯坦福CoreNLP無縫聯動
斯坦福NLP團隊出品，質量有保證

安裝

pip install stanfordnlp

使用

>>> import stanfordnlp
>>> stanfordnlp.download('en') # 這會下載英語的神經網絡模型
>>> nlp = stanfordnlp.Pipeline() # 獲取一個默認的英語語言處理流程
>>> doc = nlp("Barack Obama was born in Hawaii. He was elected president in 2008.")
>>> doc.sentences[0].print_dependencies()
('Barack', '4', 'nsubj:pass')
('Obama', '1', 'flat')
('was', '4', 'aux:pass')
('born', '0', 'root')
('in', '6', 'case')
('Hawaii', '4', 'obl')
('.', '4', 'punct')

中文demo

>>> import stanfordnlp
>>> stanfordnlp.download('zh') # 下載中文模型
>>> nlp = stanfordnlp.Pipeline(lang='zh') # 中文語言處理流程
>>> doc = nlp("達沃斯世界經濟論壇是每年全球政商界領袖聚在一起的年度盛事。")
>>> doc.sentences[0].print_tokens() # 打印token
達沃斯 達沃斯 PROPN
世界 世界 NOUN
經濟 經濟 NOUN
論壇 論壇 NOUN
是 是 AUX
每年 每年 DET
全球 全球 NOUN
政 政 PART
商界 商界 NOUN
領袖 領袖 NOUN
聚 聚 VERB
在 在 VERB
一起 一起 NOUN
的 的 PART
年度 年度 NOUN
盛事 盛事 NOUN
。 。 PUNCT
>>> doc.sentences[0].print_dependencies() # 打印依存分析樹
('達沃斯', '4', 'nmod')
('世界', '4', 'nmod')
('經濟', '4', 'nmod')
('論壇', '16', 'nsubj')
('是', '16', 'cop')
('每年', '10', 'nmod')
('全球', '10', 'nmod')
('政', '9', 'case:pref')
('商界', '10', 'nmod')
('領袖', '11', 'nsubj')
('聚', '16', 'acl:relcl')
('在', '11', 'mark')
('一起', '11', 'obj')
('的', '11', 'mark:relcl')
('年度', '16', 'nmod')
('盛事', '0', 'root')
('。', '16', 'punct')

Pipeline的配置

在StandfordNLP里，Pipline配置了StandfordNLP怎么處理數據，比如英文的默認是Token,Lemma等，而中文的是分詞，Token等。完整的Pipline配置見下圖：

import stanfordnlpconfig = {
'processors': 'tokenize,mwt,pos,lemma,depparse', # 配置調用該Pipline需要用到的模型,
lang': 'fr', # 配置該Pipline所處理的目標語言
# 配置用到的模型，及其模型路徑，注意，這里的模型都是PyTorch的
# 你也可以自己訓練自己的模型
'tokenize_model_path': './fr_gsd_models/fr_gsd_tokenizer.pt',
'mwt_model_path': './fr_gsd_models/fr_gsd_mwt_expander.pt',
'pos_model_path': './fr_gsd_models/fr_gsd_tagger.pt',
'pos_pretrain_path': './fr_gsd_models/fr_gsd.pretrain.pt',
'lemma_model_path': './fr_gsd_models/fr_gsd_lemmatizer.pt',
'depparse_model_path': './fr_gsd_models/fr_gsd_parser.pt',
'depparse_pretrain_path': './fr_gsd_models/fr_gsd.pretrain.pt'
}
nlp = stanfordnlp.Pipeline(**config) # 根據配置初始化Pipline
doc = nlp("Van Gogh grandit au sein d'une famille de l'ancienne bourgeoisie.") # 將Pipline運用到句子上
doc.sentences[0].print_tokens() # 查看結果

感謝各位的閱讀，以上就是“Python StandfordNLP庫怎么用”的內容了，經過本文的學習后，相信大家對Python StandfordNLP庫怎么用這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是億速云，小編將為大家推送更多相關知識點的文章，歡迎關注！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Python StandfordNLP庫怎么用

版本特性

安裝

使用

中文demo

Pipeline的配置

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Python StandfordNLP庫怎么用

版本特性

安裝

使用

中文demo

Pipeline的配置

猜你喜歡

最新資訊

相關推薦

相關標簽