91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python如何學習NLP自然語言處理基本操作詞袋模型

發布時間:2021-09-24 14:41:23 來源:億速云 閱讀:127 作者:柒染 欄目:開發技術

這期內容當中小編將會給大家帶來有關Python如何學習NLP自然語言處理基本操作詞袋模型,文章內容豐富且以專業的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

概述

從今天開始我們將開啟一段自然語言處理 (NLP) 的旅程. 自然語言處理可以讓來處理, 理解, 以及運用人類的語言, 實現機器語言和人類語言之間的溝通橋梁.

詞袋模型

詞袋模型 (Bag of Words Model) 能幫助我們把一個句子轉換為向量表示. 詞袋模型把文本看作是無序的詞匯集合, 把每一單詞都進行統計.

Python如何學習NLP自然語言處理基本操作詞袋模型

向量化

詞袋模型首先會進行分詞, 在分詞之后. 通過通過統計在每個詞在文本中出現的次數. 我們就可以得到該文本基于詞語的特征, 如果將各個文本樣本的這些詞與對應的詞頻放在一起, 就是我們常說的向量化.

Python如何學習NLP自然語言處理基本操作詞袋模型

例子:

import jieba
from gensim import corpora
# 定義標點符號
punctuation = [",", "。", ":", ";", "?", "!"]
# 定義語料
content = [
    "今天天氣真不錯!",
    "明天要下雨?",
    "后天要打雷。"
]
# 分詞
seg = [jieba.lcut(con) for con in content]
print("語料:", seg)

# 去除標點符號
tokenized = seg.copy()
for s in tokenized:
    for p in punctuation:
        if p in s:
            s.remove(p)
print("去除標點:", tokenized)
# tokenized是去標點之后的
dictionary = corpora.Dictionary(seg)
print("詞袋模型:", dictionary)

# 保存詞典
dictionary.save('deerwester.dict')
# 查看字典和下標id的映射
print("編號:", dictionary.token2id)

輸出結果:

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Windows\AppData\Local\Temp\jieba.cache
Loading model cost 1.140 seconds.
Prefix dict has been built successfully.
語料: [['今天天氣', '真不錯', '!'], ['明天', '要', '下雨', '?'], ['后天', '要', '打雷', '。']]
去除標點: [['今天天氣', '真不錯'], ['明天', '要', '下雨'], ['后天', '要', '打雷']]
詞袋模型: Dictionary(7 unique tokens: ['今天天氣', '真不錯', '下雨', '明天', '要']...)
編號: {'今天天氣': 0, '真不錯': 1, '下雨': 2, '明天': 3, '要': 4, '后天': 5, '打雷': 6}

上述就是小編為大家分享的Python如何學習NLP自然語言處理基本操作詞袋模型了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

静海县| 彭阳县| 顺平县| 年辖:市辖区| 忻城县| 汉川市| 剑川县| 周宁县| 阳高县| 丰顺县| 岳西县| 冷水江市| 洛南县| 平乐县| 西贡区| 景东| 宝清县| 枝江市| 桑植县| 金川县| 安西县| 蒲城县| 元谋县| 黄龙县| 新兴县| 曲阜市| 鹰潭市| 涪陵区| 波密县| 浦北县| 黄山市| 峨边| 湛江市| 历史| 揭西县| 赤峰市| 武胜县| 紫阳县| 朝阳市| 宁乡县| 贵州省|