91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python短文本如何自動識別個體是否有自殺傾向

發布時間:2021-10-19 09:49:30 來源:億速云 閱讀:157 作者:柒染 欄目:大數據

Python短文本如何自動識別個體是否有自殺傾向,相信很多沒有經驗的人對此束手無策,為此本文總結了問題出現的原因和解決方法,通過這篇文章希望你能解決這個問題。

為了簡化問題,我們將短文本分為兩種類別中的一種,即要么是正常微博、要么是自殺傾向微博。這樣,有了上次的微博樹洞,訓練集和測試集就非常好獲得了。由于是短文本二分類問題,可以使用scikit-learn的SVM分類模型。

不過要注意的是,我們的分類器并不能保證分類出來的結果百分百正確,畢竟心理狀態是很難通過文本準確識別出來的,我們只能通過文字,大致判斷其抑郁情況并加以介入。實際上這是一個寧可錯殺一百,不可放過一個的問題。畢竟放過一個,可能就有一條生命悄然流逝。

1.數據準備

數據集整體上分兩個部分,一部分是訓練集、一部分是測試集。其中,訓練集和測試集中還要分為正常微博短文本和自殺傾向短文本。

將上一篇爬取微博樹洞的文章中得到的數據進行人工篩選后,挑出300條作為訓練集(有點少,其實業界至少也要3000條以上),再根據上次的微博爬蟲隨意爬取10000條微博作為訓練集的正常微博類。另外再分別搜集自殺傾向微博和普通微博各50條作為測試集。

每條微博按行存儲在txt文件里。訓練集中,正常微博命名為normal.txt, 自殺傾向微博命名為die.txt。測試集存放在后綴為_test.txt的文件中:

Python短文本如何自動識別個體是否有自殺傾向

此外,接下來我們會使用到一個機器學習工具包叫scikit-learn(sklearn),其打包了許多機器學習模型和預處理的方法,方便我們構建分類器,在CMD/Terminal輸入以下命令安裝:

   
   
   pip install -U scikit-learn

如果你還沒有安裝Python,請看這篇文章安裝Python,然后再執行上述命令安裝sklearn.

2.數據預處理

我們使用一個典型的中文自然語言預處理方法:對文本使用結巴分詞后將其數字化。

由于具有自殺傾向的微博中,其實類似于"死"、"不想活"、"我走了"等這樣的詞語比較常見,因此我們可以用TF-IDF將字符串數字化。如果你不了解TF-IDF,請看這篇文章:《文本處理之 tf-idf 算法及其實踐》:
https://suool.net/2019/01/26/tf-tdf-exercise/

數字化的部分代碼如下。

Python短文本如何自動識別個體是否有自殺傾向

3.訓練

使用scikit-learn的SVM分類模型,我們能很快滴訓練并構建出一個分類器:

Python短文本如何自動識別個體是否有自殺傾向

這里我們忽略了SVM原理的講解,SVM的原理可以參考這篇文章,《支持向量機(SVM)——原理篇》:
https://zhuanlan.zhihu.com/p/31886934

4.測試

測試的時候,我們要分別計算模型對兩個類別的分類精確率和召回率。scikit-learn提供了一個非常好用的函數classification_report來計算它們:

Python短文本如何自動識別個體是否有自殺傾向

結果:

Python短文本如何自動識別個體是否有自殺傾向

對自殺傾向微博的分類精確率為100%,但是查全率不夠,它只找到了50條里的60%,也就是30條自殺傾向微博。

對于正常微博的分類,其精確率為71%,也就是說有部分正常微博被分類為自殺傾向微博,不過其查全率為100%,也就是不存在不被分類的正常微博。

這是建立在訓練集還不夠多的情況下的結果。我們的自殺傾向微博的數據僅僅才300條,這是遠遠不夠的,如果能增加到3000條,相信結果會改進不少,尤其是對于自殺傾向微博的查全率有很大的幫助。預估最終該模型的精確率和召回率至少能達到95%。

看完上述內容,你們掌握Python短文本如何自動識別個體是否有自殺傾向的方法了嗎?如果還想學到更多技能或想了解更多相關內容,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

太谷县| 湖南省| 霍邱县| 西城区| 睢宁县| 章丘市| 清苑县| 兴安县| 时尚| 泾源县| 丰顺县| 天津市| 双牌县| 临漳县| 缙云县| 贵定县| 库尔勒市| 金堂县| 三原县| 绥棱县| 卢湾区| 逊克县| 邵武市| 白城市| 湘潭市| 徐州市| 磐安县| 阿拉善右旗| 东丽区| 通榆县| 手机| 远安县| 宁武县| 甘洛县| 政和县| 佛坪县| 襄城县| 收藏| 重庆市| 三河市| 徐汇区|