您好,登錄后才能下訂單哦!
大數據中Smartbi怎樣解決垃圾短信帶來的困擾,很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。
截至2020年12月,我國手機網民規模達9.86億。移動互聯網時代,個人信息和用戶數據成為重要的商業資源。一些企業和個人為牟取經濟利益,導致垃圾短信頻發,讓人們不勝其擾。保護私生活安寧已經成為一項迫切需要解決的社會問題。
垃圾短信
垃圾短信是指未經用戶同意向用戶發送的用戶不愿意收到的短信息,或用戶不能根據自己的意愿拒絕接收的短信息,主要包含以下屬性:(一)未經用戶同意向用戶發送的商業類、廣告類等短信息; (二)其他違反行業自律性規范的短信息。
垃圾短信泛濫,已經嚴重影響到人們正常生活、運營商形象乃至社會穩定。如偽基站可以給三公里內10萬手機發信。現用戶可以使用手機管家進行攔截此類短信。
用戶迫切的需要一種快速、有效的垃圾短信識別方法。通過垃圾短信的精準識別,以完善用戶的通訊環境,為有關部門提供有效依據,維護運營商利益。數據挖掘平臺Smartbi也不甘示弱,為了能盡快解決垃圾短信的問題,Smartbi利用Smartbi Mining進行建模,使用隨機森林文本分類算法建立合理的短信識別模型,對垃圾短信進行識別,解決運營商和手機用戶的困擾。
Smartbi mining數據挖掘平臺將操作分為四個步驟:
1. 數據獲取,獲取所需數據集;
2. 數據預處理,對數據進行文本中文分詞、停用詞過濾處理等;
3. 模型構建與評價,構建隨機森林模型,并建立評價指標精確率、召回率、F1值對模型分類效果進行評價。
4. 分析結果,總結和建議。
1數據獲取
目前,某運營商已經積累了大量的垃圾短信數據。經過加工處理數據如圖3-2所示。本案例收集了295755條短信文本數據,字段說明見表3-1。
表3-1 字段說明
圖3-2 數據集
為了方便識別字段含義,這里接入一個元數據編輯節點取別名,如圖3-3所示。
圖3-3 元數據編輯
2 數據預處理
2.1、分詞
中文分詞是指將一整段文字切分為具有最小語義的詞條信息,即以詞作為基本單元,使用計算機自動對中文文本進行詞語的切分,將文本數據轉化為機器可識別的形式。英文單詞之間是由空格作為分界符的,中文則是由字為基本書寫單位,詞語之間沒有明顯的區分符,因此,中文分詞是中文信息處理的基礎與關鍵。分詞結果的準確性,對后續文本挖掘有著重要影響。如在進行特征的選擇時,不同的分詞效果將影響詞語在文本中的重要性,從而影響特征的選擇。
這里接入一個分詞節點將text列進行分詞,_c2_seg為分詞后的字符串型結果,_c2_seg_words為分詞后的WrappedArray類型結果,分詞輸出結果如圖3-4所示。
2.3、TF-IDF
由于文本數據無法直接用于建模,因此需要將文本表示成計算機能夠直接處理的形式,即文本數字化。TF-IDF算法即將文本數據進行數值化。TF意思是詞頻,IDF意思是逆文本頻率指數,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF值越高,說明該詞越重要。
我們接入TF-IDF算法進行抽取變換,輸出結果如圖3-6所示。
3 構建模型
本案例采用隨機森林算法模型,通過特征選擇_c2_seg_words_filtered_idf列,目標標簽為target,整體模型訓練預測如圖3-8所示。
圖3-8 構建模型
4 模型評價
通過評估節點接入,如圖3-8所示,評估結果如圖3-10所示。
分析結果得出F1分數達到0.91,說明該模型效果比較不錯的。
該模型能較好地識別出垃圾短信,有效進行垃圾短信過濾,解決運營商及用戶的困擾。
Smartbi數據挖掘平臺這個案例運用短信數據,對垃圾短信進行識別。主要實現了垃圾短信的精確識別,通過獲得以上挖掘結果,為相關運營商提供一種解決垃圾短信過濾問題的方案。
看完上述內容是否對您有幫助呢?如果還想對相關知識有進一步的了解或閱讀更多相關文章,請關注億速云行業資訊頻道,感謝您對億速云的支持。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。