您好,登錄后才能下訂單哦!
這篇文章主要介紹web中文本數據清洗流程的示例分析,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!
今天,超過80%的數據是非結構化的。文本數據預處理是數據分析前的必經之路。大多數可用的文本數據本質上是高度非結構化和嘈雜的,需要更好的見解或建立更好的算法來處理數據。
我們知道,社交媒體數據是高度非結構化的,因其非正式的交流,存在包括拼寫錯誤、語法不好、俚語的使用、諸如URL、停用詞、表達式等不必要內容。
一個典型的商業問題,假設你感興趣的是:這是iPhone在粉絲中更受歡迎的特點。下面你已經提取了與iPhone相關的消費者意見的一條推特:
下面對這條推特做文本預處理:
1、去掉HTML 字符:
從Web獲得的數據通常包含許多HTML實體,如lt;& gt;& &;它嵌入到原始數據中。因此,必須擺脫這些實體。一種方法是通過使用特定的正則表達式直接刪除它們。另一種方法是使用適當的包和模塊(例如Python的HTMLPARSER),它可以將這些實體轉換成標準的HTML標記。例如:& lt;轉換為“<”,轉換為“&”。
2、解碼數據:
這是將信息從復雜符號轉換為簡單易懂字符的過程。文本數據可能會受到不同形式的解碼,如“拉丁語”、“UTF8”等。因此,為了更好地分析,有必要保持完整的數據以標準的編碼格式。UTF-8編碼被廣泛接受并推薦使用。
3、撇號查找:為了避免文本中的任何詞義消歧,建議在文章中保持適當的結構,并遵守上下文無關文法的規則。當使用撇號時,消歧的機會增加。
For example “it’s is a contraction for it is or it has”.
所有撇號都應該轉換成標準詞典。可以使用所有可能的關鍵字的查找表來消除歧義。
4、停用詞的去除:當數據分析需要在字級上進行數據驅動時,應刪除通常出現的單詞(停用詞)。通過創建的一個長長的停止詞列表,或者可以使用預定義的語言特定的庫。
5、刪除標點符號:所有的標點符號應根據優先級來處理。例如:“,”,“,”,“?”“重要標點應該保留,而其他標點需要刪除。
6、刪除表達式:文本數據(通常是語音轉錄)可能包含人類的表達,如[笑],[哭],[觀眾暫停]。這些表達式通常與語音內容無關,因此需要刪除。在這種情況下,簡單正則表達式可能是有用的。
7、分裂的附加詞:人在社交論壇中的生成文本數據,本質上是完全非正式的。大多數推文伴隨著多個附加詞,例如RayyDay. PrimeCythOrth.等,這些實體可以用簡單的規則和正則表達式分裂成它們的正常形式.
8、俚語查找:同樣,社交媒體包括大多數俚語詞匯。這些詞應該轉換成標準詞來制作自由文本。像LUV這樣的詞將被轉換成愛,Helo到Hello。撇號查找的類似方法可以用來將俚語轉換成標準詞。網上有大量的信息源,它提供了所有可能的俚語的列表,可以用它們作為查找字典來進行轉換。
9、規范詞:有時詞的格式不正確。例如:“I looooveee you” 應為 “I love you”。簡單的規則和正則表達式可以幫助解決這些情況。
10、刪除URL:應刪除文本數據中的URL和超鏈接,如評論、評論和推文。
以上是“web中文本數據清洗流程的示例分析”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。