您好,登錄后才能下訂單哦!
這篇文章跟大家分析一下“SpringBoot使用前綴樹過濾敏感詞的方法是什么”。內容詳細易懂,對“SpringBoot使用前綴樹過濾敏感詞的方法是什么”感興趣的朋友可以跟著小編的思路慢慢深入來閱讀一下,希望閱讀后能夠對大家有所幫助。下面跟著小編一起深入學習“SpringBoot使用前綴樹過濾敏感詞的方法是什么”的知識吧。
一般設計網站的時候,會有問題發布或者是內容發布的功能,這些功能的有一個很重要的點在于如何實現敏感詞過濾,要不然可能會有不良信息的發布,或者發布的內容中有夾雜可能會有惡意功能的代碼片段,敏感詞過濾的基本的算法是前綴樹算法,前綴樹也就是字典樹,通過前綴樹匹配可以加快敏感詞匹配的速度。
前綴樹又稱為Trie、字典樹、查找樹。主要特點是:查找效率高,但內存消耗大;主要應用于字符串檢索、詞頻統計、字符串排序等。
到底什么是前綴樹?前綴樹的功能是如何實現的?
舉一個具體的例子:若有一個字符串"xwabfabcff",敏感詞為"abc"、"bf"、"be",檢測字符串,若有敏感詞,則將敏感詞替換為"*",實現一個算法。
前綴樹的特點:
1. 跟結點為空結點,沒有任何字符。
2. 除了根節點以外,每個結點只有一個字符。
3. 每個結點包含的子節點不相同。 例如,root的子節點本來有兩個b,但我們只保留一個
4. 在每個敏感詞的末尾結點做一個標記,表示從根節點到此節點組合成的字符串是一個敏感詞,中間未被標記的結點和根節點中間的字符串不構成一個敏感詞。
前綴樹的算法邏輯:
1. 準備:我們需要三個指針,①指針指向前綴樹,默認指向根節點; ②、③指針指向要檢測的字符串(同向尺距法,②從頭到尾走一遍,標記敏感詞的開頭,③隨著②而動,標記敏感詞的結尾),默認指向字符串的第一個字符。我們還需要一個存放檢測結果的字符串(StringBuilder)。
2. ①訪問樹的第一層,發現沒有'x',則②、③向下走一步,并將'x'存入StringBuilder字符串里。'w' 同理。
3. 此時②、③指向'a',①訪問樹的第一層,發現有'a',但'a'未被標記,所以不是敏感詞,則把'a'存入StringBuilder字符串。然后②不動,①、③繼續向下走,直至走到被標記的結點或者不匹配時,①歸位,②向下走一步,③回到此時②指向的地方。重復以上步驟。
4. 若檢測到敏感詞,則在StringBuilder中存儲"***",并使②跳過此敏感詞,②、③共同指向原來③的下一個位置。
5. ②、③走到字符串的末尾時,檢測完成。最終結果為"xwa******ff"。
我們再開發項目時,需要開發出一個可復用的過濾敏感詞的工具,成為敏感詞過濾器,以便在項目中可以復用。
開發敏感詞過濾器主要有以下三個步驟:
1. 定義前綴樹
2. 根據敏感詞,初始化前綴樹
3. 編寫過濾敏感詞的方法
代碼實現如下:
import org.apache.commons.lang3.CharUtils; import org.apache.commons.lang3.StringUtils; import org.slf4j.Logger; import org.slf4j.LoggerFactory; import org.springframework.stereotype.Component; import javax.annotation.PostConstruct; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.util.HashMap; import java.util.Map; @Component public class SensitiveFilter { // 記錄日志 private static final Logger logger = LoggerFactory.getLogger(SensitiveFilter.class); // 替換符 private static final String REPLACEMENT = "***"; // 初始化根節點 private TrieNode rootNode = new TrieNode(); /** * 2. 根據敏感詞,初始化前綴樹 */ @PostConstruct// 當容器在服務器啟動時實例化此Bean,調用Bean的構造方法后,該方法就會被自動調用 public void init() { try ( // 加載敏感詞文件 sensitive-words.txt是自建的存放敏感詞的文件 InputStream is = this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt"); // 字節流 --> 字符流 --> 字符緩沖流 BufferedReader reader = new BufferedReader(new InputStreamReader(is)); ) { String keyword; while((keyword = reader.readLine()) != null){ // 添加到前綴樹,addKeyword為自定義的方法,將一個敏感詞添加到前綴樹中去 this.addKeyword(keyword); } } catch (IOException e) { logger.error("加載敏感詞文件失敗:" + e.getMessage()); } } // 封裝方法:將一個敏感詞添加到前綴樹中去 private void addKeyword(String keyword){ TrieNode tempNode = rootNode; for (int i = 0; i < keyword.length(); i++) { char c = keyword.charAt(i); TrieNode subNode = tempNode.getSubNode(c); if(subNode == null){ // 如果子節點中沒有該字符,則以此字符初始化子節點,并裝配到樹中 subNode = new TrieNode(); tempNode.addSubNode(c,subNode); } // 指向字節點,進入下一層循環 tempNode = subNode; // 設置結束標識 if(i == keyword.length() -1){ tempNode.setKeywordEnd(true); } } } /** * 3. 檢索并過濾敏感詞 * @param text 待過濾的文本 * @return 過濾后的文本 */ public String filter(String text){ if(StringUtils.isBlank(text)){ return null; } // 指針① TrieNode tempNode = rootNode; // 指針② int begin = 0; // 指針③ int position = 0; // 存放結果 StringBuilder sb = new StringBuilder(); while(position < text.length()){ char c = text.charAt(position); // 跳過符號 if(isSymbol(c)){ // 若指針①處于根節點,將此符號計入結果,讓指針②向下走一步 if(tempNode == rootNode){ sb.append(c); begin++; } // 無論符號在未檢測時出現還是正在檢測時出現,指針③總是向下走一步 // (未檢測時和指針②一起向下走一步,檢測時指針②不動,指針③向下走一步) position++; continue; } // 檢查下級節點 tempNode = tempNode.getSubNode(c); if(tempNode == null){ // 以begin開頭的字符串不是敏感詞 sb.append(text.charAt(begin)); // 進入下一個位置 begin++; position = begin; // 指針①歸位,重新指向根節點 tempNode = rootNode; }else if (tempNode.isKeywordEnd()){ // 發現敏感詞,將begin~position字符串替換掉 sb.append(REPLACEMENT); // 進入下一個位置 position++; begin = position; // 指針①歸位,重新指向跟接待你 tempNode = rootNode; }else { // 檢查下一個字符 position++; } } // 將最后一批字符計入結果:指針③比指針②先到中終點,且兩者之間的字符串不是敏感詞 sb.append(text.substring(begin)); return sb.toString(); } // 封裝方法:判斷是否為特殊符號 private boolean isSymbol(Character c){ // 0x2E80~0x9FFF 是東亞文字范圍,不予當作特殊符號看待 return !CharUtils.isAsciiAlphanumeric(c) && (c < 0x2E80 || c > 0x9FFF); } /** * 1. 定義前綴樹 */ private class TrieNode { // 敏感詞(關鍵詞)結束標識 private boolean isKeywordEnd = false; // 子節點(key是下級字符,value是下級節點) private Map<Character, TrieNode> subNodes = new HashMap<>(); public boolean isKeywordEnd() { return isKeywordEnd; } public void setKeywordEnd(boolean keywordEnd) { isKeywordEnd = keywordEnd; } // 添加子節點 public void addSubNode(Character c, TrieNode node) { subNodes.put(c, node); } // 獲取子節點 public TrieNode getSubNode(Character c) { return subNodes.get(c); } } }
springboot一種全新的編程規范,其設計目的是用來簡化新Spring應用的初始搭建以及開發過程,SpringBoot也是一個服務于框架的框架,服務范圍是簡化配置文件。
關于SpringBoot使用前綴樹過濾敏感詞的方法是什么就分享到這里啦,希望上述內容能夠讓大家有所提升。如果想要學習更多知識,請大家多多留意小編的更新。謝謝大家關注一下億速云網站!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。