SpringBoot使用前綴樹過濾敏感詞的方法是什么

發布時間：2022-01-17 16:18:41 來源：億速云閱讀：149 作者：kk 欄目：開發技術

這篇文章跟大家分析一下“SpringBoot使用前綴樹過濾敏感詞的方法是什么”。內容詳細易懂，對“SpringBoot使用前綴樹過濾敏感詞的方法是什么”感興趣的朋友可以跟著小編的思路慢慢深入來閱讀一下，希望閱讀后能夠對大家有所幫助。下面跟著小編一起深入學習“SpringBoot使用前綴樹過濾敏感詞的方法是什么”的知識吧。

一、前綴樹

一般設計網站的時候，會有問題發布或者是內容發布的功能，這些功能的有一個很重要的點在于如何實現敏感詞過濾，要不然可能會有不良信息的發布，或者發布的內容中有夾雜可能會有惡意功能的代碼片段，敏感詞過濾的基本的算法是前綴樹算法，前綴樹也就是字典樹，通過前綴樹匹配可以加快敏感詞匹配的速度。

前綴樹又稱為Trie、字典樹、查找樹。主要特點是：查找效率高，但內存消耗大；主要應用于字符串檢索、詞頻統計、字符串排序等。

到底什么是前綴樹？前綴樹的功能是如何實現的？

舉一個具體的例子：若有一個字符串"xwabfabcff"，敏感詞為"abc"、"bf"、"be"，檢測字符串，若有敏感詞，則將敏感詞替換為"*"，實現一個算法。

前綴樹的特點：

1. 跟結點為空結點，沒有任何字符。

2. 除了根節點以外，每個結點只有一個字符。

3. 每個結點包含的子節點不相同。例如，root的子節點本來有兩個b，但我們只保留一個

4. 在每個敏感詞的末尾結點做一個標記，表示從根節點到此節點組合成的字符串是一個敏感詞，中間未被標記的結點和根節點中間的字符串不構成一個敏感詞。

SpringBoot使用前綴樹過濾敏感詞的方法是什么

前綴樹的算法邏輯：

1. 準備：我們需要三個指針，①指針指向前綴樹，默認指向根節點； ②、③指針指向要檢測的字符串(同向尺距法，②從頭到尾走一遍，標記敏感詞的開頭，③隨著②而動，標記敏感詞的結尾)，默認指向字符串的第一個字符。我們還需要一個存放檢測結果的字符串(StringBuilder)。

2. ①訪問樹的第一層，發現沒有'x'，則②、③向下走一步，并將'x'存入StringBuilder字符串里。'w' 同理。

SpringBoot使用前綴樹過濾敏感詞的方法是什么

3. 此時②、③指向'a'，①訪問樹的第一層，發現有'a'，但'a'未被標記，所以不是敏感詞，則把'a'存入StringBuilder字符串。然后②不動，①、③繼續向下走，直至走到被標記的結點或者不匹配時，①歸位，②向下走一步，③回到此時②指向的地方。重復以上步驟。

4. 若檢測到敏感詞，則在StringBuilder中存儲"***"，并使②跳過此敏感詞，②、③共同指向原來③的下一個位置。

SpringBoot使用前綴樹過濾敏感詞的方法是什么

5. ②、③走到字符串的末尾時，檢測完成。最終結果為"xwa******ff"。

二、敏感詞過濾器

我們再開發項目時，需要開發出一個可復用的過濾敏感詞的工具，成為敏感詞過濾器，以便在項目中可以復用。

開發敏感詞過濾器主要有以下三個步驟：

1. 定義前綴樹

2. 根據敏感詞，初始化前綴樹

3. 編寫過濾敏感詞的方法

代碼實現如下：

import org.apache.commons.lang3.CharUtils;
import org.apache.commons.lang3.StringUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.stereotype.Component;
 
import javax.annotation.PostConstruct;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Map;
 
@Component
public class SensitiveFilter {
 
    // 記錄日志
    private static final Logger logger = LoggerFactory.getLogger(SensitiveFilter.class);
 
    // 替換符
    private static final String REPLACEMENT = "***";
 
    // 初始化根節點
    private TrieNode rootNode = new TrieNode();
 
    /**
     * 2. 根據敏感詞，初始化前綴樹
     */
    @PostConstruct// 當容器在服務器啟動時實例化此Bean，調用Bean的構造方法后，該方法就會被自動調用
    public void init() {
        try (
                // 加載敏感詞文件 sensitive-words.txt是自建的存放敏感詞的文件
                InputStream is = this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt");
                // 字節流 -->  字符流 --> 字符緩沖流
                BufferedReader reader = new BufferedReader(new InputStreamReader(is));
        ) {
            String keyword;
            while((keyword = reader.readLine()) != null){
                // 添加到前綴樹，addKeyword為自定義的方法，將一個敏感詞添加到前綴樹中去
                this.addKeyword(keyword);
            }
 
        } catch (IOException e) {
            logger.error("加載敏感詞文件失敗:" + e.getMessage());
        }
 
    }
 
    // 封裝方法：將一個敏感詞添加到前綴樹中去
    private void addKeyword(String keyword){
        TrieNode tempNode = rootNode;
        for (int i = 0; i < keyword.length(); i++) {
            char c = keyword.charAt(i);
            TrieNode subNode = tempNode.getSubNode(c);
 
            if(subNode == null){
                // 如果子節點中沒有該字符，則以此字符初始化子節點，并裝配到樹中
                subNode = new TrieNode();
                tempNode.addSubNode(c,subNode);
            }
 
            // 指向字節點，進入下一層循環
            tempNode = subNode;
 
            // 設置結束標識
            if(i == keyword.length() -1){
                tempNode.setKeywordEnd(true);
            }
        }
    }
 
    /**
     * 3. 檢索并過濾敏感詞
     * @param text 待過濾的文本
     * @return 過濾后的文本
     */
    public String filter(String text){
        if(StringUtils.isBlank(text)){
            return null;
        }
 
        // 指針①
        TrieNode tempNode = rootNode;
        // 指針②
        int begin = 0;
        // 指針③
        int position = 0;
        // 存放結果
        StringBuilder sb = new StringBuilder();
 
        while(position < text.length()){
            char c = text.charAt(position);
 
            // 跳過符號
            if(isSymbol(c)){
                // 若指針①處于根節點，將此符號計入結果，讓指針②向下走一步
                if(tempNode == rootNode){
                    sb.append(c);
                    begin++;
                }
                // 無論符號在未檢測時出現還是正在檢測時出現，指針③總是向下走一步
                // （未檢測時和指針②一起向下走一步，檢測時指針②不動，指針③向下走一步）
                position++;
                continue;
            }
 
            // 檢查下級節點
            tempNode = tempNode.getSubNode(c);
            if(tempNode == null){
                // 以begin開頭的字符串不是敏感詞
                sb.append(text.charAt(begin));
                // 進入下一個位置
                begin++;
                position = begin;
                // 指針①歸位，重新指向根節點
                tempNode = rootNode;
            }else if (tempNode.isKeywordEnd()){
                // 發現敏感詞，將begin~position字符串替換掉
                sb.append(REPLACEMENT);
                // 進入下一個位置
                position++;
                begin = position;
                // 指針①歸位，重新指向跟接待你
                tempNode = rootNode;
            }else {
                // 檢查下一個字符
                position++;
            }
        }
        // 將最后一批字符計入結果：指針③比指針②先到中終點，且兩者之間的字符串不是敏感詞
        sb.append(text.substring(begin));
 
        return sb.toString();
    }
 
    // 封裝方法：判斷是否為特殊符號
    private boolean isSymbol(Character c){
        // 0x2E80~0x9FFF 是東亞文字范圍，不予當作特殊符號看待
        return !CharUtils.isAsciiAlphanumeric(c) && (c < 0x2E80 || c > 0x9FFF);
    }
 
    /**
     * 1. 定義前綴樹
     */
    private class TrieNode {
 
        // 敏感詞（關鍵詞）結束標識
        private boolean isKeywordEnd = false;
 
        // 子節點（key是下級字符，value是下級節點）
        private Map<Character, TrieNode> subNodes = new HashMap<>();
 
        public boolean isKeywordEnd() {
            return isKeywordEnd;
        }
 
        public void setKeywordEnd(boolean keywordEnd) {
            isKeywordEnd = keywordEnd;
        }
 
        // 添加子節點
        public void addSubNode(Character c, TrieNode node) {
            subNodes.put(c, node);
        }
 
        // 獲取子節點
        public TrieNode getSubNode(Character c) {
            return subNodes.get(c);
        }
    }
 
}

springboot是什么

springboot一種全新的編程規范，其設計目的是用來簡化新Spring應用的初始搭建以及開發過程，SpringBoot也是一個服務于框架的框架，服務范圍是簡化配置文件。

關于SpringBoot使用前綴樹過濾敏感詞的方法是什么就分享到這里啦，希望上述內容能夠讓大家有所提升。如果想要學習更多知識，請大家多多留意小編的更新。謝謝大家關注一下億速云網站！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

SpringBoot使用前綴樹過濾敏感詞的方法是什么

一、前綴樹

二、敏感詞過濾器

springboot是什么

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

SpringBoot使用前綴樹過濾敏感詞的方法是什么

一、前綴樹

二、敏感詞過濾器

springboot是什么

猜你喜歡

最新資訊

相關推薦

相關標簽