码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 36.AC自动机:如何用多模式串匹配实现敏感词过滤功能


    文章目录

    • 1. 基于单模式串和Trie树实现的敏感词过滤
    • 2. 经典的多模式串匹配算法:AC自动机
      • 2.1 AC节点代码表示
      • 2.2 如何构建失败指针
      • 2. 3 如何在AC自动机上匹配主串?

    多模式串匹配算法: 那如何才能实现一个高性能的敏感词过滤系统呢?

    1. 基于单模式串和Trie树实现的敏感词过滤

    • 单模式串匹配算法: BF算法、RK算法、BM算法、KMP算法
    • 多模式串匹配算法: Trie树

    2. 经典的多模式串匹配算法:AC自动机

    2.1 AC节点代码表示

    AC自动机实际上就是在Trie树之上,加了类似KMP的next数组,只不过此处的next数组是构建在树上罢了。

    代码表示:

    public class AcNode {
      public char data; 
      public AcNode[] children = new AcNode[26]; // 字符集只包含a~z这26个字符
      public boolean isEndingChar = false; // 结尾字符为true
      public int length = -1; // 当isEndingChar=true时,记录模式串长度
      public AcNode fail; // 失败指针
      public AcNode(char data) {
        this.data = data;
      }
    }
    

    2.2 如何构建失败指针

    • 最长可匹配后缀子串和可匹配后缀子串
      在这里插入图片描述
    • 已经求得某个节点p的失败指针之后,如何寻找它的子节点的失败指针呢?

    root的fail指针为NULL,即它自己。
    在这里插入图片描述
    在这里插入图片描述

    • 代码
    public void buildFailurePointer() {
        Queue<AcNode> queue = new LinkedList<>();
        root.fail = null;
        queue.add(root);
        while (!queue.isEmpty()) {
          AcNode p = queue.remove();
          for (int i = 0; i < 26; ++i) {
            AcNode pc = p.children[i];
            if (pc == null) {
              continue;
            }
            if (p == root) {
              pc.fail = root;
            } else {
              AcNode q = p.fail;
              while (q != null) {
                AcNode qc = q.children[pc.data - 'a'];
                if (qc != null) {
                  pc.fail = qc;
                  break;
                }
                q = q.fail;
              }
              if (q == null) {
                pc.fail = root;
              }
            }
            queue.add(pc);
          }
        }
      }
    
    • 刚才例子的计算结果
      在这里插入图片描述

    2. 3 如何在AC自动机上匹配主串?

    public void match(char[] text) { // text是主串
      int n = text.length;
      AcNode p = root;
      for (int i = 0; i < n; ++i) {
        int idx = text[i] - 'a';
        while (p.children[idx] == null && p != root) {
          p = p.fail; // 失败指针发挥作用的地方
        }
        p = p.children[idx];
        if (p == null) p = root; // 如果没有匹配的,从root开始重新匹配
        AcNode tmp = p;
        while (tmp != root) { // 打印出可以匹配的模式串
          if (tmp.isEndingChar == true) {
            int pos = i-tmp.length+1;
            System.out.println("匹配起始下标" + pos + "; 长度" + tmp.length);
          }
          tmp = tmp.fail;
        }
      }
    }
    
  • 相关阅读:
    欧冶云商将于11月4日上会:上半年营收566亿元,毛利率整体较低
    【Spark】用udf和withColumn在dafaframe中创建新列
    Python网络编程(socket)
    插入排序—直接插入排序和希尔排序
    【Mysql 错误定位】错误的查询结果
    淘宝/天猫获得淘宝店铺详情 API
    【linux】环境基础开发工具使用
    小家具工厂是如何实现成本降低,收益提高的呢
    数字孪生轨道交通:“智慧化”监控疏通城市运行痛点
    Java线程池的任务消息队列
  • 原文地址:https://blog.csdn.net/qq_39530821/article/details/127117549
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号