• 一种词库的比对、保存方式


    一种词库的比对、保存方式

    词库以树状链表存储,示意图如下:

    对于词库:{A,AB,ABC,ADE}可以按以下方式存储

    注:每个链表在末尾添加\0表示结束

    1 数组形式存储的空间复杂度为O(N^2)   即O(N*M) -N为敏感词长度,M是敏感词个数

    2 而用这个树状链表 空间复杂度为 O( N)  即O( K*N) -k为字符种类数为常数,N敏感词长度。

    在检索时:

    1 数组形式检索 时间复杂度为 O(N^3);

    这时用三重循环

    1. 第一重 是遍历文章,
    2. 第二重 是从第i个字出发,与之后j个字组成词。
    3. 第三重 是将词与敏感词比对。

    2 将文章和树状链表的关键词比对,时间复杂度为 O(f(N^2))

    详细为O(f(K*N*M)) K为常数,是单个字符的种类数;N是文章的字数,M是关键词的长度

    算法采用两重循环:

    1. 第一重 是遍历文章
    2. 第二重 是同时从文章第i位开始和 和树状链表的中 同时提取出j长度的词来对比。

    具体代码如下:

    树状链表如下:

    1. public class WordNode
    2. {
    3. public char word;
    4. public List children;
    5. }

    比对方法如下:

    1. ///
    2. /// 查找敏感词
    3. ///
    4. /// 要处理的文章
    5. /// 处理后的文章
    6. public string HandleTxt(string txt)
    7. {
    8. _txt_Compare = txt;
    9. for (int i = 0; i < txt.Length; i++)
    10. {
    11. int len = IsMacthTree2(i, _wordTree);
    12. if (len > 0)
    13. {
    14. // 对i开始,长度len的敏感词处理。
    15. }
    16. }
    17. return txt;
    18. }
    19. ///
    20. /// 树状结构的敏感词库
    21. ///
    22. private List _wordTree
    23. {
    24. get; set;
    25. }
    26. // 用于递归比较方法中的 记录文章变量。用索引分割,避免递归中截取大量字符变量
    27. private string _txt_Compare;
    28. ///
    29. /// 检测文本中是否存在敏感词
    30. ///
    31. /// 从文章的txtStart位开始匹配
    32. /// 敏感词库
    33. /// 敏感词长度
    34. private int IsMacthTree(int txtStart, List tree)
    35. {
    36. // txtStart 已经位于文章结束位置。即文章已经检查完。
    37. if (txtStart > _txt_Compare.Length - 1)
    38. return 0;
    39. // 在最大K常量的数组中查找
    40. int idx = tree.FindIndex(t => t.word == _txt_Compare[txtStart]);
    41. // 字不匹配,也就是:abe abc 这种情况
    42. if (idx == -1)
    43. {
    44. return 0;// 这轮递归,没有匹配
    45. }
    46. // 如果有\0 即敏感词比对结束
    47. if (tree[idx].children[0] == Thesaurus.EndSign)
    48. {
    49. return 1; // 这轮递归,匹配了一个字
    50. }
    51. // 文字或关键字未结束,也就是:ab* ab* 这种情况,继续递归
    52. int templen = IsMacthTree2(txtStart + 1, tree[idx].children);
    53. // 有一个不匹配 就固定为0
    54. if (templen == 0)
    55. {
    56. return 0; //匹配失败
    57. }
    58. else
    59. {
    60. return 1 + templen; // 递归匹配成功,然后加上本轮匹配的一个字再返回。
    61. }
    62. }

  • 相关阅读:
    【云原生 | Docker 高级篇】03、搭建 Redis 3主3从集群
    详解​互联网中CI和CD
    基于微信小程序的高校毕业论文管理系统#毕业设计
    【Selenium】Python & Selenium 执行 CDP
    【面试】——Java面试重难点剖析
    Rust之包,箱和模块管理(三):引用模块树中项目的路径
    Python每日一练(牛客新题库)——第26天:面向对象
    css3 3d动画
    自动驾驶 知识点 Review 2D 感知算法 三(Anchor-Free CenterNet,CornerNet,FCOS)
    Linux中实现数据库定时备份 案例
  • 原文地址:https://blog.csdn.net/tiankong1213/article/details/124464627