• Trie树(字典树)C++详解


    字典树的定义

    字典树是一个用来快速查找和存储字符串集合的数据结构。

    字典树的形状

    假设我们字典树里有以下5个单词:
    akio,akno,cspj,csps,trie
    那么字典树长这样:
    trie树trie 的结构非常好懂,我们用(u,c) 表示结点 u 的 c 字符指向的下一个结点,或着说是结点 u 代表的字符串后面添加一个字符 c 形成的字符串的结点。(c 的取值范围和字符集大小有关,不一定是 26。)
    既然字典树支持高效查找和存储,让我们看看怎么查找和存储。

    查找操作

    我们把每一个单词最后结尾的字符记录一下(用cnt数组)。
    比如说我们查找一个字符串apio。
    我们首先沿着a边发现a在字典树里,但是b不在字典树里,所以字符串apio不在字典树里。
    再比如我们查找一个字符串akioi。
    我们沿着akio的路径发现akio都在字典树里,但是结尾是o而非i,所以字符串akioi不在字典树里。

    具体操作

    依次遍历字符串str的所有字符,如果父节点的所有子节点里没有字符str[i],证明str不在字典树里,如果在返回true,否则返回false。

    模板代码

    int son[N][26];//存储trie树里面每个节点的所有儿子
    int cnt[N];//以当前节点为子节点的单词个数。
    int idx;//当前用的哪一下标。
    //下标是0的点,既是根节点,又是空节点。

    int query(char str[]) {
    	int p = 0;
    	for(int i = 0; str[i]; i++) {
    		int u = str[i] - 'a';
    		if(!son[p][u]) return 0;
    		p = son[p][u];
    	}
    	return cnt[p];
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9

    存储操作

    我们先查找当前str是否在字典树里,如果是,计数++,如果不是,创建一条新路径以存储str。
    这个模板代码和查询非常像。

    模板代码

    int son[N][26];//存储trie树里面每个节点的所有儿子
    int cnt[N];//以当前节点为子节点的单词个数。
    int idx;//当前用的哪一下标。
    //下标是0的点,既是根节点,又是空节点

    int query(char str[]) {
    	int p = 0;
    	for(int i = 0; str[i]; i++) {
    		int u = str[i] - 'a';
    		if(!son[p][u]) return 0;
    		p = son[p][u];
    	}
    	return cnt[p];
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9

    例题A

    835. Trie字符串统计
    维护一个字符串集合,支持两种操作:
    I x 向集合中插入一个字符串 x;
    Q x 询问一个字符串在集合中出现了多少次。
    共有 N个操作,所有输入的字符串总长度不超过 105,字符串仅包含小写英文字母。
    输入格式
    第一行包含整数 N,表示操作数。接下来 N行,每行包含一个操作指令,指令为 I x 或 Q x 中的一种。
    输出格式
    对于每个询问指令 Q x,都要输出一个整数作为结果,表示 x
    在集合中出现的次数。
    每个结果占一行。
    数据范围
    1 ≤ N ≤ 2 ∗ 1 0 4 1≤N≤2∗10^4 1N2104
    输入样例:
    5
    I abc
    Q abc
    Q ab
    I ab
    Q ab
    输出样例:
    1
    0
    1
    利用上面的模板,秒了这题
    AC代码:

    #include 
    using namespace std;
    const int N = 1e5 + 10;
    int son[N][26];//存储trie树里面每个节点的所有儿子
    int cnt[N];//以当前节点为子节点的单词个数。
    int idx;//当前用的哪一下标。
    //下标是0的点,既是根节点,又是空节点。
    char str[N];
    void insert(char str[]) {
    	int p = 0;
    	int len = strlen(str);
    	for(int i = 0; i < len; i++) {
    		int u = str[i] - 'a';
    		if(!son[p][u]) son[p][u] = ++idx;
    		p = son[p][u];
    	}
    	cnt[p]++;
    }
    int query(char str[]) {
    	int p = 0;
    	int len = strlen(str);
    	for(int i = 0; i < len; i++) {
    		int u = str[i] - 'a';
    		if(!son[p][u]) return 0;
    		p = son[p][u];
    	}
    	return cnt[p];
    }
    int main() {
    	int n;
    	scanf("%d", &n);
    	while(n--) {
    		char op[2];
    		scanf("%s%s", op, str);
    		if(op[0] == 'I') insert(str);
    		else printf("%d\n", query(str));
    	}
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38

    例题B:

    143. 最大异或对
    在给定的 N个整数 A1,A2……AN中选出两个进行 xor(异或)运算,得到的结果最大是多少?
    输入格式
    第一行输入一个整数 N。
    第二行输入 N 个整数 A1~AN。
    输出格式
    输出一个整数表示答案。
    数据范围
    1 ≤ N ≤ 1 0 5 1≤N≤10^5 1N105, 0 ≤ A i < 2 31 0≤Ai<2^{31} 0Ai<231
    输入样例:
    3
    1 2 3
    输出样例:
    3
    将a[i]变成01序列(2进制),正常建树。
    AC代码如下:

    #include 
    using namespace std;
    const int N = 100010, M = 3100010;
    int n;
    int a[N], son[M][2], idx;
    void insert(int x) {
    	int p = 0;
    	for (int i = 30; i >= 0; i--) {
    		int &s = son[p][x >> i & 1];
    		if (!s) s = ++idx;
    		p = s;
    	}
    }
    int search(int x) {
    	int p = 0, res = 0;
    	for (int i = 30; i >= 0; i--) {
    		int s = x >> i & 1;
    		if (son[p][!s]) {
    			res += 1 << i;
    			p = son[p][!s];
    		} else p = son[p][s];
    	}
    	return res;
    }
    int main() {
    	scanf("%d", &n);
    	for (int i = 0; i < n; i++) {
    		scanf("%d", &a[i]);
    		insert(a[i]);
    	}
    	int res = 0;
    	for (int i = 0; i < n; i++) res = max(res, search(a[i]));
    	printf("%d\n", res);
    	return 0;
    }
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36

    总结

    trie树是一种字符串类的数据结构,一般字符串在题目中都限制严格(字母,01序列等)。时间复杂度 O ( ∣ S ∣ ) O(|S|) O(S).

  • 相关阅读:
    【Spring进阶系列丨第二篇】Spring中的两大核心技术IoC(控制反转)与DI(依赖注入)
    C语言——typedef、enum、typedef enum
    拿捏了,阿里2022最新JDK源码深度解析小册,Github全站热榜第二
    EViT:借鉴鹰眼视觉结构,南开大学等提出ViT新骨干架构,在多个任务上涨点
    R语言ggplot2可视化:使用ggpubr包的ggboxplot函数可视化箱图、width参数自定义箱图中箱体的宽度
    SpringBoot集成Thymeleaf——关闭页面缓存——设置热部署
    (十九)Spring中的八大模式
    《数据结构》(三)线性表之单链表的表示及实现
    CloudCompare&PCL 匹配点中值(或标准差)距离抑制
    MySQL表单的修改与删除
  • 原文地址:https://blog.csdn.net/m0_54615144/article/details/133579977