KMP算法是一种字符串匹配算法,解决从文本串为"ABABDABACDABABCABAB"中查询模式串为"ABABCABAB"位置的一种算法。它是暴力循环匹配(从文本串的第一个字符开始,对模式串进行循环匹配,如果不匹配,文本串下移一个字符,继续跟模式串匹配)的一种优化。
原理:
设置文本串为 ababadeabc,模式串为ababaca,从第一个字符进行匹配:
- ababadeabcababaca
- ababaca
-
- 模式串匹配到ababa下一个字符就无法匹配了:
- ababa->d
- ababa->c
如果从文本串的第二个字符继续匹配,那么就浪费了已经匹配获得的信息,根据第一步匹配的信息,文本串中的ababa已经和模式串的ababa一致,模式串中的ababa已包含一个关键的跳跃查询信息:
- 文本串:ababa
- 模式串:ababa
-
- 模式串直接跳跃至:
- 文本串:ababa
- 模式串: ababa
根据跳跃信息,则可直接实现有限范围内的最长匹配,因为根据已有信息是不知道文本串ababa后面是什么,但是知道这么跳跃后可以直接匹配aba三个字符,节省匹配时间。
这个跳跃信息的依据跟文本串无直接关系,跟模式串的公共最长前后缀信息有关:ababaca,长度是7,子串分别是a,ab,aba,abab,ababa,ababac,ababaca,它们的公共最长前后缀分别是0,0,a,ab,aba,0,a。注意上例中已匹配成功的ababa的公共最长前后缀就是aba,就是跳跃后可以直接匹配aba三个字符。
- 最长公共前后缀是指一个字符串的最长的前缀和后缀,它们是相同的。注意这里的前缀和后缀不能包括整个字符串。
-
- 例如,对于字符串"ABAB":
-
- - 它的前缀有:"A", "AB", "ABA", "ABAB"
- - 它的后缀有:"B", "AB", "BAB", "ABAB"
-
- 在这些前缀和后缀中,"AB"是最长的公共前后缀。
以上就是KMP的思想原理,求字符串的各个子串公共最长前后缀长度代码如下:
- public int[] computePrefixFunction(String pattern) {
- int[] prefixFunction = new int[pattern.length()];
- int j = 0;
- for (int i = 1; i < pattern.length(); i++) {
- //如果下一个字符不属于公共前后缀,就需要从上一个公共前后缀的公共前后缀开始找
- while (j > 0 && pattern.charAt(j) != pattern.charAt(i)) {
- j = prefixFunction[j - 1];
- }
- //如果下一个字符属于公共前后缀,就继续往后找
- if (pattern.charAt(j) == pattern.charAt(i)) {
- j++;
- }
- prefixFunction[i] = j;
- }
- return prefixFunction;
- }
-
- 例如:模式串ababaca中
- i = 4时 ababa 最长公共前后缀 j =3
- i = 5时 ababac j=4时字符串为b i=5字符串为c,最长公共前后缀不能延长了,需要回退计算:
- abab
- abac
- 上一个最长公共前后缀是aba,由上观察可知最佳匹配开始路径就是aba的最长公共前后缀a
- 匹配
- ab
- ac
- 结果是不匹配,j=0,继续循环
KMP核心算法实现逻辑如下:
设匹配到文本串的m索引处失败,此时:文本串索引m,模式串索引k=5
- m
- ababadeabcababaca
- ababaca
- k = 5
根据以上展示的跳跃信息进行跳跃,文本串索引不变,模式串中匹配值ababa,模式串索引=公共最长前后缀长度=3,比较m处('d')和k处('b')字符,发现不匹配,如果匹配则m=m+1,k=k+1,继续进行匹配。
- m
- ababadeabcababaca
- ababaca
- k = 3
继续下一次匹配和跳跃,文本串索引不变,模式串中匹配值aba,模式串索引=公共最长前后缀长度=1,比较m处('d')和k处('b')字符,发现不匹配。
- m
- ababadeabcababaca
- ababaca
- k = 1
继续下一次匹配跳跃,文本串索引不变,模式串中匹配值1,模式串索引=公共最长前后缀长度=0,比较m处('d')和k处('a')字符,发现不匹配。
- m
- ababadeabcababaca
- ababaca
- k = 0
继续下一次匹配,只要k==0,文本串索引就+1继续匹配:
- m = m + 1
- ababadeabcababaca
- ababaca
- k = 0
后续循环以上逻辑即可求得结果,代码如下:
- public int KMP(String text, String pattern) {
- int[] prefixFunction = computePrefixFunction(pattern);
- int j = 0;
- for (int i = 0; i < text.length(); i++) {
- while (j > 0 && pattern.charAt(j) != text.charAt(i)) {
- j = prefixFunction[j - 1];
- }
- if (pattern.charAt(j) == text.charAt(i)) {
- j++;
- }
- if (j == pattern.length()) {
- return i - j + 1; // 返回匹配的起始位置
- }
- }
- return -1; // 如果没有找到匹配,返回-1
- }