如何简单理解字符串匹配算法?

这篇文章来说说如何简单理解KMP,BM算法。之前看过一些文章说,KMP算法很难理解。 可我并不觉得。 我反而觉得它容易理解。

平时我们写java代码的时候, 判断一个字符串是否存在包含另一个字符串都是直接 string.contains(str), 可你知道它是实现的么? 不妨亲自去看看它是如何实现的?


看此文章之前,严重建议先去看看阮一峰老师写的的KMP算法文章。如果那篇文章都可以完全理解了,那么就没必要看这篇文章浪费时间了。


字符串匹配在平时开发中还是很常用的,只不过我们一般都是调用jdk提供的方法直接使用。

下面以这个为例子,来描述KMP算法原理。

在字符串"BBCABCDABABCDABCDABDE",判断里面是否包含另一个字符串"ABCDABD"?

在字符串匹配算法中,我们除了可以逐一匹配之外,别无它法。包括KMP,BM算法也是逐一匹配的,只不过是KMP,BM算法用了很多讨巧的方式提高了匹配效率。

首先先来看看暴力匹配,暴力匹配就是逐一匹配,当匹配失败后,子串往后移动一个字符。

主串中的“B”,与子串中的“A”不匹配,子串往后移动一个字符

然后继续往后匹配。匹配失败就往后一个字符。

当子串中的前6个字符匹配上了,但最后一个字符匹配失败,子串又只能往后移动一个字符,有点可惜。


一直到主串中的“ABCDABD”与子串完全匹配,那么就匹配成功。

这种暴力匹配的效率太低了,因为不管你前面匹配成功时,到后面字符一旦匹配失败时,那么前面匹配的成功的,又得重新匹配一遍。


下面我们来假设一种情况(当然这种假设情况是错误的),只要匹配失败,那么移动我们匹配上的字符数量,看看会发现什么情况?

举例:子串“ABCDABD”,当匹配到“ABCD”完成时,匹配“A”失败,那么后面移动4个字符。

匹配失败,移动一个字符
子串匹配到后一个“D”时,匹配失败,移动6个字符

根据前面的假设,字符所有的字符都匹配过了,那么就可以移动6个字符。

根据上图移动6个字符之后的效果

匹配失败,移动一个字符。

当子串匹配到后一个“D”时,又匹配失败,往后移动6个字符。

最后错过想要匹配的字符串。


这种假设,有个很明显的问题,就是尺度大了。错过了我们想要匹配的字符串。

其实我们思路已经对了一半了,这时应该反思错在哪了?

以这种情况为例, 按照假设就是直接移动6个字符。但是子串前缀“AB”是在后面有出现的。

正确的话,是应该移动到后面的AB那里,继续开始匹配。

根据上图匹配失败之后,正确的移动字符数


是的。KMP算法就是可以按照这种思路理解的。一般情况下,当已经匹配过子串中,前面的子串中的字符串在后续没有出现,那么就可以移动所有匹配过的字符串。

如果前面的子串中的字符串在后续中有出现,那么移动到字符出现到后续出现那里。

再举个例子。

ABCDABDCA 这个子串中,当匹配到第2个“A”失败时,子串前面匹配过的“ABCD”的前缀和前中缀,都不会在中后缀,后缀中出现,那么就可以直接移动4个字符。

ABCDABDCA 这个子串中,当匹配到第2个“D”失败时,子串前面匹配过的“ABCDAB”的前缀,“AB”是后缀中出现了,那么就只能移到“AB”那里了,即 6 - 2 = 4,移动4个字符。

简单理解就是: 先把匹配过的字符直接移动过去,看看会不会错过什么。 如果不会,那么就确认移动。 如果会,那么回退到目标位置。

根据KMP算法的部分匹配值,可以计算出目标位置的值。

由于阮一峰老师关于部分匹配值和KMP算法总结太棒了,所以有关部分匹配值的概念,怎么计算,就参考阮一峰老师文章吧。



最后来说说,java里面, String.contains方法实现。

java中的String.contains也是使用暴力匹配的方式,没有使用KMP,BM之类的算法。

至于为什么,这个就发散一下,留给自己思考吧。

最后的最后,既然提到了KMP算法,另一个也很常用,且一般情况下效率更高的BM算法,就留给你自己看吧,兴许下一篇文章就是说说BM算法。


以上, good night.


参考文章: 字符串匹配的KMP算法 - 阮一峰的网络日志

发布于 2019-03-24

文章被以下专栏收录