模式匹配中的一些小技巧以及一些杂乱的东西

模式匹配中的一些小技巧以及一些杂乱的东西

关于模式匹配问题,有一些比较杂的内容我不太清楚应该归类到哪里,其中有一部分一般可能无法派上用场,但是有一些也十分重要,因此全放到了这里。

  1. 如果模式序列中所有元素都不相同,那么在使用暴力模式匹配方法 (Brute Force Pattern Search) 时可以做一点微小的优化,如果我们在i处发现长序列与模式序列的第一个元素一样,这时我们会开始逐个元素匹配,如果在模式序列的第j处发现一个不匹配的字符,那么我们可以直接从i + j + 1处开始继续从模式序列的第一个元素开始尝试匹配,而不用再从i  + 1处开始,这得益于模式序列中所有元素都不相同。【从感觉的角度上想,这其实也略微有一些KMP (KMP (Knuth Morris Pratt) Pattern Searching) 的思想】
  2. 如果长序列长度n等于模式序列长度m,那么我们可以不使用任何复杂的模式匹配算法,直接遍历尝试匹配,复杂度O(n)。
  3. 显然,如果长序列的长度n小于模式序列的长度m,必然无法完成匹配,如果在输入数据不保证n大于等于m的时候,我们应当进行额外的检查。

Brute Force Pattern Search

Brute Force Pattern Search

模式匹配 (Pattern Searching)

暴力模式匹配,也可以叫做简单模式匹配。它的逻辑十分简单,代码容易实现。给出一个长序列和一个模式序列(常是字符串,或者一串数),要在长序列中找到模式序列的出现位置、出现次数等。最直接能想到的方法就是这种,对于长度为n的长序列、长度为m的模式序列,只要写两层循环,暴力尝试m*n种匹配方式,即O(mn)复杂度,就可以找到。缺点是十分耗时。

#include <iostream>
#include <string>

using namespace std;
void search(const string &pat, const string &txt) {
    int pat_len = pat.size();
    int txt_len = txt.size();
    for (ULL i = 0; i <= txt_len - pat_len; i++) {
        if (pat[0] == txt[i]) {
            int j;
            for (j = 1; j < pat_len; j++) {
                if (pat[j] != txt[i + j]) break;
            }
            if (j == pat_len) {
                /*
                 *  found the pattern string
                 *  do something here
                 */
            }
        }
    }
}

int main(void) {

    return 0;
}

相关阅读:

KMP (Knuth Morris Pratt) Pattern Searching:

KMP是一种常用的高效的匹配算法,它减少了暴力匹配方法中一些不必要的匹配,特别是对于模式序列中有着明显重复的模式(如:aaaaaaab),能够提升匹配效率。

Rabin-Karp Algorithm

Rabin-Karp Algorithm利用提前比较hash值来减少暴力匹配的次数,它优越的关键在于给出了由一个序列hash值求得下一个序列hash值的O(1)时间复杂度方法。

Rabin-Karp Algorithm

Rabin-Karp Algorithm

模式匹配 (Pattern Searching)

解决问题:

同样是解决字符串匹配问题的算法,即在一个长字符串中寻找模式字符串出现的位置。复杂度O(mn),m和n依次是模式串的长度和长字符串的长度,这样看起来似乎与暴力的方法(或者叫简单模式匹配方法)没有区别,但是在实际使用中,它常常被认为复杂度是O(m + n)的。

实现方法很简单,就是在暴力匹配的方法基础上加入hash值。

\(hash[c_1c_2…c_n] = c_1 * D^{n – 1} + c_2 * D^{n – 2} + … + c_n * D^1\)

其中D是字符表的大小,通俗来说,就是总共可能有多少种字符。

\(c_n\)表示一个字符,所以\(c_1…c_n\)就是一个字符串。

由于我们想要放到int中,我们会将其对Q取模,Q是一个任意素数。

由于模式串长度固定,我们刚开始在要寻找模式串的字符串中将开头前m个字符算出hash值,同时也算出模式串的hash值,接着首先比较hash值,如果一样再逐个字符比较一下, 如果不一样直接考虑下一段字符串。而这个算法优越性的核心就在于它找出了复杂度为O(1)的由上一段字符串算下一段字符串的公式:

\(hash(c_{s + 1}…c_{s + m + 1}) = (D * (hash(c_s…c{s + m}) – c_s*h) + c_{s + m + 1}) \% Q\)

其中,\(h = d^{m – 1} % Q\),可以使用快速模幂来求。

#include <iostream>
#include <string>

using namespace std;

const int D = 256;      /* D is the number of characters in the alphabet */
const int Q = 1e7 + 19;      /* a prime number */

string pat, txt;

int powMod(int x, int n) {
    int ret = 1;
    while (n) {
        if (n & 1) ret = ret * x % Q;
        x = x * x % Q;
        n >>= 1;
    }
    return ret;
}

void search() {
    int pat_len = pat.size();
    int txt_len = txt.size();
    int h = powMod(D, pat_len - 1);
    int p = 0, t = 0;
    for (int i = 0; i < pat_len; i++) {
        p = (p * D + pat[i]) % Q;
        t = (t * D + txt[i]) % Q;
    }
    for (int i = 0; i <= txt_len - pat_len; i++) {
        if (p == t) {
            int j;
            for (j = 0; j < pat_len; j++)
                if (pat[j] != txt[i + j]) break;
            if (j == pat_len) {
                /*
                 *  found the pattern string
                 *  do something here
                 */
            }
        }
        /* 算到最后一个后就不要再尝试算下一个hash了,否则会越界 */
        if (i < txt_len - pat_len)
            t = (D * (t - txt[i] * h) + txt[i + pat_len] + Q) % Q;      // 加Q防止负数
    }
}

int main(void) {

    return 0;
}

 

相关阅读:

Brute Force Pattern Search

图说Rabin-Karp字符串查找算法

 

可能会用到的:

10000019至10001659之内的大质数(素数)表

KMP (Knuth Morris Pratt) Pattern Searching

KMP (Knuth Morris Pratt) Pattern Searching

模式匹配 (Pattern Searching)

解决问题:

寻找一段长字符串中的模式字符串,问题通常为求模式字符串出现次数、第一次出现模式字符串的位置等。

这里讨论的是KMP方法,这个方法对传统的简单匹配方法进行了优化。为了方便理解KMP方法的优势,先大致说明一下简单匹配方法,简单的匹配方法具有\(O(m * n)\)的复杂度,它的策略是:遍历长字符串中的每一个字符,并尝试与模式字符串的第一个字符进行匹配,如果它们相同,则开始尝试将模式字符串剩下的部分与长字符串从这个字符处开始之后的部分依次匹配,遇到不匹配的字符便中止,重新回到外层循环,继续遍历长字符串中的每一个字符;而如果刚才内层循环的匹配操作可以持续到模式字符串末尾,则说明成功找到了一个匹配字符串。

简单匹配方法十分好理解,但是缺点也十分明显,如下这个例子,假设:

模式字符串为:aaaaaac

长字符串为:acaacaaaacaaaaaacaaaaaaaaac

在诸如此类模式字符串中有很多重复模式的时候,使用简单匹配方法常常会需要遍历多次模式字符串,而我们其实是可以事先根据模式字符串中的重复模式知道,重复这样的无意义匹配是无意义的,KMP算法便是消除这种无意义匹配的一种解决方案。

对于模式字符串:aabaaa,为了方便这里表示,将这五个字符依此用①②③④⑤⑥来表示。如果我们匹配成功了①,而匹配失败了②,我们接下来应该用①来尝试匹配;如果我们匹配成功了②,匹配失败了③,我们应该使用②来尝试匹配,因为对于子字符串aa,它的前缀a和后缀a是相同的,由于前一个字符位置上匹配成功了②,所以①也必然匹配前一个字符,所以直接使用②来尝试匹配当前字符;中间略过几种情况,假如我们已经匹配成功了④和⑤,当前字符匹配失败了⑥,那么我们接着应该直接用③来尝试和当前的字符匹配,原因是前缀①②与后缀④⑤相同。【前缀能不包括最后一个字符,同样地,后缀也不能包括第一个字符】

为了确定中间应当略过几个字符,使用KMP方法时,需要预先根据模式字符串建立一个数组,假设叫做kmp[],其中kmp[i]存储的是前i + 1个字符中,最长的前后缀相同子字符串的长度,对于上边的aabaaa,kmp[0]表示子字符串a,故kmp[0] = 0;kmp[1]表示的是子字符串aa,由于最长前缀a和后缀a相同,所以kmp[1] = 1;kmp[2]表示的是子字符串aab,前缀a、aa都无法与任何后缀b、ab相同,所以kmp[2] = 0;由此可接着得到kmp[3] = 1, kmp[4] = 2, kmp[5] = 2.

实现的时候,我们可以这样做:首先让kmp[0] = 0,之后给定一个变量k = 0,可以理解成当前第一个要匹配的字符,也就是除去当前长度下最长相同前后缀后的第一个字符在模式字符串数组中的位置,接下来我们从i = 1开始遍历模式字符串,对于每个字符,尝试将pat[k]与pat[i]匹配,如果成功匹配,就可以将k加1,并且将这个值放入到kmp[i]中;如果匹配失败,则将k尝试去上一次的值,也就是在比当前字符少一个字符时的最大相同前缀后的一个字符的位置,即kmp[k – 1]的值,如果仍然不匹配,则继续这样做,直到匹配或k到达0。当k到达0时,pat[0]即是第一个字符,如果它仍然不能和当前字符匹配,则说明kmp[i] = 0,反之则是只有这一个字符匹配成功,kmp[i] = 1。这样就可以建立好kmp数组。

再次说明一下:kmp[i]表示的是模式字符串前i + 1个字符中,最长的相同前后缀的长度,假设长度为L,由于模式字符串中的字符下标从0开始,所以刚好0~L – 1就是这个前缀,每次比较便可以从L处开始,即kmp[i]处开始。

用类似的办法来进行模式匹配,从k = 0、i = 0开始,匹配模式字符串pat[k]与长字符串txt[i],如果相同,就k++, i++后接着匹配,其间留意检查k是不是已经达到pat字符串的长度,是的话,要将它的值置为kmp[k – 1]。

还有一点注意点是:由于下面代码while循环中的一个条件是k < 0,所以即便结束了这个循环也无法保证一定是匹配成功,可能仅仅是因为k归0了,所以要再用if来判断是否匹配成功。

C++实现如下:

#include <iostream>

using namespace std;

const int LIM = 10;             /* The maximum length of pattern string */
int kmp[LIM];

void build(string &pat) {
    kmp[0] = 0;
    int k = 0;
    int len = pat.size();
    for (int i = 1; i < len; i++) {
        while (k > 0 && pat[k] != pat[i])
            k = kmp[k - 1];
        if (pat[k] == pat[i]) kmp[i] = ++k;
        else kmp[i] = 0;
    }
}

void kmpSearch(string &txt, string &pat) {
    build(pat);
    int k = 0;
    int len = txt.size();
    int pl = pat.size();
    for (int i = 0; i < len; i++) {
        while (k > 0 && pat[k] != txt[i])
            k = kmp[k - 1];
        if (pat[k] == txt[i]) k++;
        else k = 0;
        if (k == pl) {
            /*
             *  found the pattern string
             *  do something here
             */
            k = kmp[k - 1];
        }
    }
}

int main(void) {

    return 0;
}

如果模式字符串比LIM设定的大,需要修改LIM的值。

成功匹配到模式字符串后进行的操作,请放在/* do something here */注释后。

上边实现的关键:(1)kmp数组的下标表示长度为下标+1的子串,值是该子串的最大相同前后缀长度,因此匹配失败时k赋值kmp[k – 1]。(2)kmp数组中的值虽然是最大相同前后缀的长度,但也恰好是模式串中接下来需要尝试匹配的字符的序号(如果字符串的序号是从0开始的话)。(3)回到k = 0跳出循环后也要记得再做一次判断,决定是否要增加k。

 

相关阅读:

Brute Force Pattern Search

 

相关问题:

【HDU – 1711】Number Sequence【KMP】