LCS详解

作者: KEEPINUP | 来源:发表于2018-12-12 00:25 被阅读0次

LCS是什么

LCS是Longest Common Subsequence的缩写,即最长公共子序列。一个序列,如果是两个或者多个序列的子序列,并且是所有子序列中最长的,则为最长公共子序列。(有序但不连续也为子序列)

  • 序列 13456 和 345674 的最长公共子序列为 3456
  • 序列 ABDBC 和 BCDBA 的最长公共子序列为 BDB

LCS可以用来做什么

  • 生物学上用来进行基因序列比对,以推测序列的结构、功能和演化过程
  • 用来描述两段文字的”相似性“,可以用来辨别是不是抄袭

怎么计算LCS

  • 暴力穷举法

    就是把两个序列所有的子序列都列出来,然后一一进行比较。

    假定字符串 A 和 B 的长度分别为 n 和 m,那么 A 共有 2^n-1 个子序列,B 共有 2^m-1 个子序列,然后将任意两个进行一一比较,最后得出 A 和 B 的最长公共子序列。这种算法的时间复杂度是 O(2^{n+m}) ,复杂度太高,当然不推荐使用。

  • 动态规划法

    记:

    字符串 A ,长度为 n ,从 1 开始;字符串 A ,长度为 n ,从 1 开始。

    A_i=<A_1,A_2,...Ai> 即 A 序列的前 i 个字符 (1\leq i \leq n) (A_i 计做”字符串 A 的 i 前缀)

    B_j=<B_1,B_2,...Bj> 即 B 序列的前 j 个字符 (1\leq j \leq m) (B_j 计做”字符串 B 的 j 前缀)

    如果 A_n=B_m (最后一个字符相同),那么 A 和 B 的最长公共子序列 C 的最后一位 C_k=A_n=B_m ,那么 LCS(A,B)=LCS(A_n-1,B_m-1)+A_n

    如果 A_n\not=B_m ,那么他们的最长公共子序列 C 要么是 LCS(A_{n-1},B_m) ,要么是 LCS(A_n,B_{m-1}) ,所以 LCS(A,B)=max\{LCS(A_{n-1},B_m),LCS(A_n,B_{m-1})\}

    1 2 3 4 5 6 7
    A B D C A B A
    B A B C B D A B

    A_3=B_3= 'C' 那么 LCS(BDC,ABC)=LCS(BD,AB)+'C'

    A_5=B_4='B' 那么 LCS(BDCAB,ABCB)=LCS(BDCA,ABC)+'B'

    A_2\not=B_2 那么 LCS(BD,AB)=max\{LCS(B,AB),LCS(BD,A)\}

    A_4\not=B_5 那么 LCS(BDCA,ABCBD)=max\{LCS(BDC,ABCBD),LCS(BDCA,ABCB)\}

    由以上可以得出

LCS(A_n,B_m)=\begin{cases}LCS(A_{n-1},B_{m-1}+A_n) \quad \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \quad A_n=B_m\\ max\{LCS(A_{n-1},B_m),LCS(A_n,B_{m-1})\} \quad A_n\not=B_m\end{cases}

使用动态规划法求解

首先上一幅图

0_1313577405FsRn.gif

记一个二维数组 c[m,n]c[i,j] 的值为 x_iy_j 的最长公共子序列的长度,然后不难得出当 i=0j=0 的时候 X_iY_j 的最长公共子序列的长度。然后通过动态规划法的公式得出
c(i,j)=\begin{cases}0 \quad \quad \quad \quad i=0,j=0 \\ c(i-1,j-1) \quad \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \quad i>0,j>0,x_i=y_j\\ max\{c(i-1,j),c(i,j-1))\} \quad i>0,j>0,x_i\not=y_j\end{cases}
然后我们通过公式计算 c(1,1) ,因为 x_1y_1 不相等,得出 c(1,1)=max \{ c(0,1),c(1,0) \}=0 。然后依次计算,就会得到图中的值,然后得出 xy 的最长公共子序列的长度为4。我们在计算的时候会发现一个规律:当 x_i=y_j 的时候 c(i,j) 的值为左上角格子的数加1;当 x_i\not=y_j 的时候 c(i,j) 的值为左侧格子和上边格子中的较大的一个。

代码实现

import sys

str1 = sys.argv[1]
str2 = sys.argv[2]

len1 = len(str1)
len2 = len(str2)

maxChildLen = 0

lcs_ss = [[0 for i in range(len2 + 1)] for j in range(len1 + 1)]

for i in range(1, len1 + 1):
    for j in range(1, len2 + 1):
        if str1[i-1] == str2[j-1]:
            lcs_ss[i][j] = lcs_ss[i-1][j-1] + 1
        else:
            lcs_ss[i][j] = max(lcs_ss[i-1][j], lcs_ss[i][j-1])

maxChildLen = lcs_ss[len1][len2]

print("str1: %s" % str1)
print("str2: %s" % str2)
print("LCS: %s" % maxChildLen)

随便输入两个字符串,然后观察打印结果

str1: acedbae
str2: becadeac
LCS: 3

Process finished with exit code 0

若有任何问题,恳请不吝指正。


欢迎关注公众号:「努力给自己看」

二维码

相关文章

网友评论

    本文标题:LCS详解

    本文链接:https://www.haomeiwen.com/subject/twgyhqtx.html