As mais longas sub­sequên­cias comuns (LCS) são um problema típico em TI . As abor­da­gens para resolver o problema LCS aparecem com frequên­cia em en­tre­vis­tas para pro­gra­ma­do­res e cursos de al­go­rit­mos.

Qual é a mais longa sub­sequên­cia comum?

O objetivo é encontrar a maior sub­sequên­cia comum em duas sequên­cias. É aqui que uma sub­sequên­cia é derivada de uma sequência. A sub­sequên­cia tem a mesma ordem elementar, em alguns casos, quando os elementos são removidos. Vamos dar uma olhada em alguns exemplos para ter uma ideia melhor do princípio:

Sequence X Sequence Y LCS(X, Y)
FATHER MATTER ATER
MOTHER HERBAL HER
DAVID DANIEL DAI
Nota

Há uma im­por­tante diferença entre a mais longa sub­sequên­cia comum e a mais longa substring comum sendo que uma substring pode não ter lacunas. No exemplo de “DAVID” e “DANIEL”, a substring comum mais longa seria “DA”, pois “I” está separado por “V” e “N”.

Há algum exemplo prático do problema LCS?

O problema da mais longa sub­sequên­cia comum é uma questão im­por­tante em todas as áreas em que são usadas sequên­cias que se originam umas das outras. Existem algumas maneiras de encontrar LCS para verificar se há se­me­lhan­ças ou di­fe­ren­ças e, por sua vez, descobrir qualquer plágio. O conhecido uti­li­tá­rio “diff”, que verifica se há al­te­ra­ções nos arquivos de texto de origem, baseia-se no problema de LCS.

Na bi­oin­for­má­tica, o problema da mais longa sub­sequên­cia comum é usado com frequên­cia ao analisar sequên­cias de DNA. As bases do DNA mudam em de­ter­mi­na­das posições ao longo do tempo devido a mutações. A presença de uma longa sub­sequên­cia comum em duas sequên­cias sugere uma relação genética. Isso pode nos permitir re­cons­ti­tuir a evolução entre as espécies graças ao de­sen­vol­vi­mento genético.

Os lin­guis­tas também podem usar o problema da mais longa sub­sequên­cia comum para pesquisar o de­sen­vol­vi­mento lin­guís­tico ao longo dos séculos. Se você tiver duas palavras de idiomas di­fe­ren­tes que tenham o mesmo sig­ni­fi­cado e uma longa sequência comum, isso sugere que elas têm a mesma raiz e eti­mo­lo­gia. Isso seria con­si­de­rado, então, um de­sen­vol­vi­mento histórico se­me­lhante.

Quais são as soluções para o problema da mais longa sub­sequên­cia comum?

Em primeiro lugar, é possível resolver o problema da LCS com uma abordagem ingênua. Essa é uma abordagem simples, sem usar nenhuma oti­mi­za­ção ou método especial. Para isso, basta computar todas as sub­sequên­cias de duas sequên­cias e encontrar a sub­sequên­cia comum mais longa. In­fe­liz­mente, essa abordagem não é muito eficiente e, portanto, só é adequada para sequên­cias curtas.

Abaixo você en­con­trará três soluções efi­ci­en­tes para o problema LCS:

  1. Abordagem recursiva
  2. Oti­mi­za­ção por meio de me­moi­za­ção
  3. Pro­gra­ma­ção dinâmica

O que todas as abor­da­gens têm em comum é que, com relação às duas sequên­cias, elas diferem em três casos:

  • A última letra é a mesma.
  • A última letra não é a mesma.
  • O com­pri­mento de uma das sequên­cias é zero.

As abor­da­gens diferem em sua com­ple­xi­dade de tempo (tempo de execução as­sin­tó­tico) e com­ple­xi­dade de espaço (uso de memória):

Abordagem Tempo de execução Memória
Abordagem ingênua O(n * n²) O(n)
Abordagem recursiva O(n²) O(1)
Oti­mi­za­Ã§Ã£o via me­moi­za­Ã§Ã£o O(n *m) O(n* m)
Pro­gra­ma­Ã§Ã£o dinâmica O(n *m) O(n* m)
Nota

Todos os al­go­rit­mos definidos abaixo calculam o com­pri­mento da maior sub­sequên­cia comum. Se for o caso, há vários conjuntos de sub­sequên­cias com esse com­pri­mento que podem ser de­ter­mi­na­dos por meio de outras etapas.

De­ter­mi­na­ção recursiva da maior sub­sequên­cia comum

Se você observar o problema LCS, verá que ele tem uma “su­bes­tru­tura ideal”. Isso significa que o problema pode ser reduzido a sub­pro­ble­mas. Como solução, você pode usar uma abordagem recursiva. Abaixo, você en­con­trará alguns exemplos de al­go­rit­mos para im­ple­men­tar isso em três das lin­gua­gens de pro­gra­ma­ção mais comuns.

Python

def lcs(X, Y, m, n):
    # Base case
    if m == 0 or n == 0:
        return 0
    # Last elements are equal
    elif X[m-1] == Y[n-1]:
        return 1 + lcs(X, Y, m-1, n-1)
    # Last elements differ
    else:
        return max(lcs(X, Y, m, n-1), lcs(X, Y, m-1, n))
# Let's test
X, Y = "DANIEL", "DAVID"
lcs_len = lcs(X, Y, len(X), len(Y))
print(f"Length of LCS is: {lcs_len}")
python

Java

import java.io.*;
class LCS {
    public static int lcs(String A, String B, int m, int n)
    {
        // Base case
        if (m == 0 || n == 0)
            return 0;
        // Last elements are equal
        if (A.charAt(m - 1) == B.charAt(n - 1))
            return 1 + lcs(A, B, m - 1, n - 1);
        // Last elements differ
        else
            return Math.max(lcs(A, B, m, n - 1),
             lcs(A, B, m - 1, n));
    }
    
    // Let's test
    public static void main(String[] args)
        {
            String X = "DAVID";
            String Y = "DANIEL";
            int lcsLength = LCS.lcs(X, Y, X.length(), Y.length());
            System.out.println("Length of LCS is: " + lcsLength);
        }
}
java

C++

#include <iostream>
using namespace std;
int lcs(string X, string Y, int m, int n)
{
    // Base case
    if (m == 0 || n == 0) {
        return 0;
    }
    // Last elements are equal
    if (X[m - 1] == Y[n - 1]) {
        return 1 + lcs(X, Y, m - 1, n - 1);
    }
    // Last elements differ
    else {
        return max(lcs(X, Y, m, n - 1), lcs(X, Y, m - 1, n));
    }
}
// Let's test
int main()
{
    // Initialize variables
    string X = "DAVID";
    string Y = "DANIEL";
    // Compute and output length of LCS
    cout << "Length of LCS is " << lcs(X, Y, X.size(), Y.size());
    return 0;
}
c++

Oti­mi­za­ção da abordagem recursiva usando me­moi­za­ção

Ao analisar novamente a abordagem recursiva, você pode ver que as partes so­bre­pos­tas são com­pu­ta­das. Essas ca­rac­te­rís­ti­cas, chamadas de “sub­pro­ble­mas so­bre­pos­tos”, são co­nhe­ci­das das sequên­cias de Fibonacci. Nesse caso também as sequên­cias re­cur­si­vas são cons­tan­te­mente com­pu­ta­das para obter uma solução. Para tornar o processo mais eficiente, vale a pena usar a me­moi­za­ção. Em outras palavras, você pode armazenar os sub­pro­ble­mas que já foram com­pu­ta­dos em uma matriz bi­di­men­si­o­nal.

Python

def lcs(X, Y, m, n, table):
    
    # Base case
    if (m == 0 or n == 0):
        return 0
    # Already computed value at given position
    if (table[m][n] != -1):
        return table[m][n]
    # Last elements are equal
    if X[m - 1] == Y[n - 1]:
        table[m][n] = 1 + lcs(X, Y, m - 1, n - 1, table)
    # Last elements differ
    else:
        table[m][n] = max(lcs(X, Y, m, n - 1, table), lcs(X, Y, m - 1, n, table))
    return table[m][n]
# Let's test
X = "DAVID"
Y = "DANIEL"
m, n = len(X), len(Y)
# Initialize table fields to `-1`
table = [[-1 for i in range(n + 1)] for j in range(m + 1)]
// Compute and output length of LCS
print(f"Length of LCS is: {lcs(X, Y, m, n, table)}")
python

Java

import java.io.*;
class LCS {
    public static int lcs(String X, String Y, int m, int n, int[][] table) {
        // Base case
        if (m == 0 || n == 0) {
            return 0;
        }
        // Already computed value at given position
        if (table[m][n] != -1) {
            return table[m][n];
        }
        // Last elements are equal
        if(X.charAt(m - 1) == Y.charAt(n - 1)) {
            table[m][n] = 1 + lcs(X, Y, m - 1, n - 1, table);
            return table[m][n];
        }
        // Last elements differ
        else {
            table[m][n] = Math.max(lcs(X, Y, m, n - 1, table),lcs(X, Y, m - 1, n, table));
            return table[m][n];
        }
    }
    // Let's test
    public static void main(String args[]){
        // Initialize variables
        String X = "DAVID";
        String Y = "DANIEL";
        int m = X.length();
        int n = Y.length();
        int[][] table = new int[m + 1][n + 1];
        
        // Initialize table fields to `-1`
        for(int i=0; i < m + 1; i++) {
            for(int j=0; j < n + 1; j++) {
                table[i][j] = -1;
            }
        }
        // Compute and output length of LCS
        int lcsLength = lcs(X, Y, m, n, table);
        System.out.println("Length of LCS is: " + lcsLength);
    }
}
java

C++

#include <bits/stdc++.h>
using namespace std;
int lcs(char *X, char* Y, int m, int n, vector<vector<int>>& table)
{
  // Caso básico
  if (m == 0 || n == 0)
    return 0;
  // Valor já computado na posição determinada
  if (table[m][n] != -1) {
    return table[m][n];
  }
  // Os últimos elementos são iguais
  if (X[m - 1] == Y[n - 1]) {
    table[m][n] = 1 + lcs(X, Y, m - 1, n - 1, table);
    return table[m][n];
  }
  // Os últimos elementos são diferentes
  else {
    table[m][n] = max(lcs(X, Y, m, n - 1, table), lcs(X, Y, m - 1, n, table));
    return table;
  }
}
// Vamos testar
int main()
{
  // Inicializar variáveis
  char X[] = "DAVID";
  char Y[] = "DANIEL";
  int m = strlen(X);
  int n = strlen(Y);
  // Inicializar a tabela com `-1`
  vetor<vector<int>> tabela(m + 1, vetor<int>(n + 1, -1));
  
  // Calcular e gerar o comprimento do LCS
  cout << "Length of LCS is: " << lcs(X, Y, m, n, table);
  return 0;
}
@@UNIQID67fe5360db3900.54711701@@python
def lcs(X , Y, m, n): 
  
  # Initialize dynamic programming table fields to@@UNIQID67fe5360db3974.27748659@@
  table = [[None] * (n + 1) for _ in range(m + 1)]
  
  # Compute table values
  for i in range(m + 1):
    for j in range(n + 1):
      # Base case
      if i == 0 or j == 0 :
        table[i][j] = 0
      # Last elements are equal
      elif X[i - 1] == Y[j - 1]:
        table[i][j] = table[i - 1][j - 1]+ 1
      # Last elements differ
      else:
        table[i][j] = max(table[i - 1][j] , table[i][j - 1])
  
  return table[m][n]
# Let's test
X = "DAVID"
Y = "DANIEL"
# Compute and output length of LCS
lcs_len = lcs(X, Y, len(X), len(Y))
print(f"Length of LCS is: {lcs_len}")
@@UNIQID67fe5360db3bc5.16312818@@java
import java.io.*;
class LCS {
  public static int lcs(String X, String Y, int m, int n)
  {
    // Initialize dynamic programming table fields
    int table[][] = new int[m + 1][n + 1];
    for (int i = 0; i <= m; i++) {
      for (int j = 0; j <= n; j++) {
        // Base case
        if (i == 0 || j == 0)
          table[i][j] = 0;
        // Last elements are equal
        else if (X.charAt(i - 1) == Y.charAt(j - 1))
          table[i][j] = table[i - 1][j - 1] + 1;
        // Last elements differ
        else
          table[i][j] = Math.max(table[i - 1][j], table[i][j - 1]);
      }
    }
    return table[m][n];
  }
  // Let's test
  public static void main(String args[]){
    // Initialize variables
    String X = "DAVID";
    String Y = "DANIEL";
    int m = X.length();
    int n = Y.length();
    // Compute and output length of LCS
    int lcsLength = lcs(X, Y, m, n);
    System.out.println("Length of LCS is: " + lcsLength);
  }
}
@@UNIQID67fe5360db3dc4.31299911@@c++
#include <bits/stdc++.h>
using namespace std;
int lcs(string X, string Y, int m, int n) {
	// Inicializar a tabela de programação dinâmica
	int table[m + 1][n + 1];
	// Calcular os valores da tabela
	for (int i = 0; i <= m; i++) {
		for (int j = 0; j <= n; j++) {
			// Caso básico
			if (i == 0 || j == 0)
				table[i][j] = 0;
			// Os últimos elementos são iguais
			else if (X[i - 1] == Y[j - 1])
				table[i][j] = table[i - 1][j - 1] + 1;
			// Os últimos elementos são diferentes
			else
				table[i][j] = max(table[i - 1][j], table[i][j - 1]);
		}
	}
	return table[m][n];
}
// Vamos testar
int main() {
  // Inicializar variáveis
  string X = "DAVID";
  string Y = "DANIEL";
  int m = X.size();
  int n = Y.size();
  // Calcular e gerar o comprimento do LCS
  cout << "O comprimento do LCS é " << lcs(X, Y, m, n);
  return 0;
}
c++
Ir para o menu principal