O que é LSTM: Long Short-Term Memory

Tabela de Conteúdos

Long Short-Term Memory (LSTM), ou memória de curto longo prazo, é uma técnica de treinamento de redes neurais que armazena informações importantes a longo prazo. Ela utiliza memórias de curto e de longo prazo, sendo crucial para o desenvolvimento da inteligência artificial (IA).

Definição de Long Short-Term Memory

Long Short-Term Memory é uma técnica da informática usada para armazenar informações em uma rede neural por um longo período. Isso é particularmente importante no processamento de dados sequenciais. Com a LSTM, a rede pode acessar eventos anteriores e considerá-los em novos cálculos, o que pode diferenciá-la das redes neurais recorrentes (RNN) ou complementá-las de maneira ideal. Em vez de uma simples “memória de curto prazo”, a LSTM possui uma “memória de longo prazo” adicional, onde informações selecionadas são armazenadas por mais tempo.

Redes com Long Short-Term Memory conseguem preservar informações por longos períodos e identificar dependências de longo prazo, o que é especialmente importante nas áreas de deep learning e inteligência artificial. A base para isso são os chamados Gates, ou portas, cuja função será explicada mais detalhadamente ao longo deste artigo. Essas redes oferecem modelos eficientes para previsão e processamento com base em dados temporais.

Soluções de IA

Mais poder digital com Inteligência Artificial

Online em segundos
Aumente seu crescimento com marketing de IA
Economize tempo e recursos

Quais são os elementos de uma célula LSTM?

Uma célula com Long Short-Term Memory é composta de diversos blocos que oferecem diferentes opções para a rede. Ela precisa ser capaz de armazenar informações por um longo período e vinculá-las a novas informações conforme necessário. Ao mesmo tempo, é importante que a célula elimine de maneira autônoma conhecimentos irrelevantes ou obsoletos. Por isso, uma célula LSTM é formada por quatro componentes principais:

Input gate (porta de entrada): decide quais novas informações devem ser armazenadas e de que maneira.
Forget gate (porta de esquecimento): determina quais informações permanecem ou são removidas da célula.
Output gate (porta de saída): define como os valores de uma célula serão disponibilizados, com base no estado atual e nas informações de entrada.

O quarto componente é o núcleo da célula. Ele segue uma lógica de interconexão própria, regulando como as outras partes interagem e como os fluxos de informações e operações de armazenamento devem ocorrer.

Como funciona a Long Short-Term Memory?

Assim como nas Redes Neurais Recorrentes (RNN) ou nas redes neurais feedforward (FNN) mais simples, as células com Long Short-Term Memory operam em camadas. No entanto, diferentemente de outras redes, elas armazenam informações ao longo do tempo e podem processá-las ou acessá-las posteriormente. Para isso, cada célula LSTM utiliza os três portões acima mencionados, além de uma espécie de memória de curto prazo e uma de longo prazo.

A memória de curto prazo, ou seja, o armazenamento onde as informações dos cálculos anteriores são mantidas temporariamente, também é conhecida em outras redes e, no contexto da Long Short-Term Memory, é chamada de hidden state. Diferente de outras redes, uma célula LSTM consegue manter informações por mais tempo, armazenando-as no chamado* cell state*. Novas informações passam, então, pelos três portões.
Na input gate, a entrada atual é multiplicada pelo hidden state e pelo peso da última execução, decidindo assim o valor do novo dado. Informações importantes são adicionadas ao cell state atual, formando o novo cell state.
A forget gate decide quais informações serão mantidas ou removidas, usando o último hidden state e a entrada atual. Essa decisão é tomada com uma função Sigmoid, que produz valores entre 0 e 1: 0 significa esquecer uma informação anterior, enquanto 1 preserva o status atual. O resultado é multiplicado pelo cell state atual, descartando valores iguais a 0.
A output gate calcula a saída final, usando o hidden state e a função Sigmoid. Em seguida, o cell state é ativado por uma função tanh e multiplicado, determinando quais informações serão liberadas pela saída.

Quais são as diferentes arquiteturas da Long Short-Term Memory?

Embora essa funcionalidade seja semelhante em todas as redes LSTM, há grandes variações nas arquiteturas das variantes da LSTM. Citamos, como exemplo, Peephole LSTMs, chamadas assim porque cada porta pode visualizar o estado de uma célula. Existem também Peephole LSTMs convolucionais, que além de multiplicar matrizes, utilizam uma convolução discreta para calcular a atividade de um neurônio.

Quais são as principais áreas de aplicação da Long Short-Term Memory?

Inúmeras aplicações utilizam redes neurais com Long Short-Term Memory, seja total ou parcialmente. Os campos de aplicação são variados e incluem contribuições valiosas para as seguintes áreas:

Geração automatizada de texto
Análise de dados de séries temporais
Reconhecimento de fala
Previsão de tendências de mercado
Composição musical

A técnica de identificação de anomalias, como em tentativas de fraude ou ataques a redes computacionais, também utiliza Long Short-Term Memory. Aplicações adequadas podem recomendar mídias, como filmes, séries, bandas ou livros, com base em dados do usuário, além de analisar vídeos, imagens ou músicas. Assim, é possível aumentar a segurança de maneira prática e reduzir significativamente o esforço necessário para monitoramento e análise.

Inúmeras grandes empresas utilizam Long Short-Term Memory em seus serviços e produtos. A Google aplica essas redes em seus assistentes inteligentes, no Google Tradutor, no software de jogo AlphaGo e no reconhecimento de voz em smartphones. Os assistentes de voz Siri (Apple) e Alexa (Amazon), assim como o recurso de autocompletar do teclado da Apple, também se baseiam em Long Short-Term Memory.