Automatic Speech Re­cog­ni­tion (ASR) é o processo de conversão au­to­má­tica de fala em texto. As tec­no­lo­gias de ASR utilizam métodos de apren­di­zado de máquina para analisar e processar padrões de fala, trans­for­mando-os em texto. O Automatic Speech Re­cog­ni­tion pode ser en­con­trado hoje em as­sis­ten­tes virtuais, além de ser usado para a geração de legendas em vídeos e a trans­cri­ção de reuniões.

O que significa Automatic Speech Re­cog­ni­tion?

Automatic Speech Re­cog­ni­tion, em português “re­co­nhe­ci­mento au­to­má­tico de fala”, é um subcampo da in­for­má­tica e da lin­guís­tica com­pu­ta­ci­o­nal. Ele se concentra no de­sen­vol­vi­mento de métodos para converter au­to­ma­ti­ca­mente a fala em textos legíveis por máquinas. O processo de conversão de fala em texto é chamado de Speech-to-Text (STT). Processos de ASR são baseados em modelos es­ta­tís­ti­cos e al­go­rit­mos complexos.

Nota

A precisão de um sistema ASR é medida pela taxa de erro de palavras (WER). Essa taxa relaciona o número de erros – palavras omitidas, adi­ci­o­na­das ou re­co­nhe­ci­das in­cor­re­ta­mente – ao número total de palavras faladas. Quanto menor a taxa de erro, maior a precisão do re­co­nhe­ci­mento au­to­má­tico de fala. Por exemplo, se a WER for de 10%, a trans­cri­ção terá uma precisão de 90%.

Como funciona o Automatic Speech Re­cog­ni­tion?

O Automatic Speech Re­cog­ni­tion é composto por várias etapas in­ter­li­ga­das, que são descritas a seguir:

  1. Re­co­nhe­ci­mento au­to­má­tico de fala (Automatic Speech Re­cog­ni­tion): O sistema capta a fala através de um microfone ou outra fonte de áudio.
  2. Pro­ces­sa­mento de linguagem natural (Natural Language Pro­ces­sing): O primeiro processo consiste em limpar os ruídos da gravação. Um algoritmo analisa as pro­pri­e­da­des fonéticas e fonêmicas da fala, com­pa­rando-as com modelos treinados para iden­ti­fi­car palavras.
  3. Conversão de fala em texto (Speech to Text): O sistema converte os sons re­co­nhe­ci­dos em texto.
Imagem: Diagrama explica como o ASR funciona
O gráfico ilustra as três etapas do re­co­nhe­ci­mento au­to­má­tico de fala.

Al­go­rit­mos de ASR: Abordagem híbrida vs. deep learning

Existem ba­si­ca­mente duas abor­da­gens prin­ci­pais para o Automatic Speech Re­cog­ni­tion (ASR): enquanto no passado eram uti­li­za­dos prin­ci­pal­mente métodos híbridos clássicos, como os modelos ocultos de Markov, atu­al­mente há um aumento no uso de tec­no­lo­gias de deep learning. Essa mudança se deve ao fato de que a precisão dos modelos tra­di­ci­o­nais estagnou nos últimos tempos.

Abordagem híbrida clássica

Modelos clássicos exigem dados alinhados de forma forçada. Isso significa que eles utilizam a trans­cri­ção de texto de um segmento de áudio para de­ter­mi­nar onde de­ter­mi­na­das palavras aparecem. A abordagem híbrida tra­di­ci­o­nal combina sempre um modelo de léxico, um modelo acústico e um modelo de linguagem para trans­cre­ver a fala:

  • O modelo de lexicon define a pronúncia fonética das palavras. É ne­ces­sá­rio criar um conjunto de dados ou fonemas para cada idioma.
  • O modelo acústico visa modelar os padrões acústicos da fala. Usando os dados alinhados, ele faz previsões sobre qual som ou fonema se associa a di­fe­ren­tes segmentos de fala.
  • O modelo de linguagem aprende quais sequên­cias de palavras são mais prováveis em um idioma. Sua tarefa é prever quais palavras têm mais pro­ba­bi­li­dade de seguir as palavras atuais.

A principal des­van­ta­gem da abordagem híbrida é a di­fi­cul­dade em aumentar a precisão do re­co­nhe­ci­mento de fala usando esse método. Além disso, há a ne­ces­si­dade de treinar três modelos separados, o que pode ser muito demorado e custoso. No entanto, como já existe um co­nhe­ci­mento amplo sobre como criar um modelo robusto usando a abordagem clássica, muitas empresas ainda optam por essa opção.

Deep Learning com processos end-to-end

Sistemas end-to-end têm a ca­pa­ci­dade de trans­cre­ver di­re­ta­mente uma sequência de ca­rac­te­rís­ti­cas acústicas de entrada. Como as palavras faladas devem ser con­ver­ti­das, o algoritmo aprende isso usando uma grande quan­ti­dade de pares de dados na forma de arquivos de áudio de uma frase es­pe­cí­fica e sua trans­cri­ção correta.

Ar­qui­te­tu­ras de Deep Learning como CTC, LAS e RNNT podem ser treinadas para fornecer re­sul­ta­dos precisos mesmo sem dados forçados alinhados, modelo de léxico e modelo de linguagem. No entanto, muitos sistemas de deep learning ainda são co­nec­ta­dos a um modelo de linguagem, pois este pode ajudar a aumentar ainda mais a precisão da trans­cri­ção.

Dica

No nosso artigo com­pa­ra­tivo entre deep learning e machine learning, você en­con­trará as di­fe­ren­ças entre os dois conceitos.

A abordagem end-to-end para Automatic Speech Re­cog­ni­tion não apenas oferece maior precisão do que modelos con­ven­ci­o­nais. Além disso, os sistemas de ASR são mais fáceis de treinar e requerem menos trabalho humano.

Prin­ci­pais campos de aplicação do Automatic Speech Re­cog­ni­tion

Graças prin­ci­pal­mente aos avanços na área de machine learning, as tec­no­lo­gias de ASR estão se tornando cada vez mais precisas e poderosas. O Automatic Speech Re­cog­ni­tion pode ser aplicado em muitas in­dús­trias para aumentar a efi­ci­ên­cia, melhorar a sa­tis­fa­ção do cliente e/ou aumentar o retorno sobre o in­ves­ti­mento (ROI). Os prin­ci­pais campos de aplicação incluem:

  • Te­le­co­mu­ni­ca­ções: Os centros de contato utilizam tec­no­lo­gias de ASR para trans­cre­ver e analisar conversas com clientes. Trans­cri­ções precisas também são ne­ces­sá­rias para o ras­tre­a­mento de chamadas e soluções te­lefô­ni­cas re­a­li­za­das por meio de ser­vi­do­res em nuvem.
  • Pla­ta­for­mas de Vídeo: Atu­al­mente, a criação de legendas em tempo real em pla­ta­for­mas de vídeo é con­si­de­rada um padrão da indústria. O Automatic Speech Re­cog­ni­tion também é útil para a ca­te­go­ri­za­ção de conteúdo.
  • Mo­ni­to­ra­mento de Mídia: APIs de ASR permitem analisar programas de TV, podcasts, trans­mis­sões de rádio e outras mídias para verificar com que frequên­cia de­ter­mi­na­das marcas ou tópicos são men­ci­o­na­dos.
  • Vi­de­o­con­fe­rên­cias: Soluções de reuniões como Zoom, Microsoft Teams ou Google Meet dependem de trans­cri­ções precisas e da análise desse conteúdo para obter insights e tomar decisões apro­pri­a­das. O Automatic Speech Re­cog­ni­tion também pode ser usado para fornecer legendas ao vivo durante vi­de­o­con­fe­rên­cias.
  • As­sis­ten­tes de voz: Seja a Alexa da Amazon, o Google Assistant ou a Siri da Apple, as­sis­ten­tes de voz virtuais são baseados em Automatic Speech Re­cog­ni­tion. A tec­no­lo­gia permite que os as­sis­ten­tes respondam a perguntas, realizem tarefas e interajam com outros dis­po­si­ti­vos.

Qual é o papel da in­te­li­gên­cia ar­ti­fi­cial nas tec­no­lo­gias de ASR?

A in­te­li­gên­cia ar­ti­fi­cial (IA) ajuda a melhorar a precisão e a fun­ci­o­na­li­dade geral dos sistemas de ASR. Em par­ti­cu­lar, o de­sen­vol­vi­mento de grandes modelos de linguagem fez com que a linguagem natural pudesse ser pro­ces­sada de forma sig­ni­fi­ca­ti­va­mente melhor atu­al­mente. Um Large Language Model não apenas consegue criar textos complexos com alta re­le­vân­cia e realizar traduções, mas também reconhece a fala. Portanto, os sistemas de ASR se be­ne­fi­ciam enor­me­mente dos avanços nessa área. Além disso, a in­te­li­gên­cia ar­ti­fi­cial também é útil no de­sen­vol­vi­mento de modelos de linguagem es­pe­cí­fi­cos para sotaques.

Soluções de IA
Mais poder digital com In­te­li­gên­cia Ar­ti­fi­cial
  • Online em segundos
  • Aumente seu cres­ci­mento com marketing de IA
  • Economize tempo e recursos

Quais são os pontos fortes e fracos da tec­no­lo­gia de ASR?

Comparado à trans­cri­ção tra­di­ci­o­nal, o Automatic Speech Re­cog­ni­tion oferece algumas vantagens. Uma das prin­ci­pais forças dos métodos modernos de ASR é sua alta precisão, que resulta do trei­na­mento de sistemas com grandes volumes de dados. Isso permite melhorar a qualidade de legendas ou trans­cri­ções e dis­po­ni­bi­lizá-las em tempo real.

Outra vantagem im­por­tante é o aumento da efi­ci­ên­cia. O Automatic Speech Re­cog­ni­tion permite que as empresas escalem, ampliem ra­pi­da­mente sua gama de serviços e ofereçam isso a um público maior. Para es­tu­dan­tes e pro­fis­si­o­nais, fer­ra­men­tas de re­co­nhe­ci­mento de voz au­to­má­tico facilitam a do­cu­men­ta­ção de conteúdos de áudio – como reuniões de negócios ou palestras uni­ver­si­tá­rias.

Por outro lado, a des­van­ta­gem é que, embora os sistemas de ASR sejam mais precisos do que nunca, ainda não alcançam a precisão dos humanos. Isso se deve prin­ci­pal­mente às inúmeras nuances da fala. Desafios incluem sotaques, dialetos e di­fe­ren­tes tons de voz, além de ruídos de fundo. Mesmo os modelos de deep learning mais avançados não conseguem cobrir todos os casos especiais. Outro ponto pro­ble­má­tico é que as tec­no­lo­gias de ASR podem processar dados pessoais, le­van­tando pre­o­cu­pa­ções sobre segurança de dados e pri­va­ci­dade.

Ir para o menu principal