Named Entity Re­cog­ni­tion (NER), ou re­co­nhe­ci­mento de entidade men­ci­o­nada, é a sub­dis­ci­plina da lin­guís­tica com­pu­ta­ci­o­nal que tem como objetivo iden­ti­fi­car entidades nomeadas (nomes próprios) em um texto e catalogá-las de acordo com pa­râ­me­tros es­pe­cí­fi­cos. Em par­ti­cu­lar, no campo do machine learning, a técnica de­sem­pe­nha um papel muito im­por­tante.

O que é Named Entity Re­cog­ni­tion?

Named Entity Re­cog­ni­tion é uma dis­ci­plina da lin­guís­tica com­pu­ta­ci­o­nal que iden­ti­fica nomes próprios em textos e os atribui au­to­ma­ti­ca­mente a de­ter­mi­na­das ca­te­go­rias. Essa tarefa também é conhecida como re­co­nhe­ci­mento de nomes próprios. Nomes próprios ou entidades nomeadas são palavras isoladas ou sequên­cias de palavras que descrevem uma entidade real existente. Isso pode incluir, por exemplo, uma pessoa, uma empresa, uma au­to­ri­dade, um evento, um local, um produto es­pe­cí­fico ou até uma data.

A dis­ci­plina é aplicada no campo de machine learning e da in­te­li­gên­cia ar­ti­fi­cial (IA) e tem origem no campo de natural language pro­ces­sing (NLP), onde a linguagem natural é ca­te­go­ri­zada e pro­ces­sada com o auxílio de al­go­rit­mos, com­pu­ta­do­res e regras fixas. Graças ao constante de­sen­vol­vi­mento, o Named Entity Re­cog­ni­tion tem de­mons­trado taxas de sucesso im­pres­si­o­nan­tes em várias línguas e é quase in­dis­tin­guí­vel da iden­ti­fi­ca­ção feita por um ser humano.

Soluções de IA
Mais poder digital com In­te­li­gên­cia Ar­ti­fi­cial
  • Online em segundos
  • Aumente seu cres­ci­mento com marketing de IA
  • Economize tempo e recursos

Como funciona o Named Entity Re­cog­ni­tion?

Existem di­fe­ren­tes métodos de Named Entity Re­cog­ni­tion, que vamos explorar mais de­ta­lha­da­mente ao longo deste artigo. No entanto, há dois passos prin­ci­pais em qualquer método, que são fun­da­men­tais para o sucesso da ação.

Iden­ti­fi­ca­ção de nomes próprios

Este passo envolve a iden­ti­fi­ca­ção de uma ou mais entidades nomeadas. Isso não se restringe apenas aos nomes próprios típicos como “Pedro Santos”, mas também a termos como “Ver­sail­les”, “Segunda Guerra Mundial”, “Porsche”, “Wes­terwald”, “Jurassic Park” e “12 de outubro de 1986”. Todos são con­si­de­ra­dos entidades nomeadas e podem ser cap­tu­ra­dos pelo Named Entity Re­cog­ni­tion. Depois que esses nomes próprios são iden­ti­fi­ca­dos como tais, o início e o fim são marcados, per­mi­tindo que um sistema os reconheça dentro de um texto natural.

Ca­te­go­ri­za­ção de entidades nomeadas

Após a iden­ti­fi­ca­ção, os nomes próprios marcados são atri­buí­dos a ca­te­go­rias definidas. Isso inclui, entre outros, de­no­mi­na­ções de pessoas, locais, eventos his­tó­ri­cos, empresas, au­to­ri­da­des, produtos, datas ou títulos es­pe­cí­fi­cos de mídia e obras de arte. É im­por­tante que o Named Entity Re­cog­ni­tion reconheça, por exemplo, variações de uma entidade e que os pontos de início e fim es­ta­be­le­ci­dos an­te­ri­or­mente sejam cor­re­ta­mente aplicados.

Quais métodos de NER existem?

Embora os dois passos de trabalho no Named Entity Re­cog­ni­tion sejam sempre ne­ces­sá­rios, existem di­fe­ren­tes métodos e abor­da­gens para alcançar os re­sul­ta­dos desejados. Apre­sen­ta­mos os quatro métodos mais comuns e, con­se­quen­te­mente, mais eficazes.

Análise com di­ci­o­ná­rios

Na me­to­do­lo­gia pro­va­vel­mente mais simples, as entidades são com­pa­ra­das com di­fe­ren­tes di­ci­o­ná­rios. Assim que ocorre uma cor­res­pon­dên­cia entre uma palavra ou sequência de palavras e um nome próprio presente em um di­ci­o­ná­rio, a entidade é marcada e, em seguida, clas­si­fi­cada na categoria cor­res­pon­dente.

NER baseado em regras

Regras definidas também podem ser usadas como base para o Named Entity Re­cog­ni­tion. Para isso, são ela­bo­ra­dos padrões que são com­pa­ra­dos com os textos dis­po­ní­veis. Quando há cor­res­pon­dên­cia, as entidades são iden­ti­fi­ca­das e ca­te­go­ri­za­das. O método baseado em regras é es­pe­ci­al­mente adequado para textos es­pe­ci­a­li­za­dos e não para apli­ca­ções de grande escala.

Machine learning e IA

Os melhores re­sul­ta­dos são obtidos por meio de métodos em que Machine Learning ou IA são usados como base. Para isso, são uti­li­za­dos conjuntos de dados para treinar os sistemas. A iden­ti­fi­ca­ção de relações es­ta­tís­ti­cas de­sem­pe­nha um papel fun­da­men­tal nesse processo. Após o trei­na­mento, a IA pode vasculhar textos des­co­nhe­ci­dos, re­co­nhe­cer nomes próprios e clas­si­ficá-los em uma categoria. Vale ressaltar que quanto mais amplos e equi­li­bra­dos forem os dados de trei­na­mento, melhores serão os re­sul­ta­dos pos­te­ri­o­res.

Híbrido de NER baseado em regras e IA

Para re­sul­ta­dos de alta qualidade, também pode ser utilizado um método híbrido entre Named Entity Re­cog­ni­tion baseado em regras e com suporte de IA. Nesse caso, nomes próprios simples são iden­ti­fi­ca­dos pelo catálogo de regras, enquanto entidades mais complexas podem ser en­con­tra­das e ca­ta­lo­ga­das pela In­te­li­gên­cia Ar­ti­fi­cial.

Quais são as áreas de aplicação do Named Entity Re­cog­ni­tion?

Existem inúmeras áreas de aplicação práticas ou futuras para o Named Entity Re­cog­ni­tion. Aqui estão algumas das mais im­por­tan­tes:

  • Análise de sen­ti­men­tos: O Named Entity Re­cog­ni­tion já é utilizado para analisar feedback de clientes e ten­dên­cias. A IA, por exemplo, iden­ti­fica menções de marcas, opiniões sobre produtos ou outras reações.
  • Business in­tel­li­gence: O NER é utilizado para trans­for­mar textos não es­tru­tu­ra­dos em dados es­tru­tu­ra­dos. Isso pode ser aplicado na área de obtenção de in­for­ma­ções e ajuda na análise de do­cu­men­tos fi­nan­cei­ros.
  • Anotação de dados: Através da anotação de dados, é possível de­sen­vol­ver e treinar modelos apri­mo­ra­dos para traduções, clas­si­fi­ca­ções e análises de textos. O Named Entity Re­cog­ni­tion de­sem­pe­nha um papel im­por­tante nesse processo.
  • As­sis­tên­cia digital: O Named Entity Re­cog­ni­tion é útil para serviços como chatbots ou outros as­sis­ten­tes digitais. Ela analisa as so­li­ci­ta­ções dos usuários e pode fornecer respostas es­pe­cí­fi­cas e re­le­van­tes com base nessas análises.
  • Marcação de conteúdo: A técnica é usada para filtrar pessoas ou locais em di­fe­ren­tes artigos e, em seguida, armazená-los como metadados.
  • Motores de busca: Através dessa técnica, al­go­rit­mos de busca são ana­li­sa­dos e apri­mo­ra­dos, per­mi­tindo que os motores de busca forneçam re­sul­ta­dos ainda mais re­le­van­tes.
  • Redes neurais: O NER é utilizado também em áreas como long short-term memory (LSTM) e outras técnicas se­me­lhan­tes.

Quais problemas o Named Entity Re­cog­ni­tion enfrenta?

Embora o Named Entity Re­cog­ni­tion tenha avançado ra­pi­da­mente e já consiga alcançar re­sul­ta­dos im­pres­si­o­nan­tes, ainda existem alguns desafios em relação à técnica. Em par­ti­cu­lar, a adaptação de modelos treinados para textos es­pe­ci­a­li­za­dos nem sempre alcança os re­sul­ta­dos desejados. Isso é es­pe­ci­al­mente relevante quando os dados para o transfer learning não são su­fi­ci­en­tes ou não são es­pe­cí­fi­cos o bastante. Modelos fre­quen­te­mente precisam lidar com dados limitados quando novas entidades surgem. Uma solução possível são abor­da­gens zero-shot ou few-shot, que permitem trabalhar com volumes menores de dados.

Ir para o menu principal