No apren­di­zado se­mis­su­per­vi­si­o­nado (Semi-Su­per­vi­sed Learning), um modelo é treinado tanto com dados rotulados quanto com dados não rotulados. O algoritmo aprende a re­co­nhe­cer padrões nas ins­tân­cias de dados sem a ne­ces­si­dade de uma variável-alvo conhecida, usando poucos pontos de dados rotulados. O processo resulta na formação de modelos mais precisos e efi­ci­en­tes.

O que significa Semi-Su­per­vi­sed Learning?

Semi-Su­per­vi­sed Learning, em português apren­di­zado se­mis­su­per­vi­si­o­nado, é uma abordagem híbrida do campo de machine learning que combina as vantagens do apren­di­zado su­per­vi­si­o­nado com as do apren­di­zado não su­per­vi­si­o­nado. O método utiliza uma pequena quan­ti­dade de dados rotulados junto com uma grande quan­ti­dade de dados não rotulados para treinar modelos de in­te­li­gên­cia ar­ti­fi­cial (IA). Dessa forma, o algoritmo é capaz de iden­ti­fi­car padrões nos conjuntos de dados não rotulados, apoiado pelos dados rotulados. Esse processo combinado de apren­di­zado permite que o modelo com­pre­enda melhor a estrutura dos dados não rotulados, re­sul­tando em previsões mais precisas.

Soluções de IA
Mais poder digital com In­te­li­gên­cia Ar­ti­fi­cial
  • Online em segundos
  • Aumente seu cres­ci­mento com marketing de IA
  • Economize tempo e recursos

Premissas do Semi-Su­per­vi­sed Learning

Al­go­rit­mos pro­je­ta­dos para o apren­di­zado se­mis­su­per­vi­si­o­nado partem de di­fe­ren­tes premissas sobre o conjunto de dados:

  1. Premissa de con­ti­nui­dade: Pontos mais próximos têm maior pro­ba­bi­li­dade de com­par­ti­lhar o mesmo rótulo de saída.
  2. Premissa de agru­pa­mento (cluster): Os dados podem ser divididos em clusters distintos, e pontos dentro do mesmo cluster têm uma chance maior de possuir o mesmo rótulo de saída.
  3. Premissa da variedade (manifold): Os dados estão apro­xi­ma­da­mente em uma variedade (um conjunto de pontos inter-re­la­ci­o­na­dos) com uma dimensão menor que o espaço de entrada. Essa premissa permite o uso de dis­tân­cias e den­si­da­des para a análise dos dados.

Qual é a diferença entre Su­per­vi­sed e Un­su­per­vi­sed Learning?

Su­per­vi­sed, Un­su­per­vi­sed e Semi-Su­per­vi­sed Learning são abor­da­gens fun­da­men­tais de machine learning. Contudo, cada método utiliza uma abordagem própria para treinar modelos de IA. A seguir, uma visão geral das prin­ci­pais di­fe­ren­ças entre Semi-Su­per­vi­sed Learning e os métodos tra­di­ci­o­nais:

  • Su­per­vi­sed Learning (apren­di­zado su­per­vi­si­o­nado) utiliza apenas dados rotulados. Isso significa que cada exemplo de dado possui uma variável-alvo ou solução conhecida, que o algoritmo deve prever. Essa abordagem de Machine Learning é muito precisa, mas requer grandes quan­ti­da­des de dados rotulados, cuja obtenção pode ser cara e demorada.
  • Un­su­per­vi­sed Learning (apren­di­zado não su­per­vi­si­o­nado) trabalha ex­clu­si­va­mente com dados não rotulados. O algoritmo tenta iden­ti­fi­car padrões ou es­tru­tu­ras nos dados sem uma solução pre­vi­a­mente definida. Un­su­per­vi­sed Learning é útil quando não há dados rotulados dis­po­ní­veis, mas, devido à ausência de pontos de re­fe­rên­cia externos, pode ter li­mi­ta­ções em termos de precisão e ca­pa­ci­dade preditiva.
  • O Semi-Su­per­vi­sed Learning combina ambos os métodos ao usar uma pequena quan­ti­dade de dados rotulados para com­pre­en­der a estrutura de um grande conjunto de dados não rotulados. Técnicas de apren­di­zado se­mis­su­per­vi­si­o­nado adaptam um algoritmo su­per­vi­si­o­nado para utilizar dados não rotulados, per­mi­tindo previsões precisas com um esforço reduzido de rotulagem.

Um exemplo prático pode ilustrar melhor as di­fe­ren­ças entre cada método de machine learning. Em relação a crianças na escola, podemos fazer a seguinte analogia: apren­di­zado su­per­vi­si­o­nado é quando as crianças têm ori­en­ta­ção tanto na escola quanto em casa. Se elas adquirem co­nhe­ci­mento de forma in­de­pen­dente, isso re­pre­senta apren­di­zado não su­per­vi­si­o­nado. No caso do apren­di­zado se­mis­su­per­vi­si­o­nado, os alunos recebem algumas ex­pli­ca­ções em aula, mas precisam descobrir novas in­for­ma­ções sozinhos com base no que já apren­de­ram.

Nota

Entenda o que é IA ge­ne­ra­tiva com este artigo es­pe­ci­a­li­zado do nosso Digital Guide.

Como funciona o Semi-Su­per­vi­sed Learning?

O apren­di­zado se­mis­su­per­vi­si­o­nado é um processo em várias etapas que inclui:

  1. Definição do objetivo ou problema: Pri­mei­ra­mente, é ne­ces­sá­rio definir cla­ra­mente os objetivos ou a fi­na­li­dade do modelo de Machine Learning, com foco em quais oti­mi­za­ções serão buscadas por meio do apren­di­zado de máquina.
  2. Rotulagem de dados: Alguns dos dados não rotulados são rotulados para orientar o algoritmo de apren­di­zado. Para que o Semi-Su­per­vi­sed Learning funcione, é essencial utilizar dados re­le­van­tes para o trei­na­mento do modelo. Por exemplo, se o objetivo é treinar um clas­si­fi­ca­dor de imagens para di­fe­ren­ciar cães de gatos, imagens de carros e trens não seriam úteis.
  3. Trei­na­mento do modelo: Em seguida, os dados rotulados são usados para ensinar o modelo sobre sua tarefa e os re­sul­ta­dos esperados.
  4. Trei­na­mento com dados não rotulados: Após o treino inicial com dados rotulados, o modelo integra dados não rotulados.
  5. Avaliação e re­fi­na­mento do modelo: Para garantir que o modelo criado funcione cor­re­ta­mente, são ne­ces­sá­rias ava­li­a­ções e ajustes contínuos. Esse processo de trei­na­mento contribui para melhorias cons­tan­tes, sendo repetido até que o algoritmo atinja a qualidade de resultado desejada.
Imagem: Gráfico explica o funcionamento do processo de Semi-Supervised Learning
O gráfico mostra um exemplo simples de como funciona o apren­di­zado se­mis­su­per­vi­si­o­nado: com base nos dados já rotulados, o modelo de IA faz a previsão correta.

Quais são as vantagens do Semi-Su­per­vi­sed Learning?

O apren­di­zado se­mis­su­per­vi­si­o­nado é es­pe­ci­al­mente útil quando há muitos dados não rotulados dis­po­ní­veis e marcar todos ou a maior parte deles se mostra caro ou difícil. Isso é relevante, pois o trei­na­mento de modelos de IA nor­mal­mente exige grandes quan­ti­da­des de dados rotulados, que fornecem o contexto ne­ces­sá­rio. Para que um modelo de clas­si­fi­ca­ção de imagens consiga dis­tin­guir dois objetos – como uma mesa e uma cadeira – são ne­ces­sá­rias centenas ou até milhares de imagens rotuladas para o trei­na­mento. Além disso, a rotulagem de dados – como na área de se­quen­ci­a­mento genético – exige co­nhe­ci­mento es­pe­ci­a­li­zado.

Com o Semi-Su­per­vi­sed Learning, é possível obter alta precisão apesar da baixa quan­ti­dade de dados rotulados, pois os conjuntos de dados rotulados valorizam os dados não rotulados. Os dados rotulados servem como ponto de partida, o que pode acelerar o apren­di­zado e melhorar a precisão. Esse método permite apro­vei­tar ao máximo um número limitado de dados rotulados enquanto utiliza uma grande quan­ti­dade de dados não rotulados, con­tri­buindo para maior efi­ci­ên­cia de custos.

Nota

O Semi-Su­per­vi­sed Learning também traz desafios e li­mi­ta­ções: por exemplo, se os dados ini­ci­al­mente rotulados con­ti­ve­rem erros, isso pode levar a con­clu­sões erradas e afetar ne­ga­ti­va­mente a qualidade do modelo. Além disso, o modelo pode se tornar ten­den­ci­oso ra­pi­da­mente se os dados rotulados e não rotulados não forem re­pre­sen­ta­ti­vos da dis­tri­bui­ção geral.

Quais são as prin­ci­pais áreas de aplicação do Semi-Su­per­vi­sed Learning?

Atu­al­mente, o apren­di­zado se­mis­su­per­vi­si­o­nado é utilizado em di­fe­ren­tes contextos, mas as tarefas de clas­si­fi­ca­ção ainda são con­si­de­ra­das um clássico. A seguir, um resumo das prin­ci­pais áreas de aplicação:

  • Clas­si­fi­ca­ção de conteúdo da web: Motores de busca como o Google utilizam apren­di­zado se­mis­su­per­vi­si­o­nado para avaliar a re­le­vân­cia de páginas da web para de­ter­mi­na­das consultas.
  • Clas­si­fi­ca­ção de texto e imagem: O objetivo aqui é clas­si­fi­car textos ou imagens em uma ou mais ca­te­go­rias pre­de­fi­ni­das. O Semi-Su­per­vi­sed Learning é muito eficaz para isso, pois há uma grande quan­ti­dade de dados não rotulados, e rotular todos os conjuntos de dados seria muito demorado e caro.
  • Análise de linguagem: A rotulagem de arquivos de áudio também é um processo tra­ba­lhoso. O Semi-Su­per­vi­sed Learning oferece uma abordagem natural para resolver esse problema.
  • Análise de sequên­cias de proteínas: Devido ao tamanho das cadeias de DNA, o apren­di­zado se­mis­su­per­vi­si­o­nado é ideal para a análise de sequên­cias de proteínas.
  • Detecção de anomalias: Com o Semi-Su­per­vi­sed Learning, é possível iden­ti­fi­car padrões incomuns que não seguem a norma.
Ir para o menu principal