La técnica del embedding en Machine Learning, también conocida como ve­c­to­ri­za­ción, se utiliza para convertir objetos mu­l­ti­di­me­n­sio­na­les como imágenes, textos, vídeos o datos de audio en vectores. De esta manera, los modelos de apre­n­di­za­je au­to­má­ti­co pueden re­co­no­ce­r­los y cla­si­fi­car­los con mayor precisión. Esta técnica ya se aplica con éxito en bases de datos ve­c­to­ria­les como ChromaDB.

¿Qué se entiende por embedding en Machine Learning?

El concepto embedding en Machine Learning es una técnica utilizada por los sistemas para re­pre­se­n­tar objetos reales en forma ma­te­má­ti­ca, lo que permite que la in­te­li­ge­n­cia ar­ti­fi­cial (IA) los in­te­r­pre­te con más facilidad. Estas re­pre­se­n­ta­cio­nes, también conocidas como em­be­d­di­n­gs, si­m­pli­fi­can la forma en que se re­pre­se­n­tan los objetos reales, ma­n­te­nie­n­do al mismo tiempo sus ca­ra­c­te­rí­s­ti­cas y re­la­cio­nes con otros objetos. Esta técnica se utiliza pri­n­ci­pa­l­me­n­te para entrenar modelos de apre­n­di­za­je au­to­má­ti­co en la ide­n­ti­fi­ca­ción de objetos similares. Entre estos objetos se pueden incluir textos, imágenes, datos de audio o vídeos, todos ellos co­n­si­de­ra­dos datos de alta di­me­n­sio­na­li­dad. Por ejemplo, una imagen puede contener una gran cantidad de valores de color en píxeles.

Té­c­ni­ca­me­n­te, los em­be­d­di­n­gs son vectores que, en las ma­te­má­ti­cas, se entienden como se­cue­n­cias de números que de­te­r­mi­nan un punto en un espacio di­me­n­sio­nal.

IONOS AI Model Hub
Su puerta de acceso a una pla­ta­fo­r­ma segura de IA mu­l­ti­mo­dal
  • Una pla­ta­fo­r­ma para los modelos de IA más potentes
  • Precios justos y tra­n­s­pa­re­n­tes basados en tokens
  • Sin de­pe­n­de­n­cia de pro­vee­do­res gracias al código abierto

La idea principal de los em­be­d­di­n­gs en Machine Learning es que un algoritmo de búsqueda dentro de una base de datos vectorial ide­n­ti­fi­que dos vectores que estén lo más cerca posible entre sí. Cuanto más complejos y de­ta­lla­dos sean estos vectores, más preciso será, en la mayoría de los casos, el resultado al comparar dos vectores similares. Por esta razón, en el proceso de embedding en ML, se vectoriza el mayor número posible de factores o di­me­n­sio­nes y se tienen en cuenta en las co­m­pa­ra­cio­nes. Para lograrlo, se entrena un modelo con grandes volúmenes de datos he­te­ro­gé­neos.

Nota

En ciertos es­ce­na­rios como, por ejemplo, al evitar el ove­r­fi­t­ti­ng o al optimizar el uso de recursos, puede ser útil reducir el número de di­me­n­sio­nes de los em­be­d­di­n­gs o vectores de IA para obtener buenos re­su­l­ta­dos.

¿Cuáles son los usos pri­n­ci­pa­les del embedding en Machine Learning?

Los em­be­d­di­n­gs en ML se utilizan pri­n­ci­pa­l­me­n­te en grandes modelos de lenguaje o Large Language Models (LLMs), que son la base de numerosas he­rra­mie­n­tas de IA. Esta técnica no solo incorpora una palabra, sino también su contexto, lo que permite que so­lu­cio­nes como ChatGPT puedan analizar se­cue­n­cias de palabras, oraciones o textos completos. Los casos de uso más comunes del embedding en Machine Learning son:

  • Búsquedas y consultas más precisas: la ve­c­to­ri­za­ción permite afinar búsquedas y consultas, logrando re­su­l­ta­dos más exactos a largo plazo.
  • Co­n­te­x­tua­li­za­ción: al pro­po­r­cio­nar in­fo­r­ma­ción adicional de contexto, se pueden ofrecer re­s­pue­s­tas más precisas.
  • Ada­p­ta­cio­nes in­di­vi­dua­les: los grandes modelos de lenguaje pueden pe­r­so­na­li­zar­se con em­be­d­di­n­gs de IA, ada­p­tá­n­do­los a conceptos o términos es­pe­cí­fi­cos.
  • In­te­gra­ción de datos: los em­be­d­di­n­gs o vectores permiten integrar datos de fuentes externas, lo que hace que los conjuntos de datos sean aún más extensos y diversos.

¿Cómo funciona el embedding en ChromaDB?

Para el al­ma­ce­na­mie­n­to eficiente y la consulta posterior de datos in­co­r­po­ra­dos, una base de datos vectorial es la mejor solución. Este tipo de al­ma­ce­na­mie­n­to no solo guarda los datos de manera compacta, sino que también permite realizar consultas que no devuelven el resultado exacto, sino re­su­l­ta­dos similares. Una de las bases de datos ve­c­to­ria­les de código abierto más populares es ChromaDB. Esta he­rra­mie­n­ta almacena em­be­d­di­n­gs para Machine Learning junto con metadatos, lo que permite que estos puedan ser uti­li­za­dos más adelante por modelos de lenguaje extensos (LLM). Esta solución nos ayuda a ilustrar mejor cómo funcionan las in­co­r­po­ra­cio­nes. En términos generales, solo son ne­ce­sa­rios los tres pasos que se presentan a co­n­ti­nua­ción:

Paso 1: crear una nueva colección

En el primer paso se crea una colección, que guarda si­mi­li­tu­des con las tablas al­ma­ce­na­das en una base de datos re­la­cio­nal. Estas se co­n­vie­r­ten en em­be­d­di­n­gs. Por defecto, ChromaDB utiliza el modelo de co­n­ve­r­sión all-MiniLM-L6-v2 para estos em­be­d­di­n­gs o vectores. Sin embargo, esta co­n­fi­gu­ra­ción puede cambiarse para utilizar otro modelo. Por ejemplo, si necesitas una colección es­pe­cia­li­za­da, puedes elegir otro modelo que se adapte mejor a re­qui­si­tos es­pe­cí­fi­cos, como el pro­ce­sa­mie­n­to de textos técnicos o imágenes. La fle­xi­bi­li­dad en la selección del modelo hace que ChromaDB sea altamente versátil, ya sea para datos de texto, audio o imágenes.

Paso 2: añadir nuevos do­cu­me­n­tos

A co­n­ti­nua­ción, se añaden a la nueva colección do­cu­me­n­tos de texto con metadatos y un ID propio. Si la colección contiene texto, ChromaDB lo convierte au­to­má­ti­ca­me­n­te en em­be­d­di­n­gs o vectores. Los metadatos actúan como in­fo­r­ma­ción adicional para refinar las consultas más adelante, por ejemplo, mediante filtros por ca­te­go­rías o marcas de tiempo. Esta es­tru­c­tu­ra­ción permite gestionar grandes volúmenes de datos de forma ordenada y encontrar re­su­l­ta­dos re­le­va­n­tes de forma más rápida.

Paso 3: consultar los do­cu­me­n­tos buscados

En el tercer paso, puedes consultar textos o em­be­d­di­n­gs en ChromaDB. Como resultado, obtendrás do­cu­me­n­tos que se asemejan a tu consulta. También es posible recuperar los do­cu­me­n­tos deseados in­tro­du­cie­n­do los metadatos co­rre­s­po­n­die­n­tes. Los re­su­l­ta­dos se ordenan según su grado de similitud, de modo que los más re­le­va­n­tes aparecen en la parte superior. Además, puedes optimizar la consulta es­ta­ble­cie­n­do umbrales de similitud o aplicando filtros adi­cio­na­les para aumentar aún más la precisión.

Manage Databases
Managed Database von IONOS

Bases de datos a medida de tus ne­ce­si­da­des. Incluye soporte 24/7.

  • Ar­qui­te­c­tu­ra de primera
  • Soporte 24/7
  • Centros de datos ce­r­ti­fi­ca­dos
Ir al menú principal