En IA, los tokens re­pre­se­n­tan la unidad li­n­güí­s­ti­ca más pequeña que los modelos de in­te­li­ge­n­cia ar­ti­fi­cial necesitan para poder procesar e in­te­r­pre­tar texto. Con la ayuda del proceso de to­ke­ni­za­ción de IA, el lenguaje se de­s­co­m­po­ne en estas unidades básicas o tokens, lo que co­n­s­ti­tu­ye la base para el análisis y la ge­ne­ra­ción de textos. Gracias a he­rra­mie­n­tas como el Tokenizer de OpenAI, es posible de­te­r­mi­nar de manera sencilla y rápida los tokens de un texto.

De­fi­ni­ción: ¿qué son los tokens de IA?

Los tokens de in­te­li­ge­n­cia ar­ti­fi­cial (Ar­ti­fi­cial In­te­lli­ge­n­ce Tokens) re­pre­se­n­tan las unidades de datos más pequeñas que necesitan los di­fe­re­n­tes modelos de IA, como ChatGPT, LLama2 o Copilot, para procesar, in­te­r­pre­tar y generar textos. Cuando un texto se divide en tokens, la in­te­li­ge­n­cia ar­ti­fi­cial es capaz de entender el lenguaje y, por tanto, de pro­po­r­cio­nar re­s­pue­s­tas que se ajustan a las consultas de los usuarios. Los tokens de IA pueden consistir tanto de palabras completas, como de partes de palabras, signos de pu­n­tua­ción o incluso emojis.

El número de tokens de IA en un texto depende de varios factores, como la longitud del texto, el idioma utilizado y el modelo de IA que se emplea. Por ejemplo, si usas un acceso API como la API de ChatGPT, la cantidad de tokens va a influir di­re­c­ta­me­n­te en los costes generados, ya que en la mayoría de los casos las apli­ca­cio­nes de IA facturan según el número de tokens de IA uti­li­za­dos.

He­rra­mie­n­tas de IA
Saca el máximo partido a la in­te­li­ge­n­cia ar­ti­fi­cial
  • Crea tu página web en tiempo récord
  • Impulsa tu negocio gracias al marketing de IA
  • Ahorra tiempo y obtén mejores re­su­l­ta­dos

¿Cómo funciona la to­ke­ni­za­ción de IA?

El proceso mediante el cual un modelo de in­te­li­ge­n­cia ar­ti­fi­cial convierte un texto en tokens se denomina to­ke­ni­za­ción de IA. Este paso es esencial porque los Large Language Models, o modelos de lenguaje extensos, necesitan tra­n­s­fo­r­mar el lenguaje natural en un formato que pueda ser analizado por máquinas. La to­ke­ni­za­ción es, por tanto, la base para la in­te­r­pre­ta­ción de textos, el re­co­no­ci­mie­n­to de patrones y la ge­ne­ra­ción de re­s­pue­s­tas. Sin este proceso, la in­te­li­ge­n­cia ar­ti­fi­cial no podría co­m­pre­n­der las re­la­cio­nes y los si­g­ni­fi­ca­dos co­n­te­x­tua­les. Este proceso de tra­n­s­fo­r­ma­ción del texto en tokens consta de varias etapas, que son las si­guie­n­tes:

  1. No­r­ma­li­za­ción: en un primer paso, el modelo de IA convierte el texto en una forma es­ta­n­da­ri­za­da para reducir la co­m­ple­ji­dad y la va­ria­bi­li­dad. Durante este proceso de no­r­ma­li­za­ción, el texto completo se tra­n­s­fo­r­ma en mi­nú­s­cu­las, se eliminan los ca­ra­c­te­res es­pe­cia­les y, en algunos casos, las palabras se si­m­pli­fi­can a sus formas base.

  2. División del texto en tokens: a co­n­ti­nua­ción, la IA de­s­co­m­po­ne el texto en tokens, es decir, en unidades li­n­güí­s­ti­cas más pequeñas. La forma en que se dividen los co­m­po­ne­n­tes del texto depende de la co­m­ple­ji­dad y el en­tre­na­mie­n­to del modelo. Por ejemplo, la frase “La IA re­vo­lu­cio­na los estudios de mercado” se compone de doce tokens en GPT-3, once en GPT-3.5 y GPT-4, y solo nueve en GPT-4o.

  3. Asi­g­na­ción de valores numéricos: al final, el modelo de in­te­li­ge­n­cia ar­ti­fi­cial asigna a cada token un valor numérico, conocido como el ID del token. Estos ID o valores numéricos co­n­s­ti­tu­yen el vo­ca­bu­la­rio de la in­te­li­ge­n­cia ar­ti­fi­cial, que incluye todos los tokens que el modelo ha ido apre­n­die­n­do.

  4. Pro­ce­sa­mie­n­to de los tokens de IA: el modelo de lenguaje analiza las re­la­cio­nes entre los tokens para ide­n­ti­fi­car patrones y generar pre­di­c­cio­nes o re­s­pue­s­tas. Estas se basan en pro­ba­bi­li­da­des. El modelo de IA evalúa el contexto y determina los próximos tokens teniendo en cuenta los tokens an­te­rio­res.

IONOS AI Model Hub
Su puerta de acceso a una pla­ta­fo­r­ma segura de IA mu­l­ti­mo­dal
  • Una pla­ta­fo­r­ma para los modelos de IA más potentes
  • Precios justos y tra­n­s­pa­re­n­tes basados en tokens
  • Sin de­pe­n­de­n­cia de pro­vee­do­res gracias al código abierto

¿Cómo se calculan los tokens de un texto?

La forma en la que la IA calcula los tokens se puede analizar mediante he­rra­mie­n­tas llamadas to­ke­ni­ze­rs o to­ke­ni­za­do­res, que de­s­co­m­po­nen el texto en sus unidades mínimas de pro­ce­sa­mie­n­to. Estos utilizan al­go­ri­t­mos es­pe­cí­fi­cos que se basan en los datos de en­tre­na­mie­n­to y la ar­qui­te­c­tu­ra del modelo de IA. Además de mostrar el número de tokens, estas he­rra­mie­n­tas pro­po­r­cio­nan in­fo­r­ma­ción detallada sobre cada token como, por ejemplo, su co­rre­s­po­n­die­n­te ID numérico. Esto no solo permite calcular los costes de manera más eficiente, sino también optimizar los textos para su uso en modelos de IA.

Un ejemplo de to­ke­ni­za­dor accesible es el OpenAI Tokenizer, diseñado para los modelos de ChatGPT actuales. Tras in­tro­du­cir el texto en el campo de entrada, la he­rra­mie­n­ta muestra cada uno de los tokens de IA re­sa­l­ta­dos en color.

Nota

El límite máximo de un texto siempre depende del límite de tokens del modelo co­rre­s­po­n­die­n­te. El modelo GPT-4, por ejemplo, puede procesar hasta 32 768 tokens por solicitud.

Los tokens de IA y la to­ke­ni­za­ción: un ejemplo práctico

Para ilustrar mejor el proceso de to­ke­ni­za­ción de IA, a co­n­ti­nua­ción, se muestra un texto breve como ejemplo:

Los tokens de IA son ese­n­cia­les para los modelos li­n­güí­s­ti­cos modernos como GPT-4. Pero ¿por qué? Pues porque estos tokens dividen los textos en unidades más pequeñas, lo que permite que la in­te­li­ge­n­cia ar­ti­fi­cial pueda ana­li­zar­los y co­m­pre­n­de­r­los. Sin el proceso de la to­ke­ni­za­ción, sería imposible para los modelos de IA procesar el lenguaje natural de manera eficiente.

El modelo GPT-4o divide este texto, que contiene 374 ca­ra­c­te­res, en 74 tokens, como se muestra a co­n­ti­nua­ción:

Imagen: OpenAI: ejemplo de Tokenizer
Tokens de IA de­s­glo­sa­dos para una secuencia de texto; Fuente: https://platform.openai.com/tokenizer
Ir al menú principal