¿Qué es Unicode?

Índice

Unicode es un estándar internacional para la codificación, representación y procesamiento de caracteres de texto de prácticamente todos los sistemas de escritura del mundo. Cada carácter recibe un punto de código único que puede almacenarse en distintas codificaciones como UTF-8 o UTF-16. Gracias a ello, Unicode permite una representación y un procesamiento uniformes de los textos en diferentes plataformas e idiomas.

Domain Name Registration

Proyecta tu marca con un gran dominio

Gratis SSL Wildcard para transferencias de datos más seguras
Gratis registro privado para más privacidad

¿Qué es Unicode?

Unicode es el “estándar universal de codificación de caracteres”, su nombre deriva del término inglés “Universal Character Encoding”. Es un estándar para codificar caracteres en representación binaria. Esto permite almacenar y procesar textos en sistemas digitales.

Unicode es innovador en el sentido de que no está atado a los formatos y codificaciones de un único alfabeto de lenguaje humano. Más bien, Unicode fue creado para servir como un estándar uniforme y representar todos los sistemas de escritura y caracteres desarrollados por el ser humano.

Desde el lanzamiento de Unicode 1.0 a finales de 1991, este estándar ha conseguido su propósito. Los navegadores y los sistemas operativos utilizan Unicode internamente. Con la versión 16.0 publicada por el Consorcio Unicode en 2024, el estándar Unicode abarcaba ya un repertorio de 154 998 caracteres en total. El conjunto de caracteres cubierto por el estándar Unicode coincide plenamente con el “Universal Coded Character Set” (UCS), que está normalizado internacionalmente como ISO/IEC 10646.

Bases técnicas de la codificación de caracteres

En primer lugar, es importante entender que toda la información presente en un sistema digital consiste, a un nivel más profundo, en interminables cadenas de ceros y unos. Esto se denomina “representación binaria”. El código binario es en sí algo similar al alfabeto. Sin embargo, en el código binario solo hay dos “letras”: el cero y el uno. Cada dígito dentro de una secuencia binaria se llama “bit”.

El truco básico de la tecnología de la información digital consiste en mapear los caracteres de diferentes alfabetos como secuencias de ceros y unos. De esta forma, se pueden codificar números y letras, pero también todas sus posibles variantes. En general se habla de “símbolos”. Cuanto más larga sea la secuencia de ceros y unos para la representación de un solo símbolo, más símbolos se podrán representar. El número de símbolos posibles se duplica con cada bit añadido.

Un ejemplo concreto: imaginemos que tenemos “palabras” binarias, que tienen dos bits de longitud. Se podrían codificar cuatro números con ellos:

Palabra de 2 bits	NÃºmero
00	0
01	1
10	2
11	3

Si añadimos otro bit al principio de la secuencia, el número de palabras bit posibles se duplica. Se trataría de las secuencias de bits ya conocidas, cada una precedida por un cero o un uno. Podríamos codificar ocho números:

Palabra de 3 bits	NÃºmero
000	0
001	1
010	2
011	3
100	4
101	5
110	6
111	7

Hecho

Una palabra de 8 bits se denomina octeto o byte.

De manera simple, hemos mostrado la codificación de los números como ejemplo. Sin embargo, se utiliza el mismo principio también en sistemas digitales para la codificación de letras o cualquier carácter. Este es un ejemplo muy simplificado de codificación binaria de letras:

Palabra de 3 bits	Letra
000	A
001	B
010	C

La representación gráfica de un carácter se llama glifo. Dependiendo de la fuente utilizada, puede haber diferentes glifos para el mismo carácter, e incluso dentro de una misma fuente pueden existir varias variantes de un glifo. Un ejemplo de esto son los diferentes estilos, como los pesos, ligaduras o cursivas. A continuación, se muestra una representación ampliada que abarca la asignación del carácter al glifo:

RepresentaciÃ³n binaria	Decimal	CarÃ¡cter codificado	Glifo
1000001	65	âAâ mayÃºscula del alfabeto latino	A
1100001	97	âAâ minÃºscula del alfabeto latino	a
0110000	48	â0â Ã¡rabe	0
0111001	57	â9â Ã¡rabe	9
11000100	196	âÃâ mayÃºscula	Ã
11000001	193	âÃâ mayÃºscula	Ã

Terminología de la codificación de caracteres

La codificación digital de caracteres abarca una serie de conceptos específicos. En español, algunos términos se usan de manera intercambiable. Para poder dar una definición precisa de Unicode, también te mostramos aquí los términos en inglés:

TÃ©rmino	Significado	TÃ©rmino en inglÃ©s
Conjunto de caracteres	Grupo de caracteres posibles, por ejemplo, dÃgitos â0-9â, letras âa-zâ, etc.	Character set
Punto de cÃ³digo	NÃºmero asignado a un carÃ¡cter especÃfico dentro del dominio del cÃ³digo.	Code point
Conjunto de caracteres codificado	AsignaciÃ³n de cada carÃ¡cter a exactamente un punto de cÃ³digo	Coded character set
CodificaciÃ³n de caracteres	Proceso de conversiÃ³n de un carÃ¡cter a una estructura tÃ©cnica, por ejemplo, una representaciÃ³n binaria.	Character encoding

Resumen de las codificaciones de caracteres más comunes

Antes de la llegada de Unicode, existía una gran variedad de codificaciones específicas. La norma era utilizar una codificación distinta para cada lengua o familia lingüística. Esto a menudo llevaba a errores de representación e incoherencias en los datos. Para contrarrestar eso, las nuevas codificaciones de caracteres se modelaron a menudo como la revisión de un estándar existente compatible con versiones anteriores. Por ejemplo, el estándar Unicode actual se basa en la anterior codificación de caracteres ISO Latin-1, que a su vez se basa en la codificación ASCII.

CodificaciÃ³n	Bits por carÃ¡cter	Caracteres posibles	Conjunto de caracteres
ASCII	7 bits	128	Letras, nÃºmeros y caracteres especiales del teclado estadounidense, asÃ como caracteres de control para teletipo
ISO Latin-1 (ISO 8859-1)	8 bits	256	Primeros 128 caracteres como ASCII, otros 128 caracteres para los caracteres especiales de las lenguas europeas
Universal Coded Character Set 2 (UCS-2)	16 bits	65 536	Caracteres del âBasic Multilingual Planeâ (BMP); los primeros 256 caracteres son los de ISO Latin-1
Universal Coded Character Set 4 (UCS-4)	32 bits	1 114 111	Caracteres del BMP y otros caracteres; un total de 143 859 caracteres en la versiÃ³n 13.0 de Unicode; los primeros 256 caracteres como ISO Latin-1
UCS Transformation Format 8 Bit (UTF-8)	8/16/24/32 bits	1 114 111	Cualquier carÃ¡cter de UCS-2 y UCS-4; los primeros 256 caracteres como ISO Latin-1

Estructura del estándar Unicode

El estándar Unicode define los caracteres y los puntos de código correspondientes para letras, caracteres silábicos, ideogramas, signos de puntuación, caracteres especiales y números. Además del alfabeto latino, se admiten los alfabetos griego, cirílico, árabe, hebreo y tailandés. También acepta las escrituras japonesas (hiragana y katakana), china y coreana (hangul). Presenta a su vez caracteres especiales matemáticos, comerciales y técnicos, así como caracteres de control históricos para teletipo.

Los caracteres se resumen en una serie de tablas de caracteres. A continuación, ofrecemos un resumen de las tablas de caracteres más comunes.

Sistemas de escritura del estándar Unicode

Tabla de caracteres	Contiene, entre otros, estos alfabetos
Sistemas de escritura europeos	Armenio, georgiano, griego y latÃn
Sistemas de escritura africanos	EtÃope, jeroglÃficos egipcios, coptos
Sistemas de escritura de Oriente Medio	Ãrabe, hebreo, sirio
Sistemas de escritura de Asia Central	Mongol, tibetano y turco antiguo
Sistemas de escritura del sur de Asia	Brahmi, tamil y vÃ©dico
Sistemas de escritura del sudeste asiÃ¡tico	Khmer, rohinyÃ¡ y tailandÃ©s
Sistemas de escritura de Indonesia y OceanÃa	BalinÃ©s, buginÃ©s y javanÃ©s
Sistemas de escritura de Asia oriental	CJK (chino, japonÃ©s, coreano), hangul (coreano), hiragana (japonÃ©s)
Sistemas de escritura americanos	Cheroqui, silabario canadiense, osage

Símbolos y puntuación del estándar Unicode

Tabla de caracteres	Contiene, entre otros, estos signos
PuntuaciÃ³n	Signos de puntuaciÃ³n de la lengua inglesa, signos de puntuaciÃ³n de las lenguas europeas, signos de puntuaciÃ³n CJK
SÃmbolos alfanumÃ©ricos	SÃmbolos matemÃ¡ticos, letras circuladas
SÃmbolos tÃ©cnicos	SÃmbolos del lenguaje de programaciÃ³n APL, sÃmbolos para el reconocimiento Ã³ptico de textos
NÃºmeros y cifras	NÃºmeros mayas, nÃºmeros otomanos siyaq, nÃºmeros de la escritura cuneiforme sumeria
SÃmbolos matemÃ¡ticos	Flechas, operadores matemÃ¡ticos, formas geomÃ©tricas
Emojis y pictogramas	Emoticonos, dingbats, otros pictogramas
Otros sÃmbolos	SÃmbolos alquÃmicos, signos de moneda, signos de ajedrez, dominÃ³ y mahjong
Sistemas de notaciÃ³n	Patrones braille, notaciÃ³n musical, taquigrafÃa duployana

¿Para qué se utiliza Unicode?

El estándar Unicode sirve principalmente como base universal para procesar, almacenar e intercambiar textos en cualquier idioma. La mayoría de los componentes de software modernos, como bibliotecas, protocolos, bases de datos, etc., que operan con texto, se basan en Unicode. Te mostramos el abanico de posibles aplicaciones con los siguientes ejemplos:

Sistemas operativos

Unicode es el estándar interno para la asignación de texto en la mayoría de los sistemas operativos modernos. Algunos sistemas operativos, como macOS de Apple, permiten el uso de caracteres Unicode en los nombres de archivos.

Páginas web

La variante Unicode UTF-8 se ha convertido en el estándar para codificar documentos HTML. Ya en 2016, más del 80 % de las páginas web más visitadas del mundo utilizaban UTF-8 para almacenar y mostrar sus documentos HTML. Para el uso de letras no ASCII en los nombres de dominio, se ha establecido el estándar Punycode.

Crear una página web

Estás de suerte, tu página web ahora con IA

Creador de páginas web rápido e intuitivo
Imágenes y textos instantáneos con SEO optimizado por IA
Dominio, SSL y buzón de correo electrónico incluidos

Lenguajes de programación

Muchos lenguajes de programación modernos utilizan Unicode como base para procesar el texto. Un avance más reciente es la posibilidad de utilizar caracteres Unicode para nombrar variables y funciones. Esto es posible en ECMAScript/JavaScript, entre otros. Lo representamos en el siguiente código:

let ︎👍 = true;
let 👎 = false;
if (bool_var === ︎👎) {
 // …
}

javascript

Bases de datos

La popular y ampliamente utilizada base de datos MySQL es compatible con el conjunto completo de caracteres Unicode con la codificación de caracteres “utf8mb4”. Sin embargo, cuando se utiliza la codificación de caracteres “utf8”, los caracteres cuyo punto de código supera los 3 bytes se pierden.

Fuentes

Las fuentes contienen los glifos utilizados para la representación gráfica del texto. Debido al gran número de caracteres que contiene el estándar Unicode, no hay ninguna fuente que contenga todos los caracteres. Incluso el subconjunto Basic Multilingual Plane solo está completamente cubierto por unas pocas fuentes. He aquí algunos ejemplos:

Fuente Unicode	Glifos	Licencia
Noto	Alrededor de 77 000	Open Font License
Sun-ExtA/B	Alrededor de 50 000	Freeware
Unifont	Alrededor de 63 000	GNU GPL
Code2000	Alrededor de 63 000	Shareware

HiDrive Cloud Storage

Store and share your data on the go

Store, share, and edit data easily
Backed up and highly secure
Sync with all devices

¿Cómo se utiliza Unicode?

Muchas veces, los usuarios utilizan Unicode sin saberlo. El texto digital existe en la mayoría de los documentos y aplicaciones como Unicode y puede ser copiado, pegado y editado por el usuario a voluntad. A veces surge la necesidad de que el usuario inserte un carácter Unicode específico en el texto. Hay varias formas de hacerlo, que presentamos a continuación:

Teclados de software especiales

El uso de teclados de software especiales es probablemente el método más común para insertar caracteres Unicode en el texto. Omnipresentes en los dispositivos móviles, los teclados de software permiten cambiar de idioma y utilizar sus correspondientes alfabetos. Esto cambia la asignación de teclas, con todos los caracteres procedentes del repertorio Unicode. Los caracteres pueden mezclarse y combinarse entre sí en los textos.

Un buen ejemplo de ello son los emojis: en Unicode, los emojis son caracteres frecuentes como letras, números y caracteres especiales. Como es habitual en los caracteres digitales, la representación de los emojis es independiente de su modelado interno. Cada sistema operativo representa los emojis de una manera ligeramente diferente.

Los útiles teclados de software no solo se encuentran en los dispositivos móviles. También están presentes en el escritorio. Se pueden abrir fácilmente en Windows, macOS, y muchas distribuciones de Linux y muestran un conjunto diferente de caracteres en función del idioma seleccionado. Como el número de teclas es limitado, no se representan todos los caracteres Unicode. Se ofrece más bien una selección de los caracteres más comunes según el idioma.

Tablas de caracteres Unicode

Además de los teclados de software, las tablas de caracteres Unicode son probablemente la forma más útil de acceder a los caracteres Unicode. Como recordatorio, un conjunto de caracteres codificados (“Coded character set”) es el conjunto de todos los caracteres junto a sus puntos de código únicos correspondientes. Para una estructura de este tipo, la disposición en forma de tabla es muy útil, y de hecho el estándar Unicode incluye exactamente estas tablas, llamadas Code Charts. Por un lado, se pueden copiar caracteres específicos de estas tablas para utilizarlos en otros lugares. Por otro lado, los usuarios pueden leer el punto de código correspondiente, por ejemplo, para utilizarlo como una referencia de carácter numérico.

Muchos sistemas operativos de escritorio también contienen una tabla de caracteres Unicode. Esta ofrece una visión general de todos los caracteres Unicode disponibles, incluidos el punto de código, la descripción y el glifo. Se puede insertar o copiar cualquier carácter con un clic. También se puede crear una tabla de caracteres con unas pocas líneas de código. Más adelante en este artículo te mostraremos un ejemplo en el lenguaje de programación Python.

Referencia de carácter numérico

El estándar Unicode se centra en la asignación de caracteres a puntos de código. Si conoces el punto de código de un carácter, puedes utilizarlo para insertar el carácter correspondiente en diferentes contextos. En Windows, la inserción de símbolos Unicode se realiza desde el teclado hardware normal utilizando una combinación de teclas especial. Ten en cuenta que el número de puntos de código debe introducirse normalmente en notación hexadecimal.

La mayoría de las veces, los programadores necesitan las referencias de caracteres numéricos. La representación hexadecimal de los puntos de código permite mapear un carácter Unicode en caracteres del conjunto ASCII. Aquí mostramos el procedimiento en HTML; en principio, esto funciona igual de bien en Python, C++, etc.

El esquema general para incluir un carácter por referencia numérica incluye la referencia en sí, así como una terminación de apertura y cierre. En los documentos HTML, la referencia numérica se abre con &#x y se cierra con ;”. En medio, se introduce el punto de código hexadecimal de dos a cuatro caracteres sin espacios. El resultado es el patrón &#xNNNN;.

Por ejemplo, para introducir el signo de copyright “©” en un documento HTML, se procede de la siguiente manera:

Se busca el carácter en una tabla Unicode
Se lee el punto de código correspondiente al carácter. En nuestro ejemplo, el punto de código se indica como “U+00A9”, que corresponde a la representación hexadecimal.
Se compone la referencia del carácter y se inserta en el código fuente HTML o en un documento Markdown. En nuestro caso, introducimos ©, lo que genera el carácter renderizado “©”.

Otro enfoque relacionado, aunque menos frecuente, permite el uso de puntos de código en notación decimal en lugar de hexadecimal. En este caso, la referencia numérica comienza con &# (sin la “x”) y termina con ; como antes. Entre ambos se escribe el punto de código en formato decimal. En el caso de nuestro ejemplo, la referencia numérica es © para el símbolo de copyright.

Consejo

Utiliza el inspector de caracteres Unicode para obtener rápidamente los diferentes códigos de un carácter

Entidades de carácter

Dado que escribir los caracteres Unicode como referencias numéricas no es intuitivo para los humanos, existe otro método. Se trata de las entidades de carácter. Se definen para los caracteres de uso común y asignan un nombre corto y fácil de recordar al carácter. Una entidad de carácter comienza con el símbolo et & y termina con un punto y coma ;. Entre ellos, el nombre definido se coloca sin espacios. Para insertar el signo de copyright “©” en HTML, basta con escribir ©.

Consejo

La lista completa de entidades de carácter definidas está disponible en estándar HTML.

Lenguajes de programación

La mayoría de los lenguajes de programación contienen funciones básicas que pueden utilizarse para convertir caracteres y puntos de código. Las funciones correspondientes suelen llamarse ord(carácter) y chr(punto de código). Se aplica lo siguiente:

chr(ord(carácter)) == Carácter

Ten en cuenta que siempre es posible determinar el punto de código correspondiente a un carácter. Por el contrario, el mapeado solo funciona para los números que se definen realmente como puntos de código de caracteres. Aquí mostramos el esquema básico utilizando un breve ejemplo de Python:

# Determinar el punto de código decimal de un carácter
ord('A') # `65`
# Determinar el punto de código hexadecimal de un carácter
hex(ord('A')) # `0x41`
# Determinar el carácter que pertenece al punto de código
chr(65) # `'A'`
chr(0x41) # `'A'`
chr(0x110001) # Error, ya que el punto de código > `0x110000`

python

Con la ayuda de estas funciones, es posible crear fácilmente una tabla de caracteres para los puntos de código del conjunto de caracteres Unicode. Esto se hace iterando los puntos de código y emitiendo los caracteres correspondientes. Con Python, esto se hace en unas pocas líneas de código:

# `range` comienza en `32` porque los caracteres de control salen con un valor menor
# Establecer conjunto de caracteres ASCII 
for code_point in range(32, 128):
	print(code_point, hex(code_point), chr(code_point))
# Establecer ISO Latin-1 
for code_point in range(32, 256):
	print(code_point, hex(code_point), chr(code_point))

python

Biblioteca de programas ICU

Los componentes internacionales para Unicode (“International Components for Unicode”, ICU), se combinan en una biblioteca de programas proporcionada por el Consorcio Unicode. La biblioteca se publica bajo una licencia de código abierto y puede utilizarse en muchos sistemas operativos. El software se utiliza para la internacionalización programática (“internationalization”, a menudo abreviado como “i18n”). Sus áreas de aplicación incluyen:

Tratamiento de textos Unicode
Soporte de expresiones regulares en Unicode
Análisis y formato de los datos del calendario, la hora, los números, las monedas y los mensajes

La biblioteca ICU está disponible en dos versiones:

“icu4c” está escrito en C/C++ y proporciona una API para estos lenguajes.
“icu4j” está escrito en Java y proporciona una API para este lenguaje.

El uso de los componentes ofrece resultados consistentes independientemente de la plataforma subyacente.

Especificación del conjunto de caracteres en la cabecera de los documentos HTML

La mayoría de los documentos HTML actuales están codificados en UTF-8. Para asegurarse de que los visitantes de la página vean el documento sin caracteres incorrectos, se debe colocar una etiqueta meta con la declaración del “Charset” en la sección Head del documento HTML. Esto le dice al navegador que interprete el documento cargado como UTF-8, y tiene la siguiente apariencia:

<head>
<meta charset="utf-8">
<!—otros elementos de la cabecera -->
</head>

html

Fuentes de Instagram

La popular red social Instagram no permite formatear el texto en la biografía, publicaciones o historias. Esto limita las posibilidades creativas de los usuarios. Sin embargo, algunos desarrolladores han encontrado una solución ingeniosa: Instagram utiliza Unicode, lo que permite componer textos que parecen estar formateados a partir de caracteres especiales. En particular, se utilizan caracteres que se asemejan a las letras latinas. La manera más sencilla de generar este tipo de texto es utilizando un generador de fuentes de Instagram. Además, el uso de fuentes de Instagram también funciona en otras redes sociales.

Artículos Favoritos

Compraventa de dominios: cómo ganar dinero con las direcciones web

La compraventa de dominios puede convertirse en una actividad lucrativa, siempre que se…

Comparamos 5 alternativas a Nextcloud

¿Buscas alternativas a Nextcloud y quieres saber si están a su nivel? Te ofrecemos un…

Los mejores proveedores de copias de seguridad en la nube

¡Asegura tus datos de manera fiable en la nube! Tus datos estarán en buenas manos con…

Cómo actualizar Debian 13 paso a paso

Aprende cómo actualizar Debian 13 de forma segura y sin errores, desde la preparación del…

Alternativas a InDesign de Adobe gratuitas

¿Te sale muy caro usar InDesign para la maquetación y el diseño editorial? Descubre las…

Artículos similares

FlashMovieShutterstock

BOM: ¿qué es una byte order mark?

¿En qué dirección se leen los textos? A muchas personas les parecerá obvio: de izquierda a derecha. Sin embargo, en otras culturas se lee justo en la dirección opuesta. Se trata, en cualquier caso, de una convención, algo que los ordenadores no conciben. Entonces ¿en qué…

ASAG StudioShutterstock

UTF-8: el estándar de la red

UTF-8 es una codificación de caracteres de Unicode diseñada para dar soporte a todos los idiomas modernos en el procesamiento de datos. ¿Qué es UTF-8 y qué lo hace especial dentro de Unicode? Aquí te mostramos en qué se basa su estructura, qué bytes están permitidos y cómo…

Glosario
Digitalización
Cifrado

¿Qué es Unicode?

¿Qué es Unicode?

Bases técnicas de la co­di­fi­ca­ción de ca­ra­c­te­res

Te­r­mi­no­lo­gía de la co­di­fi­ca­ción de ca­ra­c­te­res

Resumen de las co­di­fi­ca­cio­nes de ca­ra­c­te­res más comunes

Es­tru­c­tu­ra del estándar Unicode

Sistemas de escritura del estándar Unicode

Símbolos y pu­n­tua­ción del estándar Unicode

¿Para qué se utiliza Unicode?

Sistemas ope­ra­ti­vos

Páginas web

Lenguajes de pro­gra­ma­ción

Bases de datos

Fuentes

¿Cómo se utiliza Unicode?

Teclados de software es­pe­cia­les

Tablas de ca­ra­c­te­res Unicode

Re­fe­re­n­cia de carácter numérico

Entidades de carácter

Lenguajes de pro­gra­ma­ción

Bi­blio­te­ca de programas ICU

Es­pe­ci­fi­ca­ción del conjunto de ca­ra­c­te­res en la cabecera de los do­cu­me­n­tos HTML

Fuentes de Instagram

Bases técnicas de la codificación de caracteres

Terminología de la codificación de caracteres

Resumen de las codificaciones de caracteres más comunes

Estructura del estándar Unicode

Símbolos y puntuación del estándar Unicode

Sistemas operativos

Lenguajes de programación

Teclados de software especiales

Tablas de caracteres Unicode

Referencia de carácter numérico

Lenguajes de programación

Biblioteca de programas ICU

Especificación del conjunto de caracteres en la cabecera de los documentos HTML