Unicode es un estándar in­te­r­na­cio­nal para la co­di­fi­ca­ción, re­pre­se­n­ta­ción y pro­ce­sa­mie­n­to de ca­ra­c­te­res de texto de prá­c­ti­ca­me­n­te todos los sistemas de escritura del mundo. Cada carácter recibe un punto de código único que puede al­ma­ce­nar­se en distintas co­di­fi­ca­cio­nes como UTF-8 o UTF-16. Gracias a ello, Unicode permite una re­pre­se­n­ta­ción y un pro­ce­sa­mie­n­to uniformes de los textos en di­fe­re­n­tes pla­ta­fo­r­mas e idiomas.

Domain Name Re­gi­s­tra­tion
Proyecta tu marca con un gran dominio
  • Gratis SSL Wildcard para tra­n­s­fe­re­n­cias de datos más seguras
  • Gratis registro privado para más pri­va­ci­dad  

¿Qué es Unicode?

Unicode es el “estándar universal de co­di­fi­ca­ción de ca­ra­c­te­res”, su nombre deriva del término inglés “Universal Character Encoding”. Es un estándar para codificar ca­ra­c­te­res en re­pre­se­n­ta­ción binaria. Esto permite almacenar y procesar textos en sistemas digitales.

Unicode es innovador en el sentido de que no está atado a los formatos y co­di­fi­ca­cio­nes de un único alfabeto de lenguaje humano. Más bien, Unicode fue creado para servir como un estándar uniforme y re­pre­se­n­tar todos los sistemas de escritura y ca­ra­c­te­res de­sa­rro­lla­dos por el ser humano.

Desde el la­n­za­mie­n­to de Unicode 1.0 a finales de 1991, este estándar ha co­n­se­gui­do su propósito. Los na­ve­ga­do­res y los sistemas ope­ra­ti­vos utilizan Unicode in­te­r­na­me­n­te. Con la versión 16.0 publicada por el Consorcio Unicode en 2024, el estándar Unicode abarcaba ya un re­pe­r­to­rio de 154 998 ca­ra­c­te­res en total. El conjunto de ca­ra­c­te­res cubierto por el estándar Unicode coincide ple­na­me­n­te con el “Universal Coded Character Set” (UCS), que está no­r­ma­li­za­do in­te­r­na­cio­na­l­me­n­te como ISO/IEC 10646.

Bases técnicas de la co­di­fi­ca­ción de ca­ra­c­te­res

En primer lugar, es im­po­r­ta­n­te entender que toda la in­fo­r­ma­ción presente en un sistema digital consiste, a un nivel más profundo, en in­te­r­mi­na­bles cadenas de ceros y unos. Esto se denomina “re­pre­se­n­ta­ción binaria”. El código binario es en sí algo similar al alfabeto. Sin embargo, en el código binario solo hay dos “letras”: el cero y el uno. Cada dígito dentro de una secuencia binaria se llama “bit”.

El truco básico de la te­c­no­lo­gía de la in­fo­r­ma­ción digital consiste en mapear los ca­ra­c­te­res de di­fe­re­n­tes alfabetos como se­cue­n­cias de ceros y unos. De esta forma, se pueden codificar números y letras, pero también todas sus posibles variantes. En general se habla de “símbolos”. Cuanto más larga sea la secuencia de ceros y unos para la re­pre­se­n­ta­ción de un solo símbolo, más símbolos se podrán re­pre­se­n­tar. El número de símbolos posibles se duplica con cada bit añadido.

Un ejemplo concreto: ima­gi­ne­mos que tenemos “palabras” binarias, que tienen dos bits de longitud. Se podrían codificar cuatro números con ellos:

Palabra de 2 bits Número
00 0
01 1
10 2
11 3

Si añadimos otro bit al principio de la secuencia, el número de palabras bit posibles se duplica. Se trataría de las se­cue­n­cias de bits ya conocidas, cada una precedida por un cero o un uno. Podríamos codificar ocho números:

Palabra de 3 bits Número
000 0
001 1
010 2
011 3
100 4
101 5
110 6
111 7
Hecho

Una palabra de 8 bits se denomina octeto o byte.

De manera simple, hemos mostrado la co­di­fi­ca­ción de los números como ejemplo. Sin embargo, se utiliza el mismo principio también en sistemas digitales para la co­di­fi­ca­ción de letras o cualquier carácter. Este es un ejemplo muy si­m­pli­fi­ca­do de co­di­fi­ca­ción binaria de letras:

Palabra de 3 bits Letra
000 A
001 B
010 C

La re­pre­se­n­ta­ción gráfica de un carácter se llama glifo. De­pe­n­die­n­do de la fuente utilizada, puede haber di­fe­re­n­tes glifos para el mismo carácter, e incluso dentro de una misma fuente pueden existir varias variantes de un glifo. Un ejemplo de esto son los di­fe­re­n­tes estilos, como los pesos, ligaduras o cursivas. A co­n­ti­nua­ción, se muestra una re­pre­se­n­ta­ción ampliada que abarca la asi­g­na­ción del carácter al glifo:

Re­pre­se­n­ta­ción binaria Decimal Carácter co­di­fi­ca­do Glifo
1000001 65 “A” mayúscula del alfabeto latino A
1100001 97 “A” minúscula del alfabeto latino a
0110000 48 “0” árabe 0
0111001 57 “9” árabe 9
11000100 196 “Ä” mayúscula Ä
11000001 193 “Á” mayúscula Á

Te­r­mi­no­lo­gía de la co­di­fi­ca­ción de ca­ra­c­te­res

La co­di­fi­ca­ción digital de ca­ra­c­te­res abarca una serie de conceptos es­pe­cí­fi­cos. En español, algunos términos se usan de manera in­te­r­ca­m­bia­ble. Para poder dar una de­fi­ni­ción precisa de Unicode, también te mostramos aquí los términos en inglés:

Término Si­g­ni­fi­ca­do Término en inglés
Conjunto de ca­ra­c­te­res Grupo de ca­ra­c­te­res posibles, por ejemplo, dígitos “0-9”, letras “a-z”, etc. Character set
Punto de código Número asignado a un carácter es­pe­cí­fi­co dentro del dominio del código. Code point
Conjunto de ca­ra­c­te­res co­di­fi­ca­do Asi­g­na­ción de cada carácter a exac­ta­me­n­te un punto de código Coded character set
Co­di­fi­ca­ción de ca­ra­c­te­res Proceso de co­n­ve­r­sión de un carácter a una es­tru­c­tu­ra técnica, por ejemplo, una re­pre­se­n­ta­ción binaria. Character encoding

Resumen de las co­di­fi­ca­cio­nes de ca­ra­c­te­res más comunes

Antes de la llegada de Unicode, existía una gran variedad de co­di­fi­ca­cio­nes es­pe­cí­fi­cas. La norma era utilizar una co­di­fi­ca­ción distinta para cada lengua o familia li­n­güí­s­ti­ca. Esto a menudo llevaba a errores de re­pre­se­n­ta­ción e in­cohe­re­n­cias en los datos. Para co­n­tra­rre­s­tar eso, las nuevas co­di­fi­ca­cio­nes de ca­ra­c­te­res se modelaron a menudo como la revisión de un estándar existente co­m­pa­ti­ble con versiones an­te­rio­res. Por ejemplo, el estándar Unicode actual se basa en la anterior co­di­fi­ca­ción de ca­ra­c­te­res ISO Latin-1, que a su vez se basa en la co­di­fi­ca­ción ASCII.

Co­di­fi­ca­ción Bits por carácter Ca­ra­c­te­res posibles Conjunto de ca­ra­c­te­res
ASCII 7 bits 128 Letras, números y ca­ra­c­te­res es­pe­cia­les del teclado es­ta­dou­ni­de­n­se, así como ca­ra­c­te­res de control para teletipo
ISO Latin-1 (ISO 8859-1) 8 bits 256 Primeros 128 ca­ra­c­te­res como ASCII, otros 128 ca­ra­c­te­res para los ca­ra­c­te­res es­pe­cia­les de las lenguas europeas
Universal Coded Character Set 2 (UCS-2) 16 bits 65 536 Ca­ra­c­te­res del “Basic Mu­l­ti­li­n­gual Plane” (BMP); los primeros 256 ca­ra­c­te­res son los de ISO Latin-1
Universal Coded Character Set 4 (UCS-4) 32 bits 1 114 111 Ca­ra­c­te­res del BMP y otros ca­ra­c­te­res; un total de 143 859 ca­ra­c­te­res en la versión 13.0 de Unicode; los primeros 256 ca­ra­c­te­res como ISO Latin-1
UCS Tra­n­s­fo­r­ma­tion Format 8 Bit (UTF-8) 8/16/24/32 bits 1 114 111 Cualquier carácter de UCS-2 y UCS-4; los primeros 256 ca­ra­c­te­res como ISO Latin-1

Es­tru­c­tu­ra del estándar Unicode

El estándar Unicode define los ca­ra­c­te­res y los puntos de código co­rre­s­po­n­die­n­tes para letras, ca­ra­c­te­res silábicos, ideo­gra­mas, signos de pu­n­tua­ción, ca­ra­c­te­res es­pe­cia­les y números. Además del alfabeto latino, se admiten los alfabetos griego, cirílico, árabe, hebreo y tailandés. También acepta las es­cri­tu­ras japonesas (hiragana y katakana), china y coreana (hangul). Presenta a su vez ca­ra­c­te­res es­pe­cia­les ma­te­má­ti­cos, co­me­r­cia­les y técnicos, así como ca­ra­c­te­res de control hi­s­tó­ri­cos para teletipo.

Los ca­ra­c­te­res se resumen en una serie de tablas de ca­ra­c­te­res. A co­n­ti­nua­ción, ofrecemos un resumen de las tablas de ca­ra­c­te­res más comunes.

Sistemas de escritura del estándar Unicode

Tabla de ca­ra­c­te­res Contiene, entre otros, estos alfabetos
Sistemas de escritura europeos Armenio, georgiano, griego y latín
Sistemas de escritura africanos Etíope, je­ro­glí­fi­cos egipcios, coptos
Sistemas de escritura de Oriente Medio Árabe, hebreo, sirio
Sistemas de escritura de Asia Central Mongol, tibetano y turco antiguo
Sistemas de escritura del sur de Asia Brahmi, tamil y védico
Sistemas de escritura del sudeste asiático Khmer, rohinyá y tailandés
Sistemas de escritura de Indonesia y Oceanía Balinés, buginés y javanés
Sistemas de escritura de Asia oriental CJK (chino, japonés, coreano), hangul (coreano), hiragana (japonés)
Sistemas de escritura ame­ri­ca­nos Cheroqui, silabario ca­na­die­n­se, osage

Símbolos y pu­n­tua­ción del estándar Unicode

Tabla de ca­ra­c­te­res Contiene, entre otros, estos signos
Pu­n­tua­ción Signos de pu­n­tua­ción de la lengua inglesa, signos de pu­n­tua­ción de las lenguas europeas, signos de pu­n­tua­ción CJK
Símbolos al­fa­nu­mé­ri­cos Símbolos ma­te­má­ti­cos, letras ci­r­cu­la­das
Símbolos técnicos Símbolos del lenguaje de pro­gra­ma­ción APL, símbolos para el re­co­no­ci­mie­n­to óptico de textos
Números y cifras Números mayas, números otomanos siyaq, números de la escritura cu­nei­fo­r­me sumeria
Símbolos ma­te­má­ti­cos Flechas, ope­ra­do­res ma­te­má­ti­cos, formas geo­mé­tri­cas
Emojis y pi­c­to­gra­mas Emo­ti­co­nos, dingbats, otros pi­c­to­gra­mas
Otros símbolos Símbolos al­quí­mi­cos, signos de moneda, signos de ajedrez, dominó y mahjong
Sistemas de notación Patrones braille, notación musical, ta­qui­gra­fía duployana

¿Para qué se utiliza Unicode?

El estándar Unicode sirve pri­n­ci­pa­l­me­n­te como base universal para procesar, almacenar e in­te­r­ca­m­biar textos en cualquier idioma. La mayoría de los co­m­po­ne­n­tes de software modernos, como bi­blio­te­cas, pro­to­co­los, bases de datos, etc., que operan con texto, se basan en Unicode. Te mostramos el abanico de posibles apli­ca­cio­nes con los si­guie­n­tes ejemplos:

Sistemas ope­ra­ti­vos

Unicode es el estándar interno para la asi­g­na­ción de texto en la mayoría de los sistemas ope­ra­ti­vos modernos. Algunos sistemas ope­ra­ti­vos, como macOS de Apple, permiten el uso de ca­ra­c­te­res Unicode en los nombres de archivos.

Páginas web

La variante Unicode UTF-8 se ha co­n­ve­r­ti­do en el estándar para codificar do­cu­me­n­tos HTML. Ya en 2016, más del 80 % de las páginas web más visitadas del mundo uti­li­za­ban UTF-8 para almacenar y mostrar sus do­cu­me­n­tos HTML. Para el uso de letras no ASCII en los nombres de dominio, se ha es­ta­ble­ci­do el estándar Punycode.

Crear una página web
Estás de suerte, tu página web ahora con IA
  • Creador de páginas web rápido e intuitivo
  • Imágenes y textos in­s­ta­n­tá­neos con SEO op­ti­mi­za­do por IA
  • Dominio, SSL y buzón de correo ele­c­tró­ni­co incluidos

Lenguajes de pro­gra­ma­ción

Muchos lenguajes de pro­gra­ma­ción modernos utilizan Unicode como base para procesar el texto. Un avance más reciente es la po­si­bi­li­dad de utilizar ca­ra­c­te­res Unicode para nombrar variables y funciones. Esto es posible en EC­MA­S­cri­pt/Ja­va­S­cri­pt, entre otros. Lo re­pre­se­n­ta­mos en el siguiente código:

let ︎👍 = true;
let 👎 = false;
if (bool_var === ︎👎) {
 // …
}
ja­va­s­cri­pt

Bases de datos

La popular y am­plia­me­n­te utilizada base de datos MySQL es co­m­pa­ti­ble con el conjunto completo de ca­ra­c­te­res Unicode con la co­di­fi­ca­ción de ca­ra­c­te­res “utf8mb4”. Sin embargo, cuando se utiliza la co­di­fi­ca­ción de ca­ra­c­te­res “utf8”, los ca­ra­c­te­res cuyo punto de código supera los 3 bytes se pierden.

Fuentes

Las fuentes contienen los glifos uti­li­za­dos para la re­pre­se­n­ta­ción gráfica del texto. Debido al gran número de ca­ra­c­te­res que contiene el estándar Unicode, no hay ninguna fuente que contenga todos los ca­ra­c­te­res. Incluso el su­b­co­n­ju­n­to Basic Mu­l­ti­li­n­gual Plane solo está co­m­ple­ta­me­n­te cubierto por unas pocas fuentes. He aquí algunos ejemplos:

Fuente Unicode Glifos Licencia
Noto Alrededor de 77 000 Open Font License
Sun-ExtA/B Alrededor de 50 000 Freeware
Unifont Alrededor de 63 000 GNU GPL
Code2000 Alrededor de 63 000 Shareware
HiDrive Cloud Storage
Store and share your data on the go
  • Store, share, and edit data easily
  • Backed up and highly secure
  • Sync with all devices

¿Cómo se utiliza Unicode?

Muchas veces, los usuarios utilizan Unicode sin saberlo. El texto digital existe en la mayoría de los do­cu­me­n­tos y apli­ca­cio­nes como Unicode y puede ser copiado, pegado y editado por el usuario a voluntad. A veces surge la necesidad de que el usuario inserte un carácter Unicode es­pe­cí­fi­co en el texto. Hay varias formas de hacerlo, que pre­se­n­ta­mos a co­n­ti­nua­ción:

Teclados de software es­pe­cia­les

El uso de teclados de software es­pe­cia­les es pro­ba­ble­me­n­te el método más común para insertar ca­ra­c­te­res Unicode en el texto. Om­ni­pre­se­n­tes en los di­s­po­si­ti­vos móviles, los teclados de software permiten cambiar de idioma y utilizar sus co­rre­s­po­n­die­n­tes alfabetos. Esto cambia la asi­g­na­ción de teclas, con todos los ca­ra­c­te­res pro­ce­de­n­tes del re­pe­r­to­rio Unicode. Los ca­ra­c­te­res pueden mezclarse y co­m­bi­nar­se entre sí en los textos.

Un buen ejemplo de ello son los emojis: en Unicode, los emojis son ca­ra­c­te­res fre­cue­n­tes como letras, números y ca­ra­c­te­res es­pe­cia­les. Como es habitual en los ca­ra­c­te­res digitales, la re­pre­se­n­ta­ción de los emojis es in­de­pe­n­die­n­te de su modelado interno. Cada sistema operativo re­pre­se­n­ta los emojis de una manera li­ge­ra­me­n­te diferente.

Los útiles teclados de software no solo se en­cue­n­tran en los di­s­po­si­ti­vos móviles. También están presentes en el es­cri­to­rio. Se pueden abrir fá­ci­l­me­n­te en Windows, macOS, y muchas di­s­tri­bu­cio­nes de Linux y muestran un conjunto diferente de ca­ra­c­te­res en función del idioma se­le­c­cio­na­do. Como el número de teclas es limitado, no se re­pre­se­n­tan todos los ca­ra­c­te­res Unicode. Se ofrece más bien una selección de los ca­ra­c­te­res más comunes según el idioma.

Tablas de ca­ra­c­te­res Unicode

Además de los teclados de software, las tablas de ca­ra­c­te­res Unicode son pro­ba­ble­me­n­te la forma más útil de acceder a los ca­ra­c­te­res Unicode. Como re­co­r­da­to­rio, un conjunto de ca­ra­c­te­res co­di­fi­ca­dos (“Coded character set”) es el conjunto de todos los ca­ra­c­te­res junto a sus puntos de código únicos co­rre­s­po­n­die­n­tes. Para una es­tru­c­tu­ra de este tipo, la di­s­po­si­ción en forma de tabla es muy útil, y de hecho el estándar Unicode incluye exac­ta­me­n­te estas tablas, llamadas Code Charts. Por un lado, se pueden copiar ca­ra­c­te­res es­pe­cí­fi­cos de estas tablas para uti­li­zar­los en otros lugares. Por otro lado, los usuarios pueden leer el punto de código co­rre­s­po­n­die­n­te, por ejemplo, para uti­li­zar­lo como una re­fe­re­n­cia de carácter numérico.

Muchos sistemas ope­ra­ti­vos de es­cri­to­rio también contienen una tabla de ca­ra­c­te­res Unicode. Esta ofrece una visión general de todos los ca­ra­c­te­res Unicode di­s­po­ni­bles, incluidos el punto de código, la de­s­cri­p­ción y el glifo. Se puede insertar o copiar cualquier carácter con un clic. También se puede crear una tabla de ca­ra­c­te­res con unas pocas líneas de código. Más adelante en este artículo te mo­s­tra­re­mos un ejemplo en el lenguaje de pro­gra­ma­ción Python.

Re­fe­re­n­cia de carácter numérico

El estándar Unicode se centra en la asi­g­na­ción de ca­ra­c­te­res a puntos de código. Si conoces el punto de código de un carácter, puedes uti­li­zar­lo para insertar el carácter co­rre­s­po­n­die­n­te en di­fe­re­n­tes contextos. En Windows, la inserción de símbolos Unicode se realiza desde el teclado hardware normal uti­li­za­n­do una co­m­bi­na­ción de teclas especial. Ten en cuenta que el número de puntos de código debe in­tro­du­ci­r­se no­r­ma­l­me­n­te en notación he­xa­de­ci­mal.

La mayoría de las veces, los pro­gra­ma­do­res necesitan las re­fe­re­n­cias de ca­ra­c­te­res numéricos. La re­pre­se­n­ta­ción he­xa­de­ci­mal de los puntos de código permite mapear un carácter Unicode en ca­ra­c­te­res del conjunto ASCII. Aquí mostramos el pro­ce­di­mie­n­to en HTML; en principio, esto funciona igual de bien en Python, C++, etc.

El esquema general para incluir un carácter por re­fe­re­n­cia numérica incluye la re­fe­re­n­cia en sí, así como una te­r­mi­na­ción de apertura y cierre. En los do­cu­me­n­tos HTML, la re­fe­re­n­cia numérica se abre con &#x y se cierra con ;”. En medio, se introduce el punto de código he­xa­de­ci­mal de dos a cuatro ca­ra­c­te­res sin espacios. El resultado es el patrón &#xNNNN;.

Por ejemplo, para in­tro­du­cir el signo de copyright “©” en un documento HTML, se procede de la siguiente manera:

  1. Se busca el carácter en una tabla Unicode
  2. Se lee el punto de código co­rre­s­po­n­die­n­te al carácter. En nuestro ejemplo, el punto de código se indica como “U+00A9”, que co­rre­s­po­n­de a la re­pre­se­n­ta­ción he­xa­de­ci­mal.
  3. Se compone la re­fe­re­n­cia del carácter y se inserta en el código fuente HTML o en un documento Markdown. En nuestro caso, in­tro­du­ci­mos ©, lo que genera el carácter re­n­de­ri­za­do “©”.

Otro enfoque re­la­cio­na­do, aunque menos frecuente, permite el uso de puntos de código en notación decimal en lugar de he­xa­de­ci­mal. En este caso, la re­fe­re­n­cia numérica comienza con &# (sin la “x”) y termina con ; como antes. Entre ambos se escribe el punto de código en formato decimal. En el caso de nuestro ejemplo, la re­fe­re­n­cia numérica es © para el símbolo de copyright.

Consejo

Utiliza el inspector de ca­ra­c­te­res Unicode para obtener rá­pi­da­me­n­te los di­fe­re­n­tes códigos de un carácter

Entidades de carácter

Dado que escribir los ca­ra­c­te­res Unicode como re­fe­re­n­cias numéricas no es intuitivo para los humanos, existe otro método. Se trata de las entidades de carácter. Se definen para los ca­ra­c­te­res de uso común y asignan un nombre corto y fácil de recordar al carácter. Una entidad de carácter comienza con el símbolo et & y termina con un punto y coma ;. Entre ellos, el nombre definido se coloca sin espacios. Para insertar el signo de copyright “©” en HTML, basta con escribir ©.

Consejo

La lista completa de entidades de carácter definidas está di­s­po­ni­ble en estándar HTML.

Lenguajes de pro­gra­ma­ción

La mayoría de los lenguajes de pro­gra­ma­ción contienen funciones básicas que pueden uti­li­zar­se para convertir ca­ra­c­te­res y puntos de código. Las funciones co­rre­s­po­n­die­n­tes suelen llamarse ord(carácter) y chr(punto de código). Se aplica lo siguiente:

chr(ord(carácter)) == Carácter

Ten en cuenta que siempre es posible de­te­r­mi­nar el punto de código co­rre­s­po­n­die­n­te a un carácter. Por el contrario, el mapeado solo funciona para los números que se definen realmente como puntos de código de ca­ra­c­te­res. Aquí mostramos el esquema básico uti­li­za­n­do un breve ejemplo de Python:

# Determinar el punto de código decimal de un carácter
ord('A') # `65`
# Determinar el punto de código hexadecimal de un carácter
hex(ord('A')) # `0x41`
# Determinar el carácter que pertenece al punto de código
chr(65) # `'A'`
chr(0x41) # `'A'`
chr(0x110001) # Error, ya que el punto de código > `0x110000`
python

Con la ayuda de estas funciones, es posible crear fá­ci­l­me­n­te una tabla de ca­ra­c­te­res para los puntos de código del conjunto de ca­ra­c­te­res Unicode. Esto se hace iterando los puntos de código y emitiendo los ca­ra­c­te­res co­rre­s­po­n­die­n­tes. Con Python, esto se hace en unas pocas líneas de código:

# `range` comienza en `32` porque los caracteres de control salen con un valor menor
# Establecer conjunto de caracteres ASCII 
for code_point in range(32, 128):
	print(code_point, hex(code_point), chr(code_point))
# Establecer ISO Latin-1 
for code_point in range(32, 256):
	print(code_point, hex(code_point), chr(code_point))
python

Bi­blio­te­ca de programas ICU

Los co­m­po­ne­n­tes in­te­r­na­cio­na­les para Unicode (“In­te­r­na­tio­nal Co­m­po­ne­nts for Unicode”, ICU), se combinan en una bi­blio­te­ca de programas pro­po­r­cio­na­da por el Consorcio Unicode. La bi­blio­te­ca se publica bajo una licencia de código abierto y puede uti­li­zar­se en muchos sistemas ope­ra­ti­vos. El software se utiliza para la in­te­r­na­cio­na­li­za­ción pro­gra­má­ti­ca (“in­te­r­na­tio­na­li­za­tion”, a menudo abreviado como “i18n”). Sus áreas de apli­ca­ción incluyen:

  • Tra­ta­mie­n­to de textos Unicode
  • Soporte de ex­pre­sio­nes regulares en Unicode
  • Análisis y formato de los datos del ca­le­n­da­rio, la hora, los números, las monedas y los mensajes

La bi­blio­te­ca ICU está di­s­po­ni­ble en dos versiones:

  • “icu4c” está escrito en C/C++ y pro­po­r­cio­na una API para estos lenguajes.
  • “icu4j” está escrito en Java y pro­po­r­cio­na una API para este lenguaje.

El uso de los co­m­po­ne­n­tes ofrece re­su­l­ta­dos co­n­si­s­te­n­tes in­de­pe­n­die­n­te­me­n­te de la pla­ta­fo­r­ma su­b­ya­ce­n­te.

Es­pe­ci­fi­ca­ción del conjunto de ca­ra­c­te­res en la cabecera de los do­cu­me­n­tos HTML

La mayoría de los do­cu­me­n­tos HTML actuales están co­di­fi­ca­dos en UTF-8. Para ase­gu­rar­se de que los vi­si­ta­n­tes de la página vean el documento sin ca­ra­c­te­res in­co­rre­c­tos, se debe colocar una etiqueta meta con la de­cla­ra­ción del “Charset” en la sección Head del documento HTML. Esto le dice al navegador que in­te­r­pre­te el documento cargado como UTF-8, y tiene la siguiente apa­rie­n­cia:

<head>
<meta charset="utf-8">
<!—otros elementos de la cabecera -->
</head>
html

Fuentes de Instagram

La popular red social Instagram no permite formatear el texto en la biografía, pu­bli­ca­cio­nes o historias. Esto limita las po­si­bi­li­da­des creativas de los usuarios. Sin embargo, algunos de­sa­rro­lla­do­res han en­co­n­tra­do una solución ingeniosa: Instagram utiliza Unicode, lo que permite componer textos que parecen estar fo­r­ma­tea­dos a partir de ca­ra­c­te­res es­pe­cia­les. En pa­r­ti­cu­lar, se utilizan ca­ra­c­te­res que se asemejan a las letras latinas. La manera más sencilla de generar este tipo de texto es uti­li­za­n­do un generador de fuentes de Instagram. Además, el uso de fuentes de Instagram también funciona en otras redes sociales.

Ir al menú principal