Unicode para niños
Unicode es un sistema especial que ayuda a las computadoras a entender y mostrar textos de muchos idiomas y áreas técnicas. Su nombre viene de tres ideas clave: que sea universal (para todos), uniforme (igual para todos) y único (cada símbolo tiene un solo código).
Unicode le da un nombre y un número único a cada letra, número o símbolo. Este número se llama punto de código. También guarda información extra sobre cada carácter, como a qué tipo de escritura pertenece o si es una letra mayúscula. Lo bueno de Unicode es que puedes mezclar letras, símbolos e ideogramas (dibujos que representan ideas) en el mismo texto sin problemas.
El Consorcio Unicode se encarga de mantener este sistema. En él participan empresas grandes como Microsoft, Apple, Google y Facebook, además de universidades y gobiernos. Desde 1991, el Consorcio Unicode trabaja junto con otra organización llamada ISO/IEC para asegurarse de que sus sistemas de códigos sean compatibles.
Unicode se creó para reemplazar otros sistemas de códigos que no podían manejar tantos idiomas. Hoy en día, es el sistema más completo y usado para que los programas de computadora funcionen en diferentes países. Muchas tecnologías modernas, como XML, Java y los sistemas operativos de las computadoras, usan Unicode.
Puedes encontrar toda la información sobre Unicode y sus tablas de caracteres en su sitio web oficial. Cada vez que sale una nueva versión, publican un libro completo que también está disponible gratis en formato digital.
Contenido
¿Qué abarca el estándar Unicode?
Unicode incluye casi todos los caracteres que usamos hoy en día. Por ejemplo, la versión 15.0 tiene más de 149.000 caracteres de diferentes alfabetos, sistemas de escritura y colecciones de símbolos. Estos incluyen símbolos de matemáticas, tecnología, música y hasta iconos. ¡Y este número sigue creciendo con cada nueva versión!
Unicode cubre muchos sistemas de escritura modernos, como el alfabeto latino (el que usamos nosotros). También incluye escrituras antiguas que ya no se usan, pero que son importantes para estudios, como el cuneiforme y el rúnico. Además de letras, Unicode tiene símbolos musicales, matemáticos, fichas de juegos como el dominó, flechas y muchos otros iconos.
También incluye los signos diacríticos, que son esas pequeñas marcas que se añaden a las letras, como los acentos en español (á, é, í, ó, ú). Unicode permite combinarlos o usar versiones de letras que ya los tienen incorporados.
Unicode es un sistema que siempre está cambiando. Se añaden caracteres nuevos constantemente, aunque a veces se descartan algunos que se habían propuesto, como el alfabeto klingon.
¿Cómo se relaciona Unicode con otros sistemas?
Unicode trabaja en conjunto con otro sistema llamado ISO/IEC UCS. Además, Unicode es compatible con sistemas de códigos más antiguos como ASCII7 e ISO 8859-1, y con otros sistemas usados en diferentes países o por empresas de software. Unicode incluso deja un espacio para que las empresas puedan crear sus propios códigos especiales.
¿Cómo se organizan los caracteres en Unicode?
El elemento más básico de Unicode es el carácter. Un carácter es la parte más pequeña de un sistema de escritura que tiene un significado. Unicode define estos caracteres de forma abstracta, es decir, no se preocupa por cómo se ven (su tamaño, tipo de letra o estilo). Eso lo dejan para los programas que los usan, como los procesadores de texto o los navegadores web. Incluye letras, signos especiales, signos de puntuación, ideogramas, sílabas, caracteres de control y otros símbolos. Los caracteres se agrupan en alfabetos o sistemas de escritura.
Cada carácter se identifica con un número o punto de código y su nombre. Cuando un carácter tiene un código asignado, decimos que está "codificado". Hay más de un millón de posiciones posibles para códigos. Los puntos de código se escriben usando números hexadecimales con el prefijo "U+". Por ejemplo, U+0041 es la letra "A".
Tipos de caracteres en Unicode

Los códigos de Unicode se organizan en bloques que contienen diferentes tipos de información:
- Caracteres gráficos: Son las letras, números, signos de puntuación, símbolos y espacios que podemos ver.
- Caracteres de formato: Son invisibles, pero afectan cómo se muestra el texto. Por ejemplo, el salto de línea o el espacio que no se rompe.
- Códigos de control: Son códigos especiales para compatibilidad con sistemas antiguos.
- Caracteres privados: Son códigos reservados para que las empresas de software los usen para sus propios fines.
- Caracteres reservados: Son códigos que Unicode guarda para usarlos en el futuro.
- Suplentes: Son códigos especiales que se usan para representar caracteres que necesitan más de un código.
- No caracteres: Son códigos que Unicode reserva permanentemente para uso interno.
¿Cómo se forman los caracteres y las secuencias?
Unicode tiene una forma de crear caracteres combinando otros. Por ejemplo, una letra base puede combinarse con un signo diacrítico (como un acento). A veces, un mismo carácter puede representarse de varias maneras. Para que sea más fácil trabajar con sistemas antiguos, Unicode también ofrece caracteres que ya vienen "pre-compuestos" (con el acento incluido, por ejemplo).
Cuando varios caracteres están juntos, forman una secuencia. Si diferentes secuencias representan el mismo conjunto de caracteres, Unicode las considera iguales. Para encontrar estas equivalencias, Unicode tiene reglas que permiten "normalizar" las cadenas de texto y compararlas.
Caracteres unificados de China, Corea y Japón
En Unicode, los símbolos de Asia oriental (conocidos como "caracteres chinos") se llaman "ideogramas han". Estos ideogramas nacieron en China y luego fueron adoptados por países vecinos como Japón, Corea y Vietnam. Cada uno de estos países también desarrolló sus propios sistemas de escritura (como el hiragana y katakana en Japón, o el hangul en Corea) para usarlos junto con los ideogramas chinos.
Unicode considera que las diferentes versiones de estos ideogramas son variaciones de un mismo carácter abstracto. Es como si fueran la misma letra, pero con un tipo de letra diferente. Un grupo de trabajo llamado IRG (Ideographic Rapporteur Group) se encarga de desarrollar y unificar estos caracteres.
La base de datos de estos caracteres se llama Unihan. Contiene información adicional sobre su significado, cómo se convierten y cómo se usan en los diferentes idiomas. Aquí te mostramos algunos de los bloques principales de estos caracteres:
Bloque | Plano | Rango | Caracteres | Comentarios |
---|---|---|---|---|
Ideogramas unificados CJK | 0 BMP | 4E00–9FFF | 20,992 | Ideogramas de uso común. |
Ideogramas unificados CJK - Extensión A | 0 BMP | 3400–4DBF | 6,592 | Ideogramas de uso poco habitual. |
Ideogramas unificados CJK - Extensión B | 2 SIP | 20000–2A6DF | 42,720 | Ideogramas de uso poco habitual e históricos. |
Ideogramas unificados CJK - Extensión C | 2 SIP | 2A700–2B73F | 4,154 | Ideogramas de uso poco habitual e históricos. |
Ideogramas unificados CJK - Extensión D | 2 SIP | 2B740–2B81F | 222 | Ideogramas de uso poco habitual e históricos. |
Ideogramas unificados CJK - Extensión E | 2 SIP | 2B820–2CEAF | 5,762 | Ideogramas de uso poco habitual e históricos. |
Ideogramas unificados CJK - Extensión F | 2 SIP | 2CEB0–2EBEF | 7,473 | Ideogramas de uso poco habitual e históricos. |
Ideogramas unificados CJK - Extensión G | 3 TIP | 30000–3134F | 4,939 | Ideogramas de uso poco habitual e históricos. |
Ideogramas unificados CJK - Extensión H | 3 TIP | 31350–323AF | 4,192 | Ideogramas de uso poco habitual e históricos. |
Suplemento de radicales CJK | 0 BMP | 2E80–2EFF | 115 | Variantes y componentes de los radicales Kangxi. |
Radicales Kangxi | 0 BMP | 2F00–2FDF | 214 | Radicales Kangxi. |
Caracteres de descripción ideográfica | 0 BMP | 2FF0–2FFF | 12 | Composición de ideogramas. |
Símbolos y puntuación CJK | 0 BMP | 3000–303F | 64 | Caracteres CJK especiales y signos de puntuación CJK. |
Trazos CJK | 0 BMP | 31C0–31EF | 36 | Trazos mínimos de los ideogramas. |
Compatibilidad CJK | 0 BMP | 3300–33FF | 256 | Caracteres CJK especiales. |
Ideogramas de compatibilidad CJK | 0 BMP | F900–FAFF | 472 | Duplicados, variantes unificables y caracteres corporativos. |
Formatos de compatibilidad CJK | 0 BMP | FE30–FE4F | 32 | Signos de puntuación para escritura vertical. |
Suplemento de ideogramas de compatibilidad CJK | 2 SIP | 2F800–2FA1F | 542 | Variantes unificables. |
¿Cómo se describen los ideogramas?
Como es imposible incluir todos los ideogramas existentes (porque se siguen creando nuevos), Unicode tiene un sistema para representar los que faltan. Se basa en la idea de que casi todos los ideogramas se pueden dividir en partes más pequeñas que también son ideogramas. Aunque se pueda representar un símbolo con una secuencia, Unicode dice que siempre es mejor usar la versión que ya tiene un código propio.
Unicode define 12 caracteres especiales para describir cómo se combinan otros caracteres han en el espacio.
Partes importantes del estándar Unicode
¿Cuáles son los principios de diseño de Unicode?
Unicode se creó con estos objetivos principales:
- Universalidad: Que tenga suficientes caracteres para cualquier texto en muchos idiomas.
- Eficiencia: Que los códigos sean fáciles de procesar por las computadoras.
- No ambigüedad: Que cada código siempre represente el mismo carácter.
La base de datos de caracteres Unicode
El conjunto de caracteres que Unicode codifica se llama UCD (Unicode Character Database). Además del nombre y el punto de código, incluye más información: a qué alfabeto pertenece, su clasificación, si es mayúscula, cómo se orienta, reglas de combinación, etc.
Esta base de datos se divide en planos, y estos a su vez en áreas y bloques. Los caracteres se agrupan en el sistema de códigos según su categoría (como el alfabeto al que pertenecen), para que los caracteres relacionados estén cerca en las tablas.
¿Qué son los planos?
Para que sea más fácil, el espacio de códigos se ha dividido en grandes grupos llamados planos. Cada plano puede contener hasta 65.536 caracteres. Los últimos cuatro dígitos de un punto de código hexadecimal indican la posición del carácter dentro de su plano.
- Plano básico multilingüe (BMP o plano 0): Contiene la mayoría de los alfabetos modernos, incluyendo los caracteres más comunes de los sistemas CJK, y algunos caracteres históricos o menos usados.
- Plano suplementario multilingüe (SMP o plano 1): Incluye alfabetos históricos menos usados y sistemas para usos técnicos.
- Plano suplementario ideográfico (SIP o plano 2): Contiene los caracteres del sistema CJK que no están en el plano 0. La mayoría son caracteres muy raros o históricos.
- Plano de propósito especial (SSP o plano 14): Área para caracteres de control que no se incluyeron en el plano 0.
- Planos de uso privado (planos 15 y 16): Reservados para que las empresas de software los usen para sus propios fines.
¿Qué son las áreas y los bloques?
Los planos se dividen en áreas según los tipos generales de caracteres que contienen. Estas áreas, a su vez, se dividen en bloques. Los bloques son rangos consecutivos de códigos y se usan para organizar las tablas de caracteres impresas.
¿Cómo se procesa la información en Unicode?
Formas de codificación
Los puntos de código de Unicode son números enteros. Las computadoras usan unidades de 8, 16 o 32 bits para representar estos números. Las formas de codificación de Unicode son las reglas que dicen cómo se transforman esos puntos de código en algo que la computadora pueda entender.
Unicode define tres formas de codificación, llamadas UTF (Unicode Transformation Format):
- UTF-8: Usa unidades de 8 bits y la longitud de los símbolos puede variar.
- UTF-16: Usa unidades de 16 bits y su longitud puede variar. Es ideal para el plano básico multilingüe.
- UTF-32: Usa unidades de 32 bits y tiene una longitud fija. Es la más sencilla de las tres.
Estas formas de codificación solo describen cómo se representan los puntos de código para la máquina. A partir de ellas, se definen 7 esquemas de codificación.
Esquemas de codificación
Los esquemas de codificación se refieren a cómo se organiza la información codificada para ser enviada o guardada. Para que la información se entienda bien entre diferentes sistemas, es importante saber el orden de los bits y bytes. Una diferencia clave entre procesadores es el orden en que organizan los bytes (conocido como endianness). Los esquemas de codificación aseguran que los sistemas que se comunican sepan cómo interpretar la información recibida.
Aquí tienes una tabla con los esquemas de codificación:
Esquema de codificación | Endianness | Admite BOM |
UTF-8 | No aplicable | Sí |
UTF-16 | Big-endian o Little-endian | Sí |
UTF-16BE | Big-endian | No |
UTF-16LE | Little-endian | No |
UTF-32 | Big-endian o Little-endian | Sí |
UTF-32BE | Big-endian | No |
UTF-32LE | Little-endian | No |
Unicode usa una marca especial, la marca de orden de bytes (BOM), al principio de un archivo o comunicación. Esta marca indica el orden de los bytes. Si un sistema ya sabe el orden, la marca no es necesaria. En los esquemas UTF-16 y UTF-32, si no se especifica el orden, se asume que es big-endian.
UTF-8 no necesita una marca de orden de bytes porque su unidad básica es el byte. El estándar no exige ni recomienda usar BOM en UTF-8, pero lo permite si se usa para indicar que el texto es Unicode.
Historia de Unicode
El proyecto Unicode comenzó a finales de 1987, gracias a conversaciones entre Joe Becker, Lee Collins y Mark Davis de Apple y Xerox. En agosto de 1988, publicaron el primer borrador. Al principio, pensaron que solo necesitarían códigos de 16 bits para los caracteres modernos.
En 1989, se unieron colaboradores de otras empresas como Microsoft y Sun Microsystems. El Consorcio Unicode se formó el 3 de enero de 1991, y la primera versión del estándar se publicó en octubre de 1991. La segunda versión, que ya incluía la escritura ideográfica han, salió en junio de 1992.
A lo largo de los años, Unicode ha ido creciendo y añadiendo más y más caracteres y sistemas de escritura. Por ejemplo, en la versión 6.0 (2010), se añadieron los populares emojis y el símbolo de la rupia. La versión 10.0 (2017) incluyó el símbolo de Bitcoin. La versión 15.0 (2022) añadió más de 4.000 ideogramas CJK y nuevos emojis.
¿Quieres saber más?
Véase también
En inglés: Unicode Facts for Kids