¿Qué es el Unicode?

Unicode es un estándar internacional para la codificación de caracteres, siendo un formato que permite la correcta visualización y cifrado de los caracteres de la mayoría de los sistemas de escritura internacionales.

Esta tecnología también se utiliza para estandarizar y codificar símbolos o emojis y además puede cubrir la mayoría de formatos de codificación como el UTF-8, UTF-16 y UTF-32.

Arquitectura del Unicode

Como se mencionó antes, el unicode hace posible la codificación y visualización de casi todo tipo de caracteres o símbolos, asignando a cada elemento un código propio dentro de este formato.

En este sentido, a nivel fundamental, funciona de manera similar a otros tipos de formatos de codificación de caracteres, sin embargo, los estándares que surgieron antes del unicode tenían un problema básico y era que solo podían cubrir un subconjunto de caracteres, como el ASCII, el cual solo es compatible con el alfabeto latino.

Por otro lado, el número asignado para cada carácter podía diferir entre los distintos formatos, pudiendo resultar en una visualización de caracteres totalmente distinta si se seleccionaba el formato equivocado.

De manera que, tras la llegada del unicode, este tipo de problemas se fueron solucionando, ya que se incluyeron tantos caracteres como fue posible de casi todos los sistemas de escritura mundiales y se les asignó un número único. Por este motivo, unicode se ha convertido en el estándar de la industria, al igual que el código asignado a los símbolos.

Planos

Los unicodes están divididos en grupos continuos de bloques de código, conocidos como planos, los cuales contienen, cada uno, un carácter vagamente relacionado. En total, se contabilizan 17 planos que van del 0 al 16 en unicode y se subdividen en bloques.

Así, por ejemplo, el plano 0 (conocido como el plano básico multilingüe) contiene caracteres para casi todos los idiomas modernos existentes. A diferencia de este, el plano 1 o multilingüe suplementario, contiene caracteres históricos o de sistemas de escritura extintos (como los jeroglíficos egipcios o la escritura Khitan de la antigua china, entre muchos otros).

No obstante, aunque se hayan definido hasta 17 planos, no todos están asignados, pues hay mucho espacio para más caracteres, ya que el consorcio unicode está continuamente agregando símbolos, caracteres y emojis. Todo esto con la intención de que las personas que se expresan en otros idiomas, también puedan utilizar su sistema de escritura nativo en las computadoras.

Visto de un plano general, el unicode está destinado a ser un sistema de codificación de caracteres verdaderamente universal con un código diferente que puede ser globalizado para cada uno de sus símbolos.

Puntos de código o posición en código

Los puntos de código son la división más pequeña de los caracteres unicode y representan generalmente a un solo carácter. Básicamente, se refieren al valor numérico dentro del espacio de códigos que, como hemos visto, se divide en 17 planos. Cada punto representa una dirección que le indica a las computadoras los símbolos que debe mostrar.

Dicho así, unicode tiene 1.114.112 puntos de código y funcionan bien con los sistemas de escritura de caracteres discretos, no obstante, la codificación de sistemas que componen sus caracteres a partir de otros sistemas, por ejemplo, los que combinan glifos, se torna más difícil.

El unicode en la práctica

Casi cualquier dispositivo (desktops, tablets o smartphones) e incluso softwares son compatibles con unicode. Esto significa que cualquiera de los símbolos que contiene el unicode se pueden emplear a la hora de escribir en un dispositivo moderno.

La mayoría de las veces, la codificación de caracteres se realiza automáticamente. Por ejemplo, un teclado traduce cada tecla en los símbolos correctos, pero ¿cómo escribir los símbolos que no tienen un botón en el teclado? Esto se puede ver, habitualmente, en el uso de los emojis desde un teclado físico en una desktop, pues no disponen de ninguna tecla concreta para su representación.

En estos casos, los puntos de código unicode se pueden escribir utilizando un formato de código abreviado que comienza con “U+” y le prosiguen de 4 a 5 caracteres alfanuméricos. Entonces, en un programa compatible (como Microsoft Word) se escribe el código, se resalta y se presiona el comando “ALT + X” para convertirlo en un símbolo unicode. Por ejemplo, al aplicar este procedimiento con el código “U+1F937” se genera un emoji que encoge los hombros 🤷.

Con todo, aunque unicode se ha convertido en un estándar ampliamente aceptado, aún existen numerosos programas que utilizan sistemas de codificación antiguos o heredados, y que posiblemente no funcionen correctamente en todos los casos.

Visión crítica del estándar unicode

La propuesta de codificar todos los sistemas de escritura existentes y extintos no es una tarea sencilla y puede tener algunos inconvenientes. Por ejemplo, uno de los mayores puntos críticos proviene del manejo del unicode para los caracteres CJC (chinos, japoneses y coreanos), pues muchos países pertenecientes al este asiático han desarrollado sistemas de escritura más propios con combinaciones de caracteres chinos y variaciones regionales en su forma y significado.

De forma que, en un intento de unificar y ahorrar espacio, ya que la codificación de todos los caracteres CJC de forma individual ascendería fácilmente a más de 100.000 caracteres, unicode, originalmente, propuso un sistema conocido como “Unificación Han”. Este último consistía en que el carácter chino original se usaría como el carácter estándar y las derivaciones se podrían considerar como variaciones, en lugar de ser caracteres individuales por sí mismos.

No obstante, esta idea resultó ser bastante controvertida por diferentes razones: por un lado, algunos grupos objetaron la subordinación de sus caracteres a los símbolos chinos y, del otro lado, la propuesta inicial fue realizada por un consorcio de compañías y organizaciones norteamericanas, pero ninguna pertenecía al este de Asia.

Además, otro de los problemas surgidos a partir de eso era que el unicode codificaba caracteres en lugar de glifos. Es decir, los glifos son la unidad de escritura más pequeña y es ampliamente utilizada por algunos lenguajes para crear sus propios caracteres. Esta es la razón por la que la lectoescritura de textos históricos en las versiones anteriores a los idiomas CJC son muy difíciles. De hecho, también es un problema que ocurre con el idioma árabe, entre otros.

Unicode