Unicode

Aus Wiki
Wechseln zu: Navigation, Suche

Definition

Die Bezeichnung Unicode steht für einen internationalen Standard, in dem eine einheitliche Kodierung für Zeichen und Zeichenketten festgelegt ist. Er hat das Ziel, alle existierenden Schriftzeichen unterschiedlicher Sprachen und Kulturkreise zu vereinen und so digitale Sprachbarrieren zu beseitigen. Die Zeichen, die im Unicode enthalten sind, sind global universell kodiert. Der Standard zeichnet sich durch einen generischen Ansatz aus, der es ermöglicht, Unicode auch in Zukunft nutzen und wachsende Sprachsysteme und Zeichensätze repräsentieren zu können.

Aufbau des Standards

In der Vergangenheit waren die meisten Kodierungen von Schriftzeichen darauf ausgelegt, ein bestimmtes regionales Schriftsystem zu repräsentieren. Aus diesem Grund orientierte sich die Systematik dieser Kodierungen an dem Aufbau des betreffenden Schriftsystems. Auch die Betriebssysteme und Softwareentwicklungen haben diese regional beschränkten Schriftsysteme individuell interpretiert. Vor allem die Anzeige bestimmter Sonderzeichen war daher auf eine bestimmte Region und bestimmte Betriebssysteme beschränkt. Aufgrund der zunehmenden Globalisierung und Digitalisierung ist diese Vorgehensweise jedoch schnell auf Hürden gestoßen, da digitale Barrierefreiheit auf eine global gültige Zeichensatzkodierung angewiesen ist.

Der Unicode Standard hat es sich deshalb zur Aufgabe gemacht, die Kodierung aller existierende Schriftsysteme global zu vereinigen. Der Aufbau des grundlegenden Systems ist deutlich generischer als bei vorherigen Zeichensatzkodierungen und ermöglicht somit die Einbindung aller existierenden Schriftsysteme. Auch die Unabhängigkeit vom verwendeten Betriebssystem wird durch dieses Vorgehen gewährleistet.

Ebenen in Unicode

Der Unicode Standard enthält 17 verschiedene Ebenen, die auch unter dem englischen Begriff "planes" bekannt sind. Jede dieser Ebenen umfasst 216 Zeichen. Pro Ebene stehen also mehr als 65.000 Schriftzeichen zur Verfügung. Derzeit werden jedoch nur sechs der 17 Ebenen verwendet. Alle weiteren Ebenen sind für zukünftige Weiterentwicklungen des Standards vorgesehen.

Die sechs verwendeten Ebenen sind strikt voneinander getrennt und bilden streng generische Ebenen der Schriftzeichen ab. Die erste Ebene, auch als Ebene 0, BMP, Basis Multilingual Plane oder mehrsprachige Basisebene bezeichnet, ist die Ebene, die in den meisten Programmen im Einsatz ist und alle bisher verwendbaren Schriftzeichen in Unicode abbildet. Die Systematik der angelegten Zeichen weist allerdings Schwachstellen auf, welche historisch bedingt sind.

Die Ebenen 2 bis 6 können von vielen Programmen noch nicht verwendet werden und dienen im Wesentlichen der Weiterentwicklung und Abbildung besonderer Schriftzeichen. Hier werden Systematiken angewandt, die bisherige Fehler umgehen sollen. Dies betrifft zum Beispiel die konsequente Umsetzung von Blöcken, die für die logische Gruppierung von Schriftzeichen in einer Ebene verwendet werden.

Codepunkte

Die Kodierung eines spezifischen Schriftzeichens erfolgt auf einer Ebene, gegebenenfalls innerhalb eines Blocks, als sogenannter Codepunkt. Die Codepunkte werden einzeln hexadezimal mit einem vorangestellten "U+" kodiert. Es entstehen also Bezeichnungen dieser Art:

Zeichen Kodierung
ß U+00DF
Ä U+00C4
ü U+00FC
# U+0023

Grundsätzlich spezifiziert ein solcher Codepunkt genau ein Schriftzeichen. Spezielle Bereiche des Standards sind jedoch für interne Funktionen reserviert und repräsentieren damit nicht zwangsläufig ein Zeichen. Diese Funktionen dienen dazu, eine einheitliche Navigation innerhalb des Standards zu ermöglichen. Das bedeutet, ein Programm, das den Unicode Standard anwenden möchte, muss die Navigation durch den Standard und die Adressierung bestimmter Zeichenblöcke nicht selbst übernehmen. Vielmehr stehen für solche Standardaufgaben bereits die internen Funktionen zur Verfügung. Der bekannteste Satz solcher Funktionen befindet sich in UTF-8, einer Unicode-Kodierung, welche im Rahmen der globalen Sprachstandardisierung im Internet stark verbreitet ist.

Unicode in der Praxis

Der Unicode Standard hat vor allem im Bereich der Internetprogrammierung Anwendung gefunden. HTML-Dokumente waren die ersten Dateien, die direkt mit den hexadezimalen Angaben arbeiten konnten. Die Browser des jeweiligen Nutzers haben HTML-Engines implementiert, die diese Angaben direkt in Zeichen, auch Sonderzeichen, übersetzen konnten. Im deutschsprachigen Raum spielt dies insbesondere für die Darstellung von Umlauten und des “ß” eine Rolle.

Auch die XML-Semantik, die sich vor allem für Schnittstellen und Textverarbeitungsprogramme durchgesetzt hat, implementiert direkt Symbole, die in Unicode kodiert sind. Diese Entwicklung führt dazu, dass Textverarbeitungsprogramme zunehmend Editoren für Schriftzeichen im hexadezimalen Format beinhalten, sodass auch ohne spezielle Software jedes beliebige globale Zeichen in die Textverarbeitung eingegeben werden kann.

Kritische Betrachtung des Standards

Unicode wird im Zuge der Digitalisierung global verwendet und viele Softwareentwicklungen implementieren den Zeichensatzstandard bereits, meist jedoch neben regionalen Standards. Für bestimmte Bereiche lässt sich die Systematik allerdings nur schwer implementieren.

Dies liegt zum einen daran, dass mit der Standardisierung der globalen Schriftzeichen zwangsläufig auch eine Konsolidierung einhergeht, d.h. ein gleichbedeutendes Zeichen wird immer identisch kodiert. Handschriften oder regionale Unterschiede im identischen Schriftbild werden daher nicht abgebildet. Dies führt zu einer Vereinheitlichung aller Schriftbilder, die vor allem bei Sprachwissenschaftlern auf Kritik stößt.

Aber auch Historiker zeigen die Grenzen des Standards auf, da einige heute nicht mehr verwendete Schriftzeichen oder Varianten eines Schriftzeichens nicht als Codepunkte im Standard vorhanden sind.

Kritikpunkte wie diese tragen zu einer kontinuierlichen Weiterentwicklung des Standards bei, denn aus technischer Sicht stehen mehr als genügend weitere Codepunkte für solche Zeichen zur Verfügung.

Weiterführende Links

Ähnliche Artikel