ASCII-Code

Aus Wiki
Wechseln zu: Navigation, Suche

Definition

ASCII steht für "American Standard Code for Information Interchange" und bezeichnet einen Zeichensatz-Standard für Textdaten und den Informationsaustausch. Zeichensatzkodierungen (auch Codepages genannt) definieren, wie Buchstaben und sonstige Textzeichen sowie Steuercodes für den Datentransfer in Bits und Bytes zu codieren sind.

Der ASCII-Code ist neben Unicode, ISO-8859-1 und Windows-1252 einer der wichtigsten Zeichensatz-Standards. Der Code war für eine lange Zeit der dominierende Standard für Webseiten, bis er 2007 von der Unicode-Codierung UTF-8 überholt wurde. Dennoch ist er auch heute noch relevant, da es immer noch Bereiche gibt, in denen nur Zeichen erlaubt sind, die der ASCII-Code enthält.

Geschichte

Der ASCII Code blickt auf eine lange Geschichte zurück. Seine Anfänge liegen in der Telegrafie und dem Morse-Code sowie dem 5-Bit-Murray-Code, den der neuseeländische Erfinder Donald Murray zwischen 1901 und 1932 entwickelte. Die erste Version des ASCII Codes wurde 1963 von der ASA, der American Standards Association, herausgebracht. Die ASA war ein Vorläufer des American National Standards Institute (ANSI), dem US-amerikanischen Gegenstück zum Deutschen Institut für Normung (DIN). 1968 erschien die bis heute gültige Fassung des Zeichensatzes.

Der 7-Bit-ASCII-Zeichensatz

Historisch bedingt nutzt der originale ASCII Code nur sieben Bits eines üblichen 8-Bit-Bytes und kann maximal 128 verschiedene Zeichen codieren. Der Code enthält die Klein- und Großbuchstaben des englischen Alphabets, die wichtigsten Satzzeichen, mathematische Symbole sowie 33 Steuercodes für Datentransfer und Textformatierung.

Im Detail sind folgende Zeichengruppen enthalten:

  • 0 - 32 und 127: Steuercodes für die Datenübertragung sowie Leerzeichen, Tabulatoren und Zeilenumbrüche
  • 48 - 57: Ziffern
  • 65 - 90: Großbuchstaben
  • 97 - 122: Kleinbuchstaben
  • 33 - 47, 58 - 64, 91 - 96 und 123 - 126: Satzzeichen, mathematische Symbole, Klammern und sonstige Schriftzeichen.

Landesspezifische Sonderzeichen wie Umlaute und Accents sind im ASCII Code nicht enthalten.

Obwohl die Anordnung chaotisch und willkürlich erscheinen mag, resultiert sie aus gründlicher Planung und Überlegung. Die Buchstaben sind so positioniert, dass sich die Groß- und Kleinschreibung nur durch ein einziges Bit unterscheidet. Ziffern, Leerzeichen und einige andere Symbole befinden sich absichtlich vor den Buchstaben, um Sortierungen zu vereinfachen. Des Weiteren liegen viele nicht alphanumerische Symbole auf Positionen, die der Anordnung auf Schreibmaschinen ähnelt.

Erweiterte Zeichensätze: ISO-8859

Da der eigentliche ASCII Code nur das englische Alphabet beinhaltet, haben sich viele regionenspezifische Erweiterungen entwickelt. Besondere Bedeutung bekamen die Zeichensätze Windows-1252 und ISO-8859-1. Beide sind 8-Bit-Erweiterungen des ursprünglichen Standards und enthalten viele regionale Sonderzeichen. Aufgrund historischer Entwicklungen werden beide Standards oft als ANSI-Zeichensätze bezeichnet. Streng genommen ist dies jedoch nicht korrekt, da das ANSI diese Zeichensätze nie offiziell normiert hat.

Da auch mit 8 Bits nur 256 Zeichen zur Verfügung stehen und somit nicht alle Sprachen abgedeckt werden können, wurde mit ISO-8859 eine Sammlung verschiedener Zeichensätze für unterschiedliche Sprachen und Regionen entwickelt. Beispielsweise enthält ISO-8859-7 das lateinische und griechische Alphabet, während ISO-8859-4 die Sonderzeichen der skandinavischen und baltischen Sprachen abdeckt. ISO-8859-1 beinhaltet die westeuropäischen Alphabete und ist fast deckungsgleich mit Windows-1252.

Sowohl bei Windows-1252 als auch bei ISO-8859-1 sind die ersten 128 Zeichen identisch zum ASCII Code. Ab Position 128 folgen die Codepage-spezifischen Sonderzeichen, wobei die Nummern 128 bis 159 im ISO-8859-Standard undefiniert sind. Beginnend mit Nummer 160 sind dann die Sonderzeichen der unterschiedlichen Sprachen und Regionen enthalten.

ASCII, Unicode und UTF-8

Wenngleich die ISO-8859-Standards viele Sprachen abdecken, sind lange nicht alle Sprachen enthalten. Zudem führten die unterschiedlichen Zeichensätze zu einem beträchtlichen Durcheinander, da sie nicht miteinander kompatibel sind. Bereits 1988 entstanden deshalb die ersten Pläne für einen einheitlichen Unicode-Zeichensatz, dessen erste Version 1991 heraus kam.

Unicode ermöglicht die Darstellung von über einer Million Zeichen und löst nach und nach alle anderen Zeichensätze ab. Besonders wichtig ist das Unicode-Format UTF-8, welches mittlerweile das vorherrschende Textformat im World Wide Web ist. UTF-8 hat den großen Vorteil, dass es ASCII-kompatibel ist, da die ersten 128 Zeichen identisch sind.

Aufbau der ASCII- und ISO-Tabellen

Für die Darstellung der Zeichensätze kommen üblicherweise Listen oder Tabellen zum Einsatz, um die Zeichen und ihre numerischen Werte leicht auffindbar zu machen. Diese Listen geben die jeweiligen Zeichen samt ihrer dezimalen, hexadezimalen, oktalen und/oder binären Werte an.

Viele Tabellen sind hexadezimal aufgebaut und trennen die Codes in das erste und das zweite Halbbyte. Beispielsweise findet sich das große H in der ASCII-Tabelle in der 4. Zeile der 8. Spalte, woraus sich die hexadezimale Notation 0x48 ergibt. Der Wagenrücklauf CR hat den Code 0x0D, da er in Zeile 0 und Spalte D liegt. 0x ist dabei ein übliches Präfix, um auf die hexadezimale Schreibweise hinzuweisen.

ASCII-Tabelle

Im Folgenden ist die ASCII-Tabelle mit Codes in dezimaler, hexadezimaler und oktaler Schreibweise zu sehen:

Zeichen dezimal hexadez. oktal
NUL 0 0x00 000
SOH 1 0x01 001
STX 2 0x02 002
ETX 3 0x03 003
EOT 4 0x04 004
ENQ 5 0x05 005
ACK 6 0x06 006
BEL 7 0x07 007
BS 8 0x08 010
HT 9 0x09 011
LF 10 0x0A 012
VT 11 0x0B 013
FF 12 0x0C 014
CR 13 0x0D 015
SO 14 0x0E 016
SI 15 0x0F 017
DLE 16 0x10 020
DC1 17 0x11 021
DC2 18 0x12 022
DC3 19 0x13 023
DC4 20 0x14 024
NAK 21 0x15 025
SYN 22 0x16 026
ETB 23 0x17 027
CAN 24 0x18 030
EM 25 0x19 031
SUB 26 0x1A 032
ESC 27 0x1B 033
FS 28 0x1C 034
GS 29 0x1D 035
RS 30 0x1E 036
US 31 0x1F 037
Zeichen dezimal hexadez. oktal
SP 32 0x20 040
 ! 33 0x21 041
" 34 0x22 042
# 35 0x23 043
$ 36 0x24 044
 % 37 0x25 045
& 38 0x26 046
' 39 0x27 047
( 40 0x28 050
) 41 0x29 051
* 42 0x2A 052
+ 43 0x2B 053
, 44 0x2C 054
- 45 0x2D 055
. 46 0x2E 056
/ 47 0x2F 057
0 48 0x30 060
1 49 0x31 061
2 50 0x32 062
3 51 0x33 063
4 52 0x34 064
5 53 0x35 065
6 54 0x36 066
7 55 0x37 067
8 56 0x38 070
9 57 0x39 071
 : 58 0x3A 072
 ; 59 0x3B 073
< 60 0x3C 074
= 61 0x3D 075
> 62 0x3E 076
 ? 63 0x3F 077
Zeichen dezimal hexadez. oktal
@ 64 0x40 100
A 65 0x41 101
B 66 0x42 102
C 67 0x43 103
D 68 0x44 104
E 69 0x45 105
F 70 0x46 106
G 71 0x47 107
H 72 0x48 110
I 73 0x49 111
J 74 0x4A 112
K 75 0x4B 113
L 76 0x4C 114
M 77 0x4D 115
N 78 0x4E 116
O 79 0x4F 117
P 80 0x50 120
Q 81 0x51 121
R 82 0x52 122
S 83 0x53 123
T 84 0x54 124
U 85 0x55 125
V 86 0x56 126
W 87 0x57 127
X 88 0x58 130
Y 89 0x59 131
Z 90 0x5A 132
[ 91 0x5B 133
/ 92 0x5C 134
] 93 0x5D 135
^ 94 0x5E 136
_ 95 0x5F 137
Zeichen dezimal hexadez. oktal
` 96 0x60 140
a 97 0x61 141
b 98 0x62 142
c 99 0x63 143
d 100 0x64 144
e 101 0x65 145
f 102 0x66 146
g 103 0x67 147
h 104 0x68 150
i 105 0x69 151
j 106 0x6A 152
k 107 0x6B 153
l 108 0x6C 154
m 109 0x6D 155
n 110 0x6E 156
o 111 0x6F 157
p 112 0x70 160
q 113 0x71 161
r 114 0x72 162
s 115 0x73 163
t 116 0x74 164
u 117 0x75 165
v 118 0x76 166
w 119 0x77 167
x 120 0x78 170
y 121 0x79 171
z 122 0x7A 172
{ 123 0x7B 173
124 0x7C 174
} 125 0x7D 175
~ 126 0x7E 176
DEL 127 0x7F 177

ASCII-Code, Unicode und SEO

Obwohl ASCII und ISO-8859 lange Zeit die vorherrschenden Textzeichen-Standards waren, gelten sie heute im Web als veraltet. Die offizielle Standardisierungs-Organisation W3C (World Wide Web Consortium) empfiehlt die ausschließliche Verwendung von UTF-8 als Zeichensatz-Codierung für alle Webseiten.

Außer in den eigentlichen Webseiten-Texten lässt sich Unicode ebenfalls nutzbringend in den Meta Descriptions einsetzen. Mithilfe von Unicode-Zeichen wie Häkchen, Herzen, Sternen, Briefumschlägen oder Währungssymbolen können hier beim Leser unbewusste Impulse ausgelöst werden. Beispielsweise erzeugen Häkchen und Herzen Zustimmung, während Briefumschläge und Telefonsymbole zur Kontaktaufnahme animieren. Das hat zwar keinen direkten Einfluss auf das Suchmaschinenranking, erhöht jedoch die Klickrate und führt zu mehr Besuchern und Kunden.

In SEO-relevanten Keywords und Keyword-Phrasen ist hingegen etwas Zurückhaltung angeraten. Landesspezifische Buchstaben wie Umlaute und Accents stellen kein Problem dar. Ungewöhnliche Sonderzeichen, Trennsymbole, Emoticons und Piktogramme können die Keyword-Erkennung jedoch unmöglich machen.

Ähnliche Artikel