Zeichensätze, die von Schriftarten verwendet werden
Alle Schriftarten verwenden einen Zeichensatz. Ein Zeichensatz enthält Satzzeichen, Ziffern, Groß- und Kleinbuchstaben und alle anderen druckbaren Zeichen. Jedes Element eines Zeichensatzes wird durch eine Zahl identifiziert.
Die meisten verwendeten Zeichensätze sind Übersätze des US-ASCII-Zeichensatzes, der Zeichen für die 96 numerischen Werte von 32 bis 127 definiert. Es gibt fünf Hauptgruppen von Zeichensätzen:
- Fenster
- Unicode
- OEM (Originalgerätehersteller)
- Symbol
- Herstellerspezifisch
Windows-Zeichensatz
Der Windows-Zeichensatz ist der am häufigsten verwendete Zeichensatz. Es entspricht im Wesentlichen dem ANSI-Zeichensatz. Das leere Zeichen ist das erste Zeichen im Windows-Zeichensatz. Sie weist einen Hexadezimalwert von 0x20 (Dezimalzahl 32) auf. Das letzte Zeichen im Windows-Zeichensatz weist einen Hexadezimalwert von 0xFF (Dezimalzahl 255) auf.
Viele Schriftarten geben ein Standardzeichen an. Wenn eine Anforderung für ein Zeichen gestellt wird, das sich nicht in der Schriftart befindet, stellt das System dieses Standardzeichen bereit. Viele Schriftarten, die den Windows-Zeichensatz verwenden, geben den Punkt (.) als Standardzeichen an. TrueType- und OpenType-Schriftarten verwenden in der Regel ein geöffnetes Feld als Standardzeichen.
Schriftarten verwenden ein Umbruchzeichen, das als Quad bezeichnet wird, um Wörter zu trennen und Text zu rechtfertigen. Die meisten Schriftarten, die den Windows-Zeichensatz verwenden, geben an, dass das leere Zeichen als Umbruchzeichen fungiert.
Unicode-Zeichensatz
Der Windows-Zeichensatz verwendet 8 Bit, um jedes Zeichen darzustellen; Daher beträgt die maximale Anzahl von Zeichen, die mit 8 Bit ausgedrückt werden können, 256 (2^8). Dies reicht in der Regel für westliche Sprachen aus, einschließlich der diakritischen Zeichen, die in Französisch, Deutsch, Spanisch und anderen Sprachen verwendet werden. Ostsprachen verwenden jedoch Tausende separater Zeichen, die nicht mit einem Single-Byte-Codierungsschema codiert werden können. Mit der Verbreitung des Computerhandels wurden Doppelbytecodierungsschemas entwickelt, sodass Zeichen in 8-Bit-, 16-Bit-, 24-Bit- oder 32-Bit-Sequenzen dargestellt werden können. Dies erfordert komplizierte Übergabealgorithmen; Auch die Verwendung unterschiedlicher Codesätze könnte auf zwei verschiedenen Computern völlig unterschiedliche Ergebnisse erzielen.
Um das Problem mehrerer Codierungsschemas zu beheben, wurde der Unicode-Standard für die Datendarstellung entwickelt. Ein 16-Bit-Zeichencodierungsschema, Unicode kann 65.536 (2^16) Zeichen darstellen, was ausreicht, um alle Sprachen im Computerhandel einzuschließen, sowie Satzzeichen, mathematische Symbole und Raum für die Erweiterung. Unicode richtet einen eindeutigen Code für jedes Zeichen ein, um sicherzustellen, dass die Zeichenübersetzung immer korrekt ist.
OEM-Zeichensatz
Der OEM-Zeichensatz wird in der Regel in Vollbild-MS-DOS Sitzungen für die Bildschirmanzeige verwendet. Die Zeichen 32 bis 127 sind in der Regel in OEM-, US-ASCII- und Windows-Zeichensätzen identisch. Die anderen Zeichen im OEM-Zeichensatz (0 bis 31 und 128 bis 255) entsprechen den Zeichen, die in einer Vollbild-MS-DOS Sitzung angezeigt werden können. Diese Zeichen unterscheiden sich in der Regel von den Windows-Zeichen.
Symbolzeichensatz
Der Zeichensatz "Symbol" enthält Sonderzeichen, die in der Regel verwendet werden, um mathematische und wissenschaftliche Formeln darzustellen.
Herstellerspezifische Zeichensätze
Viele Drucker und andere Ausgabegeräte stellen Schriftarten basierend auf Zeichensätzen bereit, die sich von den Windows- und OEM-Sätzen unterscheiden, z. B. den Zeichensatz "Extended Binary Coded Decimal Interchange Code (EBCDIC)". Um einen dieser Zeichensätze zu verwenden, übersetzt der Druckertreiber aus dem Windows-Zeichensatz in den herstellerspezifischen Zeichensatz.