Tekensets die worden gebruikt door lettertypen
Alle lettertypen gebruiken een tekenset. Een tekenset bevat leestekens, cijfers, hoofdletters en kleine letters en alle andere afdrukbare tekens. Elk element van een tekenset wordt geïdentificeerd door een getal.
De meeste tekensets in gebruik zijn supersets van de Amerikaanse ASCII-tekenset, waarmee tekens voor de 96 numerieke waarden van 32 tot en met 127 worden gedefinieerd. Er zijn vijf grote groepen tekensets:
- Ramen
- Unicode
- OEM (fabrikant van originele apparatuur)
- Symbool
- Leverancierspecifiek
Windows-tekenset
De Windows-tekenset is de meest gebruikte tekenset. Het is in feite gelijk aan de ANSI-tekenset. Het lege teken is het eerste teken in de Windows-tekenset. Het heeft een hexadecimale waarde van 0x20 (decimaal 32). Het laatste teken in de Windows-tekenset heeft een hexadecimale waarde van 0xFF (decimaal 255).
Veel lettertypen geven een standaardteken op. Wanneer er een aanvraag wordt gedaan voor een teken dat zich niet in het lettertype bevindt, geeft het systeem dit standaardteken aan. Veel lettertypen die de Windows-tekenset gebruiken, geven de punt (.) op als het standaardteken. TrueType- en OpenType-lettertypen gebruiken doorgaans een open vak als het standaardteken.
Lettertypen gebruiken een onderbrekingsteken dat een quad wordt genoemd om woorden te scheiden en tekst te rechtvaardigen. De meeste lettertypen die de Windows-tekenset gebruiken, geven aan dat het lege teken zal fungeren als het eindeteken.
Unicode-tekenset
De Windows-tekenset gebruikt 8 bits om elk teken weer te geven; Daarom is het maximum aantal tekens dat kan worden uitgedrukt met 8 bits 256 (2^8). Dit is meestal voldoende voor westerse talen, waaronder de diakritische tekens die worden gebruikt in het Frans, Duits, Spaans en andere talen. Oostelijke talen maken echter gebruik van duizenden afzonderlijke tekens, die niet kunnen worden gecodeerd met behulp van een coderingsschema met één byte. Met de verspreiding van computerhandel zijn dubbel-bytecoderingsprogramma's ontwikkeld, zodat tekens kunnen worden weergegeven in 8-bits, 16-bits, 24-bits of 32-bits reeksen. Hiervoor zijn ingewikkelde algoritmen vereist; Zelfs dit kan het gebruik van verschillende codesets totaal verschillende resultaten opleveren op twee verschillende computers.
Om het probleem van meerdere coderingsschema's op te lossen, is de Unicode-standaard voor gegevensweergave ontwikkeld. Een 16-bits tekencoderingsschema, Unicode kan 65.536 tekens (2^16) vertegenwoordigen, wat voldoende is om alle talen in computerhandel vandaag op te nemen, evenals leestekens, wiskundige symbolen en ruimte voor uitbreiding. Unicode brengt een unieke code tot stand voor elk teken om ervoor te zorgen dat tekenomzetting altijd nauwkeurig is.
OEM-tekenset
De OEM-tekenset wordt doorgaans gebruikt in een volledig scherm MS-DOS sessies voor schermweergave. Tekens 32 tot en met 127 zijn meestal hetzelfde in de OEM-, Amerikaanse ASCII- en Windows-tekensets. De andere tekens in de OEM-tekenset (0 tot en met 31 en 128 tot en met 255) komen overeen met de tekens die kunnen worden weergegeven in een volledig scherm MS-DOS sessie. Deze tekens verschillen over het algemeen van de Windows-tekens.
Symbooltekenset
De tekenset Symbool bevat speciale tekens die doorgaans worden gebruikt om wiskundige en wetenschappelijke formules weer te geven.
Leverancierspecifieke tekensets
Veel printers en andere uitvoerapparaten bieden lettertypen op basis van tekensets die verschillen van de Windows- en OEM-sets, bijvoorbeeld de EBCDIC-tekenset (Extended Binary Coded Decimal Interchange Code). Als u een van deze tekensets wilt gebruiken, vertaalt het printerstuurprogramma zich van de Windows-tekenset naar de leverancierspecifieke tekenset.