Teckenuppsättningar som används av teckensnitt

Artikel
03/12/2025

Alla teckensnitt använder en teckenuppsättning. En teckenuppsättning innehåller skiljetecken, siffror, versaler och gemener och alla andra utskrivbara tecken. Varje element i en teckenuppsättning identifieras med ett tal.

De flesta teckenuppsättningar som används är superuppsättningar av den amerikanska ASCII-teckenuppsättningen, som definierar tecken för de 96 numeriska värdena från 32 till 127. Det finns fem större grupper med teckenuppsättningar:

Windows
Unicode
OEM (originalutrustningstillverkare)
Symbol
Leverantörsspecifik

Windows-teckenuppsättning

Windows-teckenuppsättningen är den vanligaste teckenuppsättningen. Den motsvarar i stort sett ANSI-teckenuppsättningen. Det tomma tecknet är det första tecknet i Windows-teckenuppsättningen. Den har ett hexadecimalt värde på 0x20 (decimal 32). Det sista tecknet i Windows-teckenuppsättningen har ett hexadecimalt värde på 0xFF (decimal 255).

Många teckensnitt anger ett standardtecken. När en begäran görs om ett tecken som inte finns i teckensnittet tillhandahåller systemet det här standardtecknet. Många teckensnitt som använder Windows-teckenuppsättningen anger perioden (.) som standardtecken. TrueType- och OpenType-teckensnitt använder vanligtvis en öppen ruta som standardtecken.

Teckensnitt använder ett bryttecken som kallas quad för att avgränsa ord och justera text. De flesta teckensnitt som använder Windows-teckenuppsättningen anger att det tomma tecknet ska fungera som bryttecken.

Unicode-teckenuppsättning

Windows-teckenuppsättningen använder 8 bitar för att representera varje tecken. Därför är det maximala antalet tecken som kan uttryckas med 8 bitar 256 (2^8). Detta är vanligtvis tillräckligt för västerländska språk, inklusive de diakritiska märken som används på franska, tyska, spanska och andra språk. Östliga språk använder dock tusentals separata tecken, som inte kan kodas med hjälp av ett kodningsschema med en enda byte. Med spridningen av datorhandel utvecklades kodningsscheman med dubbla byte så att tecken kunde representeras i 8-bitars, 16-bitars, 24-bitars eller 32-bitars sekvenser. Detta kräver komplicerade algoritmer för överföring. att använda olika koduppsättningar kan ge helt olika resultat på två olika datorer.

För att lösa problemet med flera kodningsscheman utvecklades Unicode-standarden för datarepresentation. Unicode är ett kodningsschema på 16 bitar och kan representera 65 536 (2^16) tecken, vilket räcker för att inkludera alla språk i datorhandeln idag, samt skiljetecken, matematiska symboler och utrymme för expansion. Unicode etablerar en unik kod för varje tecken för att säkerställa att teckenöversättningen alltid är korrekt.

OEM-teckenuppsättning

OEM-teckenuppsättningen används vanligtvis i helskärmsläge MS-DOS sessioner för skärmvisning. Tecken mellan 32 och 127 är vanligtvis desamma i teckenuppsättningarna OEM, U.S. ASCII och Windows. De andra tecknen i OEM-teckenuppsättningen (0 till 31 och 128 till och med 255) motsvarar de tecken som kan visas i en helskärmssession MS-DOS. Dessa tecken skiljer sig vanligtvis från Windows-tecknen.

Teckenuppsättning för symbol

Teckenuppsättningen Symbol innehåller specialtecken som vanligtvis används för att representera matematiska och vetenskapliga formler.

Leverantörsspecifika teckenuppsättningar

Många skrivare och andra utdataenheter tillhandahåller teckensnitt baserade på teckenuppsättningar som skiljer sig från Windows- och OEM-uppsättningar, till exempel EBCDIC-teckenuppsättningen (Extended Binary Coded Decimal Interchange Code). Om du vill använda någon av dessa teckenuppsättningar översätts skrivardrivrutinen från Windows-teckenuppsättningen till den leverantörsspecifika teckenuppsättningen.

Dela via