Betűtípusok által használt karakterkészletek

Cikk
03/12/2025

Minden betűtípus egy karakterkészletet használ. A karakterkészlet írásjeleket, számokat, nagybetűket és kisbetűket, valamint minden más nyomtatható karaktert tartalmaz. Egy karakterkészlet minden elemét szám azonosítja.

A legtöbb használt karakterkészlet az amerikai ASCII karakterkészlet szuperhalmaza, amely a 96 numerikus értékhez definiál karaktereket 32 és 127 között. A karakterkészletek öt fő csoportja van:

Windows
Unicode
OEM (eredeti berendezésgyártó)
Jelkép
Szállítóspecifikus

Windows-karakterkészlet

A Windows karakterkészlet a leggyakrabban használt karakterkészlet. Ez lényegében egyenértékű az ANSI-karakterkészlettel. Az üres karakter a Windows-karakterkészlet első karaktere. Hexadecimális értéke 0x20 (decimális 32). A Windows-karakterkészlet utolsó karakterének hexadecimális értéke 0xFF (decimális 255).

Számos betűtípus alapértelmezett karaktert ad meg. Ha olyan karaktert kérnek, amely nem szerepel a betűtípusban, a rendszer ezt az alapértelmezett karaktert adja meg. A Windows-karakterkészletet használó betűtípusok közül sok a pont (.) karaktert adja meg alapértelmezett karakterként. A TrueType és az OpenType betűtípusok általában egy nyitott mezőt használnak alapértelmezett karakterként.

A betűtípusok egy quad nevű törésjelet használnak a szavak elválasztásához és a szöveg sorkizárásához. A Windows-karakterkészletet használó betűtípusok többsége azt határozza meg, hogy az üres karakter lesz a törés karakter.

Unicode-karakterkészlet

A Windows-karakterkészlet 8 bittel jelöli az egyes karaktereket; Ezért a 8 bit használatával kifejezhető karakterek maximális száma 256 (2^8). Ez általában elegendő a nyugati nyelvekhez, beleértve a francia, német, spanyol és más nyelveken használt diakritikus jeleket is. A keleti nyelvek azonban több ezer különálló karaktert használnak, amelyek nem kódolhatók egy bájtos kódolási sémával. A számítógépes kereskedelem elterjedése miatt a kétbájtos kódolási sémákat úgy fejlesztették ki, hogy a karakterek 8 bites, 16 bites, 24 bites vagy 32 bites sorozatokban legyenek ábrázolva. Ehhez bonyolult átmenő algoritmusokra van szükség; ennek ellenére a különböző kódkészletek használata teljesen eltérő eredményeket eredményezhet két különböző számítógépen.

A több kódolási séma problémájának megoldása érdekében kifejlesztettük az adatreprezentáció Unicode szabványát. Egy 16 bites karakterkódolási séma, a Unicode 65 536 (2^16) karaktert jelölhet, ami elegendő ahhoz, hogy a mai számítógépes kereskedelemben minden nyelvet befoglaljon, valamint írásjeleket, matematikai szimbólumokat és bővíthető teret. A Unicode minden karakterhez létrehoz egy egyedi kódot, hogy a karakterfordítás mindig pontos legyen.

OEM-karakterkészlet

Az OEM karakterkészletet általában teljes képernyős MS-DOS munkamenetekben használják a képernyőmegjelenítéshez. A 32–127 karakter általában megegyezik az OEM, az AMERIKAI ASCII és a Windows karakterkészletekben. Az OEM-karakterkészlet többi karaktere (0–31 és 128–255) a teljes képernyős MS-DOS munkamenetben megjeleníthető karaktereknek felel meg. Ezek a karakterek általában eltérnek a Windows-karakterektől.

Szimbólum karakterkészlete

A Szimbólum karakterkészlet speciális karaktereket tartalmaz, amelyeket általában matematikai és tudományos képletek ábrázolására használnak.

Szállítóspecifikus karakterkészletek

Számos nyomtató és más kimeneti eszköz olyan karakterkészleteken alapuló betűtípusokat biztosít, amelyek eltérnek a Windows és az OEM-készletektől, például a kiterjesztett bináris kódolt tizedesjegyek közötti kód (EBCDIC) karakterkészlettől. Ezen karakterkészletek egyikének használatához a nyomtatóillesztő a Windows-karakterkészletről a szállítóspecifikus karakterkészletre fordít.

Megosztás a következőn keresztül: