Set di caratteri utilizzati dai tipi di carattere
Tutti i tipi di carattere usano un set di caratteri. Un set di caratteri contiene segni di punteggiatura, numerali, lettere maiuscole e minuscole e tutti gli altri caratteri stampabili. Ogni elemento di un set di caratteri è identificato da un numero.
La maggior parte dei set di caratteri in uso sono superset del set di caratteri ASCII degli Stati Uniti, che definisce i caratteri per i valori numerici da 32 a 127. Esistono cinque gruppi principali di set di caratteri:
- Finestre
- Unicode
- OEM (produttore di apparecchiature originali)
- Simbolo
- Specifico del fornitore
Set di caratteri di Windows
Il set di caratteri di Windows è il set di caratteri più comunemente usato. È essenzialmente equivalente al set di caratteri ANSI. Il carattere vuoto è il primo carattere nel set di caratteri di Windows. Ha un valore esadecimale pari a 0x20 (decimale 32). L'ultimo carattere nel set di caratteri di Windows ha un valore esadecimale pari a 0xFF (decimale 255).
Molti tipi di carattere specificano un carattere predefinito. Ogni volta che viene effettuata una richiesta per un carattere non incluso nel tipo di carattere, il sistema fornisce questo carattere predefinito. Molti tipi di carattere che usano il set di caratteri di Windows specificano il punto (.) come carattere predefinito. I tipi di carattere TrueType e OpenType usano in genere una casella aperta come carattere predefinito.
I tipi di carattere usano un carattere di interruzione denominato quad per separare le parole e giustificare il testo. La maggior parte dei tipi di carattere che usano il set di caratteri di Windows specifica che il carattere vuoto fungerà da carattere di interruzione.
Set di caratteri Unicode
Il set di caratteri di Windows usa 8 bit per rappresentare ogni carattere; pertanto, il numero massimo di caratteri che possono essere espressi usando 8 bit è 256 (2^8). Ciò è in genere sufficiente per le lingue occidentali, inclusi i segni diacritici usati in francese, tedesco, spagnolo e altre lingue. Tuttavia, le lingue orientali usano migliaia di caratteri separati, che non possono essere codificati usando uno schema di codifica a byte singolo. Con la proliferazione del commercio informatico, sono stati sviluppati schemi di codifica a doppio byte in modo che i caratteri possano essere rappresentati in sequenze a 8 bit, a 16 bit, a 24 bit o a 32 bit. Ciò richiede algoritmi di passaggio complessi; anche in questo caso, l'uso di set di codice diversi potrebbe produrre risultati completamente diversi in due computer diversi.
Per risolvere il problema di più schemi di codifica, è stato sviluppato lo standard Unicode per la rappresentazione dei dati. Uno schema di codifica dei caratteri a 16 bit, Unicode può rappresentare 65.536 (2^16) caratteri, che è sufficiente per includere tutte le lingue nel commercio informatico oggi, nonché segni di punteggiatura, simboli matematici e spazio per l'espansione. Unicode stabilisce un codice univoco per ogni carattere per garantire che la traduzione dei caratteri sia sempre accurata.
Set di caratteri OEM
Il set di caratteri OEM viene in genere usato nelle sessioni a schermo intero MS-DOS per la visualizzazione dello schermo. I caratteri da 32 a 127 sono in genere gli stessi nei set di caratteri OEM, U.S. ASCII e Windows. Gli altri caratteri nel set di caratteri OEM (da 0 a 31 e da 128 a 255) corrispondono ai caratteri che possono essere visualizzati in una sessione di MS-DOS a schermo intero. Questi caratteri sono in genere diversi dai caratteri di Windows.
Set di caratteri simbolo
Il set di caratteri Symbol contiene caratteri speciali usati in genere per rappresentare formule matematiche e scientifiche.
Set di caratteri specifici del fornitore
Molte stampanti e altri dispositivi di output forniscono tipi di carattere basati su set di caratteri diversi dai set windows e OEM, ad esempio il set di caratteri EBCDIC (Extended Binary Coded Decimal Interchange Code). Per usare uno di questi set di caratteri, il driver della stampante trasla dal set di caratteri windows al set di caratteri specifico del fornitore.