Partager via


Jeux de caractères utilisés par les polices

Toutes les polices utilisent un jeu de caractères. Un jeu de caractères contient des marques de ponctuation, des chiffres, des majuscules et des lettres minuscules, ainsi que tous les autres caractères imprimables. Chaque élément d’un jeu de caractères est identifié par un nombre.

La plupart des jeux de caractères utilisés sont des supersets du jeu de caractères ASCII américain, qui définit des caractères pour les 96 valeurs numériques comprises entre 32 et 127. Il existe cinq groupes principaux de jeux de caractères :

  • Windows
  • Unicode
  • OEM (fabricant d’équipement d’origine)
  • Symbole
  • Spécifique au fournisseur

Jeu de caractères Windows

Le jeu de caractères Windows est le jeu de caractères le plus couramment utilisé. Il équivaut essentiellement au jeu de caractères ANSI. Le caractère vide est le premier caractère du jeu de caractères Windows. Il a une valeur hexadécimale de 0x20 (décimale 32). Le dernier caractère du jeu de caractères Windows a une valeur hexadécimale de 0xFF (décimale 255).

De nombreuses polices spécifient un caractère par défaut. Chaque fois qu’une requête est effectuée pour un caractère qui n’est pas dans la police, le système fournit ce caractère par défaut. De nombreuses polices utilisant le jeu de caractères Windows spécifient le point (.) comme caractère par défaut. Les polices TrueType et OpenType utilisent généralement une zone ouverte comme caractère par défaut.

Les polices utilisent un caractère de saut appelé quad pour séparer les mots et justifier le texte. La plupart des polices utilisant le jeu de caractères Windows spécifient que le caractère vide servira de caractère d’arrêt.

Jeu de caractères Unicode

Le jeu de caractères Windows utilise 8 bits pour représenter chaque caractère ; par conséquent, le nombre maximal de caractères pouvant être exprimés à l’aide de 8 bits est de 256 (2^8). Ceci est généralement suffisant pour les langues occidentales, y compris les marques diacritiques utilisées en français, allemand, espagnol et d’autres langues. Toutefois, les langues orientales utilisent des milliers de caractères distincts, qui ne peuvent pas être codés à l’aide d’un schéma de codage à octet unique. Avec la prolifération du commerce informatique, des schémas de codage double octet ont été développés afin que les caractères puissent être représentés en séquences 8 bits, 16 bits, 24 bits ou 32 bits. Cela nécessite des algorithmes de passage complexes ; même si, l’utilisation de jeux de code différents peut produire des résultats entièrement différents sur deux ordinateurs différents.

Pour résoudre le problème de plusieurs schémas de codage, la norme Unicode pour la représentation des données a été développée. Un schéma de codage de caractères 16 bits, Unicode peut représenter 65 536 caractères (2^16), ce qui est suffisant pour inclure tous les langages du commerce informatique aujourd’hui, ainsi que des marques de ponctuation, des symboles mathématiques et un espace d’expansion. Unicode établit un code unique pour chaque caractère pour garantir que la traduction de caractères est toujours précise.

Jeu de caractères OEM

Le jeu de caractères OEM est généralement utilisé dans les sessions de MS-DOS plein écran pour l’affichage de l’écran. Les caractères 32 à 127 sont généralement les mêmes dans les jeux de caractères OEM, ÉTATS-Unis ASCII et Windows. Les autres caractères du jeu de caractères OEM (0 à 31 et 128 à 255) correspondent aux caractères qui peuvent être affichés dans une session de MS-DOS plein écran. Ces caractères sont généralement différents des caractères Windows.

Jeu de caractères de symbole

Le jeu de caractères symboles contient des caractères spéciaux généralement utilisés pour représenter des formules mathématiques et scientifiques.

Jeux de caractères spécifiques au fournisseur

De nombreuses imprimantes et autres périphériques de sortie fournissent des polices basées sur des jeux de caractères qui diffèrent des jeux de caractères Windows et OEM par exemple, le jeu de caractères EBCDIC (Extended Binary Coded Decimal Interchange Coded). Pour utiliser l’un de ces jeux de caractères, le pilote d’imprimante se traduit du jeu de caractères Windows vers le jeu de caractères spécifique au fournisseur.