Partilhar via


Conjuntos de caracteres usados por fontes

Todas as fontes usam um conjunto de caracteres. Um conjunto de caracteres contém sinais de pontuação, algarismos, letras maiúsculas e minúsculas e todos os outros caracteres imprimíveis. Cada elemento de um conjunto de caracteres é identificado por um número.

A maioria dos conjuntos de caracteres em uso são superconjuntos do conjunto de caracteres ASCII dos EUA, que define caracteres para os 96 valores numéricos de 32 a 127. Existem cinco grupos principais de conjuntos de caracteres:

  • Mac OS
  • Unicode
  • OEM (fabricante do equipamento original)
  • Símbolo
  • Específico do fornecedor

Conjunto de caracteres do Windows

O conjunto de caracteres do Windows é o conjunto de caracteres mais usado. É essencialmente equivalente ao conjunto de caracteres ANSI. O caractere em branco é o primeiro caractere no conjunto de caracteres do Windows. Tem um valor hexadecimal de 0x20 (decimal 32). O último caractere no conjunto de caracteres do Windows tem um valor hexadecimal de 0xFF (decimal 255).

Muitas fontes especificam um caractere padrão. Sempre que uma solicitação é feita para um caractere que não está na fonte, o sistema fornece esse caractere padrão. Muitas fontes que usam o conjunto de caracteres do Windows especificam o ponto (.) como o caractere padrão. As fontes TrueType e OpenType normalmente usam uma caixa aberta como caractere padrão.

As fontes usam um caractere de quebra chamado quad para separar palavras e justificar texto. A maioria das fontes que usam o conjunto de caracteres do Windows especifica que o caractere em branco servirá como o caractere de quebra.

Conjunto de caracteres Unicode

O conjunto de caracteres do Windows usa 8 bits para representar cada caractere; portanto, o número máximo de caracteres que podem ser expressos usando 8 bits é 256 (2^8). Isso geralmente é suficiente para as línguas ocidentais, incluindo as marcas diacríticas usadas em francês, alemão, espanhol e outras línguas. No entanto, as línguas orientais empregam milhares de caracteres separados, que não podem ser codificados usando um esquema de codificação de byte único. Com a proliferação do comércio de computadores, esquemas de codificação de byte duplo foram desenvolvidos para que os caracteres pudessem ser representados em sequências de 8 bits, 16 bits, 24 bits ou 32 bits. Isso requer algoritmos de passagem complicados; Mesmo assim, o uso de conjuntos de códigos diferentes pode produzir resultados totalmente diferentes em dois computadores diferentes.

Para resolver o problema de vários esquemas de codificação, o padrão Unicode para representação de dados foi desenvolvido. Um esquema de codificação de caracteres de 16 bits, Unicode pode representar 65.536 (2^16) caracteres, o que é suficiente para incluir todas as linguagens no comércio de computadores hoje, bem como sinais de pontuação, símbolos matemáticos e espaço para expansão. O Unicode estabelece um código exclusivo para cada caractere para garantir que a tradução de caracteres seja sempre precisa.

Conjunto de caracteres OEM

O conjunto de caracteres OEM é normalmente usado em sessões de MS-DOS em tela cheia para exibição na tela. Os caracteres 32 a 127 são geralmente os mesmos nos conjuntos de caracteres OEM, U.S. ASCII e Windows. Os outros caracteres no conjunto de caracteres OEM (0 a 31 e 128 a 255) correspondem aos caracteres que podem ser exibidos em uma sessão de MS-DOS em tela cheia. Esses caracteres são geralmente diferentes dos caracteres do Windows.

Conjunto de caracteres de símbolo

O conjunto de caracteres Symbol contém caracteres especiais normalmente usados para representar fórmulas matemáticas e científicas.

Conjuntos de caracteres específicos do fornecedor

Muitas impressoras e outros dispositivos de saída fornecem fontes baseadas em conjuntos de caracteres que diferem dos conjuntos Windows e OEMPOR exemplo, o conjunto de caracteres EBCDIC (Extended Binary Coded Decimal Interchange Code). Para usar um desses conjuntos de caracteres, o driver da impressora é traduzido do conjunto de caracteres do Windows para o conjunto de caracteres específico do fornecedor.