Vamos descobrir qual é a codificação do arquivo. Simplificando, uma codificação é um conjunto de caracteres de byte que correspondem ao alfabeto alfabético em um determinado idioma. Cada idioma tem sua própria sequência específica de tais caracteres de codificação. Às vezes, é necessário determinar a codificação. Vamos considerar isso usando um exemplo de documento de texto.
O que você precisa
Uma coleção de ferramentas de software específicas. Para começar, aplicativos suficientes como Palavra, KWrite, navegador Firefox e ferramentas de reconhecimento - enca.
Você pode determinar a codificação do arquivo usando o editor universal Microsoft Word. Antes, ele precisa ser instalado a partir do pacote Escritório. Quando o aplicativo estiver instalado e puder ser aberto usando o ícone W na área de trabalho, prossiga para a próxima etapa.
A próxima etapa de reconhecimento
Abra os itens "Arquivo" - "Abrir" por vez no painel de navegação do aplicativo. O mesmo pode ser feito usando o atalho do teclado Ctrl + O.
Em seguida, na caixa de diálogo, selecione o diretório desejado e, de fato, o arquivo a ser lido. Depois de selecioná-lo com o mouse, clique no botão "abrir".
Quando um arquivo não tem uma correspondência definida CP1251, o aplicativo tenta determinar por si mesmocodificação. Uma lista de possíveis correspondências será exibida. Nos conjuntos de caracteres propostos no lado direito da lista, selecione uma das codificações. Se a seleção estiver correta, o texto reconhecido será exibido no elemento de amostra.
Como detectar a codificação com o KWrite
Além do pré-processador para processamento de texto, Word, existem outros utilitários funcionais. Um deles - KWrite (analógico para sistemas unix). Para que não se confunda, descreverei a tarefa "determinar a codificação do documento no KWrite" ponto a ponto.
- Carregando um arquivo .txt no aplicativo.
- Enumeração de codificações até que uma delas seja adequada.
- Para executar a etapa 2, vá para a opção de ferramentas no menu de codificação.
Navegador Mozilla Firefox, o objetivo é o mesmo - determinar a codificação
O princípio é aproximadamente o mesmo que nos utilitários para trabalhar com texto. Lançamos o navegador instalado para execução e, se não estiver instalado, baixamos o instalador em mozilla.org.
Então, na janela aberta do programa, você precisa abrirum documento de texto através do menu "Arquivo", submenu "Abrir arquivo". Se o arquivo selecionado for exibido sem distorção e o texto for legível, não será difícil determinar a codificação.
Para fazer isso, vá em “Exibir” - “codificação”, são exibidos vários conjuntos de caracteres, e aquele ao lado do qual há uma “marca de seleção” é a codificação definida pelo navegador.
Se o texto não foi reconhecido corretamente, selecione a subseção "avançada", experimente as codificações nela ou selecione o valor "auto".
Software especializado - trabalhando com enca
Existem também vários recursos eletrônicos que tornam possível determinar a codificação de texto não formatado.
Para aqueles que estão acostumados a trabalhar em unix, outilitário enca. Ele pode ser instalado usando o serviço Package Manager. Depois de encontrar uma categoria de pacote disponível, você pode começar a instalar o software.
Para exibir uma lista de idiomas de reconhecimento, execute o comando enca --list languages usando um terminal.
Se você precisar determinar a codificação de um arquivo de texto após a tecla (g), insira seu nome e, após a opção (L), insira o idioma de reconhecimento aproximadamente da mesma maneira:
enca -L russo -g /home/vic/temp/myfile.txt.
Vamos resumir o que foi dito sobre codificação
Acredito que os utilitários acima se tornarão um conjunto suficiente de ferramentas para o usuário decodificar documentos de texto.
Até agora, na verdade, é tudo sobre como reconhecercodificação. Para fins padrão, acho que o software especificado está bom. Existem métodos de detecção mais especializados, mas sua consideração está além do escopo deste artigo.
Para o Microsoft Word, a fonte de reconhecimento pode ser um texto simples e um documento com formatação complexa.