/ / Trabalhe com texto. Como determinar a codificação de um arquivo

Trabalhe com texto. Como determinar a codificação de um arquivo

Vamos descobrir qual é a codificação do arquivo. Simplificando, uma codificação é um conjunto de caracteres de byte que correspondem ao alfabeto alfabético em um determinado idioma. Cada idioma tem sua própria sequência específica de tais caracteres de codificação. Às vezes, é necessário determinar a codificação. Vamos considerar isso usando um exemplo de documento de texto.

O que você precisa

Uma coleção de ferramentas de software específicas. Para começar, aplicativos suficientes como Palavra, KWrite, navegador Firefox e ferramentas de reconhecimento - enca.

Você pode determinar a codificação do arquivo usando o editor universal Microsoft Word. Antes, ele precisa ser instalado a partir do pacote Escritório. Quando o aplicativo estiver instalado e puder ser aberto usando o ícone W na área de trabalho, prossiga para a próxima etapa.

A próxima etapa de reconhecimento

Abra os itens "Arquivo" - "Abrir" por vez no painel de navegação do aplicativo. O mesmo pode ser feito usando o atalho do teclado Ctrl + O.

Em seguida, na caixa de diálogo, selecione o diretório desejado e, de fato, o arquivo a ser lido. Depois de selecioná-lo com o mouse, clique no botão "abrir".

Quando um arquivo não tem uma correspondência definida CP1251, o aplicativo tenta determinar por si mesmocodificação. Uma lista de possíveis correspondências será exibida. Nos conjuntos de caracteres propostos no lado direito da lista, selecione uma das codificações. Se a seleção estiver correta, o texto reconhecido será exibido no elemento de amostra.

Como detectar a codificação com o KWrite

Além do pré-processador para processamento de texto, Word, existem outros utilitários funcionais. Um deles - KWrite (analógico para sistemas unix). Para que não se confunda, descreverei a tarefa "determinar a codificação do documento no KWrite" ponto a ponto.

  1. Carregando um arquivo .txt no aplicativo.
  2. Enumeração de codificações até que uma delas seja adequada.
  3. Para executar a etapa 2, vá para a opção de ferramentas no menu de codificação.

Navegador Mozilla Firefox, o objetivo é o mesmo - determinar a codificação

O princípio é aproximadamente o mesmo que nos utilitários para trabalhar com texto. Lançamos o navegador instalado para execução e, se não estiver instalado, baixamos o instalador em mozilla.org.

Então, na janela aberta do programa, você precisa abrirum documento de texto através do menu "Arquivo", submenu "Abrir arquivo". Se o arquivo selecionado for exibido sem distorção e o texto for legível, não será difícil determinar a codificação.

Para fazer isso, vá em “Exibir” - “codificação”, são exibidos vários conjuntos de caracteres, e aquele ao lado do qual há uma “marca de seleção” é a codificação definida pelo navegador.

Se o texto não foi reconhecido corretamente, selecione a subseção "avançada", experimente as codificações nela ou selecione o valor "auto".

Software especializado - trabalhando com enca

Existem também vários recursos eletrônicos que tornam possível determinar a codificação de texto não formatado.

Para aqueles que estão acostumados a trabalhar em unix, outilitário enca. Ele pode ser instalado usando o serviço Package Manager. Depois de encontrar uma categoria de pacote disponível, você pode começar a instalar o software.

Para exibir uma lista de idiomas de reconhecimento, execute o comando enca --list languages ​​usando um terminal.

Se você precisar determinar a codificação de um arquivo de texto após a tecla (g), insira seu nome e, após a opção (L), insira o idioma de reconhecimento aproximadamente da mesma maneira:

enca -L russo -g /home/vic/temp/myfile.txt.

Vamos resumir o que foi dito sobre codificação

Acredito que os utilitários acima se tornarão um conjunto suficiente de ferramentas para o usuário decodificar documentos de texto.

Até agora, na verdade, é tudo sobre como reconhecercodificação. Para fins padrão, acho que o software especificado está bom. Existem métodos de detecção mais especializados, mas sua consideração está além do escopo deste artigo.

Para o Microsoft Word, a fonte de reconhecimento pode ser um texto simples e um documento com formatação complexa.