/ / Работа с текст. Как да определим кодирането на файл

Работа с текст. Как да определите кодирането на файла

Нека да разберем какво е кодирането на файла.По-просто казано, кодирането е набор от байтови символи, които съответстват на азбучната азбука на определен език. Всеки език има своя специфична последователност от такива кодиращи знаци. Понякога има нужда да се определи кодирането. Нека разгледаме това, като използваме пример за текстов документ.

Какво ти е необходимо

Колекция от специфични софтуерни инструменти. За начало достатъчно приложения като дума, Браузър KWrite, Firefox и инструменти за разпознаване - ENCA.

Можете да определите кодирането на файла с помощта на универсалния редактор Microsoft Word. Преди това трябва да се инсталира от пакета Office. Когато приложението е инсталирано и може да се отвори с помощта на иконата W на работния плот, преминете към следващата стъпка.

Следващият етап на разпознаване

Отворете елементите „File“ - „Open“ от своя страна през навигационния панел на приложението. Същото може да се направи с помощта на клавишната комбинация Ctrl + O.

След това в диалоговия прозорец изберете желаната директория и всъщност файла, който ще прочетете. След като го изберете с мишката, щракнете върху бутона "отвори".

Когато файлът няма зададен мач CP1251, приложението се опитва да определи самокодираща. Ще се покаже списък с възможни съвпадения. В предложените набори от символи от дясната страна на списъка изберете едно от кодировките. Ако селекцията е правилна, разпознатият текст ще се покаже в примерния елемент.

Как да открием кодирането с KWrite

В допълнение към препроцесора за текстообработка, Word, има и други функционални помощни програми. Един от тях - KWrite (аналог за Unix системи). За да не се объркате, ще опиша задачата „определяне на кодирането на документа в KWrite“ точка по точка.

  1. Зареждане на .txt файл в приложението.
  2. Изброяване на кодировките, докато едно от тях не е подходящо.
  3. За да изпълните стъпка 2, отидете на опцията инструменти в менюто за кодиране.

Браузър Mozilla Firefox, целта е същата - да се определи кодирането

Принципът е приблизително същият като в помощните програми за работа с текст. Стартираме инсталирания браузър за изпълнение и ако той не е инсталиран, изтеглете инсталатора от mozilla.org.

След това в отворения прозорец на програмата, което трябва да отворитетекстов документ през менюто "Файл", подменюто "Отваряне на файл". Ако избраният файл се показва без изкривяване и текстът е четим, няма да е трудно да се определи кодирането.

За да направите това, отидете на „Преглед“ - „кодиране“, там се показват няколко набора символи, а този, срещу който има „отметка“, е кодирането, определено от браузъра.

Ако текстът не е разпознат правилно, изберете подраздел „разширено“, експериментирайте с кодиране в него или изберете стойността „автоматично“.

Специализиран софтуер - работа с enca

Съществуват и редица електронни помагала, които позволяват да се определи кодирането на неформатиран текст.

За тези, които са свикнали да работят в UNIX, Theenca полезност. Може да се инсталира с помощта на услугата Package Manager. След като намерите налична категория пакети, можете да започнете да инсталирате софтуера.

За да се покаже списък с езици за разпознаване, изпълнете командата enca --list езици, използвайки терминал.

Ако трябва да определите кодирането на текстов файл след клавиша (g), въведете неговото име и след опцията (L) въведете езика за разпознаване приблизително по същия начин:

enca -L руски -g /home/vic/temp/myfile.txt.

Нека обобщим казаното за кодирането

Вярвам, че горните помощни програми ще станат достатъчен набор от инструменти за потребителя да декодира текстови документи.

Засега всъщност става въпрос за това как да разпознаемкодираща. За стандартни цели смятам, че посоченият софтуер е наред. Има по-специализирани методи за откриване, но тяхното разглеждане е извън обхвата на тази статия.

За Microsoft Word източникът на разпознаване може да бъде както обикновен текст, така и документ със сложно форматиране.