Poďme zistiť, čo je to kódovanie súborov.Zjednodušene povedané, kódovanie je skupina bajtových znakov, ktoré zodpovedajú abecednej abecede v konkrétnom jazyku. Každý jazyk má svoju vlastnú špecifickú postupnosť takýchto kódovacích znakov. Niekedy je potrebné určiť kódovanie. Uvažujme o tom na príklade textového dokumentu.
Čo potrebuješ
Zbierka konkrétnych softvérových nástrojov. Na začiatok stačí veľa aplikácií ako slovo, KWrite, prehliadač Firefox a nástroje na rozpoznávanie - ENCA.
Kódovanie súborov môžete určiť pomocou univerzálneho editora Microsoft Word. Predtým musí byť nainštalovaný z balíka Kancelária. Keď je aplikácia nainštalovaná a dá sa otvoriť pomocou ikony W na pracovnej ploche, pokračujte ďalším krokom.
Ďalšia fáza uznania
Otvorte položky „Súbor“ - „Otvoriť“ postupne cez navigačný panel aplikácie. To isté sa dá urobiť pomocou klávesovej skratky Ctrl + O.
Potom v dialógovom okne vyberte požadovaný adresár a v skutočnosti súbor, ktorý chcete prečítať. Po vybratí myšou kliknite na tlačidlo „otvoriť“.
Ak súbor nemá nastavenú zhodu CP1251, sa aplikácia pokúsi určiť samakódovanie. Zobrazí sa zoznam možných zhôd. V navrhovaných súboroch znakov na pravej strane zoznamu vyberte jedno z kódovaní. Ak je výber správny, rozpoznaný text sa zobrazí v elemente vzorky.
Ako zistiť kódovanie pomocou KWrite
Okrem preprocesora na spracovanie textu, Word, existujú aj ďalšie funkčné pomôcky. Jeden z nich - KWrite (analóg pre unixové systémy). Aby ste sa neplietli, popíšem úlohu „určiť kódovanie dokumentu v KWrite“ bod po bode.
- Načítanie súboru .txt do aplikácie.
- Je vhodné vyčísliť kódovanie, až kým nie je jedno z nich.
- Ak chcete vykonať krok 2, prejdite do ponuky nástrojov v ponuke kódovania.
Prehliadač Mozilla Firefox, účel je rovnaký - určiť kódovanie
Princíp je približne rovnaký ako v obslužných programoch pre prácu s textom. Spustíme nainštalovaný prehliadač na vykonanie a ak nie je nainštalovaný, stiahnite si inštalačný program z mozilla.org.
Potom v otvorenom okne programu musíte otvoriťtextový dokument cez ponuku „Súbor“, podponuka „Otvoriť súbor“. Ak je vybraný súbor zobrazený bez skreslenia a text je čitateľný, nebude ťažké určiť kódovanie.
Ak to chcete urobiť, prejdite na „Zobraziť“ - „kódovanie“, zobrazuje sa tu niekoľko súborov znakov a ten, ktorý je oproti označeniu „začiarknutie“, je kódovanie definované prehliadačom.
Ak text nebol rozpoznaný správne, vyberte podsekciu „Rozšírené“, experimentujte s kódovaním v nej alebo vyberte hodnotu „auto“.
Špecializovaný softvér - práca s enca
Existuje tiež množstvo elektronických pomôcok, ktoré umožňujú určiť kódovanie neformátovaného textu.
Pre tých, ktorí sú zvyknutí pracovať pod unixom,enca utilita. Môže sa nainštalovať pomocou služby Správca balíkov. Keď nájdete dostupnú kategóriu balíkov, môžete začať s inštaláciou softvéru.
Ak chcete zobraziť zoznam rozpoznávacích jazykov, spustite príkazový jazyk encalist v termináli.
Ak potrebujete určiť kódovanie textového súboru za klávesom (g), zadajte jeho názov a po (L) voľbe zadajte jazyk rozpoznávania približne rovnakým spôsobom:
enca -L ruština -g /home/vic/temp/myfile.txt.
Zhrnime, čo sa hovorilo o kódovaní
Verím, že vyššie uvedené nástroje sa stanú dostatočnou sadou nástrojov pre používateľov na dekódovanie textových dokumentov.
Zatiaľ je to vlastne všetko o tom, ako to spoznaťkódovanie. Na štandardné účely si myslím, že uvedený softvér je v poriadku. Existujú špecializovanejšie metódy detekcie, ale ich posudzovanie presahuje rámec tohto článku.
Pre program Microsoft Word môže byť zdrojom rozpoznávania jednoduchý text aj dokument s komplexným formátovaním.