/ / Lavora con il testo. Come determinare la codifica di un file

Lavora con il testo. Come determinare la codifica dei file

Scopriamo qual è la codifica del file.In termini più semplici, una codifica è un insieme di caratteri byte che corrispondono all'alfabeto alfabetico in una lingua particolare. Ogni lingua ha la sua sequenza specifica di tali caratteri di codifica. A volte è necessario determinare la codifica. Consideriamo questo usando un esempio di documento di testo.

Di che cosa hai bisogno

Una raccolta di strumenti software specifici. Per cominciare, abbastanza applicazioni come parola, Browser KWrite, Firefox e strumenti di riconoscimento - enca.

È possibile determinare la codifica dei file utilizzando l'editor universale Microsoft Word. Prima, deve essere installato dal pacchetto Ufficio. Quando l'applicazione è installata e può essere aperta utilizzando l'icona W sul desktop, procedere al passaggio successivo.

La prossima fase del riconoscimento

Aprire gli elementi "File" - "Apri" a turno attraverso il pannello di navigazione dell'applicazione. Lo stesso può essere fatto usando la scorciatoia da tastiera Ctrl + O.

Quindi, nella finestra di dialogo, selezionare la directory desiderata e, di fatto, il file da leggere. Dopo averlo selezionato con il mouse, fai clic sul pulsante "Apri".

Quando un file non ha una corrispondenza impostata CP1251, l'applicazione tenta di determinare da solacodificante. Verrà visualizzato un elenco di possibili corrispondenze. Nei set di caratteri proposti sul lato destro dell'elenco, selezionare una delle codifiche. Se la selezione è corretta, il testo riconosciuto verrà visualizzato nell'elemento campione.

Come rilevare la codifica con KWrite

Oltre al preprocessore per l'elaborazione di testi, Word, ci sono altre utilità funzionali. Uno di loro - KWrite (analogo per sistemi unix). Per non confonderti, descriverò punto per punto il compito "determinare la codifica del documento in KWrite".

  1. Caricamento di un file .txt nell'applicazione.
  2. Enumerazione delle codifiche fino a quando una di esse è adatta.
  3. Per eseguire il passaggio 2, vai all'opzione strumenti nel menu di codifica.

Browser Mozilla Firefox, lo scopo è lo stesso: determinare la codifica

Il principio è più o meno lo stesso delle utilità per lavorare con il testo. Lanciamo il browser installato per l'esecuzione e, se non è installato, scarichiamo il programma di installazione da mozilla.org.

Quindi nella finestra del programma aperto è necessario aprireun documento di testo tramite il menu "File", il sottomenu "Apri file". Se il file selezionato viene visualizzato senza distorsioni e il testo è leggibile, non sarà difficile determinare la codifica.

Per fare questo, vai su "Visualizza" - "codifica", vengono visualizzati diversi set di caratteri, e quello di fronte al quale è presente un "segno di spunta" è la codifica definita dal browser.

Se il testo non è stato riconosciuto correttamente, seleziona la sottosezione "avanzata", sperimenta con le codifiche o seleziona il valore "automatico".

Software specializzato - lavorare con enca

Ci sono anche una serie di aiuti elettronici che rendono possibile determinare la codifica di testo non formattato.

Per coloro che sono abituati a lavorare con unix, ilutility enca. Può essere installato utilizzando il servizio Gestione pacchetti. Una volta trovata una categoria di pacchetti disponibile, è possibile avviare l'installazione del software.

Per visualizzare un elenco di lingue di riconoscimento, eseguire il comando enca --list languages ​​utilizzando un terminale.

Se è necessario determinare la codifica di un file di testo dopo il tasto (g), immetterne il nome e, dopo l'opzione (L), immettere la lingua di riconoscimento all'incirca nello stesso modo:

enca -L russo -g /home/vic/temp/myfile.txt.

Riassumiamo ciò che è stato detto sulla codifica

Credo che le utilità di cui sopra diventeranno un insieme sufficiente di strumenti per l'utente per decodificare i documenti di testo.

Finora, infatti, si tratta di riconoscerecodifica. Per scopi standard, penso che il software specificato vada bene. Esistono metodi di rilevamento più specializzati, ma la loro considerazione va oltre lo scopo di questo articolo.

Per Microsoft Word, la fonte del riconoscimento può essere un semplice testo o un documento con una formattazione complessa.