I følge International Telecommunication Union, iI 2016 brukte tre og en halv milliard mennesker Internett med en viss regelmessighet. De fleste av dem tenker ikke engang på det faktum at meldinger sendt av dem via PC-er eller mobile dingser, samt tekster som vises på alle slags skjermer, faktisk er kombinasjoner av 0 og 1. Denne presentasjonen av informasjon kalles koding . Det gir og letter lagring, behandling og overføring. I 1963 ble den amerikanske ASCII-kodingen utviklet, som er gjenstand for denne artikkelen.
Presentasjon av informasjon i en datamaskin
Fra synspunktet til enhver elektronisk databehandlingmaskintekst er en samling av individuelle tegn. Disse inkluderer ikke bare bokstaver, inkludert store bokstaver, men også skilletegn og tall. I tillegg brukes spesialtegn "=", "&", "(" og mellomrom.
Settet med tegn som utgjør teksten,kalles alfabetet, og tallet deres kalles kraft (betegnet som N). For å definere det, brukes uttrykket N = 2 ^ b, der b er antall biter eller informasjonsvekten til et bestemt tegn.
Det er bevist at et alfabet med en kapasitet på 256 tegn lar deg representere alle nødvendige tegn.
Siden 256 er den 8. kraften på to, er vekten av hvert tegn 8 bits.
Måleenheten på 8 bits kalles 1 byte, så det er vanlig å si at den binære koden til hvilket som helst tegn i teksten som er lagret på datamaskinen, tar opp en byte minne.
Hvordan gjøres koding
Eventuelle tekster føres inn i minnet til det personligedatamaskin ved hjelp av tastaturtaster som tall, bokstaver, skilletegn og andre symboler er skrevet på. De overføres til RAM i en binær kode, det vil si at hvert tegn er assosiert med en desimalkode som er kjent for mennesker, fra 0 til 255, som tilsvarer en binær kode - fra 00000000 til 11111111.
Byte-tegnkoding tillaterprosessoren som utfører tekstbehandlingen, må referere til hvert tegn separat. Samtidig er 256 tegn nok til å representere all tegninformasjon.
ASCII tegnkoding
Denne forkortelsen på engelsk står for amerikansk standardkode for informasjonsutveksling.
Selv i begynnelsen av datamatiseringen ble det åpenbart atdu kan tenke på en rekke måter å kode informasjon på. For å overføre informasjon fra en datamaskin til en annen, var det imidlertid nødvendig å utvikle en enkelt standard. Så i 1963 dukket det opp en ASCII-kodingstabell i USA. I det er ethvert symbol på datamaskinalfabetet assosiert med dets ordinære nummer i binær representasjon. Opprinnelig ble ASCII bare brukt i USA og ble senere den internasjonale standarden for PC-er.
Tabellinnhold
ASCII-koder er delt inn i 2 deler. Bare den første halvdelen av denne tabellen betraktes som en internasjonal standard. Den inkluderer tegn med ordinære tall fra 0 (kodet som 00000000) til 127 (kode 01111111).
Serienummer N | ASCII-tekstkoding | Symbol |
0 - 31 | 0000 0000 - 0001 1111 | Tegn med N fra 0 til 31 kalles kontrolltegn. Deres funksjon er å "veilede" prosessen med å vise tekst på en skjerm eller utskriftsenhet, gi lydsignal osv. |
32 - 127 | 0010 0000 - 0111 1111 | Tegn med N fra 32 til 127 (standarddeltabeller) - store og små bokstaver i det latinske alfabetet, 10-sifrede tall, skilletegn, samt forskjellige parenteser, kommersielle og andre symboler. Tegnet 32 betegner et mellomrom. |
128 - 255 | 1000 0000 - 1111 1111 | Tegn N fra 128 til 255 (alternativ deltabeller eller kodeside) kan ha forskjellige alternativer, som hver har sitt eget nummer. Kodesiden brukes til å spesifisere nasjonale alfabeter som er forskjellige fra latin. Spesielt er det med sin hjelp at ASCII-koding for russiske tegn blir utført. |
I kodingstabellen følger store og små bokstaver hverandre i alfabetisk rekkefølge og tall - i stigende rekkefølge etter verdier. Dette prinsippet gjelder også det russiske alfabetet.
Kontroll tegn
ASCII-kodingstabellen ble opprinnelig opprettetfor mottak og overføring av informasjon på en slik enhet som ikke har vært brukt på lenge, for eksempel en teletype. I denne forbindelse har ikke-utskrivbare tegn blitt inkludert i tegnsettet, brukt som kommandoer for å kontrollere denne enheten. Lignende kommandoer ble brukt i slike meldingsmetoder før datamaskiner som morsekode, etc.
Det vanligste "teletype" -tegnet er NUL (00, "null"). Den brukes fortsatt i de fleste programmeringsspråk den dag i dag, og betegner en linjeterminator.
Hvor ASCII brukes
American Standard Code er ikke bare nødvendigfor å legge inn tekstinformasjon fra tastaturet. Den brukes også i grafikk. Spesielt, i ASCII Art Maker, representerer bilder av forskjellige utvidelser et spekter av ASCII-tegn.
Disse produktene er av to typer:utføre funksjonen til grafiske redaktører ved å konvertere bilder til tekst og konvertere "bilder" til ASCII-grafikk. For eksempel er det berømte uttrykksikonet et godt eksempel på en kodende karakter.
ASCII kan også brukes når du lager et HTML-dokument. I dette tilfellet kan du skrive inn et bestemt sett med tegn, og når du ser på siden, vises et tegn på skjermen som tilsvarer denne koden.
ASCII er også nødvendig for å opprette flerspråklige nettsteder, siden tegn som ikke er inkludert i en spesifikk nasjonal tabell, erstattes av ASCII-koder.
Noen funksjoner
For å kode tekstinformasjon i ASCII-koding ble det opprinnelig brukt 7 bits (den ene var tom), men i dag fungerer den som 8-bit.
Bokstavene i topp- og bunnkolonnene skiller seg fra hverandre med bare en enkeltbit. Dette reduserer sjekkens kompleksitet.
Bruker ASCII i Microsoft Office
Om nødvendig, denne typen tekstkodinginformasjon kan brukes i Microsoft tekstredigerere som Notisblokk og Office Word. Men når du skriver i dette tilfellet, vil det være umulig å bruke noen funksjoner. For eksempel vil du ikke kunne fet, fordi ASCII bare bevarer betydningen av informasjonen, ignorerer dens generelle utseende og form.
Standardisering
ISO har vedtatt ISO 8859-standarder.Denne gruppen definerer åtte-bit-kodinger for forskjellige språkgrupper. Spesifikt er ISO 8859-1 utvidet ASCII, som er en tabell for USA og vest-europeiske land. Og ISO 8859-5 er en tabell som brukes til det kyrilliske alfabetet, inkludert det russiske språket.
Av flere historiske årsaker har standarden ISO 8859-5 vært i bruk i veldig kort tid.
For russisk for øyeblikket brukes kodinger faktisk:
- CP866 (kodeside 866) eller DOS, som ofte blir referert til som den alternative GOST-kodingen. Den ble aktivt brukt til midten av 90-tallet i forrige århundre. For øyeblikket er det praktisk talt ikke brukt.
- KOI-8. Kodingen ble utviklet på 1970- og 80-tallet, ogfor øyeblikket er det en generelt akseptert standard for e-postmeldinger på Runet. Det er mye brukt i operativsystemet til Unix-familien, inkludert Linux. Den "russiske" versjonen av KOI-8 heter KOI-8R. I tillegg er det versjoner for andre kyrilliske språk, for eksempel ukrainsk.
- Kodeside 1251 (CP 1251, Windows - 1251). Utviklet av Microsoft for å gi støtte til russisk i Windows-miljøet.
Den største fordelen med den første standard CP866var bevaring av pseudografiske tegn på samme posisjoner som i Extended ASCII. Dette gjorde det mulig å kjøre uten endringer utenlandsproduserte tekstprogrammer, som den velkjente Norton Commander. For øyeblikket brukes CP866 til programmer utviklet under Windows som fungerer i fullskjerms tekstmodus eller i tekstvinduer, inkludert FAR Manager.
Datatekster skrevet i CP866-koding er ganske sjeldne i det siste, men det er nettopp denne kodingen som brukes til russiske filnavn i Windows.
"Unicode"
For tiden den mest utbredtemottatt akkurat denne kodingen. Unicode-koder er delt inn i områder. Den første (U + 0000 til U + 007F) inkluderer ASCII-tegn med koder. Dette følges av områdene med tegn til forskjellige nasjonale skript, samt skilletegn og tekniske symboler. I tillegg er noen av "Unicode" -kodene reservert i tilfelle det er behov for å inkludere nye tegn i fremtiden.
Nå vet du det i ASCII hveret tegn er representert som en kombinasjon av 8 nuller og en. For ikke-spesialister kan denne informasjonen virke unødvendig og uinteressant, men vil du ikke vite hva som skjer "i hjernen" på PCen din?!