Когнитивни факти за всичко / компютри / ASCII кодиране (американски стандартен код за обмен на информация) - основно кодиране на текст за латинската азбука

ASCII (американски стандартен код за обмен на информация) - основно текстово кодиране на латинската азбука

Според Международния съюз по далекосъобщения, презПрез 2016 г. три милиарда и половина души използваха интернет с известна редовност. Повечето от тях дори не мислят за факта, че всякакви съобщения, изпратени от тях чрез персонални компютри или мобилни джаджи, както и текстове, които се показват на всички видове монитори, всъщност са комбинации от 0 и 1. Това представяне на информация се нарича кодиране . Той осигурява и значително улеснява изпълнението на неговото съхранение, обработка и предаване. През 1963 г. е разработено американското кодиране ASCII, което е предмет на тази статия.

Представяне на информация в компютър

От гледна точка на всяко електронно изчислениемашинният текст е колекция от отделни знаци. Те включват не само букви, включително главни букви, но и пунктуационни знаци и цифри. Освен това се използват специални символи "=", "&", "(" и интервали.

Наборът от символи, които съставляват текста,се нарича азбука, а броят им се нарича мощност (обозначена като N). За да се дефинира, се използва изразът N = 2 ^ b, където b е броят на битовете или информационното тегло на определен символ.

Доказано е, че азбука с капацитет 256 знака ви позволява да представите всички необходими знаци.

Тъй като 256 е осмата степен на две, теглото на всеки знак е 8 бита.

Единицата за измерване на 8 бита се нарича 1 байт, така че е обичайно да се каже, че двоичният код на всеки символ в текста, съхраняван на компютъра, заема един байт памет.

Как се прави кодирането

Всички текстове се въвеждат в паметта на личнотокомпютър с помощта на клавиши на клавиатурата, на които са изписани цифри, букви, пунктуационни знаци и други символи. Те се прехвърлят в RAM в двоичен код, тоест всеки знак е свързан с десетичен код, познат на хората, от 0 до 255, което съответства на двоичен код - от 00000000 до 11111111.

Кодирането на байтови символи позволявапроцесорът, извършващ обработката на текста, се отнасят за всеки символ поотделно. В същото време 256 символа са достатъчни, за да представят каквато и да е информация за символите.

ASCII кодиране на знаци

Това съкращение на английски означава американски стандартен код за обмен на информация.

Още в зората на компютъризацията стана очевидно, чеможете да измислите голямо разнообразие от начини за кодиране на информация. За да се прехвърли информация от един компютър на друг обаче, се изискваше да се разработи единен стандарт. И така, през 1963 г. в САЩ се появи таблица за кодиране ASCII. В него всеки символ на компютърната азбука е свързан с поредния му номер в двоично представяне. Първоначално ASCII се използваше само в САЩ, а по-късно се превърна в международен стандарт за персонални компютри.

Съдържание на таблицата

ASCII кодовете са разделени на 2 части. Само първата половина на тази таблица се счита за международен стандарт. Включва символи с поредни номера от 0 (кодирани като 00000000) до 127 (код 01111111).

Сериен номер Н	ASCII кодиране на текст	символ
0 - 31	0000 0000 - 0001 1111	Символите с N от 0 до 31 се наричат контролни знаци. Тяхната функция е да "насочват" процеса на показване на текст на монитор или печатащо устройство, подаване на звуков сигнал и т.н.
32 - 127	0010 0000 - 0111 1111	Символи с N от 32 до 127 (стандартна часттаблици) - главни и малки букви на латинската азбука, 10-цифрени числа, препинателни знаци, както и различни скоби, търговски и други символи. Символът 32 обозначава интервал.
128 - 255	1000 0000 - 1111 1111	Символи N от 128 до 255 (алтернативна часттаблици или кодова страница) могат да имат различни опции, всяка от които има свой собствен номер. Кодовата страница се използва за определяне на национални азбуки, които са различни от латинските. По-специално, с негова помощ се извършва ASCII кодиране за руски символи.

В таблицата за кодиране големите и малки букви се следват една по друга по азбучен ред, а числата - във възходящ ред на стойностите. Този принцип важи и за руската азбука.

Контролни знаци

Таблицата за кодиране ASCII първоначално е създаденаза получаване и предаване на информация на такова устройство, което не се използва дълго време, като телетайп. В тази връзка в набора от символи са включени непечатни знаци, използвани като команди за управление на това устройство. Подобни команди бяха използвани в такива предкомпютърни методи за съобщения като морзова азбука и др.

Най-често срещаният символ „телетайп“ е NUL (00, „нула“). Той все още се използва в повечето езици за програмиране и до днес, обозначавайки линеен терминатор.

Къде се използва кодирането ASCII?

Американски стандартен код е необходим не самоза въвеждане на текстова информация от клавиатурата. Използва се и в графиката. По-конкретно, в ASCII Art Maker изображенията на различни разширения представляват спектър от ASCII символи.

Тези продукти са два вида:извършване на функцията на графични редактори чрез преобразуване на изображения в текст и преобразуване на „картинки“ в ASCII графика. Например известният емотикон е отличен пример за кодиращ знак.

ASCII може да се използва и при създаване на HTML документ. В този случай можете да въведете определен набор от знаци и при преглед на страницата на екрана се появява знак, който съответства на този код.

ASCII е необходим и за създаването на многоезични сайтове, тъй като символите, които не са включени в конкретна национална таблица, се заменят с ASCII кодове.

Някои функции

За кодиране на текстова информация в ASCII кодиране първоначално са използвани 7 бита (един е оставен празен), но днес работи като 8-битов.

Буквите в горната и долната колона се различават една от друга само с един бит. Това значително намалява сложността на проверката.

Използване на ASCII в Microsoft Office

Ако е необходимо, този вид кодиране на текстинформацията може да се използва в текстови редактори на Microsoft като Notepad и Office Word. Въпреки това, когато пишете в този случай, няма да е възможно да използвате някои функции. Например няма да можете да удебелявате, тъй като ASCII само запазва значението на информацията, пренебрегвайки нейния общ вид и форма.

стандартизация

ISO е приел стандарти ISO 8859.Тази група дефинира осембитови кодирания за различни езикови групи. По-конкретно, ISO 8859-1 е разширена ASCII, която е таблица за САЩ и западноевропейските страни. А ISO 8859-5 е таблица, използвана за кирилицата, включително руския език.

По редица исторически причини стандартът ISO 8859-5 се използва от много кратко време.

За руския език в момента всъщност се използват кодирания:

CP866 (кодова страница 866) или DOS, което често се нарича алтернативно GOST кодиране. Той се използва активно до средата на 90-те години на миналия век. В момента той практически не се използва.
KOI-8. Кодирането е разработено през 70 - те и 80 - те години ив момента това е общоприет стандарт за пощенски съобщения в Рунета. Той се използва широко в операционната система на семейството Unix, включително Linux. "Руската" версия на KOI-8 се нарича KOI-8R. Освен това има версии за други кирилски езици, като украински.
Кодова страница 1251 (CP 1251, Windows - 1251). Разработено от Microsoft за осигуряване на поддръжка за руския език в Windows среда.

Основното предимство на първия стандартен CP866беше запазването на псевдографични знаци на същите позиции, както в разширения ASCII. Това направи възможно стартирането без модификация на текстови програми с чуждестранно производство, като добре познатия Norton Commander. В момента CP866 се използва за програми, разработени под Windows, които работят в текстов режим на цял екран или в текстови прозорци, включително FAR Manager.

Напоследък компютърните текстове, написани в кодиране CP866, са доста редки, но точно това кодиране се използва за руски имена на файлове в Windows.

"Unicode"

В момента най-широко разпространенполучи точно това кодиране. Unicode кодовете са разделени на области. Първият (U + 0000 до U + 007F) включва ASCII символи с кодове. Следват областите на знаците на различни национални писмености, както и препинателните знаци и техническите символи. В допълнение, някои от кодовете "Unicode" са запазени, в случай че в бъдеще има нужда да се включват нови символи.

Сега знаете, че в ASCII всекизнакът е представен като комбинация от 8 нули и единици. За неспециалистите тази информация може да изглежда ненужна и безинтересна, но не искате ли да знаете какво се случва „в мозъка“ на вашия компютър?!