ตามที่สหภาพโทรคมนาคมระหว่างประเทศในในปี 2559 ผู้คนสามและห้าพันล้านคนใช้อินเทอร์เน็ตอย่างสม่ำเสมอ ส่วนใหญ่ไม่ได้คิดถึงความจริงที่ว่าข้อความใด ๆ ที่ส่งโดยพวกเขาผ่านพีซีหรืออุปกรณ์พกพารวมถึงข้อความที่แสดงบนจอภาพทุกประเภทเป็นการผสมผสานระหว่าง 0 และ 1 การนำเสนอข้อมูลนี้เรียกว่าการเข้ารหัส . ให้และอำนวยความสะดวกอย่างมากในการใช้งานการจัดเก็บ การประมวลผล และการส่งผ่าน ในปีพ. ศ. 2506 ได้มีการพัฒนาการเข้ารหัส American ASCII ซึ่งบทความนี้ทุ่มเทให้กับ
การนำเสนอข้อมูลในคอมพิวเตอร์
จากมุมมองของคอมพิวเตอร์อิเล็กทรอนิกส์ใดๆข้อความเครื่องคือชุดของอักขระแต่ละตัว ซึ่งไม่ใช่เฉพาะตัวอักษร รวมถึงตัวพิมพ์ใหญ่เท่านั้น แต่ยังรวมถึงเครื่องหมายวรรคตอนและตัวเลขด้วย นอกจากนี้ยังใช้อักขระพิเศษ "=", "&", "(" และช่องว่าง
ชุดอักขระที่ประกอบเป็นข้อความเรียกว่าตัวอักษรและหมายเลขเรียกว่ากำลัง (แสดงเป็น N) ในการพิจารณาจะใช้นิพจน์ N = 2 ^ b โดยที่ b คือจำนวนบิตหรือน้ำหนักข้อมูลของอักขระเฉพาะ
ได้รับการพิสูจน์แล้วว่าตัวอักษรที่มีความจุ 256 อักขระช่วยให้คุณสามารถแสดงอักขระที่จำเป็นทั้งหมดได้
เนื่องจาก 256 เป็นกำลังที่ 8 ของสอง น้ำหนักของอักขระแต่ละตัวจึงเป็น 8 บิต
หน่วยวัด 8 บิตเรียกว่า 1 ไบต์ ดังนั้นจึงเป็นธรรมเนียมที่จะบอกว่ารหัสไบนารีของอักขระใดๆ ในข้อความที่จัดเก็บไว้ในคอมพิวเตอร์นั้นใช้หน่วยความจำหนึ่งไบต์
การเข้ารหัสทำอย่างไร
ข้อความใด ๆ จะถูกป้อนลงในหน่วยความจำส่วนบุคคลคอมพิวเตอร์โดยใช้แป้นคีย์บอร์ดที่เขียนตัวเลข ตัวอักษร เครื่องหมายวรรคตอน และสัญลักษณ์อื่นๆ พวกมันถูกถ่ายโอนไปยัง RAM ในรหัสไบนารีนั่นคืออักขระแต่ละตัวเชื่อมโยงกับรหัสทศนิยมที่มนุษย์คุ้นเคยตั้งแต่ 0 ถึง 255 ซึ่งสอดคล้องกับรหัสไบนารี - จาก 00000000 ถึง 11111111
การเข้ารหัสอักขระไบต์ช่วยให้ตัวประมวลผลที่ดำเนินการประมวลผลข้อความต้องอ้างถึงอักขระแต่ละตัวแยกกัน ในเวลาเดียวกัน 256 อักขระก็เพียงพอที่จะแสดงข้อมูลอักขระใด ๆ
การเข้ารหัสอักขระ ASCII
ตัวย่อนี้เป็นภาษาอังกฤษย่อมาจาก American standard code สำหรับการแลกเปลี่ยนข้อมูล
แม้แต่ในยามรุ่งอรุณของการใช้คอมพิวเตอร์ก็เห็นได้ชัดว่าคุณสามารถคิดหาวิธีเข้ารหัสข้อมูลได้หลากหลายวิธี อย่างไรก็ตาม ในการถ่ายโอนข้อมูลจากคอมพิวเตอร์เครื่องหนึ่งไปยังอีกเครื่องหนึ่ง จำเป็นต้องพัฒนามาตรฐานเดียว ดังนั้นในปี 1963 ตารางการเข้ารหัส ASCII จึงปรากฏขึ้นในสหรัฐอเมริกา ในนั้น สัญลักษณ์ใด ๆ ของตัวอักษรคอมพิวเตอร์เกี่ยวข้องกับเลขลำดับในการแทนค่าไบนารี เริ่มแรก ASCII ถูกใช้ในสหรัฐอเมริกาเท่านั้น และต่อมาได้กลายเป็นมาตรฐานสากลสำหรับพีซี
เนื้อหาตาราง
รหัส ASCII แบ่งออกเป็น 2 ส่วน เฉพาะครึ่งแรกของตารางนี้เท่านั้นที่ถือเป็นมาตรฐานสากล ประกอบด้วยอักขระที่มีตัวเลขลำดับตั้งแต่ 0 (เข้ารหัสเป็น 00000000) ถึง 127 (รหัส 01111111)
หมายเลขซีเรียล น | การเข้ารหัสข้อความ ASCII | สัญลักษณ์ |
0 - 31 | 0000 0000 - 0001 1111 | อักขระที่มี N ตั้งแต่ 0 ถึง 31 เรียกว่าอักขระควบคุม หน้าที่ของพวกเขาคือ "แนะนำ" กระบวนการแสดงข้อความบนจอภาพหรืออุปกรณ์การพิมพ์ ให้สัญญาณเสียง ฯลฯ |
32 - 127 | 0010 0000 - 0111 1111 | อักขระที่มี N ตั้งแต่ 32 ถึง 127 (ส่วนมาตรฐานตาราง) - อักษรตัวพิมพ์ใหญ่และตัวพิมพ์เล็กของอักษรละติน ตัวเลข 10 หลัก เครื่องหมายวรรคตอน เครื่องหมายวงเล็บต่างๆ สัญลักษณ์ทางการค้าและสัญลักษณ์อื่นๆ อักขระ 32 หมายถึงช่องว่าง |
128 - 255 | 1000 0000 - 1111 1111 | อักขระ N จาก 128 ถึง 255 (ส่วนสำรองตารางหรือหน้ารหัส) สามารถมีตัวเลือกที่แตกต่างกัน ซึ่งแต่ละอันมีหมายเลขของตัวเอง โค้ดเพจใช้เพื่อระบุตัวอักษรประจำชาติที่แตกต่างจากภาษาละติน โดยเฉพาะอย่างยิ่งด้วยความช่วยเหลือในการเข้ารหัส ASCII สำหรับอักขระรัสเซีย |
ในตารางการเข้ารหัส ตัวอักษรตัวพิมพ์ใหญ่และตัวพิมพ์เล็กจะเรียงตามลำดับตัวอักษรและตัวเลขตามลำดับจากน้อยไปมาก หลักการนี้ใช้กับอักษรรัสเซียด้วย
ตัวละครควบคุม
เดิมตารางการเข้ารหัส ASCII ถูกสร้างขึ้นเพื่อรับและส่งข้อมูลบนอุปกรณ์ดังกล่าวที่ไม่ได้ใช้งานมาเป็นเวลานาน เช่น เทเลไทป์ ในเรื่องนี้ อักขระที่ไม่สามารถพิมพ์ได้รวมอยู่ในชุดอักขระ ใช้เป็นคำสั่งในการควบคุมอุปกรณ์นี้ มีการใช้คำสั่งที่คล้ายกันในวิธีการส่งข้อความก่อนคอมพิวเตอร์ เช่น รหัสมอร์ส เป็นต้น
อักขระ "เทเลไทป์" ที่พบบ่อยที่สุดคือ NUL (00, "ศูนย์") มันยังคงใช้ในภาษาโปรแกรมส่วนใหญ่จนถึงทุกวันนี้ ซึ่งหมายถึงตัวสิ้นสุดบรรทัด
ที่ ASCII ถูกใช้
ไม่จำเป็นต้องใช้ American Standard Code เท่านั้นเพื่อป้อนข้อมูลข้อความจากแป้นพิมพ์ นอกจากนี้ยังใช้ในกราฟิก โดยเฉพาะใน ASCII Art Maker รูปภาพของส่วนขยายต่างๆ แสดงถึงสเปกตรัมของอักขระ ASCII
ผลิตภัณฑ์เหล่านี้มีสองประเภท:ทำหน้าที่แก้ไขกราฟิกโดยแปลงรูปภาพเป็นข้อความและแปลง "รูปภาพ" เป็นกราฟิก ASCII ตัวอย่างเช่น อีโมติคอนที่มีชื่อเสียงเป็นตัวอย่างสำคัญของอักขระเข้ารหัส
นอกจากนี้ยังสามารถใช้ ASCII เมื่อสร้างเอกสาร HTML ในกรณีนี้ คุณสามารถป้อนชุดอักขระบางชุด และเมื่อดูหน้า อักขระจะปรากฏขึ้นบนหน้าจอที่สอดคล้องกับรหัสนี้
ASCII ยังจำเป็นสำหรับการสร้างไซต์หลายภาษา เนื่องจากอักขระที่ไม่รวมอยู่ในตารางระดับประเทศจะถูกแทนที่ด้วยรหัส ASCII
คุณลักษณะบางอย่าง
ในการเข้ารหัสข้อมูลข้อความในการเข้ารหัส ASCII เดิมใช้ 7 บิต (อันหนึ่งว่างไว้) แต่วันนี้ใช้งานได้เป็น 8 บิต
ตัวอักษรในคอลัมน์ด้านบนและด้านล่างต่างกันเพียงบิตเดียว ซึ่งช่วยลดความซับซ้อนของการตรวจสอบได้อย่างมาก
การใช้ ASCII ใน Microsoft Office
หากจำเป็น การเข้ารหัสข้อความประเภทนี้ข้อมูลสามารถใช้ในโปรแกรมแก้ไขข้อความของ Microsoft เช่น Notepad และ Office Word อย่างไรก็ตาม เมื่อพิมพ์ในกรณีนี้ จะไม่สามารถใช้ฟังก์ชันบางอย่างได้ ตัวอย่างเช่น คุณจะไม่สามารถเป็นตัวหนาได้ เนื่องจาก ASCII จะรักษาความหมายของข้อมูลเท่านั้น โดยไม่สนใจลักษณะและรูปร่างทั่วไปของข้อมูล
มาตรฐาน
ISO ได้นำมาตรฐาน ISO 8859 มาใช้กลุ่มนี้กำหนดการเข้ารหัสแบบแปดบิตสำหรับกลุ่มภาษาต่างๆ โดยเฉพาะ ISO 8859-1 คือ Extended ASCII ซึ่งเป็นตารางสำหรับประเทศสหรัฐอเมริกาและประเทศในยุโรปตะวันตก และ ISO 8859-5 คือตารางที่ใช้สำหรับอักษรซีริลลิก รวมทั้งภาษารัสเซียด้วย
ด้วยเหตุผลทางประวัติศาสตร์หลายประการ มาตรฐาน ISO 8859-5 จึงมีการใช้งานมาเป็นระยะเวลาสั้นๆ
สำหรับภาษารัสเซียในขณะนี้มีการใช้การเข้ารหัสจริง:
- CP866 (รหัสหน้า 866) หรือ DOS, ซึ่งมักเรียกว่าการเข้ารหัส GOST ทางเลือก มันถูกใช้อย่างแข็งขันจนถึงกลางทศวรรษที่ 90 ของศตวรรษที่ผ่านมา ในขณะนี้มันใช้งานไม่ได้จริง
- ก้อย-8. การเข้ารหัสได้รับการพัฒนาในปี 1970 และ 80 และในขณะนี้ เป็นมาตรฐานที่ยอมรับโดยทั่วไปสำหรับข้อความเมลบน Runet มีการใช้กันอย่างแพร่หลายในระบบปฏิบัติการของตระกูล Unix รวมถึง Linux KOI-8 เวอร์ชัน "รัสเซีย" เรียกว่า KOI-8R นอกจากนี้ยังมีเวอร์ชันสำหรับภาษาซีริลลิกอื่นๆ เช่น ภาษายูเครน
- รหัสหน้า 1251 (CP 1251, Windows - 1251) พัฒนาโดย Microsoft เพื่อให้รองรับภาษารัสเซียในสภาพแวดล้อม Windows
ข้อได้เปรียบหลักของ CP866 . มาตรฐานตัวแรกคือการรักษาอักขระกราฟิกหลอกที่ตำแหน่งเดียวกับใน Extended ASCII สิ่งนี้ทำให้สามารถรันได้โดยไม่มีการเปลี่ยนแปลงโปรแกรมข้อความที่สร้างจากต่างประเทศ เช่น Norton Commander ที่รู้จักกันดี ในขณะนี้ CP866 ใช้สำหรับโปรแกรมที่พัฒนาภายใต้ Windows ซึ่งทำงานในโหมดข้อความแบบเต็มหน้าจอหรือในหน้าต่างข้อความ รวมถึง FAR Manager
ข้อความคอมพิวเตอร์ที่เขียนด้วยการเข้ารหัส CP866 นั้นค่อนข้างหายากเมื่อเร็ว ๆ นี้ แต่เป็นการเข้ารหัสที่แม่นยำซึ่งใช้สำหรับชื่อไฟล์ภาษารัสเซียใน Windows
"ยูนิโค้ด"
ที่แพร่หลายที่สุดในปัจจุบันได้รับการเข้ารหัสนี้อย่างแน่นอน รหัส Unicode แบ่งออกเป็นพื้นที่ ตัวแรก (U + 0000 ถึง U + 007F) มีอักขระ ASCII พร้อมรหัส ตามด้วยป้ายอักษรประจำชาติต่างๆ รวมทั้งเครื่องหมายวรรคตอนและสัญลักษณ์ทางเทคนิค นอกจากนี้ โค้ด "Unicode" บางตัวยังสงวนไว้ในกรณีที่จำเป็นต้องใส่อักขระใหม่ในอนาคต
ตอนนี้คุณรู้แล้วว่าใน ASCII แต่ละอันอักขระจะแสดงเป็นการรวมกันของศูนย์ 8 ตัวและตัวหนึ่ง สำหรับผู้ที่ไม่ใช่ผู้เชี่ยวชาญ ข้อมูลนี้อาจดูเหมือนไม่จำเป็นและไม่น่าสนใจ แต่คุณไม่ต้องการรู้ว่าเกิดอะไรขึ้น "ในสมอง" ของพีซีของคุณ!