/ / การเข้ารหัส ASCII (รหัสมาตรฐานอเมริกันสำหรับการแลกเปลี่ยนข้อมูล) - การเข้ารหัสข้อความพื้นฐานสำหรับภาษาละติน

การเข้ารหัส ASCII (รหัสมาตรฐานอเมริกันสำหรับการแลกเปลี่ยนข้อมูล) - การเข้ารหัสข้อความพื้นฐานสำหรับละติน

ตามที่สหภาพโทรคมนาคมระหว่างประเทศในในปี 2559 ผู้คนสามและห้าพันล้านคนใช้อินเทอร์เน็ตอย่างสม่ำเสมอ ส่วนใหญ่ไม่ได้คิดถึงความจริงที่ว่าข้อความใด ๆ ที่ส่งโดยพวกเขาผ่านพีซีหรืออุปกรณ์พกพารวมถึงข้อความที่แสดงบนจอภาพทุกประเภทเป็นการผสมผสานระหว่าง 0 และ 1 การนำเสนอข้อมูลนี้เรียกว่าการเข้ารหัส . ให้และอำนวยความสะดวกอย่างมากในการใช้งานการจัดเก็บ การประมวลผล และการส่งผ่าน ในปีพ. ศ. 2506 ได้มีการพัฒนาการเข้ารหัส American ASCII ซึ่งบทความนี้ทุ่มเทให้กับ

การเข้ารหัส ASCII

การนำเสนอข้อมูลในคอมพิวเตอร์

จากมุมมองของคอมพิวเตอร์อิเล็กทรอนิกส์ใดๆข้อความเครื่องคือชุดของอักขระแต่ละตัว ซึ่งไม่ใช่เฉพาะตัวอักษร รวมถึงตัวพิมพ์ใหญ่เท่านั้น แต่ยังรวมถึงเครื่องหมายวรรคตอนและตัวเลขด้วย นอกจากนี้ยังใช้อักขระพิเศษ "=", "&", "(" และช่องว่าง

ชุดอักขระที่ประกอบเป็นข้อความเรียกว่าตัวอักษรและหมายเลขเรียกว่ากำลัง (แสดงเป็น N) ในการพิจารณาจะใช้นิพจน์ N = 2 ^ b โดยที่ b คือจำนวนบิตหรือน้ำหนักข้อมูลของอักขระเฉพาะ

ได้รับการพิสูจน์แล้วว่าตัวอักษรที่มีความจุ 256 อักขระช่วยให้คุณสามารถแสดงอักขระที่จำเป็นทั้งหมดได้

เนื่องจาก 256 เป็นกำลังที่ 8 ของสอง น้ำหนักของอักขระแต่ละตัวจึงเป็น 8 บิต

หน่วยวัด 8 บิตเรียกว่า 1 ไบต์ ดังนั้นจึงเป็นธรรมเนียมที่จะบอกว่ารหัสไบนารีของอักขระใดๆ ในข้อความที่จัดเก็บไว้ในคอมพิวเตอร์นั้นใช้หน่วยความจำหนึ่งไบต์

ตารางการเข้ารหัส ASCII

การเข้ารหัสทำอย่างไร

ข้อความใด ๆ จะถูกป้อนลงในหน่วยความจำส่วนบุคคลคอมพิวเตอร์โดยใช้แป้นคีย์บอร์ดที่เขียนตัวเลข ตัวอักษร เครื่องหมายวรรคตอน และสัญลักษณ์อื่นๆ พวกมันถูกถ่ายโอนไปยัง RAM ในรหัสไบนารีนั่นคืออักขระแต่ละตัวเชื่อมโยงกับรหัสทศนิยมที่มนุษย์คุ้นเคยตั้งแต่ 0 ถึง 255 ซึ่งสอดคล้องกับรหัสไบนารี - จาก 00000000 ถึง 11111111

การเข้ารหัสอักขระไบต์ช่วยให้ตัวประมวลผลที่ดำเนินการประมวลผลข้อความต้องอ้างถึงอักขระแต่ละตัวแยกกัน ในเวลาเดียวกัน 256 อักขระก็เพียงพอที่จะแสดงข้อมูลอักขระใด ๆ

การเข้ารหัสข้อความ ASCII

การเข้ารหัสอักขระ ASCII

ตัวย่อนี้เป็นภาษาอังกฤษย่อมาจาก American standard code สำหรับการแลกเปลี่ยนข้อมูล

แม้แต่ในยามรุ่งอรุณของการใช้คอมพิวเตอร์ก็เห็นได้ชัดว่าคุณสามารถคิดหาวิธีเข้ารหัสข้อมูลได้หลากหลายวิธี อย่างไรก็ตาม ในการถ่ายโอนข้อมูลจากคอมพิวเตอร์เครื่องหนึ่งไปยังอีกเครื่องหนึ่ง จำเป็นต้องพัฒนามาตรฐานเดียว ดังนั้นในปี 1963 ตารางการเข้ารหัส ASCII จึงปรากฏขึ้นในสหรัฐอเมริกา ในนั้น สัญลักษณ์ใด ๆ ของตัวอักษรคอมพิวเตอร์เกี่ยวข้องกับเลขลำดับในการแทนค่าไบนารี เริ่มแรก ASCII ถูกใช้ในสหรัฐอเมริกาเท่านั้น และต่อมาได้กลายเป็นมาตรฐานสากลสำหรับพีซี

เนื้อหาตาราง

รหัส ASCII แบ่งออกเป็น 2 ส่วน เฉพาะครึ่งแรกของตารางนี้เท่านั้นที่ถือเป็นมาตรฐานสากล ประกอบด้วยอักขระที่มีตัวเลขลำดับตั้งแต่ 0 (เข้ารหัสเป็น 00000000) ถึง 127 (รหัส 01111111)

หมายเลขซีเรียล

การเข้ารหัสข้อความ ASCII

สัญลักษณ์

0 - 31

0000 0000 - 0001 1111

อักขระที่มี N ตั้งแต่ 0 ถึง 31 เรียกว่าอักขระควบคุม หน้าที่ของพวกเขาคือ "แนะนำ" กระบวนการแสดงข้อความบนจอภาพหรืออุปกรณ์การพิมพ์ ให้สัญญาณเสียง ฯลฯ

32 - 127

0010 0000 - 0111 1111

อักขระที่มี N ตั้งแต่ 32 ถึง 127 (ส่วนมาตรฐานตาราง) - อักษรตัวพิมพ์ใหญ่และตัวพิมพ์เล็กของอักษรละติน ตัวเลข 10 หลัก เครื่องหมายวรรคตอน เครื่องหมายวงเล็บต่างๆ สัญลักษณ์ทางการค้าและสัญลักษณ์อื่นๆ อักขระ 32 หมายถึงช่องว่าง

128 - 255

1000 0000 - 1111 1111

อักขระ N จาก 128 ถึง 255 (ส่วนสำรองตารางหรือหน้ารหัส) สามารถมีตัวเลือกที่แตกต่างกัน ซึ่งแต่ละอันมีหมายเลขของตัวเอง โค้ดเพจใช้เพื่อระบุตัวอักษรประจำชาติที่แตกต่างจากภาษาละติน โดยเฉพาะอย่างยิ่งด้วยความช่วยเหลือในการเข้ารหัส ASCII สำหรับอักขระรัสเซีย

ในตารางการเข้ารหัส ตัวอักษรตัวพิมพ์ใหญ่และตัวพิมพ์เล็กจะเรียงตามลำดับตัวอักษรและตัวเลขตามลำดับจากน้อยไปมาก หลักการนี้ใช้กับอักษรรัสเซียด้วย

ตัวละครควบคุม

เดิมตารางการเข้ารหัส ASCII ถูกสร้างขึ้นเพื่อรับและส่งข้อมูลบนอุปกรณ์ดังกล่าวที่ไม่ได้ใช้งานมาเป็นเวลานาน เช่น เทเลไทป์ ในเรื่องนี้ อักขระที่ไม่สามารถพิมพ์ได้รวมอยู่ในชุดอักขระ ใช้เป็นคำสั่งในการควบคุมอุปกรณ์นี้ มีการใช้คำสั่งที่คล้ายกันในวิธีการส่งข้อความก่อนคอมพิวเตอร์ เช่น รหัสมอร์ส เป็นต้น

อักขระ "เทเลไทป์" ที่พบบ่อยที่สุดคือ NUL (00, "ศูนย์") มันยังคงใช้ในภาษาโปรแกรมส่วนใหญ่จนถึงทุกวันนี้ ซึ่งหมายถึงตัวสิ้นสุดบรรทัด

ในการเข้ารหัส ASCII แต่ละอักขระ

ที่ ASCII ถูกใช้

ไม่จำเป็นต้องใช้ American Standard Code เท่านั้นเพื่อป้อนข้อมูลข้อความจากแป้นพิมพ์ นอกจากนี้ยังใช้ในกราฟิก โดยเฉพาะใน ASCII Art Maker รูปภาพของส่วนขยายต่างๆ แสดงถึงสเปกตรัมของอักขระ ASCII

ผลิตภัณฑ์เหล่านี้มีสองประเภท:ทำหน้าที่แก้ไขกราฟิกโดยแปลงรูปภาพเป็นข้อความและแปลง "รูปภาพ" เป็นกราฟิก ASCII ตัวอย่างเช่น อีโมติคอนที่มีชื่อเสียงเป็นตัวอย่างสำคัญของอักขระเข้ารหัส

นอกจากนี้ยังสามารถใช้ ASCII เมื่อสร้างเอกสาร HTML ในกรณีนี้ คุณสามารถป้อนชุดอักขระบางชุด และเมื่อดูหน้า อักขระจะปรากฏขึ้นบนหน้าจอที่สอดคล้องกับรหัสนี้

ASCII ยังจำเป็นสำหรับการสร้างไซต์หลายภาษา เนื่องจากอักขระที่ไม่รวมอยู่ในตารางระดับประเทศจะถูกแทนที่ด้วยรหัส ASCII

เพื่อเข้ารหัสข้อมูลข้อความในการเข้ารหัส ASCII

คุณลักษณะบางอย่าง

ในการเข้ารหัสข้อมูลข้อความในการเข้ารหัส ASCII เดิมใช้ 7 บิต (อันหนึ่งว่างไว้) แต่วันนี้ใช้งานได้เป็น 8 บิต

ตัวอักษรในคอลัมน์ด้านบนและด้านล่างต่างกันเพียงบิตเดียว ซึ่งช่วยลดความซับซ้อนของการตรวจสอบได้อย่างมาก

การใช้ ASCII ใน Microsoft Office

หากจำเป็น การเข้ารหัสข้อความประเภทนี้ข้อมูลสามารถใช้ในโปรแกรมแก้ไขข้อความของ Microsoft เช่น Notepad และ Office Word อย่างไรก็ตาม เมื่อพิมพ์ในกรณีนี้ จะไม่สามารถใช้ฟังก์ชันบางอย่างได้ ตัวอย่างเช่น คุณจะไม่สามารถเป็นตัวหนาได้ เนื่องจาก ASCII จะรักษาความหมายของข้อมูลเท่านั้น โดยไม่สนใจลักษณะและรูปร่างทั่วไปของข้อมูล

การเข้ารหัส ASCII อักขระรัสเซีย

มาตรฐาน

ISO ได้นำมาตรฐาน ISO 8859 มาใช้กลุ่มนี้กำหนดการเข้ารหัสแบบแปดบิตสำหรับกลุ่มภาษาต่างๆ โดยเฉพาะ ISO 8859-1 คือ Extended ASCII ซึ่งเป็นตารางสำหรับประเทศสหรัฐอเมริกาและประเทศในยุโรปตะวันตก และ ISO 8859-5 คือตารางที่ใช้สำหรับอักษรซีริลลิก รวมทั้งภาษารัสเซียด้วย

ด้วยเหตุผลทางประวัติศาสตร์หลายประการ มาตรฐาน ISO 8859-5 จึงมีการใช้งานมาเป็นระยะเวลาสั้นๆ

สำหรับภาษารัสเซียในขณะนี้มีการใช้การเข้ารหัสจริง:

  • CP866 (รหัสหน้า 866) หรือ DOS, ซึ่งมักเรียกว่าการเข้ารหัส GOST ทางเลือก มันถูกใช้อย่างแข็งขันจนถึงกลางทศวรรษที่ 90 ของศตวรรษที่ผ่านมา ในขณะนี้มันใช้งานไม่ได้จริง
  • ก้อย-8. การเข้ารหัสได้รับการพัฒนาในปี 1970 และ 80 และในขณะนี้ เป็นมาตรฐานที่ยอมรับโดยทั่วไปสำหรับข้อความเมลบน Runet มีการใช้กันอย่างแพร่หลายในระบบปฏิบัติการของตระกูล Unix รวมถึง Linux KOI-8 เวอร์ชัน "รัสเซีย" เรียกว่า KOI-8R นอกจากนี้ยังมีเวอร์ชันสำหรับภาษาซีริลลิกอื่นๆ เช่น ภาษายูเครน
  • รหัสหน้า 1251 (CP 1251, Windows - 1251) พัฒนาโดย Microsoft เพื่อให้รองรับภาษารัสเซียในสภาพแวดล้อม Windows

ข้อได้เปรียบหลักของ CP866 . มาตรฐานตัวแรกคือการรักษาอักขระกราฟิกหลอกที่ตำแหน่งเดียวกับใน Extended ASCII สิ่งนี้ทำให้สามารถรันได้โดยไม่มีการเปลี่ยนแปลงโปรแกรมข้อความที่สร้างจากต่างประเทศ เช่น Norton Commander ที่รู้จักกันดี ในขณะนี้ CP866 ใช้สำหรับโปรแกรมที่พัฒนาภายใต้ Windows ซึ่งทำงานในโหมดข้อความแบบเต็มหน้าจอหรือในหน้าต่างข้อความ รวมถึง FAR Manager

ข้อความคอมพิวเตอร์ที่เขียนด้วยการเข้ารหัส CP866 นั้นค่อนข้างหายากเมื่อเร็ว ๆ นี้ แต่เป็นการเข้ารหัสที่แม่นยำซึ่งใช้สำหรับชื่อไฟล์ภาษารัสเซียใน Windows

"ยูนิโค้ด"

ที่แพร่หลายที่สุดในปัจจุบันได้รับการเข้ารหัสนี้อย่างแน่นอน รหัส Unicode แบ่งออกเป็นพื้นที่ ตัวแรก (U + 0000 ถึง U + 007F) มีอักขระ ASCII พร้อมรหัส ตามด้วยป้ายอักษรประจำชาติต่างๆ รวมทั้งเครื่องหมายวรรคตอนและสัญลักษณ์ทางเทคนิค นอกจากนี้ โค้ด "Unicode" บางตัวยังสงวนไว้ในกรณีที่จำเป็นต้องใส่อักขระใหม่ในอนาคต

การเข้ารหัสอักขระ ASCII

ตอนนี้คุณรู้แล้วว่าใน ASCII แต่ละอันอักขระจะแสดงเป็นการรวมกันของศูนย์ 8 ตัวและตัวหนึ่ง สำหรับผู้ที่ไม่ใช่ผู้เชี่ยวชาญ ข้อมูลนี้อาจดูเหมือนไม่จำเป็นและไม่น่าสนใจ แต่คุณไม่ต้องการรู้ว่าเกิดอะไรขึ้น "ในสมอง" ของพีซีของคุณ!