Ascii-taulukon binaarikoodi. Tekstitietojen koodaus

Peittokuvasymbolit

BS (askelpalautin) -merkin avulla tulostin voi korvata yhden merkin. ASCII:ssa on säädetty diakriittisten merkkien lisäämisestä kirjaimiin tällä tavalla, esimerkiksi:

  • a BS "→ á
  • a BS `→ à
  • a BS ^ → â
  • o BS / → ø
  • c BS, → ç
  • n BS ~ → ñ

Huomautus: vanhoissa kirjasimissa heittomerkki "piirrettiin vinosti vasemmalle ja tilde ~ siirrettiin ylöspäin, jotta ne sopivat juuri akuutin ja tilden rooliin päälle.

Jos sama symboli asetetaan merkin päälle, saadaan lihavoidun fontin vaikutus, ja jos merkin päälle asetetaan alaviiva, saadaan alleviivattu teksti.

  • a BS a → a
  • a BS _ → a

Huomautus: tätä käytetään esimerkiksi miesapujärjestelmässä.

Kansalliset ASCII-versiot

ISO 646 (ECMA-6) -standardi mahdollistaa kansallisten merkkien sijoittamisen @ [ \ ] ^ ` { | } ~ ... Tämän lisäksi paikallaan # voidaan majoittaa £ , ja paikallaan $ - ¤ ... Tämä järjestelmä sopii hyvin eurooppalaisille kielille, joissa tarvitaan vain muutama lisämerkki. ASCII-versiota, jossa ei ole kansallisia merkkejä, kutsutaan US-ASCII:ksi tai "kansainväliseksi viiteversioksi".

Myöhemmin osoittautui helpommaksi käyttää 8-bittisiä koodauksia (koodisivuja), joissa kooditaulukon alapuoli (0-127) on US-ASCII-merkkien varassa ja ylempi (128-255) on. sisältää lisämerkkejä, mukaan lukien joukko kansallisia merkkejä. Siten ASCII-taulukon yläosaa käytettiin ennen Unicoden laajaa käyttöönottoa aktiivisesti edustamaan paikallisia merkkejä, paikallisen kielen kirjaimia. Yhtenäisen standardin puute kyrillisten merkkien sijoittamiselle ASCII-taulukkoon aiheutti monia ongelmia koodauksissa (KOI-8, Windows-1251 ja muut). Muut kielet, joissa ei ole latinalaista kirjoitusta, kärsivät myös useista eri koodauksista.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F
0. NUL SOM EOA EOM EQT WRU RU BELL BKSP Ht LF VT FF CR NIIN SI
1. DC 0 DC 1 DC 2 DC 3 DC 4 ERR SYNK LEM S 0 S 1 S 2 S 3 S 4 S 5 S 6 S 7
2.
3.
4. TYHJÄ ! " # $ % & " ( ) * + , - . /
5. 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
6.
7.
8.
9.
A. @ A B C D E F G H minä J K L M N O
B. P K R S T U V W X Y Z [ \ ]
C.
D.
E. a b c d e f g h i j k l m n o
F. p q r s t u v w x y z POISTU DEL

Niissä tietokoneissa, joissa pienin osoitettava muistiyksikkö oli 36-bittinen sana, käytettiin aluksi 6-bittisiä merkkejä (1 sana = 6 merkkiä). Tällaisissa tietokoneissa ASCII:hen siirtymisen jälkeen he alkoivat sijoittaa yhteen sanaan joko 5 seitsemänbittistä merkkiä (1 bitti jäi tarpeettomaksi) tai 4 yhdeksänbittistä merkkiä.

ASCII-koodeja käytetään myös ohjelmoinnin aikana painetun näppäimen tunnistamiseen. Tavallisen QWERTY-näppäimistön kooditaulukko näyttää tältä:

Kutsutaan merkkijoukkoa, jolla tekstiä kirjoitetaan aakkoset.

Aakkosten merkkien määrä on hänen tehoa.

Kaava tiedon määrän määrittämiseksi: N = 2 b,

missä N on aakkosten kardinaalisuus (merkkien määrä),

b - bittien lukumäärä (merkin tietopaino).

Aakkoset, joiden kapasiteetti on 256 merkkiä, voivat sisältää melkein kaikki tarvittavat merkit. Tätä aakkosta kutsutaan riittävä.

Koska 256 = 2 8, silloin 1 merkin paino on 8 bittiä.

8-bittinen yksikkö nimettiin 1 tavu:

1 tavu = 8 bittiä.

Tietokonetekstin jokaisen merkin binäärikoodi vie 1 tavun muistia.

Miten tekstitieto esitetään tietokoneen muistissa?

Merkkien tavukoodauksen mukavuus on ilmeinen, koska tavu on muistin pienin osoitettavissa oleva osa ja siksi prosessori voi käyttää jokaista merkkiä erikseen suorittamalla tekstinkäsittelyn. Toisaalta 256 merkkiä on varsin riittävä määrä edustamaan monenlaista merkkitietoa.

Nyt herää kysymys, millainen kahdeksanbittinen binäärikoodi liitetään kuhunkin merkkiin.

On selvää, että tämä on ehdollinen asia, voit keksiä monia koodausmenetelmiä.

Kaikki tietokoneen aakkosten merkit on numeroitu 0 - 255. Jokainen numero vastaa kahdeksan bitin binäärikoodia 00000000 - 11111111. Tämä koodi on yksinkertaisesti merkin järjestysnumero binäärilukujärjestelmässä.

Taulukkoa, jossa kaikki tietokoneen aakkosten merkit on määritetty sarjanumeroiksi, kutsutaan koodaustaulukoksi.

Erityyppisille tietokoneille käytetään erilaisia ​​koodaustaulukoita.

PC:n kansainvälinen standardi on tullut pöytään ASCII(lue asci) (American Standard Code for Information Interchange).

ASCII-taulukko on jaettu kahteen osaan.

Kansainvälinen standardi on vain taulukon ensimmäinen puolisko, ts. symbolit numeroilla alkaen 0 (00000000), enintään 127 (01111111).

ASCII-koodaustaulukkorakenne

Sarjanumero

Koodi

Symboli

0 - 31

00000000 - 00011111

Symboleja, joiden numerot ovat 0-31, kutsutaan yleensä ohjausmerkeiksi.
Niiden tehtävänä on ohjata tekstin näyttämistä näytöllä tai tulostamista, äänimerkin antamista, tekstin merkitsemistä jne.

32 - 127

00100000 - 01111111

Pöydän vakioosa (englanniksi). Tämä sisältää latinalaisten aakkosten pienet ja isot kirjaimet, desimaalinumerot, välimerkit, kaikenlaiset hakasulut, kaupalliset ja muut symbolit.
Merkki 32 on välilyönti, ts. tyhjä paikka tekstissä.
Kaikki muut heijastuvat tietyissä merkeissä.

128 - 255

10000000 - 11111111

Taulukon vaihtoehtoinen osa (venäjä).
ASCII-kooditaulukon toisella puoliskolla, jota kutsutaan koodisivuksi (128 koodia alkaen 10000000 ja päättyen numeroon 11111111), voi olla erilaisia ​​muunnelmia, jokaisella versiolla on oma numeronsa.
Koodisivua käytetään ensisijaisesti muiden kansallisten aakkosten kuin latinalaisten aakkosten sisällyttämiseen. Venäjän kansallisissa koodauksissa tämä taulukon osa sisältää venäläisten aakkosten symboleja.

ASCII-taulukon ensimmäinen puolisko


Kiinnitän huomionne siihen, että koodaustaulukossa kirjaimet (isot ja pienet) on järjestetty aakkosjärjestykseen ja numerot nousevaan arvojen järjestykseen. Tätä leksikografisen järjestyksen noudattamista merkkien järjestelyssä kutsutaan aakkosten peräkkäisen koodauksen periaatteeksi.

Venäjän aakkosten kirjaimissa noudatetaan myös peräkkäisen koodauksen periaatetta.

ASCII-taulukon toinen puolisko


Valitettavasti tällä hetkellä on olemassa viisi erilaista kyrillistä koodausta (KOI8-R, Windows. MS-DOS, Macintosh ja ISO). Tästä johtuen venäjänkielisen tekstin siirtämisessä tietokoneelta toiselle, ohjelmistojärjestelmästä toiseen syntyy usein ongelmia.

Kronologisesti yksi ensimmäisistä standardeista venäläisten kirjainten koodaamiseen tietokoneissa oli KOI8 ("Tiedonvaihtokoodi, 8-bittinen"). Tätä koodausta käytettiin jo 70-luvulla ES-tietokonesarjan tietokoneissa, ja 80-luvun puolivälistä lähtien sitä alettiin käyttää UNIX-käyttöjärjestelmän ensimmäisissä venäläistetyissä versioissa.

90-luvun alusta, MS DOS -käyttöjärjestelmän dominanssiajasta, CP866-koodaus säilyy ("CP" tarkoittaa "koodisivua").

Apple-tietokoneet, joissa on Mac OS, käyttävät omaa Mac-koodausta.

Lisäksi Kansainvälinen standardointijärjestö (International Standards Organization, ISO) hyväksyi venäjän kielen standardiksi toisen koodauksen nimeltä ISO 8859-5.

Tällä hetkellä yleisin koodaus on Microsoft Windows, lyhenne CP1251.

90-luvun lopulta lähtien merkkikoodauksen standardoinnin ongelma on ratkaistu ottamalla käyttöön uusi kansainvälinen standardi, ns. Unicode... Tämä on 16-bittinen koodaus eli se varaa 2 tavua muistia jokaiselle merkille. Tämä tietysti kaksinkertaistaa käytetyn muistin määrän. Mutta toisaalta, tällainen kooditaulukko sallii jopa 65536 merkin sisällyttämisen. Unicode-standardin täydellinen spesifikaatio sisältää kaikki maailman olemassa olevat, sukupuuttoon kuolleet ja keinotekoisesti luodut aakkoset sekä monet matemaattiset, musiikilliset, kemialliset ja muut symbolit.

Yritetään käyttää ASCII-taulukkoa kuvitellaksesi, miltä sanat näyttävät tietokoneen muistissa.

Sanojen sisäinen esitys tietokoneen muistissa

Joskus käy niin, että venäläisten aakkosten kirjaimista koostuvaa tekstiä, joka on saatu toisesta tietokoneesta, ei voida lukea - näytön näytöllä näkyy jonkinlainen "sisarus". Tämä johtuu siitä, että tietokoneet käyttävät venäjän kielen merkkien erilaista koodausta.

joulukuuta Hex Symboli joulukuuta Hex Symboli
000 00 asiantuntija. NOP 128 80 Ђ
001 01 asiantuntija. SOH 129 81 Ѓ
002 02 asiantuntija. STX 130 82
003 03 asiantuntija. ETX 131 83 ѓ
004 04 asiantuntija. EOT 132 84
005 05 asiantuntija. ENQ 133 85
006 06 asiantuntija. ACK 134 86
007 07 asiantuntija. BEL 135 87
008 08 asiantuntija. BS 136 88
009 09 asiantuntija. TAB 137 89
010 0Aasiantuntija. LF 138 8AЉ
011 0Basiantuntija. VT 139 8B‹ ‹
012 0Casiantuntija. FF 140 8CЊ
013 0Dasiantuntija. CR 141 8DЌ
014 0Easiantuntija. NIIN 142 8EЋ
015 0Fasiantuntija. SI 143 8FЏ
016 10 asiantuntija. DLE 144 90 ђ
017 11 asiantuntija. DC1 145 91
018 12 asiantuntija. DC2 146 92
019 13 asiantuntija. DC3 147 93
020 14 asiantuntija. DC4 148 94
021 15 asiantuntija. NAK 149 95
022 16 asiantuntija. SYN 150 96
023 17 asiantuntija. ETB 151 97
024 18 asiantuntija. VOI 152 98
025 19 asiantuntija. EM 153 99
026 1Aasiantuntija. SUB 154 9Aљ
027 1Basiantuntija. POISTU 155 9B
028 1Casiantuntija. FS 156 9Cњ
029 1Dasiantuntija. GS 157 9Dќ
030 1Easiantuntija. Rs 158 9Eћ
031 1Fasiantuntija. MEILLE 159 9Fџ
032 20 kytkin SP (avaruus) 160 A0
033 21 ! 161 A1 Ў
034 22 " 162 A2ў
035 23 # 163 A3Ћ
036 24 $ 164 A4¤
037 25 % 165 A5Ґ
038 26 & 166 A6¦
039 27 " 167 A7§
040 28 ( 168 A8Joo
041 29 ) 169 A9©
042 2A* 170 AAЄ
043 2B+ 171 AB«
044 2C, 172 AC¬
045 2D- 173 ILMOITUS­
046 2E. 174 AE®
047 2F/ 175 AFЇ
048 30 0 176 B0°
049 31 1 177 B1±
050 32 2 178 B2І
051 33 3 179 B3і
052 34 4 180 B4ґ
053 35 5 181 B5µ
054 36 6 182 B6
055 37 7 183 B7·
056 38 8 184 B8e
057 39 9 185 B9
058 3A: 186 BAє
059 3B; 187 BB»
060 3C< 188 eKrј
061 3D= 189 BDЅ
062 3E> 190 OLLAѕ
063 3F? 191 Bfї
064 40 @ 192 C0 A
065 41 A 193 C1 B
066 42 B 194 C2 V
067 43 C 195 C3 G
068 44 D 196 C4 D
069 45 E 197 C5 E
070 46 F 198 C6 F
071 47 G 199 C7 Z
072 48 H 200 C8 JA
073 49 minä 201 C9 Th
074 4AJ 202 CA TO
075 4BK 203 CB L
076 4CL 204 CC M
077 4DM 205 CD N
078 4EN 206 CE O
079 4FO 207 CF NS
080 50 P 208 D0 R
081 51 K 209 D1 KANSSA
082 52 R 210 D2 T
083 53 S 211 D3 Omistaa
084 54 T 212 D4 F
085 55 U 213 D5 NS
086 56 V 214 D6 C
087 57 W 215 D7 H
088 58 X 216 D8 NS
089 59 Y 217 D9 SCH
090 5AZ 218 DA B
091 5B[ 219 DB NS
092 5C\ 220 DC B
093 5D] 221 DD NS
094 5E^ 222 DE NS
095 5F_ 223 DF OLEN
096 60 ` 224 E0 a
097 61 a 225 E1 b
098 62 b 226 E2 v
099 63 c 227 E3 G
100 64 d 228 E4 d
101 65 e 229 E5 e
102 66 f 230 E6 f
103 67 g 231 E7 s
104 68 h 232 E8 ja
105 69 i 233 E9 th
106 6Aj 234 EA Vastaanottaja
107 6Bk 235 EB l
108 6Cl 236 EC m
109 6Dm 237 ED n
110 6En 238 EE O
111 6Fo 239 EF NS
112 70 p 240 F0 R
113 71 q 241 F1 kanssa
114 72 r 242 F2 T
115 73 s 243 F3 klo
116 74 t 244 F4 f
117 75 u 245 F5 NS
118 76 v 246 F6 c
119 77 w 247 F7 h
120 78 x 248 F8 NS
121 79 y 249 F9 SCH
122 7Az 250 FA b
123 7B{ 251 FB NS
124 7C| 252 FC b
125 7D} 253 FD NS
126 7E~ 254 FE NS
127 7Fasiantuntija. DEL 255 FF olen

Windowsin ASCII-merkkikooditaulukko.
Erikoismerkkien (ohjaus) kuvaus

On huomattava, että alun perin ASCII-taulukon ohjausmerkkejä käytettiin tiedonsiirtoon teletypen kautta, tiedon syöttämiseen rei'itetyltä nauhalta ja ulkoisten laitteiden yksinkertaisimpaan ohjaukseen.
Tällä hetkellä useimmat taulukon ASCII-ohjausmerkit eivät enää kanna tätä taakkaa, ja niitä voidaan käyttää muihin tarkoituksiin.
Koodi Kuvaus
NUL, 00Tyhjä, tyhjä
SOH, 01Suunnan alku, suunnan alku
STX, 02Tekstin alku, tekstin alku.
ETX, 03Tekstin loppu, tekstin loppu
EOT, 04Lähetyksen loppu, lähetyksen loppu
ENQ, 05Tiedustella. Pyydän vahvistusta
AK, 06Tunnustus. Vahvistan
BEL, 07Kello, kello
BS, 08Askelpalautin, palaa yksi merkki taaksepäin
TAB, 09Välilehti, vaakasuora välilehti
LF, 0ARivinsyöttö, rivinvaihto.
Nyt useimmissa ohjelmointikielissä se on merkitty \ n
VT, 0BPysty välilehti, pystysuora välilehti.
FF, 0CLomakesyöttö, sivun syöttö, uusi sivu
CR, 0DVaunun palautus
Nyt useimmissa ohjelmointikielissä se on merkitty \ r
Eli 0EShift Out, muuta tulostuslaitteen mustenauhan väriä
SI, 0FShift In, palauta tulostuslaitteen mustenauhan väri takaisin
DLE, 10Data Link Escape, vaihda kanava tiedonsiirtoon
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Device Control, laiteohjaussymbolit
NAK, 15Negatiivinen tunnustus, en tunnusta.
SYN, 16Synkronointi. Synkronointisymboli
ETB, 17Tekstilohkon loppu, tekstilohkon loppu
CAN, 18Peruuta, aiemmin hyväksytyn peruutus
EM, 19Tietovälineen loppu, tietovälineen loppu
SUB, 1AKorvaava Sijoitetaan sellaisen merkin tilalle, jonka arvo on kadonnut tai vioittunut lähetyksen aikana
ESC, 1BEscape Escape -sarja
FS, 1CTiedostoerotin, tiedostoerotin
GS, 1DRyhmäerotin, ryhmäerotin
RS, 1ETietueen erotin, tietueen erotin
USA, 1FYksikköerotin, yksikköerotin
DEL, 7FPoista, poista viimeinen merkki.

Excel for Office 365 Word for Office 365 Outlook for Office 365 PowerPoint for Office 365 Publisher for Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 OneNote 2013 Publisher 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 Visio 2010 Access00 Access00 Access00 Access20o Access07o 2010 Excel 2007Power2070sO 20070 Outlook 20070 20070070 Visio Standard 2007 Visio Standard 2010 Pienempi

Tässä artikkelissa

Lisää asiakirjaan ASCII- tai Unicode-merkki

Jos sinun tarvitsee kirjoittaa vain muutama erikoismerkki tai symboli, voit käyttää kumpaa tahansa pikanäppäimiä. Luettelo ASCII-merkeistä on seuraavissa taulukoissa tai artikkelissa Kansallisten aakkosten lisääminen pikanäppäimillä.

Huomautuksia:

Lisää ASCII-merkkejä

Voit lisätä ASCII-merkin pitämällä ALT-näppäintä painettuna syöttäessäsi merkkikoodia. Jos haluat esimerkiksi lisätä astemerkin (º), pidä Alt-näppäintä painettuna ja kirjoita sitten numeronäppäimistöllä 0176.

Käytä numeronäppäimistöä numeroiden syöttämiseen päänäppäimistön numeroiden sijaan. Jos sinun on syötettävä numeroita numeronäppäimistöllä, varmista, että NUM LOCK-merkkivalo palaa.

Unicode-merkkien lisääminen

Jos haluat lisätä Unicode-merkin, kirjoita merkkikoodi ja paina sitten peräkkäin ALT ja X. Jos haluat esimerkiksi lisätä dollarimerkin ($), kirjoita 0024 ja paina peräkkäin ALT ja X. Katso kaikki Unicode-merkkikoodit.

Tärkeä: Jotkut Microsoft Office -ohjelmat, kuten PowerPoint ja InfoPath, eivät tue Unicode-koodien muuntamista merkeiksi. Jos sinun on lisättävä Unicode-merkki johonkin näistä ohjelmista, käytä.

Huomautuksia:

    Jos näet väärän Unicode-merkin painettuasi ALT + X, valitse oikea koodi ja paina sitten ALT + X uudelleen.

    Lisäksi ennen koodia on syötettävä "U +". Jos esimerkiksi syötät "1U + B5" ja painat Alt + X, teksti "1µ" tulee näkyviin, ja jos kirjoitat "1B5" ja painat Alt + X, merkki "Ƶ" tulee näkyviin.

Symbolitaulukon käyttö

Symbol Map on Microsoft Windowsiin sisäänrakennettu ohjelma, jonka avulla voit tarkastella valitun fontin käytettävissä olevia symboleja.

Symbolitaulukon avulla voit kopioida yksittäisiä symboleja tai symboliryhmän leikepöydälle ja liittää ne mihin tahansa ohjelmaan, joka voi näyttää kyseiset symbolit. Symbolitaulukon avaaminen

    Windows 10:ssä Kirjoita sana "symboli" tehtäväpalkin hakukenttään ja valitse symbolitaulukko hakutuloksista.

    Windows 8:ssa Kirjoita aloitusnäytölle sana "merkki" ja valitse merkkitaulukko hakutuloksista.

    Windows 7:ssä painaa nappia alkaa, valitse peräkkäin Kaikki ohjelmat, Vakio, Palvelu ja napsauta symbolien taulukko.

Merkit on ryhmitelty fontin mukaan. Napsauta fonttiluetteloa valitaksesi sopiva merkistö. Valitse symboli napsauttamalla sitä ja sitten napsauttamalla Valitse... Lisää symboli napsauttamalla hiiren oikealla painikkeella haluamaasi kohtaa asiakirjassa ja valitsemalla Lisää.

Usein käytetyt symbolikoodit

Täydellinen merkkiluettelo on tietokoneesi, ASCII-merkkikooditaulukossa tai Unicode-merkistötaulukoissa.

Glyph

Glyph

Rahayksiköt

Oikeudelliset symbolit

Matemaattiset symbolit

Murtoluvut

Välimerkit ja murresymbolit

Lomakkeiden symbolit

Yleisesti käytetyt diakriittiset koodit

Katso täydellinen luettelo kuvioista ja niihin liittyvistä koodeista.

Glyph

Glyph

Ei-tulostettavat ASCII-ohjausmerkit

Joidenkin oheislaitteiden, kuten tulostimien, ohjaamiseen käytettävät merkit on numeroitu ASCII-taulukossa 0–31. Esimerkiksi syötteen / uuden sivun merkki on numero 12. Tämä merkki kertoo tulostimen siirtymään seuraavan sivun alkuun.

Ei-tulostettava ASCII-ohjausmerkkitaulukko

Desimaali

Merkki

Desimaali

Merkki

Datakanavan vapauttaminen

Otsikon alku

Ensimmäinen laitteen ohjauskoodi

Tekstin alku

Toinen laitteen ohjauskoodi

Tekstin loppu

Kolmannen laitteen ohjauskoodi

Lähetyksen loppu

Neljäs laitteen ohjauskoodi

viisikärkinen

Negatiivinen vahvistus

Vahvistus

Synkroninen lähetystila

Äänisignaali

Lähetetyn tiedon lohkon loppu

Vaaka-välilehti

Median loppu

Rivinsyöttö / uusi rivi

Korvaava merkki

Pysty välilehti

ylittää

Sivun käännös / uusi sivu

Kahdestoista

Tiedostojen erotin

Vaunun palautus

Ryhmäerotin

Vaihto tallentamatta numeroita

Tietueen erotin

Vaihto, jossa säilytetään numeroita

viisitoista

Tietojen erotin

Tietokone ymmärtää prosessin, jolla se muuttuu muotoon, joka mahdollistaa näiden tietojen helpomman siirron, tallennuksen tai automaattisen käsittelyn järjestämisen. Tätä tarkoitusta varten käytetään erilaisia ​​​​taulukoita. ASCII-koodaus on ensimmäinen Yhdysvalloissa kehitetty englanninkielisen tekstin käsittelyyn tarkoitettu järjestelmä, josta tuli myöhemmin laajalle levinnyttä kaikkialla maailmassa. Alla oleva artikkeli on omistettu sen kuvaukselle, ominaisuuksille, ominaisuuksille ja jatkokäytölle.

Tietojen näyttäminen ja tallentaminen tietokoneeseen

Tietokoneen näytöllä tai yhdessä tai toisessa mobiilissa digitaalisessa vempaimessa olevat symbolit muodostetaan kaikenlaisten merkkien vektorimuotojen ja koodin perusteella, jonka avulla voit löytää niiden joukosta symbolin, joka on lisättävä oikeaan paikkaan. Se on sarja bittejä. Siten jokaisen merkin on yksilöllisesti vastattava joukkoa nollia ja ykkösiä, jotka ovat tietyssä, ainutlaatuisessa järjestyksessä.

Kuinka kaikki alkoi

Historiallisesti ensimmäiset tietokoneet olivat englanninkielisiä. Symbolisen tiedon koodaamiseen niihin riitti käyttää vain 7 bittiä muistia, kun taas tähän tarkoitukseen varattiin 1 tavu, joka koostui 8 bitistä. Tietokoneen ymmärtämien merkkien määrä oli tässä tapauksessa 128. Tällaisten merkkien määrä sisälsi englanninkieliset aakkoset välimerkeineen, numerot ja eräät erikoismerkit. Vuonna 1963 kehitetty englanninkielinen seitsemän bitin koodaus vastaavalla taulukolla (koodisivulla) sai nimekseen American Standard Code for Information Interchange. Yleensä lyhennettä "ASCII-koodaus" käytettiin osoittamaan, ja sitä käytetään edelleen tähän päivään asti.

Siirtyminen monikielisyyteen

Ajan myötä tietokoneita on käytetty laajalti myös muissa kuin englanninkielisissä maissa. Tässä suhteessa tarvittiin koodauksia, jotka mahdollistaisivat kansallisten kielten käytön. Päätettiin olla keksimättä pyörää uudelleen, vaan otettiin ASCII perustana. Uuden painoksen koodaustaulukko on laajentunut merkittävästi. 8. bitin käyttö mahdollisti 256 merkin kääntämisen tietokonekielelle.

Kuvaus

ASCII-koodauksessa on taulukko, joka on jaettu kahteen osaan. Vain ensimmäistä puoliskoa pidetään yleisesti hyväksyttynä kansainvälisenä standardina. Se sisältää:

  • Merkit, joiden järjestysluvut ovat 0–31 ja jotka on koodattu sarjoilla 00000000–00011111. Ne on varattu ohjausmerkeille, jotka ohjaavat tekstin näyttämistä näytöllä tai tulostimella, äänimerkin antamista jne.
  • Merkit, joiden NN on taulukossa 32-127 ja jotka on koodattu sarjoilla 00100000-01111111, muodostavat taulukon vakioosan. Näitä ovat välilyönti (N 32), latinalaisten aakkosten kirjaimet (pienet ja isot kirjaimet), kymmennumeroiset numerot 0-9, välimerkit, eri tyyliset hakasulkeet ja muut symbolit.
  • Merkit, joiden järjestysnumerot ovat 128–255 ja jotka on koodattu sarjoilla 10000000–11111111. Näihin kuuluvat muiden kuin latinalaisten kansallisten aakkosten kirjaimet. Tässä taulukon vaihtoehtoisessa osassa ASCII-koodausta käytetään venäläisten merkkien muuntamiseen tietokonemuotoon.

Jotkut ominaisuudet

ASCII-koodauksen erityispiirteet sisältävät vain yhden bitin eron pienten ja isojen kirjainten "A" - "Z" välillä. Tämä seikka yksinkertaistaa huomattavasti rekisterin muuntamista sekä sen tarkistamista, kuuluuko se määritettyyn arvoalueeseen. Lisäksi kaikki ASCII-koodausjärjestelmän kirjaimet esitetään omilla järjestysnumeroillaan aakkosissa, jotka kirjoitetaan binäärijärjestelmässä 5-numeroisina, joita edeltää 011 2 pienten kirjainten osalta ja 010 2 isojen kirjainten osalta.

ASCII-koodauksen ominaisuuksien joukossa voidaan pitää 10 numeron esittämistä - "0" - "9". Toisessa numerojärjestelmässä ne alkavat 00112:lla ja päättyvät 2 numeroon. Esimerkiksi 0101 2 vastaa desimaalilukua viisi, joten merkki "5" kirjoitetaan muodossa 0011 01012. Tämän perusteella voit helposti muuntaa BCD-levyt ASCII-merkkijonoksi lisäämällä 00112 jokaiseen vasemmalla olevaan napaan.

"Unicode"

Kuten tiedät, Kaakkois-Aasian ryhmän kielillä olevien tekstien näyttämiseen tarvitaan tuhansia merkkejä. Tällaista määrää ei millään tavalla kuvata yhdessä tietotavussa, joten edes laajennetut ASCII-versiot eivät enää pystyneet tyydyttämään eri maiden käyttäjien kasvaneita tarpeita.

Niinpä syntyi tarve luoda universaali tekstikoodaus, jonka Unicode-konsortio kehitti yhteistyössä monien globaalin IT-alan johtajien kanssa. Sen asiantuntijat loivat UTF 32 -järjestelmän, jossa 32 bittiä oli varattu 1 merkin koodaamiseen, mikä muodostaa 4 tavua tietoa. Suurin haittapuoli oli tarvittavan muistin määrän jyrkkä kasvu jopa 4-kertaiseksi, mikä aiheutti monia ongelmia.

Samaan aikaan useimmissa maissa, joissa viralliset kielet kuuluvat indoeurooppalaiseen ryhmään, 2 32 merkkien määrä on enemmän kuin tarpeeton.

Unicode-konsortion asiantuntijoiden lisätyön tuloksena ilmestyi UTF-16-koodaus. Siitä tuli vaihtoehto symbolisen tiedon muuntamiseen, joka sopi kaikille sekä tarvittavan muistin että koodattujen merkkien määrän suhteen. Tästä syystä UTF-16 hyväksyttiin oletuksena ja se vaatii 2 tavua yhdelle merkille.

Jopa tällä melko edistyneellä ja onnistuneella "Unicode"-versiolla oli joitain haittoja, ja siirtymisen jälkeen laajennetusta ASCII-versiosta UTF-16:een asiakirjan paino kaksinkertaistui.

Tässä suhteessa päätettiin käyttää muuttuvapituista UTF-8-koodausta. Tässä tapauksessa jokainen lähdetekstin merkki on koodattu 1-6 tavun pituisella sekvenssillä.

Suhde amerikkalaisen tiedonvaihdon standardikoodiin

Kaikki muuttuvan pituiset UTF-8:n latinalaisten aakkosten merkit on koodattu 1 tavulla, kuten ASCII-koodausjärjestelmässä.

UTP-8:n erikoisuus on, että latinankielisessä tekstissä ilman muita merkkejä, jopa ohjelmat, jotka eivät ymmärrä "Unicodea", sallivat sen lukea. Toisin sanoen ASCII-tekstikoodauksen perusosa yksinkertaisesti yhdistetään uuteen muuttuvapituiseen UTF:ään. Kyrilliset merkit UTP-8:ssa vievät 2 tavua ja esimerkiksi Georgian merkit - 3 tavua. UTF-16:n ja 8:n luominen ratkaisi pääongelman yhden kooditilan luomisessa kirjasimissa. Siitä lähtien kirjasinten valmistajat ovat voineet täyttää taulukon vain vektorimuotoisilla tekstimerkkien muodoilla tarpeidensa mukaan.

Erilaisia ​​koodauksia suositellaan eri käyttöjärjestelmissä. Jotta eri koodauksella kirjoitettuja tekstejä voidaan lukea ja muokata, käytetään venäläisiä tekstinmuunnosohjelmia. Jotkut tekstieditorit sisältävät sisäänrakennetut transkooderit, ja niiden avulla voit lukea tekstiä koodauksesta riippumatta.

Nyt tiedät kuinka monta merkkiä ASCII:ssa on ja miten ja miksi se kehitettiin. Tietenkin nykyään maailman yleisin standardi on "Unicode". Emme kuitenkaan saa unohtaa, että se luotiin ASCII:n pohjalta, joten sen kehittäjien panosta IT-alalle tulee arvostaa.


2021, leally.ru - Opas tietokoneiden ja Internetin maailmaan