Ascii-taulukon binaarikoodi. Tekstitietojen koodaus
Peittokuvasymbolit
BS (askelpalautin) -merkin avulla tulostin voi korvata yhden merkin. ASCII:ssa on säädetty diakriittisten merkkien lisäämisestä kirjaimiin tällä tavalla, esimerkiksi:
- a BS "→ á
- a BS `→ à
- a BS ^ → â
- o BS / → ø
- c BS, → ç
- n BS ~ → ñ
Huomautus: vanhoissa kirjasimissa heittomerkki "piirrettiin vinosti vasemmalle ja tilde ~ siirrettiin ylöspäin, jotta ne sopivat juuri akuutin ja tilden rooliin päälle.
Jos sama symboli asetetaan merkin päälle, saadaan lihavoidun fontin vaikutus, ja jos merkin päälle asetetaan alaviiva, saadaan alleviivattu teksti.
- a BS a → a
- a BS _ → a
Huomautus: tätä käytetään esimerkiksi miesapujärjestelmässä.
Kansalliset ASCII-versiot
ISO 646 (ECMA-6) -standardi mahdollistaa kansallisten merkkien sijoittamisen @ [ \ ] ^ ` { | } ~ ... Tämän lisäksi paikallaan # voidaan majoittaa £ , ja paikallaan $ - ¤ ... Tämä järjestelmä sopii hyvin eurooppalaisille kielille, joissa tarvitaan vain muutama lisämerkki. ASCII-versiota, jossa ei ole kansallisia merkkejä, kutsutaan US-ASCII:ksi tai "kansainväliseksi viiteversioksi".
Myöhemmin osoittautui helpommaksi käyttää 8-bittisiä koodauksia (koodisivuja), joissa kooditaulukon alapuoli (0-127) on US-ASCII-merkkien varassa ja ylempi (128-255) on. sisältää lisämerkkejä, mukaan lukien joukko kansallisia merkkejä. Siten ASCII-taulukon yläosaa käytettiin ennen Unicoden laajaa käyttöönottoa aktiivisesti edustamaan paikallisia merkkejä, paikallisen kielen kirjaimia. Yhtenäisen standardin puute kyrillisten merkkien sijoittamiselle ASCII-taulukkoon aiheutti monia ongelmia koodauksissa (KOI-8, Windows-1251 ja muut). Muut kielet, joissa ei ole latinalaista kirjoitusta, kärsivät myös useista eri koodauksista.
.0 | .1 | .2 | .3 | .4 | .5 | .6 | .7 | .8 | .9 | .A | .B | .C | .D | .E | .F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0. | NUL | SOM | EOA | EOM | EQT | WRU | RU | BELL | BKSP | Ht | LF | VT | FF | CR | NIIN | SI |
1. | DC 0 | DC 1 | DC 2 | DC 3 | DC 4 | ERR | SYNK | LEM | S 0 | S 1 | S 2 | S 3 | S 4 | S 5 | S 6 | S 7 |
2. | ||||||||||||||||
3. | ||||||||||||||||
4. | TYHJÄ | ! | " | # | $ | % | & | " | ( | ) | * | + | , | - | . | / |
5. | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
6. | ||||||||||||||||
7. | ||||||||||||||||
8. | ||||||||||||||||
9. | ||||||||||||||||
A. | @ | A | B | C | D | E | F | G | H | minä | J | K | L | M | N | O |
B. | P | K | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ← | |
C. | ||||||||||||||||
D. | ||||||||||||||||
E. | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o | |
F. | p | q | r | s | t | u | v | w | x | y | z | POISTU | DEL |
Niissä tietokoneissa, joissa pienin osoitettava muistiyksikkö oli 36-bittinen sana, käytettiin aluksi 6-bittisiä merkkejä (1 sana = 6 merkkiä). Tällaisissa tietokoneissa ASCII:hen siirtymisen jälkeen he alkoivat sijoittaa yhteen sanaan joko 5 seitsemänbittistä merkkiä (1 bitti jäi tarpeettomaksi) tai 4 yhdeksänbittistä merkkiä.
ASCII-koodeja käytetään myös ohjelmoinnin aikana painetun näppäimen tunnistamiseen. Tavallisen QWERTY-näppäimistön kooditaulukko näyttää tältä:
Kutsutaan merkkijoukkoa, jolla tekstiä kirjoitetaan aakkoset. Aakkosten merkkien määrä on hänen tehoa. Kaava tiedon määrän määrittämiseksi: N = 2 b, missä N on aakkosten kardinaalisuus (merkkien määrä), b - bittien lukumäärä (merkin tietopaino). Aakkoset, joiden kapasiteetti on 256 merkkiä, voivat sisältää melkein kaikki tarvittavat merkit. Tätä aakkosta kutsutaan riittävä. Koska 256 = 2 8, silloin 1 merkin paino on 8 bittiä. 8-bittinen yksikkö nimettiin 1 tavu: 1 tavu = 8 bittiä. Tietokonetekstin jokaisen merkin binäärikoodi vie 1 tavun muistia. Miten tekstitieto esitetään tietokoneen muistissa?Merkkien tavukoodauksen mukavuus on ilmeinen, koska tavu on muistin pienin osoitettavissa oleva osa ja siksi prosessori voi käyttää jokaista merkkiä erikseen suorittamalla tekstinkäsittelyn. Toisaalta 256 merkkiä on varsin riittävä määrä edustamaan monenlaista merkkitietoa. Nyt herää kysymys, millainen kahdeksanbittinen binäärikoodi liitetään kuhunkin merkkiin.On selvää, että tämä on ehdollinen asia, voit keksiä monia koodausmenetelmiä. Kaikki tietokoneen aakkosten merkit on numeroitu 0 - 255. Jokainen numero vastaa kahdeksan bitin binäärikoodia 00000000 - 11111111. Tämä koodi on yksinkertaisesti merkin järjestysnumero binäärilukujärjestelmässä. Taulukkoa, jossa kaikki tietokoneen aakkosten merkit on määritetty sarjanumeroiksi, kutsutaan koodaustaulukoksi.Erityyppisille tietokoneille käytetään erilaisia koodaustaulukoita. PC:n kansainvälinen standardi on tullut pöytään ASCII(lue asci) (American Standard Code for Information Interchange). ASCII-taulukko on jaettu kahteen osaan. Kansainvälinen standardi on vain taulukon ensimmäinen puolisko, ts. symbolit numeroilla alkaen 0 (00000000), enintään 127 (01111111). ASCII-koodaustaulukkorakenne
ASCII-taulukon ensimmäinen puoliskoKiinnitän huomionne siihen, että koodaustaulukossa kirjaimet (isot ja pienet) on järjestetty aakkosjärjestykseen ja numerot nousevaan arvojen järjestykseen. Tätä leksikografisen järjestyksen noudattamista merkkien järjestelyssä kutsutaan aakkosten peräkkäisen koodauksen periaatteeksi. Venäjän aakkosten kirjaimissa noudatetaan myös peräkkäisen koodauksen periaatetta. ASCII-taulukon toinen puoliskoValitettavasti tällä hetkellä on olemassa viisi erilaista kyrillistä koodausta (KOI8-R, Windows. MS-DOS, Macintosh ja ISO). Tästä johtuen venäjänkielisen tekstin siirtämisessä tietokoneelta toiselle, ohjelmistojärjestelmästä toiseen syntyy usein ongelmia. Kronologisesti yksi ensimmäisistä standardeista venäläisten kirjainten koodaamiseen tietokoneissa oli KOI8 ("Tiedonvaihtokoodi, 8-bittinen"). Tätä koodausta käytettiin jo 70-luvulla ES-tietokonesarjan tietokoneissa, ja 80-luvun puolivälistä lähtien sitä alettiin käyttää UNIX-käyttöjärjestelmän ensimmäisissä venäläistetyissä versioissa. 90-luvun alusta, MS DOS -käyttöjärjestelmän dominanssiajasta, CP866-koodaus säilyy ("CP" tarkoittaa "koodisivua"). Apple-tietokoneet, joissa on Mac OS, käyttävät omaa Mac-koodausta. Lisäksi Kansainvälinen standardointijärjestö (International Standards Organization, ISO) hyväksyi venäjän kielen standardiksi toisen koodauksen nimeltä ISO 8859-5. Tällä hetkellä yleisin koodaus on Microsoft Windows, lyhenne CP1251. 90-luvun lopulta lähtien merkkikoodauksen standardoinnin ongelma on ratkaistu ottamalla käyttöön uusi kansainvälinen standardi, ns. Unicode... Tämä on 16-bittinen koodaus eli se varaa 2 tavua muistia jokaiselle merkille. Tämä tietysti kaksinkertaistaa käytetyn muistin määrän. Mutta toisaalta, tällainen kooditaulukko sallii jopa 65536 merkin sisällyttämisen. Unicode-standardin täydellinen spesifikaatio sisältää kaikki maailman olemassa olevat, sukupuuttoon kuolleet ja keinotekoisesti luodut aakkoset sekä monet matemaattiset, musiikilliset, kemialliset ja muut symbolit. Yritetään käyttää ASCII-taulukkoa kuvitellaksesi, miltä sanat näyttävät tietokoneen muistissa.Sanojen sisäinen esitys tietokoneen muistissaJoskus käy niin, että venäläisten aakkosten kirjaimista koostuvaa tekstiä, joka on saatu toisesta tietokoneesta, ei voida lukea - näytön näytöllä näkyy jonkinlainen "sisarus". Tämä johtuu siitä, että tietokoneet käyttävät venäjän kielen merkkien erilaista koodausta.
Windowsin ASCII-merkkikooditaulukko. On huomattava, että alun perin ASCII-taulukon ohjausmerkkejä käytettiin tiedonsiirtoon teletypen kautta, tiedon syöttämiseen rei'itetyltä nauhalta ja ulkoisten laitteiden yksinkertaisimpaan ohjaukseen. |
Koodi | Kuvaus |
---|---|
NUL, 00 | Tyhjä, tyhjä |
SOH, 01 | Suunnan alku, suunnan alku |
STX, 02 | Tekstin alku, tekstin alku. |
ETX, 03 | Tekstin loppu, tekstin loppu |
EOT, 04 | Lähetyksen loppu, lähetyksen loppu |
ENQ, 05 | Tiedustella. Pyydän vahvistusta |
AK, 06 | Tunnustus. Vahvistan |
BEL, 07 | Kello, kello |
BS, 08 | Askelpalautin, palaa yksi merkki taaksepäin |
TAB, 09 | Välilehti, vaakasuora välilehti |
LF, 0A | Rivinsyöttö, rivinvaihto. Nyt useimmissa ohjelmointikielissä se on merkitty \ n |
VT, 0B | Pysty välilehti, pystysuora välilehti. |
FF, 0C | Lomakesyöttö, sivun syöttö, uusi sivu |
CR, 0D | Vaunun palautus Nyt useimmissa ohjelmointikielissä se on merkitty \ r |
Eli 0E | Shift Out, muuta tulostuslaitteen mustenauhan väriä |
SI, 0F | Shift In, palauta tulostuslaitteen mustenauhan väri takaisin |
DLE, 10 | Data Link Escape, vaihda kanava tiedonsiirtoon |
DC1, 11 DC2, 12 DC3, 13 DC4, 14 | Device Control, laiteohjaussymbolit |
NAK, 15 | Negatiivinen tunnustus, en tunnusta. |
SYN, 16 | Synkronointi. Synkronointisymboli |
ETB, 17 | Tekstilohkon loppu, tekstilohkon loppu |
CAN, 18 | Peruuta, aiemmin hyväksytyn peruutus |
EM, 19 | Tietovälineen loppu, tietovälineen loppu |
SUB, 1A | Korvaava Sijoitetaan sellaisen merkin tilalle, jonka arvo on kadonnut tai vioittunut lähetyksen aikana |
ESC, 1B | Escape Escape -sarja |
FS, 1C | Tiedostoerotin, tiedostoerotin |
GS, 1D | Ryhmäerotin, ryhmäerotin |
RS, 1E | Tietueen erotin, tietueen erotin |
USA, 1F | Yksikköerotin, yksikköerotin |
DEL, 7F | Poista, poista viimeinen merkki. |
Excel for Office 365 Word for Office 365 Outlook for Office 365 PowerPoint for Office 365 Publisher for Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 OneNote 2013 Publisher 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 Visio 2010 Access00 Access00 Access00 Access20o Access07o 2010 Excel 2007Power2070sO 20070 Outlook 20070 20070070 Visio Standard 2007 Visio Standard 2010 Pienempi
Tässä artikkelissa
Lisää asiakirjaan ASCII- tai Unicode-merkki
Jos sinun tarvitsee kirjoittaa vain muutama erikoismerkki tai symboli, voit käyttää kumpaa tahansa pikanäppäimiä. Luettelo ASCII-merkeistä on seuraavissa taulukoissa tai artikkelissa Kansallisten aakkosten lisääminen pikanäppäimillä.
Huomautuksia:
Lisää ASCII-merkkejä
Voit lisätä ASCII-merkin pitämällä ALT-näppäintä painettuna syöttäessäsi merkkikoodia. Jos haluat esimerkiksi lisätä astemerkin (º), pidä Alt-näppäintä painettuna ja kirjoita sitten numeronäppäimistöllä 0176.
Käytä numeronäppäimistöä numeroiden syöttämiseen päänäppäimistön numeroiden sijaan. Jos sinun on syötettävä numeroita numeronäppäimistöllä, varmista, että NUM LOCK-merkkivalo palaa.
Unicode-merkkien lisääminen
Jos haluat lisätä Unicode-merkin, kirjoita merkkikoodi ja paina sitten peräkkäin ALT ja X. Jos haluat esimerkiksi lisätä dollarimerkin ($), kirjoita 0024 ja paina peräkkäin ALT ja X. Katso kaikki Unicode-merkkikoodit.
Tärkeä: Jotkut Microsoft Office -ohjelmat, kuten PowerPoint ja InfoPath, eivät tue Unicode-koodien muuntamista merkeiksi. Jos sinun on lisättävä Unicode-merkki johonkin näistä ohjelmista, käytä.
Huomautuksia:
Jos näet väärän Unicode-merkin painettuasi ALT + X, valitse oikea koodi ja paina sitten ALT + X uudelleen.
Lisäksi ennen koodia on syötettävä "U +". Jos esimerkiksi syötät "1U + B5" ja painat Alt + X, teksti "1µ" tulee näkyviin, ja jos kirjoitat "1B5" ja painat Alt + X, merkki "Ƶ" tulee näkyviin.
Symbolitaulukon käyttö
Symbol Map on Microsoft Windowsiin sisäänrakennettu ohjelma, jonka avulla voit tarkastella valitun fontin käytettävissä olevia symboleja.
Symbolitaulukon avulla voit kopioida yksittäisiä symboleja tai symboliryhmän leikepöydälle ja liittää ne mihin tahansa ohjelmaan, joka voi näyttää kyseiset symbolit. Symbolitaulukon avaaminen
Windows 10:ssä Kirjoita sana "symboli" tehtäväpalkin hakukenttään ja valitse symbolitaulukko hakutuloksista.
Windows 8:ssa Kirjoita aloitusnäytölle sana "merkki" ja valitse merkkitaulukko hakutuloksista.
Windows 7:ssä painaa nappia alkaa, valitse peräkkäin Kaikki ohjelmat, Vakio, Palvelu ja napsauta symbolien taulukko.
Merkit on ryhmitelty fontin mukaan. Napsauta fonttiluetteloa valitaksesi sopiva merkistö. Valitse symboli napsauttamalla sitä ja sitten napsauttamalla Valitse... Lisää symboli napsauttamalla hiiren oikealla painikkeella haluamaasi kohtaa asiakirjassa ja valitsemalla Lisää.
Usein käytetyt symbolikoodit
Täydellinen merkkiluettelo on tietokoneesi, ASCII-merkkikooditaulukossa tai Unicode-merkistötaulukoissa.
Glyph |
Glyph |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Rahayksiköt |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Oikeudelliset symbolit |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Matemaattiset symbolit |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Murtoluvut |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Välimerkit ja murresymbolit |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Lomakkeiden symbolit |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Yleisesti käytetyt diakriittiset kooditKatso täydellinen luettelo kuvioista ja niihin liittyvistä koodeista.
|
Tietokone ymmärtää prosessin, jolla se muuttuu muotoon, joka mahdollistaa näiden tietojen helpomman siirron, tallennuksen tai automaattisen käsittelyn järjestämisen. Tätä tarkoitusta varten käytetään erilaisia taulukoita. ASCII-koodaus on ensimmäinen Yhdysvalloissa kehitetty englanninkielisen tekstin käsittelyyn tarkoitettu järjestelmä, josta tuli myöhemmin laajalle levinnyttä kaikkialla maailmassa. Alla oleva artikkeli on omistettu sen kuvaukselle, ominaisuuksille, ominaisuuksille ja jatkokäytölle.
Tietojen näyttäminen ja tallentaminen tietokoneeseen
Tietokoneen näytöllä tai yhdessä tai toisessa mobiilissa digitaalisessa vempaimessa olevat symbolit muodostetaan kaikenlaisten merkkien vektorimuotojen ja koodin perusteella, jonka avulla voit löytää niiden joukosta symbolin, joka on lisättävä oikeaan paikkaan. Se on sarja bittejä. Siten jokaisen merkin on yksilöllisesti vastattava joukkoa nollia ja ykkösiä, jotka ovat tietyssä, ainutlaatuisessa järjestyksessä.
Kuinka kaikki alkoi
Historiallisesti ensimmäiset tietokoneet olivat englanninkielisiä. Symbolisen tiedon koodaamiseen niihin riitti käyttää vain 7 bittiä muistia, kun taas tähän tarkoitukseen varattiin 1 tavu, joka koostui 8 bitistä. Tietokoneen ymmärtämien merkkien määrä oli tässä tapauksessa 128. Tällaisten merkkien määrä sisälsi englanninkieliset aakkoset välimerkeineen, numerot ja eräät erikoismerkit. Vuonna 1963 kehitetty englanninkielinen seitsemän bitin koodaus vastaavalla taulukolla (koodisivulla) sai nimekseen American Standard Code for Information Interchange. Yleensä lyhennettä "ASCII-koodaus" käytettiin osoittamaan, ja sitä käytetään edelleen tähän päivään asti.
Siirtyminen monikielisyyteen
Ajan myötä tietokoneita on käytetty laajalti myös muissa kuin englanninkielisissä maissa. Tässä suhteessa tarvittiin koodauksia, jotka mahdollistaisivat kansallisten kielten käytön. Päätettiin olla keksimättä pyörää uudelleen, vaan otettiin ASCII perustana. Uuden painoksen koodaustaulukko on laajentunut merkittävästi. 8. bitin käyttö mahdollisti 256 merkin kääntämisen tietokonekielelle.
Kuvaus
ASCII-koodauksessa on taulukko, joka on jaettu kahteen osaan. Vain ensimmäistä puoliskoa pidetään yleisesti hyväksyttynä kansainvälisenä standardina. Se sisältää:
- Merkit, joiden järjestysluvut ovat 0–31 ja jotka on koodattu sarjoilla 00000000–00011111. Ne on varattu ohjausmerkeille, jotka ohjaavat tekstin näyttämistä näytöllä tai tulostimella, äänimerkin antamista jne.
- Merkit, joiden NN on taulukossa 32-127 ja jotka on koodattu sarjoilla 00100000-01111111, muodostavat taulukon vakioosan. Näitä ovat välilyönti (N 32), latinalaisten aakkosten kirjaimet (pienet ja isot kirjaimet), kymmennumeroiset numerot 0-9, välimerkit, eri tyyliset hakasulkeet ja muut symbolit.
- Merkit, joiden järjestysnumerot ovat 128–255 ja jotka on koodattu sarjoilla 10000000–11111111. Näihin kuuluvat muiden kuin latinalaisten kansallisten aakkosten kirjaimet. Tässä taulukon vaihtoehtoisessa osassa ASCII-koodausta käytetään venäläisten merkkien muuntamiseen tietokonemuotoon.
Jotkut ominaisuudet
ASCII-koodauksen erityispiirteet sisältävät vain yhden bitin eron pienten ja isojen kirjainten "A" - "Z" välillä. Tämä seikka yksinkertaistaa huomattavasti rekisterin muuntamista sekä sen tarkistamista, kuuluuko se määritettyyn arvoalueeseen. Lisäksi kaikki ASCII-koodausjärjestelmän kirjaimet esitetään omilla järjestysnumeroillaan aakkosissa, jotka kirjoitetaan binäärijärjestelmässä 5-numeroisina, joita edeltää 011 2 pienten kirjainten osalta ja 010 2 isojen kirjainten osalta.
ASCII-koodauksen ominaisuuksien joukossa voidaan pitää 10 numeron esittämistä - "0" - "9". Toisessa numerojärjestelmässä ne alkavat 00112:lla ja päättyvät 2 numeroon. Esimerkiksi 0101 2 vastaa desimaalilukua viisi, joten merkki "5" kirjoitetaan muodossa 0011 01012. Tämän perusteella voit helposti muuntaa BCD-levyt ASCII-merkkijonoksi lisäämällä 00112 jokaiseen vasemmalla olevaan napaan.
"Unicode"
Kuten tiedät, Kaakkois-Aasian ryhmän kielillä olevien tekstien näyttämiseen tarvitaan tuhansia merkkejä. Tällaista määrää ei millään tavalla kuvata yhdessä tietotavussa, joten edes laajennetut ASCII-versiot eivät enää pystyneet tyydyttämään eri maiden käyttäjien kasvaneita tarpeita.
Niinpä syntyi tarve luoda universaali tekstikoodaus, jonka Unicode-konsortio kehitti yhteistyössä monien globaalin IT-alan johtajien kanssa. Sen asiantuntijat loivat UTF 32 -järjestelmän, jossa 32 bittiä oli varattu 1 merkin koodaamiseen, mikä muodostaa 4 tavua tietoa. Suurin haittapuoli oli tarvittavan muistin määrän jyrkkä kasvu jopa 4-kertaiseksi, mikä aiheutti monia ongelmia.
Samaan aikaan useimmissa maissa, joissa viralliset kielet kuuluvat indoeurooppalaiseen ryhmään, 2 32 merkkien määrä on enemmän kuin tarpeeton.
Unicode-konsortion asiantuntijoiden lisätyön tuloksena ilmestyi UTF-16-koodaus. Siitä tuli vaihtoehto symbolisen tiedon muuntamiseen, joka sopi kaikille sekä tarvittavan muistin että koodattujen merkkien määrän suhteen. Tästä syystä UTF-16 hyväksyttiin oletuksena ja se vaatii 2 tavua yhdelle merkille.
Jopa tällä melko edistyneellä ja onnistuneella "Unicode"-versiolla oli joitain haittoja, ja siirtymisen jälkeen laajennetusta ASCII-versiosta UTF-16:een asiakirjan paino kaksinkertaistui.
Tässä suhteessa päätettiin käyttää muuttuvapituista UTF-8-koodausta. Tässä tapauksessa jokainen lähdetekstin merkki on koodattu 1-6 tavun pituisella sekvenssillä.
Suhde amerikkalaisen tiedonvaihdon standardikoodiin
Kaikki muuttuvan pituiset UTF-8:n latinalaisten aakkosten merkit on koodattu 1 tavulla, kuten ASCII-koodausjärjestelmässä.
UTP-8:n erikoisuus on, että latinankielisessä tekstissä ilman muita merkkejä, jopa ohjelmat, jotka eivät ymmärrä "Unicodea", sallivat sen lukea. Toisin sanoen ASCII-tekstikoodauksen perusosa yksinkertaisesti yhdistetään uuteen muuttuvapituiseen UTF:ään. Kyrilliset merkit UTP-8:ssa vievät 2 tavua ja esimerkiksi Georgian merkit - 3 tavua. UTF-16:n ja 8:n luominen ratkaisi pääongelman yhden kooditilan luomisessa kirjasimissa. Siitä lähtien kirjasinten valmistajat ovat voineet täyttää taulukon vain vektorimuotoisilla tekstimerkkien muodoilla tarpeidensa mukaan.
Erilaisia koodauksia suositellaan eri käyttöjärjestelmissä. Jotta eri koodauksella kirjoitettuja tekstejä voidaan lukea ja muokata, käytetään venäläisiä tekstinmuunnosohjelmia. Jotkut tekstieditorit sisältävät sisäänrakennetut transkooderit, ja niiden avulla voit lukea tekstiä koodauksesta riippumatta.
Nyt tiedät kuinka monta merkkiä ASCII:ssa on ja miten ja miksi se kehitettiin. Tietenkin nykyään maailman yleisin standardi on "Unicode". Emme kuitenkaan saa unohtaa, että se luotiin ASCII:n pohjalta, joten sen kehittäjien panosta IT-alalle tulee arvostaa.