Kuinka monta merkkiä on ascii-kooditaulukossa. Tekstitietojen koodaus

Hei rakkaat blogisivuston lukijat. Tänään puhumme sinulle siitä, mistä krakozyabrit tulevat verkkosivustolla ja ohjelmissa, mitä tekstikoodauksia on olemassa ja mitä niitä tulisi käyttää. Katsotaanpa tarkemmin niiden kehityshistoriaa alkaen perus-ASCII:stä sekä sen laajennetuista versioista CP866, KOI8-R, Windows 1251 ja päättyen nykyaikaisiin Unicode-konsortiokoodauksiin UTF 16 ja 8.

Joillekin nämä tiedot saattavat tuntua tarpeettomilta, mutta tietäisitkö kuinka monta kysymystä saan erityisesti koskien indeksoivia krakozyabreja (lukematon merkkijoukko). Nyt minulla on mahdollisuus viitata kaikkiin tämän artikkelin tekstiin ja löytää omat virheeni. Valmistaudu ottamaan vastaan tietoa ja yritä seurata tarinan kulkua.

ASCII - latinalaisten aakkosten perustekstikoodaus

Tekstikoodausten kehitys tapahtui samanaikaisesti IT-alan muodostumisen kanssa, ja tänä aikana ne onnistuivat käymään läpi melko paljon muutoksia. Historiallisesti kaikki alkoi EBCDIC:stä, joka oli melko dissonantti venäjän ääntämisessä, mikä mahdollisti latinalaisten aakkosten kirjaimien, arabialaisten numeroiden ja välimerkkien koodauksen ohjausmerkeillä.

Mutta silti nykyaikaisten tekstikoodausten kehittämisen lähtökohtana on pidettävä kuuluisaa ASCII(American Standard Code for Information Interchange, joka venäjäksi lausutaan yleensä "aski"). Se kuvaa englanninkielisten käyttäjien yleisimmin käyttämiä 128 ensimmäistä merkkiä – latinalaisia kirjaimia, arabialaisia numeroita ja välimerkkejä.

Nämä ASCII:ssä kuvatut 128 merkkiä sisälsivät myös joitain palvelumerkkejä, kuten sulkumerkkejä, hash-merkkejä, tähtiä jne. Itse asiassa voit nähdä ne itse:

Juuri näistä 128 merkistä alkuperäisestä ASCII-versiosta on tullut standardi, ja mistä tahansa muusta koodauksesta löydät ne varmasti ja ne näkyvät tässä järjestyksessä.

Mutta tosiasia on, että yhdellä tiedolla ei voi koodata 128, vaan jopa 256 eri arvoa (kaksi kahdeksan potenssiin on 256), joten Asukan perusversion jälkeen koko sarja laajennettu ASCII-koodaus, johon 128 perusmerkin lisäksi oli mahdollista koodata myös kansallisen koodauksen symboleja (esim. venäjä).

Tässä on luultavasti syytä kertoa hieman enemmän kuvauksessa käytetyistä numerojärjestelmistä. Ensinnäkin, kuten kaikki tiedätte, tietokone toimii vain binäärijärjestelmän numeroiden kanssa, nimittäin nollien ja ykkösten kanssa ("Boolen algebra", jos joku otti sen instituutissa tai koulussa). , joista kukin on kaksi potenssiin, alkaen nollasta ja aina kahteen seitsemänteen:

Ei ole vaikea ymmärtää, että kaikki mahdolliset nollien ja ykkösten yhdistelmät tällaisessa mallissa voivat olla vain 256. Luvun muuntaminen binäärijärjestelmästä desimaalijärjestelmäksi on melko yksinkertaista. Sinun tarvitsee vain laskea yhteen kaikki kahden ja niiden yläpuolella olevien tehot.

Esimerkissämme tämä osoittautuu 1 (2 nollan potenssiin) plus 8 (kaksi 3:n potenssiin), plus 32 (kaksi viidenteen potenssiin), plus 64 (kuudenteen potenssiin) plus 128 (seitsemänteen potenssiin). Kokonaisluku on 233 desimaalimuodossa. Kuten näet, kaikki on hyvin yksinkertaista.

Mutta jos katsot tarkasti taulukkoa, jossa on ASCII-merkkejä, huomaat, että ne esitetään heksadesimaalikoodauksella. Esimerkiksi "tähti" vastaa Askin heksadesimaalilukua 2A. Tiedät varmaan, että heksadesimaalilukujärjestelmässä käytetään arabialaisten numeroiden lisäksi myös latinalaisia kirjaimia A:sta (tarkoittaa kymmentä) F:ään (tarkoittaa viisitoista).

No sitten, varten binääriluvun muuntaminen heksadesimaaliksi turvautua seuraavaan yksinkertaiseen ja ilmeiseen menetelmään. Jokainen tietotavu on jaettu kahteen neljän bitin osaan, kuten yllä olevassa kuvakaappauksessa näkyy. Että. Kussakin puolitavussa vain kuusitoista arvoa (kahdesta neljänteen potenssiin) voidaan koodata binäärimuodossa, joka voidaan helposti esittää heksadesimaalilukuna.

Lisäksi tavun vasemmalla puoliskolla asteet on laskettava uudelleen nollasta alkaen, ei kuten kuvakaappauksessa. Tämän seurauksena yksinkertaisten laskelmien avulla saamme, että numero E9 on koodattu kuvakaappaukseen. Toivon, että päättelyni kulku ja tämän palapelin ratkaisu olivat sinulle selvät. No, jatketaan nyt itse asiassa puhumista tekstin koodauksista.

Asuka-CP866- ja KOI8-R-koodausten laajennetut versiot pseudografialla

Joten aloimme puhua ASCII:sta, joka oli ikään kuin lähtökohta kaikkien nykyaikaisten koodausten (Windows 1251, Unicode, UTF 8) kehittämiselle.

Alun perin se sisälsi vain 128 merkkiä latinalaisista aakkosista, arabialaisia numeroita ja jotain muuta, mutta laajennetussa versiossa tuli mahdolliseksi käyttää kaikkia 256 arvoa, jotka voidaan koodata yhteen tietotavuun. Nuo. Tuli mahdolliseksi lisätä kielesi kirjaimia Askiin.

Tässä meidän täytyy poiketa uudelleen selittääksemme - miksi ylipäänsä tarvitsemme koodauksia? tekstejä ja miksi se on niin tärkeää. Tietokoneesi näytöllä näkyvät merkit muodostuvat kahdesta asiasta - eri merkkien vektorimuotojen (esitykset) joukosta (ne sijaitsevat tiedostoissa, joissa on ) ja koodin, jonka avulla voit vetää ulos tästä vektorimuotojoukosta (fonttitiedosto) ) täsmälleen se merkki, joka on lisättävä oikeaan paikkaan.

On selvää, että fontit itse ovat vastuussa vektorin muodoista, mutta käyttöjärjestelmä ja siinä käytetyt ohjelmat vastaavat koodauksesta. Nuo. mikä tahansa tietokoneellasi oleva teksti on joukko tavuja, joista jokainen koodaa tämän tekstin yhden merkin.

Ohjelma, joka näyttää tämän tekstin näytöllä (tekstieditori, selain jne.), lukee koodia jäsennettäessä seuraavan merkin koodauksen ja etsii vastaavan vektorimuodon vaaditusta fonttitiedostosta, joka on yhdistetty tämän näyttämiseen. tekstiasiakirja. Kaikki on yksinkertaista ja banaalia.

Tämä tarkoittaa, että jotta voimme koodata minkä tahansa tarvitsemamme merkin (esimerkiksi kansallisesta aakkosesta), kahden ehdon on täytyttävä - tämän merkin vektorimuodon on oltava käytetyssä fontissa ja tämä merkki voidaan koodata laajennetuilla ASCII-koodauksilla yksi tavu. Siksi tällaisia vaihtoehtoja on koko joukko. Vain venäjän kielen merkkien koodaamiseen on olemassa useita laajennettuja Aska-lajikkeita.

Esimerkiksi alun perin ilmestynyt CP866, jossa oli mahdollisuus käyttää venäjän aakkosten merkkejä ja joka oli ASCII:n laajennettu versio.

Nuo. sen yläosa osui täysin yhteen Askan perusversion kanssa (128 latinalaista merkkiä, numeroita ja muuta paskaa), joka on esitetty kuvakaappauksessa juuri yllä, mutta taulukon alaosa CP866-koodauksella oli samanlainen kuin kuvakaappauksessa juuri alla. ja antoi sinun koodata vielä 128 merkkiä (venäläisiä kirjaimia ja kaikenlaista pseudografiaa):

Oikeassa sarakkeessa numerot alkavat 8:lla, koska... numerot 0-7 viittaavat ASCII:n perusosaan (katso ensimmäinen kuvakaappaus). Että. Venäläisellä kirjaimella "M" CP866:ssa on koodi 9C (se sijaitsee vastaavan rivin 9:n ja sarakkeen, jossa on numero C, leikkauskohdassa heksadesimaalilukujärjestelmässä), joka voidaan kirjoittaa yhteen tietotavuun, ja jos on sopiva fontti venäläisillä merkeillä, tämä kirjain näkyy tekstissä ilman ongelmia.

Mistä tämä summa tuli? pseudografia CP866:ssa? Koko asia on, että tämä venäjänkielisen tekstin koodaus kehitettiin niinä takkuisina vuosina, jolloin graafiset käyttöjärjestelmät eivät olleet niin yleisiä kuin nyt. Ja Dosassa ja vastaavissa tekstikäyttöjärjestelmissä pseudografia mahdollisti tekstien suunnittelun ainakin jotenkin monipuolistamisen, ja siksi CP866 ja kaikki muut Asukan laajennettujen versioiden kategoriassa olevat vertaiset ovat siinä runsaasti.

CP866:n jakeli IBM, mutta tämän lisäksi venäjän kielen merkeille kehitettiin useita koodauksia, esimerkiksi sama tyyppi (laajennettu ASCII) voidaan liittää KOI8-R:

Sen toimintaperiaate pysyy samana kuin vähän aiemmin kuvatun CP866:n - jokainen tekstin merkki on koodattu yhdellä tavulla. Kuvakaappaus näyttää KOI8-R-taulukon toisen puoliskon, koska ensimmäinen puolisko on täysin yhdenmukainen perus Asukan kanssa, joka näkyy tämän artikkelin ensimmäisessä kuvakaappauksessa.

KOI8-R-koodauksen ominaisuuksista voidaan todeta, että sen taulukon venäläiset kirjaimet eivät ole aakkosjärjestyksessä, kuten he tekivät sen esimerkiksi CP866:ssa.

Jos katsot aivan ensimmäistä kuvakaappausta (perusosasta, joka sisältyy kaikkiin laajennettuihin koodauksiin), huomaat, että KOI8-R:ssä venäläiset kirjaimet sijaitsevat samoissa taulukon soluissa kuin latinalaisten aakkosten vastaavat kirjaimet. taulukon ensimmäisestä osasta. Tämä tehtiin venäläisistä latinalaisiin kirjaimiin siirtymisen helpottamiseksi hylkäämällä vain yksi bitti (kaksi seitsemänteen potenssiin tai 128).

Windows 1251 - ASCII:n moderni versio ja miksi halkeamia tulee esiin

Tekstikoodausten jatkokehitys johtui siitä, että graafiset käyttöjärjestelmät yleistyivät ja tarve käyttää niissä pseudografiaa hävisi ajan myötä. Tuloksena syntyi kokonainen ryhmä, jotka pohjimmiltaan olivat edelleen Asukan laajennettuja versioita (yksi tekstin merkki on koodattu vain yhdellä tietotavulla), mutta ilman pseudografisten symbolien käyttöä.

Ne kuuluivat niin sanottuihin ANSI-koodauksiin, jotka American Standards Institute on kehittänyt. Yleisessä kielenkäytössä nimeä kyrillinen käytettiin myös venäjän kielen tuella varustetusta versiosta. Esimerkki tästä olisi.

Se erosi suotuisasti aiemmin käytetyistä CP866:sta ja KOI8-R:stä siinä, että pseudografisten symbolien paikan ottivat venäläisen typografian puuttuvat symbolit (paitsi aksenttimerkkiä) sekä slaavilaisten kielten lähellä käytetyt symbolit. venäjä (ukraina, valkovenäläinen jne.):

Venäjän kielen koodausten runsauden vuoksi kirjasinvalmistajilla ja ohjelmistovalmistajilla oli jatkuvasti päänsärkyä, ja te ja minä, hyvät lukijat, saimme usein nämä samat pahamaineiset. krakozyabry kun oli sekaannusta tekstissä käytetyn version kanssa.

Hyvin usein ne ilmestyivät lähetettäessä ja vastaanotettaessa viestejä sähköpostitse, mikä johti erittäin monimutkaisten muunnostaulukoiden luomiseen, mikä itse asiassa ei voinut ratkaista tätä ongelmaa perusteellisesti, ja käyttäjät käyttivät usein kirjeenvaihtoa välttääkseen pahamaineisia temppuja Venäläiset koodaukset, kuten CP866, KOI8-R tai Windows 1251.

Itse asiassa venäjänkielisen tekstin sijaan ilmestyneet halkeamat johtuivat tämän kielen koodauksen virheellisestä käytöstä, joka ei vastannut sitä, johon tekstiviesti alun perin koodattiin.

Oletetaan, että jos yrität näyttää CP866:lla koodattuja merkkejä Windows 1251 -kooditaulukon avulla, nämä samat hölynpölyt (merkityksellinen merkkijoukko) tulevat esiin ja korvaavat viestin tekstin kokonaan.

Samankaltainen tilanne syntyy hyvin usein foorumeilla tai blogeissa, kun venäläisiä merkkejä sisältävä teksti tallennetaan vahingossa väärään koodaukseen, jota sivustolla käytetään oletuksena, tai väärään tekstieditoriin, mikä lisää koodiin gagit, jotka eivät näy paljaalla silmällä.

Lopulta monet ihmiset kyllästyivät tähän tilanteeseen, jossa oli paljon koodauksia ja jatkuvasti hiipivää paskaa, ja edellytykset syntyi uuden universaalin muunnelman luomiselle, joka korvaisi kaikki olemassa olevat ja ratkaisee lopulta ongelman ulkonäön kanssa. lukemattomista teksteistä. Lisäksi ongelmana oli kieli, kuten kiina, jossa oli paljon enemmän kielimerkkejä kuin 256.

Unicode - yleiset koodaukset UTF 8, 16 ja 32

Näitä tuhansia Kaakkois-Aasian kieliryhmän merkkejä ei mitenkään voitu kuvata yhdessä tietotavussa, joka oli varattu ASCII:n laajennettujen versioiden merkkien koodaukseen. Tuloksena syntyi konsortio ns Unicode(Unicode - Unicode Consortium) yhteistyössä monien IT-alan johtajien kanssa (ne, jotka tuottavat ohjelmistoja, jotka koodaavat laitteistoja, jotka luovat fontteja), jotka olivat kiinnostuneita universaalin tekstikoodauksen syntymisestä.

Ensimmäinen Unicode Consortiumin alaisuudessa julkaistu muunnelma oli UTF 32. Koodauksen nimessä oleva numero tarkoittaa bittien määrää, joita käytetään yhden merkin koodaamiseen. 32 bittiä vastaa 4 tavua tietoa, jotka tarvitaan yhden merkin koodaamiseen uudessa yleismaailmallisessa UTF-koodauksessa.

Tämän seurauksena sama tiedosto, jonka teksti on koodattu ASCII:n laajennetussa versiossa ja jälkimmäisessä tapauksessa UTF-32:ssa, on kooltaan (painoltaan) neljä kertaa suurempi. Tämä on huonoa, mutta nyt meillä on mahdollisuus koodata YTF:llä merkkimäärä, joka on kaksi 30 sekunnin potenssiin ( miljardeja hahmoja, joka kattaa kaiken todella tarpeellisen arvon valtavalla marginaalilla).

Mutta monien maiden, joissa on eurooppalaisen ryhmän kieliä, ei tarvinnut käyttää niin suurta määrää merkkejä koodauksessa ollenkaan, mutta UTF-32:ta käytettäessä ne saivat ilman syytä nelinkertaiseksi tekstiasiakirjojen painon, ja sen seurauksena Internet-liikenteen ja tallennetun datan määrän kasvu. Tämä on paljon, eikä kenelläkään olisi varaa sellaiseen tuhlaukseen.

Unicoden kehityksen seurauksena UTF-16, joka osoittautui niin onnistuneeksi, että se otettiin oletuksena kaikkien käyttämiemme merkkien perustilaksi. Se käyttää kahta tavua yhden merkin koodaamiseen. Katsotaan miltä tämä asia näyttää.

Windows-käyttöjärjestelmässä voit seurata polkua "Käynnistä" - "Ohjelmat" - "Lisävarusteet" - "Järjestelmätyökalut" - "Merkkitaulukko". Tämän seurauksena avautuu taulukko, jossa on kaikkien järjestelmääsi asennettujen fonttien vektorimuodot. Jos valitset Unicode-merkkijoukon "Lisäasetuksissa", näet jokaisen kirjasimen erikseen koko sen sisältämän merkkivalikoiman.

Muuten, napsauttamalla mitä tahansa niistä, näet sen kaksitavun koodi UTF-16-muodossa, joka koostuu neljästä heksadesimaalinumerosta:

Kuinka monta merkkiä voidaan koodata UTF-16:ssa käyttämällä 16 bittiä? 65 536 (kaksi kuudentoista potenssilla), ja tämä luku otettiin Unicoden perusavaruudeksi. Lisäksi on olemassa tapoja koodata noin kaksi miljoonaa merkkiä sen avulla, mutta ne rajoittuivat miljoonan merkin laajennettuun tekstitilaan.

Mutta edes tämä Unicode-koodauksen onnistunut versio ei tuonut paljon tyydytystä niille, jotka kirjoittivat esimerkiksi ohjelmia vain englanniksi, koska heille ASCII:n laajennetusta versiosta UTF-16:een siirtymisen jälkeen asiakirjojen paino kaksinkertaistui ( yksi tavu merkkiä kohden Askissa ja kaksi tavua samalle merkille YUTF-16:ssa).

Se oli nimenomaan tyydyttää kaikkia ja kaikkea Unicode-konsortiossa, jota päätettiin keksiä vaihtuvapituinen koodaus. Sen nimi oli UTF-8. Huolimatta nimensä kahdeksasta, sillä on itse asiassa muuttuva pituus, ts. Jokainen tekstin merkki voidaan koodata yhdestä kuuteen tavun pituiseksi sekvenssiksi.

Käytännössä UTF-8 käyttää vain aluetta yhdestä neljään tavua, koska neljän tavun koodia pidemmälle ei ole enää edes teoriassa mahdollista kuvitella mitään. Kaikki siinä olevat latinalaiset merkit on koodattu yhdeksi tavuksi, aivan kuten vanhassa hyvässä ASCII:ssa.

Huomionarvoista on, että jos koodataan vain latinalaisia aakkosia, jopa ne ohjelmat, jotka eivät ymmärrä Unicodea, lukevat silti sen, mikä on koodattu YTF-8:ssa. Nuo. Asukan ydinosa siirrettiin yksinkertaisesti tähän Unicode-konsortion luomiseen.

UTF-8:n kyrilliset merkit on koodattu kahdella tavulla, ja esimerkiksi Georgian merkit on koodattu kolmella tavulla. Unicode-konsortio ratkaisi UTF 16:n ja 8:n luomisen jälkeen pääongelman - nyt meillä on fonteilla on yksi kooditila. Ja nyt niiden valmistajat voivat täyttää sen vain tekstimerkkien vektorimuodoilla vahvuuksiensa ja kykyjensä perusteella. Nyt niitä tulee jopa sarjoina.

Yllä olevasta "Merkkitaulukosta" näet, että eri fontit tukevat erilaista merkkimäärää. Jotkut Unicode-rikkaat fontit voivat olla melko raskaita. Mutta nyt ne eivät eroa siinä, että ne on luotu eri koodauksille, vaan siinä, että kirjasinten valmistaja on täyttänyt tai ei ole täyttänyt kokonaan yksittäistä koodiavaruutta tietyillä vektorimuodoilla.

Hulluja sanoja venäläisten kirjainten sijaan - kuinka korjata se

Katsotaan nyt, kuinka krakozyabrit näkyvät tekstin sijasta tai toisin sanoen, kuinka venäjän tekstin oikea koodaus valitaan. Itse asiassa se asetetaan ohjelmassa, jossa luot tai muokkaat juuri tätä tekstiä tai koodia käyttämällä tekstinpätkiä.

Tekstitiedostojen muokkaamiseen ja luomiseen käytän henkilökohtaisesti mielestäni erittäin hyvää . Se voi kuitenkin korostaa satojen muiden ohjelmointi- ja merkintäkielten syntaksia, ja sitä voidaan myös laajentaa lisäosien avulla. Lue yksityiskohtainen katsaus tästä upeasta ohjelmasta oheisesta linkistä.

Notepad++:n ylävalikossa on kohta "Koodaukset", jossa sinulla on mahdollisuus muuntaa olemassa oleva vaihtoehto sivustollasi oletusarvoisesti käytetyksi:

Jos sivustolla on Joomla 1.5 tai uudempi versio tai WordPress-blogi, sinun tulee valita vaihtoehto halkeamien välttämiseksi UTF 8 ilman tuoteluetteloa. Mikä on BOM-etuliite?

Tosiasia on, että kun he kehittivät YUTF-16-koodausta, he jostain syystä päättivät liittää siihen sellaisen asian kuin kyvyn kirjoittaa merkkikoodi sekä suorassa järjestyksessä (esimerkiksi 0A15) että käänteisessä järjestyksessä (150A). . Ja jotta ohjelmat ymmärtäisivät tarkalleen, missä järjestyksessä koodit luetaan, se keksittiin BOM(Byte Order Mark eli toisin sanoen allekirjoitus), joka ilmaistiin kolmen lisätavun lisäämisellä aivan asiakirjojen alkuun.

UTF-8-koodauksessa Unicode-konsortiossa ei ollut BOM-tiedostoja, ja siksi allekirjoituksen lisääminen (nämä pahamaineinen ylimääräinen kolme tavua asiakirjan alussa) yksinkertaisesti estää joitakin ohjelmia lukemasta koodia. Siksi, kun tallennat tiedostoja UTF-muodossa, meidän on aina valittava vaihtoehto ilman BOM:ia (ilman allekirjoitusta). Olet siis etukäteen suojautua ryömimiseltä krakozyabrs.

Huomionarvoista on, että jotkin Windowsin ohjelmat eivät voi tehdä tätä (ne eivät voi tallentaa UTF-8-tekstiä ilman tuoteluetteloa), esimerkiksi sama pahamaineinen Windows-muistio. Se tallentaa asiakirjan UTF-8-muodossa, mutta lisää silti allekirjoituksen (kolme ylimääräistä tavua) sen alkuun. Lisäksi nämä tavut ovat aina samat - lue koodi suorassa järjestyksessä. Mutta palvelimilla tämän pienen asian takia voi syntyä ongelma - roistot tulevat ulos.

Ei siis missään olosuhteissa Älä käytä tavallista Windowsin muistilehteä muokataksesi asiakirjoja sivustollasi, jos et halua, että halkeamia tulee näkyviin. Parhaana ja yksinkertaisimpana vaihtoehtona pidän jo mainittua Notepad++-editoria, jolla ei käytännössä ole haittoja ja joka koostuu vain eduista.

Kun valitset koodauksen Notepad++:ssa, sinulla on mahdollisuus muuntaa teksti UCS-2-koodaukseksi, joka on luonteeltaan hyvin lähellä Unicode-standardia. Myös Notepadissa on mahdollista koodata tekstiä ANSI:lla, ts. venäjän kielen osalta tämä on Windows 1251, jonka olemme jo kuvanneet edellä. Mistä tämä tieto tulee?

Se on rekisteröity Windows-käyttöjärjestelmäsi rekisteriin - mikä koodaus valitaan ANSI: n tapauksessa, mikä valitaan OEM: n tapauksessa (venäjän kielellä se on CP866). Jos asetat tietokoneellesi toisen oletuskielen, nämä koodaukset korvataan samankaltaisilla ANSI- tai OEM-luokasta samalle kielelle.

Kun olet tallentanut asiakirjan Notepad++ -sovellukseen tarvitsemallasi koodauksella tai avannut asiakirjan sivustolta muokkausta varten, näet sen nimen editorin oikeassa alakulmassa:

Välttääksesi punoitusta Yllä kuvattujen toimien lisäksi on hyödyllistä kirjoittaa tiedot tästä koodauksesta sivuston kaikkien sivujen lähdekoodin otsikkoon, jotta palvelimessa tai paikallisessa isännässä ei aiheudu sekaannuksia.

Yleensä kaikki hypertekstimerkintäkielet paitsi HTML käyttävät erityistä xml-ilmoitusta, joka määrittää tekstin koodauksen.

Ennen koodin jäsentämistä selain tietää, mikä versio on käytössä ja kuinka tarkalleen sen tarvitsee tulkita kyseisen kielen merkkikoodeja. Mutta huomionarvoista on se, että jos tallennat asiakirjan oletusarvoiseen Unicode-muotoon, tämä xml-ilmoitus voidaan jättää pois (koodausta pidetään UTF-8:na, jos tuoteluetteloa ei ole, tai UTF-16:na, jos tuoteluetteloa on).

Kun kyseessä on HTML-kielidokumentti, koodausta käytetään osoittamaan Meta elementti, joka on kirjoitettu avaavan ja sulkevan Head-tunnisteen väliin:

... ...

Tämä merkintä on melko erilainen kuin vuonna hyväksytty, mutta on täysin yhteensopiva uuden Html 5 -standardin kanssa, joka otetaan käyttöön hitaasti, ja kaikki tällä hetkellä käytetyt selaimet ymmärtävät sen täysin oikein.

Teoriassa olisi parempi sijoittaa Meta-elementti, joka ilmaisee HTML-dokumentin koodauksen mahdollisimman korkealle asiakirjan otsikossa niin, että kun tekstissä kohtaa ensimmäisen merkin, joka ei ole peräisin perus-ANSI:sta (jotka luetaan aina oikein ja missä tahansa muunnelmassa), selaimella pitäisi jo olla tietoa näiden merkkien koodien tulkitsemisesta.

Onnea sinulle! Nähdään pian blogisivuston sivuilla

Voit katsoa lisää videoita siirtymällä osoitteeseen

");">

Saatat olla kiinnostunut

Mitä ovat URL-osoitteet, miten sivuston absoluuttiset ja suhteelliset linkit eroavat toisistaan?
OpenServer - moderni paikallinen palvelin ja esimerkki kuinka käyttää sitä WordPressin asentamiseen tietokoneelle
Mikä on Chmod, mitä oikeuksia tiedostoille ja kansioihin (777, 755, 666) voi antaa ja miten se tehdään PHP:n kautta
Yandex-haku sivuston ja verkkokaupan mukaan

Jotta ASCII:ta voisi käyttää oikein, on tarpeen laajentaa tietämystäsi tällä alueella ja koodausominaisuuksista.

Mikä se on?

ASCII on koodaustaulukko painetuista merkeistä (katso kuvakaappaus nro 1), jotka on kirjoitettu tietokoneen näppäimistöllä tiedon ja joidenkin koodien välittämiseksi. Toisin sanoen aakkoset ja desimaaliluvut on koodattu vastaaviksi symboleiksi, jotka edustavat ja kuljettavat tarvittavaa tietoa.

ASCII on kehitetty Amerikassa, joten vakiomerkkisarja sisältää yleensä englanninkieliset aakkoset numeroineen, yhteensä noin 128 merkkiä. Mutta sitten herää oikeudenmukainen kysymys: mitä tehdä, jos vaaditaan kansallisten aakkosten koodaus?

Muita ASCII-taulukon versioita on kehitetty vastaavien ongelmien ratkaisemiseksi. Esimerkiksi kielille, joilla on vieras rakenne, englannin aakkosten kirjaimet joko poistettiin tai niihin lisättiin lisämerkkejä kansallisten aakkosten muodossa. Siten ASCII-koodaus voi sisältää venäläisiä kirjaimia kansalliseen käyttöön (katso kuvakaappaus nro 2).

Missä ASCII-koodausjärjestelmää käytetään?

Tätä koodausjärjestelmää tarvitaan paitsi tekstitietojen kirjoittamiseen näppäimistöllä. Sitä käytetään myös grafiikassa. Esimerkiksi ASCII Art Maker -ohjelmassa eri laajennusten graafiset kuvat koostuvat ASCII-merkistä (katso kuvakaappaus nro 3).

Yleensä tällaiset ohjelmat voidaan jakaa sellaisiin, jotka suorittavat graafisten muokkausohjelmien toiminnon, kääntävät kuvan tekstiksi, ja niihin, jotka muuntavat kuvan ASCII-grafiikaksi. Tunnettu hymiö (tai kuten sitä kutsutaan myös " hymyilevät ihmisen kasvot") on myös esimerkki koodausmerkistä.

Tätä koodausmenetelmää voidaan käyttää myös kirjoitettaessa tai luotaessa HTML-dokumenttia. Syötät esimerkiksi tietyn ja tarpeellisen merkkisarjan, ja kun tarkastelet itse sivua, tätä koodia vastaava symboli näkyy näytöllä.

Muun muassa tämän tyyppinen koodaus on tarpeen monikielistä verkkosivustoa luotaessa, koska merkit, jotka eivät sisälly yhteen tai toiseen kansalliseen taulukkoon, on korvattava ASCII-koodeilla. Jos lukija on suoraan yhteydessä tieto- ja viestintätekniikoihin (ICT), hänen on hyödyllistä tutustua sellaisiin järjestelmiin kuin:

Kannettava merkistö;
Ohjausmerkit;
EBCDIC;
VISCII;
YUSCII;
Unicode;
ASCII-taide;
KOI-8.

ASCII-taulukon ominaisuudet

Kuten kaikilla systemaattisilla ohjelmilla, ASCII:lla on omat ominaispiirteensä. Joten esimerkiksi desimaalilukujärjestelmä (numerot 0 - 9) muunnetaan binäärilukujärjestelmäksi (ts. jokainen desimaaliluku muunnetaan binääriluvuksi 288 = 1001000).

Ylä- ja alasarakkeessa olevat kirjaimet eroavat toisistaan vain vähän, mikä vähentää merkittävästi tapauksen tarkistamisen ja muokkaamisen monimutkaisuutta.

Kaikilla näillä ominaisuuksilla ASCII-koodaus toimii kahdeksanbittisenä, vaikka se oli alun perin tarkoitettu seitsemänbittiseksi.

ASCII:n käyttö Microsoft Office -ohjelmissa:

Tarvittaessa tätä tietojen koodausvaihtoehtoa voidaan käyttää Microsoft Notepadissa ja Microsoft Office Wordissa. Näissä sovelluksissa asiakirja voidaan tallentaa ASCII-muodossa, mutta tässä tapauksessa et voi käyttää kaikkia toimintoja tekstiä kirjoitettaessa.

Erityisesti lihavointi ja lihavointi eivät ole käytettävissä, koska koodaus säilyttää vain kirjoitetun tiedon merkityksen, ei yleistä ulkoasua ja muotoa. Voit lisätä tällaisia koodeja asiakirjaan käyttämällä seuraavia ohjelmistosovelluksia:

Microsoft Excel;
Microsoft FrontPage;
Microsoft InfoPath;
Microsoft OneNote;
Microsoft Outlook;
Microsoft PowerPoint;
Microsoft Project.

On syytä harkita, että kun kirjoitat ASCII-koodia näissä sovelluksissa, sinun on pidettävä ALT-näppäintä painettuna.

Tietenkin kaikki tarvittavat koodit vaativat pidemmän ja yksityiskohtaisemman tutkimuksen, mutta tämä ei kuulu tämän päivän artikkelimme soveltamisalaan. Toivottavasti pidit siitä todella hyödyllisenä.

Nähdään taas!

Hyvä huono

Tietokone ymmärtää prosessin, jolla se muunnetaan muotoon, joka mahdollistaa näiden tietojen helpomman siirron, tallennuksen tai automaattisen käsittelyn. Tähän tarkoitukseen käytetään erilaisia taulukoita. ASCII oli ensimmäinen Yhdysvalloissa kehitetty järjestelmä englanninkielisen tekstin käsittelyyn, ja siitä tuli myöhemmin laajalle levinnyt kaikkialla maailmassa. Alla oleva artikkeli on omistettu sen kuvaukselle, ominaisuuksille, ominaisuuksille ja jatkokäytölle.

Tietojen näyttäminen ja tallentaminen tietokoneeseen

Tietokoneen näytöllä tai yhdessä tai toisessa mobiilissa digitaalisessa vempaimessa olevat symbolit muodostetaan erilaisten merkkien vektorimuotojen ja koodin perusteella, jonka avulla voit löytää niiden joukosta symbolin, joka on lisättävä oikeaan paikkaan. Se edustaa bittisarjaa. Siten jokaisen merkin on yksilöllisesti vastattava joukkoa nollia ja ykkösiä, jotka esiintyvät tietyssä, ainutlaatuisessa järjestyksessä.

Kuinka kaikki alkoi

Historiallisesti ensimmäiset tietokoneet olivat englanninkielisiä. Symbolisen tiedon koodaamiseen niihin riitti käyttää vain 7 bittiä muistia, kun taas tähän tarkoitukseen oli varattu 1 tavu, joka koostui 8 bitistä. Tietokoneen ymmärtämä merkkimäärä oli tässä tapauksessa 128. Näitä merkkejä olivat englanninkieliset aakkoset välimerkeineen, numerot ja eräät erikoismerkit. Vuonna 1963 kehitetty englanninkielinen seitsemän bitin koodaus vastaavalla taulukolla (koodisivulla) kutsuttiin American Standard Code for Information Interchangeksi. Yleensä lyhenne "ASCII-koodaus" käytettiin ja käytetään edelleen osoittamaan sitä.

Siirtyminen monikielisyyteen

Ajan myötä tietokoneita käytettiin laajalti muissa kuin englanninkielisissä maissa. Tässä suhteessa tarvittiin koodauksia, jotka mahdollistavat kansallisten kielten käytön. Päätettiin olla keksimättä pyörää uudelleen ja ottaa ASCII perustana. Uuden painoksen koodaustaulukko on laajentunut merkittävästi. 8. bitin käyttö mahdollisti 256 merkin kääntämisen tietokonekielelle.

Kuvaus

ASCII-koodauksessa on taulukko, joka on jaettu kahteen osaan. Vain sen ensimmäistä puoliskoa pidetään yleisesti hyväksyttynä kansainvälisenä standardina. Se sisältää:

Merkkejä, joiden sarjanumerot ovat 0–31 ja jotka on koodattu sarjoiksi 00000000–00011111. Ne on varattu ohjausmerkeille, jotka ohjaavat tekstin näyttämistä näytöllä tai tulostimella, äänimerkin antamista jne.
Merkit, joiden NN on taulukossa 32-127 ja jotka on koodattu sarjoilla 00100000-01111111, muodostavat taulukon vakioosan. Näitä ovat välilyönti (N 32), latinalaisten aakkosten kirjaimet (pienet ja isot kirjaimet), kymmennumeroiset numerot 0-9, välimerkit, eri tyyliset hakasulut ja muut symbolit.
Merkit, joiden sarjanumerot ovat 128–255 ja jotka on koodattu sarjoilla 10000000–11111111. Näihin kuuluvat muiden kuin latinalaisten kansallisten aakkosten kirjaimet. Tätä ASCII-taulukon vaihtoehtoista osaa käytetään venäläisten merkkien muuntamiseen tietokonemuotoon.

Jotkut ominaisuudet

ASCII-koodauksen ominaisuudet sisältävät vain yhden bitin eron pienten ja isojen kirjainten "A" - "Z" välillä. Tämä seikka yksinkertaistaa huomattavasti rekisterin muuntamista sekä sen tarkistamista, kuuluuko se tiettyyn arvoalueeseen. Lisäksi kaikkia ASCII-koodausjärjestelmän kirjaimia edustavat omat järjestysnumerot aakkosissa, jotka kirjoitetaan binäärinumerojärjestelmässä 5 numerolla, joita edeltää 011 2 pienille kirjaimille ja 010 2 isoille kirjaimille.

Yksi ASCII-koodauksen ominaisuuksista on 10 numeron esitys "0" - "9". Toisessa numerojärjestelmässä ne alkavat 00112:lla ja päättyvät 2 numeroarvoon. Siten 0101 2 vastaa desimaalilukua viisi, joten merkki "5" kirjoitetaan muodossa 0011 01012. Edellä olevan perusteella voit helposti muuntaa BCD-numerot ASCII-merkkijonoksi lisäämällä bittisekvenssin 00112 jokaiseen näppäimeen vasemmalle.

"Unicode"

Kuten tiedät, Kaakkois-Aasian ryhmän kielillä olevien tekstien näyttämiseen tarvitaan tuhansia merkkejä. Tällaista määrää niistä ei voida kuvata millään tavalla yhdessä tietotavussa, joten edes laajennetut ASCII-versiot eivät enää pystyneet tyydyttämään eri maiden käyttäjien lisääntyneitä tarpeita.

Niinpä syntyi tarve luoda universaali tekstikoodaus, jonka kehittämiseen yhteistyössä monien globaalin IT-alan johtajien kanssa ryhtyi Unicode-konsortio. Sen asiantuntijat loivat UTF 32 -järjestelmän. Siinä oli varattu 32 bittiä 1 merkin koodaamiseen, mikä muodosti 4 tavua tietoa. Suurin haittapuoli oli tarvittavan muistin määrän jyrkkä kasvu jopa 4-kertaiseksi, mikä aiheutti monia ongelmia.

Samaan aikaan useimmissa maissa, joissa viralliset kielet kuuluvat indoeurooppalaiseen ryhmään, 2 32 merkkien määrä on enemmän kuin liiallinen.

Unicode-konsortion asiantuntijoiden lisätyön tuloksena ilmestyi UTF-16-koodaus. Siitä tuli vaihtoehto symbolisen tiedon muuntamiseen, joka sopi kaikille sekä tarvittavan muistin että koodattujen merkkien määrän suhteen. Tästä syystä UTF-16 otettiin oletuksena käyttöön, ja se vaatii 2 tavua yhdelle merkille.

Jopa tällä melko edistyneellä ja onnistuneella Unicode-versiolla oli joitain haittoja, ja siirryttyäsi ASCII:n laajennetusta versiosta UTF-16:een asiakirjan paino kaksinkertaistui.

Tässä suhteessa päätettiin käyttää muuttuvapituista UTF-8-koodausta. Tässä tapauksessa jokainen lähdetekstin merkki on koodattu 1-6 tavun pituiseksi sekvenssiksi.

Ota yhteyttä amerikkalaiseen standardikoodiin tiedonvaihtoa varten

Kaikki muuttuvan pituuden UTF-8 latinalaiset merkit on koodattu 1 tavuksi, kuten ASCII-koodausjärjestelmässä.

YTF-8:n erityispiirre on, että latinankielisessä tekstissä ilman muita merkkejä, jopa ohjelmat, jotka eivät ymmärrä Unicodea, voivat silti lukea sen. Toisin sanoen ASCII-perustekstikoodauksesta tulee yksinkertaisesti osa uutta muuttuvapituista UTF:ää. YTF-8:n kyrilliset merkit vievät 2 tavua ja esimerkiksi Georgian merkit - 3 tavua. Luomalla UTF-16 ja UTF-8 ratkaistiin pääongelma yhden kooditilan luomisesta kirjasimiin. Siitä lähtien kirjasinten valmistajat ovat voineet täyttää taulukon vain vektorimuotoisilla tekstimerkkien muodoilla tarpeidensa mukaan.

Eri käyttöjärjestelmät suosivat erilaisia koodauksia. Jotta eri koodauksella kirjoitettuja tekstejä voidaan lukea ja muokata, käytetään venäläisiä tekstinmuunnosohjelmia. Jotkut tekstieditorit sisältävät sisäänrakennetut transkooderit ja mahdollistavat tekstin lukemisen koodauksesta riippumatta.

Nyt tiedät kuinka monta merkkiä ASCII-koodauksessa on ja kuinka ja miksi se kehitettiin. Tietenkin nykyään Unicode-standardi on yleisin maailmassa. Emme kuitenkaan saa unohtaa, että se perustuu ASCII-järjestelmään, joten sen kehittäjien panosta IT-alalle tulee arvostaa.

Kansainvälisen televiestintäliiton mukaan vuonna 2016 kolme ja puoli miljardia ihmistä käytti Internetiä jonkin verran säännöllisesti. Useimmat heistä eivät edes ajattele sitä tosiasiaa, että kaikki viestit, jotka he lähettävät PC:n tai mobiililaitteiden kautta, sekä tekstit, jotka näkyvät kaikenlaisissa näytöissä, ovat itse asiassa 0:n ja 1:n yhdistelmiä. Tätä tiedon esitystapaa kutsutaan koodaukseksi. . Se varmistaa ja helpottaa suuresti sen varastointia, käsittelyä ja siirtoa. Vuonna 1963 kehitettiin amerikkalainen ASCII-koodaus, joka on tämän artikkelin aihe.

Tietojen esittäminen tietokoneella

Minkä tahansa elektronisen tietokoneen näkökulmasta teksti on joukko yksittäisiä merkkejä. Nämä eivät sisällä vain kirjaimia, mukaan lukien isot kirjaimet, vaan myös välimerkit ja numerot. Lisäksi käytetään erikoismerkkejä "=", "&", "(" ja välilyöntejä.

Tekstin muodostavaa merkkijoukkoa kutsutaan aakkosiksi, ja niiden lukumäärää kutsutaan kardinaaliudeksi (merkitty numerolla N). Sen määrittämiseen käytetään lauseketta N = 2^b, jossa b on tietyn symbolin bittien lukumäärä tai informaation paino.

On todistettu, että aakkoset, joiden kapasiteetti on 256 merkkiä, voivat edustaa kaikkia tarvittavia merkkejä.

Koska 256 edustaa kahden kahdeksatta potenssia, kunkin merkin paino on 8 bittiä.

8 bitin mittayksikköä kutsutaan 1 tavuksi, joten on tapana sanoa, että mikä tahansa tietokoneelle tallennetun tekstin merkki vie yhden tavun muistia.

Miten koodaus tehdään?

Kaikki tekstit syötetään henkilökohtaisen tietokoneen muistiin näppäimistön näppäimillä, joihin kirjoitetaan numerot, kirjaimet, välimerkit ja muut symbolit. Ne siirretään RAM:iin binäärikoodina, eli jokainen merkki liittyy ihmisille tuttuihin desimaalikoodiin 0-255, joka vastaa binaarikoodia - 00000000 - 11111111.

Tavutavuinen merkkikoodaus mahdollistaa tekstinkäsittelyä suorittavan prosessorin pääsyn jokaiseen merkkiin erikseen. Samaan aikaan 256 merkkiä riittää edustamaan mitä tahansa symbolista tietoa.

ASCII-merkkikoodaus

Tämä lyhenne englanniksi tarkoittaa koodia tiedonvaihdolle.

Jo tietokoneistumisen kynnyksellä kävi selväksi, että oli mahdollista keksiä monia erilaisia tapoja koodata tietoa. Tietojen siirtämiseksi tietokoneesta toiseen oli kuitenkin tarpeen kehittää yhtenäinen standardi. Joten vuonna 1963 ASCII-koodaustaulukko ilmestyi Yhdysvalloissa. Siinä mikä tahansa tietokoneen aakkosten symboli liittyy sen sarjanumeroon binäärimuodossa. ASCII:ta käytettiin alun perin vain Yhdysvalloissa, ja siitä tuli myöhemmin kansainvälinen PC-standardi.

ASCII-koodit on jaettu kahteen osaan. Vain tämän taulukon ensimmäistä puoliskoa pidetään kansainvälisenä standardina. Se sisältää merkkejä, joiden sarjanumerot ovat 0 (koodattu 00000000) - 127 (koodattu 01111111).

Sarjanumero	ASCII-tekstin koodaus	Symboli
	0000 0000 - 0001 1111	Merkkejä, joiden N on 0-31, kutsutaan ohjausmerkeiksi. Niiden tehtävänä on "hallita" tekstin näyttämistä näytöllä tai tulostuslaitteella, äänimerkin antamista jne.
	0010 0000 - 0111 1111	Merkit N 32 - 127 (taulukon vakioosa) - latinalaisten aakkosten isot ja pienet kirjaimet, 10. numerot, välimerkit sekä erilaiset sulut, kaupalliset ja muut symbolit. Merkki 32 edustaa välilyöntiä.
	1000 0000 - 1111 1111	Merkkeillä, joiden N on 128-255 (taulukon tai koodisivun vaihtoehtoinen osa), voi olla erilaisia muunnelmia, joista jokaisella on oma numeronsa. Koodisivua käytetään määrittämään kansalliset aakkoset, jotka poikkeavat latinalaisista. Erityisesti sen avulla suoritetaan venäläisten merkkien ASCII-koodaus.

Taulukossa koodaukset ovat isoilla kirjaimilla ja seuraavat toisiaan aakkosjärjestyksessä, ja numerot ovat nousevassa järjestyksessä. Tämä periaate pysyy samana venäjän aakkosissa.

Ohjaushahmot

ASCII-koodaustaulukko luotiin alun perin tiedon vastaanottamiseen ja lähettämiseen pitkään käyttämättömän laitteen, kuten teletypen, kautta. Tältä osin merkistössä on mukana ei-tulostettavia merkkejä, joita käytettiin komentoina tämän laitteen ohjaamiseen. Samanlaisia komentoja käytettiin sellaisissa tietokonetta edeltävissä viestintämenetelmissä kuin morsekoodi jne.

Yleisin teletyyppimerkki on NUL (00). Sitä käytetään edelleen useimmissa ohjelmointikielissä osoittamaan rivin loppua.

Missä ASCII-koodausta käytetään?

Amerikkalaista standardikoodia tarvitaan paitsi tekstitietojen syöttämiseen näppäimistöllä. Sitä käytetään myös grafiikassa. Erityisesti ASCII Art Makerissa eri laajennusten kuvat edustavat ASCII-merkkien kirjoa.

Tällaisia tuotteita on kahta tyyppiä: ne, jotka suorittavat graafisten muokkausohjelmien tehtävää muuntamalla kuvat tekstiksi, ja ne, jotka muuntavat "piirustukset" ASCII-grafiikaksi. Esimerkiksi kuuluisa hymiö on erinomainen esimerkki koodaussymbolista.

ASCII:ta voidaan käyttää myös luotaessa HTML-dokumenttia. Tässä tapauksessa voit syöttää tietyn merkkijoukon, ja sivua katseltaessa näytölle tulee tätä koodia vastaava symboli.

ASCII on tarpeen myös monikielisten verkkosivustojen luomiseen, koska merkit, jotka eivät sisälly tiettyyn kansalliseen taulukkoon, korvataan ASCII-koodeilla.

Jotkut ominaisuudet

ASCII:ta käytettiin alun perin tekstitietojen koodaamiseen käyttäen 7 bittiä (yksi jätettiin tyhjäksi), mutta nykyään se toimii 8 bittinä.

Ylä- ja alapuolella olevissa sarakkeissa sijaitsevat kirjaimet eroavat toisistaan vain yhdellä bitillä. Tämä vähentää merkittävästi tarkastuksen monimutkaisuutta.

ASCII:n käyttö Microsoft Officessa

Tarvittaessa tämän tyyppistä tekstitietojen koodausta voidaan käyttää Microsoftin tekstieditoreissa, kuten Muistiossa ja Office Wordissa. Et kuitenkaan ehkä voi käyttää kaikkia toimintoja kirjoittaessasi tässä tapauksessa. Et voi esimerkiksi käyttää lihavoitua tekstiä, koska ASCII-koodaus säilyttää vain tiedon merkityksen jättäen huomioimatta sen yleisen ulkoasun ja muodon.

Standardointi

ISO-organisaatio on ottanut käyttöön ISO 8859 -standardit. Tämä ryhmä määrittelee kahdeksanbittiset koodaukset eri kieliryhmille. Erityisesti ISO 8859-1 on laajennettu ASCII-taulukko Yhdysvaltoihin ja Länsi-Euroopan maihin. Ja ISO 8859-5 on taulukko, jota käytetään kyrillisille aakkosille, mukaan lukien venäjän kieli.

Useista historiallisista syistä ISO 8859-5 -standardia käytettiin hyvin lyhyen aikaa.

Venäjän kielellä käytetään tällä hetkellä itse asiassa seuraavia koodauksia:

CP866 (koodisivu 866) tai DOS, jota usein kutsutaan vaihtoehtoiseksi GOST-koodaukseksi. Sitä käytettiin aktiivisesti viime vuosisadan 90-luvun puoliväliin asti. Tällä hetkellä sitä ei käytännössä käytetä.
KOI-8. Koodaus kehitettiin 1970- ja 80-luvuilla, ja se on tällä hetkellä yleisesti hyväksytty standardi sähköpostiviesteille RuNetissä. Sitä käytetään laajalti Unix-käyttöjärjestelmissä, mukaan lukien Linux. KOI-8:n "venäläinen" versio on nimeltään KOI-8R. Lisäksi on olemassa versioita muille kyrillisille kielille, kuten ukraina.
Koodisivu 1251 (CP 1251, Windows - 1251). Microsoftin kehittämä tukemaan venäjän kieltä Windows-ympäristössä.

Ensimmäisen CP866-standardin tärkein etu oli pseudografisten merkkien säilyminen samoissa paikoissa kuin Extended ASCII:ssa. Tämä mahdollisti ulkomaisten tekstiohjelmien, kuten kuuluisan Norton Commanderin, suorittamisen ilman muutoksia. Tällä hetkellä CP866:ta käytetään Windowsille kehitetyissä ohjelmissa, jotka toimivat koko näytön tekstitilassa tai tekstiikkunoissa, mukaan lukien FAR Manager.

CP866-koodauksella kirjoitetut tietokonetekstit ovat nykyään melko harvinaisia, mutta sitä käytetään Windowsissa venäläisten tiedostonimien kohdalla.

"Unicode"

Tällä hetkellä tämä koodaus on laajimmin käytetty. Unicode-koodit on jaettu alueisiin. Ensimmäinen (U+0000 - U+007F) sisältää ASCII-merkkejä koodeineen. Tämän jälkeen tulevat eri kansallisten kirjoitusten merkkialueet sekä välimerkit ja tekniset symbolit. Lisäksi joitain Unicode-koodeja on varattu siltä varalta, että tulevaisuudessa tarvitaan uusia merkkejä.

Nyt tiedät, että ASCII:ssä jokainen merkki esitetään 8 nollan ja ykkösen yhdistelmänä. Ei-asiantuntijoille nämä tiedot voivat tuntua tarpeettomilta ja epämiellyttäviltä, mutta etkö halua tietää, mitä tietokoneesi "aivoissa" tapahtuu?!

joulukuuta	Hex	Symboli	joulukuuta	Hex	Symboli
000	00	asiantuntija. NOP	128	80	Ђ
001	01	asiantuntija. SOH	129	81	Ѓ
002	02	asiantuntija. STX	130	82	‚
003	03	asiantuntija. ETX	131	83	ѓ
004	04	asiantuntija. EOT	132	84	„
005	05	asiantuntija. ENQ	133	85	…
006	06	asiantuntija. ACK	134	86	†
007	07	asiantuntija. BEL	135	87	‡
008	08	asiantuntija. B.S.	136	88	€
009	09	asiantuntija. TAB	137	89	‰
010	0A	asiantuntija. LF	138	8A	Љ
011	0B	asiantuntija. VT	139	8B	‹ ‹
012	0C	asiantuntija. FF	140	8C	Њ
013	0D	asiantuntija. CR	141	8D	Ќ
014	0E	asiantuntija. NIIN	142	8E	Ћ
015	0F	asiantuntija. SI.	143	8F	Џ
016	10	asiantuntija. DLE	144	90	ђ
017	11	asiantuntija. DC1	145	91	‘
018	12	asiantuntija. DC2	146	92	’
019	13	asiantuntija. DC3	147	93	“
020	14	asiantuntija. DC4	148	94	”
021	15	asiantuntija. N.A.K.	149	95
022	16	asiantuntija. SYN	150	96	–
023	17	asiantuntija. ETB	151	97	—
024	18	asiantuntija. VOI	152	98
025	19	asiantuntija. E.M.	153	99	™
026	1A	asiantuntija. SUB	154	9A	љ
027	1B	asiantuntija. POISTU	155	9B	›
028	1C	asiantuntija. FS	156	9C	њ
029	1D	asiantuntija. G.S.	157	9D	ќ
030	1E	asiantuntija. R.S.	158	9E	ћ
031	1F	asiantuntija. MEILLE	159	9F	џ
032	20	kytkin SP (avaruus)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	Joo
041	29	)	169	A9	©
042	2A	*	170	A.A.	Є
043	2B	+	171	AB	«
044	2C	,	172	A.C.	¬
045	2D	-	173	ILMOITUS
046	2E	.	174	A.E.	®
047	2F	/	175	A.F.	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	e
057	39	9	185	B9	№
058	3A	:	186	B.A.	є
059	3B	;	187	BB	»
060	3C	<	188	B.C.	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	OLLA	ѕ
063	3F	?	191	B.F.	ї
064	40	@	192	C0	A
065	41	A	193	C1	B
066	42	B	194	C2	SISÄÄN
067	43	C	195	C3	G
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C6	JA
071	47	G	199	C7	Z
072	48	H	200	C8	JA
073	49	minä	201	C9	Y
074	4A	J	202	C.A.	TO
075	4B	K	203	C.B.	L
076	4C	L	204	CC	M
077	4D	M	205	CD	N
078	4E	N	206	C.E.	NOIN
079	4F	O	207	CF	P
080	50	P	208	D0	R
081	51	K	209	D1	KANSSA
082	52	R	210	D2	T
083	53	S	211	D3	U
084	54	T	212	D4	F
085	55	U	213	D5	X
086	56	V	214	D6	C
087	57	W	215	D7	H
088	58	X	216	D8	Sh
089	59	Y	217	D9	SCH
090	5A	Z	218	D.A.	Kommersant
091	5B	[	219	D.B.	Y
092	5C	\	220	DC	b
093	5D	]	221	DD	E
094	5E	^	222	DE	YU
095	5F	_	223	DF	minä
096	60	`	224	E0	A
097	61	a	225	E1	b
098	62	b	226	E2	V
099	63	c	227	E3	G
100	64	d	228	E4	d
101	65	e	229	E5	e
102	66	f	230	E6	ja
103	67	g	231	E7	h
104	68	h	232	E8	Ja
105	69	i	233	E9	th
106	6A	j	234	E.A.	Vastaanottaja
107	6B	k	235	E.B.	l
108	6C	l	236	E.C.	m
109	6D	m	237	ED	n
110	6E	n	238	E.E.	O
111	6F	o	239	EF	P
112	70	s	240	F0	R
113	71	q	241	F1	Kanssa
114	72	r	242	F2	T
115	73	s	243	F3	klo
116	74	t	244	F4	f
117	75	u	245	F5	X
118	76	v	246	F6	ts
119	77	w	247	F7	h
120	78	x	248	F8	w
121	79	y	249	F9	sch
122	7A	z	250	FA.	ъ
123	7B	{	251	FB	s
124	7C	\|	252	F.C.	b
125	7D	}	253	FD	uh
126	7E	~	254	F.E.	Yu
127	7F	asiantuntija. DEL	255	FF	minä

ASCII Windowsin merkkikooditaulukko.
Erikoismerkkien (ohjaus) kuvaus

On huomattava, että ASCII-taulukon ohjausmerkkejä käytettiin alun perin varmistamaan tiedonsiirto telekonekirjoittimen kautta, tietojen syöttäminen rei'itetyltä nauhalta ja ulkoisten laitteiden yksinkertaiseen ohjaukseen.
Tällä hetkellä useimmat ASCII-taulukon ohjausmerkit eivät enää kanna tätä kuormaa, ja niitä voidaan käyttää muihin tarkoituksiin.

Koodi	Kuvaus
NUL, 00	Tyhjä, tyhjä
SOH, 01	Otsikon alku
STX, 02	Tekstin alku, tekstin alku.
ETX, 03	Tekstin loppu, tekstin loppu
EOT, 04	Lähetyksen loppu
ENQ, 05	Tiedustella. Ole hyvä ja vahvista
AK, 06	Tunnustus. Vahvistan
BEL, 07	Bell, soita
BS, 08	Askelpalautin, palaa yksi merkki taaksepäin
TAB, 09	Välilehti, vaakasuora välilehti
LF, 0A	Rivinsyöttö, rivinvaihto. Nykyään useimmissa ohjelmointikielissä se on merkitty \n
VT, 0B	Pysty välilehti, pystytaulukko.
FF, 0C	Lomakesyöte, sivusyöte, uusi sivu
CR, 0D	Vaunun paluu, vaunun paluu. Nykyään useimmissa ohjelmointikielissä sitä merkitään \r
SO,0E	Shift Out, muuta tulostuslaitteen mustenauhan väriä
SI,0F	Shift In, palauta tulostuslaitteen mustenauhan väri takaisin
DLE, 10	Data Link Escape, vaihtaa kanavan tiedonsiirtoon
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Device Control, laiteohjaussymbolit
NAK, 15	Kielteinen tunnustus, en vahvista.
SYN, 16	Synkronointi. Synkronointisymboli
ETB, 17	Tekstilohkon loppu, tekstilohkon loppu
CAN, 18	Peruuta, peruuta aiemmin siirretty
EM, 19	Keskipitkän loppu
SUB, 1A	Korvaava, sijainen. Sijoitetaan sellaisen symbolin tilalle, jonka merkitys on kadonnut tai vioittunut lähetyksen aikana
ESC, 1B	Pakoohjausjärjestys
FS, 1C	Tiedostoerotin, tiedostoerotin
GS, 1D	Ryhmäerotin
RS, 1E	Tietueen erotin, tietueen erotin
USA, 1F	Yksikön erotin
DEL, 7F	Poista, poista viimeinen merkki.

Kuinka monta merkkiä on ascii-kooditaulukossa. Tekstitietojen koodaus

ASCII - latinalaisten aakkosten perustekstikoodaus

Asuka-CP866- ja KOI8-R-koodausten laajennetut versiot pseudografialla

Windows 1251 - ASCII:n moderni versio ja miksi halkeamia tulee esiin

Unicode - yleiset koodaukset UTF 8, 16 ja 32

Hulluja sanoja venäläisten kirjainten sijaan - kuinka korjata se

Mikä se on?

Missä ASCII-koodausjärjestelmää käytetään?

ASCII-taulukon ominaisuudet

Tietojen näyttäminen ja tallentaminen tietokoneeseen

Kuinka kaikki alkoi

Siirtyminen monikielisyyteen

Kuvaus

Jotkut ominaisuudet

"Unicode"

Ota yhteyttä amerikkalaiseen standardikoodiin tiedonvaihtoa varten

Tietojen esittäminen tietokoneella

Miten koodaus tehdään?

ASCII-merkkikoodaus

Ohjaushahmot

Missä ASCII-koodausta käytetään?

Jotkut ominaisuudet

ASCII:n käyttö Microsoft Officessa

Standardointi

"Unicode"

ASCII Windowsin merkkikooditaulukko. Erikoismerkkien (ohjaus) kuvaus

ASCII Windowsin merkkikooditaulukko.
Erikoismerkkien (ohjaus) kuvaus