Kuinka monta merkkiä on ascii-kooditaulukossa. Tekstitietojen koodaus

Hei rakkaat blogisivuston lukijat. Tänään puhumme sinulle siitä, mistä krakozyabrit tulevat verkkosivustolla ja ohjelmissa, mitä tekstikoodauksia on olemassa ja mitä niitä tulisi käyttää. Katsotaanpa tarkemmin niiden kehityshistoriaa alkaen perus-ASCII:stä sekä sen laajennetuista versioista CP866, KOI8-R, Windows 1251 ja päättyen nykyaikaisiin Unicode-konsortiokoodauksiin UTF 16 ja 8.

Joillekin nämä tiedot saattavat tuntua tarpeettomilta, mutta tietäisitkö kuinka monta kysymystä saan erityisesti koskien indeksoivia krakozyabreja (lukematon merkkijoukko). Nyt minulla on mahdollisuus viitata kaikkiin tämän artikkelin tekstiin ja löytää omat virheeni. Valmistaudu ottamaan vastaan ​​tietoa ja yritä seurata tarinan kulkua.

ASCII - latinalaisten aakkosten perustekstikoodaus

Tekstikoodausten kehitys tapahtui samanaikaisesti IT-alan muodostumisen kanssa, ja tänä aikana ne onnistuivat käymään läpi melko paljon muutoksia. Historiallisesti kaikki alkoi EBCDIC:stä, joka oli melko dissonantti venäjän ääntämisessä, mikä mahdollisti latinalaisten aakkosten kirjaimien, arabialaisten numeroiden ja välimerkkien koodauksen ohjausmerkeillä.

Mutta silti nykyaikaisten tekstikoodausten kehittämisen lähtökohtana on pidettävä kuuluisaa ASCII(American Standard Code for Information Interchange, joka venäjäksi lausutaan yleensä "aski"). Se kuvaa englanninkielisten käyttäjien yleisimmin käyttämiä 128 ensimmäistä merkkiä – latinalaisia ​​kirjaimia, arabialaisia ​​numeroita ja välimerkkejä.

Nämä ASCII:ssä kuvatut 128 merkkiä sisälsivät myös joitain palvelumerkkejä, kuten sulkumerkkejä, hash-merkkejä, tähtiä jne. Itse asiassa voit nähdä ne itse:

Juuri näistä 128 merkistä alkuperäisestä ASCII-versiosta on tullut standardi, ja mistä tahansa muusta koodauksesta löydät ne varmasti ja ne näkyvät tässä järjestyksessä.

Mutta tosiasia on, että yhdellä tiedolla ei voi koodata 128, vaan jopa 256 eri arvoa (kaksi kahdeksan potenssiin on 256), joten Asukan perusversion jälkeen koko sarja laajennettu ASCII-koodaus, johon 128 perusmerkin lisäksi oli mahdollista koodata myös kansallisen koodauksen symboleja (esim. venäjä).

Tässä on luultavasti syytä kertoa hieman enemmän kuvauksessa käytetyistä numerojärjestelmistä. Ensinnäkin, kuten kaikki tiedätte, tietokone toimii vain binäärijärjestelmän numeroiden kanssa, nimittäin nollien ja ykkösten kanssa ("Boolen algebra", jos joku otti sen instituutissa tai koulussa). , joista kukin on kaksi potenssiin, alkaen nollasta ja aina kahteen seitsemänteen:

Ei ole vaikea ymmärtää, että kaikki mahdolliset nollien ja ykkösten yhdistelmät tällaisessa mallissa voivat olla vain 256. Luvun muuntaminen binäärijärjestelmästä desimaalijärjestelmäksi on melko yksinkertaista. Sinun tarvitsee vain laskea yhteen kaikki kahden ja niiden yläpuolella olevien tehot.

Esimerkissämme tämä osoittautuu 1 (2 nollan potenssiin) plus 8 (kaksi 3:n potenssiin), plus 32 (kaksi viidenteen potenssiin), plus 64 (kuudenteen potenssiin) plus 128 (seitsemänteen potenssiin). Kokonaisluku on 233 desimaalimuodossa. Kuten näet, kaikki on hyvin yksinkertaista.

Mutta jos katsot tarkasti taulukkoa, jossa on ASCII-merkkejä, huomaat, että ne esitetään heksadesimaalikoodauksella. Esimerkiksi "tähti" vastaa Askin heksadesimaalilukua 2A. Tiedät varmaan, että heksadesimaalilukujärjestelmässä käytetään arabialaisten numeroiden lisäksi myös latinalaisia ​​kirjaimia A:sta (tarkoittaa kymmentä) F:ään (tarkoittaa viisitoista).

No sitten, varten binääriluvun muuntaminen heksadesimaaliksi turvautua seuraavaan yksinkertaiseen ja ilmeiseen menetelmään. Jokainen tietotavu on jaettu kahteen neljän bitin osaan, kuten yllä olevassa kuvakaappauksessa näkyy. Että. Kussakin puolitavussa vain kuusitoista arvoa (kahdesta neljänteen potenssiin) voidaan koodata binäärimuodossa, joka voidaan helposti esittää heksadesimaalilukuna.

Lisäksi tavun vasemmalla puoliskolla asteet on laskettava uudelleen nollasta alkaen, ei kuten kuvakaappauksessa. Tämän seurauksena yksinkertaisten laskelmien avulla saamme, että numero E9 on koodattu kuvakaappaukseen. Toivon, että päättelyni kulku ja tämän palapelin ratkaisu olivat sinulle selvät. No, jatketaan nyt itse asiassa puhumista tekstin koodauksista.

Asuka-CP866- ja KOI8-R-koodausten laajennetut versiot pseudografialla

Joten aloimme puhua ASCII:sta, joka oli ikään kuin lähtökohta kaikkien nykyaikaisten koodausten (Windows 1251, Unicode, UTF 8) kehittämiselle.

Alun perin se sisälsi vain 128 merkkiä latinalaisista aakkosista, arabialaisia ​​numeroita ja jotain muuta, mutta laajennetussa versiossa tuli mahdolliseksi käyttää kaikkia 256 arvoa, jotka voidaan koodata yhteen tietotavuun. Nuo. Tuli mahdolliseksi lisätä kielesi kirjaimia Askiin.

Tässä meidän täytyy poiketa uudelleen selittääksemme - miksi ylipäänsä tarvitsemme koodauksia? tekstejä ja miksi se on niin tärkeää. Tietokoneesi näytöllä näkyvät merkit muodostuvat kahdesta asiasta - eri merkkien vektorimuotojen (esitykset) joukosta (ne sijaitsevat tiedostoissa, joissa on ) ja koodin, jonka avulla voit vetää ulos tästä vektorimuotojoukosta (fonttitiedosto) ) täsmälleen se merkki, joka on lisättävä oikeaan paikkaan.

On selvää, että fontit itse ovat vastuussa vektorin muodoista, mutta käyttöjärjestelmä ja siinä käytetyt ohjelmat vastaavat koodauksesta. Nuo. mikä tahansa tietokoneellasi oleva teksti on joukko tavuja, joista jokainen koodaa tämän tekstin yhden merkin.

Ohjelma, joka näyttää tämän tekstin näytöllä (tekstieditori, selain jne.), lukee koodia jäsennettäessä seuraavan merkin koodauksen ja etsii vastaavan vektorimuodon vaaditusta fonttitiedostosta, joka on yhdistetty tämän näyttämiseen. tekstiasiakirja. Kaikki on yksinkertaista ja banaalia.

Tämä tarkoittaa, että jotta voimme koodata minkä tahansa tarvitsemamme merkin (esimerkiksi kansallisesta aakkosesta), kahden ehdon on täytyttävä - tämän merkin vektorimuodon on oltava käytetyssä fontissa ja tämä merkki voidaan koodata laajennetuilla ASCII-koodauksilla yksi tavu. Siksi tällaisia ​​​​vaihtoehtoja on koko joukko. Vain venäjän kielen merkkien koodaamiseen on olemassa useita laajennettuja Aska-lajikkeita.

Esimerkiksi alun perin ilmestynyt CP866, jossa oli mahdollisuus käyttää venäjän aakkosten merkkejä ja joka oli ASCII:n laajennettu versio.

Nuo. sen yläosa osui täysin yhteen Askan perusversion kanssa (128 latinalaista merkkiä, numeroita ja muuta paskaa), joka on esitetty kuvakaappauksessa juuri yllä, mutta taulukon alaosa CP866-koodauksella oli samanlainen kuin kuvakaappauksessa juuri alla. ja antoi sinun koodata vielä 128 merkkiä (venäläisiä kirjaimia ja kaikenlaista pseudografiaa):

Oikeassa sarakkeessa numerot alkavat 8:lla, koska... numerot 0-7 viittaavat ASCII:n perusosaan (katso ensimmäinen kuvakaappaus). Että. Venäläisellä kirjaimella "M" CP866:ssa on koodi 9C (se sijaitsee vastaavan rivin 9:n ja sarakkeen, jossa on numero C, leikkauskohdassa heksadesimaalilukujärjestelmässä), joka voidaan kirjoittaa yhteen tietotavuun, ja jos on sopiva fontti venäläisillä merkeillä, tämä kirjain näkyy tekstissä ilman ongelmia.

Mistä tämä summa tuli? pseudografia CP866:ssa? Koko asia on, että tämä venäjänkielisen tekstin koodaus kehitettiin niinä takkuisina vuosina, jolloin graafiset käyttöjärjestelmät eivät olleet niin yleisiä kuin nyt. Ja Dosassa ja vastaavissa tekstikäyttöjärjestelmissä pseudografia mahdollisti tekstien suunnittelun ainakin jotenkin monipuolistamisen, ja siksi CP866 ja kaikki muut Asukan laajennettujen versioiden kategoriassa olevat vertaiset ovat siinä runsaasti.

CP866:n jakeli IBM, mutta tämän lisäksi venäjän kielen merkeille kehitettiin useita koodauksia, esimerkiksi sama tyyppi (laajennettu ASCII) voidaan liittää KOI8-R:

Sen toimintaperiaate pysyy samana kuin vähän aiemmin kuvatun CP866:n - jokainen tekstin merkki on koodattu yhdellä tavulla. Kuvakaappaus näyttää KOI8-R-taulukon toisen puoliskon, koska ensimmäinen puolisko on täysin yhdenmukainen perus Asukan kanssa, joka näkyy tämän artikkelin ensimmäisessä kuvakaappauksessa.

KOI8-R-koodauksen ominaisuuksista voidaan todeta, että sen taulukon venäläiset kirjaimet eivät ole aakkosjärjestyksessä, kuten he tekivät sen esimerkiksi CP866:ssa.

Jos katsot aivan ensimmäistä kuvakaappausta (perusosasta, joka sisältyy kaikkiin laajennettuihin koodauksiin), huomaat, että KOI8-R:ssä venäläiset kirjaimet sijaitsevat samoissa taulukon soluissa kuin latinalaisten aakkosten vastaavat kirjaimet. taulukon ensimmäisestä osasta. Tämä tehtiin venäläisistä latinalaisiin kirjaimiin siirtymisen helpottamiseksi hylkäämällä vain yksi bitti (kaksi seitsemänteen potenssiin tai 128).

Windows 1251 - ASCII:n moderni versio ja miksi halkeamia tulee esiin

Tekstikoodausten jatkokehitys johtui siitä, että graafiset käyttöjärjestelmät yleistyivät ja tarve käyttää niissä pseudografiaa hävisi ajan myötä. Tuloksena syntyi kokonainen ryhmä, jotka pohjimmiltaan olivat edelleen Asukan laajennettuja versioita (yksi tekstin merkki on koodattu vain yhdellä tietotavulla), mutta ilman pseudografisten symbolien käyttöä.

Ne kuuluivat niin sanottuihin ANSI-koodauksiin, jotka American Standards Institute on kehittänyt. Yleisessä kielenkäytössä nimeä kyrillinen käytettiin myös venäjän kielen tuella varustetusta versiosta. Esimerkki tästä olisi.

Se erosi suotuisasti aiemmin käytetyistä CP866:sta ja KOI8-R:stä siinä, että pseudografisten symbolien paikan ottivat venäläisen typografian puuttuvat symbolit (paitsi aksenttimerkkiä) sekä slaavilaisten kielten lähellä käytetyt symbolit. venäjä (ukraina, valkovenäläinen jne.):

Venäjän kielen koodausten runsauden vuoksi kirjasinvalmistajilla ja ohjelmistovalmistajilla oli jatkuvasti päänsärkyä, ja te ja minä, hyvät lukijat, saimme usein nämä samat pahamaineiset. krakozyabry kun oli sekaannusta tekstissä käytetyn version kanssa.

Hyvin usein ne ilmestyivät lähetettäessä ja vastaanotettaessa viestejä sähköpostitse, mikä johti erittäin monimutkaisten muunnostaulukoiden luomiseen, mikä itse asiassa ei voinut ratkaista tätä ongelmaa perusteellisesti, ja käyttäjät käyttivät usein kirjeenvaihtoa välttääkseen pahamaineisia temppuja Venäläiset koodaukset, kuten CP866, KOI8-R tai Windows 1251.

Itse asiassa venäjänkielisen tekstin sijaan ilmestyneet halkeamat johtuivat tämän kielen koodauksen virheellisestä käytöstä, joka ei vastannut sitä, johon tekstiviesti alun perin koodattiin.

Oletetaan, että jos yrität näyttää CP866:lla koodattuja merkkejä Windows 1251 -kooditaulukon avulla, nämä samat hölynpölyt (merkityksellinen merkkijoukko) tulevat esiin ja korvaavat viestin tekstin kokonaan.

Samankaltainen tilanne syntyy hyvin usein foorumeilla tai blogeissa, kun venäläisiä merkkejä sisältävä teksti tallennetaan vahingossa väärään koodaukseen, jota sivustolla käytetään oletuksena, tai väärään tekstieditoriin, mikä lisää koodiin gagit, jotka eivät näy paljaalla silmällä.

Lopulta monet ihmiset kyllästyivät tähän tilanteeseen, jossa oli paljon koodauksia ja jatkuvasti hiipivää paskaa, ja edellytykset syntyi uuden universaalin muunnelman luomiselle, joka korvaisi kaikki olemassa olevat ja ratkaisee lopulta ongelman ulkonäön kanssa. lukemattomista teksteistä. Lisäksi ongelmana oli kieli, kuten kiina, jossa oli paljon enemmän kielimerkkejä kuin 256.

Unicode - yleiset koodaukset UTF 8, 16 ja 32

Näitä tuhansia Kaakkois-Aasian kieliryhmän merkkejä ei mitenkään voitu kuvata yhdessä tietotavussa, joka oli varattu ASCII:n laajennettujen versioiden merkkien koodaukseen. Tuloksena syntyi konsortio ns Unicode(Unicode - Unicode Consortium) yhteistyössä monien IT-alan johtajien kanssa (ne, jotka tuottavat ohjelmistoja, jotka koodaavat laitteistoja, jotka luovat fontteja), jotka olivat kiinnostuneita universaalin tekstikoodauksen syntymisestä.

Ensimmäinen Unicode Consortiumin alaisuudessa julkaistu muunnelma oli UTF 32. Koodauksen nimessä oleva numero tarkoittaa bittien määrää, joita käytetään yhden merkin koodaamiseen. 32 bittiä vastaa 4 tavua tietoa, jotka tarvitaan yhden merkin koodaamiseen uudessa yleismaailmallisessa UTF-koodauksessa.

Tämän seurauksena sama tiedosto, jonka teksti on koodattu ASCII:n laajennetussa versiossa ja jälkimmäisessä tapauksessa UTF-32:ssa, on kooltaan (painoltaan) neljä kertaa suurempi. Tämä on huonoa, mutta nyt meillä on mahdollisuus koodata YTF:llä merkkimäärä, joka on kaksi 30 sekunnin potenssiin ( miljardeja hahmoja, joka kattaa kaiken todella tarpeellisen arvon valtavalla marginaalilla).

Mutta monien maiden, joissa on eurooppalaisen ryhmän kieliä, ei tarvinnut käyttää niin suurta määrää merkkejä koodauksessa ollenkaan, mutta UTF-32:ta käytettäessä ne saivat ilman syytä nelinkertaiseksi tekstiasiakirjojen painon, ja sen seurauksena Internet-liikenteen ja tallennetun datan määrän kasvu. Tämä on paljon, eikä kenelläkään olisi varaa sellaiseen tuhlaukseen.

Unicoden kehityksen seurauksena UTF-16, joka osoittautui niin onnistuneeksi, että se otettiin oletuksena kaikkien käyttämiemme merkkien perustilaksi. Se käyttää kahta tavua yhden merkin koodaamiseen. Katsotaan miltä tämä asia näyttää.

Windows-käyttöjärjestelmässä voit seurata polkua "Käynnistä" - "Ohjelmat" - "Lisävarusteet" - "Järjestelmätyökalut" - "Merkkitaulukko". Tämän seurauksena avautuu taulukko, jossa on kaikkien järjestelmääsi asennettujen fonttien vektorimuodot. Jos valitset Unicode-merkkijoukon "Lisäasetuksissa", näet jokaisen kirjasimen erikseen koko sen sisältämän merkkivalikoiman.

Muuten, napsauttamalla mitä tahansa niistä, näet sen kaksitavun koodi UTF-16-muodossa, joka koostuu neljästä heksadesimaalinumerosta:

Kuinka monta merkkiä voidaan koodata UTF-16:ssa käyttämällä 16 bittiä? 65 536 (kaksi kuudentoista potenssilla), ja tämä luku otettiin Unicoden perusavaruudeksi. Lisäksi on olemassa tapoja koodata noin kaksi miljoonaa merkkiä sen avulla, mutta ne rajoittuivat miljoonan merkin laajennettuun tekstitilaan.

Mutta edes tämä Unicode-koodauksen onnistunut versio ei tuonut paljon tyydytystä niille, jotka kirjoittivat esimerkiksi ohjelmia vain englanniksi, koska heille ASCII:n laajennetusta versiosta UTF-16:een siirtymisen jälkeen asiakirjojen paino kaksinkertaistui ( yksi tavu merkkiä kohden Askissa ja kaksi tavua samalle merkille YUTF-16:ssa).

Se oli nimenomaan tyydyttää kaikkia ja kaikkea Unicode-konsortiossa, jota päätettiin keksiä vaihtuvapituinen koodaus. Sen nimi oli UTF-8. Huolimatta nimensä kahdeksasta, sillä on itse asiassa muuttuva pituus, ts. Jokainen tekstin merkki voidaan koodata yhdestä kuuteen tavun pituiseksi sekvenssiksi.

Käytännössä UTF-8 käyttää vain aluetta yhdestä neljään tavua, koska neljän tavun koodia pidemmälle ei ole enää edes teoriassa mahdollista kuvitella mitään. Kaikki siinä olevat latinalaiset merkit on koodattu yhdeksi tavuksi, aivan kuten vanhassa hyvässä ASCII:ssa.

Huomionarvoista on, että jos koodataan vain latinalaisia ​​aakkosia, jopa ne ohjelmat, jotka eivät ymmärrä Unicodea, lukevat silti sen, mikä on koodattu YTF-8:ssa. Nuo. Asukan ydinosa siirrettiin yksinkertaisesti tähän Unicode-konsortion luomiseen.

UTF-8:n kyrilliset merkit on koodattu kahdella tavulla, ja esimerkiksi Georgian merkit on koodattu kolmella tavulla. Unicode-konsortio ratkaisi UTF 16:n ja 8:n luomisen jälkeen pääongelman - nyt meillä on fonteilla on yksi kooditila. Ja nyt niiden valmistajat voivat täyttää sen vain tekstimerkkien vektorimuodoilla vahvuuksiensa ja kykyjensä perusteella. Nyt niitä tulee jopa sarjoina.

Yllä olevasta "Merkkitaulukosta" näet, että eri fontit tukevat erilaista merkkimäärää. Jotkut Unicode-rikkaat fontit voivat olla melko raskaita. Mutta nyt ne eivät eroa siinä, että ne on luotu eri koodauksille, vaan siinä, että kirjasinten valmistaja on täyttänyt tai ei ole täyttänyt kokonaan yksittäistä koodiavaruutta tietyillä vektorimuodoilla.

Hulluja sanoja venäläisten kirjainten sijaan - kuinka korjata se

Katsotaan nyt, kuinka krakozyabrit näkyvät tekstin sijasta tai toisin sanoen, kuinka venäjän tekstin oikea koodaus valitaan. Itse asiassa se asetetaan ohjelmassa, jossa luot tai muokkaat juuri tätä tekstiä tai koodia käyttämällä tekstinpätkiä.

Tekstitiedostojen muokkaamiseen ja luomiseen käytän henkilökohtaisesti mielestäni erittäin hyvää . Se voi kuitenkin korostaa satojen muiden ohjelmointi- ja merkintäkielten syntaksia, ja sitä voidaan myös laajentaa lisäosien avulla. Lue yksityiskohtainen katsaus tästä upeasta ohjelmasta oheisesta linkistä.

Notepad++:n ylävalikossa on kohta "Koodaukset", jossa sinulla on mahdollisuus muuntaa olemassa oleva vaihtoehto sivustollasi oletusarvoisesti käytetyksi:

Jos sivustolla on Joomla 1.5 tai uudempi versio tai WordPress-blogi, sinun tulee valita vaihtoehto halkeamien välttämiseksi UTF 8 ilman tuoteluetteloa. Mikä on BOM-etuliite?

Tosiasia on, että kun he kehittivät YUTF-16-koodausta, he jostain syystä päättivät liittää siihen sellaisen asian kuin kyvyn kirjoittaa merkkikoodi sekä suorassa järjestyksessä (esimerkiksi 0A15) että käänteisessä järjestyksessä (150A). . Ja jotta ohjelmat ymmärtäisivät tarkalleen, missä järjestyksessä koodit luetaan, se keksittiin BOM(Byte Order Mark eli toisin sanoen allekirjoitus), joka ilmaistiin kolmen lisätavun lisäämisellä aivan asiakirjojen alkuun.

UTF-8-koodauksessa Unicode-konsortiossa ei ollut BOM-tiedostoja, ja siksi allekirjoituksen lisääminen (nämä pahamaineinen ylimääräinen kolme tavua asiakirjan alussa) yksinkertaisesti estää joitakin ohjelmia lukemasta koodia. Siksi, kun tallennat tiedostoja UTF-muodossa, meidän on aina valittava vaihtoehto ilman BOM:ia (ilman allekirjoitusta). Olet siis etukäteen suojautua ryömimiseltä krakozyabrs.

Huomionarvoista on, että jotkin Windowsin ohjelmat eivät voi tehdä tätä (ne eivät voi tallentaa UTF-8-tekstiä ilman tuoteluetteloa), esimerkiksi sama pahamaineinen Windows-muistio. Se tallentaa asiakirjan UTF-8-muodossa, mutta lisää silti allekirjoituksen (kolme ylimääräistä tavua) sen alkuun. Lisäksi nämä tavut ovat aina samat - lue koodi suorassa järjestyksessä. Mutta palvelimilla tämän pienen asian takia voi syntyä ongelma - roistot tulevat ulos.

Ei siis missään olosuhteissa Älä käytä tavallista Windowsin muistilehteä muokataksesi asiakirjoja sivustollasi, jos et halua, että halkeamia tulee näkyviin. Parhaana ja yksinkertaisimpana vaihtoehtona pidän jo mainittua Notepad++-editoria, jolla ei käytännössä ole haittoja ja joka koostuu vain eduista.

Kun valitset koodauksen Notepad++:ssa, sinulla on mahdollisuus muuntaa teksti UCS-2-koodaukseksi, joka on luonteeltaan hyvin lähellä Unicode-standardia. Myös Notepadissa on mahdollista koodata tekstiä ANSI:lla, ts. venäjän kielen osalta tämä on Windows 1251, jonka olemme jo kuvanneet edellä. Mistä tämä tieto tulee?

Se on rekisteröity Windows-käyttöjärjestelmäsi rekisteriin - mikä koodaus valitaan ANSI: n tapauksessa, mikä valitaan OEM: n tapauksessa (venäjän kielellä se on CP866). Jos asetat tietokoneellesi toisen oletuskielen, nämä koodaukset korvataan samankaltaisilla ANSI- tai OEM-luokasta samalle kielelle.

Kun olet tallentanut asiakirjan Notepad++ -sovellukseen tarvitsemallasi koodauksella tai avannut asiakirjan sivustolta muokkausta varten, näet sen nimen editorin oikeassa alakulmassa:

Välttääksesi punoitusta Yllä kuvattujen toimien lisäksi on hyödyllistä kirjoittaa tiedot tästä koodauksesta sivuston kaikkien sivujen lähdekoodin otsikkoon, jotta palvelimessa tai paikallisessa isännässä ei aiheudu sekaannuksia.

Yleensä kaikki hypertekstimerkintäkielet paitsi HTML käyttävät erityistä xml-ilmoitusta, joka määrittää tekstin koodauksen.

Ennen koodin jäsentämistä selain tietää, mikä versio on käytössä ja kuinka tarkalleen sen tarvitsee tulkita kyseisen kielen merkkikoodeja. Mutta huomionarvoista on se, että jos tallennat asiakirjan oletusarvoiseen Unicode-muotoon, tämä xml-ilmoitus voidaan jättää pois (koodausta pidetään UTF-8:na, jos tuoteluetteloa ei ole, tai UTF-16:na, jos tuoteluetteloa on).

Kun kyseessä on HTML-kielidokumentti, koodausta käytetään osoittamaan Meta elementti, joka on kirjoitettu avaavan ja sulkevan Head-tunnisteen väliin:

... ...

Tämä merkintä on melko erilainen kuin vuonna hyväksytty, mutta on täysin yhteensopiva uuden Html 5 -standardin kanssa, joka otetaan käyttöön hitaasti, ja kaikki tällä hetkellä käytetyt selaimet ymmärtävät sen täysin oikein.

Teoriassa olisi parempi sijoittaa Meta-elementti, joka ilmaisee HTML-dokumentin koodauksen mahdollisimman korkealle asiakirjan otsikossa niin, että kun tekstissä kohtaa ensimmäisen merkin, joka ei ole peräisin perus-ANSI:sta (jotka luetaan aina oikein ja missä tahansa muunnelmassa), selaimella pitäisi jo olla tietoa näiden merkkien koodien tulkitsemisesta.

Onnea sinulle! Nähdään pian blogisivuston sivuilla

Voit katsoa lisää videoita siirtymällä osoitteeseen
");">

Saatat olla kiinnostunut

Mitä ovat URL-osoitteet, miten sivuston absoluuttiset ja suhteelliset linkit eroavat toisistaan?
OpenServer - moderni paikallinen palvelin ja esimerkki kuinka käyttää sitä WordPressin asentamiseen tietokoneelle
Mikä on Chmod, mitä oikeuksia tiedostoille ja kansioihin (777, 755, 666) voi antaa ja miten se tehdään PHP:n kautta
Yandex-haku sivuston ja verkkokaupan mukaan

Jotta ASCII:ta voisi käyttää oikein, on tarpeen laajentaa tietämystäsi tällä alueella ja koodausominaisuuksista.

Mikä se on?

ASCII on koodaustaulukko painetuista merkeistä (katso kuvakaappaus nro 1), jotka on kirjoitettu tietokoneen näppäimistöllä tiedon ja joidenkin koodien välittämiseksi. Toisin sanoen aakkoset ja desimaaliluvut on koodattu vastaaviksi symboleiksi, jotka edustavat ja kuljettavat tarvittavaa tietoa.

ASCII on kehitetty Amerikassa, joten vakiomerkkisarja sisältää yleensä englanninkieliset aakkoset numeroineen, yhteensä noin 128 merkkiä. Mutta sitten herää oikeudenmukainen kysymys: mitä tehdä, jos vaaditaan kansallisten aakkosten koodaus?

Muita ASCII-taulukon versioita on kehitetty vastaavien ongelmien ratkaisemiseksi. Esimerkiksi kielille, joilla on vieras rakenne, englannin aakkosten kirjaimet joko poistettiin tai niihin lisättiin lisämerkkejä kansallisten aakkosten muodossa. Siten ASCII-koodaus voi sisältää venäläisiä kirjaimia kansalliseen käyttöön (katso kuvakaappaus nro 2).

Missä ASCII-koodausjärjestelmää käytetään?

Tätä koodausjärjestelmää tarvitaan paitsi tekstitietojen kirjoittamiseen näppäimistöllä. Sitä käytetään myös grafiikassa. Esimerkiksi ASCII Art Maker -ohjelmassa eri laajennusten graafiset kuvat koostuvat ASCII-merkistä (katso kuvakaappaus nro 3).


Yleensä tällaiset ohjelmat voidaan jakaa sellaisiin, jotka suorittavat graafisten muokkausohjelmien toiminnon, kääntävät kuvan tekstiksi, ja niihin, jotka muuntavat kuvan ASCII-grafiikaksi. Tunnettu hymiö (tai kuten sitä kutsutaan myös " hymyilevät ihmisen kasvot") on myös esimerkki koodausmerkistä.

Tätä koodausmenetelmää voidaan käyttää myös kirjoitettaessa tai luotaessa HTML-dokumenttia. Syötät esimerkiksi tietyn ja tarpeellisen merkkisarjan, ja kun tarkastelet itse sivua, tätä koodia vastaava symboli näkyy näytöllä.

Muun muassa tämän tyyppinen koodaus on tarpeen monikielistä verkkosivustoa luotaessa, koska merkit, jotka eivät sisälly yhteen tai toiseen kansalliseen taulukkoon, on korvattava ASCII-koodeilla. Jos lukija on suoraan yhteydessä tieto- ja viestintätekniikoihin (ICT), hänen on hyödyllistä tutustua sellaisiin järjestelmiin kuin:

  1. Kannettava merkistö;
  2. Ohjausmerkit;
  3. EBCDIC;
  4. VISCII;
  5. YUSCII;
  6. Unicode;
  7. ASCII-taide;
  8. KOI-8.

ASCII-taulukon ominaisuudet

Kuten kaikilla systemaattisilla ohjelmilla, ASCII:lla on omat ominaispiirteensä. Joten esimerkiksi desimaalilukujärjestelmä (numerot 0 - 9) muunnetaan binäärilukujärjestelmäksi (ts. jokainen desimaaliluku muunnetaan binääriluvuksi 288 = 1001000).

Ylä- ja alasarakkeessa olevat kirjaimet eroavat toisistaan ​​vain vähän, mikä vähentää merkittävästi tapauksen tarkistamisen ja muokkaamisen monimutkaisuutta.

Kaikilla näillä ominaisuuksilla ASCII-koodaus toimii kahdeksanbittisenä, vaikka se oli alun perin tarkoitettu seitsemänbittiseksi.

ASCII:n käyttö Microsoft Office -ohjelmissa:

Tarvittaessa tätä tietojen koodausvaihtoehtoa voidaan käyttää Microsoft Notepadissa ja Microsoft Office Wordissa. Näissä sovelluksissa asiakirja voidaan tallentaa ASCII-muodossa, mutta tässä tapauksessa et voi käyttää kaikkia toimintoja tekstiä kirjoitettaessa.

Erityisesti lihavointi ja lihavointi eivät ole käytettävissä, koska koodaus säilyttää vain kirjoitetun tiedon merkityksen, ei yleistä ulkoasua ja muotoa. Voit lisätä tällaisia ​​koodeja asiakirjaan käyttämällä seuraavia ohjelmistosovelluksia:

  • Microsoft Excel;
  • Microsoft FrontPage;
  • Microsoft InfoPath;
  • Microsoft OneNote;
  • Microsoft Outlook;
  • Microsoft PowerPoint;
  • Microsoft Project.

On syytä harkita, että kun kirjoitat ASCII-koodia näissä sovelluksissa, sinun on pidettävä ALT-näppäintä painettuna.

Tietenkin kaikki tarvittavat koodit vaativat pidemmän ja yksityiskohtaisemman tutkimuksen, mutta tämä ei kuulu tämän päivän artikkelimme soveltamisalaan. Toivottavasti pidit siitä todella hyödyllisenä.

Nähdään taas!

Hyvä huono

Tietokone ymmärtää prosessin, jolla se muunnetaan muotoon, joka mahdollistaa näiden tietojen helpomman siirron, tallennuksen tai automaattisen käsittelyn. Tähän tarkoitukseen käytetään erilaisia ​​​​taulukoita. ASCII oli ensimmäinen Yhdysvalloissa kehitetty järjestelmä englanninkielisen tekstin käsittelyyn, ja siitä tuli myöhemmin laajalle levinnyt kaikkialla maailmassa. Alla oleva artikkeli on omistettu sen kuvaukselle, ominaisuuksille, ominaisuuksille ja jatkokäytölle.

Tietojen näyttäminen ja tallentaminen tietokoneeseen

Tietokoneen näytöllä tai yhdessä tai toisessa mobiilissa digitaalisessa vempaimessa olevat symbolit muodostetaan erilaisten merkkien vektorimuotojen ja koodin perusteella, jonka avulla voit löytää niiden joukosta symbolin, joka on lisättävä oikeaan paikkaan. Se edustaa bittisarjaa. Siten jokaisen merkin on yksilöllisesti vastattava joukkoa nollia ja ykkösiä, jotka esiintyvät tietyssä, ainutlaatuisessa järjestyksessä.

Kuinka kaikki alkoi

Historiallisesti ensimmäiset tietokoneet olivat englanninkielisiä. Symbolisen tiedon koodaamiseen niihin riitti käyttää vain 7 bittiä muistia, kun taas tähän tarkoitukseen oli varattu 1 tavu, joka koostui 8 bitistä. Tietokoneen ymmärtämä merkkimäärä oli tässä tapauksessa 128. Näitä merkkejä olivat englanninkieliset aakkoset välimerkeineen, numerot ja eräät erikoismerkit. Vuonna 1963 kehitetty englanninkielinen seitsemän bitin koodaus vastaavalla taulukolla (koodisivulla) kutsuttiin American Standard Code for Information Interchangeksi. Yleensä lyhenne "ASCII-koodaus" käytettiin ja käytetään edelleen osoittamaan sitä.

Siirtyminen monikielisyyteen

Ajan myötä tietokoneita käytettiin laajalti muissa kuin englanninkielisissä maissa. Tässä suhteessa tarvittiin koodauksia, jotka mahdollistavat kansallisten kielten käytön. Päätettiin olla keksimättä pyörää uudelleen ja ottaa ASCII perustana. Uuden painoksen koodaustaulukko on laajentunut merkittävästi. 8. bitin käyttö mahdollisti 256 merkin kääntämisen tietokonekielelle.

Kuvaus

ASCII-koodauksessa on taulukko, joka on jaettu kahteen osaan. Vain sen ensimmäistä puoliskoa pidetään yleisesti hyväksyttynä kansainvälisenä standardina. Se sisältää:

  • Merkkejä, joiden sarjanumerot ovat 0–31 ja jotka on koodattu sarjoiksi 00000000–00011111. Ne on varattu ohjausmerkeille, jotka ohjaavat tekstin näyttämistä näytöllä tai tulostimella, äänimerkin antamista jne.
  • Merkit, joiden NN on taulukossa 32-127 ja jotka on koodattu sarjoilla 00100000-01111111, muodostavat taulukon vakioosan. Näitä ovat välilyönti (N 32), latinalaisten aakkosten kirjaimet (pienet ja isot kirjaimet), kymmennumeroiset numerot 0-9, välimerkit, eri tyyliset hakasulut ja muut symbolit.
  • Merkit, joiden sarjanumerot ovat 128–255 ja jotka on koodattu sarjoilla 10000000–11111111. Näihin kuuluvat muiden kuin latinalaisten kansallisten aakkosten kirjaimet. Tätä ASCII-taulukon vaihtoehtoista osaa käytetään venäläisten merkkien muuntamiseen tietokonemuotoon.

Jotkut ominaisuudet

ASCII-koodauksen ominaisuudet sisältävät vain yhden bitin eron pienten ja isojen kirjainten "A" - "Z" välillä. Tämä seikka yksinkertaistaa huomattavasti rekisterin muuntamista sekä sen tarkistamista, kuuluuko se tiettyyn arvoalueeseen. Lisäksi kaikkia ASCII-koodausjärjestelmän kirjaimia edustavat omat järjestysnumerot aakkosissa, jotka kirjoitetaan binäärinumerojärjestelmässä 5 numerolla, joita edeltää 011 2 pienille kirjaimille ja 010 2 isoille kirjaimille.

Yksi ASCII-koodauksen ominaisuuksista on 10 numeron esitys "0" - "9". Toisessa numerojärjestelmässä ne alkavat 00112:lla ja päättyvät 2 numeroarvoon. Siten 0101 2 vastaa desimaalilukua viisi, joten merkki "5" kirjoitetaan muodossa 0011 01012. Edellä olevan perusteella voit helposti muuntaa BCD-numerot ASCII-merkkijonoksi lisäämällä bittisekvenssin 00112 jokaiseen näppäimeen vasemmalle.

"Unicode"

Kuten tiedät, Kaakkois-Aasian ryhmän kielillä olevien tekstien näyttämiseen tarvitaan tuhansia merkkejä. Tällaista määrää niistä ei voida kuvata millään tavalla yhdessä tietotavussa, joten edes laajennetut ASCII-versiot eivät enää pystyneet tyydyttämään eri maiden käyttäjien lisääntyneitä tarpeita.

Niinpä syntyi tarve luoda universaali tekstikoodaus, jonka kehittämiseen yhteistyössä monien globaalin IT-alan johtajien kanssa ryhtyi Unicode-konsortio. Sen asiantuntijat loivat UTF 32 -järjestelmän. Siinä oli varattu 32 bittiä 1 merkin koodaamiseen, mikä muodosti 4 tavua tietoa. Suurin haittapuoli oli tarvittavan muistin määrän jyrkkä kasvu jopa 4-kertaiseksi, mikä aiheutti monia ongelmia.

Samaan aikaan useimmissa maissa, joissa viralliset kielet kuuluvat indoeurooppalaiseen ryhmään, 2 32 merkkien määrä on enemmän kuin liiallinen.

Unicode-konsortion asiantuntijoiden lisätyön tuloksena ilmestyi UTF-16-koodaus. Siitä tuli vaihtoehto symbolisen tiedon muuntamiseen, joka sopi kaikille sekä tarvittavan muistin että koodattujen merkkien määrän suhteen. Tästä syystä UTF-16 otettiin oletuksena käyttöön, ja se vaatii 2 tavua yhdelle merkille.

Jopa tällä melko edistyneellä ja onnistuneella Unicode-versiolla oli joitain haittoja, ja siirryttyäsi ASCII:n laajennetusta versiosta UTF-16:een asiakirjan paino kaksinkertaistui.

Tässä suhteessa päätettiin käyttää muuttuvapituista UTF-8-koodausta. Tässä tapauksessa jokainen lähdetekstin merkki on koodattu 1-6 tavun pituiseksi sekvenssiksi.

Ota yhteyttä amerikkalaiseen standardikoodiin tiedonvaihtoa varten

Kaikki muuttuvan pituuden UTF-8 latinalaiset merkit on koodattu 1 tavuksi, kuten ASCII-koodausjärjestelmässä.

YTF-8:n erityispiirre on, että latinankielisessä tekstissä ilman muita merkkejä, jopa ohjelmat, jotka eivät ymmärrä Unicodea, voivat silti lukea sen. Toisin sanoen ASCII-perustekstikoodauksesta tulee yksinkertaisesti osa uutta muuttuvapituista UTF:ää. YTF-8:n kyrilliset merkit vievät 2 tavua ja esimerkiksi Georgian merkit - 3 tavua. Luomalla UTF-16 ja UTF-8 ratkaistiin pääongelma yhden kooditilan luomisesta kirjasimiin. Siitä lähtien kirjasinten valmistajat ovat voineet täyttää taulukon vain vektorimuotoisilla tekstimerkkien muodoilla tarpeidensa mukaan.

Eri käyttöjärjestelmät suosivat erilaisia ​​koodauksia. Jotta eri koodauksella kirjoitettuja tekstejä voidaan lukea ja muokata, käytetään venäläisiä tekstinmuunnosohjelmia. Jotkut tekstieditorit sisältävät sisäänrakennetut transkooderit ja mahdollistavat tekstin lukemisen koodauksesta riippumatta.

Nyt tiedät kuinka monta merkkiä ASCII-koodauksessa on ja kuinka ja miksi se kehitettiin. Tietenkin nykyään Unicode-standardi on yleisin maailmassa. Emme kuitenkaan saa unohtaa, että se perustuu ASCII-järjestelmään, joten sen kehittäjien panosta IT-alalle tulee arvostaa.

Kansainvälisen televiestintäliiton mukaan vuonna 2016 kolme ja puoli miljardia ihmistä käytti Internetiä jonkin verran säännöllisesti. Useimmat heistä eivät edes ajattele sitä tosiasiaa, että kaikki viestit, jotka he lähettävät PC:n tai mobiililaitteiden kautta, sekä tekstit, jotka näkyvät kaikenlaisissa näytöissä, ovat itse asiassa 0:n ja 1:n yhdistelmiä. Tätä tiedon esitystapaa kutsutaan koodaukseksi. . Se varmistaa ja helpottaa suuresti sen varastointia, käsittelyä ja siirtoa. Vuonna 1963 kehitettiin amerikkalainen ASCII-koodaus, joka on tämän artikkelin aihe.

Tietojen esittäminen tietokoneella

Minkä tahansa elektronisen tietokoneen näkökulmasta teksti on joukko yksittäisiä merkkejä. Nämä eivät sisällä vain kirjaimia, mukaan lukien isot kirjaimet, vaan myös välimerkit ja numerot. Lisäksi käytetään erikoismerkkejä "=", "&", "(" ja välilyöntejä.

Tekstin muodostavaa merkkijoukkoa kutsutaan aakkosiksi, ja niiden lukumäärää kutsutaan kardinaaliudeksi (merkitty numerolla N). Sen määrittämiseen käytetään lauseketta N = 2^b, jossa b on tietyn symbolin bittien lukumäärä tai informaation paino.

On todistettu, että aakkoset, joiden kapasiteetti on 256 merkkiä, voivat edustaa kaikkia tarvittavia merkkejä.

Koska 256 edustaa kahden kahdeksatta potenssia, kunkin merkin paino on 8 bittiä.

8 bitin mittayksikköä kutsutaan 1 tavuksi, joten on tapana sanoa, että mikä tahansa tietokoneelle tallennetun tekstin merkki vie yhden tavun muistia.

Miten koodaus tehdään?

Kaikki tekstit syötetään henkilökohtaisen tietokoneen muistiin näppäimistön näppäimillä, joihin kirjoitetaan numerot, kirjaimet, välimerkit ja muut symbolit. Ne siirretään RAM:iin binäärikoodina, eli jokainen merkki liittyy ihmisille tuttuihin desimaalikoodiin 0-255, joka vastaa binaarikoodia - 00000000 - 11111111.

Tavutavuinen merkkikoodaus mahdollistaa tekstinkäsittelyä suorittavan prosessorin pääsyn jokaiseen merkkiin erikseen. Samaan aikaan 256 merkkiä riittää edustamaan mitä tahansa symbolista tietoa.

ASCII-merkkikoodaus

Tämä lyhenne englanniksi tarkoittaa koodia tiedonvaihdolle.

Jo tietokoneistumisen kynnyksellä kävi selväksi, että oli mahdollista keksiä monia erilaisia ​​tapoja koodata tietoa. Tietojen siirtämiseksi tietokoneesta toiseen oli kuitenkin tarpeen kehittää yhtenäinen standardi. Joten vuonna 1963 ASCII-koodaustaulukko ilmestyi Yhdysvalloissa. Siinä mikä tahansa tietokoneen aakkosten symboli liittyy sen sarjanumeroon binäärimuodossa. ASCII:ta käytettiin alun perin vain Yhdysvalloissa, ja siitä tuli myöhemmin kansainvälinen PC-standardi.

ASCII-koodit on jaettu kahteen osaan. Vain tämän taulukon ensimmäistä puoliskoa pidetään kansainvälisenä standardina. Se sisältää merkkejä, joiden sarjanumerot ovat 0 (koodattu 00000000) - 127 (koodattu 01111111).

Sarjanumero

ASCII-tekstin koodaus

Symboli

0000 0000 - 0001 1111

Merkkejä, joiden N on 0-31, kutsutaan ohjausmerkeiksi. Niiden tehtävänä on "hallita" tekstin näyttämistä näytöllä tai tulostuslaitteella, äänimerkin antamista jne.

0010 0000 - 0111 1111

Merkit N 32 - 127 (taulukon vakioosa) - latinalaisten aakkosten isot ja pienet kirjaimet, 10. numerot, välimerkit sekä erilaiset sulut, kaupalliset ja muut symbolit. Merkki 32 edustaa välilyöntiä.

1000 0000 - 1111 1111

Merkkeillä, joiden N on 128-255 (taulukon tai koodisivun vaihtoehtoinen osa), voi olla erilaisia ​​muunnelmia, joista jokaisella on oma numeronsa. Koodisivua käytetään määrittämään kansalliset aakkoset, jotka poikkeavat latinalaisista. Erityisesti sen avulla suoritetaan venäläisten merkkien ASCII-koodaus.

Taulukossa koodaukset ovat isoilla kirjaimilla ja seuraavat toisiaan aakkosjärjestyksessä, ja numerot ovat nousevassa järjestyksessä. Tämä periaate pysyy samana venäjän aakkosissa.

Ohjaushahmot

ASCII-koodaustaulukko luotiin alun perin tiedon vastaanottamiseen ja lähettämiseen pitkään käyttämättömän laitteen, kuten teletypen, kautta. Tältä osin merkistössä on mukana ei-tulostettavia merkkejä, joita käytettiin komentoina tämän laitteen ohjaamiseen. Samanlaisia ​​komentoja käytettiin sellaisissa tietokonetta edeltävissä viestintämenetelmissä kuin morsekoodi jne.

Yleisin teletyyppimerkki on NUL (00). Sitä käytetään edelleen useimmissa ohjelmointikielissä osoittamaan rivin loppua.

Missä ASCII-koodausta käytetään?

Amerikkalaista standardikoodia tarvitaan paitsi tekstitietojen syöttämiseen näppäimistöllä. Sitä käytetään myös grafiikassa. Erityisesti ASCII Art Makerissa eri laajennusten kuvat edustavat ASCII-merkkien kirjoa.

Tällaisia ​​tuotteita on kahta tyyppiä: ne, jotka suorittavat graafisten muokkausohjelmien tehtävää muuntamalla kuvat tekstiksi, ja ne, jotka muuntavat "piirustukset" ASCII-grafiikaksi. Esimerkiksi kuuluisa hymiö on erinomainen esimerkki koodaussymbolista.

ASCII:ta voidaan käyttää myös luotaessa HTML-dokumenttia. Tässä tapauksessa voit syöttää tietyn merkkijoukon, ja sivua katseltaessa näytölle tulee tätä koodia vastaava symboli.

ASCII on tarpeen myös monikielisten verkkosivustojen luomiseen, koska merkit, jotka eivät sisälly tiettyyn kansalliseen taulukkoon, korvataan ASCII-koodeilla.

Jotkut ominaisuudet

ASCII:ta käytettiin alun perin tekstitietojen koodaamiseen käyttäen 7 bittiä (yksi jätettiin tyhjäksi), mutta nykyään se toimii 8 bittinä.

Ylä- ja alapuolella olevissa sarakkeissa sijaitsevat kirjaimet eroavat toisistaan ​​vain yhdellä bitillä. Tämä vähentää merkittävästi tarkastuksen monimutkaisuutta.

ASCII:n käyttö Microsoft Officessa

Tarvittaessa tämän tyyppistä tekstitietojen koodausta voidaan käyttää Microsoftin tekstieditoreissa, kuten Muistiossa ja Office Wordissa. Et kuitenkaan ehkä voi käyttää kaikkia toimintoja kirjoittaessasi tässä tapauksessa. Et voi esimerkiksi käyttää lihavoitua tekstiä, koska ASCII-koodaus säilyttää vain tiedon merkityksen jättäen huomioimatta sen yleisen ulkoasun ja muodon.

Standardointi

ISO-organisaatio on ottanut käyttöön ISO 8859 -standardit. Tämä ryhmä määrittelee kahdeksanbittiset koodaukset eri kieliryhmille. Erityisesti ISO 8859-1 on laajennettu ASCII-taulukko Yhdysvaltoihin ja Länsi-Euroopan maihin. Ja ISO 8859-5 on taulukko, jota käytetään kyrillisille aakkosille, mukaan lukien venäjän kieli.

Useista historiallisista syistä ISO 8859-5 -standardia käytettiin hyvin lyhyen aikaa.

Venäjän kielellä käytetään tällä hetkellä itse asiassa seuraavia koodauksia:

  • CP866 (koodisivu 866) tai DOS, jota usein kutsutaan vaihtoehtoiseksi GOST-koodaukseksi. Sitä käytettiin aktiivisesti viime vuosisadan 90-luvun puoliväliin asti. Tällä hetkellä sitä ei käytännössä käytetä.
  • KOI-8. Koodaus kehitettiin 1970- ja 80-luvuilla, ja se on tällä hetkellä yleisesti hyväksytty standardi sähköpostiviesteille RuNetissä. Sitä käytetään laajalti Unix-käyttöjärjestelmissä, mukaan lukien Linux. KOI-8:n "venäläinen" versio on nimeltään KOI-8R. Lisäksi on olemassa versioita muille kyrillisille kielille, kuten ukraina.
  • Koodisivu 1251 (CP 1251, Windows - 1251). Microsoftin kehittämä tukemaan venäjän kieltä Windows-ympäristössä.

Ensimmäisen CP866-standardin tärkein etu oli pseudografisten merkkien säilyminen samoissa paikoissa kuin Extended ASCII:ssa. Tämä mahdollisti ulkomaisten tekstiohjelmien, kuten kuuluisan Norton Commanderin, suorittamisen ilman muutoksia. Tällä hetkellä CP866:ta käytetään Windowsille kehitetyissä ohjelmissa, jotka toimivat koko näytön tekstitilassa tai tekstiikkunoissa, mukaan lukien FAR Manager.

CP866-koodauksella kirjoitetut tietokonetekstit ovat nykyään melko harvinaisia, mutta sitä käytetään Windowsissa venäläisten tiedostonimien kohdalla.

"Unicode"

Tällä hetkellä tämä koodaus on laajimmin käytetty. Unicode-koodit on jaettu alueisiin. Ensimmäinen (U+0000 - U+007F) sisältää ASCII-merkkejä koodeineen. Tämän jälkeen tulevat eri kansallisten kirjoitusten merkkialueet sekä välimerkit ja tekniset symbolit. Lisäksi joitain Unicode-koodeja on varattu siltä varalta, että tulevaisuudessa tarvitaan uusia merkkejä.

Nyt tiedät, että ASCII:ssä jokainen merkki esitetään 8 nollan ja ykkösen yhdistelmänä. Ei-asiantuntijoille nämä tiedot voivat tuntua tarpeettomilta ja epämiellyttäviltä, ​​mutta etkö halua tietää, mitä tietokoneesi "aivoissa" tapahtuu?!

joulukuuta Hex Symboli joulukuuta Hex Symboli
000 00 asiantuntija. NOP 128 80 Ђ
001 01 asiantuntija. SOH 129 81 Ѓ
002 02 asiantuntija. STX 130 82
003 03 asiantuntija. ETX 131 83 ѓ
004 04 asiantuntija. EOT 132 84
005 05 asiantuntija. ENQ 133 85
006 06 asiantuntija. ACK 134 86
007 07 asiantuntija. BEL 135 87
008 08 asiantuntija. B.S. 136 88
009 09 asiantuntija. TAB 137 89
010 0Aasiantuntija. LF 138 8AЉ
011 0Basiantuntija. VT 139 8B‹ ‹
012 0Casiantuntija. FF 140 8CЊ
013 0Dasiantuntija. CR 141 8DЌ
014 0Easiantuntija. NIIN 142 8EЋ
015 0Fasiantuntija. SI. 143 8FЏ
016 10 asiantuntija. DLE 144 90 ђ
017 11 asiantuntija. DC1 145 91
018 12 asiantuntija. DC2 146 92
019 13 asiantuntija. DC3 147 93
020 14 asiantuntija. DC4 148 94
021 15 asiantuntija. N.A.K. 149 95
022 16 asiantuntija. SYN 150 96
023 17 asiantuntija. ETB 151 97
024 18 asiantuntija. VOI 152 98
025 19 asiantuntija. E.M. 153 99
026 1Aasiantuntija. SUB 154 9Aљ
027 1Basiantuntija. POISTU 155 9B
028 1Casiantuntija. FS 156 9Cњ
029 1Dasiantuntija. G.S. 157 9Dќ
030 1Easiantuntija. R.S. 158 9Eћ
031 1Fasiantuntija. MEILLE 159 9Fџ
032 20 kytkin SP (avaruus) 160 A0
033 21 ! 161 A1 Ў
034 22 " 162 A2ў
035 23 # 163 A3Ћ
036 24 $ 164 A4¤
037 25 % 165 A5Ґ
038 26 & 166 A6¦
039 27 " 167 A7§
040 28 ( 168 A8Joo
041 29 ) 169 A9©
042 2A* 170 A.A.Є
043 2B+ 171 AB«
044 2C, 172 A.C.¬
045 2D- 173 ILMOITUS­
046 2E. 174 A.E.®
047 2F/ 175 A.F.Ї
048 30 0 176 B0°
049 31 1 177 B1±
050 32 2 178 B2І
051 33 3 179 B3і
052 34 4 180 B4ґ
053 35 5 181 B5µ
054 36 6 182 B6
055 37 7 183 B7·
056 38 8 184 B8e
057 39 9 185 B9
058 3A: 186 B.A.є
059 3B; 187 BB»
060 3C< 188 B.C.ј
061 3D= 189 BDЅ
062 3E> 190 OLLAѕ
063 3F? 191 B.F.ї
064 40 @ 192 C0 A
065 41 A 193 C1 B
066 42 B 194 C2 SISÄÄN
067 43 C 195 C3 G
068 44 D 196 C4 D
069 45 E 197 C5 E
070 46 F 198 C6 JA
071 47 G 199 C7 Z
072 48 H 200 C8 JA
073 49 minä 201 C9 Y
074 4AJ 202 C.A. TO
075 4BK 203 C.B. L
076 4CL 204 CC M
077 4DM 205 CD N
078 4EN 206 C.E. NOIN
079 4FO 207 CF P
080 50 P 208 D0 R
081 51 K 209 D1 KANSSA
082 52 R 210 D2 T
083 53 S 211 D3 U
084 54 T 212 D4 F
085 55 U 213 D5 X
086 56 V 214 D6 C
087 57 W 215 D7 H
088 58 X 216 D8 Sh
089 59 Y 217 D9 SCH
090 5AZ 218 D.A. Kommersant
091 5B[ 219 D.B. Y
092 5C\ 220 DC b
093 5D] 221 DD E
094 5E^ 222 DE YU
095 5F_ 223 DF minä
096 60 ` 224 E0 A
097 61 a 225 E1 b
098 62 b 226 E2 V
099 63 c 227 E3 G
100 64 d 228 E4 d
101 65 e 229 E5 e
102 66 f 230 E6 ja
103 67 g 231 E7 h
104 68 h 232 E8 Ja
105 69 i 233 E9 th
106 6Aj 234 E.A. Vastaanottaja
107 6Bk 235 E.B. l
108 6Cl 236 E.C. m
109 6Dm 237 ED n
110 6En 238 E.E. O
111 6Fo 239 EF P
112 70 s 240 F0 R
113 71 q 241 F1 Kanssa
114 72 r 242 F2 T
115 73 s 243 F3 klo
116 74 t 244 F4 f
117 75 u 245 F5 X
118 76 v 246 F6 ts
119 77 w 247 F7 h
120 78 x 248 F8 w
121 79 y 249 F9 sch
122 7Az 250 FA. ъ
123 7B{ 251 FB s
124 7C| 252 F.C. b
125 7D} 253 FD uh
126 7E~ 254 F.E. Yu
127 7Fasiantuntija. DEL 255 FF minä

ASCII Windowsin merkkikooditaulukko.
Erikoismerkkien (ohjaus) kuvaus

On huomattava, että ASCII-taulukon ohjausmerkkejä käytettiin alun perin varmistamaan tiedonsiirto telekonekirjoittimen kautta, tietojen syöttäminen rei'itetyltä nauhalta ja ulkoisten laitteiden yksinkertaiseen ohjaukseen.
Tällä hetkellä useimmat ASCII-taulukon ohjausmerkit eivät enää kanna tätä kuormaa, ja niitä voidaan käyttää muihin tarkoituksiin.
Koodi Kuvaus
NUL, 00Tyhjä, tyhjä
SOH, 01Otsikon alku
STX, 02Tekstin alku, tekstin alku.
ETX, 03Tekstin loppu, tekstin loppu
EOT, 04Lähetyksen loppu
ENQ, 05Tiedustella. Ole hyvä ja vahvista
AK, 06Tunnustus. Vahvistan
BEL, 07Bell, soita
BS, 08Askelpalautin, palaa yksi merkki taaksepäin
TAB, 09Välilehti, vaakasuora välilehti
LF, 0ARivinsyöttö, rivinvaihto.
Nykyään useimmissa ohjelmointikielissä se on merkitty \n
VT, 0BPysty välilehti, pystytaulukko.
FF, 0CLomakesyöte, sivusyöte, uusi sivu
CR, 0DVaunun paluu, vaunun paluu.
Nykyään useimmissa ohjelmointikielissä sitä merkitään \r
SO,0EShift Out, muuta tulostuslaitteen mustenauhan väriä
SI,0FShift In, palauta tulostuslaitteen mustenauhan väri takaisin
DLE, 10Data Link Escape, vaihtaa kanavan tiedonsiirtoon
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Device Control, laiteohjaussymbolit
NAK, 15Kielteinen tunnustus, en vahvista.
SYN, 16Synkronointi. Synkronointisymboli
ETB, 17Tekstilohkon loppu, tekstilohkon loppu
CAN, 18Peruuta, peruuta aiemmin siirretty
EM, 19Keskipitkän loppu
SUB, 1AKorvaava, sijainen. Sijoitetaan sellaisen symbolin tilalle, jonka merkitys on kadonnut tai vioittunut lähetyksen aikana
ESC, 1BPakoohjausjärjestys
FS, 1CTiedostoerotin, tiedostoerotin
GS, 1DRyhmäerotin
RS, 1ETietueen erotin, tietueen erotin
USA, 1FYksikön erotin
DEL, 7FPoista, poista viimeinen merkki.