Ascii-tabel binaire code. Coderen van tekstinformatie

Karakter-overlay

Met het BS-teken (backspace) kan de printer het ene teken over het andere afdrukken. ASCII voorzag in het op deze manier toevoegen van diakritische tekens aan letters, bijvoorbeeld:

  • een BS "→ á
  • a BS ` → à
  • een BS ^ → â
  • o BS / → ø
  • c BS , → ç
  • n BS ~ → с

Opmerking: in oudere lettertypen werd de apostrof " schuin naar links getekend en de tilde ~ naar boven verplaatst, zodat ze precies in de rol van een acuut en een tilde bovenaan pasten.

Als hetzelfde teken over een teken heen wordt geplaatst, is het resultaat een vet lettertype-effect, en als er een onderstreping over een teken wordt geplaatst, is het resultaat onderstreepte tekst.

  • a BS a → a
  • aBS_→ A

Let op: dit wordt bijvoorbeeld gebruikt in het manhelpsysteem.

Nationale ASCII-varianten

De ISO 646 (ECMA-6) standaard voorziet in de mogelijkheid om nationale karakters te plaatsen in plaats van @ [ \ ] ^ ` ( | ) ~ . Daarnaast kan £ op de plaats # worden geplaatst en kan ¤ op de plaats $ worden geplaatst. Dit systeem is zeer geschikt voor Europese talen waar slechts een paar extra tekens nodig zijn. De versie van ASCII zonder nationale karakters wordt US-ASCII of "International Reference Version" genoemd.

Vervolgens bleek het handiger om 8-bits coderingen (codepagina's) te gebruiken, waarbij de onderste helft van de codetabel (0-127) wordt ingenomen door US-ASCII-tekens en de bovenste helft (128-255) door extra karakters, waaronder een reeks nationale karakters. Zo werd de bovenste helft van de ASCII-tabel, vóór de wijdverbreide adoptie van Unicode, actief gebruikt om gelokaliseerde karakters, letters van de lokale taal, weer te geven. Het ontbreken van een uniforme standaard voor het plaatsen van Cyrillische tekens in de ASCII-tabel veroorzaakte veel problemen met coderingen (KOI-8, Windows-1251 en andere). Andere talen met niet-Latijnse schriften hadden ook last van verschillende coderingen.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F0. 1. 2. 3. 4. 5. 6. 7. 8. 9. A. B. C. D. E. F.
NUL SOM EOA EOM EQT WRU RU KLOK BKSP HT LF V.T FF CR DUS SI.
gelijkstroom 0 Gelijkstroom 1 Gelijkstroom 2 Gelijkstroom 3 gelijkstroom 4 ERR SYNCHRONISEREN L.E.M. S 0 S 1 S 2 S 3 S 4 S 5 S 6 S 7
LEEG ! " # $ % & " ( ) * + , - . /
0 1 2 3 4 5 6 7 8 9 : ; < = > ?
@ A B C D E F G H I J K L M N O
P Q R S T U V W X Y Z [ \ ]
A B C D e F G H i J k l M N O
P Q R S T u v w X j z ESC DEL

Op computers waarop de minimaal adresseerbare geheugeneenheid een woord van 36 bits was, werden aanvankelijk 6-bits tekens gebruikt (1 woord = 6 tekens). Na de overgang naar ASCII begonnen dergelijke computers ofwel 5 zeven-bits tekens (1 bit bleef extra) of 4 negen-bits tekens in één woord te bevatten.

ASCII-codes worden ook gebruikt om te bepalen welke toets wordt ingedrukt tijdens het programmeren. Voor een standaard QWERTY-toetsenbord ziet de codetabel er als volgt uit:

De set tekens waarmee tekst wordt geschreven, wordt aangeroepen alfabet.

Het aantal tekens in het alfabet is het aantal stroom.

Formule voor het bepalen van de hoeveelheid informatie: N=2b,

waarbij N de macht van het alfabet is (aantal tekens),

b – aantal bits (informatiegewicht van het symbool).

Het alfabet, met een capaciteit van 256 tekens, kan bijna alle benodigde tekens bevatten. Dit alfabet heet voldoende.

Omdat 256 = 2 8, dan is het gewicht van 1 teken 8 bits.

De maateenheid 8 bits kreeg de naam 1 byte:

1 byte = 8 bits.

De binaire code van elk teken in computertekst neemt 1 byte geheugen in beslag.

Hoe wordt tekstinformatie weergegeven in het computergeheugen?

Het gemak van byte-voor-byte tekencodering ligt voor de hand omdat een byte het kleinste adresseerbare deel van het geheugen is en daarom de processor elk teken afzonderlijk kan benaderen bij het verwerken van tekst. Aan de andere kant is 256 tekens ruim voldoende om een ​​grote verscheidenheid aan symbolische informatie weer te geven.

Nu rijst de vraag welke acht-bits binaire code aan elk teken moet worden toegewezen.

Het is duidelijk dat dit een voorwaardelijke kwestie is; je kunt veel coderingsmethoden bedenken.

Alle tekens van het computeralfabet zijn genummerd van 0 tot 255. Elk getal komt overeen met een acht-bits binaire code van 00000000 tot 11111111. Deze code is eenvoudigweg het serienummer van het teken in het binaire getalsysteem.

Een tabel waarin aan alle tekens van het computeralfabet serienummers zijn toegewezen, wordt een coderingstabel genoemd.

Verschillende typen computers gebruiken verschillende coderingstabellen.

De tafel is de internationale standaard voor pc's geworden ASCII(lees aski) (Amerikaanse standaardcode voor informatie-uitwisseling).

De ASCII-codetabel is verdeeld in twee delen.

Alleen de eerste helft van de tabel is de internationale standaard, d.w.z. symbolen met cijfers van 0 (00000000), tot 127 (01111111).

ASCII-coderingstabelstructuur
Serienummer Code Symbool
0 - 31 00000000 - 00011111

Symbolen met cijfers van 0 tot en met 31 worden gewoonlijk controlesymbolen genoemd.
Hun functie is het controleren van het proces van het weergeven van tekst op het scherm of het afdrukken, het laten klinken van een geluidssignaal, het markeren van tekst, enz.

32 - 127 00100000 - 01111111

Standaard onderdeel van de tafel (Engels). Dit omvat kleine letters en hoofdletters van het Latijnse alfabet, decimale cijfers, leestekens, allerlei soorten haakjes, commerciële en andere symbolen.
Teken 32 is een spatie, d.w.z. lege positie in de tekst.
Alle anderen worden weerspiegeld door bepaalde tekens.

128 - 255 10000000 - 11111111

Alternatief deel van de tabel (Russisch).
De tweede helft van de ASCII-codetabel, de codetabel genoemd (128 codes, beginnend bij 10000000 en eindigend met 11111111), kan verschillende opties hebben, elke optie heeft zijn eigen nummer.
De codepagina wordt voornamelijk gebruikt om andere nationale alfabetten dan het Latijn te huisvesten. In Russische nationale coderingen worden tekens uit het Russische alfabet in dit deel van de tabel geplaatst.

Eerste helft van de ASCII-codetabel

Houd er rekening mee dat in de coderingstabel de letters (hoofdletters en kleine letters) in alfabetische volgorde zijn gerangschikt en de cijfers in oplopende volgorde. Deze naleving van de lexicografische volgorde bij de rangschikking van symbolen wordt het principe van sequentiële codering van het alfabet genoemd.

Voor letters van het Russische alfabet wordt ook het principe van sequentiële codering in acht genomen.

Tweede helft van de ASCII-codetabel

Helaas zijn er momenteel vijf verschillende Cyrillische coderingen (KOI8-R, Windows, MS-DOS, Macintosh en ISO). Hierdoor ontstaan ​​er vaak problemen bij het overbrengen van Russische tekst van de ene computer naar de andere, van het ene softwaresysteem naar het andere.

Chronologisch gezien was KOI8 ("Information Exchange Code, 8-bit") een van de eerste standaarden voor het coderen van Russische letters op computers. Deze codering werd al in de jaren zeventig gebruikt op computers uit de ES-computerserie en vanaf het midden van de jaren tachtig werd deze gebruikt in de eerste Russified-versies van het UNIX-besturingssysteem.

Vanaf het begin van de jaren negentig, de tijd van dominantie van het MS DOS-besturingssysteem, blijft de CP866-codering bestaan ​​("CP" betekent "Code Page", "code page").

Apple-computers met het Mac OS-besturingssysteem gebruiken hun eigen Mac-codering.

Bovendien heeft de International Standards Organization (ISO) een andere codering goedgekeurd, genaamd ISO 8859-5, als standaard voor de Russische taal.

De meest gebruikte codering is Microsoft Windows, afgekort CP1251.

Sinds eind jaren negentig is het probleem van het standaardiseren van tekencodering opgelost door de introductie van een nieuwe internationale standaard genaamd Unicode. Dit is een 16-bits codering, d.w.z. het wijst voor elk teken 2 bytes geheugen toe. Dit verhoogt natuurlijk de hoeveelheid geheugen die in beslag wordt genomen met 2 keer. Maar in een dergelijke codetabel kunnen maximaal 65536 tekens worden opgenomen. De volledige specificatie van de Unicode-standaard omvat alle bestaande, uitgestorven en kunstmatig gecreëerde alfabetten van de wereld, evenals vele wiskundige, muzikale, chemische en andere symbolen.

Laten we proberen een ASCII-tabel te gebruiken om ons voor te stellen hoe woorden er in het geheugen van de computer uit zullen zien. Interne representatie van woorden in computergeheugen

Soms komt het voor dat een tekst bestaande uit letters van het Russische alfabet, ontvangen van een andere computer, niet kan worden gelezen - er is een soort "abracadabra" zichtbaar op het beeldscherm. Dit gebeurt omdat computers verschillende tekencoderingen gebruiken voor de Russische taal.

decHexSymbool decHexSymbool
000 00 specialist. NEE 128 80 Ђ
001 01 specialist. SOH 129 81 Ѓ
002 02 specialist. STX 130 82
003 03 specialist. ETX 131 83 ѓ
004 04 specialist. EOT 132 84
005 05 specialist. ENQ 133 85
006 06 specialist. ACK 134 86
007 07 specialist. BEL 135 87
008 08 specialist. B.S. 136 88
009 09 specialist. TAB 137 89
010 0Aspecialist. LF 138 8AЉ
011 0Bspecialist. V.T 139 8B‹ ‹
012 0Cspecialist. FF 140 8CЊ
013 0Dspecialist. CR 141 8DЌ
014 0Especialist. DUS 142 8EЋ
015 0Fspecialist. SI. 143 8FЏ
016 10 specialist. DLE 144 90 ђ
017 11 specialist. DC1 145 91
018 12 specialist. DC2 146 92
019 13 specialist. DC3 147 93
020 14 specialist. DC4 148 94
021 15 specialist. N.A.K. 149 95
022 16 specialist. SYN 150 96
023 17 specialist. ETB 151 97
024 18 specialist. KAN 152 98
025 19 specialist. E.M. 153 99
026 1Aspecialist. SUB 154 9Aљ
027 1Bspecialist. ESC 155 9B
028 1Cspecialist. FS 156 9Cњ
029 1Dspecialist. G.S. 157 9Dќ
030 1Especialist. R.S. 158 9Eћ
031 1Fspecialist. ONS 159 9Fџ
032 20 koppeling SP (ruimte) 160 A0
033 21 ! 161 A1 Ў
034 22 " 162 A2ў
035 23 # 163 A3Ћ
036 24 $ 164 A4¤
037 25 % 165 A5Ґ
038 26 & 166 A6¦
039 27 " 167 A7§
040 28 ( 168 A8Jo
041 29 ) 169 A9©
042 2A* 170 AAЄ
043 2B+ 171 AB«
044 2C, 172 A.C.¬
045 2D- 173 ADVERTENTIE­
046 2E. 174 AE®
047 2F/ 175 AFЇ
048 30 0 176 B0°
049 31 1 177 B1±
050 32 2 178 B2І
051 33 3 179 B3і
052 34 4 180 B4ґ
053 35 5 181 B5µ
054 36 6 182 B6
055 37 7 183 B7·
056 38 8 184 B8e
057 39 9 185 B9
058 3A: 186 B.A.є
059 3B; 187 BB»
060 3C< 188 BCј
061 3D= 189 BDЅ
062 3E> 190 ZIJNѕ
063 3F? 191 B.F.ї
064 40 @ 192 C0 A
065 41 A 193 C1 B
066 42 B 194 C2 IN
067 43 C 195 C3 G
068 44 D 196 C4 D
069 45 E 197 C5 E
070 46 F 198 C6 EN
071 47 G 199 C7 Z
072 48 H 200 C8 EN
073 49 I 201 C9 Y
074 4AJ 202 C.A. NAAR
075 4BK 203 C.B. L
076 4CL 204 CC M
077 4DM 205 CD N
078 4EN 206 CE OVER
079 4FO 207 CF P
080 50 P 208 D0 R
081 51 Q 209 D1 MET
082 52 R 210 D2 T
083 53 S 211 D3 U
084 54 T 212 D4 F
085 55 U 213 D5 X
086 56 V 214 D6 C
087 57 W 215 D7 H
088 58 X 216 D8 Sch
089 59 Y 217 D9 SCH
090 5AZ 218 D.A. Kommersant
091 5B[ 219 D.B. Y
092 5C\ 220 gelijkstroom B
093 5D] 221 DD E
094 5E^ 222 DE Yu
095 5F_ 223 DF I
096 60 ` 224 E0 A
097 61 A 225 E1 B
098 62 B 226 E2 V
099 63 C 227 E3 G
100 64 D 228 E4 D
101 65 e 229 E5 e
102 66 F 230 E6 En
103 67 G 231 E7 H
104 68 H 232 E8 En
105 69 i 233 E9 e
106 6AJ 234 E.A. Naar
107 6Bk 235 E.B. l
108 6Cl 236 E.C. M
109 6DM 237 ED N
110 6EN 238 E.E. O
111 6FO 239 EF N
112 70 P 240 F0 R
113 71 Q 241 F1 Met
114 72 R 242 F2 T
115 73 S 243 F3 bij
116 74 T 244 F4 F
117 75 u 245 F5 X
118 76 v 246 F6 ts
119 77 w 247 F7 H
120 78 X 248 F8 w
121 79 j 249 F9 sch
122 7Az 250 FA. ъ
123 7B{ 251 FB S
124 7C| 252 F.C. B
125 7D} 253 FD uh
126 7E~ 254 F.E. jij
127 7FSpecialist. DEL 255 FF I
ASCII Windows-tekencodetabel.
Beschrijving van speciale (controle)tekens Opgemerkt moet worden dat aanvankelijk controletekens van de ASCII-tabel werden gebruikt om de gegevensuitwisseling via teletype, gegevensinvoer vanaf ponsband en voor eenvoudige bediening van externe apparaten te garanderen.
Momenteel dragen de meeste ASCII-tabelbesturingstekens deze belasting niet meer en kunnen ze voor andere doeleinden worden gebruikt. Codebeschrijving
NUL, 00Nul, leeg
SOH, 01Begin van de koers
STX, 02Begin van TeXt, het begin van de tekst.
ETX, 03Einde van TeXt, einde van tekst
EO, 04Einde van verzending, einde van verzending
ENQ, 05Informeer. Bevestig alstublieft
ACK, 06Erkenning. Ik bevestig
BE, 07Bel, bel
BS, 08Backspace, ga één teken terug
TAB, 09Tabblad, horizontaal tabblad
LF, 0ALijnvoeding, lijnvoeding.
Tegenwoordig wordt het in de meeste programmeertalen aangeduid als \n
VT, 0BVerticaal tabblad, verticale tabellering.
FF, 0CFormulierfeed, paginafeed, nieuwe pagina
CR, 0DVervoer retour, vervoer retour.
Tegenwoordig wordt het in de meeste programmeertalen aangeduid als \r
DUS,0EShift Out, verander de kleur van het inktlint in het afdrukapparaat
SI,0FShift In, breng de kleur van het inktlint in het afdrukapparaat terug
DLE, 10Data Link Escape, waarbij het kanaal wordt overgeschakeld naar datatransmissie
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Apparaatcontrole, symbolen voor apparaatcontrole
NAK, 15Negatieve erkenning, ik bevestig dit niet.
SYN, 16Synchronisatie. Synchronisatie symbool
ETB, 17Einde van tekstblok, einde van het tekstblok
KAN, 18Annuleren, annulering van een eerder verzonden bericht
EM, 19Einde van Middel
ONDER, 1AVervanger, vervanger.
Geplaatst in plaats van een symbool waarvan de betekenis tijdens de verzending verloren is gegaan of beschadigd isESC, 1B
OntsnappingsbesturingsreeksFS, 1C
Bestandsscheider, bestandsscheiderGS, 1D
GroepsscheiderRS, 1E
Recordscheider, recordscheiderVS, 1F
EenheidsscheiderDEL, 7F

Verwijderen, wis het laatste teken.

Excel voor Office 365 Word voor Office 365 Outlook voor Office 365 PowerPoint voor Office 365 Publisher voor Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 2013 Publisher 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Uitgever 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Uitgever 2010 Visio 2010 Excel 2007 Word 2007 Outlook 20 07 PowerPoint 2007 Uitgever 2 007 Toegang 2007 Visio 2007 OneNote 2007 Kantoor 2010 Visio Standaard 2007 Visio Standaard 2010 Minder

In dit artikel: Voeg een ASCII- of Unicode-teken in een document in

Als u slechts enkele speciale tekens of symbolen hoeft in te voeren, kunt u sneltoetsen gebruiken. Voor een lijst met ASCII-tekens raadpleegt u de volgende tabellen of het artikel Nationale alfabetten invoegen met behulp van sneltoetsen.

Opmerkingen:

ASCII-tekens invoegen

Om een ​​ASCII-teken in te voegen, houdt u de ALT-toets ingedrukt terwijl u de tekencode invoert. Als u bijvoorbeeld een gradensymbool (º) wilt invoegen, houdt u de ALT-toets ingedrukt en voert u vervolgens 0176 in op het numerieke toetsenbord.

Om cijfers in te voeren, gebruikt u het numerieke toetsenbord in plaats van de cijfers op het hoofdtoetsenbord. Als u cijfers moet invoeren op het numerieke toetsenbord, zorg er dan voor dat de NUM LOCK-indicator brandt.

Unicode-tekens invoegen

Als u een Unicode-teken wilt invoegen, voert u de tekencode in en drukt u vervolgens op ALT en X. Als u bijvoorbeeld een dollarteken ($) wilt invoegen, voert u 0024 in en drukt u op ALT en X. Zie voor alle Unicode-tekencodes.

Als u slechts enkele speciale tekens of symbolen hoeft in te voeren, kunt u sneltoetsen gebruiken. Voor een lijst met ASCII-tekens raadpleegt u de volgende tabellen of het artikel Nationale alfabetten invoegen met behulp van sneltoetsen.

    Als het verkeerde Unicode-teken verschijnt nadat u op ALT+X hebt gedrukt, selecteert u de juiste code en drukt u nogmaals op ALT+X.

    Bovendien moet u vóór de code "U+" invoeren. Als u bijvoorbeeld "1U+B5" invoert en op ALT+X drukt, wordt de tekst "1µ" weergegeven, en als u "1B5" invoert en op ALT+X drukt, wordt het symbool "Ƶ" weergegeven.

Gebruik van de symbolentabel

Een tekentabel is een programma dat is ingebouwd in Microsoft Windows en waarmee u de beschikbare tekens voor een geselecteerd lettertype kunt bekijken.

Met behulp van een symbolentabel kunt u individuele symbolen of een groep symbolen naar het klembord kopiëren en deze in elk programma plakken dat de weergave van deze symbolen ondersteunt. De symbolentabel openen

    Voer in Windows 10 het woord 'symbool' in het zoekvak op de taakbalk in en selecteer de symbooltabel uit de zoekresultaten.

    In Windows 8 typt u het woord "symbool" op het startscherm en selecteert u de symbooltabel uit de zoekresultaten.

    Klik in Windows 7 op de knop Start, selecteer Alle programma's, Bureau-accessoires, Systeemwerkset en klik vervolgens op Tekenoverzicht.

Tekens zijn gegroepeerd op lettertype. Klik op de lettertypelijst om de juiste tekenset te selecteren. Om een ​​symbool te selecteren, klikt u erop en vervolgens op de knop Selecteren. Om een ​​symbool in te voegen, klikt u met de rechtermuisknop op de gewenste locatie in het document en selecteert u Plakken.

Veelgebruikte tekencodes

Zie Computer, ASCII-tekencodetabel of Unicode-tekentabellen geordend per set voor een volledige lijst met tekens.

Glyph

Glyph

Munteenheid

Juridische symbolen

Wiskundige symbolen

Breuken

Interpunctie- en dialectsymbolen

Vorm symbolen

Veelgebruikte diakritische codes

Voor een volledige lijst met glyphs en bijbehorende codes, zie.

Glyph

Glyph

Niet-afdrukbare ASCII-besturingstekens

De tekens die worden gebruikt om bepaalde randapparaten, zoals printers, te bedienen, zijn in de ASCII-tabel genummerd van 0–31. Het teken voor paginainvoer/nieuwe pagina is bijvoorbeeld nummer 12. Dit teken vertelt de printer dat hij naar het begin van de volgende pagina moet gaan.

Tabel met niet-afdrukbare ASCII-besturingstekens

Decimaal getal

Teken

Decimaal getal

Teken

Het datakanaal vrijmaken

Begin van de titel

Eerste apparaatcontrolecode

Begin van tekst

Tweede apparaatcontrolecode

Einde tekst

Derde apparaatcontrolecode

Einde van de uitzending

Vierde apparaatcontrolecode

vijfpuntig

Negatieve bevestiging

Bevestiging

Synchrone transmissiemodus

Piep

Einde van verzonden datablok

Horizontale tabellering

Einde van de media

Regelinvoer/nieuwe regel

Vervangingssymbool

Verticaal tabblad

overschrijden

Paginavertaling/nieuwe pagina

Twaalf

Bestandsscheider

Vervoer terug

Groepsscheidingsteken

Schakelen zonder bits op te slaan

Recordscheidingsteken

Bitbehoudende verschuiving

vijftien

Gegevensscheider

Een computer begrijpt het proces van het omzetten ervan in een vorm die een gemakkelijkere overdracht, opslag of automatische verwerking van deze gegevens mogelijk maakt. Hiervoor worden verschillende tabellen gebruikt. ASCII was het eerste in de Verenigde Staten ontwikkelde systeem voor het werken met Engelse tekst, dat vervolgens over de hele wereld wijdverspreid werd. Het onderstaande artikel is gewijd aan de beschrijving, kenmerken, eigenschappen en verder gebruik.

Weergave en opslag van informatie op een computer

Symbolen op een computermonitor of een of ander mobiel digitaal gadget worden gevormd op basis van sets vectorvormen van verschillende karakters en een code waarmee u het symbool kunt vinden dat op de juiste plaats moet worden ingevoegd. Het vertegenwoordigt een reeks bits. Elk teken moet dus op unieke wijze overeenkomen met een reeks nullen en enen, die in een bepaalde, unieke volgorde verschijnen.

Hoe het allemaal begon

Historisch gezien waren de eerste computers Engelstalig. Om symbolische informatie daarin te coderen, was het voldoende om slechts 7 bits geheugen te gebruiken, terwijl voor dit doel 1 byte bestaande uit 8 bits was toegewezen. Het aantal tekens dat de computer in dit geval kon begrijpen, was 128. Deze tekens omvatten het Engelse alfabet met zijn leestekens, cijfers en enkele speciale tekens. De Engelstalige zeven-bits codering met de bijbehorende tabel (codepagina), ontwikkeld in 1963, werd de American Standard Code for Information Interchange genoemd. Meestal werd en wordt de afkorting “ASCII-codering” gebruikt om dit aan te duiden.

Overgang naar meertaligheid

In de loop van de tijd werden computers op grote schaal gebruikt in niet-Engelssprekende landen. In dit opzicht was er behoefte aan coderingen die het gebruik van nationale talen mogelijk maken. Er werd besloten om het wiel niet opnieuw uit te vinden en ASCII als basis te nemen. De coderingstabel in de nieuwe editie is aanzienlijk uitgebreid. Het gebruik van het 8e bit maakte het mogelijk om 256 tekens in een computertaal te vertalen.

Beschrijving

De ASCII-codering heeft een tabel die in 2 delen is verdeeld. Alleen de eerste helft ervan wordt beschouwd als een algemeen aanvaarde internationale standaard. Het omvat:

  • Tekens met serienummers van 0 tot 31, gecodeerd in reeksen van 00000000 tot 00011111. Ze zijn gereserveerd voor besturingstekens die het proces besturen van het weergeven van tekst op het scherm of de printer, het laten klinken van een geluidssignaal, enz.
  • Tekens met NN in de tabel van 32 tot en met 127, gecodeerd door reeksen van 00100000 tot en met 01111111 vormen het standaardgedeelte van de tabel. Deze omvatten een spatie (N 32), letters van het Latijnse alfabet (kleine letters en hoofdletters), tiencijferige cijfers van 0 tot 9, leestekens, haakjes van verschillende stijlen en andere symbolen.
  • Tekens met serienummers van 128 tot 255, gecodeerd door reeksen van 10000000 tot 11111111. Dit omvatten letters van andere nationale alfabetten dan het Latijn. Het is dit alternatieve deel van de ASCII-tabel dat wordt gebruikt om Russische karakters in computervorm om te zetten.

Enkele eigenschappen

Kenmerken van de ASCII-codering omvatten het verschil tussen de letters "A" - "Z" van kleine en hoofdletters met slechts één bit. Deze omstandigheid vereenvoudigt de registerconversie aanzienlijk, evenals het controleren of deze tot een bepaald waardenbereik behoort. Bovendien worden alle letters in het ASCII-coderingssysteem weergegeven door hun eigen volgnummers in het alfabet, die worden geschreven met 5 cijfers in het binaire getallensysteem, voorafgegaan door 011 2 voor kleine letters en 010 2 voor hoofdletters.

Een van de kenmerken van de ASCII-codering is de weergave van 10 cijfers - "0" - "9". In het tweede getallensysteem beginnen ze met 00112 en eindigen ze met 2 getalswaarden. 0101 2 is dus gelijk aan het decimale getal vijf, dus het teken "5" wordt geschreven als 0011 01012. Op basis van het bovenstaande kunt u BCD-nummers eenvoudig omzetten in een ASCII-reeks door de bitreeks 00112 toe te voegen aan elke nibble op de links.

"Unicode"

Zoals u weet zijn er duizenden tekens nodig om teksten in de talen van de Zuidoost-Aziatische groep weer te geven. Een dergelijk aantal kan op geen enkele manier in één byte aan informatie worden beschreven, dus zelfs uitgebreide versies van ASCII konden niet langer voldoen aan de toegenomen behoeften van gebruikers uit verschillende landen.

Zo ontstond de behoefte om een ​​universele tekstcodering te creëren, waarvan de ontwikkeling, in samenwerking met vele leiders van de mondiale IT-industrie, werd uitgevoerd door het Unicode-consortium. De specialisten creëerden het UTF 32-systeem. Daarin werden 32 bits toegewezen om 1 teken te coderen, wat neerkomt op 4 bytes aan informatie. Het grootste nadeel was een sterke toename van de hoeveelheid vereist geheugen met maar liefst vier keer, wat veel problemen met zich meebracht.

Tegelijkertijd is voor de meeste landen met officiële talen die tot de Indo-Europese groep behoren het aantal tekens gelijk aan 2 32 meer dan buitensporig.

Als resultaat van verder werk van specialisten van het Unicode-consortium verscheen de UTF-16-codering. Het werd de optie voor het converteren van symbolische informatie die voor iedereen geschikt was, zowel wat betreft de benodigde hoeveelheid geheugen als het aantal gecodeerde tekens. Dat is de reden waarom UTF-16 standaard is aangenomen en vereist dat er 2 bytes worden gereserveerd voor één teken.

Zelfs deze redelijk geavanceerde en succesvolle versie van Unicode had enkele nadelen, en na de overgang van de uitgebreide versie van ASCII naar UTF-16 verdubbelde het gewicht van het document.

In dit opzicht werd besloten om UTF-8-codering met variabele lengte te gebruiken. In dit geval wordt elk teken van de brontekst gecodeerd als een reeks met een lengte van 1 tot 6 bytes.

Neem contact op met de Amerikaanse standaardcode voor informatie-uitwisseling

Alle Latijnse tekens in UTF-8 variabele lengte zijn gecodeerd in 1 byte, zoals in het ASCII-coderingssysteem.

Een speciaal kenmerk van YTF-8 is dat in het geval van tekst in het Latijn zonder andere tekens te gebruiken, zelfs programma's die Unicode niet begrijpen, deze nog steeds kunnen lezen. Met andere woorden: de basis-ASCII-tekstcodering wordt eenvoudigweg onderdeel van de nieuwe UTF met variabele lengte. Cyrillische karakters in YTF-8 bezetten 2 bytes, en bijvoorbeeld Georgische karakters - 3 bytes. Door UTF-16 en 8 te creëren, werd het grootste probleem van het creëren van een enkele coderuimte in lettertypen opgelost. Sindsdien kunnen lettertypefabrikanten de tabel alleen vullen met vectorvormen van teksttekens op basis van hun behoeften.

Verschillende besturingssystemen geven de voorkeur aan verschillende coderingen. Om teksten die in een andere codering zijn getypt te kunnen lezen en bewerken, worden Russische tekstconversieprogramma's gebruikt. Sommige teksteditors bevatten ingebouwde transcoders waarmee u tekst kunt lezen, ongeacht de codering.

Nu weet u hoeveel tekens er in de ASCII-codering voorkomen en hoe en waarom deze is ontwikkeld. Natuurlijk is de Unicode-standaard tegenwoordig het meest wijdverspreid ter wereld. We mogen echter niet vergeten dat het gebaseerd is op ASCII, dus de bijdrage van de ontwikkelaars op IT-gebied moet op prijs worden gesteld.




2024, leally.ru - Uw gids in de wereld van computers en internet