Ascii-tabel binaire code. Coderen van tekstinformatie
Karakter-overlayMet het BS-teken (backspace) kan de printer het ene teken over het andere afdrukken. ASCII voorzag in het op deze manier toevoegen van diakritische tekens aan letters, bijvoorbeeld:
- een BS "→ á
- a BS ` → à
- een BS ^ → â
- o BS / → ø
- c BS , → ç
- n BS ~ → с
Opmerking: in oudere lettertypen werd de apostrof " schuin naar links getekend en de tilde ~ naar boven verplaatst, zodat ze precies in de rol van een acuut en een tilde bovenaan pasten.
Als hetzelfde teken over een teken heen wordt geplaatst, is het resultaat een vet lettertype-effect, en als er een onderstreping over een teken wordt geplaatst, is het resultaat onderstreepte tekst.
- a BS a → a
- aBS_→ A
Let op: dit wordt bijvoorbeeld gebruikt in het manhelpsysteem.
Nationale ASCII-variantenDe ISO 646 (ECMA-6) standaard voorziet in de mogelijkheid om nationale karakters te plaatsen in plaats van @ [ \ ] ^ ` ( | ) ~ . Daarnaast kan £ op de plaats # worden geplaatst en kan ¤ op de plaats $ worden geplaatst. Dit systeem is zeer geschikt voor Europese talen waar slechts een paar extra tekens nodig zijn. De versie van ASCII zonder nationale karakters wordt US-ASCII of "International Reference Version" genoemd.
Vervolgens bleek het handiger om 8-bits coderingen (codepagina's) te gebruiken, waarbij de onderste helft van de codetabel (0-127) wordt ingenomen door US-ASCII-tekens en de bovenste helft (128-255) door extra karakters, waaronder een reeks nationale karakters. Zo werd de bovenste helft van de ASCII-tabel, vóór de wijdverbreide adoptie van Unicode, actief gebruikt om gelokaliseerde karakters, letters van de lokale taal, weer te geven. Het ontbreken van een uniforme standaard voor het plaatsen van Cyrillische tekens in de ASCII-tabel veroorzaakte veel problemen met coderingen (KOI-8, Windows-1251 en andere). Andere talen met niet-Latijnse schriften hadden ook last van verschillende coderingen.
NUL | SOM | EOA | EOM | EQT | WRU | RU | KLOK | BKSP | HT | LF | V.T | FF | CR | DUS | SI. |
gelijkstroom 0 | Gelijkstroom 1 | Gelijkstroom 2 | Gelijkstroom 3 | gelijkstroom 4 | ERR | SYNCHRONISEREN | L.E.M. | S 0 | S 1 | S 2 | S 3 | S 4 | S 5 | S 6 | S 7 |
LEEG | ! | " | # | $ | % | & | " | ( | ) | * | + | , | - | . | / |
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
@ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ← | |
A | B | C | D | e | F | G | H | i | J | k | l | M | N | O | |
P | Q | R | S | T | u | v | w | X | j | z | ESC | DEL |
Op computers waarop de minimaal adresseerbare geheugeneenheid een woord van 36 bits was, werden aanvankelijk 6-bits tekens gebruikt (1 woord = 6 tekens). Na de overgang naar ASCII begonnen dergelijke computers ofwel 5 zeven-bits tekens (1 bit bleef extra) of 4 negen-bits tekens in één woord te bevatten.
ASCII-codes worden ook gebruikt om te bepalen welke toets wordt ingedrukt tijdens het programmeren. Voor een standaard QWERTY-toetsenbord ziet de codetabel er als volgt uit:
De set tekens waarmee tekst wordt geschreven, wordt aangeroepen alfabet. Het aantal tekens in het alfabet is het aantal stroom. Formule voor het bepalen van de hoeveelheid informatie: N=2b, waarbij N de macht van het alfabet is (aantal tekens), b – aantal bits (informatiegewicht van het symbool). Het alfabet, met een capaciteit van 256 tekens, kan bijna alle benodigde tekens bevatten. Dit alfabet heet voldoende. Omdat 256 = 2 8, dan is het gewicht van 1 teken 8 bits. De maateenheid 8 bits kreeg de naam 1 byte: 1 byte = 8 bits. De binaire code van elk teken in computertekst neemt 1 byte geheugen in beslag. Hoe wordt tekstinformatie weergegeven in het computergeheugen?Het gemak van byte-voor-byte tekencodering ligt voor de hand omdat een byte het kleinste adresseerbare deel van het geheugen is en daarom de processor elk teken afzonderlijk kan benaderen bij het verwerken van tekst. Aan de andere kant is 256 tekens ruim voldoende om een grote verscheidenheid aan symbolische informatie weer te geven. Nu rijst de vraag welke acht-bits binaire code aan elk teken moet worden toegewezen.Het is duidelijk dat dit een voorwaardelijke kwestie is; je kunt veel coderingsmethoden bedenken. Alle tekens van het computeralfabet zijn genummerd van 0 tot 255. Elk getal komt overeen met een acht-bits binaire code van 00000000 tot 11111111. Deze code is eenvoudigweg het serienummer van het teken in het binaire getalsysteem. Een tabel waarin aan alle tekens van het computeralfabet serienummers zijn toegewezen, wordt een coderingstabel genoemd.Verschillende typen computers gebruiken verschillende coderingstabellen. De tafel is de internationale standaard voor pc's geworden ASCII(lees aski) (Amerikaanse standaardcode voor informatie-uitwisseling). De ASCII-codetabel is verdeeld in twee delen. Alleen de eerste helft van de tabel is de internationale standaard, d.w.z. symbolen met cijfers van 0 (00000000), tot 127 (01111111). ASCII-coderingstabelstructuur
Houd er rekening mee dat in de coderingstabel de letters (hoofdletters en kleine letters) in alfabetische volgorde zijn gerangschikt en de cijfers in oplopende volgorde. Deze naleving van de lexicografische volgorde bij de rangschikking van symbolen wordt het principe van sequentiële codering van het alfabet genoemd. Voor letters van het Russische alfabet wordt ook het principe van sequentiële codering in acht genomen. Tweede helft van de ASCII-codetabelHelaas zijn er momenteel vijf verschillende Cyrillische coderingen (KOI8-R, Windows, MS-DOS, Macintosh en ISO). Hierdoor ontstaan er vaak problemen bij het overbrengen van Russische tekst van de ene computer naar de andere, van het ene softwaresysteem naar het andere. Chronologisch gezien was KOI8 ("Information Exchange Code, 8-bit") een van de eerste standaarden voor het coderen van Russische letters op computers. Deze codering werd al in de jaren zeventig gebruikt op computers uit de ES-computerserie en vanaf het midden van de jaren tachtig werd deze gebruikt in de eerste Russified-versies van het UNIX-besturingssysteem. Vanaf het begin van de jaren negentig, de tijd van dominantie van het MS DOS-besturingssysteem, blijft de CP866-codering bestaan ("CP" betekent "Code Page", "code page"). Apple-computers met het Mac OS-besturingssysteem gebruiken hun eigen Mac-codering. Bovendien heeft de International Standards Organization (ISO) een andere codering goedgekeurd, genaamd ISO 8859-5, als standaard voor de Russische taal. De meest gebruikte codering is Microsoft Windows, afgekort CP1251. Sinds eind jaren negentig is het probleem van het standaardiseren van tekencodering opgelost door de introductie van een nieuwe internationale standaard genaamd Unicode. Dit is een 16-bits codering, d.w.z. het wijst voor elk teken 2 bytes geheugen toe. Dit verhoogt natuurlijk de hoeveelheid geheugen die in beslag wordt genomen met 2 keer. Maar in een dergelijke codetabel kunnen maximaal 65536 tekens worden opgenomen. De volledige specificatie van de Unicode-standaard omvat alle bestaande, uitgestorven en kunstmatig gecreëerde alfabetten van de wereld, evenals vele wiskundige, muzikale, chemische en andere symbolen. Laten we proberen een ASCII-tabel te gebruiken om ons voor te stellen hoe woorden er in het geheugen van de computer uit zullen zien. Interne representatie van woorden in computergeheugenSoms komt het voor dat een tekst bestaande uit letters van het Russische alfabet, ontvangen van een andere computer, niet kan worden gelezen - er is een soort "abracadabra" zichtbaar op het beeldscherm. Dit gebeurt omdat computers verschillende tekencoderingen gebruiken voor de Russische taal.
Beschrijving van speciale (controle)tekens Opgemerkt moet worden dat aanvankelijk controletekens van de ASCII-tabel werden gebruikt om de gegevensuitwisseling via teletype, gegevensinvoer vanaf ponsband en voor eenvoudige bediening van externe apparaten te garanderen. Momenteel dragen de meeste ASCII-tabelbesturingstekens deze belasting niet meer en kunnen ze voor andere doeleinden worden gebruikt.
Verwijderen, wis het laatste teken. Excel voor Office 365 Word voor Office 365 Outlook voor Office 365 PowerPoint voor Office 365 Publisher voor Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 2013 Publisher 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Uitgever 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Uitgever 2010 Visio 2010 Excel 2007 Word 2007 Outlook 20 07 PowerPoint 2007 Uitgever 2 007 Toegang 2007 Visio 2007 OneNote 2007 Kantoor 2010 Visio Standaard 2007 Visio Standaard 2010 MinderIn dit artikel: Voeg een ASCII- of Unicode-teken in een document in Als u slechts enkele speciale tekens of symbolen hoeft in te voeren, kunt u sneltoetsen gebruiken. Voor een lijst met ASCII-tekens raadpleegt u de volgende tabellen of het artikel Nationale alfabetten invoegen met behulp van sneltoetsen. Opmerkingen:ASCII-tekens invoegen Om een ASCII-teken in te voegen, houdt u de ALT-toets ingedrukt terwijl u de tekencode invoert. Als u bijvoorbeeld een gradensymbool (º) wilt invoegen, houdt u de ALT-toets ingedrukt en voert u vervolgens 0176 in op het numerieke toetsenbord. Om cijfers in te voeren, gebruikt u het numerieke toetsenbord in plaats van de cijfers op het hoofdtoetsenbord. Als u cijfers moet invoeren op het numerieke toetsenbord, zorg er dan voor dat de NUM LOCK-indicator brandt.Unicode-tekens invoegen Als u een Unicode-teken wilt invoegen, voert u de tekencode in en drukt u vervolgens op ALT en X. Als u bijvoorbeeld een dollarteken ($) wilt invoegen, voert u 0024 in en drukt u op ALT en X. Zie voor alle Unicode-tekencodes. Als u slechts enkele speciale tekens of symbolen hoeft in te voeren, kunt u sneltoetsen gebruiken. Voor een lijst met ASCII-tekens raadpleegt u de volgende tabellen of het artikel Nationale alfabetten invoegen met behulp van sneltoetsen. Als het verkeerde Unicode-teken verschijnt nadat u op ALT+X hebt gedrukt, selecteert u de juiste code en drukt u nogmaals op ALT+X. Bovendien moet u vóór de code "U+" invoeren. Als u bijvoorbeeld "1U+B5" invoert en op ALT+X drukt, wordt de tekst "1µ" weergegeven, en als u "1B5" invoert en op ALT+X drukt, wordt het symbool "Ƶ" weergegeven. Een tekentabel is een programma dat is ingebouwd in Microsoft Windows en waarmee u de beschikbare tekens voor een geselecteerd lettertype kunt bekijken. Met behulp van een symbolentabel kunt u individuele symbolen of een groep symbolen naar het klembord kopiëren en deze in elk programma plakken dat de weergave van deze symbolen ondersteunt. De symbolentabel openen Voer in Windows 10 het woord 'symbool' in het zoekvak op de taakbalk in en selecteer de symbooltabel uit de zoekresultaten. In Windows 8 typt u het woord "symbool" op het startscherm en selecteert u de symbooltabel uit de zoekresultaten. Klik in Windows 7 op de knop Start, selecteer Alle programma's, Bureau-accessoires, Systeemwerkset en klik vervolgens op Tekenoverzicht. Tekens zijn gegroepeerd op lettertype. Klik op de lettertypelijst om de juiste tekenset te selecteren. Om een symbool te selecteren, klikt u erop en vervolgens op de knop Selecteren. Om een symbool in te voegen, klikt u met de rechtermuisknop op de gewenste locatie in het document en selecteert u Plakken. Veelgebruikte tekencodesZie Computer, ASCII-tekencodetabel of Unicode-tekentabellen geordend per set voor een volledige lijst met tekens.
Een computer begrijpt het proces van het omzetten ervan in een vorm die een gemakkelijkere overdracht, opslag of automatische verwerking van deze gegevens mogelijk maakt. Hiervoor worden verschillende tabellen gebruikt. ASCII was het eerste in de Verenigde Staten ontwikkelde systeem voor het werken met Engelse tekst, dat vervolgens over de hele wereld wijdverspreid werd. Het onderstaande artikel is gewijd aan de beschrijving, kenmerken, eigenschappen en verder gebruik. Weergave en opslag van informatie op een computerSymbolen op een computermonitor of een of ander mobiel digitaal gadget worden gevormd op basis van sets vectorvormen van verschillende karakters en een code waarmee u het symbool kunt vinden dat op de juiste plaats moet worden ingevoegd. Het vertegenwoordigt een reeks bits. Elk teken moet dus op unieke wijze overeenkomen met een reeks nullen en enen, die in een bepaalde, unieke volgorde verschijnen. Hoe het allemaal begonHistorisch gezien waren de eerste computers Engelstalig. Om symbolische informatie daarin te coderen, was het voldoende om slechts 7 bits geheugen te gebruiken, terwijl voor dit doel 1 byte bestaande uit 8 bits was toegewezen. Het aantal tekens dat de computer in dit geval kon begrijpen, was 128. Deze tekens omvatten het Engelse alfabet met zijn leestekens, cijfers en enkele speciale tekens. De Engelstalige zeven-bits codering met de bijbehorende tabel (codepagina), ontwikkeld in 1963, werd de American Standard Code for Information Interchange genoemd. Meestal werd en wordt de afkorting “ASCII-codering” gebruikt om dit aan te duiden. Overgang naar meertaligheidIn de loop van de tijd werden computers op grote schaal gebruikt in niet-Engelssprekende landen. In dit opzicht was er behoefte aan coderingen die het gebruik van nationale talen mogelijk maken. Er werd besloten om het wiel niet opnieuw uit te vinden en ASCII als basis te nemen. De coderingstabel in de nieuwe editie is aanzienlijk uitgebreid. Het gebruik van het 8e bit maakte het mogelijk om 256 tekens in een computertaal te vertalen. BeschrijvingDe ASCII-codering heeft een tabel die in 2 delen is verdeeld. Alleen de eerste helft ervan wordt beschouwd als een algemeen aanvaarde internationale standaard. Het omvat:
Kenmerken van de ASCII-codering omvatten het verschil tussen de letters "A" - "Z" van kleine en hoofdletters met slechts één bit. Deze omstandigheid vereenvoudigt de registerconversie aanzienlijk, evenals het controleren of deze tot een bepaald waardenbereik behoort. Bovendien worden alle letters in het ASCII-coderingssysteem weergegeven door hun eigen volgnummers in het alfabet, die worden geschreven met 5 cijfers in het binaire getallensysteem, voorafgegaan door 011 2 voor kleine letters en 010 2 voor hoofdletters. Een van de kenmerken van de ASCII-codering is de weergave van 10 cijfers - "0" - "9". In het tweede getallensysteem beginnen ze met 00112 en eindigen ze met 2 getalswaarden. 0101 2 is dus gelijk aan het decimale getal vijf, dus het teken "5" wordt geschreven als 0011 01012. Op basis van het bovenstaande kunt u BCD-nummers eenvoudig omzetten in een ASCII-reeks door de bitreeks 00112 toe te voegen aan elke nibble op de links. "Unicode"Zoals u weet zijn er duizenden tekens nodig om teksten in de talen van de Zuidoost-Aziatische groep weer te geven. Een dergelijk aantal kan op geen enkele manier in één byte aan informatie worden beschreven, dus zelfs uitgebreide versies van ASCII konden niet langer voldoen aan de toegenomen behoeften van gebruikers uit verschillende landen. Zo ontstond de behoefte om een universele tekstcodering te creëren, waarvan de ontwikkeling, in samenwerking met vele leiders van de mondiale IT-industrie, werd uitgevoerd door het Unicode-consortium. De specialisten creëerden het UTF 32-systeem. Daarin werden 32 bits toegewezen om 1 teken te coderen, wat neerkomt op 4 bytes aan informatie. Het grootste nadeel was een sterke toename van de hoeveelheid vereist geheugen met maar liefst vier keer, wat veel problemen met zich meebracht. Tegelijkertijd is voor de meeste landen met officiële talen die tot de Indo-Europese groep behoren het aantal tekens gelijk aan 2 32 meer dan buitensporig. Als resultaat van verder werk van specialisten van het Unicode-consortium verscheen de UTF-16-codering. Het werd de optie voor het converteren van symbolische informatie die voor iedereen geschikt was, zowel wat betreft de benodigde hoeveelheid geheugen als het aantal gecodeerde tekens. Dat is de reden waarom UTF-16 standaard is aangenomen en vereist dat er 2 bytes worden gereserveerd voor één teken. Zelfs deze redelijk geavanceerde en succesvolle versie van Unicode had enkele nadelen, en na de overgang van de uitgebreide versie van ASCII naar UTF-16 verdubbelde het gewicht van het document. In dit opzicht werd besloten om UTF-8-codering met variabele lengte te gebruiken. In dit geval wordt elk teken van de brontekst gecodeerd als een reeks met een lengte van 1 tot 6 bytes. Neem contact op met de Amerikaanse standaardcode voor informatie-uitwisselingAlle Latijnse tekens in UTF-8 variabele lengte zijn gecodeerd in 1 byte, zoals in het ASCII-coderingssysteem. Een speciaal kenmerk van YTF-8 is dat in het geval van tekst in het Latijn zonder andere tekens te gebruiken, zelfs programma's die Unicode niet begrijpen, deze nog steeds kunnen lezen. Met andere woorden: de basis-ASCII-tekstcodering wordt eenvoudigweg onderdeel van de nieuwe UTF met variabele lengte. Cyrillische karakters in YTF-8 bezetten 2 bytes, en bijvoorbeeld Georgische karakters - 3 bytes. Door UTF-16 en 8 te creëren, werd het grootste probleem van het creëren van een enkele coderuimte in lettertypen opgelost. Sindsdien kunnen lettertypefabrikanten de tabel alleen vullen met vectorvormen van teksttekens op basis van hun behoeften. Verschillende besturingssystemen geven de voorkeur aan verschillende coderingen. Om teksten die in een andere codering zijn getypt te kunnen lezen en bewerken, worden Russische tekstconversieprogramma's gebruikt. Sommige teksteditors bevatten ingebouwde transcoders waarmee u tekst kunt lezen, ongeacht de codering. Nu weet u hoeveel tekens er in de ASCII-codering voorkomen en hoe en waarom deze is ontwikkeld. Natuurlijk is de Unicode-standaard tegenwoordig het meest wijdverspreid ter wereld. We mogen echter niet vergeten dat het gebaseerd is op ASCII, dus de bijdrage van de ontwikkelaars op IT-gebied moet op prijs worden gesteld. Categorieën
|