Ascii-tabel binaire code. Coderen van tekstinformatie

Karakter-overlay

Met het BS-teken (backspace) kan de printer het ene teken over het andere afdrukken. ASCII voorzag in het op deze manier toevoegen van diakritische tekens aan letters, bijvoorbeeld:

een BS "→ á
a BS ` → à
een BS ^ → â
o BS / → ø
c BS , → ç
n BS ~ → с

Opmerking: in oudere lettertypen werd de apostrof " schuin naar links getekend en de tilde ~ naar boven verplaatst, zodat ze precies in de rol van een acuut en een tilde bovenaan pasten.

Als hetzelfde teken over een teken heen wordt geplaatst, is het resultaat een vet lettertype-effect, en als er een onderstreping over een teken wordt geplaatst, is het resultaat onderstreepte tekst.

a BS a → a
aBS_→ A

Let op: dit wordt bijvoorbeeld gebruikt in het manhelpsysteem.

Nationale ASCII-varianten

De ISO 646 (ECMA-6) standaard voorziet in de mogelijkheid om nationale karakters te plaatsen in plaats van @ [ \ ] ^ ` ( | ) ~ . Daarnaast kan £ op de plaats # worden geplaatst en kan ¤ op de plaats $ worden geplaatst. Dit systeem is zeer geschikt voor Europese talen waar slechts een paar extra tekens nodig zijn. De versie van ASCII zonder nationale karakters wordt US-ASCII of "International Reference Version" genoemd.

Vervolgens bleek het handiger om 8-bits coderingen (codepagina's) te gebruiken, waarbij de onderste helft van de codetabel (0-127) wordt ingenomen door US-ASCII-tekens en de bovenste helft (128-255) door extra karakters, waaronder een reeks nationale karakters. Zo werd de bovenste helft van de ASCII-tabel, vóór de wijdverbreide adoptie van Unicode, actief gebruikt om gelokaliseerde karakters, letters van de lokale taal, weer te geven. Het ontbreken van een uniforme standaard voor het plaatsen van Cyrillische tekens in de ASCII-tabel veroorzaakte veel problemen met coderingen (KOI-8, Windows-1251 en andere). Andere talen met niet-Latijnse schriften hadden ook last van verschillende coderingen.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F0. 1. 2. 3. 4. 5. 6. 7. 8. 9. A. B. C. D. E. F.

NUL

SOM

EOA

EOM

EQT

WRU

KLOK

BKSP

V.T

DUS

SI.

gelijkstroom 0

Gelijkstroom 1

Gelijkstroom 2

Gelijkstroom 3

gelijkstroom 4

ERR

SYNCHRONISEREN

L.E.M.

S 0

S 1

S 2

S 3

S 4

S 5

S 6

S 7

LEEG

(

)

;

[

]

←

ESC

DEL

Op computers waarop de minimaal adresseerbare geheugeneenheid een woord van 36 bits was, werden aanvankelijk 6-bits tekens gebruikt (1 woord = 6 tekens). Na de overgang naar ASCII begonnen dergelijke computers ofwel 5 zeven-bits tekens (1 bit bleef extra) of 4 negen-bits tekens in één woord te bevatten.

ASCII-codes worden ook gebruikt om te bepalen welke toets wordt ingedrukt tijdens het programmeren. Voor een standaard QWERTY-toetsenbord ziet de codetabel er als volgt uit:

De set tekens waarmee tekst wordt geschreven, wordt aangeroepen alfabet.

Het aantal tekens in het alfabet is het aantal stroom.

Formule voor het bepalen van de hoeveelheid informatie: N=2b,

waarbij N de macht van het alfabet is (aantal tekens),

b – aantal bits (informatiegewicht van het symbool).

Het alfabet, met een capaciteit van 256 tekens, kan bijna alle benodigde tekens bevatten. Dit alfabet heet voldoende.

Omdat 256 = 2 8, dan is het gewicht van 1 teken 8 bits.

De maateenheid 8 bits kreeg de naam 1 byte:

1 byte = 8 bits.

De binaire code van elk teken in computertekst neemt 1 byte geheugen in beslag.

Hoe wordt tekstinformatie weergegeven in het computergeheugen?

Het gemak van byte-voor-byte tekencodering ligt voor de hand omdat een byte het kleinste adresseerbare deel van het geheugen is en daarom de processor elk teken afzonderlijk kan benaderen bij het verwerken van tekst. Aan de andere kant is 256 tekens ruim voldoende om een grote verscheidenheid aan symbolische informatie weer te geven.

Nu rijst de vraag welke acht-bits binaire code aan elk teken moet worden toegewezen.

Het is duidelijk dat dit een voorwaardelijke kwestie is; je kunt veel coderingsmethoden bedenken.

Alle tekens van het computeralfabet zijn genummerd van 0 tot 255. Elk getal komt overeen met een acht-bits binaire code van 00000000 tot 11111111. Deze code is eenvoudigweg het serienummer van het teken in het binaire getalsysteem.

Een tabel waarin aan alle tekens van het computeralfabet serienummers zijn toegewezen, wordt een coderingstabel genoemd.

Verschillende typen computers gebruiken verschillende coderingstabellen.

De tafel is de internationale standaard voor pc's geworden ASCII(lees aski) (Amerikaanse standaardcode voor informatie-uitwisseling).

De ASCII-codetabel is verdeeld in twee delen.

Alleen de eerste helft van de tabel is de internationale standaard, d.w.z. symbolen met cijfers van 0 (00000000), tot 127 (01111111).

ASCII-coderingstabelstructuur

Serienummer	Code	Symbool
0 - 31	00000000 - 00011111	Symbolen met cijfers van 0 tot en met 31 worden gewoonlijk controlesymbolen genoemd. Hun functie is het controleren van het proces van het weergeven van tekst op het scherm of het afdrukken, het laten klinken van een geluidssignaal, het markeren van tekst, enz.
32 - 127	00100000 - 01111111	Standaard onderdeel van de tafel (Engels). Dit omvat kleine letters en hoofdletters van het Latijnse alfabet, decimale cijfers, leestekens, allerlei soorten haakjes, commerciële en andere symbolen. Teken 32 is een spatie, d.w.z. lege positie in de tekst. Alle anderen worden weerspiegeld door bepaalde tekens.
128 - 255	10000000 - 11111111	Alternatief deel van de tabel (Russisch). De tweede helft van de ASCII-codetabel, de codetabel genoemd (128 codes, beginnend bij 10000000 en eindigend met 11111111), kan verschillende opties hebben, elke optie heeft zijn eigen nummer. De codepagina wordt voornamelijk gebruikt om andere nationale alfabetten dan het Latijn te huisvesten. In Russische nationale coderingen worden tekens uit het Russische alfabet in dit deel van de tabel geplaatst.

Eerste helft van de ASCII-codetabel

Houd er rekening mee dat in de coderingstabel de letters (hoofdletters en kleine letters) in alfabetische volgorde zijn gerangschikt en de cijfers in oplopende volgorde. Deze naleving van de lexicografische volgorde bij de rangschikking van symbolen wordt het principe van sequentiële codering van het alfabet genoemd.

Voor letters van het Russische alfabet wordt ook het principe van sequentiële codering in acht genomen.

Tweede helft van de ASCII-codetabel

Helaas zijn er momenteel vijf verschillende Cyrillische coderingen (KOI8-R, Windows, MS-DOS, Macintosh en ISO). Hierdoor ontstaan er vaak problemen bij het overbrengen van Russische tekst van de ene computer naar de andere, van het ene softwaresysteem naar het andere.

Chronologisch gezien was KOI8 ("Information Exchange Code, 8-bit") een van de eerste standaarden voor het coderen van Russische letters op computers. Deze codering werd al in de jaren zeventig gebruikt op computers uit de ES-computerserie en vanaf het midden van de jaren tachtig werd deze gebruikt in de eerste Russified-versies van het UNIX-besturingssysteem.

Vanaf het begin van de jaren negentig, de tijd van dominantie van het MS DOS-besturingssysteem, blijft de CP866-codering bestaan ("CP" betekent "Code Page", "code page").

Apple-computers met het Mac OS-besturingssysteem gebruiken hun eigen Mac-codering.

Bovendien heeft de International Standards Organization (ISO) een andere codering goedgekeurd, genaamd ISO 8859-5, als standaard voor de Russische taal.

De meest gebruikte codering is Microsoft Windows, afgekort CP1251.

Sinds eind jaren negentig is het probleem van het standaardiseren van tekencodering opgelost door de introductie van een nieuwe internationale standaard genaamd Unicode. Dit is een 16-bits codering, d.w.z. het wijst voor elk teken 2 bytes geheugen toe. Dit verhoogt natuurlijk de hoeveelheid geheugen die in beslag wordt genomen met 2 keer. Maar in een dergelijke codetabel kunnen maximaal 65536 tekens worden opgenomen. De volledige specificatie van de Unicode-standaard omvat alle bestaande, uitgestorven en kunstmatig gecreëerde alfabetten van de wereld, evenals vele wiskundige, muzikale, chemische en andere symbolen.

Laten we proberen een ASCII-tabel te gebruiken om ons voor te stellen hoe woorden er in het geheugen van de computer uit zullen zien. Interne representatie van woorden in computergeheugen

Soms komt het voor dat een tekst bestaande uit letters van het Russische alfabet, ontvangen van een andere computer, niet kan worden gelezen - er is een soort "abracadabra" zichtbaar op het beeldscherm. Dit gebeurt omdat computers verschillende tekencoderingen gebruiken voor de Russische taal.

dec	Hex	Symbool	dec	Hex	Symbool
000	00	specialist. NEE	128	80	Ђ
001	01	specialist. SOH	129	81	Ѓ
002	02	specialist. STX	130	82	‚
003	03	specialist. ETX	131	83	ѓ
004	04	specialist. EOT	132	84	„
005	05	specialist. ENQ	133	85	…
006	06	specialist. ACK	134	86	†
007	07	specialist. BEL	135	87	‡
008	08	specialist. B.S.	136	88	€
009	09	specialist. TAB	137	89	‰
010	0A	specialist. LF	138	8A	Љ
011	0B	specialist. V.T	139	8B	‹ ‹
012	0C	specialist. FF	140	8C	Њ
013	0D	specialist. CR	141	8D	Ќ
014	0E	specialist. DUS	142	8E	Ћ
015	0F	specialist. SI.	143	8F	Џ
016	10	specialist. DLE	144	90	ђ
017	11	specialist. DC1	145	91	‘
018	12	specialist. DC2	146	92	’
019	13	specialist. DC3	147	93	“
020	14	specialist. DC4	148	94	”
021	15	specialist. N.A.K.	149	95
022	16	specialist. SYN	150	96	–
023	17	specialist. ETB	151	97	—
024	18	specialist. KAN	152	98
025	19	specialist. E.M.	153	99	™
026	1A	specialist. SUB	154	9A	љ
027	1B	specialist. ESC	155	9B	›
028	1C	specialist. FS	156	9C	њ
029	1D	specialist. G.S.	157	9D	ќ
030	1E	specialist. R.S.	158	9E	ћ
031	1F	specialist. ONS	159	9F	џ
032	20	koppeling SP (ruimte)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	Jo
041	29	)	169	A9	©
042	2A	*	170	AA	Є
043	2B	+	171	AB	«
044	2C	,	172	A.C.	¬
045	2D	-	173	ADVERTENTIE
046	2E	.	174	AE	®
047	2F	/	175	AF	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	e
057	39	9	185	B9	№
058	3A	:	186	B.A.	є
059	3B	;	187	BB	»
060	3C	<	188	BC	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	ZIJN	ѕ
063	3F	?	191	B.F.	ї
064	40	@	192	C0	A
065	41	A	193	C1	B
066	42	B	194	C2	IN
067	43	C	195	C3	G
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C6	EN
071	47	G	199	C7	Z
072	48	H	200	C8	EN
073	49	I	201	C9	Y
074	4A	J	202	C.A.	NAAR
075	4B	K	203	C.B.	L
076	4C	L	204	CC	M
077	4D	M	205	CD	N
078	4E	N	206	CE	OVER
079	4F	O	207	CF	P
080	50	P	208	D0	R
081	51	Q	209	D1	MET
082	52	R	210	D2	T
083	53	S	211	D3	U
084	54	T	212	D4	F
085	55	U	213	D5	X
086	56	V	214	D6	C
087	57	W	215	D7	H
088	58	X	216	D8	Sch
089	59	Y	217	D9	SCH
090	5A	Z	218	D.A.	Kommersant
091	5B	[	219	D.B.	Y
092	5C	\	220	gelijkstroom	B
093	5D	]	221	DD	E
094	5E	^	222	DE	Yu
095	5F	_	223	DF	I
096	60	`	224	E0	A
097	61	A	225	E1	B
098	62	B	226	E2	V
099	63	C	227	E3	G
100	64	D	228	E4	D
101	65	e	229	E5	e
102	66	F	230	E6	En
103	67	G	231	E7	H
104	68	H	232	E8	En
105	69	i	233	E9	e
106	6A	J	234	E.A.	Naar
107	6B	k	235	E.B.	l
108	6C	l	236	E.C.	M
109	6D	M	237	ED	N
110	6E	N	238	E.E.	O
111	6F	O	239	EF	N
112	70	P	240	F0	R
113	71	Q	241	F1	Met
114	72	R	242	F2	T
115	73	S	243	F3	bij
116	74	T	244	F4	F
117	75	u	245	F5	X
118	76	v	246	F6	ts
119	77	w	247	F7	H
120	78	X	248	F8	w
121	79	j	249	F9	sch
122	7A	z	250	FA.	ъ
123	7B	{	251	FB	S
124	7C	\|	252	F.C.	B
125	7D	}	253	FD	uh
126	7E	~	254	F.E.	jij
127	7F	Specialist. DEL	255	FF	I

ASCII Windows-tekencodetabel.
Beschrijving van speciale (controle)tekens Opgemerkt moet worden dat aanvankelijk controletekens van de ASCII-tabel werden gebruikt om de gegevensuitwisseling via teletype, gegevensinvoer vanaf ponsband en voor eenvoudige bediening van externe apparaten te garanderen.
Momenteel dragen de meeste ASCII-tabelbesturingstekens deze belasting niet meer en kunnen ze voor andere doeleinden worden gebruikt. Codebeschrijving

NUL, 00	Nul, leeg
SOH, 01	Begin van de koers
STX, 02	Begin van TeXt, het begin van de tekst.
ETX, 03	Einde van TeXt, einde van tekst
EO, 04	Einde van verzending, einde van verzending
ENQ, 05	Informeer. Bevestig alstublieft
ACK, 06	Erkenning. Ik bevestig
BE, 07	Bel, bel
BS, 08	Backspace, ga één teken terug
TAB, 09	Tabblad, horizontaal tabblad
LF, 0A	Lijnvoeding, lijnvoeding. Tegenwoordig wordt het in de meeste programmeertalen aangeduid als \n
VT, 0B	Verticaal tabblad, verticale tabellering.
FF, 0C	Formulierfeed, paginafeed, nieuwe pagina
CR, 0D	Vervoer retour, vervoer retour. Tegenwoordig wordt het in de meeste programmeertalen aangeduid als \r
DUS,0E	Shift Out, verander de kleur van het inktlint in het afdrukapparaat
SI,0F	Shift In, breng de kleur van het inktlint in het afdrukapparaat terug
DLE, 10	Data Link Escape, waarbij het kanaal wordt overgeschakeld naar datatransmissie
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Apparaatcontrole, symbolen voor apparaatcontrole
NAK, 15	Negatieve erkenning, ik bevestig dit niet.
SYN, 16	Synchronisatie. Synchronisatie symbool
ETB, 17	Einde van tekstblok, einde van het tekstblok
KAN, 18	Annuleren, annulering van een eerder verzonden bericht
EM, 19	Einde van Middel
ONDER, 1A	Vervanger, vervanger.
Geplaatst in plaats van een symbool waarvan de betekenis tijdens de verzending verloren is gegaan of beschadigd is	ESC, 1B
Ontsnappingsbesturingsreeks	FS, 1C
Bestandsscheider, bestandsscheider	GS, 1D
Groepsscheider	RS, 1E
Recordscheider, recordscheider	VS, 1F
Eenheidsscheider	DEL, 7F

Verwijderen, wis het laatste teken.

Excel voor Office 365 Word voor Office 365 Outlook voor Office 365 PowerPoint voor Office 365 Publisher voor Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 2013 Publisher 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Uitgever 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Uitgever 2010 Visio 2010 Excel 2007 Word 2007 Outlook 20 07 PowerPoint 2007 Uitgever 2 007 Toegang 2007 Visio 2007 OneNote 2007 Kantoor 2010 Visio Standaard 2007 Visio Standaard 2010 Minder

In dit artikel: Voeg een ASCII- of Unicode-teken in een document in

Als u slechts enkele speciale tekens of symbolen hoeft in te voeren, kunt u sneltoetsen gebruiken. Voor een lijst met ASCII-tekens raadpleegt u de volgende tabellen of het artikel Nationale alfabetten invoegen met behulp van sneltoetsen.

Opmerkingen:

ASCII-tekens invoegen

Om een ASCII-teken in te voegen, houdt u de ALT-toets ingedrukt terwijl u de tekencode invoert. Als u bijvoorbeeld een gradensymbool (º) wilt invoegen, houdt u de ALT-toets ingedrukt en voert u vervolgens 0176 in op het numerieke toetsenbord.

Om cijfers in te voeren, gebruikt u het numerieke toetsenbord in plaats van de cijfers op het hoofdtoetsenbord. Als u cijfers moet invoeren op het numerieke toetsenbord, zorg er dan voor dat de NUM LOCK-indicator brandt.

Unicode-tekens invoegen

Als u een Unicode-teken wilt invoegen, voert u de tekencode in en drukt u vervolgens op ALT en X. Als u bijvoorbeeld een dollarteken ($) wilt invoegen, voert u 0024 in en drukt u op ALT en X. Zie voor alle Unicode-tekencodes.

Als het verkeerde Unicode-teken verschijnt nadat u op ALT+X hebt gedrukt, selecteert u de juiste code en drukt u nogmaals op ALT+X.

Bovendien moet u vóór de code "U+" invoeren. Als u bijvoorbeeld "1U+B5" invoert en op ALT+X drukt, wordt de tekst "1µ" weergegeven, en als u "1B5" invoert en op ALT+X drukt, wordt het symbool "Ƶ" weergegeven.

Gebruik van de symbolentabel

Een tekentabel is een programma dat is ingebouwd in Microsoft Windows en waarmee u de beschikbare tekens voor een geselecteerd lettertype kunt bekijken.

Met behulp van een symbolentabel kunt u individuele symbolen of een groep symbolen naar het klembord kopiëren en deze in elk programma plakken dat de weergave van deze symbolen ondersteunt. De symbolentabel openen

Voer in Windows 10 het woord 'symbool' in het zoekvak op de taakbalk in en selecteer de symbooltabel uit de zoekresultaten.

In Windows 8 typt u het woord "symbool" op het startscherm en selecteert u de symbooltabel uit de zoekresultaten.

Klik in Windows 7 op de knop Start, selecteer Alle programma's, Bureau-accessoires, Systeemwerkset en klik vervolgens op Tekenoverzicht.

Tekens zijn gegroepeerd op lettertype. Klik op de lettertypelijst om de juiste tekenset te selecteren. Om een symbool te selecteren, klikt u erop en vervolgens op de knop Selecteren. Om een symbool in te voegen, klikt u met de rechtermuisknop op de gewenste locatie in het document en selecteert u Plakken.

Veelgebruikte tekencodes

Zie Computer, ASCII-tekencodetabel of Unicode-tekentabellen geordend per set voor een volledige lijst met tekens.

Glyph

Munteenheid

Juridische symbolen

Wiskundige symbolen

Breuken

Interpunctie- en dialectsymbolen

Vorm symbolen

Veelgebruikte diakritische codes

Voor een volledige lijst met glyphs en bijbehorende codes, zie.

Glyph

Niet-afdrukbare ASCII-besturingstekens

De tekens die worden gebruikt om bepaalde randapparaten, zoals printers, te bedienen, zijn in de ASCII-tabel genummerd van 0–31. Het teken voor paginainvoer/nieuwe pagina is bijvoorbeeld nummer 12. Dit teken vertelt de printer dat hij naar het begin van de volgende pagina moet gaan.

Tabel met niet-afdrukbare ASCII-besturingstekens

Decimaal getal	Teken	Decimaal getal	Teken
		Het datakanaal vrijmaken
Begin van de titel		Eerste apparaatcontrolecode
Begin van tekst		Tweede apparaatcontrolecode
Einde tekst		Derde apparaatcontrolecode
Einde van de uitzending		Vierde apparaatcontrolecode
	vijfpuntig	Negatieve bevestiging
Bevestiging		Synchrone transmissiemodus
Piep		Einde van verzonden datablok

Horizontale tabellering		Einde van de media
Regelinvoer/nieuwe regel		Vervangingssymbool
Verticaal tabblad			overschrijden
Paginavertaling/nieuwe pagina	Twaalf	Bestandsscheider
Vervoer terug		Groepsscheidingsteken
Schakelen zonder bits op te slaan		Recordscheidingsteken
Bitbehoudende verschuiving	vijftien	Gegevensscheider

Een computer begrijpt het proces van het omzetten ervan in een vorm die een gemakkelijkere overdracht, opslag of automatische verwerking van deze gegevens mogelijk maakt. Hiervoor worden verschillende tabellen gebruikt. ASCII was het eerste in de Verenigde Staten ontwikkelde systeem voor het werken met Engelse tekst, dat vervolgens over de hele wereld wijdverspreid werd. Het onderstaande artikel is gewijd aan de beschrijving, kenmerken, eigenschappen en verder gebruik.

Weergave en opslag van informatie op een computer

Symbolen op een computermonitor of een of ander mobiel digitaal gadget worden gevormd op basis van sets vectorvormen van verschillende karakters en een code waarmee u het symbool kunt vinden dat op de juiste plaats moet worden ingevoegd. Het vertegenwoordigt een reeks bits. Elk teken moet dus op unieke wijze overeenkomen met een reeks nullen en enen, die in een bepaalde, unieke volgorde verschijnen.

Hoe het allemaal begon

Historisch gezien waren de eerste computers Engelstalig. Om symbolische informatie daarin te coderen, was het voldoende om slechts 7 bits geheugen te gebruiken, terwijl voor dit doel 1 byte bestaande uit 8 bits was toegewezen. Het aantal tekens dat de computer in dit geval kon begrijpen, was 128. Deze tekens omvatten het Engelse alfabet met zijn leestekens, cijfers en enkele speciale tekens. De Engelstalige zeven-bits codering met de bijbehorende tabel (codepagina), ontwikkeld in 1963, werd de American Standard Code for Information Interchange genoemd. Meestal werd en wordt de afkorting “ASCII-codering” gebruikt om dit aan te duiden.

Overgang naar meertaligheid

In de loop van de tijd werden computers op grote schaal gebruikt in niet-Engelssprekende landen. In dit opzicht was er behoefte aan coderingen die het gebruik van nationale talen mogelijk maken. Er werd besloten om het wiel niet opnieuw uit te vinden en ASCII als basis te nemen. De coderingstabel in de nieuwe editie is aanzienlijk uitgebreid. Het gebruik van het 8e bit maakte het mogelijk om 256 tekens in een computertaal te vertalen.

Beschrijving

De ASCII-codering heeft een tabel die in 2 delen is verdeeld. Alleen de eerste helft ervan wordt beschouwd als een algemeen aanvaarde internationale standaard. Het omvat:

Tekens met serienummers van 0 tot 31, gecodeerd in reeksen van 00000000 tot 00011111. Ze zijn gereserveerd voor besturingstekens die het proces besturen van het weergeven van tekst op het scherm of de printer, het laten klinken van een geluidssignaal, enz.
Tekens met NN in de tabel van 32 tot en met 127, gecodeerd door reeksen van 00100000 tot en met 01111111 vormen het standaardgedeelte van de tabel. Deze omvatten een spatie (N 32), letters van het Latijnse alfabet (kleine letters en hoofdletters), tiencijferige cijfers van 0 tot 9, leestekens, haakjes van verschillende stijlen en andere symbolen.
Tekens met serienummers van 128 tot 255, gecodeerd door reeksen van 10000000 tot 11111111. Dit omvatten letters van andere nationale alfabetten dan het Latijn. Het is dit alternatieve deel van de ASCII-tabel dat wordt gebruikt om Russische karakters in computervorm om te zetten.

Enkele eigenschappen

Kenmerken van de ASCII-codering omvatten het verschil tussen de letters "A" - "Z" van kleine en hoofdletters met slechts één bit. Deze omstandigheid vereenvoudigt de registerconversie aanzienlijk, evenals het controleren of deze tot een bepaald waardenbereik behoort. Bovendien worden alle letters in het ASCII-coderingssysteem weergegeven door hun eigen volgnummers in het alfabet, die worden geschreven met 5 cijfers in het binaire getallensysteem, voorafgegaan door 011 2 voor kleine letters en 010 2 voor hoofdletters.

Een van de kenmerken van de ASCII-codering is de weergave van 10 cijfers - "0" - "9". In het tweede getallensysteem beginnen ze met 00112 en eindigen ze met 2 getalswaarden. 0101 2 is dus gelijk aan het decimale getal vijf, dus het teken "5" wordt geschreven als 0011 01012. Op basis van het bovenstaande kunt u BCD-nummers eenvoudig omzetten in een ASCII-reeks door de bitreeks 00112 toe te voegen aan elke nibble op de links.

"Unicode"

Zoals u weet zijn er duizenden tekens nodig om teksten in de talen van de Zuidoost-Aziatische groep weer te geven. Een dergelijk aantal kan op geen enkele manier in één byte aan informatie worden beschreven, dus zelfs uitgebreide versies van ASCII konden niet langer voldoen aan de toegenomen behoeften van gebruikers uit verschillende landen.

Zo ontstond de behoefte om een universele tekstcodering te creëren, waarvan de ontwikkeling, in samenwerking met vele leiders van de mondiale IT-industrie, werd uitgevoerd door het Unicode-consortium. De specialisten creëerden het UTF 32-systeem. Daarin werden 32 bits toegewezen om 1 teken te coderen, wat neerkomt op 4 bytes aan informatie. Het grootste nadeel was een sterke toename van de hoeveelheid vereist geheugen met maar liefst vier keer, wat veel problemen met zich meebracht.

Tegelijkertijd is voor de meeste landen met officiële talen die tot de Indo-Europese groep behoren het aantal tekens gelijk aan 2 32 meer dan buitensporig.

Als resultaat van verder werk van specialisten van het Unicode-consortium verscheen de UTF-16-codering. Het werd de optie voor het converteren van symbolische informatie die voor iedereen geschikt was, zowel wat betreft de benodigde hoeveelheid geheugen als het aantal gecodeerde tekens. Dat is de reden waarom UTF-16 standaard is aangenomen en vereist dat er 2 bytes worden gereserveerd voor één teken.

Zelfs deze redelijk geavanceerde en succesvolle versie van Unicode had enkele nadelen, en na de overgang van de uitgebreide versie van ASCII naar UTF-16 verdubbelde het gewicht van het document.

In dit opzicht werd besloten om UTF-8-codering met variabele lengte te gebruiken. In dit geval wordt elk teken van de brontekst gecodeerd als een reeks met een lengte van 1 tot 6 bytes.

Neem contact op met de Amerikaanse standaardcode voor informatie-uitwisseling

Alle Latijnse tekens in UTF-8 variabele lengte zijn gecodeerd in 1 byte, zoals in het ASCII-coderingssysteem.

Een speciaal kenmerk van YTF-8 is dat in het geval van tekst in het Latijn zonder andere tekens te gebruiken, zelfs programma's die Unicode niet begrijpen, deze nog steeds kunnen lezen. Met andere woorden: de basis-ASCII-tekstcodering wordt eenvoudigweg onderdeel van de nieuwe UTF met variabele lengte. Cyrillische karakters in YTF-8 bezetten 2 bytes, en bijvoorbeeld Georgische karakters - 3 bytes. Door UTF-16 en 8 te creëren, werd het grootste probleem van het creëren van een enkele coderuimte in lettertypen opgelost. Sindsdien kunnen lettertypefabrikanten de tabel alleen vullen met vectorvormen van teksttekens op basis van hun behoeften.

Verschillende besturingssystemen geven de voorkeur aan verschillende coderingen. Om teksten die in een andere codering zijn getypt te kunnen lezen en bewerken, worden Russische tekstconversieprogramma's gebruikt. Sommige teksteditors bevatten ingebouwde transcoders waarmee u tekst kunt lezen, ongeacht de codering.

Nu weet u hoeveel tekens er in de ASCII-codering voorkomen en hoe en waarom deze is ontwikkeld. Natuurlijk is de Unicode-standaard tegenwoordig het meest wijdverspreid ter wereld. We mogen echter niet vergeten dat het gebaseerd is op ASCII, dus de bijdrage van de ontwikkelaars op IT-gebied moet op prijs worden gesteld.

Categorieën