Ascii-taulukon binaarikoodi. Tekstitietojen koodaus

Peittokuvasymbolit

BS (askelpalautin) -merkin avulla tulostin voi korvata yhden merkin. ASCII:ssa on säädetty diakriittisten merkkien lisäämisestä kirjaimiin tällä tavalla, esimerkiksi:

a BS "→ á
a BS `→ à
a BS ^ → â
o BS / → ø
c BS, → ç
n BS ~ → ñ

Huomautus: vanhoissa kirjasimissa heittomerkki "piirrettiin vinosti vasemmalle ja tilde ~ siirrettiin ylöspäin, jotta ne sopivat juuri akuutin ja tilden rooliin päälle.

Jos sama symboli asetetaan merkin päälle, saadaan lihavoidun fontin vaikutus, ja jos merkin päälle asetetaan alaviiva, saadaan alleviivattu teksti.

a BS a → a
a BS _ → a

Huomautus: tätä käytetään esimerkiksi miesapujärjestelmässä.

Kansalliset ASCII-versiot

ISO 646 (ECMA-6) -standardi mahdollistaa kansallisten merkkien sijoittamisen @ [ \ ] ^ ` { | } ~ ... Tämän lisäksi paikallaan # voidaan majoittaa £ , ja paikallaan $ - ¤ ... Tämä järjestelmä sopii hyvin eurooppalaisille kielille, joissa tarvitaan vain muutama lisämerkki. ASCII-versiota, jossa ei ole kansallisia merkkejä, kutsutaan US-ASCII:ksi tai "kansainväliseksi viiteversioksi".

Myöhemmin osoittautui helpommaksi käyttää 8-bittisiä koodauksia (koodisivuja), joissa kooditaulukon alapuoli (0-127) on US-ASCII-merkkien varassa ja ylempi (128-255) on. sisältää lisämerkkejä, mukaan lukien joukko kansallisia merkkejä. Siten ASCII-taulukon yläosaa käytettiin ennen Unicoden laajaa käyttöönottoa aktiivisesti edustamaan paikallisia merkkejä, paikallisen kielen kirjaimia. Yhtenäisen standardin puute kyrillisten merkkien sijoittamiselle ASCII-taulukkoon aiheutti monia ongelmia koodauksissa (KOI-8, Windows-1251 ja muut). Muut kielet, joissa ei ole latinalaista kirjoitusta, kärsivät myös useista eri koodauksista.

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
0.	NUL	SOM	EOA	EOM	EQT	WRU	RU	BELL	BKSP	Ht	LF	VT	FF	CR	NIIN	SI
1.	DC 0	DC 1	DC 2	DC 3	DC 4	ERR	SYNK	LEM	S 0	S 1	S 2	S 3	S 4	S 5	S 6	S 7
2.
3.
4.	TYHJÄ	!	"	#	$	%	&	"	(	)	*	+	,	-	.	/
5.	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
6.
7.
8.
9.
A.	@	A	B	C	D	E	F	G	H	minä	J	K	L	M	N	O
B.	P	K	R	S	T	U	V	W	X	Y	Z	[	\	]		←
C.
D.
E.		a	b	c	d	e	f	g	h	i	j	k	l	m	n	o
F.	p	q	r	s	t	u	v	w	x	y	z				POISTU	DEL

Niissä tietokoneissa, joissa pienin osoitettava muistiyksikkö oli 36-bittinen sana, käytettiin aluksi 6-bittisiä merkkejä (1 sana = 6 merkkiä). Tällaisissa tietokoneissa ASCII:hen siirtymisen jälkeen he alkoivat sijoittaa yhteen sanaan joko 5 seitsemänbittistä merkkiä (1 bitti jäi tarpeettomaksi) tai 4 yhdeksänbittistä merkkiä.

ASCII-koodeja käytetään myös ohjelmoinnin aikana painetun näppäimen tunnistamiseen. Tavallisen QWERTY-näppäimistön kooditaulukko näyttää tältä:

Kutsutaan merkkijoukkoa, jolla tekstiä kirjoitetaan aakkoset.

Aakkosten merkkien määrä on hänen tehoa.

Kaava tiedon määrän määrittämiseksi: N = 2 b,

missä N on aakkosten kardinaalisuus (merkkien määrä),

b - bittien lukumäärä (merkin tietopaino).

Aakkoset, joiden kapasiteetti on 256 merkkiä, voivat sisältää melkein kaikki tarvittavat merkit. Tätä aakkosta kutsutaan riittävä.

Koska 256 = 2 8, silloin 1 merkin paino on 8 bittiä.

8-bittinen yksikkö nimettiin 1 tavu:

1 tavu = 8 bittiä.

Tietokonetekstin jokaisen merkin binäärikoodi vie 1 tavun muistia.

Miten tekstitieto esitetään tietokoneen muistissa?

Merkkien tavukoodauksen mukavuus on ilmeinen, koska tavu on muistin pienin osoitettavissa oleva osa ja siksi prosessori voi käyttää jokaista merkkiä erikseen suorittamalla tekstinkäsittelyn. Toisaalta 256 merkkiä on varsin riittävä määrä edustamaan monenlaista merkkitietoa.

Nyt herää kysymys, millainen kahdeksanbittinen binäärikoodi liitetään kuhunkin merkkiin.

On selvää, että tämä on ehdollinen asia, voit keksiä monia koodausmenetelmiä.

Kaikki tietokoneen aakkosten merkit on numeroitu 0 - 255. Jokainen numero vastaa kahdeksan bitin binäärikoodia 00000000 - 11111111. Tämä koodi on yksinkertaisesti merkin järjestysnumero binäärilukujärjestelmässä.

Taulukkoa, jossa kaikki tietokoneen aakkosten merkit on määritetty sarjanumeroiksi, kutsutaan koodaustaulukoksi.

Erityyppisille tietokoneille käytetään erilaisia koodaustaulukoita.

PC:n kansainvälinen standardi on tullut pöytään ASCII(lue asci) (American Standard Code for Information Interchange).

ASCII-taulukko on jaettu kahteen osaan.

Kansainvälinen standardi on vain taulukon ensimmäinen puolisko, ts. symbolit numeroilla alkaen 0 (00000000), enintään 127 (01111111).

ASCII-koodaustaulukkorakenne

Sarjanumero	Koodi	Symboli
0 - 31	00000000 - 00011111	Symboleja, joiden numerot ovat 0-31, kutsutaan yleensä ohjausmerkeiksi. Niiden tehtävänä on ohjata tekstin näyttämistä näytöllä tai tulostamista, äänimerkin antamista, tekstin merkitsemistä jne.
32 - 127	00100000 - 01111111	Pöydän vakioosa (englanniksi). Tämä sisältää latinalaisten aakkosten pienet ja isot kirjaimet, desimaalinumerot, välimerkit, kaikenlaiset hakasulut, kaupalliset ja muut symbolit. Merkki 32 on välilyönti, ts. tyhjä paikka tekstissä. Kaikki muut heijastuvat tietyissä merkeissä.
128 - 255	10000000 - 11111111	Taulukon vaihtoehtoinen osa (venäjä). ASCII-kooditaulukon toisella puoliskolla, jota kutsutaan koodisivuksi (128 koodia alkaen 10000000 ja päättyen numeroon 11111111), voi olla erilaisia muunnelmia, jokaisella versiolla on oma numeronsa. Koodisivua käytetään ensisijaisesti muiden kansallisten aakkosten kuin latinalaisten aakkosten sisällyttämiseen. Venäjän kansallisissa koodauksissa tämä taulukon osa sisältää venäläisten aakkosten symboleja.

ASCII-taulukon ensimmäinen puolisko

Kiinnitän huomionne siihen, että koodaustaulukossa kirjaimet (isot ja pienet) on järjestetty aakkosjärjestykseen ja numerot nousevaan arvojen järjestykseen. Tätä leksikografisen järjestyksen noudattamista merkkien järjestelyssä kutsutaan aakkosten peräkkäisen koodauksen periaatteeksi.

Venäjän aakkosten kirjaimissa noudatetaan myös peräkkäisen koodauksen periaatetta.

ASCII-taulukon toinen puolisko

Valitettavasti tällä hetkellä on olemassa viisi erilaista kyrillistä koodausta (KOI8-R, Windows. MS-DOS, Macintosh ja ISO). Tästä johtuen venäjänkielisen tekstin siirtämisessä tietokoneelta toiselle, ohjelmistojärjestelmästä toiseen syntyy usein ongelmia.

Kronologisesti yksi ensimmäisistä standardeista venäläisten kirjainten koodaamiseen tietokoneissa oli KOI8 ("Tiedonvaihtokoodi, 8-bittinen"). Tätä koodausta käytettiin jo 70-luvulla ES-tietokonesarjan tietokoneissa, ja 80-luvun puolivälistä lähtien sitä alettiin käyttää UNIX-käyttöjärjestelmän ensimmäisissä venäläistetyissä versioissa.

90-luvun alusta, MS DOS -käyttöjärjestelmän dominanssiajasta, CP866-koodaus säilyy ("CP" tarkoittaa "koodisivua").

Apple-tietokoneet, joissa on Mac OS, käyttävät omaa Mac-koodausta.

Lisäksi Kansainvälinen standardointijärjestö (International Standards Organization, ISO) hyväksyi venäjän kielen standardiksi toisen koodauksen nimeltä ISO 8859-5.

Tällä hetkellä yleisin koodaus on Microsoft Windows, lyhenne CP1251.

90-luvun lopulta lähtien merkkikoodauksen standardoinnin ongelma on ratkaistu ottamalla käyttöön uusi kansainvälinen standardi, ns. Unicode... Tämä on 16-bittinen koodaus eli se varaa 2 tavua muistia jokaiselle merkille. Tämä tietysti kaksinkertaistaa käytetyn muistin määrän. Mutta toisaalta, tällainen kooditaulukko sallii jopa 65536 merkin sisällyttämisen. Unicode-standardin täydellinen spesifikaatio sisältää kaikki maailman olemassa olevat, sukupuuttoon kuolleet ja keinotekoisesti luodut aakkoset sekä monet matemaattiset, musiikilliset, kemialliset ja muut symbolit.

Yritetään käyttää ASCII-taulukkoa kuvitellaksesi, miltä sanat näyttävät tietokoneen muistissa.

Sanojen sisäinen esitys tietokoneen muistissa

Joskus käy niin, että venäläisten aakkosten kirjaimista koostuvaa tekstiä, joka on saatu toisesta tietokoneesta, ei voida lukea - näytön näytöllä näkyy jonkinlainen "sisarus". Tämä johtuu siitä, että tietokoneet käyttävät venäjän kielen merkkien erilaista koodausta.

joulukuuta	Hex	Symboli	joulukuuta	Hex	Symboli
000	00	asiantuntija. NOP	128	80	Ђ
001	01	asiantuntija. SOH	129	81	Ѓ
002	02	asiantuntija. STX	130	82	‚
003	03	asiantuntija. ETX	131	83	ѓ
004	04	asiantuntija. EOT	132	84	„
005	05	asiantuntija. ENQ	133	85	…
006	06	asiantuntija. ACK	134	86	†
007	07	asiantuntija. BEL	135	87	‡
008	08	asiantuntija. BS	136	88	€
009	09	asiantuntija. TAB	137	89	‰
010	0A	asiantuntija. LF	138	8A	Љ
011	0B	asiantuntija. VT	139	8B	‹ ‹
012	0C	asiantuntija. FF	140	8C	Њ
013	0D	asiantuntija. CR	141	8D	Ќ
014	0E	asiantuntija. NIIN	142	8E	Ћ
015	0F	asiantuntija. SI	143	8F	Џ
016	10	asiantuntija. DLE	144	90	ђ
017	11	asiantuntija. DC1	145	91	‘
018	12	asiantuntija. DC2	146	92	’
019	13	asiantuntija. DC3	147	93	“
020	14	asiantuntija. DC4	148	94	”
021	15	asiantuntija. NAK	149	95
022	16	asiantuntija. SYN	150	96	–
023	17	asiantuntija. ETB	151	97	—
024	18	asiantuntija. VOI	152	98
025	19	asiantuntija. EM	153	99	™
026	1A	asiantuntija. SUB	154	9A	љ
027	1B	asiantuntija. POISTU	155	9B	›
028	1C	asiantuntija. FS	156	9C	њ
029	1D	asiantuntija. GS	157	9D	ќ
030	1E	asiantuntija. Rs	158	9E	ћ
031	1F	asiantuntija. MEILLE	159	9F	џ
032	20	kytkin SP (avaruus)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	Joo
041	29	)	169	A9	©
042	2A	*	170	AA	Є
043	2B	+	171	AB	«
044	2C	,	172	AC	¬
045	2D	-	173	ILMOITUS
046	2E	.	174	AE	®
047	2F	/	175	AF	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	e
057	39	9	185	B9	№
058	3A	:	186	BA	є
059	3B	;	187	BB	»
060	3C	<	188	eKr	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	OLLA	ѕ
063	3F	?	191	Bf	ї
064	40	@	192	C0	A
065	41	A	193	C1	B
066	42	B	194	C2	V
067	43	C	195	C3	G
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C6	F
071	47	G	199	C7	Z
072	48	H	200	C8	JA
073	49	minä	201	C9	Th
074	4A	J	202	CA	TO
075	4B	K	203	CB	L
076	4C	L	204	CC	M
077	4D	M	205	CD	N
078	4E	N	206	CE	O
079	4F	O	207	CF	NS
080	50	P	208	D0	R
081	51	K	209	D1	KANSSA
082	52	R	210	D2	T
083	53	S	211	D3	Omistaa
084	54	T	212	D4	F
085	55	U	213	D5	NS
086	56	V	214	D6	C
087	57	W	215	D7	H
088	58	X	216	D8	NS
089	59	Y	217	D9	SCH
090	5A	Z	218	DA	B
091	5B	[	219	DB	NS
092	5C	\	220	DC	B
093	5D	]	221	DD	NS
094	5E	^	222	DE	NS
095	5F	_	223	DF	OLEN
096	60	`	224	E0	a
097	61	a	225	E1	b
098	62	b	226	E2	v
099	63	c	227	E3	G
100	64	d	228	E4	d
101	65	e	229	E5	e
102	66	f	230	E6	f
103	67	g	231	E7	s
104	68	h	232	E8	ja
105	69	i	233	E9	th
106	6A	j	234	EA	Vastaanottaja
107	6B	k	235	EB	l
108	6C	l	236	EC	m
109	6D	m	237	ED	n
110	6E	n	238	EE	O
111	6F	o	239	EF	NS
112	70	p	240	F0	R
113	71	q	241	F1	kanssa
114	72	r	242	F2	T
115	73	s	243	F3	klo
116	74	t	244	F4	f
117	75	u	245	F5	NS
118	76	v	246	F6	c
119	77	w	247	F7	h
120	78	x	248	F8	NS
121	79	y	249	F9	SCH
122	7A	z	250	FA	b
123	7B	{	251	FB	NS
124	7C	\|	252	FC	b
125	7D	}	253	FD	NS
126	7E	~	254	FE	NS
127	7F	asiantuntija. DEL	255	FF	olen

Windowsin ASCII-merkkikooditaulukko.
Erikoismerkkien (ohjaus) kuvaus

On huomattava, että alun perin ASCII-taulukon ohjausmerkkejä käytettiin tiedonsiirtoon teletypen kautta, tiedon syöttämiseen rei'itetyltä nauhalta ja ulkoisten laitteiden yksinkertaisimpaan ohjaukseen.
Tällä hetkellä useimmat taulukon ASCII-ohjausmerkit eivät enää kanna tätä taakkaa, ja niitä voidaan käyttää muihin tarkoituksiin.

Koodi	Kuvaus
NUL, 00	Tyhjä, tyhjä
SOH, 01	Suunnan alku, suunnan alku
STX, 02	Tekstin alku, tekstin alku.
ETX, 03	Tekstin loppu, tekstin loppu
EOT, 04	Lähetyksen loppu, lähetyksen loppu
ENQ, 05	Tiedustella. Pyydän vahvistusta
AK, 06	Tunnustus. Vahvistan
BEL, 07	Kello, kello
BS, 08	Askelpalautin, palaa yksi merkki taaksepäin
TAB, 09	Välilehti, vaakasuora välilehti
LF, 0A	Rivinsyöttö, rivinvaihto. Nyt useimmissa ohjelmointikielissä se on merkitty \ n
VT, 0B	Pysty välilehti, pystysuora välilehti.
FF, 0C	Lomakesyöttö, sivun syöttö, uusi sivu
CR, 0D	Vaunun palautus Nyt useimmissa ohjelmointikielissä se on merkitty \ r
Eli 0E	Shift Out, muuta tulostuslaitteen mustenauhan väriä
SI, 0F	Shift In, palauta tulostuslaitteen mustenauhan väri takaisin
DLE, 10	Data Link Escape, vaihda kanava tiedonsiirtoon
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Device Control, laiteohjaussymbolit
NAK, 15	Negatiivinen tunnustus, en tunnusta.
SYN, 16	Synkronointi. Synkronointisymboli
ETB, 17	Tekstilohkon loppu, tekstilohkon loppu
CAN, 18	Peruuta, aiemmin hyväksytyn peruutus
EM, 19	Tietovälineen loppu, tietovälineen loppu
SUB, 1A	Korvaava Sijoitetaan sellaisen merkin tilalle, jonka arvo on kadonnut tai vioittunut lähetyksen aikana
ESC, 1B	Escape Escape -sarja
FS, 1C	Tiedostoerotin, tiedostoerotin
GS, 1D	Ryhmäerotin, ryhmäerotin
RS, 1E	Tietueen erotin, tietueen erotin
USA, 1F	Yksikköerotin, yksikköerotin
DEL, 7F	Poista, poista viimeinen merkki.

Excel for Office 365 Word for Office 365 Outlook for Office 365 PowerPoint for Office 365 Publisher for Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 OneNote 2013 Publisher 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 Visio 2010 Access00 Access00 Access00 Access20o Access07o 2010 Excel 2007Power2070sO 20070 Outlook 20070 20070070 Visio Standard 2007 Visio Standard 2010 Pienempi

Tässä artikkelissa

Lisää asiakirjaan ASCII- tai Unicode-merkki

Jos sinun tarvitsee kirjoittaa vain muutama erikoismerkki tai symboli, voit käyttää kumpaa tahansa pikanäppäimiä. Luettelo ASCII-merkeistä on seuraavissa taulukoissa tai artikkelissa Kansallisten aakkosten lisääminen pikanäppäimillä.

Huomautuksia:

Lisää ASCII-merkkejä

Voit lisätä ASCII-merkin pitämällä ALT-näppäintä painettuna syöttäessäsi merkkikoodia. Jos haluat esimerkiksi lisätä astemerkin (º), pidä Alt-näppäintä painettuna ja kirjoita sitten numeronäppäimistöllä 0176.

Käytä numeronäppäimistöä numeroiden syöttämiseen päänäppäimistön numeroiden sijaan. Jos sinun on syötettävä numeroita numeronäppäimistöllä, varmista, että NUM LOCK-merkkivalo palaa.

Unicode-merkkien lisääminen

Jos haluat lisätä Unicode-merkin, kirjoita merkkikoodi ja paina sitten peräkkäin ALT ja X. Jos haluat esimerkiksi lisätä dollarimerkin ($), kirjoita 0024 ja paina peräkkäin ALT ja X. Katso kaikki Unicode-merkkikoodit.

Tärkeä: Jotkut Microsoft Office -ohjelmat, kuten PowerPoint ja InfoPath, eivät tue Unicode-koodien muuntamista merkeiksi. Jos sinun on lisättävä Unicode-merkki johonkin näistä ohjelmista, käytä.

Huomautuksia:

Jos näet väärän Unicode-merkin painettuasi ALT + X, valitse oikea koodi ja paina sitten ALT + X uudelleen.

Lisäksi ennen koodia on syötettävä "U +". Jos esimerkiksi syötät "1U + B5" ja painat Alt + X, teksti "1µ" tulee näkyviin, ja jos kirjoitat "1B5" ja painat Alt + X, merkki "Ƶ" tulee näkyviin.

Symbolitaulukon käyttö

Symbol Map on Microsoft Windowsiin sisäänrakennettu ohjelma, jonka avulla voit tarkastella valitun fontin käytettävissä olevia symboleja.

Symbolitaulukon avulla voit kopioida yksittäisiä symboleja tai symboliryhmän leikepöydälle ja liittää ne mihin tahansa ohjelmaan, joka voi näyttää kyseiset symbolit. Symbolitaulukon avaaminen

Windows 10:ssä Kirjoita sana "symboli" tehtäväpalkin hakukenttään ja valitse symbolitaulukko hakutuloksista.

Windows 8:ssa Kirjoita aloitusnäytölle sana "merkki" ja valitse merkkitaulukko hakutuloksista.

Windows 7:ssä painaa nappia alkaa, valitse peräkkäin Kaikki ohjelmat, Vakio, Palvelu ja napsauta symbolien taulukko.

Merkit on ryhmitelty fontin mukaan. Napsauta fonttiluetteloa valitaksesi sopiva merkistö. Valitse symboli napsauttamalla sitä ja sitten napsauttamalla Valitse... Lisää symboli napsauttamalla hiiren oikealla painikkeella haluamaasi kohtaa asiakirjassa ja valitsemalla Lisää.

Usein käytetyt symbolikoodit

Täydellinen merkkiluettelo on tietokoneesi, ASCII-merkkikooditaulukossa tai Unicode-merkistötaulukoissa.

Glyph

Rahayksiköt

Oikeudelliset symbolit

Matemaattiset symbolit

Murtoluvut

Välimerkit ja murresymbolit

Lomakkeiden symbolit

Yleisesti käytetyt diakriittiset koodit

Katso täydellinen luettelo kuvioista ja niihin liittyvistä koodeista.

Glyph

Ei-tulostettavat ASCII-ohjausmerkit

Joidenkin oheislaitteiden, kuten tulostimien, ohjaamiseen käytettävät merkit on numeroitu ASCII-taulukossa 0–31. Esimerkiksi syötteen / uuden sivun merkki on numero 12. Tämä merkki kertoo tulostimen siirtymään seuraavan sivun alkuun.

Ei-tulostettava ASCII-ohjausmerkkitaulukko

Desimaali	Merkki	Desimaali	Merkki
		Datakanavan vapauttaminen
Otsikon alku		Ensimmäinen laitteen ohjauskoodi
Tekstin alku		Toinen laitteen ohjauskoodi
Tekstin loppu		Kolmannen laitteen ohjauskoodi
Lähetyksen loppu		Neljäs laitteen ohjauskoodi
	viisikärkinen	Negatiivinen vahvistus
Vahvistus		Synkroninen lähetystila
Äänisignaali		Lähetetyn tiedon lohkon loppu

Vaaka-välilehti		Median loppu
Rivinsyöttö / uusi rivi		Korvaava merkki
Pysty välilehti			ylittää
Sivun käännös / uusi sivu	Kahdestoista	Tiedostojen erotin
Vaunun palautus		Ryhmäerotin
Vaihto tallentamatta numeroita		Tietueen erotin
Vaihto, jossa säilytetään numeroita	viisitoista	Tietojen erotin

Tietokone ymmärtää prosessin, jolla se muuttuu muotoon, joka mahdollistaa näiden tietojen helpomman siirron, tallennuksen tai automaattisen käsittelyn järjestämisen. Tätä tarkoitusta varten käytetään erilaisia taulukoita. ASCII-koodaus on ensimmäinen Yhdysvalloissa kehitetty englanninkielisen tekstin käsittelyyn tarkoitettu järjestelmä, josta tuli myöhemmin laajalle levinnyttä kaikkialla maailmassa. Alla oleva artikkeli on omistettu sen kuvaukselle, ominaisuuksille, ominaisuuksille ja jatkokäytölle.

Tietojen näyttäminen ja tallentaminen tietokoneeseen

Tietokoneen näytöllä tai yhdessä tai toisessa mobiilissa digitaalisessa vempaimessa olevat symbolit muodostetaan kaikenlaisten merkkien vektorimuotojen ja koodin perusteella, jonka avulla voit löytää niiden joukosta symbolin, joka on lisättävä oikeaan paikkaan. Se on sarja bittejä. Siten jokaisen merkin on yksilöllisesti vastattava joukkoa nollia ja ykkösiä, jotka ovat tietyssä, ainutlaatuisessa järjestyksessä.

Kuinka kaikki alkoi

Historiallisesti ensimmäiset tietokoneet olivat englanninkielisiä. Symbolisen tiedon koodaamiseen niihin riitti käyttää vain 7 bittiä muistia, kun taas tähän tarkoitukseen varattiin 1 tavu, joka koostui 8 bitistä. Tietokoneen ymmärtämien merkkien määrä oli tässä tapauksessa 128. Tällaisten merkkien määrä sisälsi englanninkieliset aakkoset välimerkeineen, numerot ja eräät erikoismerkit. Vuonna 1963 kehitetty englanninkielinen seitsemän bitin koodaus vastaavalla taulukolla (koodisivulla) sai nimekseen American Standard Code for Information Interchange. Yleensä lyhennettä "ASCII-koodaus" käytettiin osoittamaan, ja sitä käytetään edelleen tähän päivään asti.

Siirtyminen monikielisyyteen

Ajan myötä tietokoneita on käytetty laajalti myös muissa kuin englanninkielisissä maissa. Tässä suhteessa tarvittiin koodauksia, jotka mahdollistaisivat kansallisten kielten käytön. Päätettiin olla keksimättä pyörää uudelleen, vaan otettiin ASCII perustana. Uuden painoksen koodaustaulukko on laajentunut merkittävästi. 8. bitin käyttö mahdollisti 256 merkin kääntämisen tietokonekielelle.

Kuvaus

ASCII-koodauksessa on taulukko, joka on jaettu kahteen osaan. Vain ensimmäistä puoliskoa pidetään yleisesti hyväksyttynä kansainvälisenä standardina. Se sisältää:

Merkit, joiden järjestysluvut ovat 0–31 ja jotka on koodattu sarjoilla 00000000–00011111. Ne on varattu ohjausmerkeille, jotka ohjaavat tekstin näyttämistä näytöllä tai tulostimella, äänimerkin antamista jne.
Merkit, joiden NN on taulukossa 32-127 ja jotka on koodattu sarjoilla 00100000-01111111, muodostavat taulukon vakioosan. Näitä ovat välilyönti (N 32), latinalaisten aakkosten kirjaimet (pienet ja isot kirjaimet), kymmennumeroiset numerot 0-9, välimerkit, eri tyyliset hakasulkeet ja muut symbolit.
Merkit, joiden järjestysnumerot ovat 128–255 ja jotka on koodattu sarjoilla 10000000–11111111. Näihin kuuluvat muiden kuin latinalaisten kansallisten aakkosten kirjaimet. Tässä taulukon vaihtoehtoisessa osassa ASCII-koodausta käytetään venäläisten merkkien muuntamiseen tietokonemuotoon.

Jotkut ominaisuudet

ASCII-koodauksen erityispiirteet sisältävät vain yhden bitin eron pienten ja isojen kirjainten "A" - "Z" välillä. Tämä seikka yksinkertaistaa huomattavasti rekisterin muuntamista sekä sen tarkistamista, kuuluuko se määritettyyn arvoalueeseen. Lisäksi kaikki ASCII-koodausjärjestelmän kirjaimet esitetään omilla järjestysnumeroillaan aakkosissa, jotka kirjoitetaan binäärijärjestelmässä 5-numeroisina, joita edeltää 011 2 pienten kirjainten osalta ja 010 2 isojen kirjainten osalta.

ASCII-koodauksen ominaisuuksien joukossa voidaan pitää 10 numeron esittämistä - "0" - "9". Toisessa numerojärjestelmässä ne alkavat 00112:lla ja päättyvät 2 numeroon. Esimerkiksi 0101 2 vastaa desimaalilukua viisi, joten merkki "5" kirjoitetaan muodossa 0011 01012. Tämän perusteella voit helposti muuntaa BCD-levyt ASCII-merkkijonoksi lisäämällä 00112 jokaiseen vasemmalla olevaan napaan.

"Unicode"

Kuten tiedät, Kaakkois-Aasian ryhmän kielillä olevien tekstien näyttämiseen tarvitaan tuhansia merkkejä. Tällaista määrää ei millään tavalla kuvata yhdessä tietotavussa, joten edes laajennetut ASCII-versiot eivät enää pystyneet tyydyttämään eri maiden käyttäjien kasvaneita tarpeita.

Niinpä syntyi tarve luoda universaali tekstikoodaus, jonka Unicode-konsortio kehitti yhteistyössä monien globaalin IT-alan johtajien kanssa. Sen asiantuntijat loivat UTF 32 -järjestelmän, jossa 32 bittiä oli varattu 1 merkin koodaamiseen, mikä muodostaa 4 tavua tietoa. Suurin haittapuoli oli tarvittavan muistin määrän jyrkkä kasvu jopa 4-kertaiseksi, mikä aiheutti monia ongelmia.

Samaan aikaan useimmissa maissa, joissa viralliset kielet kuuluvat indoeurooppalaiseen ryhmään, 2 32 merkkien määrä on enemmän kuin tarpeeton.

Unicode-konsortion asiantuntijoiden lisätyön tuloksena ilmestyi UTF-16-koodaus. Siitä tuli vaihtoehto symbolisen tiedon muuntamiseen, joka sopi kaikille sekä tarvittavan muistin että koodattujen merkkien määrän suhteen. Tästä syystä UTF-16 hyväksyttiin oletuksena ja se vaatii 2 tavua yhdelle merkille.

Jopa tällä melko edistyneellä ja onnistuneella "Unicode"-versiolla oli joitain haittoja, ja siirtymisen jälkeen laajennetusta ASCII-versiosta UTF-16:een asiakirjan paino kaksinkertaistui.

Tässä suhteessa päätettiin käyttää muuttuvapituista UTF-8-koodausta. Tässä tapauksessa jokainen lähdetekstin merkki on koodattu 1-6 tavun pituisella sekvenssillä.

Suhde amerikkalaisen tiedonvaihdon standardikoodiin

Kaikki muuttuvan pituiset UTF-8:n latinalaisten aakkosten merkit on koodattu 1 tavulla, kuten ASCII-koodausjärjestelmässä.

UTP-8:n erikoisuus on, että latinankielisessä tekstissä ilman muita merkkejä, jopa ohjelmat, jotka eivät ymmärrä "Unicodea", sallivat sen lukea. Toisin sanoen ASCII-tekstikoodauksen perusosa yksinkertaisesti yhdistetään uuteen muuttuvapituiseen UTF:ään. Kyrilliset merkit UTP-8:ssa vievät 2 tavua ja esimerkiksi Georgian merkit - 3 tavua. UTF-16:n ja 8:n luominen ratkaisi pääongelman yhden kooditilan luomisessa kirjasimissa. Siitä lähtien kirjasinten valmistajat ovat voineet täyttää taulukon vain vektorimuotoisilla tekstimerkkien muodoilla tarpeidensa mukaan.

Erilaisia koodauksia suositellaan eri käyttöjärjestelmissä. Jotta eri koodauksella kirjoitettuja tekstejä voidaan lukea ja muokata, käytetään venäläisiä tekstinmuunnosohjelmia. Jotkut tekstieditorit sisältävät sisäänrakennetut transkooderit, ja niiden avulla voit lukea tekstiä koodauksesta riippumatta.

Nyt tiedät kuinka monta merkkiä ASCII:ssa on ja miten ja miksi se kehitettiin. Tietenkin nykyään maailman yleisin standardi on "Unicode". Emme kuitenkaan saa unohtaa, että se luotiin ASCII:n pohjalta, joten sen kehittäjien panosta IT-alalle tulee arvostaa.

Luokat