Partea standard a tabelului de codificare ascii conține. Codificarea informațiilor text

EVE (End of Blockette) - sfârșitul unui bloc imbricat. Astăzi, acest cod, care separă elementele aceleiași înregistrări, ar fi numit „sfârșitul câmpului”.

EOF (Sfârșitul fișierului) - sfârșitul mesajului (sfârșitul transmisiei, sfârșitul fișierului de date).

Schema de codificare ASCII

Prima încercare de standardizare a codurilor de caractere pentru computere a avut loc în 1963 în SUA, când a fost creată prima versiune a standardului ASCII (pronunțat „aski” în rusă). Sistemul de codificare s-a dovedit a nu fi în întregime de succes, a provocat multe plângeri și în curând a fost pregătită o a doua versiune, mai de succes, adoptată în 1968. Este încă în uz astăzi. Numele standardului reprezintă Standard american Cod pentru Schimbul de informații- Cod standard intern

schimbul de informații timpuriu din SUA. A fost pusă în aplicare de Institutul Național de Standardizare

din SUA (ANSI, American National Standard Institute).

Tabelul ASCII este proiectat pentru codare pe 128 pe șapte biți diverse personaje(). Acest lucru este suficient pentru a reprezenta literele mici și mari ale alfabetului englez, semnele de punctuație, numerele, semnele operatii matematice, precum și unele semne speciale, de exemplu, cum ar fi @, #, § și altele.

Primele 32 de coduri de tabel ASCII (de la 0 la 31) nu sunt reprezentate caractere tipărite. Această zonă este rezervată pentru plasarea caracterelor speciale:

coduri de control (utilizate pentru a controla dispozitive la distanță, de exemplu imprimante);

coduri de formatare (utilizate pentru formatarea specială a mesajelor);

coduri de delimitare (utilizate pentru a structura seturile de date transmise).

Scheme interne de codificare a textului pe 8 biți

Implementarea activă a standardelor naționale pentru codificarea caracterelor text datează din anii 70 ai secolului XX. Aceste procese au afectat întreaga Europă. Nu a stat deoparte Uniunea Sovietică: Au fost aprobate primele scheme naționale de codare pe 8 biți.

Cu codificarea pe 8 biți, un octet cu 256 de stări distincte este alocat pentru scrierea unui caracter. Acest lucru permite codificarea seturilor de caractere bilingve, cum ar fi engleza și rusă. Partea în limba engleză este plasată în partea de jos a tabelului (coduri de la 0 la 127), iar partea națională este plasată în partea de sus (coduri de la 128 la 255).

Schema de codificare ISO-8859

Formal, pentru Rusia această schemă de codare are cea mai mare prioritate, deoarece este aprobat de Institutul Internațional de Standardizare (ISO - Organizația Internațională de Standardizare). În standardul ISO-8859, codificarea caracterelor chirilice (chirilic este sistemul scris al limbilor slave) alocă așa-numita „a cincea pagină de coduri”, prin urmare acest standard este numit și ISO 8859-5.

În practică, documentele care utilizează această schemă sunt rare, mai ales pe computerele IBM PC. Această codificare poate fi găsită mai des în documentele executate pe computerele platformei Sun. În ciuda prevalenței sale scăzute, acest sistem de codare are

19.12.13 23756

Pentru a utiliza corect ASCII, este necesar să vă extindeți cunoștințele în acest domeniu și despre capabilitățile de codare.

Ce este?

ASCII este un set de caractere caractere tipărite(vezi captura de ecran nr. 1) formată tastatura calculatorului, pentru a transmite informații și unele coduri. Cu alte cuvinte, alfabetul și cifrele zecimale sunt codificate în simboluri corespunzătoare care reprezintă și poartă informațiile necesare.

Codarea ASCII a fost dezvoltată în America, astfel încât tabelul standard de codificare include de obicei alfabetul englezesc cu numere, care total are aproximativ 128 de caractere. Dar atunci apare o întrebare corectă: ce să faceți dacă este necesară codificarea alfabetului național?

Alte versiuni ale tabelului ASCII au fost dezvoltate pentru a aborda probleme similare. De exemplu, pentru limbile cu o structură de limbă străină, literele alfabetului englez au fost fie eliminate, fie adăugate caractere suplimentare sub forma unui alfabet naţional. Astfel, codificarea ASCII poate conține litere rusești pentru uz național (vezi captura de ecran nr. 2).

Unde este folosit sistemul de codare ASCII?

Acest sistem de codificare este necesar nu numai pentru apelare informații text pe tastatură. Este folosit și în grafică. De exemplu, în programul ASCII Art Maker, imaginile grafice ale diferitelor extensii constau dintr-o serie de caractere ASCII (vezi captura de ecran nr. 3).

De regulă, programe similare pot fi împărțite în cele care îndeplinesc funcția editori grafici, inversarea unei imagini în text și cele care convertesc o imagine în grafică ASCII. Cunoscuta emoticon (sau cum se mai numește și „ zâmbitor chip uman ") este, de asemenea, un exemplu de caracter de codificare.

Această metodă de codificare poate fi folosită și în timpul scrierii sau creării document HTML. De exemplu, introduceți un set specific și necesar de caractere, iar la vizualizarea paginii în sine, simbolul corespunzător acestui cod va fi afișat pe ecran.

Printre altele acest tip codificarea este necesară la crearea unui site web multilingv, deoarece caracterele care nu sunt incluse într-un anumit tabel național vor trebui înlocuite cu coduri ASCII. Dacă cititorul este conectat direct cu tehnologiile informației și comunicațiilor (TIC), atunci îi va fi util să se familiarizeze cu sisteme precum:

set de caractere portabil;
Personaje de control;
EBCDIC;
VISCII;
YUSCII;
Unicode;
arta ASCII;
KOI-8.

Proprietăți tabelului ASCII

Ca orice program sistematic, ASCII are propriile sale proprietăți caracteristice. Deci, de exemplu, sistemul numeric zecimal (numerele de la 0 la 9) este convertit în sistem binar calcul (adică fiecare cifră zecimală este convertită în binar 288=1001000).

Literele situate în coloanele superioare și inferioare diferă unele de altele doar printr-un pic, ceea ce reduce semnificativ nivelul de complexitate al verificării și editării cazului.

Cu toate aceste proprietăți, codificarea ASCII funcționează ca pe opt biți, deși inițial a fost intenționat să fie pe șapte biți.

Aplicarea ASCII în programe Microsoft Birou:

Dacă este necesar această opțiune codificarea informațiilor poate fi utilizată în Microsoft Notepad și Microsoft Office Word. În cadrul acestor aplicații, documentul poate fi salvat în format ASCII, dar în acest caz, nu veți putea folosi unele funcții la introducerea textului.

În special, fonturile aldine și aldine nu vor fi disponibile, deoarece codificarea păstrează doar sensul informațiilor tastate și nu vedere generalăși formă. Puteți adăuga astfel de coduri la un document utilizând următoarele aplicații software.

[Codări pe 8 biți: ASCII, KOI-8R și CP1251] Primele tabele de codificare create în Statele Unite nu au folosit al optulea bit dintr-un octet. Textul a fost reprezentat ca o secvență de octeți, dar al optulea bit nu a fost luat în considerare (a fost folosit în scopuri oficiale).

Tabelul a devenit un standard general acceptat ASCII(American Cod standard pentru schimbul de informații). Primele 32 de caractere ale tabelului ASCII (de la 00 la 1F) au fost folosite pentru caracterele care nu se imprimă. Au fost concepute pentru a controla un dispozitiv de imprimare etc. Restul - de la 20 la 7F - sunt caractere obișnuite (printabile).

Tabelul 1 - Codificare ASCII

Dec	Hex	oct	Char	Descriere
0	0	000		nul
1	1	001		începutul direcției
2	2	002		începutul textului
3	3	003		sfârşitul textului
4	4	004		sfârşitul transmisiei
5	5	005		anchetă
6	6	006		recunoaște
7	7	007		clopot
8	8	010		backspace
9	9	011		filă orizontală
10	O	012		linie nouă
11	B	013		filă verticală
12	C	014		noua pagina
13	D	015		întoarcere la căruță
14	E	016		schimbă afară
15	F	017		schimbă înăuntru
16	10	020		evadare legaturii de date
17	11	021		controlul dispozitivului 1
18	12	022		controlul dispozitivului 2
19	13	023		controlul dispozitivului 3
20	14	024		controlul dispozitivului 4
21	15	025		recunoaștere negativă
22	16	026		inactiv sincron
23	17	027		sfârşitul trans. bloc
24	18	030		anula
25	19	031		sfârşitul mediei
26	1A	032		substitui
27	1B	033		evadare
28	1C	034		separator de fișiere
29	1D	035		separator de grup
30	1E	036		separator de înregistrări
31	1F	037		separator de unitate
32	20	040		spaţiu
33	21	041	!
34	22	042	"
35	23	043	#
36	24	044	$
37	25	045	%
38	26	046	&
39	27	047	"
40	28	050	(
41	29	051	)
42	2A	052	*
43	2B	053	+
44	2C	054	,
45	2D	055	-
46	2E	056	.
47	2F	057	/
48	30	060	0
49	31	061	1
50	32	062	2
51	33	063	3
52	34	064	4
53	35	065	5
54	36	066	6
55	37	067	7
56	38	070	8
57	39	071	9
58	3A	072	:
59	3B	073	;
60	3C	074	<
61	3D	075	=
62	3E	076	>
63	3F	077	?

Dec	Hex	oct	Char
64	40	100	@
65	41	101	O
66	42	102	B
67	43	103	C
68	44	104	D
69	45	105	E
70	46	106	F
71	47	107	G
72	48	110	H
73	49	111	eu
74	4A	112	J
75	4B	113	K
76	4C	114	L
77	4D	115	M
78	4E	116	N
79	4F	117	O
80	50	120	P
81	51	121	Q
82	52	122	R
83	53	123	S
84	54	124	T
85	55	125	U
86	56	126	V
87	57	127	W
88	58	130	X
89	59	131	Y
90	5A	132	Z
91	5B	133	[
92	5C	134	\
93	5D	135	]
94	5E	136	^
95	5F	137	_
96	60	140	`
97	61	141	o
98	62	142	b
99	63	143	c
100	64	144	d
101	65	145	e
102	66	146	f
103	67	147	g
104	68	150	h
105	69	151	i
106	6A	152	j
107	6B	153	k
108	6C	154	l
109	6D	155	m
110	6E	156	n
111	6F	157	o
112	70	160	p
113	71	161	q
114	72	162	r
115	73	163	s
116	74	164	t
117	75	165	u
118	76	166	v
119	77	167	w
120	78	170	x
121	79	171	y
122	7A	172	z
123	7B	173	{
124	7C	174	\|
125	7D	175	}
126	7E	176	~
127	7F	177	DEL

După cum este ușor de văzut, doar în această codificare litere latine, și cele care sunt folosite în engleză. Există, de asemenea, aritmetice și alte simboluri de serviciu. Dar nu există nici litere rusești, nici măcar latine speciale pentru germană sau franceză. Acest lucru este ușor de explicat - codificarea a fost dezvoltată exact ca standard american. Pe măsură ce computerele au început să fie folosite în întreaga lume, alte caractere au trebuit să fie codificate.

Pentru a face acest lucru, s-a decis să se folosească al optulea bit din fiecare octet. Acest lucru a făcut să fie disponibile încă 128 de valori (de la 80 la FF) care ar putea fi folosite pentru a codifica caractere. Primul dintre tabelele de opt biți este „ASCII extins” ( ASCII extins) - inclus diverse opțiuni Caractere latine folosite în unele limbi ale Europei de Vest. Conținea și alte simboluri suplimentare, inclusiv pseudografice.

Caracterele pseudografice permit, doar prin afișare caractere text, oferă o imagine de grafică. Folosind pseudografice, de exemplu, un program de control funcționează fișiere FAR Manager.

Nu existau litere rusești în tabelul ASCII extins. Rusia (fosta URSS) și alte țări și-au creat propriile codificări care au făcut posibilă reprezentarea unor caractere „naționale” specifice în fișiere text pe 8 biți - litere latine ale limbilor poloneză și cehă, chirilice (inclusiv litere rusești) și alte alfabete.

În toate codificările care au devenit răspândite, primele 127 de caractere (adică valoarea octetului cu al optulea bit egal cu 0) sunt aceleași cu ASCII. Deci, un fișier ASCII funcționează în oricare dintre aceste codificări; scrisori Limba engleză sunt prezentate în mod egal.

Organizare ISO(International Standardization Organization) a adoptat un grup de standarde ISO 8859. Definește codificări pe 8 biți pentru grupuri diferite limbi. Deci, ISO 8859-1 este un tabel ASCII extins pentru SUA și Europa de Vest. Și ISO 8859-5 este un tabel pentru alfabetul chirilic (inclusiv rus).

Cu toate acestea, din motive istorice, codarea ISO 8859-5 nu a prins rădăcini. În realitate, pentru limba rusă sunt folosite următoarele codificări:

Pagina de cod 866 ( CP866), alias „DOS”, alias „codare GOST alternativă”. Folosit pe scară largă până la mijlocul anilor 90; folosit acum într-o măsură limitată. Practic nu este folosit pentru distribuirea de texte pe Internet.
- KOI-8. Dezvoltat în anii 70-80. Este un standard general acceptat pentru transmiterea mesajelor e-mail în Internetul rusesc. De asemenea, utilizat pe scară largă în sisteme de operare Oh Familia Unix, inclusiv Linux. Se numește versiunea KOI-8, concepută pentru rusă KOI-8R; Există versiuni pentru alte limbi chirilice (de exemplu, KOI8-U este o versiune pentru limba ucraineană).
- Pagina de cod 1251, CP1251,Windows-1251. Dezvoltat de către Microsoft pentru a sprijini limba rusă în Windows.

Principalul avantaj al CP866 a fost păstrarea caracterelor pseudo-grafice în aceleași locuri ca în ASCII extins; prin urmare, cei străini puteau lucra fără schimbări programe text, de exemplu, celebrul Norton Commander. CP866 este acum utilizat pentru programele Windows care rulează în ferestre text sau în modul text pe ecran complet, inclusiv FAR Manager.

Texte în CP866 ultimii ani sunt destul de rare (dar este folosit pentru a codifica numele fișierelor rusești în Windows). Prin urmare, ne vom opri mai detaliat asupra altor două codificări - KOI-8R și CP1251.

După cum puteți vedea, în tabelul de codificare CP1251, literele rusești sunt aranjate în ordine alfabetică (cu excepția, însă, a literei E). Datorită acestei locații programe de calculator Este foarte ușor de sortat alfabetic.

Dar în KOI-8R ordinea literelor rusești pare aleatorie. Dar în realitate nu este cazul.

În multe programe mai vechi, al 8-lea bit a fost pierdut la procesarea sau transmiterea textului. (Acum, astfel de programe sunt practic „disparute”, dar la sfârșitul anilor 80 - începutul anilor 90 erau răspândite). Pentru a obține o valoare de 7 biți dintr-o valoare de 8 biți, doar scădeți 8 din cifra cea mai semnificativă; de exemplu, E1 devine 61.

Acum compară KOI-8R cu Tabel ASCII(Tabelul 1). Veți descoperi că literele rusești sunt plasate în corespondență clară cu cele latine. Dacă al optulea bit dispare, literele rusești mici se transformă în litere latine mari, iar literele rusești mari se transformă în litere latine. Deci, E1 în KOI-8 este „A” rusesc, în timp ce 61 în ASCII este „a” latin.

Deci, KOI-8 vă permite să mențineți lizibilitatea textului rusesc atunci când al 8-lea bit este pierdut. „Salut tuturor” devine „pRIWET WSEM”.

ÎN în ultima vremeŞi ordine alfabetică Dispunerea caracterelor în tabelul de codificare și lizibilitatea cu pierderea celui de-al 8-lea bit și-au pierdut importanța decisivă. Al optulea bit in calculatoare moderne nu se pierde în timpul transmiterii sau procesării. Iar sortarea alfabetică se face ținând cont de codificare, și nu prin simpla comparare a codurilor. (Apropo, codurile CP1251 nu sunt complet aranjate alfabetic - litera E nu este la locul ei).

Datorită faptului că există două codificări comune, atunci când lucrați cu Internetul (e-mail, navigarea pe site-uri web), uneori puteți vedea un set de litere fără sens în loc de text rusesc. De exemplu, „EU SUNT SBYUFEMHEL”. Acestea sunt doar cuvintele „cu respect”; dar au fost codificate în codificare CP1251, iar computerul a decodat textul folosind tabelul KOI-8. Dacă aceleași cuvinte ar fi, dimpotrivă, codificate în KOI-8, iar computerul ar decoda textul folosind tabelul CP1251, rezultatul ar fi „U KHBTSEOYEN”.

Uneori se întâmplă ca un computer să descifreze literele în limba rusă folosind un tabel care nu este destinat limbii ruse. Apoi, în locul literelor rusești, apare un set de simboluri fără sens (de exemplu, litere latine ale limbilor est-europene); ele sunt adesea numite „crocozybras”.

În majoritatea cazurilor programe moderne face față cu determinarea codificărilor documentelor de pe Internet ( e-mailuriși pagini Web) în mod independent. Dar uneori „raușesc”, apoi puteți vedea secvențe ciudate de litere rusești sau „krokozyabry”. De regulă, într-o astfel de situație, pentru a afișa text real pe ecran, este suficient să selectați codarea manual în meniul programului.

Pentru acest articol au fost folosite informații de pe pagina http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Material preluat de pe site:

Folosind codul binar, puteți codifica informațiile text dacă fiecare caracter al alfabetului este asociat cu un anumit număr întreg. Opt cifre binare sunt suficiente pentru a codifica 256 de caractere diferite. Acest lucru este suficient pentru a exprima diverse combinatii opt biți toate simbolurile limbilor engleze și ruse, atât litere mici, cât și majuscule, precum și semne de punctuație, simboluri de bază operatii aritmetice iar unele general acceptate caractere speciale.

Pentru ca întreaga lume să codifice datele text în același mod, avem nevoie de tabele de codificare unificate, dar acest lucru nu este încă posibil din cauza contradicțiilor dintre caracterele alfabetelor naționale.

Institutul de Standarde din SUA a introdus sistemul de codare ASCII, care are două tabele de codare: de bază și extins. Tabelul de bază atribuie valori de cod de la 0 la 127, iar tabelul extins se referă la simboluri numerotate de la 128 la 255.

Tabelul de bază al sistemului ASCII conține 128 de coduri. Primele 32 de coduri ale tabelului de bază, începând cu zero, sunt date producătorilor de hardware. Această zonă conține coduri de control care nu corespund niciunui simbol de limbă. De la al 32-lea la al 127-lea cod există coduri pentru caractere din alfabetul englez, semne de punctuație, operații aritmetice și unele simboluri auxiliare.

Codificarea caracterelor în limba rusă, cunoscută sub numele de codificare Windows-1251, a fost introdusă de Microsoft. Având în vedere distribuția largă a sistemelor de operare și a altor produse ale acestei companii în Rusia, aceasta a devenit profund înrădăcinată și utilizată pe scară largă. Codificarea caracterelor în limba rusă este fixată în tabelul de codificare extins sisteme ASCII de la codul 192 la 255.

Majoritatea sistemelor recunosc 256 de coduri: 128 standard și 128 suplimentare din setul de caractere extins.

Deoarece un octet corespunde unui caracter, sunt necesari 4 octeți pentru a reprezenta un șir de patru caractere. Iată cum arată, de exemplu, un grup de caractere AI2B, format din litere și cifre, în codificarea ASCII:

Și așa arată reprezentare binarășase caractere ale cuvântului „binar”:

0100001∩ 01001001 01001110 OOOOOO∩1 01010010 01011001

În textul de pe computer, spre deosebire de textul tastat pe o mașină de scris, un „spațiu” este simbol semnificativși, ca orice alt simbol, are o reprezentare binară corespunzătoare. La prelucrare automată absența informațiilor sau prezența unui spațiu joacă un rol rol important, conducând uneori la confuzie și derutând utilizatorii noi.

Literele mari și mici corespund unor litere diferite coduri ASCII. De exemplu, majusculă D corespunde codului 68, iar minuscula d la 100.

Pentru a codifica literele alfabetului rus, codificarea Windows-1251 este folosită cel mai des în practică, dar există și alte sisteme de codare. Cea mai comună codificare este KOI-8 (cod de schimb de informații din opt cifre). Originea sa datează din vremea Consiliului de Asistență Economică Reciprocă a Statelor Europei de Est. Astăzi, codificarea KOI-8 este răspândită în retele de calculatoare pe teritoriul Rusiei.

Standardul internațional, care prevede codificarea caracterelor în limba rusă, se numește ISO (International Standard Organization - International Institute for Standardization). În practică, această codificare este rar folosită.

Trebuie să vă amintiți întotdeauna că computerele sunt doar mașini, nu înțeleg unii și zerourile, dar sunt capabili să interpreteze tensiune electrică, percepându-i prezența ca I, iar absența ei ca 0. Această tehnologie permite computerelor să prelucreze informații.

Codificarea datelor grafice. O imagine grafică alb-negru imprimată pe hârtie este formată din puncte minuscule - pixeli (element de imagine) formând un model caracteristic numit raster.

Codarea raster permite utilizarea codului binar pentru a reprezenta date grafice, deoarece coordonatele liniare și proprietățile individuale ale fiecărui punct (luminozitate) pot fi exprimate folosind numere întregi. Este în general acceptat astăzi să reprezinte ilustrații alb-negru sub forma unei combinații de puncte cu 256 de gradări gri. În consecință, pentru a codifica luminozitatea oricărui punct, un număr binar de 8 biți este de obicei suficient.

Imaginile color sunt formate în conformitate cu codul binar de culoare al fiecărui punct stocat în memoria video. Imaginile color pot avea diferite adâncimi de culoare, determinate de numărul de biți pentru a codifica culoarea unui punct. Astfel, pentru culoarea de adâncime 8, numărul de culori afișate este 2 x = 256.

Codarea graficelor color cu numere binare de 16 biți: imii se numește modul High Color.

Modul de reprezentare a graficelor color folosind 24 de biți binari se numește culoare adevărată.

Pentru codificarea culorilor imagini grafice aplicarea principiului descompunerii unei culori arbitrare în componentele sale principale. Se crede că orice culoare vizibilă pentru ochiul uman poate fi obținută prin amestecarea mecanică a unui amestec de trei culori primare: roșu (roșu), verde (verde) și albastru (albastru). Acest sistem de codare se numește RGB (dar primele litere ale culorilor primare).

Modelul de reprezentare a culorilor RGB este prezentat în tabel. 1.1.

Fiecare dintre culorile primare poate fi asociată cu o culoare primară, adică. o culoare care completează culoarea primară io alb. După cum urmează din tabel. I. I, pentru oricare dintre culorile principale | Culoarea complementară va fi culoarea formată din suma unei perechi de alte culori primare. În consecință, culorile suplimentare sunt cyan (cyan), magenta (magenta) și galben (galben).

Principiul descompunerii unei culori arbitrare în componentele sale constitutive poate fi aplicat nu numai culorilor primare, ci și celor suplimentare, de exemplu. Orice culoare poate fi reprezentată ca suma componentelor cyan, magenta și galbene.

Această metodă de codificare a culorilor este acceptată în tipărire, dar tipărirea folosește și o a patra culoare - negru. De aceea acest sistem codificarea este indicată cu patru litere CMYK (culoarea neagră este indicată de ultima literă din numele culorii - litera K, deoarece litera B indică deja albastru). Pentru a reprezenta grafica color în acest sistem, trebuie să aveți 32 de biți binari. Acest mod se mai numește și culoare.

Dacă reduceți numărul de biți binari utilizați pentru a codifica culoarea fiecărui punct, puteți reduce cantitatea de date, dar gama de culori codificate este redusă considerabil.

Calitatea imaginii este determinată de rezoluția monitorului, adică numărul de puncte pe linie și linii raster. De obicei, monitoarele folosesc o rezoluție de ecran de 800x600, I024x768 sau I280x960. Să calculăm cantitatea necesară de memorie video pentru unul dintre moduri grafice, de exemplu, rezoluția I 024x768 și calitatea redării culorilor 32 de biți per pixel. Cantitatea necesară de memorie video va fi:

32хl 024x768 = 25.165.824 biți = 3.145.728 octeți = 3072 KB = 3 MB.