Стандартная часть таблицы кодировки ascii содержит. Кодирование текстовой информации

ЕВЕ (End of Blockette ) - конец вложенного блока. Сегодня этот код, разделяющий между собой элементы одной записи, назвали бы «концом поля».

EOF (End of File ) - конец сообщения (конец передачи, конец файла данных).

Схема кодирования ASCII

Первая попытка стандартизировать коды символов для ЭВМ состоялась в 1963 г. в США, когда была создана первая версия стандарта ASCII (по-русски произносится как «аски »). Система кодирования получилась не совсем удачной, вызвала множество нареканий и вскоре была подготовлена вторая, более успешная версия, принятая в 1968 г. Она используется по сей день. Название стандарта расшифровывается какAmerican Standard Code for Information Interchange - Стандартный код внут-

реннего информационного обмена США. Его ввёл в действие Национальный институт стандартиза-

ции США (ANSI, American National Standard Institute).

Таблица ASCII предназначена для семиразрядного кодирования 128 различных символов (). Этого достаточно, чтобы представить строчные и прописные буквы английского алфавита, знаки препинания, цифры, знаки математических действий, а также некоторые специальные знаки, например такие, как @, #, § и другие.

Первые 32 кода таблицы ASCII (от 0 до 31) не представляются печатными знаками. Эта область отведена для размещения специальных символов:

управляющих кодов (служат для управления удаленными устройствами, например принтерами);

кодов форматирования (служат для специального оформления сообщений);

кодов-разделителей (служат для структурирования передаваемых наборов данных).

Отечественные схемы 8-разрядного кодирования текстов

Активное внедрение национальных стандартов кодирования текстовых символов относится к 70-м годам XX века. Эти процессы затронули всю Европу. Не остался в стороне и Советский Союз: были утверждены первые национальные 8-разрядные схемы кодирования.

При 8-разрядном кодировании на запись символа отводится байт, имеющий 256 различимых состояний. Это позволяет кодировать двуязычные символьные наборы, например английский и русский. Англоязычную часть размещают в нижней части таблицы (коды от 0 до 127), а национальную часть - в верхней (коды от 128 до 255).

Схема кодирования ISO-8859

Формально для России эта схема кодирования имеет наивысший приоритет, потому что утверждена Международным институтом стандартизации (ISO -International Standard Organization ). В стандарте ISO-8859 кодированию символов кириллицы (кириллицей называют письменную систему славянских языков) выделена так называемая «пятая кодовая страница», поэтому этот стандарт именуют такжеISO 8859-5 .

Нa практике документы, использующие эту схему, встречаются редко, особенно на компьютерах платформы IBM PC . Эту кодировку чаще можно встретить в документах, выполненных на компьютерах платформыSun . Несмотря на малую распространённость, эта система кодирования имеет

19.12.13 23756

Для того, чтобы грамотно использовать ASCII , необходимо расширить знания в данной сфере и о возможностях кодирования.

Что это такое?

ASCII представляет собой кодировочную таблицу печатных символов (см. скриншот №1), набираемых на компьютерной клавиатуре, для передачи информации и некоторых кодов. Иными словами происходит кодирование алфавита и десятичных цифр в соответствующие символы, представляющие и несущие в себе необходимую информацию.

Кодировка ASCII была разработана в Америке, поэтому стандартная кодировочная таблица обычно включает в себя английский алфавит с цифрами, что в общей сложности составляет около 128 символов. Но тогда возникает справедливый вопрос: что делать, если необходима кодировка национального алфавита?

Для решения подобных вопросов были разработаны другие версии таблицы ASCII . Например, для языков с иноязычной структурой были или убраны буквы английского алфавита, или к ним добавлялись дополнительные символы в виде национального алфавита. Так, в кодировке ASCII могут присутствовать русские буквы для национального использования (см. скриншот №2).

Где применяется система кодировки ASCII?

Данная кодировочная система необходима не только для набора текстовой информации на клавиатуре. Она также используется в графике. Например, в программе ASCII Art Maker графические изображения различных расширений состоят из спектра символов кодировки ASCII (см. скриншот №3).

Как правило, подобные программы можно разделить на те, что выполняют функцию графических редакторов, инвертируя изображение в текст, и на те, что конвертируют изображение в ASCII -графику. Всем известный смайлик (или как его еще называют «улыбающееся человеческое лицо ») тоже является примером кодировочного символа.

Данный метод кодировки также может быть востребован во время написания или создания документа HTML. Например, вы вводите определённый и необходимый вам набор знаков, а при просмотре самой страницы на экран будет выведен символ, соответствующий данному коду.

Кроме всего прочего данный вид кодировки необходим при создании многоязычного сайта, потому что знаки, которые не входят в ту или иную национальную таблицу, нужно будет заменить ASCII кодами. Если читатель непосредственно связан с информационно-коммуникативными технологиями (ИКТ), то ему будет полезно ознакомиться и с такими системами как:

  1. Переносимый набор символов;
  2. Управляющие символы;
  3. EBCDIC;
  4. VISCII;
  5. YUSCII;
  6. Юникод;
  7. ASCII art;
  8. КОИ-8.

Свойства таблицы ASCII

Как и любая систематизированная программа, ASCII обладает своими характерными свойствами. Так, например, десятеричная система исчисления (цифры от 0 до 9) преобразуется в двоичную систему исчисления (т.е. каждая десятеричная цифра преобразуется в двоичную 288=1001000 соответственно).

Буквы, располагающиеся в верхних и нижних колонках, отличаются друг от друга лишь битом, что существенно снижает уровень сложности проверки и редактирование регистра.

При всех этих свойствах кодировка ASCII работает как восьми битная, хотя изначально предусматривалась как семи битная.

Применение ASCII в программах Microsoft Office:

В случае необходимости данный вариант кодирования информации может быть использован в Microsoft Notepad и Microsoft Office Word. В рамках этих приложений документ может быть сохранен в формате ASCII , но в этом случае при наборе текста невозможно будет использование некоторых функций.

В частности, будет недоступно выделение жирным и полужирным шрифтом, потому что кодирование сохраняет лишь смысл набранной информации, а не общий вид и форму. Добавить такие коды в документ вы можете с помощью следующих программных приложений.

[8-битные кодировки: ASCII, КОИ-8R и CP1251 ] Первые таблицы кодировки, созданные в США, не использовали восьмой бит в байте. Текст представлялся как последовательность байт, но восьмой бит не учитывался (он применялся в служебных целях).

Общепризнанным стандартом стала таблица ASCII (American Standard Code for Information Interchange). Первые 32 символа таблицы ASCII (от 00 до 1F) использовались для непечатаемых символов. Они были предназначены для управления печатающим устройством и т.п. Остальная часть - от 20 до 7F - обычные (печатаемые) символы.

Таблица 1 - кодировка ASCII

Dec Hex Oct Char Description
0 0 000 null
1 1 001 start of heading
2 2 002 start of text
3 3 003 end of text
4 4 004 end of transmission
5 5 005 enquiry
6 6 006 acknowledge
7 7 007 bell
8 8 010 backspace
9 9 011 horizontal tab
10 A 012 new line
11 B 013 vertical tab
12 C 014 new page
13 D 015 carriage return
14 E 016 shift out
15 F 017 shift in
16 10 020 data link escape
17 11 021 device control 1
18 12 022 device control 2
19 13 023 device control 3
20 14 024 device control 4
21 15 025 negative acknowledge
22 16 026 synchronous idle
23 17 027 end of trans. block
24 18 030 cancel
25 19 031 end of medium
26 1A 032 substitute
27 1B 033 escape
28 1C 034 file separator
29 1D 035 group separator
30 1E 036 record separator
31 1F 037 unit separator
32 20 040 space
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2D 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3B 073 ;
60 3C 074 <
61 3D 075 =
62 3E 076 >
63 3F 077 ?
Dec Hex Oct Char
64 40 100 @
65 41 101 A
66 42 102 B
67 43 103 C
68 44 104 D
69 45 105 E
70 46 106 F
71 47 107 G
72 48 110 H
73 49 111 I
74 4A 112 J
75 4B 113 K
76 4C 114 L
77 4D 115 M
78 4E 116 N
79 4F 117 O
80 50 120 P
81 51 121 Q
82 52 122 R
83 53 123 S
84 54 124 T
85 55 125 U
86 56 126 V
87 57 127 W
88 58 130 X
89 59 131 Y
90 5A 132 Z
91 5B 133 [
92 5C 134 \
93 5D 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 a
98 62 142 b
99 63 143 c
100 64 144 d
101 65 145 e
102 66 146 f
103 67 147 g
104 68 150 h
105 69 151 i
106 6A 152 j
107 6B 153 k
108 6C 154 l
109 6D 155 m
110 6E 156 n
111 6F 157 o
112 70 160 p
113 71 161 q
114 72 162 r
115 73 163 s
116 74 164 t
117 75 165 u
118 76 166 v
119 77 167 w
120 78 170 x
121 79 171 y
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

Как легко заметить, в этой кодировке представлены только латинские буквы, причём те, которые используются в английском языке. Есть также арифметические и другие служебные символы. Но нет ни русских букв, ни даже специальных латинских для немецкого или французского языка. Это легко объяснить - кодировка разрабатывалась имено как американский стандарт. Когда компьютеры стали применяться во всём мире, потребовалось кодировать и другие символы.

Для этого было принято решение использовать восьмой бит в каждом байте. Тем самым оказались доступны ещё 128 значений (от 80 до FF), которые можно было использовать для кодирования символов. Первая из восьмибитных таблиц - “расширенный ASCII” (Extended ASCII ) - включала в себя различные варианты латинских символов, применяемые в некоторых языках Западной Европы. Также в ней были другие дополнительные символы, включая псевдографику.

Псевдографические символы позволяют, выводя на экран только текстовые символы, обеспечивать некоторое подобие графики. При помощи псевдографики работает, например, програма для управления файлами FAR Manager.

Русских букв в таблице Extended ASCII не было. В России (ранее - СССР) и в других государствах создавались свои кодировки, позволяющие представлять в 8-битных текстовых файлах специфические “национальные” символы - латинские буквы польского и чешского языков, кириллицу (включая русские буквы) и другие алфавиты.

Во всех кодировках, получивших распространение, первые 127 символов (т.е. значения байта при восьмом бите, равном 0) совпадают с ASCII. Таким образом, файл в формате ASCII работает в любой из этих кодировок; буквы английского языка в них представлены одинаково.

Организация ISO (International Standardization Organization - Международная Организация по Стандартам) приняла группу стандартов ISO 8859 . Она определяет 8-битные кодировки для разных групп языков. Так, ISO 8859-1 - это Extended ASCII, таблица для США и Западной Европы. А ISO 8859-5 - таблица для кириллицы (включая русский язык).

Однако по историческим причинам кодировка ISO 8859-5 не прижилась. Реально для русского языка применяются следующие кодировки:

Code Page 866 (CP866 ), она же “DOS”, она же “альтернативная кодировка ГОСТ”. Широко применялась до середины 90-х годов; теперь используется ограниченно. Практически не применяется для распространения текстов в Интернете.
- КОИ-8. Разработана в 70-80-е годы. Является общепринятым стандартом для передачи почтовых сообщений в российском Интернете. Широко применяется также в операционных системах семейства Unix, включая Linux. Вариант КОИ-8, рассчитанный на русский язык, называется КОИ-8R ; существуют версии для иных кириллических языков (так, KOI8-U - вариант для украинского языка).
- Code Page 1251, CP1251 , Windows-1251. Разработана компанией Microsoft для поддержки русского языка в системе Windows.

Основным достоинством CP866 было сохранение символов псевдографики на тех же местах, что и в Extended ASCII; поэтому могли без изменений работать зарубежные текстовые программы, например, знаменитый Norton Commander. Ныне CP866 используется для программ под Windows, работающих в текстовых окнах или в полноэкранном текстовом режиме, включая FAR Manager.

Тексты в CP866 в последние годы встречаются довольно редко (зато она используется для кодирования русских имен файлов в Windows). Поэтому мы подробнее остановимся на двух других кодировках - КОИ-8R и CP1251.



Как можно заметить, в таблице кодировки CP1251 русские буквы расположены в алфавитном порядке (за исключением, правда, буквы Ё). Благодаря такому расположению компьютерным программам очень просто осуществлять сортировку по алфавиту.

А вот в КОИ-8R порядок русских букв кажется случайным. Но на самом деле это не так.

Во многих старых программах при обработке или передаче текста терялся 8-й бит. (Сейчас такие программы практически “вымерли”, но в конце 80-х - начале 90-х годов они были широко распространены). Чтобы получить из 8-битного значения 7-битное, достаточно отнять от старшей цифры 8; например, E1 превращается в 61.

А теперь сравните КОИ-8R с таблицей ASCII (табл.1). Вы обнаружите, что русские буквы поставлены в чёткое соответствие с латинскими. Если исчезнет восьмой бит, строчные русские буквы превращаются в заглавные латинские, а заглавные русские - в строчные латинские. Так, E1 в КОИ-8 - это русское “А”, тогда как 61 в ASCII - латинское “a”.

Итак, КОИ-8 позволяет сохранять читаемость русского текста при потере 8-го бита. “Привет всем” превращается в “pRIWET WSEM”.

В последнее время и алфавитный порядок расположения символов в таблице кодировки, и читаемость при потере 8-го бита потеряли решающее значение. Восьмой бит в современных компьютерах не теряется ни при передаче, ни при обработке. А сортировка по алфавиту производится с учётом кодировки, а не простым сравнением кодов. (Кстати, коды CP1251 расположены не полностью по алфавиту - буква Ё не находится на своём месте).

Из-за того, что распространённых кодировок оказалось две, при работе с Интернетом (почта, просмотр Web-сайтов) иногда можно вместо русского текста увидеть бессмысленный набор букв. Например, “Я СБЮФЕМХЕЛ”. Это всего лишь слова “с уважением”; но они были закодированы в кодировке CP1251, а компьютер декодировал текст по таблице КОИ-8. Если те же слова были, наоборот, закодированы в КОИ-8, а компьютер декодировал текст по таблице CP1251, результатом будет “У ХЧБЦЕОЙЕН”.

Иногда бывает, что компьютер расшифровывает русскоязычные письма и вовсе по таблице, не предназначенной для русского языка. Тогда вместо русских букв появляются бессмысленный набор символов (например, латинские буквы восточно-европейских языков); их часто называют “крокозябрами”.

В большинстве случаев современные программы справляются с определением кодировок документов Интернета (электронных писем и Web-страниц) самостоятельно. Но иногда они “дают осечку”, и тогда можно увидеть странные последовательности русских букв или же “крокозябры”. Как правило, чтобы в такой ситуации вывести на экран настоящий текст, достаточно выбрать кодировку вручную в меню программы.

Для статьи использовалась информация странички http://open-office.edusite.ru/TextProcessor/p5aa1.html .

Материал взят с сайта:

С помощью двоичною кода можно кодировать текстовую информацию, если каждому символу алфавита сопоставить определенное целое чис- ло. Восьми двоичных разрядов достаточно для кодирования 256 различных символов. Этого хватает, чтобы выразить различными комбинациями восьми битов все символы английского и русского языков, как строчные, так и прописные, а также знаки препина- ния, символы основных арифметических действий и некоторые общепринятые специальные символы.

Для того чтобы весь мир одинаково кодировал текстовые дан- ные, нужны единые таблицы кодирования, а это пока невозможно из-за противоречий между символами национальных алфавитов.

Институт стандартизации США ввел в действие систему коди- рования ASCII, в которой закреплены две таблицы кодирования: базовая и расширенная. Базовая таблица закрепляет значения ко- дов от 0 до 127, а расширенная таблица относится к символам с номерами от 128 до 255.

Базовая таблица еистемы ASCII содержит 128 кодов. Первые 32 кода базовой таблицы, начиная с нулевого, отданы производите- лям аппаратных средств. В этой области размешаются управля- ющие коды, которым не соответствуют никакие символы языков. С 32-го по 127-й код размешены коды символов английского ал- фавита, знаков препинания, арифметических действий и некото- рых вспомогательных символов.

Кодировка символов русского языка, известная как кодировка Windows-1251, была введена компанией Microsoft. Учитывая ши- рокое распространение операционных систем и других продуктов этой компании в России, она глубоко закрепилась и нашла ши- рокое распространение. Кодировка символов русского языка за- креплена в расширенной таблице кодирования системы ASCII с 192-го по 255-й код.

Большинство систем распознают 256 кодов: 128 стандартных и 128 дополнительных из расширенного набора символов.

Поскольку одному байту соответствует один символ, для пред- ставления строки из четырех символов необходимо 4 байт. Вот как выглядит, например, группа символов АI2В, состоящая из букв и цифр, в кодировке ASCII:

А вот как выглядит двоичное представление шести символов слова «binary»:

0100001∩ 01001001 01001110 ОIОООО∩1 01010010 01011001

В компьютерном тексте, в отличие от текста, напечатанного на пишущей машинке, «пробел» - это значащий символ и, как любой другой символ, он имеет соответствующее двоичное представле- ние. При автоматизированной обработке информации отсутствие или наличие пробела играет важную роль, иногда приводя к пу- танице и сбивая с толку пользователей-новичков.

Буквам верхнего и нижнего регистров соответствуют разные коды ASCII. Например, прописной букве D соответствует код 68, а строчной d - 100.

Для кодирования букв русского алфавита чаше всего на прак- тике используется кодировка Windows-1251, однако существуют и другие системы кодировки. Распространенной является коди- ровка КОИ-8 (код обмена информацией восьмизначный). Ее про- исхождение относится к временам действия Совета экономиче- ской взаимопомоши государств Восточной Европы. Сегодня ко- дировка КОИ-8 широко распространена в компьютерных сетях на территории России.

Международный стандарт, в котором предусмотрена кодиров- ка символов русского языка, называется ISO (International Standard Organization - Международный институт стандартизации). На практике данная кодировка используется редко.

Следует всегда помнить, что компьютеры - это только маши- ны, они не понимают единиц и нулей, зато они способны интер- претировать электрическое напряжение, воспринимая его нали- чие как I, а отсутствие - как 0. Эта технология и позволяет ком- пьютерам обрабатывать информацию.

Кодирование графических данных. Напечатанное на бумаге чер- но-белое графическое изображение состоит из мельчайших то- чек - пикселов (picture element - элемент изображения), образу- ющих характерный узор, называемый растром.

Растровое кодирование позволяет использовать двоичный код для представления графических данных, поскольку линейные ко- ординаты и индивидуальные свойства каждой точки (яркость) можно выразить с помошью целых чисел. Общепринятым на се- годняшний день считается представление черно-белых иллюстра- ций в виде комбинации точек с 256 градациями серого цвета. Сле- довательно, для кодирования яркости любой точки обычно дос- таточно 8-paзpяднoгo двоичного числа.

Цветные изображения формируются и соответствии с двоич- ным кодом цвета каждой точки, хранящимся в видеопамяти. Цвет- ные изображения могут иметь различную глубину цвета, задавае- мую количеством бит для кодирования цвета точки. Так, для глу- Г>пны цвета 8 количество отображаемых цветов составляет 2 х = 256.

Кодирование цветной i рафики 16-paзpядными двоичными чис- л:iмii называется режимом High Color.

Режим представления цветной графики с использованием 24 двоичных разрядов называется полноцветным (True Color).

Для кодирования цветных графических изображений применя- сiея принцип декомпозиции произвольного цвета на основные составляющие. Считается, что любой цвет, видимый человече- ским глазом, можно получить путем механического смешивания mix трех основных цветов: красного (Red), зеленого (Green) и синего (Blue). Такая система кодирования получила название RGB (но первым буквам основных цветов).

RGB-модель представления цвета приведена в табл. 1.1.

Каждому из основных цветов можно поставить в соответствие lонолнительный цвет, т.е. цвет, дополняющий основной цвет io белого. Как следует из табл. I. I, для любого из основных цве- го| дополнительным будет цвет, образованный суммой пары ос- lалыiых основных цветов. Соответственно дополнительными цве- i^!іми являются голубой (Cyan), пурпурный (Magenta) и желтый (Yellow).

Принцип декомпозиции произвольного цвета на составляю- щие компоненты можно применять не только для основных цве- ти, но и для дополнительных, т.е. любой цвет можно предста- iшrь в виде суммы голубой, пурпурной и желтой составляющих.


Такой метод кодирования цвета принят в полиграфии, но в поли- графии используется еше и четвертый цвет - черный (Black). Поэтому данная система кодирования обозначается четырьмя бук- вами CMYK (черный цвет обозначается по последней букве в на- звании цвета - буквой К, потому что буква В уже обозначает синий цвет). Для представления цветной графики в этой системе надо иметь 32 двоичных разряда. Такой режим также называется полноцветным.

Если уменьшить количество двоичных разрядов, используемых для кодирования цвета каждой точки, то можно сократить объем данных, но при этом диапазон кодируемых цветов заметно сокра- щается.

Качество изображения определяется разрешающей способнос- тью монитора, т.е. количеством точек в строке и строк растра. Обычно в мониторах используют разрешающую способность эк- рана 800x600, I 024x768 или I 280x960. Рассчитаем необходимый объем видеопамяти для одного из графических режимов, напри- мер разрешением I 024x768 и качеством цветопередачи 32 бит на точку. Необходимый объем видеопамяти составит:

З2хl 024x768 = 25 165 824 бит = 3 145 728 байт = 3072 Кбайт = = 3 Мбайт.