Системы распознавания текста или OCR-системы. Построение системы оптического распознавания структурной информации на примере Imago OCR

Любая сканированная информации представляет собой графический файл (картинку). Следовательно, отсканированный текст невозможно редактировать без специального перевода в текстовый формат. Этот перевод можно осуществить с помощью систем оптического распознавания символов (optical character recognition - OCR).

Для получения электронной (готовой к редактированию) копии печатного документа программе OCR необходимо выполнить ряд операций, среди которых можно выделить следующие:

1. Сегментация - полученная со сканера «картинка» разбивается на сегменты (текст отделяется от графики, ячейки таблиц разделяются на отдельные куски и т.д.).

2. Распознавание - текст переводится из графической формы в обычную текстовую.

3. Проверка орфографии и правка - внутренняя система проверки орфографии проверяет и корректирует работу системы распознавания (спорные слова и символы выделяются цветом, пользователю сообщается о «неуверенно распознанных символах»)

4. Сохранение - запись распознанного документа в файл нужного формата для дальнейшего редактирования в соответствующей программе.

Перечисленные выше операции в большинстве OCR-систем могут выполняться как в автоматическом (с помощью программы-мастера), так и в ручном режиме (по отдельности).

Современные OCR-системы распознают тексты, набранные различными шрифтами; корректно работают с текстами, содержащими слова на нескольких языках; распознают таблицы и рисунки; позволяют сохранять результат в файле текстового или табличного формата и др.

В качестве примера OCR-систем можно привести CuneiForm от фирмы Cognitive и FineReader от ABBYY Software.

OCR-системаFineReader выпускается в различных версиях (Sprint, Home Edition, Professional Edition, Corporate Edition, Office) и все они, от самой простой до самой мощной, имеют очень удобный интерфейс, а также (в зависимости от модификации) имеют ряд достоинств, которые выделяют их среди аналогичных программ.

Например, FineReader Professional Edition (FineReader Pro) обладает следующими функциональными возможностями:

поддерживает почти двести языков (даже древние языки и популярные языки программирования);

распознает графику, таблицы, документы на бланках и т.п.;

полностью сохраняет все особенности форматирования документов и их графическое оформление;

для текстов, в которых используются декоративные шрифты или встречаются специальные символы (например, математические), предусмотрен режим «Распознавание с обучением», в результате работы которого создается эталон символов, встречающихся в тексте, для дальнейшего использования при распознавании;

Конец работы -

Эта тема принадлежит разделу:

Информация: свойства информации, количество информации единицы измерения- 13

Предмет и основные понятия информационных технологий.. информатизация информационное общество и информационная культура.. компьютерные информационные технологии и их классификация..

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ:

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Роль информатизации в современном обществе
Потоки информации постоянно растут, и неизбежно наступает информационный барьер, когда сложность задач обработки информационных потоков превышает человеческие возможности. Человек, являясь основным

Информатика как наука
Как известно, характерной чертой XX и XXI вв. является овладение человечеством компьютерной техникой, которая настолько плотно вошла и производственную сферу и в повседневную жизнь, что теперь труд

Виды информации
Информация может существовать в виде: текстов, рисунков, чертежей, фотографий; световых или звуковых сигналов; радиоволн; электрических и нервных импуль

Передача информации
Информация передаётся в форме сообщений от некоторого источника информации к её приёмнику посредством канала связи между ними. Ис

Количество информации
Какое количество информации содержится, к примеру, в тексте романа "Война и мир", во фресках Рафаэля или в генетическом коде человека? Ответа на эти вопросы наука не даёт и, по всей вероя

Обработка информации
Информацию можно: создавать; передавать; воспринимать; иcпользовать; запоминать; принимать;

Арифметические основы информационных технологий
Система счисления - это совокупность приемов и правил, по которым числа записываются и читаются. Существуют позиционные и непозиционные системы счисл

Порождение целых чисел в позиционных системах счисления
В каждой системе счисления цифры упорядочены в соответствии с их значениями: 1 больше 0, 2 больше 1 и т.д. Продвижением цифры называют замену её следующей по величине.

Системы счисления, используемые для общения с компьютером
Кроме десятичной широко используются системы с основанием, являющимся целой степенью числа 2, а именно: двоичная (используются цифры 0, 1); восьмер

Правовые основы информатизации в Республике Беларусь
В век информации в Республике Беларусь уделяется большое внимание организации цивилизованного информационного рынка. Об этом свидетельствуют следующие принятые документы: - законы:

Техническое обеспечение информационных технологий
Техническое обеспечение - совокупность технических средств, предназначенных для функционирования информационной системы. Оно выбирается, исходя из объема и сложности решаемых на предприятии

История развития вычислительной техники
Стремительное развитие цифровой вычислительной техники (ВТ) и становление науки о принципах ее построения и проектирования началось в 40-х гг. XX в., когда технической базой ВТ стала электроника и

Принципы строения и функционирования ЭВМ Джона фон Неймана
Большинство современных ЭВМ функционирует на основе принципов, сформулированных в 1945 г. американским ученым венгерского происхождения Джоном фон Нейманом. 1.Принцип двоичного кодирова

Основные компоненты и переферийные устройства ПК
Конструктивно ПК состоит из системного блока, монитора, клавиатуры, мыши и внешних (периферийных) устройств. Системный блок (корпус) представляет собой коробку из металла и пластмас

Процессор и его основные характеристики
Важнейший компонент любого компьютера - его процессор (микропроцессор) - программно-управляемое устройство обработки информации, выполненное в виде одной или нескольких больших или сверхболь

Устройства внешней памяти ПК
Для хранения программ и данных в компьютере используют устройства внешней памяти - накопители. По отношению к компьютеру они могут быть внешними и встраиваемыми (внутренни

Устройства ввода-вывода 3D изображений
Одним из направлений развития информационных технологий является разработка устройств, позволяющих работать с 3-мерными изображениями. 3D-сканер - устройство, анализирующе

Конфигурация ПК
Функциональные возможности компьютера определяет его конфигурация - состав и характеристика его основных устройств: процессора, оперативной памяти, жесткого диска, CD/DVD-приводов, монитора, видеок

Параметры, влияющие на производительность ПК
Производительность ПК является важнейшей его характеристикой. Все факторы и параметры, влияющие на производительность ПК, можно в общем случае разделить на программные и аппаратные. Влияни

Тенденции развития вычислительной техники
По мнению специалистов, в первом десятилетии XXI в. будут повышаться значимость программного обеспечения, возрастание проблем его совместимости и обеспечения безопасности. Среди операционных систем

Программный принцип управления компьютером
Компьютер является универсальным инструментом для решения разнообразных задач по преобразованию информации, но его универсальность определяется не столько аппаратным обеспечением, сколько установле

Операционные системы
Операционная система (ОС) - это комплекс программ, предназначенных для управления загрузкой, запуском и выполнением других пользовательских программ, а также для планирования и управления вычислите

Операционная система Windows
Корпорация Microsoft начала разрабатывать ОС семейства Windows с конца 80-х годов прошлого столетия. На сегодняшний день можно отметить следующие ОС этого семейства: Windows 3.0 / 3.1 / 3.

Файловая система Windows
Ядром операционной системы является модуль, который обеспечивает управление файлами - файловая система. Основная задача файловой системы - обеспечение взаимодействия программ

Объекты Windows
Одним из основных понятий Windows является объект, его свойства и действия, которые можно выполнить над объектом и которые может выполнять сам объект. Основными объектами Windows являются:

Графический интерфейс Windows и его элементы
После загрузки Windows на экране появляется электронный Рабочий стол, на котором размещаются графические объекты - пиктограммы (значки) папок и файлов, ярлыки и др. Значки файлов документов

Настройка ОС Windows
Настройку ОС Windows можно условно разделить на два вида: 1. Настройку интерфейса и элементов Панели управления - их может произвести любой пользователь. 2. Изменения через скрыты

Сервисные программы
Сервисные программы расширяют возможности ОС по обслуживанию системы и обеспечивают удобство работы пользователя. К этой категории относят системы технического обслуживания, программные обол

Компьютерные вирусы и антивирусные средства
Компьютерный вирус - это программа, ориентированная на существование и размножение в файле за счет его несанкционированного изменения, т.е. заражения, а также выполнения нежелательных действ

Архивация
Цель архивации - обеспечение более компактного размещения информации на диске, а также сокращение времени и соответственно стоимости передачи информации по каналам связи в компьютерных сетях

Общая характеристика и функциональные возможности программы-архиватора WinRAR 3.3
WinRAR - это 32-разрядная версия архиватора RAR для Windows, мощного средства создания и управления архивными файлами. Для Windows имеются две версии RAR: 1. Версия для командной ст

Инструментальное программное обеспечение
К инструментальному программному обеспечению относят: системы программирования - для разработки новых программ, например, Паскаль, Бейсик. Обычно они включают: редакт

Буфер промежуточного хранения Clipboard
Уже в первых версиях Windows был реализован встроенный буфер промежуточного хранения данных Clipboard(буфер обмена), который постоянно активен и доступен всем Windows-приложениям.

Технология DDE
Для обмена данными между приложениями может использоваться технология DDE(Dynamic Data Exchange - динамический обмен данными), суть которой состоит в том, что вставляемый через буф

Технология OLE
Технология связывания и внедрения объектов (Object Linking and Embedding) имеет больше функциональных возможностей, причем если приложение поддерживает OLE, то оно само выполняет обмен данными по э

Тенденции развития операционных систем
Основные направления развития операционных систем следующие: 1. Расширяемость - возможность внесения дополнительных функций без разрушения целостности системы (вспомните ОС Linux).

Компьютерная обработка информации
Для обработки информации существует множество вариантов (организационных форм) технологических процессов. Обычно технологический процесс обработки информации с использованием ЭВМ включает в себя сл

Технологии и системы обработки табличной информации (табличные процессоры)
Табличные процессоры - это программные комплексы для управления электронными таблицами. Электронная таблица (ЭТ) - универсальное средство для автоматизации расчетов над больш

Общая характеристика и функциональные возможности Microsoft Excel 2003
Можно выделить следующие функциональные возможности текстового процессора Microsoft Excel 2003: построение таблиц и сохранение их на машинных носителях, работа с шаблонами; работа

Технологии и системы обработки графической информации (компьютерная графика)
Компьютерная графика представляет собой одну из современных технологий создания и обработки различных изображений с помощью аппаратных и программных средств компьютера. Компьютерную

Системы компьютерной графики и их функциональные возможности
Существующие на сегодняшний день системы компьютерной графики (пакеты прикладных программ, работающие с графическими изображениями), также можно классифицировать различным образом, например:

Графические форматы
Формат графического файла (графический формат) - это совокупность информации об изображении и способ его записи в файл. Графические данные, как правило, занимают большой объем и тре

Общая характеристика и функциональные возможности программы Corel DRAW
CorelDRAW представляет собой объектно-ориентированный пакет программ для работы с векторной графикой. Термин «объектно-ориентированный» следует понимать в том смысле, что все операц

Общая характеристика и функциональные возможности программы Adobe PhotoShop
PhotoShop - это программа профессиональных дизайнеров и всех, кто связан с обработкой графических изображений. Она позволяет производить обработку и коррекцию изображений, введенных в компью

Технологии и системы создания динамических презентаций
Презентация (слайд-фильм по определенной тематике, выполненный в едином стиле и хранящийся в едином файле) - это электронный документ комплексного мультимедийного содержания с возможностями

Системы создания презентаций и их функциональные возможности
Рынок пакетов для создания презентаций развивается по двум направлениям: 1. Средства создания презентаций непрофессионального пользователя (например, PowerPoint фирмы Microsoft, Corel Pres

Общая характеристика и функциональные возможности Microsoft PowerPoint 2003
Система создания презентаций PowerPoint - является компонентой Microsoft Office и предназначена для создания презентационных материалов в виде слайдов и их вывода на бумагу, экран, прозрачную пленк

Понятие и история развития компьютерных сетей
Компьютерной (вычислительной) сетью называется совокупность компьютеров (ЭВМ), взаимосвязанных через каналы передачи данных и обеспечивающих пользователей средствами обмена информацией и кол

Локальные компьютерные сети
Главная отличительная особенность локальных сетей - единый для всех компьютеров высокоскоростной канал передачи данных и малая вероятность возникновения ошибок в коммуникационном оборудовании.

Основные технологии и оборудование локальных сетей
Для организации локальной сети необходимы технические, программные и информационные средства. Технические средства сети включают: 1. Компьютеры, технические харак

Глобальная сеть Internet
Internet (Интернет) - глобальная компьютерная сеть, представляющая собой всемирное объединение неоднородных компьютерных сетей, образующих единое информационное пространство благодаря исполь

Адресация компьютеров в сети Интернет
Маршрутизация между локальными сетями осуществляется в соответствии с IP-адресами, находящимися в заголовке дейтаграммы. IP-адрес назначается администратором сети во время конфигурации компьютеров

Структурные компоненты и протоколы прикладного уровня сети Internet
Web-страница - гипертекстовый документ в формате.html - наименьшая единица всемирной паутины. Она может содержать текст, графические иллюстрации, мультимедийные и другие объекты, и главное

Понятие алгоритма и типы алгоритмических процессов
Любая задача перед решением на ЭВМ требует формализованной подготовки, включающей совокупность решений по составу и содержанию входных и выходных данных, а также процедурам преобразования входных с

Инструментальные средства программирования
Инструментарий программирования - это совокупность программных продуктов, обеспечивающих технологию разработки, отладки и внедрения создаваемых новых программных продуктов. Они делятся на ср

Базы Данных
В настоящее время термины база данных (БД) и система управления базами данных (СУБД) используются, как правило, по отношению к компьютерным базам данных. В общем смысле этот термин можно применить

Накладные Товар
Номер накладной Код покупателя Номер накладной Товар Количество

Иерархические модели
В иерархической модели данные организованы в виде дерева. Вершины такого дерева расположены на разных уровнях. Группы записей в такой структуре располагаются в определенной последовательности, как

Сетевые модели
В сетевой модели данные представляются в виде записей, которые связываются друг с другом по некоторым правилам и образуют сеть (рис. 2.5). Данные в сетевой структуре равноправны. Примером

Основные функции СУБД
Существует большое количество программ, которые предназначены для структурирования информации, размещения ее в таблицах и манипулирования имеющимися данными – такие программы и получили название СУ

Реляционная модель данных
Одним из самых естественных способов представления данных является двухмерная таблица. С другой стороны, и связи между данными также могут быть представлены в виде двухмерных таблиц. Так, например,

Особенности СУБД Access
Приложение Access является реляционной СУБД, которая поддерживает все средства и возможности по обработке данных, свойственные реляционным моделям. При этом информация, которую необходимо хранить в

Термины реляционных СУБД
· Таблица - информация об объектах одного типа (например, о клиентах, заказах, сотрудниках) представляется в табличном виде. · Атрибут - хранится в поле (столбце) таблицы. Эт

Этапы проектирования Базы Данных
· Определить назначение БД. · Определить, какие исходные данные (таблицы) будет содержать БД. · Определить поля, которые будут входить в таблицы, и выбрать поля, содержащие уникал

Технологии оптического распознавания (понятие и области применения OCR, алгоритмы оптического распознавания, характеристики и программы OCR, понятие Intelligent CharacterRecognition, системы распознавания рукописного текста)

OCR (Optical Character Recognition) - технология преобразования графического изображения текста в компьютерный текст с помощью алгоритма распознавания графических образов.

Ocr используется:

1) при сканировании и фотографировании текстов.

2) для ввода больших объемов текстовой информации в компьютер (от 100 и более страниц в день).

3) для рукописного ввода текстовой информации в компьютер.

4) для преобразования одного формата в другой.

Популярны три основные технологии распознавания символов:

Шаблонная (во входном изображении выделяются растровые изображения отдельных символов, сравниваются со всеми шаблонами, имеющимися в базе, выбирается шаблон с наименьшим количеством точек, отличных от входного изображения. Шаблонные системы проще в реализации, устойчивы к дефектам изображения, имеют высокую скорость обработки входных данных, но надежно распознают только те шрифты, шаблоны которых им известны),

Структурная (объект описывается как граф, узлами которого являются элементы входного объекта, а дугами - пространственные отношения между ними. Структурные системы высоко чувствительны к графическим дефектам изображения, нарушающим составляющие элементы. Для этих систем, в отличие от шаблонных и признаковых, до сих пор не созданы эффективные автоматизированные процедуры обучения),

Фонтанное преобразование (совмещает в себе достоинства шаблонной и структурной систем. Любой воспринимаемый объект рассматривается как целое, состоящее из частей, связанных между собой определенными отношениями).

Характеристики ocr:

    количество ошибок при вводе текста. Допустимой считается величина 10 ошибок на страницу.

    требовательность к качеству исходного текста.

    возможность исправления орфографических ошибок для повышения качества ввода.

    поддержка различных языков.

    возможность обучения и настройки на особенности печатных шрифтов и рукописных текстов.

    скорость распознавания. Желательно, чтобы оно было сопоставимо со временем ввода документа сканером.

Программы ocr:

Наиболее известны такие пакеты, как FineReader, CuneiForm, OmniPage, TextBridge.

ABBYY FineReader - OCR для автоматического ввода текстов, таблиц, форм, анкет и т.п.

ADRT (Adaptive Document Recognition Technology), технология адаптивного распознавания документов уровня IDR (Intelligent Document Recognition).

ABBYY Business Card Reader - мобильное приложение для распознавания визитных карточек, которое автоматически распознает информацию с фотографии визитной карточки, создает новый контакт, записывает контактные данные и дополнительную информацию в нужные поля записной книжки.

    ICR (Intelligent Character Recognition ) - системы для обработки форм, обеспечивающие ввод данных из документов на основе геометрических шаблонов

Системы оптического распознавания символов (OCR - Optical character recognition) стали неотьемлемой частью интегрированных пакетов, поддерживающих ввод в компьютер, хранение и обработку бумажных и электронных документов. Система включает в свой состав сканер для ввода информации.

Если созданное сканером изображение содержит текст и рисунки, то при помощи специальной программы оптического распознавания текста (OCR) можно:

  • - отделить текст от рисунков;
  • - записать этот текст в формате файла текстового процессора.

Программное обеспечение в современных системах OCR выполняет анализ форм букв и создание текстового файла, в который распознаваемый текст записывается посимвольно с последовательным формированием слов и предложений.

Существует два типа пакетов OCR: обучаемые и интеллектуальные. Первые пакеты оптического распознавания символов имели четкое разделение по типу. В последнее время наблюдается тенденция к объединению этих двух типов в одном пакете, что перекликается с попытками разработать принципиально новые алгоритмы распознавания.

Обучаемые пакеты программ OCR составляли большинство первых разработок. Такие пакеты теоретически способны обучаться распознаванию любых символов любых гарнитур. Для обучения программы конкретной гарнитуре нужно отсканировать эталонное изображение с последующим обучением каждому конкретному символу. Это довольно длительная процедура, однако, если данная гарнитура будет затем регулярно использоваться, стоит потратить пару часов на обучение. Программы такого типа сравнивают каждый отдельный символ страницы с символами в справочных таблицах, созданных в процессе обучения, составляя при этом текстовый файл.

Интеллектуальные пакеты OCR не нуждаются в обучении и могут интерпретировать формы символов независимо от используемой гарнитуры. Работа этих программ производит большое впечатление: документ пропускается через сканер, результат обрабатывается интеллектуальной программой OCR с выдачей текстового файла. Для страницы формата А4 вся процедура занимает немногим более одной минуты. При высокой точности это значительно быстрее ручного ввода.

FineReader - это система оптического распознавания текстов (OCR), которая преобразует полученное с помощью сканера графическое изображение (картинку) в текст (т. е. в коды букв, «понятные» системе).

Процесс ввода текстов в компьютер осуществляется в несколько этапов: сканирование; выделение блоков на изображении; распознавание; проверка ошибок; сохранение результата распознавания (передача его в другое приложение, в буфер и т. п.)

Рисунок 2. Интерфейс программы FineReader 11

Интеллектуальная система оптического распознавания символов (Optical Character Recognition, OCR) Cuneiform функционирует в среде Microsoft Windows 3.1 или более поздней версии. Система обладает следующими технологическими возможностями: поддерживает широкий спектр настольных сканеров;распознает отсканированную страницу (включая многоколонный текст и текст со сложным оформлением); позволяет сканировать и записывать изображение как TIFF, а распознавание запускать потом (при этом удобно сканировать пачку документов); может читать изображения, отсканированные другими программами, и факсы в режимах Fine и Normal;распознает буквы русского и английского алфавитов, исключая стилизованные шрифты типа готических букв; может сохранять первоначальные форматирование и табуляцию и регулировать отступы и выравнивание; не распознает рукописный текст.

Экран Сuneiform содержит четыре основные части, отмеченные на рисунке.


Рисунок 3. Интерфейс программы Сuneiform

Новая версия системы распознавания Intuitia 2.0 for Windows использует Омнифонт-технологию (распознает различные шрифты без какого бы то ни было обучения). Она обеспечивает распознавание изображений текстовых материалов из файлов в форматах TIFF, PCX, BMP, а также со всех Сканеров, поддерживающих протокол TWAIN, а также со сканеров семейства HP ScanJet (напрямую).

Система ввода и распознавания рукописных текстов PenO"Man for Windows - средство рукописного ввода, распознавания и редактирования текстов при помощи пера: имеется возможность ввода и редактирования как английского, так и русского слитно написанного текста во всех приложениях Windows; процесс ввода аналогичен обычному использованию ручки при письме слева направо, желательно аккуратным почерком и с классическим левым наклоном; редактирование уже введенного текста возможно в результате использования стандартных функций (вставке, удалению, переносу, активизации фрагментов текста и т. д.), а также простых росчерков пера.

Ввод первичных документов - оцифровка (image-processing, document capture)
В процессе подготовки информации при компьютеризации предприятия, автоматизации бухучета, возникает задача ввода большого объема текстовой и графической информации. Используя программы оптического распознавания текстов, можно оцифровывать текстовую информацию. Современные программно-аппаратные комплексы позволяют автоматизировать ввод больших объемов информации с использованием сетевых сканеров и параллельного распознавания текстов на нескольких компьютерах, одновременно.

OCR – назначение - распознавание
Большинство программ оптического распознавания текста (OCR - Optical Character Recognition) работают с растровым изображением, которое получено через факс-модем, сканер, цифровую фотокамеру или другое устройство. Назначение OCR-систем состоит в анализе растровой информации (отсканированного символа) и присвоении фрагменту изображения соответствующего символа. После завершения процесса распознавания OCR-системы должны уметь сохранять форматирование исходных документов, присваивать в нужном месте атрибут абзаца, сохранять таблицы, графику ит.д. Современные программы распознавания поддерживают все известные текстовые и графические форматы и форматы электронных таблиц, а некоторые поддерживают такие форматы, как HTML и PDF .

Поточный ввод
Для ввода больших объёмов применяется поточное сканирование документов на специальных промышленных документных сканерах. Обработка в таких системах производится в полуавтоматическом режиме с большой производительностью. Поточное сканирование документов оптимально для создания электронного архива большого объема однотипной информации (бухгалтерской документации, отчётов, заключений, научных работ и т.п.). Потоковое сканирование применяется для оцифровки: бухгалтерских и финансовых документов, договорных документов, юридических документов, архивных документов, каталогов библиотек и др.

Средства Image-processing применяются при автоматическом вводе данных в информационные системы из любых видов документов (удостоверяющих личность, бухгалтерских, юридических и т. д.) для создания электронных архивов с возможностью быстрого поиска нужных документов, при обработке больших массивов данных (перепись населения, единый госэкзамен и пр.), а также для перевода отсканированных документов, изображений и PDF-файлов в редактируемые форматы. внедрение современных средств потокового ввода позволяет снизить затраты на обработку документов более чем на 50%, достичь увеличения скорости ввода в информационные системы в 3-10 раз, обеспечить повышение удобства и качества работы с данными (высокий уровень безопасности конфиденциальных данных, сокращение количества ошибок, связанных с человеческим фактором при вводе данных), оптимизировать бизнес-процессы за счет автоматизации рутинной функции ввода данных и освобождения времени сотрудников на решение профильных задач. При этом средняя окупаемость внедрения составляет от трех месяцев до одного года.

Главными потребителями Image-processing в мире являются крупные организации (немногим более половины объема рынка в денежном выражении), на долю средних предприятий приходится около трети, остальное - малый бизнес.

Системы распознавания текста или OCR-системы (Optical Character Recognition) предназначены для автоматического ввода документов в компьютер. Это может быть страница книги, журнала, словаря, какой-то документ - все, что угодно, что было уже напечатано, и должно быть преобразовано обратно в электронную форму.

OCR-системы распознают текст и различные его элементы (картинки, таблицы) с электронного изображения. Изображение получается обычно путем сканирования документа и реже - его фотографированием. Поступившее изображение обрабатывается алгоритмом OCR-программы, выделяются области текста, изображений, таблиц, отделяется мусор от нужных данных.

На следующем этапе каждый символ сравнивается со специальным словарем символов, и если находится соответствие, то этот символ считается распознанным. В итоге вы получаете набор распознанных символов, то есть искомый текст.

Современные OCR-системы представляют собой достаточно сложные программные решения. Ведь текст может быть замусорен, искажен, загрязнен, и программа должна это учитывать и уметь правильно обрабатывать такие ситуации. Кроме того, современные OCR-системы позволяют также получить копию печатного документа в электронном виде с сохранением форматирования, стилей, размеров текста и видов шрифтов и т.д.

Описание OCR-процедуры

1. Предварительная обработка изображения.

2. Распознание объектов высших уровней.

3. Распознание символов

4. Структурирование гипотез. Словарная проверка.

5. Синтез электронного документа.

Большинство программ оптического распознавания текста (OCR Optical Character Recognition) работают с растровым изображением, которое получено через факс-модем, сканер, цифровую фотокамеру или другое устройство. На первом этапе OCR должен разбить страницу на блоки текста, основываясь на особенностях правого и левого выравнивания и наличия нескольких колонок. Затем распознанный блок разбивается на строки. Несмотря на кажущуюся простоту, это не такая очевидная задача, так как на практике неизбежны перекос изображения страницы или фрагментов страницы при сгибах. Даже небольшой наклон приводит к тому, что левый край одной строки становится ниже правого края следующей, особенно при маленьком межстрочном интервале. Врезультате возникает проблема определения строки, к которой относится тот или иной фрагмент изображения. Например, для букв j, Й, ё при небольшом наклоне уже сложно определить, к какой строке относится верхняя (отдельная) часть символа (в некоторых случаях ее можно принять за запятую или точку).

Потом строки разбиваются на непрерывные области изображения, которые, как правило, соответствуют отдельным буквам; алгоритм распознавания делает предположения относительно соответствия этих областей символам; а затем делается выбор каждого символа, в результате чего страница восстанавливается в символах текста, причем, как правило, в соответствующем формате. OCR-системы могут достигать наилучшей точности распознавания свыше 99,9% для чистых изображений, составленных из обычных шрифтов. На первый взгляд такая точность распознавания кажется идеальной, но уровень ошибок все же удручает, потому что, если имеется приблизительно 1500 символов на странице, то даже при коэффициенте успешного распознавания 99,9% получается одна или две ошибки на страницу. Втаких случаях на помощь приходит метод проверки по словарю. То есть, если какого-то слова нет в словаре системы, то она по специальным правилам пытается найти похожее. Но это все равно не позволяет исправлять 100% ошибок, что требует человеческого контроля результатов.

54. Microsoft Wordмощный текстовый процессор (текст. процессор выполняет более сложные операции чем редакторы - перенос слов, операции форматирования), предназначенный для выполнения всех процессов обработки текста.

В настоящее время наиболее широко распространён. Входит в комплект интегрированного пакета Microsoft Office. Основное назначение–создание и редактирование текстовых документов. Обладает широкими возможностями. Программа удобна для работы с большими документами благодаря имеющимся в ней средствам создания указателей, оглавлений, колонтитулов, иерархических заголовков и т.п.

1.Возможности текстового процессора Word простираются от набора, до проверки орфографии, вставки в текст графики в стандарте *.pcx или *.bmp, музыкальные модули в формате *.wav.,распечатки текста. Размещение в документе графических объектов, таблиц, диаграмм, гиперссылок, автоматизации обработки документов, использование стилей; списков, полей Word; создание макросов; подготовка текста к изданию (создание оглавления, алфавитного указателя, сносок, примечаний); работа над текстом совместно нескольких пользователей, генерация документов методом слияния, использование шаблонов и др. Он работает с многими шрифтами с любым из 21 языка мира. Наличие макетов текстов и шаблонов. Word обеспечивает поиск заданного фрагмента текста, замену его на указанный фрагмент, удаление, копирование во внутренний буфер. Наличие закладки в тексте позволяет быстро перейти к заложенному месту в тексте. Word позволяет включать в текст базы данных. Можно установить пароль. Word позволяет открывать много окон для одновременной работы с несколькими текстами. Microsoft Word (часто - MS Word, WinWord или просто Word) - текстовый процессор, предназначенный для создания, просмотра и редактирования текстовых документов, с локальным применением простейших форм таблично-матричных алгоритмов. Выпускается корпорацией Microsoft в составе пакета Microsoft Office. Первая версия была написана Ричардом Броди (Richard Brodie) для IBM PC, использующих DOS, в 1983 году.

Текстовый редактор – это программа предназначенная для создания и обработки текстов.

Четыре группы редакторов:

1. Редакторы для печати текста.

2. Текстовые процессоры для создания составных документов, т.е. документов составляющих из текстов таблиц, рисунков, графиков.

3. Программы для верстки текстов (в типографском деле)

4. Редакторы для создания научных текстов

Режимы работы редактора Word:

· Обычный режим – используется для печатания текстовой информации

· Режим разметки страницы

· Режим структуры документа – система разбивки документа на части. Предназначен для работы с большими текстами и имеющие ряд заголовков, подзаголовков.

· Режим Web-документ

Ввод и редактирование текста:

1. Не печатать пробел в начале предложения. Пробел считается символом.

2. Нельзя нажимать клавишу ввод для перехода на новую строку. Но обязательно нажимать ввод при новом абзаце.

3. Перед символами « .,:!? » нельзя ставить пробел, после символов обязательно ставить пробел.

4. Нужно сначала выделить текст, а потом лишь выполнять какую-то работу.

Форматирование документа включает:

1. Форматирование страницы

2. Форматирование абзаца

3. Символы

4. форматирование таблицы

5. форматирование рисунка.

Создание документа.

В текстовом редакторе MS Word используется два метода создания нового документа:

1. На основе готового шаблона

2. На основе существующего документа.

Второй метода роще, но первый методически более корректен. При создании документа на основе существующего документа открывают существующий документ, сохраняют его под новым именем, затем выделяют в ем все содержимое и удаляют все, после этого мы имеем пустой документ, имеющий собственное имя и сохраняющий все настройки, ранее принятые для исходного документа.

В состав Word включен широкий набор средств автоматизации, упрощающих выполнение типичных задач. Большинство из них в том или ином виде было представлено и в предыдущих версиях редактора, но теперь возможности автоматизации стали значительно шире. К таким средствам относятся:

Авто-замена, позволяющая автоматически исправлять типичные ошибки при вводе;

Авто-заполнение (или авто-текст), с помощью, которой можно автоматически продолжить ввод слова или фрагмента текста после ввода нескольких первых буки (теперь редактор с самого начала имеет некоторую базу таких заготовок);

Автоматическая проверка правописания включает в себя проверку орфографии и грамматики. Пользователь имеет возможность отключить любой из видов проверки или вообще провести проверку лишь после завершения ввода всего документа;

Microsoft Office

Автоматическое создание и предварительный просмотр стилей;

Авто-формат при вводе, предназначенный для автоматического форматирования документа непосредственно при вводе или после его завершения;

Помощник, предназначенный для того, чтобы автоматически давать советы и предоставлять справочные сведения, которые могут понадобиться по ходу выполнения задачи.

Например, если Помощник решит, что вы собираетесь приступить к созданию письма, то он предложит запустить Мастер писем.

В Word имеются средства, упрощающие работу с таблицами, границами (обрамлением) и заливкой:

С помощью мыши можно рисовать таблицы различной формы (отдельные ячейки таблицы могут иметь любую ширину и высоту). Границу ячейки, строки или столбца таблицы легко можно удалить, это дает тот же эффект, что и объединение ячеек. В Word можно объединять любые соседние ячейки как по горизонтали, так и по вертикали;

Содержимое ячеек таблицы можно выравнивать по верхнему или нижнему краю либо по середине ячейки. Текст внутри ячеек можно расположить вертикально (с поворотом на 90 градусов);

В состав Word включено более 150 различных типов границ, которые помогут украсить любой документ и оформить его профессионально;

В Word предлагается набор графических средств, с помощью которых можно обогатить и украсить текст и рисунки путем добавления объема, теней, текстурных и прозрачных заливок, авто-фигур.

Графический редактор Microsoft Office предоставляет большой набор инструментов для рисования. Для украшения текста и рисунков предлагается более 100 настраиваемых авто-фигур, 4 вида заливки (многоцветная градиентная, узорная, прозрачная и рисунком), и также добавление тени и объема.

Перечень возможностей Microsoft Word

Редактирование текста осуществляется с помощью следующих функций:

§ выделение, копирование и вставка нужного фрагмента текста;

§ вставка объектов, не являющихся текстом в формате Microsoft Word (например, включение в текст графических изображений, электронных таблиц и графиков, звуков, видеоизображений и т.д.);

§ вставка в документ номеров страниц, даты и времени, сносок, специальных символов и пр.;

§ возможность нахождения, перехода, замены нужного слова текста, строки, раздела, страницы и пр.;

§ возможность повтора или отмены последнего действия, произведенного с текстом;

§ расширенные возможности форматирования документа. В отличие от Word Pad, Word допускает выравнивание документа по обоим краям, многоколоночную верстку;

§ использование стилей для быстрого форматирования документа.

Кроме перечисленных возможностей программа предлагает некоторый набор сервисных функций, таких как:

§ проверка орфографии и грамматики, в том числе фоновая - по мере введения текста;

§ подбор синонимов слов (пункт меню «Тезаурус»);

§ расстановка переносов в тексте документа;

§ определение статистических данных документа (число символов, слов, строк, абзацев, страниц);

§ работа с макросами и шаблонами документов.

Также в программе имеется большой набор функций по работе с таблицами и графикой, объемная система помощи (справочная система) и многое, многое другое.


Похожая информация.