Проблемы распознавания речи: что еще предстоит решить.

Свойства объектов отличаются своим качеством и измеряются с помощью различных органов восприятия или измерительных приборов в различных единицах измерения.

Результатом измерения является снижение неопределенности в наших знаниях о значении свойств объекта. Значения свойств конкретизируются путем их сопоставления определенным градациям соответствующих измерительных шкал: номинальных, порядковых или отношений.

В номинальных шкалах отсутствуют отношения порядка, начало отсчета и единица измерения.

На порядковых шкалах определены отношения "больше – меньше", но отсутствуют начало отсчета и единица измерения.

На шкалах отношений определены отношения порядка, все арифметические операции, есть начало отсчета и единица измерения.

Можно представить себе, что шкалы образуют оси координат некоторого абстрактного многомерного пространства, которое будем называть "фазовым пространством".

В этом фазовом пространстве каждый конкретный объект представляется определенной точкой, имеющей координаты, соответствующие значениям его свойств по осям координат, т.е. градациям описательных шкал.

Оси координат фазового пространства в общем случае не являются взаимно-перпендикулярными шкалами отношений, т.е. в общем случае это пространство неортонормированное, более того – неметрическое. Следовательно, в нем в общем случае не применима Евклидова мера расстояний, т.е. не действует Евклидова метрика. Применение этой меры расстояний корректно, если одновременно выполняются два условия:

1. Все оси координат фазового пространства являются шкалами отношений.

2. Все оси координат взаимно-перпендикулярны или очень близки к этому.

1.3.2.1.2. Признаки и обобщенные образы классов

Обобщенные образы классов формализуются (кодируются) путем использования классификационных шкал и градаций, которые могут быть тех же типов, что и описательные, т.е. номинальные, порядковые и отношений.

Сама принадлежность конкретных объектов к данному классу определятся либо человеком-учителем, после чего фиксируется в обучающей выборке, либо самой системой автоматически на основе кластерного анализа конкретных объектов.

1.3.2.1.3. Обучающая выборка и ее репрезентативность по отношению к генеральной совокупности. Ремонт (взвешивание) данных

Рассмотрим, как зависит степень достоверности выводов о генеральной совокупности от объема обучающей выборки.

Если обучающая выборка включает все объекты генеральной совокупности, т.е. они совпадают, то достоверность выводов будет наиболее высокой (при всех прочих равных условиях).

Если же обучающая выборка очень мала, то вряд ли на ее основе могут быть сделаны достоверные выводы о генеральной совокупности, т.к. в этом случае в обучающую выборку могут даже не входить примеры объектов всех или подавляющего большинства классов.

Под репрезентативностью обучающей выборки будем понимать ее способность адекватно представлять генеральную совокупность, так что изучение самой генеральной совокупности можно корректно заменить исследованием обучающей выборки.

Но репрезентативность зависит не только от объема, но и от структуры обучающей выборки, т.е. от того, насколько полно представлены все категории объектов генеральной совокупности (классы) и от того, насколько полно они описаны признаками.

Взвешивание данных или ремонт обучающей выборки это операция, в результате которой частное распределение объектов по классам в обучающей выборке максимально, на сколько это возможно, приближается либо к частотному распределению генеральной совокупности (если оно известно из независимых источников), либо к равномерному.

В системе "Эйдос" режим взвешивания данных реализован.

1.3.2.1.4. Основные операции: обобщение и распознавание

Сразу необходимо отметить, что операция обобщения реализуется далеко не во всех моделях систем распознавания (например, в методе k-ближайших соседей), а в тех, в которых оно реализуется, – это делается по-разному.

Обычно, пока не реализовано обобщение нет возможности определить ценность признаков для решения задачи идентификации.

Например, если у нас есть 10 конкретных мячей разного размера и цвета, состоящих из разных материалов и предназначенных для разных игр, и мы рассматриваем их как совершенно независимые друг от друга объекты, наряду с другими, то у нас нет возможности определить, какие признаки являются наиболее характерными для мячей и наиболее сильно отличают их от этих других объектов. Но как только мы сформируем обобщенные образы "мяч", "стул", и т.д., сразу выясниться, что цвет мяча и материал, из которого он сделан, не является жестко связанными с обобщенным образом класса "мяч", а наиболее существенно то, что он круглый и его можно бросать или бить во время игры.

Распознавание – это операция сравнения и определения степени сходства образа данного конкретного объекта с образами других конкретных объектов или с обобщенными образами классов, в результате которой формируется рейтинг объектов или классов по убыванию сходства с распознаваемым объектом.

Ключевым моментом при реализации операции распознавания в математической модели является выбор вида интегрального критерия или меры сходства , который бы на основе знания о признаках конкретного объекта позволил бы количественно определить степень его сходства с другими объектами или обобщенными образами классов.

В ортонормированном пространстве, осями которого являются шкалы отношений, вполне естественным является использовать в качестве такой меры сходства Евклидово расстояние. Однако, такие пространства на практике встречаются скорее как исключение из правила, а операция ортонормирования является довольно трудоемкой в вычислительном отношении и приводит к обеднению модели, а значит ее не всегда удобно и целесообразно осуществлять.

Поэтому актуальной является задача выбора или конструирования интегрального критерия сходства, применение которого было бы корректно и в неортонормированных пространствах. Кроме того, этот интегральный критерий должен быть устойчив к наличию шума, т.е. к неполноте и искажению как в исходных данных, так и самой численной модели.

Требование устойчивости к наличию шума математически означает, что результат применения интегрального критерия к сигналу, состоящему только из белого шума, должен быть равным нулю. Это значит, что в качестве интегрального критерия может быть применена функция, используемая при определении самого понятия "белый шум", т.е. свертка, скалярное произведение, корреляция.

Такой интегральный критерий предложен в математической модели системно-когнитивного анализа и реализован в системе "Эйдос".

1.3.2.1.5. Обучение с учителем (экспертом) и самообучение (кластерный анализ)

Причем, если описательные характеристики могут формироваться с помощью информационно-измерительной системы автоматически, то классификационные – представляют собой результат вообще говоря неформализуемого процесса оценки степени принадлежности данных объектов к различным классам, который осуществляется человеком-экспертом или, как традиционно говорят специалисты по распознаванию образов, "учителем". В этом случае не возникает вопроса о том, для формирования обобщенного образа каких классов использовать описание данного конкретного объекта.

Обучение без учителя или самообучение – это процесс формирования обобщенных образов классов, на основе обучающей выборки, содержащей характеристики конкретных объектов, причем только в описательных шкалах и градациях.

Поэтому этот процесс реализуется в три этапа:

1. Кластерный анализ объектов обучающей выборки, в результате которого определяются группы наиболее сходных их них по их признакам (кластеры).

2. Присвоение кластерам статуса обобщенных классов, для формирования обобщенных образов которых используются конкретные объекты, входящие именно в эти кластеры.

3. Формирование обобщенных образов классов, аналогично тому, как это делалось при обучении с учителем.

1.3.2.1.6. Верификация, адаптация и синтез модели

Верификация модели – это операция установления степени ее адекватности (валидности) путем сравнения результатов идентификации конкретных объектов с их фактической принадлежностью к обобщенным образам классов.

Различают внутреннюю и внешнюю, интегральную и дифференциальную валидность.

Внутренняя валидность – это способность модели верно идентифицировать объекты обучающей выборки.

Если модель имеет низкую внутреннюю валидность, то модель нельзя считать удачно сформированной.

Внешняя валидность – это способность модели верно идентифицировать объекты, не входящие в обучающую выборку.

Интегральная валидность – это средневзвешенная достоверность идентификации по всем классам и распознаваемым объектам.

Дифференциальная валидность – это способность модели верно идентифицировать объекты в разрезе по классам.

Адаптация модели – это учет в модели объектов, не входящих в обучающую выборку, но входящих в генеральную совокупность, по отношению к которой данная обучающая выборка репрезентативна.

Если моделью верно идентифицируются объекты, не входящие в обучающую выборку, то это означает, что эти объекты входят в генеральную совокупность, по отношению к которой данная обучающая выборка репрезентативна. Следовательно, на основе обучающей выборки удалось выявить закономерности взаимосвязей между признаками и принадлежностью объектов к классам, которые действуют не только в обучающей выборке, но имеют силу и для генеральной совокупности.

Адаптация модели не требует изменения классификационных и описательных шкал и градаций, а лишь объема обучающей выборки, и приводит к количественному изменению модели .

Синтез (или повторный синтез – пересинтез) модели – это учет в модели объектов, не входящих ни в обучающую выборку, ни в генеральную совокупность, по отношению к которой данная обучающая выборка репрезентативна.

Это объекты с новыми, ранее неизвестными закономерностями взаимосвязей признаков с принадлежностью этих объектов к тем или иным классам. Причем и признаки, и классы, могут быть как те, которые уже были отражены в модели ранее, так и новые. Пересинтез модели приводит к ее качественному изменению.

1.3.2.2. Проблема распознавания образов

Простейшим вариантом распознавания является строгий запрос на поиск объекта в базе данных по его признакам, который реализуется в информационно-поисковых системах. При этом каждому полю соответствует признак (описательная шкала), а значению поля – значение признака (градация описательной шкалы). Если в базе данных есть записи, все значения заданных полей которых точно совпадают со значениями, заданными в запросе на поиск, то эти записи извлекаются в отчет, иначе запись не извлекается.

Более сложными вариантами распознавания является нечеткий запрос с неполнотой информации , когда не все признаки искомых объектов задаются в запросе на поиск, т.к. не все они известны, и нечеткий запрос с шумом , когда не все признаки объекта известны, а некоторые считаются известными ошибочно. В этих случаях из базы данных извлекаются все объекты, у которых совпадает хотя бы один признак и в отчете объекты сортируются (ранжируются) в порядке убывания количества совпавших признаков. При этом при определении ранга объекта в отсортированном списке все признаки считаются имеющими одинаковый "вес" и учитывается только их количество.

Однако:

– во-первых, на самом деле признаки имеют разный вес, т.е. один и тот же признак в разной степени характерен для различных объектов ;

– во-вторых, нас могут интересовать не столько сами объекты, извлекаемые из базы данных прецедентов по запросам, сколько классификация самого запроса , т.е. отнесение его к определенной категории, т.е. к тому или иному обобщенному образу класса.

Если реализация строгих и даже нечетких запросов не вызывает особых сложностей, то распознавание как идентификация с обобщенными образами классов, причем с учетом различия весов признаков представляет собой определенную проблему.

Обучение осуществляется путем предъявления системе отдельных объектов, описанных на языке признаков, с указанием их принадлежности тому или другому классу. При этом сама принадлежность к классам сообщается системе человеком – Учителем (экспертом).

В результате обучения распознающая система должна приобрести способность:

1. Относить объекты к классам, к которым они принадлежат (идентифицировать объекты верно).

2. Не относить объекты к классам, к которым они не принадлежат (неидентифицировать объекты ошибочно).

Эта и есть проблема обучения распознаванию образов, и состоит она в следующем:

1. В разработке математической модели, обеспечивающей: обобщение образов конкретных объектов и формирование обобщенных образов классов; расчет весов признаков; определение степени сходства конкретных объектов с классами и ранжирование классов по степени сходства с конкретным объектом, включая и положительное, и отрицательное сходство.

2. В наполнении этой модели конкретной информацией, характеризующей определенную предметную область.

1.3.2.3. Классификация методов распознавания образов

Идентификация и прогнозирование часто практически ничем друг от друга не отличаются по математическим моделям и алгоритмам. Основное различие между ними состоит в том, что при идентификации признаки и состояния объекта относятся к одному времени, тогда как при прогнозировании признаки (факторы) относятся к прошлому, а состояния объекта – к будущему.

Это означает, что системы распознавания образов с успехом могут применяться не только для решения задач идентификации, но и прогнозирования.

1.3.2.5. Роль и место распознавания образов в автоматизации управления сложными системами

1.3.2.5.1. Обобщенная структура системы управления

Автоматизированная система управления состоит из двух основных частей: объекта управления и управляющей системы (рисунок 71).

Управляющая система осуществляет следующие функции:

– идентификация состояния объекта управления;

– выработка управляющего воздействия исходя из целей управления с учетом состояния объекта управления и окружающей среды;

– оказание управляющего воздействия на объект управления.

Рисунок 71 . Обобщенная схема рефлексивной системы управления
активными объектами

1.3.2.5.2. Место системы идентификации в системе управления

Распознавание образов есть не что иное, как идентификация состояния некоторого объекта. Автоматизированная система управления АСУ), построенная на традиционных принципах, может работать только на основе параметров, закономерности связей которых уже известны, изучены и отражены в математической модели. В итоге АСУ, основанные на традиционном подходе, практически не эффективны с активными многопараметрическими слабодетерминированными объектами управления, такими, например, как макро– и микро– социально-экономические системы в условиях динамичной экономики "переходного периода", иерархические элитные и этнические группы, социум и электорат, физиология и психика человека, природные и искусственные экосистемы и многие другие.

Поэтому, в состав перспективных АСУ, обеспечивающих устойчивое управление активными объектами в качестве существенных функциональных звеньев должны войти подсистемы идентификации и прогнозирования состояний среды и объекта управления, основанные на методах искусственного интеллекта (прежде всего распознавания образов), методах поддержки принятия решений и теории информации.

1.3.2.5.3. Управление как задача, обратная идентификации и прогнозированию

Кратко рассмотрим вопрос о применении систем распознавания образов для принятия решений об управляющем воздействии. Очевидно, что применение систем распознавания для прогнозирования результатов управления при различных сочетаниях управляющих факторов позволяет рассмотреть и сравнить различные варианты управления и выбрать наилучшие из них по определенным критериям. Однако, этот подход на практике малоэффективен, особенно если факторов много, т.к. в этом случае количество сочетаний их значений может быть чрезвычайно большим.

Если в качестве классов распознавания взять целевые и иные будущие состояния объекта управления, а в качестве признаков – факторы, влияющие на него, то в модели распознавания образов может быть сформирована количественная мера причинно-следственной связи факторов и состояний.

Это позволяет по заданному целевому состоянию объекта управления получить информацию о силе и направлении влияния факторов, способствующих или препятствующих переходу объекта в это состояние, и, на этой основе, выработать решение об управляющем воздействии.

Задача выбора факторов по состоянию является обратной задачей прогнозирования, т.к. при прогнозировании, наоборот, определяется состояние по факторам.

Факторы могут быть разделены на следующие группы:

– характеризующие предысторию объекта управления и его актуальное состояние управления;

– технологические (управляющие) факторы;

– факторы окружающей среды;

Таким образом, системы распознавания образов могут быть применены в составе АСУ в подсистемах:

– идентификации состояния объекта управления;

– выработки управляющих воздействий.

Это целесообразно в случае, когда объект управления представляет собой сложную или активную систему.

Кластеризация – это операция автоматической классификации, в ходе которойобъекты объединяются в группы (кластеры) таким образом, что внутри групп различия между объектами минимальны, а между группами – максимальны. При этом в ходе кластеризации не только определяется состав кластеров, но и сам их набор и границы.

Поэтому вполне обоснованно считается, что методы кластерного анализа используются в большинстве случаев тогда, когда нет каких-либо априорных гипотез относительно классов, т.е. исследование находится на первой эмпирической стадии: описательной.

Существует большое количество различных алгоритмов кластеризации, которые обычно связаны с полным перебором объектов и весьма трудоемки в вычислительном отношении, здесь же мы упомянем лишь о трех из них:

– объединение (древовидная класт ризация);

двухвходовое объединение;

– метод K средних .

Рассмотрим кратко эти алгоритмы (описание взято с сайта http://StatSoft.ru) .

1.3.2.6.1. Древовидная кластеризация

Древовидная диаграмма (диаграмму (рисунок 72) начинается с конкретных объектов (в левой части диаграммы). Теперь представим себе, что постепенно (очень малыми шагами) вы "ослабляете" ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер.

В результате, вы связываете вместе всё большее и большее число объектов и агрегируете (объединяете ) все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Окончательно, на последнем шаге все объекты объединяются вместе.

1.3.2.6.2. Двухвходовое объединение

Исследователь может кластеризовать конкретные образы наблюдаемых объектов для определения кластеров объектов со сходными признаками.

Он может также кластеризовать признаки для определения кластеров признаков, которые связаны со сходными конкретными объектами.

В двувходовом алгоритме эти процессы осуществляются одновременно.

1.3.2.6.3. Метод K средних

В этом методе принадлежность объектов к кластерам определяется таким образом, чтобы:

– минимизировать изменчивость (различия) объектов внутри кластеров;

– максимизировать изменчивость объектов между кластерами.

Контрольные вопросы

1. Основные понятия и определения, связанные с системами распознавания образов.

2. Признаки и образы конкретных объектов, метафора фазового пространства.

3. Признаки и обобщенные образы классов.

4. Обучающая выборка и ее репрезентативность по отношению к генеральной совокупности. Ремонт (взвешивание) данных.

5. Основные операции: обобщение и распознавание.

6. Обучение с учителем (экспертом) и самообучение (кластерный анализ).

7. Верификация, адаптация и синтез модели.

8. Проблема распознавания образов.

9. Классификация методов распознавания образов.

10. Применение распознавания образов для идентификации и прогнозирования. Сходство и различие в содержании понятий "идентификация" и "прогнозирование".

11. Роль и место распознавания образов в автоматизации управления сложными системами.

12. Обобщенная структура системы управления.

13. Место системы идентификации в системе управления.

14. Управление как задача, обратная идентификации и прогнозированию.

15. Методы кластерного анализа.

16. Метод кластеризации: "Древовидная кластеризация".

17. Метод кластеризации: "Двувходовое объединение".

18. Метод кластеризации: "Метод K средних".

1. Луценко Е.В. Теоретические основы и технология адаптивного семантического анализа в поддержке принятия решений (на примере универсальной автоматизированной системы распознавания образов "ЭЙДОС-5.1"). - Краснодар: КЮИ МВД РФ, 1996. - 280с.

2. Луценко Е. В.Автоматизированный системно-когнитивный анализ в управлении активными объектами (системная теория информации и ее применение в исследовании экономических, социально-психологических, технологических и организационно-технических систем): Монография (научное издание). – Краснодар:КубГАУ. 2002. – 605 с.

  • Алгоритмы ,
  • Машинное обучение
  • Работа большинства специалистов по речевым технологиям состоит не в том, чтобы придумывать концептуально новые алгоритмы. Компании в основном фокусируются на существующих подходах. Машинный интеллект уже умеет распознавать и синтезировать голос, но не всегда в реальном времени, не всегда локально и не всегда «избирательно» - когда нужно реагировать только на ключевые фразы, робот может ошибаться. Подобными проблемами как раз и заняты разработчики. Муаммар Аль-Шедиват рассказывает об этих и других вопросах, которые пока не удаётся решить даже большим компаниям.


    - Сегодня я расскажу об открытых проблемах в области речевых технологий. Но прежде всего давайте поймем, что речевые технологии стали неотъемлемой частью нашей жизни. Идем ли мы по улице или едем в автомобиле - когда хочется нам задать тот или иной запрос в поисковую систему, естественно сделать это голосом, а не печатать или еще что-либо.

    Сегодня я поговорю в основном о распознавании речи, хотя есть множество других интересных задач. Рассказ мой будет состоять из трех частей. Для начала напомню в целом, как работает распознавание речи. Дальше расскажу, как люди стараются его улучшить и о том, какие в Яндексе стоят задачи, с которыми обычно не сталкиваются в научных статьях.

    Общая схема распознавания речи. Изначально на вход нам поступает звуковая волна.

    Ее мы дробим на маленькие кусочки, фреймы. Длина фрейма - обычно 25 мс, шаг - 10 мс. Они идут с некоторым захлестом.


    После этого из фреймов мы извлекаем наиболее важные признаки. Допустим, нам не важен тембр голоса или пол человека. Мы хотим распознавать речь вне зависимости от этих факторов, так что мы извлекаем самые важные признаки.


    Затем нейронная сеть натравливается на все это и выдает на каждом фрейме предсказание, распределение вероятностей по фонемам. Нейронка старается угадать, какая именно фонема была сказана на том или ином фрейме.


    Под конец все это запихивается в граф-декодирование, которое получает распределение вероятностей и учитывает языковую модель. Допустим, «Мама мыла раму» - более популярная фраза в русском языке, чем «Мама мыла Рому». Также учитывается произношение слов и выдаются итоговые гипотезы.

    В целом, именно так и происходит распознавание речи.


    Естественно, о метрике нужно пару слов сказать. Все используют метрику WER в распознавании речи. Она переводится как World Error Rate. Это просто расстояние по Левенштейну от того, что мы распознали, до того, что реально было сказано в фразе, поделить на количество слов, реально сказанных во фразе.

    Можно заметить, что если у нас было много вставок, то ошибка WER может получиться больше единицы. Но никто на это не обращает внимания, и все работают с такой метрикой.

    Как мы будем это улучшать? Я выделил четыре основных подхода, которые пересекаются друг с другом, но на это не стоит обращать внимания. Основные подходы следующие: улучшим архитектуру нейронных сетей, попробуем изменить Loss-функцию, почему бы не использовать подходы End to end, модные в последнее время. И в заключение расскажу про другие задачи, для которых, допустим, не нужно декодирование.


    Когда люди придумали использовать нейронные сети, естественным решением было использовать самое простое: нейронные сетки feed forward. Берем фрейм, контекст, сколько-то фреймов слева, сколько-то справа, и предсказываем, какая фонема была сказана на данном фрейме. После чего можно посмотреть на все это как на картинку и применить всю артиллерию, уже использованную для обработки изображений, всевозможные сверточные нейронные сети.


    Вообще многие статьи state of the art получены именно с помощью сверточных нейронных сетей, но сегодня я расскажу больше о рекуррентных нейронных сетях.


    Рекуррентные нейронные сети. Все знают, как они работают. Но возникает большая проблема: обычно фреймов намного больше, чем фонем. На одну фонему приходится 10, а то и 20 фреймов. С этим нужно как-то бороться. Обычно это зашивается в граф-декодирование, где мы остаемся в одном состоянии много шагов. В принципе, с этим можно как-то бороться, есть парадигма encoder-decoder. Давайте сделаем две рекуррентных нейронных сетки: одна будет кодировать всю информацию и выдавать скрытое состояние, а декодер будет брать это состояние и выдавать последовательность фонем, букв или, может быть, слов - это как вы натренируете нейронную сеть.

    Обычно в распознавании речи мы работаем с очень большими последовательностями. Там спокойно бывает 1000 фреймов, которые нужно закодировать одним скрытым состоянием. Это нереально, ни одна нейронная сеть с этим не справится. Давайте использовать другие методы.


    Димой Богдановым, выпускником ШАД, был придуман метод Attention. Давайте encoder будет выдавать скрытые состояния, и мы их не будем выкидывать, а оставим только последнее. Возьмем взвешенную сумму на каждом шаге. Декодер будет брать взвешенную сумму скрытых состояний. Таким образом, мы будем сохранять контекст, то, на что мы в конкретном случае смотрим.

    Подход прекрасный, работает хорошо, на некоторых датасетах дает результаты state of the art, но есть один большой минус. Мы хотим распознавать речь в онлайне: человек сказал 10-секундную фразу, и мы сразу ему выдали результат. Но Attention требует знать фразу целиком, в этом его большая проблема. Человек скажет 10-секундную фразу, 10 секунд мы ее будем распознавать. За это время он удалит приложение и никогда больше не установит. Нужно с этим бороться. Совсем недавно с этим поборолись в одной из статей. Я назвал это online attention.


    Давайте поделим входную последовательность на блоки какой-то небольшой фиксированной длины, внутри каждого блока устроим Attention, затем будет декодер, который выдает на каждом блоке соответствующие символы, после чего в какой-то момент выдает символ end of block, перемещается к следующему блоку, поскольку мы тут исчерпали всю информацию.

    Тут можно серию лекций прочитать, я постараюсь просто сформулировать идею.


    Когда начали тренировать нейронные сети для распознавания речи, старались угадывать фонему. Для этого использовали обычную кросс-энтропийную функцию потерь. Проблема в том, что даже если мы соптимизируем кросс-энтропию, это еще не будет значить, что мы хорошо соптимизировали WER, потому что у этих метрик корреляция не 100%.


    Чтобы с этим побороться, были придуманы функции Sequence Based Loss: давайте саккумулируем всю информацию на всех фреймах, посчитаем один общий Loss и пропустим градиент обратно. Не буду вдаваться в детали, можете прочитать про CTC или SNBR Loss, это очень специфичная тема для распознавания речи.

    В подходах End to end два пути. Первый - делать более «сырые» фичи. У нас был момент, когда мы извлекали из фреймов фичи, и обычно они извлекаются, стараясь эмулировать ухо человека. А зачем эмулировать ухо человека? Пусть нейронка сама научится и поймет, какие фичи ей полезны, а какие бесполезны. Давайте в нейронку подавать все более сырые фичи.

    Второй подход. Мы пользователям выдаем слова, буквенное представление. Так зачем нам предсказывать фонемы? Хотя их предсказывать очень естественно, человек говорит в фонемах, а не буквах, - но итоговый результат мы должны выдать именно в буквах. Поэтому давайте предсказывать буквы, слоги или пары символов.


    Какие еще есть задачи? Допустим, задача фреймспоттинга. Есть какой-нибудь кусок звука, откуда надо извлечь информацию о том, была ли сказана фраза «Слушай, Яндекс» или не была. Для этого можно фразу распознать и грепнуть «Слушай, Яндекс», но это очень брутфорсный подход, причем распознавание обычно работает на серверах, модели очень большие. Обычно звук отсылается на сервер, распознается, и распознанная форма высылается обратно. Грузить 100 тыс. юзеров каждую секунду, слать звук на сервер - ни одни сервера не выдержат.

    Надо придумать решение, которое будет маленьким, сможет работать на телефоне и не будет жрать батарейку. И будет обладать хорошим качеством.

    Для этого давайте всё запихнем в нейронную сеть. Она просто будет предсказывать, к примеру, не фонемы и не буквы, а целые слова. И сделаем просто три класса. Сеть будет предсказывать слова «слушай» и «Яндекс», а все остальные слова замапим в филлер.

    Таким образом, если в какой-то момент сначала шли большие вероятности для «слушай», потом большие вероятности для «Яндекс», то с большой вероятностью тут была ключевая фраза «Слушай, Яндекс».


    Задача, которая не сильно исследуется в статьях. Обычно, когда пишутся статьи, берется какой-то датасет, на нем получаются хорошие результаты, бьется state of the art - ура, печатаем статью. Проблема этого подхода в том, что многие датасеты не меняются в течение 10, а то и 20 лет. И они не сталкиваются с проблемами, с которыми сталкиваемся мы.

    Иногда возникают тренды, хочется распознавать, и если этого слова нет в нашем графе декодирования в стандартном подходе, то мы никогда его не распознаем. Нужно с этим бороться. Мы можем взять и переварить граф декодирования, но это трудозатратный процесс. Может, утром одни трендовые слова, а вечером другие. Держать утренний и вечерний граф? Это очень странно.


    Был придуман простой подход: давайте к большому графу декодирования добавим маленький граф декодирования, который будет пересоздаваться каждые пять минут из тысячи самых лучших и трендовых фраз. Мы просто будем параллельно декодировать по этим двум графам и выбирать наилучшую гипотезу.

    Какие задачи остались? Там state of the art побили, тут задачи решили… Приведу график WER за последние несколько лет.


    Как видите, Яндекс улучшился за последние несколько лет, и тут приводится график для лучшей тематики - геопоиска. Вы можете понять, что мы стараемся и улучшаемся, но есть тот маленький разрыв, который нужно побить. И даже если мы сделаем распознавание речи - а мы его сделаем, - которое сравнится со способностями человека, то возникнет другая задача: это сделалось на сервере, но давайте перенесем это на устройство. Речь идет об отдельной, сложной и интересной задаче.

    У нас есть и множество других задач, о которых меня можно спросить. Спасибо за внимание.

    Проблема распознавания образов сводится к двум задачам: обучения и распознавания. Поэтому, прежде чем сформулировать задачу обучения распознаванию образов уточним, в чем смысл их распознавания.

    Простейшим вариантом распознавания является строгий запрос на поиск объекта в базе данных по его признакам, который реализуется в информационно-поисковых системах. При этом каждому полю соответствует признак (описательная шкала), а значению поля - значение признака (градация описательной шкалы). Если в базе данных есть записи, все значения заданных полей которых точно совпадают со значениями, заданными в запросе на поиск, то эти записи извлекаются в отчет, иначе запись не извлекается.

    Более сложными вариантами распознавания является нечеткий запрос с неполнотой информации , когда не все признаки искомых объектов задаются в запросе на поиск, т.к. не все они известны, и нечеткий запрос с шумом , когда не все признаки объекта известны, а некоторые считаются известными ошибочно. В этих случаях из базы данных извлекаются все объекты, у которых совпадает хотя бы один признак и в отчете объекты сортируются (ранжируются) в порядке убывания количества совпавших признаков. При этом при определении ранга объекта в отсортированном списке все признаки считаются имеющими одинаковый "вес" и учитывается только их количество.

    • - во-первых, на самом деле признаки имеют разный вес, т.е. один и тот же признак в разной степени характерен для различных объектов;
    • - во-вторых, нас могут интересовать не столько сами объекты, извлекаемые из базы данных прецедентов по запросам, сколько классификация самого запроса, т.е. отнесение его к определенной категории, т.е. к тому или иному обобщенному образу класса.

    Если реализация строгих и даже нечетких запросов не вызывает особых сложностей, то распознавание как идентификация с обобщенными образами классов, причем с учетом различия весов признаков представляет собой определенную проблему.

    Обучение осуществляется путем предъявления системе отдельных объектов, описанных на языке признаков, с указанием их принадлежности тому или другому классу. При этом сама принадлежность к классам сообщается системе человеком - Учителем (экспертом).

    В результате обучения распознающая система должна приобрести способность:

    • 1. Относить объекты к классам, к которым они принадлежат (идентифицировать объекты верно).
    • 2. Не относить объекты к классам, к которым они не принадлежат (неидентифицировать объекты ошибочно).

    Эта и есть проблема обучения распознаванию образов, и состоит она в следующем:

    • 1. В разработке математической модели, обеспечивающей: обобщение образов конкретных объектов и формирование обобщенных образов классов; расчет весов признаков; определение степени сходства конкретных объектов с классами и ранжирование классов по степени сходства с конкретным объектом, включая и положительное, и отрицательное сходство.
    • 2. В наполнении этой модели конкретной информацией, характеризующей определенную предметную область.

    Процесс распознавания состоит в том, что система распознавания на основании сопоставления апостериорной информации относительно каждого поступившего на вход системы объекта или явления с априорным описанием классов принимает решение о принадлежности этого объекта (явления) к одному из классов. Правило, которое каждому объекту ставит в соответствие определенное наименование класса, называют решающим правилом. В литературе, посвященной распознаванию образов, утвердилось мнение, что суть проблемы распознавания заключается в определении решающих правил, нахождении в признаковом пространстве таких границ (решающих границ), придерживаясь которых признаковые пространства оптимальным образом, например с точки зрения минимизации ошибок распознавания, подразделяются на области, соответствующие классам. Так, в сказано, что в отыскании таких решающих правил на основании заданных описаний классов и заключается проблема распознавания.

    При определении решающих правил (решающих границ в признаковом пространстве) в зависимости от объема исходной априорной информации рассматриваются следующие ситуации:

    1. Количество исходной информации достаточно для того, чтобы путем ее анализа и непосредственной обработки определить решающие правила (системы распознавания без обучения, см. рис. 1.4).

    2. Количество исходной информации недостаточно для определения решающих правил на основе ее непосредственной обработки, в связи с чем реализуется процедура обучения (обучающиеся системы распознавания, см. рис. 1.5).

    В ситуациях 1 и 2 задача отыскания решающих правил базируется на том, что алфавит классов объектов и априорный словарь признаков, предназначенных для их описаний, известны. Рассматривается также и такая ситуация, когда словарь признаков известен, но неизвестен алфавит классов. При этом, однако, определен некоторый набор правил, в соответствии с которыми на основании процедуры самообучения находится искомый алфавит классов. Затем определяются решающие правила (самообучающиеся системы, см. рис. 1.6).

    Исторически сложилось так, что первые теоретические исследования и прикладные работы в области распознавания базировались на том, что признаковое пространство известно, известен также и алфавит классов. В этих условиях проблема распознавания действительно может трактоваться как проблема определения в некотором смысле наилучших решающих границ (решающих правил). В настоящее время часто при построении распознающих устройств имеет место ситуация, когда известны и алфавит классов, и словарь признаков. Однако в общем случае при построении реальных систем распознавания, требующих разработки специальных измерительных средств и целых измерительных комплексов, исходить из того, что алфавит классов и словарь признаков априорно известны, к сожалению, не приходится.

    Назначение систем распознавания - получить информацию, необходимую для принятия определенных решений, о принадлежности неизвестного объекта (явления) к тому или иному классу. Именно так обстоит дело в системах медицинской и технической диагностики, геологической разведки, метеорологического прогноза, криминалистике, системах распознавания целей и т. п. Поэтому системы распознавания, являясь частью системы управления (автоматической или автоматизированной), должны строиться с учетом обеспечения наиболее эффективного использования всего набора допустимых решений. Этот факт накладывает на построение систем распознавания следующие ограничения.

    1. При прочих равных условиях повышение эффективности принимаемых решений следует связывать со степенью детализации определения или назначения либо характера распознаваемого объекта или явления. Степень детализации определяется количеством классов, на которое подразделено множество объектов или явлений. Так, если система управления располагает m различными решениями, то в алфавите классов системы распознавания, учитывая сказанное, целесообразно предусмотреть m+1 классов. Тогда, если распознанный объект относится к классу Ω 1 принимается решение l 1 , если к классу Ω 2 - решение h и т. д., если же объект относится к классу Ω m +1 , решение не принимается.

    2. Эффективность принимаемых системой управления решений при прочих равных условиях (в том числе, естественно, при заданном алфавите классов) зависит от точности определения принадлежности распознаваемого объекта или явления к соответствующему классу. Точность же определения или ошибка распознавания при заданном по точности априорном описании классов определяется размерностью и информативностью признакового пространства, объемом и качеством апостериорной информации о значениях признаков (параметров), которыми характеризуется распознаваемый объект. Иначе говоря, расширение алфавита классов, увеличивающее степень детализации определения назначения либо характера распознаваемого объекта (явления), при неизменном словаре признаков увеличивает ошибку распознавания.

    Пусть заданы три класса Ω 1 , Ω 2 и Ω 3 объектов распределениями f 1 (х), f 2 (x),f 3 (x) априорными вероятностями появления объектов соответствующих классов P(Ω 1)=P(Ω 2)=P(Ω 3)=P, а также потерями c 11 = c 22 = с 33 = 0 и с 12 = с 21 = c 13 = с 31 = с 23 = с 32 = с.

    На рис. 2.1 представлены законы распределений. Средний (байесовский) риск (см. § 4.2)

    Положим теперь, что объекты, относящиеся к классам Ω 1 и Ω 2 , решено объединить в один класс Ω 4 , описание которого

    Средний риск в данном случае в предположении неизменности границы b составит

    Из сравнения величин Rã 1 и Rã 2 видно, что Rã l >Rã 2 на величину

    Следовательно, при заданном признаковом пространстве и прочих равных условиях уменьшение числа классов приводит

    Рис. 2.1

    к уменьшению ошибок распознавания и, наоборот, при увеличении числа классов системы распознавания в целях поддержания на заданном уровне или даже уменьшения среднего риска (вероятности ошибочных решений) надо расширять словарь признаков (естественно, при прочих равных условиях). В то же время расширение признакового пространства в целях уменьшения ошибок распознавания сопряжено с увеличением числа технических измерительных средств, каждое из которых обеспечивает определение соответствующего признака или группы признаков. Это, в свою очередь, требует увеличения затрат на построение системы распознавания. На величину же затрат в реальных условиях, как правило, накладываются те или другие ограничения.

    Таким образом, стремление по возможности наиболее эффективно использовать набор возможных решений системы управления приводит к необходимости увеличения алфавита классов до m+1. Однако естественная ограниченность ресурсов, ассигнованных на построение измерительных средств системы распознавания или системы распознавания в целом, приводит к тому, что по мере увеличения алфавита классов ошибки распознавания растут, а это уменьшает эффективность использования возможных решений. Только некоторый компромисс между размерами алфавита классов и объемом рабочего словаря признаков системы, базирующийся на исходных данных относительно набора возможных решений и величины ресурсов, отпущенных на создание измерительной аппаратуры, реализующей словарь признаков, позволяет обеспечить решение задачи построения системы распознавания оптимальным образом.

    Итак, в общем случае при построении систем распознавания приходится иметь дело со следующей ситуацией. Создается некоторая система управления, реализующая то или другое управление в зависимости от результатов оценки, существенных свойств, характера, назначения объекта или явления, его распознавания. Система управления располагает конечным числом решений. Составляющая эффективности управлений, зависящая от функционирования системы распознавания, обусловливается двумя факторами. Первый фактор связан со степенью детализации распознавания объектов или явлений, наибольшее значение которой будет в том случае, если число классов, содержащихся в алфавите классов системы распознавания, равно количеству возможных решений (плюс единица - последний класс, объекты которого не распознаются). Второй фактор - точность решения задачи распознавания. Естественно, чем она выше, тем меньше вероятность принять решение, не соответствующее особенностям данного объекта или явления. Например, применить не адекватную заболеванию стратегию лечения в случае использования системы медицинской диагностики; применить не по назначению данное средство противодействия в случае использования системы распознавания целей и т. п. Однако при заданном словаре признаков увеличение алфавита классов уменьшает точность решения задачи распознавания. Увеличение же словаря признаков в общем случае связано с разработкой новой или использованием существующей измерительной аппаратуры, что влечет за собой увеличение расходов на построение системы распознавания.

    Таким образом, суть проблемы распознавания состоит в разработке таких алфавита классов и словаря признаков, которые в условиях ограниченных ресурсов на построение системы распознавания обеспечивают максимальную эффективность системы управления, принимающей соответствующее решение в зависимости от результатов решения задачи распознавания. При этом, безусловно, выбирая словарь признаков и определяя алфавит классов, следует находить наилучшие решающие правила, решающие границы между классами. Однако в общем случае не в этом состоит проблема распознавания, как не важна и как подчас не сложна задача определения оптимальных решающих правил, обеспечивающих в условиях заданных алфавита классов и словаря признаков наибольшую точность распознавания . Более того, при построении логических систем распознавания, использующих либо алгоритмы распознавания, основанные на методах алгебры логики, либо структурных (лингвистических) систем (см. гл. 8), решающие правила вообще не определяются.

    Таким образом, нет достаточных оснований считать справедливым суждение о том, что проблема распознавания состоит в определении решающих правил (решающих границ).

    Конец работы -

    Эта тема принадлежит разделу:

    Общая характеристика проблемы распознавания объектов и явлений

    В а скрипкин.. методы распознавания.. общая характеристика проблемы распознавания объектов и явлений..

    Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ:

    Что будем делать с полученным материалом:

    Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

    Все темы данного раздела:

    Качественное описание задачи распознавания i
    Распознавание образов (объектов, сигналов, ситуаций, явлений или процессов) - едва ли не самая распространенная задача, которую человеку приходится решать практически ежесекундно от первого до посл

    Основные задачи построения систем распознавания
    Рассмотренный в § 1.1 пример свидетельствует о том, что распознавание сложных объектов и явлений требует создания специальных систем распознавания - сложных динамических систем, сос

    Экспертные системы распознавания
    Рассмотренная классификация систем распознавания и принципы их функционирования отражают современное состояние вопроса. Все виды систем распознавания базируются на строго формализов

    Постановка задачи распознавания
    Пусть задано множество объектов или явлений Ω={w1 ..., ..., wz}, а также множество возможных решений L={l1, ..., lk}, которые могут

    Метод решения задачи распознавания
    Рассмотренная постановка проблемы распознавания позволяет определить последовательность задач, возникающих при разработке системы распознавания, предложить их формулировки и возможн

    Системы распознавания без обучения
    Построение систем распознавания без обучения возможно при наличии полной первоначальной априорной информации, которая представляет собой совокупность: 1) сведений о том, какова есте

    Обучающиеся системы распознавания
    Использование методов обучения для построения систем распознавания необходимо в случае, когда отсутствует полная первоначальная априорная информация. Ее объем позволяет подразделить

    Самообучающиеся системы распознавания
    На практике иногда приходится сталкиваться с необходимостью построения распознающих устройств в условиях, когда провести классификацию объектов либо невозможно, либо по тем или другим соображениям

    Некоторые сведения из теории статистических решений
    Рассмотрим основные результаты теории статистических решений на следующем примере. Пусть совокупность объектов подразделена на классы Ω1 и Ω2, а дл

    Критерий Байеса
    Критерий Байеса - правило, в соответствии с которым стратегия решений выбирается таким образом, чтобы обеспечить минимум среднего риска. Применение критерия Байеса целесообразно в с

    Минимаксный критерий
    При построении систем распознавания возможны такие ситуации, когда априорные вероятности появления объектов соответствующих классов неизвестны. Минимизировать значение среднего риск

    Критерий Неймана-Пирсона
    При построении некоторых систем распознавания могут быть неизвестны не только априорные вероятности появления объектов соответствующих классов, но и платежная матрица (1.7). В подоб

    Процедура последовательных решений
    Ранее предполагалось, что решение о принадлежности распознаваемого объекта w соответствующему классу Ωi, i=l, ..., m, принимается после измерения всей совокупности

    Регуляризация задачи распознавания
    В соответствии со стратегией Байеса, если у распознаваемого объекта со измеренное значение признака х = х0 , то

    Рабочего словаря признаков
    В § 5.1 был рассмотрен один из возможных методов выбора пространства признаков системы распознавания, обеспечивающий в пределах выделенных ресурсов максимальное значение критерия ка

    Сравнительная оценка признаков
    Выше были рассмотрены достаточно общие методы выбора совокупности признаков, которые целесообразно и доступно использовать при построении системы распознавания. Однако на практике д

    Изображающие числа и базис
    Булева функция считается заданной, если можно указать значения истинности этой функции при всех возможных комбинациях значений истинности входящих в нее элементов. Таблицу, которая

    Восстановление булевой функции по изображающему числу
    Рассмотрим методы, позволяющие переходить от задания булевой функции в виде изображающего числа к явному выражению ее через элементы. Дизъюнктивная нормальная форма (ДНФ).

    Зависимость и независимость высказываний
    Условия независимости. Поскольку каждая булева функция может иметь два значения истинности, n булевых функций могут образовывать 2n комбинаций значений истинности. По опр

    Булевы уравнения
    Решение многих задач, связанных с распознаванием объектов, может быть сведено к нахождению решений булевых алгебраических уравнений с одним (или более) неизвестным. Примером булева

    Замена переменных
    Понятие замены переменных в алгебре логики аналогично понятию замены переменных в обычной алгебре. Если А, В, С, ... - элементарные высказывания и совершается замена переменных, то,

    Решение логических задач распознавания
    В логических системах распознавания классы и признаки объектов рассматриваются как логические переменные. Чтобы подчеркнуть эту особенность, для обозначения классов и признаков введ

    Решение задач распознавания при большом числе элементов
    Приложение изложенных в предыдущих параграфах методов построения сокращенного базиса и решения логических задач существенно ограничивается объемом памяти ЭВМ и их быстродействием. Т

    Алгоритм построения сокращенного базиса
    В § 7.1 было показано, как с помощью ЭВМ, опираясь на сокращенный базис b´ [А1, А2, ...Ω1, Ω2,...], находить

    Распознавание объектов в условиях их маскировки
    Маскировка - один из основных методов снижения эффективности разведки противника в общем комплексе мероприятий по противодействию. Решение проблемы маскировки требует привлечения, с

    Распознавание в условиях противодействия
    Рассмотрим задачу распознавания объектов в условиях, когда противник может препятствовать как выявлению отдельных признаков объектов, так и сознательно изменять свою тактику в отнош

    Алгоритмы распознавания, основанные на вычислении оценок
    Логические алгоритмы распознавания, рассмотренные выше, в ряде случаев не позволяют получить однозначное решение о принадлежности распознаваемого объекта к определенному классу. Ю.

    Общая характеристика структурных методов распознавания
    Во многих случаях апостериорная информация о распознаваемых объектах или явлениях содержится в записях соответствующих сигналов (электрокардиограмм, энцефалограмм, отраженных от цел

    Основные элементы аппарата структурных методов распознавания
    Говоря о средстве описания объектов в терминах непроизводных элементов и их отношений, употребляют понятие язык. Правила этого языка, определяющие способы построения объекта из непр

    Реализация процесса распознавания на основе структурных методов
    Для распознавания неизвестного объекта на основе структурных методов необходимо прежде всего найти его непроизводные элементы и отношения между ними, а затем с помощью синтаксическо

    Постановка задачи оптимизации процесса распознавания
    Прежде всего покажем, что с увеличением числа признаков, используемых при распознавании, вероятность правильного распознавания неизвестных объектов также увеличивается. Вер

    Алгоритм управления процессом распознавания
    Рассмотренные понятия позволяют построить алгоритм управления процессом распознавания в виде правила последовательного поиска решений, обеспечивающего разработку оптимального плана

    Частные подходы к принятию решений при распознавании
    Решение задачи оптимизации распознавания в рассмотренной постановке требует наличия определенных данных. Когда они отсутствуют, приходится пользоваться частными подходами к пр

    Алгебраический подход к задаче распознавания
    Выше рассмотрены алгоритмы распознавания: детерминированные алгоритмы, основанные на проведении в признаковом пространстве решающей границы (границы, разделяющей классы и представля

    Эффективность вероятностных систем распознавания
    Чтобы оценить эффективность вероятностных систем распознавания на основе математического моделирования, можно использовать метод статистических испытаний. Для проведения таких испыт

    Эффективность логических систем распознавания
    При построении логических систем распознавания приходится сталкиваться с ситуацией, когда значения истинности элементов А1..., Аn, выражающих признаки объектов

    Распознавание образов - объектов, сигналов, ситуаций, явлений или процессов - представляет собой едва ли не самую распространенную задачу, с которой человеку приходится сталкиваться и решать ежечасно, ежеминутно, а порой и ежесекундно практически от первого до последнего дня своего существования. Для решения этой задачи человек использует огромные ресурсы своего мозга, включая одновременно, параллельно около 7-8 миллиардов нейронов. Именно это дает возможность людям практически мгновенно узнавать друг друга, с большой скоростью читать печатные и рукописные тексты - литературные, музыкальные, шахматные, безошибочно водить автомобили в сложном потоке уличного движения современного города, осуществлять отбраковку деталей на конвейере, дешифрировать аэро- и космические фотоснимки, разгадывать коды, древнюю египетскую клинопись и иероглифы народа майя. Распознавание представляет собой задачу преобразования входной информации, в качестве которой уместно рассматривать некоторые параметры, признаки распознаваемых образов в выходную, представляющую собой заключение о том, к какому классу относится распознаваемый образ. Именно поэтому, учитывая, что кибернетика есть наука об общих законах преобразования информации в сложных системах, распознавание образов представляет собой один из разделов этой науки.

    Потребности комплексной механизации и автоматизации производства и создания надежных помощников человека - роботов, необходимость в широких масштабах решать задачи технической и медицинской диагностики, метеорологического прогноза, формализованной оценки общественных, экономических и социологических явлений и процессов, определения наиболее вероятных направлений их трансформации предопределили значительные усилия научной и инженерной мысли, направленные на решение теоретических и прикладных вопросов проблемы распознавания.

    Для того чтобы в полном объеме оценить все значение этой проблемы, достаточно сказать, что создание искусственного интеллекта - это, по-видимому, прежде всего построение распознающих систем, приближающихся по своим возможностям к возможностям человека в решении задач распознавания.

    Настоящая книга посвящена обсуждению основных задач, возникающих при построении систем распознавания, - их формальной постановке и методам решения. Однако прежде полезно

    рассмотреть содержательную интерпретацию задачи распознавания. Выполним это на примере задачи распознавания стороной А самолетов стороны В.

    Для решения задачи стороне А следует прежде всего провести детальный анализ всей доступной информации об авиации стороны В и определить, какими типами или классами самолетов сторона В располагает. В качестве принципа классификации (разбиение на классы) в данном случае уместно использовать, например, характер основной задачи, для решения которой предназначен данный тип самолета. В результате можно выделить, например, классы бомбардировщиков, истребителей, штурмовиков и т. д. После этого следует определить, с помощью каких параметров или признаков можно описать выделенные классы самолетов, а затем из полученного перечня исключить те признаки, относительно которых не представляется возможным определить их значения применительно к каждому классу самолетов.

    Далее в соответствии с техническими возможностями средств наблюдения за самолетами (радиолокаторы, акустические средства, лазеры, оптические устройства и т. д.) из полученного перечня признаков надо выделить те признаки, которые могут быть реально определены (например, крейсерская имаксимальная скорости, предельная высота полета, число и тип двигателей, длина фюзеляжа, размах крыльев и др.). И, наконец, на основе априорных данных следует описать на языке выбранных признаков каждый класс самолетов.

    В данном случае одни признаки имеют качественный характер (тип двигателей), другие - количественный (скорость, высота полета и т. д.). Поэтому в описании классов должны содержаться сведения как о том, присущи или не присущи каждому классу те или иные признаки качественного характера, так и о возможных диапазонах или законах распределений значений признаков, имеющих количественные выражения, для каждого класса.

    Теперь положим, что с помощью каких-либо средств наблюдения в результате проведения опытов найдены некоторые признаки неизвестного, подлежащего распознаванию самолета. Сопоставление полученных апостериорных данных об этом самолете с данными, заключенными в априорном описании всех классов самолетов на языке признаков, позволяет в принципе определить к какому классу относится неизвестный самолет, т. е. произвести его распознавание.

    Рассмотренный пример содержит качественное описание задачи распознавания и не позволяет уяснить, как производить разбиение объектов на классы, как накапливать и обрабатывать априорную информацию, из каких соображений осуществлять выбор признаков

    и как описать на их языке классы, на основе каких методов сопоставлять апостериорную и априорную информацию, т. е. распознавать неизвестный объект.

    В то же время пример дает возможность составить представление о задаче распознавания в следующей трактовке. Имеется некоторая совокупность объектов или явлений. В соответствии с выбранным принципом классификации она подразделена на ряд классов, т. е. составлен алфавит классов. Разработан словарь признаков, на языке которого описывается каждый класс объектов. Созданы технические средства, обеспечивающие определение признаков, а на вычислительных средствах системы распознавания реализован алгоритм распознавания, позволяющий сопоставлять апостериорные данные о неизвестном объекте с априорной информацией и на основе сопоставления определять, к какому классу он может быть отнесен.

    Когда появляется объект, подлежащий распознаванию, с помощью технических средств наблюдений проводятся опыты и определяются его признаки. Данные о признаках неизвестного объекта поступают на вход алгоритма распознавания, который, используя апрнорные описания классов, определяет, к какому классу может быть отнесен этот объект.