Простейшее управление компьютером при помощи голоса. Программное управление звуком

В этой статье говорится о проводных гарнитурах работающих с устройствами на базе ОС Android .
Гарнитура - это наушники с микрофоном.

Гарнитуры с одной кнопкой

Гарнитура с одной кнопкой столь проста, что практически любой современный андрофон совместим с любой однокнопочной гарнитурой. Исключение составляют гарнитуры «для старых Нокий» из-за того, что распаяны по «старому» стандарту , но их надо ещё поискать.

В пульте однокнопочной гарнитуры находятся микрофон, конденсатор и кнопка на замыкание. Все они распаяны параллельно друг другу и выведены на контакты №3 и №4 штекера TRRS ▼

При нажатии на кнопку микрофон шунтируется и сопротивление между контактами штекера 3-4 падает до нуля . По этому признаку смартфон понимает, что нажали кнопку. Конденсатор же служит для сглаживания щелчка, возникающего при нажатии кнопки. К тому же, именно по наличию конденсатора некоторые смартфоны определяют, что к ним подключили гарнитуру.

Основные функции кнопки - приём вызова, прекращение разговора и включение голосового поиска. Голосовой поиск вызывается удержанием кнопки до появления характерного сигнала - «OK Google beep» ▼

При воспроизведении звука или видео кнопка выполняет функции паузы. Кстати, при записи на диктофон тоже.

Можно расширить возможности кнопки, типа, двойное нажатие - переход на следующий трек, тройное - на предыдущий. Для этого служат специальные приложения - ищите их на Google Play по запросу вроде «headset button control ». К тому же некоторые плееры позволяют настроить функционал гарнитурной кнопки, например «Плеер мечты ».

Гарнитуры с тремя и более кнопками

Более сложные гарнитуры позволяют регулировать громкость и переключать треки вперёд/назад. Та или иная функция вызывается установкой определённого сопротивления между контактами 3-4 штекера TRRS ▼

И вот тут не всё так однозначно, как с однокнопочной гарнитурой. Беды́, как водится, две:

Никакого единого стандарта на номинал этих резисторов нет! Отчего нет и полной совместимости трёхкнопочных гарнитур с различными моделями смартфонов. У каждого производителя свои сопротивления. Хотя, есть , пытающаяся всех помирить.

Смартфон вовсе не обязан выполнять все команды управления звуком. Samsung, к примеру, умеет безо всякого ПО менять громкость по команде с гарнитуры, а переключать треки - не умеет. А некоторые модели Fly вообще не управляются сопротивлением.

То есть, трёхкнопочная гарнитура HTC конечно же будет воспроизводить звук с Samsung и микрофон будет работать. Но переключение треков работать не будет, хотя кнопки перемотки на пульте есть. Единственное, что работает со всеми смартфонами - кнопка Play/Pause. Она просто замыкает контакты 3-4 штекера TRRS.

Разумеется, с андрофонами не работают медиа-кнопки на гарнитуре от iPhone.

Xiaomi, Nexus One

Xiaomi и Nexus One по команде с пульта переключают треки. Номиналы резисторов отвечают распространённой в сети информации о якобы стандартном наборе сопротивлений для смартфонов Android. На самом деле не все андрофоны поддерживают этот «стандарт».

Пауза ⏸ - 0 Ω
Предыдущий трек ⏪ - 220 Ω
Следующий трек ⏩ - 600 Ω

HTC Desire

Бюджетная модель HTC Desire управляет громкостью. Для сравнения замечу, что HTC Sensation XE управляет переключением треков.

Если ваш компьютер работает на OC Windows XP, Vista или 7, а также оснащен аудиочипом от Realtek, то для работы звука вам необходимо иметь специальный драйвер. Для его активации наберите «Realtek» в поиске Пуска. Когда вы найдете в результатах Диспетчер Realtek HD - запустите его. Если этой программы нет в поиске, то на компьютере отсутствует этот драйвер либо установлена слишком старая версия. В этой статье будет написано, как произвести установку и настройку драйвера Realtek.

Установка драйвера Realtek

Следуйте этой пошаговой инструкции, если на компьютере отсутствует драйвер либо он устарел.

  1. Загрузите актуальную версию необходимого драйвера с сайта Realtek либо либо с нашего сайта по следующей ссылке: .
  2. Начините установку, запустив скачаный файл в формате «.exe».
  3. Для продолжения установки нажимайте «Далее».

    Внимание: если при установке будет предупреждение, что Windows не знает об издателе драйвера, то просто нажмите на «Установить», для продолжения работы установщика.

  4. После установки драйвера перезагрузите компьютер, чтобы все изменения начали свою работу.
    Сигналом о правильной установки программного обеспечения будет знак Realtek HD Audio Manager на панели задач. Чтобы перейти в диспетчер Realtek просто кликните на знак два раза.

Функции и настройки Realtek High Definition Audio

Аудикодек Realtek поддерживает 8-канальное аудио, Jack-Sensing, а также обладает множеством других функций. Кроме того он успешно работает с Universal Audio Jack, благодаря чему можно легко устранять ошибки связанные с кабельным соединением.

Аудио Менеджер Realtek поддерживает системные платы, которые работают с аудиобработчиком от Realtek.

Примечание: все меню указаны ниже для справки и их названия могут сильно отличаться от того, что будет находиться на вашем компьютере. В среде обозначенных выше версий Windows, Диспетчер Realtek HD будет сам находить устройства, подключенные к портам. И в зависимости от них уже будут показаны вкладки с настройками. Также интерфейс программы может отличаться из-за версии драйвера либо модели установленной на вашем компьютере звуковой карты.

Например:

Меню «Динамики»

Сначала перед вами откроется ползунок для регулировки громкости всех устройств. В панели, расположенной справа будут располагаться параметры, связанные с работой аудиоустройств вывода.

Цифровой выход

Для настройки входа цифрового звука сделайте следующее:

  1. Во вкладке «Дополнительные настройки устройства» можно настраивать параметры разделения входных гнезд.
  2. После вам станут доступны еще четыре вложенных меню.

Для настройки акустических систем:

1. Выберите меню «Динамики».
2. Для установки аналогового порта вывода как устройства по умолчанию нажмите на «Задать стандартное устройство».
3. Выберите меню «Конфигурация динамиков», расположенною в «Динамики». Там будут находиться параметры конфигурации. Также там можно настроить объемный звук и указать конфигурацию динамиков.

4. В меню «Звуковой эффект» можно настроить караоке, выбрать окружающую вас обстановку, а также выбрать один из нескольких режимов для эквалайзера.

5. Для регулирования громкоговорителей необходимо перейти в меню «Поправка на помещение». Там можно регулировать расстояние и углы, исходя от вашего расположения. Это очень полезная функция пригодится тогда, когда вы находитесь не прямо перед колонками, а стоите в несимметричной позиции от них. Но ее работа возможно только в режимах 5.1 и 7.1.
6. Меню «Стандартный формат» отвечает за параметры микшера. А если конкретно, то за частоту дискретизации и разрядность, с которой ОС будет обрабатывать исходящие звуки.

Настройка микрофона

Настроить свой микрофон можно в последнем меню, которое так и называется — «Микрофон». Вверху будут находиться ползунки для настройки громкости и баланса микрофона. Регулируйте их, пока не добьетесь желаемой громкости.

Этот раздел делится на две вкладки: «Эффект микрофона» и «стандартный формат».

Во вкладке «Эффект микрофона» можно изменить параметры конференц-режима, а также включить режим подавления эхо и шума.

Меню «Информация»

Нажав на значок информации, который выглядит как буква «i», можно узнать версию программы, аудиоконтроллер, DirectX, кодек и выбрать язык программы.

Спасибо за внимание! Пишите ваши уточнения по настройке Realtek High Definition Audio. 🙂

Для создания звуковых эффектов используются процедуры модуля CRT:

Sound(X)- звуковой сигнал частотой X герц;

Delay (N)- задержка на N миллисекунд;

NoSound- отменить звук.

Любой звуковой эффект используется конструкцию аналогичную следующей:

Sound(500); Delay(2000); NoSound; В данном примере звуковой сигнал частотой 500 Гц будет звучать в течение 2 с (2000 мс). Для генерации мелодий этого используется набор частот или элементы массива, соответствующие нотам различных октав:

PROGRAM Demo_Sound ;{ заголовок программы}

USES CRT ;{ подключение модуля Crt}

CONST M: ARRAY OF INTEGER= {M-массив частот нот}

(262,294,330,349,392,440,494,523);{значение частот}

VAR I: INTEGER; ChCHAR;{объявление служебных переменных}

BEGIN {начало раздела операторов}

WHILE True DO BEGIN {организация цикла WHILE}

Ch: =READKEY; {ожидание нажатия клавиши}

CASE Ch OF {анализ результата нажатия клавиши}

#49:I: =1 ;{ действие, если нажата клавиша 1}

#50:I: =2 ;{ действие, если нажата клавиша 2}…

#55:I: =7; {действие, если нажата клавиша 7}

#48:HALT ;{ выход при нажатии клавиши 0}

END ;{ завершение оператора CASE}

SOUND (M [I]) ;{ звучание с частотой M [I]}

DELAY (100) ;{ установка длительности звучания}

NOSOUND ;{ отмена звучания}

END ;{ конец оператора WHILE}

END. {конец программы}

Конец работы -

Эта тема принадлежит разделу:

Двоичное кодирование информации. Физические, математические и информационные модели

Контрольные вопросы Дайте определение логики Какие высказывания называются ложными а какие истинными Какие логические связки.. Лекция Постановка цели.. Контрольные вопросы..

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ:

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Лекция 1.
Тема: «Введение». 1. Информационная картина мира. Мы живем в мире, который существует в III основных формах: вещество, энергия, информация. Почему именно так, да

Лекция 2.
Тема: «Алгебра логики». Логика (от греческого слова «logos» - слово, мысль, речь, разум) – совокупность наук о законах и формах мышления, о наиболее общих

Лекция 3.
Тема: «Преобразование формул алгебры логики». Постановка цели. 2) Устная работа. Какие из следующих предложений не являются объектами алг

Лекция 4.
Тема: «Система счисления». I. Система счисления – это совокупность приемов и правил для записи чисел цифровыми знаками. Существуют непозиционные и позиционные сис

Лекция 5.
Тема: «Перевод чисел из одной системы счисления в другую». 1) Перевод целых чисел. Чтобы перевести целое десятичное число, в двоичную (8-ю, 16-ю) систему с

Операция над двоичным числами
1. Сложение. При выполнении операции «+» можно пользоваться таблицей «+» двоичных цифр. Двоичное число 10 показывает, что при сложении в каком-нибудь разряде двух двоичных

Двоичная система счисления
Двоичная система используется в ЭВМ всех размеров, т.к. именно в двоичной форме внутри машины запоминается, перемещается из одного устройства в другое и перерабатывается вся информация. Обусловлено

Моделирование как метод познания
В своей деятельности – научной, практической, художественной – человек очень часто использует модели, т.е. создает образ того объекта (процесса или явления), с которым ему приходится иметь дело. К

Один и тот же объект может иметь множество моделей, а разные объекты могут описываться одной моделью
Все модели можно разбить на II больших класса: - модели предметные (материальные); - модели знаковые (информационные). Предметные модели воспроизводят геометрические, физ

Формы представления информационных моделей
1) Язык как средство информационного моделирования. Язык является знаковой системой, которая позволяет создавать информационные модели. Естественные языки используются

Лекция 8.
Тема: «Этапы решения задач с помощью ЭВМ». Подготовка любой задачи к решению на ЭВМ состоит из нескольких этапов. Все этапы взаимосвязаны. I этап – четкая формули

Лекция 9.
Тема: «Алгоритм и его свойства. Способы записи алгоритмов». I. Алгоритм и его свойства. Алгоритмом называется определенная, формальная, общеп

Лекция 10.
Тема: «Линейный алгоритм. Составление линейных алгоритмов» Если команды алгоритма выполняются последовательно, одна за другой, то такой алгоритм называется лине

Лекция 11.
Тема: «Разветвляющийся алгоритм». В отличие от линейных алгоритмов, в которых команды выполняются последовательно одна за другой, в разветвляющиеся алгорит

Составление алгоритмов циклической и сложной структуры
1). Составить программу вычисления значения функции: а=1, b=2,2

Представление информации в компьютере
Компьютер может обрабатывать данные, которые представлены в специальном виде – только с помощью нулей и единиц. Каждый 0 или 1 называют битом. Один бит – это минимальная е

Внешняя память
В отличие от основной памяти внешняя память предназначена для долговременного хранения, и только хранения информации. Способность этой памяти хранить информацию не зависит от наличи

Краткая характеристика языка Паскаль
Язык программирования Паскаль разработан швейцарским профессором Высшей федеральной технической школы в Цюрихе, Н.Виртом в 1970 году. Затем в него были внесены несколько изменений и в 1979 году язы

Интегрированная среда программирования Turbo Pascal
Интегрированная среда программирования - IDE (Integrated Development Environment) включает в себя совокупность программ: экранный редактор, компилятор, компоновщик, отладчик, систему контекстной по

Клавиши оперативного вмешательства
Они представляют собой клавиши, которые устанавливаются для выполнения определенной функции, причем, находясь в любой точке среды Паскаль, нажатие клавиши Alt вместе с первой буквой любой команды и

File Edit Search Run Compile Debug Tools Options Window Help
File - работа с файлами; Debug - отладка; Edit - редактирование; Tools

Экранный редактор
Встроенный экранный редактор ТР предназначен для создания исходных текстов программ и их коррекции. В ТР 6.0 и 7.0 максимальный размер создаваемого файла – 1 Мбайт. Практически не ограничен размер

Основные команды перемещения
Команды управления перемещением курсора Ctrl-S, Ctrl-D, Ctrl-У и Ctrl-X позволяют свободно перемещаться по экрану без перехода на первый столбец в пустых стоках. Этот способ перемещения курсора осо

Символы языка
Паскаль использует следующие символы: 1. Буквы: 26 прописных латинских букв. 2. Цифры: 0,1,2,3,4,5,6,7,8,9. 3. Специальные символы: = + - * / <> () {} . , ; :

Лекция 16.
Тема: «Типы данных в языке программирования Turbo Pascal. Структура программы Turbo Pascal.» Типы данных в Паскале можно разделить на скалярны

Структура программы на языке Турбо Паскаль
Программа, написанная на языке Турбо Паскаль, имеет следующую структуру: · заголовок программы; · раздел описаний; · тело программы. Заголовок программы с

Лекция 17.
Тема: «Линейные программы» Строки программы, выполняемые одна за другой, называются линейными. Операторы языка. Операторы програм

Цикл FOR
Цикл FOR используется в трех случаях, когда число повторений может быть заранее известно. Существует две формы цикла: FOR i: =A TO B DO<тело цикла>

Понятие подпрограммы
Подпрограмма – это повторяющая группа операторов, оформленная в виде самостоятельной программой единицы. Она записывается однократно, а в соответствующих местах программы обеспечивается лишь обраще

Процедуры и функции
Цикл – это повторение группы операторов на данном этапе обработки информации. Если же какую-то группу одних и тех же команд требуется посторенние в разных местах программы, меняя лишь параметры, то

Операция над массивами
Инициализация. Инициализация-это присваивание компонентам массива начальных значений. Выполняется в цикле: FOR I: =1 TO 10 DO MASI [I]:=0 ;{ все элементы массива MASI равны 0}

Способы объявления двумерного массива
Способ 1. Если в программе используется один массива в разделе описания переменных: Var a: Array Of<тип элементов>; Спос

Сортировка массива
Сортировка – один из наиболее распространенных процессов современной обработки данных. Сортировкой называется распределение элементов множества по группам в соответствии с о

Линейная сортировка (сортировка отбором)
Идея линейной сортировки по не возрастанию заключается в том, чтобы, последовательно просматривая весь массив, отыскать наибольшее число и поместить его на первую позицию, обменяв его с элементом,

Сортировка методом пузырька
Один из самых популярных методов сортировки – ″пузырьковый″ метод основан на том, что в процессе исполнения алгоритма более ″легкие″ элементы массива

Бинарный поиск в упорядоченных массивах
Едва ли не самой внушительной демонстрацией эффективности применения компьютеров являются задачи, в которых осуществляется поиск информации в некотором списке. Ранее мы использовали метод линейного

Графический экран
Отличие графического экрана от текстового: единица управления в графическом режиме - точка (пиксел), в текстовом – символ. Прежде чем работать с графическими командами, надо запустить графическую с

Текстовый экран
Текстовый экран позволяет разместить 25х80 символов. Минимальная единица управления - символ. Для управления цветом и фоном используются процедуры, находящиеся в модуле CRT: Cl

Лекция 24.
Тема: «Операционные системы семейства Microsoft Windows». Windows- это название семейства операционных систем для IBM -совместимых персон

Основы взаимодействия пользователя с системой
После запуска системы Windows экран монитора приобретает специфическое оформление, называемое термином Рабочий стол.На нем размещаются значки-пиктограммыосновных п

Управление окнами
В основе системы Windowsтак же, как и других аналогичных систем, лежит понятие окна. Каждое окно имеет рамку и заголовок.Рамка использует

Навигация по дискам и каталогам с помощью пиктограммы
«Мой компьютер» пиктограмма «Мой компьютер» дает доступ к файловой системе ПК и позволяет запустить любое приложение. Для этого необходимо дважды щелкнуть значок «

Лекция 25.
Тема: «Запуск операционной системы. Работа с окнами, папкам и файлами». Для создания новой папки в приложении «Мой компьютер» нужно перейти в папку, где необходимо создать

Лекция 26.
Тема: «Основные возможности текстового редактора Word». В последнее время все большую популярность среди широкого круга пользователей завоевывает текстовый редактор Word д

Для отмены удаления
- на панели инструментов пиктографического меню нажать на кнопку с изображением изогнутой влево стрелки; - или использовать команду меню ПРАВКА – ОТМЕНИТЬ ВВОД. Добавление

Лекция 28.
Тема: «Работа с электронными таблицами в программе Excel». Для представления данных в удобном виде используют таблицы. Компьютер расширяет возможности использования таблиц

Ввод текста и чисел
Ввод текста осуществляется непосредственно в текущую ячейку или в строку формул, располагающуюся в верхней части окна программы непосредственно под панелями инструментов. Содержимое строки ф

Форматирование содержимого ячеек
Текстовые данные по умолчанию выравниваются по левому краю ячейки, а числа – по правому. Способ выполнения вычисления не зависит от того, каким способом данные отформатированы, но для человека внеш

Лекция 29.
Тема: «Диаграмма-графическое представление и редактирование данных». Большую помощь при обработке и анализе информации оказывает ее графическое представление. Это неудивит

Ко мне обратился человек с просьбой написать программу, которая позволила бы управлять компьютерной мышью при помощи голоса. Тогда я и представить себе не мог, что, практически полностью парализованный человек, который даже не может сам повернуть голову, а может лишь разговаривать, способен развить бурную деятельность, помогая себе и другим жить активной жизнью, получать новые знания и навыки, работать и зарабатывать, общаться с другими людьми по всему свету, участвовать в конкурсе социальных проектов.

Позволю себе привести здесь пару ссылок на сайты, автором и/или идейным вдохновителем которых является этот человек – Александр Макарчук из города Борисов, Беларусь:

Для работы на компьютере Александр использовал программу «Vocal Joystick» - разработку студентов Университета штата Вашингтон, выполненную на деньги Национального Научного Фонда (NSF). См. melodi.ee.washington.edu/vj

Не удержался

Кстати, на сайте университета (http://www.washington.edu/) 90% статей именно про деньги. Трудно найти что-нибудь про научную работу. Вот, например, выдержки с первой страницы: «Том, выпускник университета, раньше питался грибами и с трудом платил за квартиру. Теперь он старший менеджер ИТ-компании и кредитует университет», «Большие Данные помогают бездомным», «Компания обязалась заплатить 5 миллионов долларов за новый учебный корпус».

Это одному мне режет глаз?


Программа была сделана в 2005-2009 годах и хорошо работала на Windows XP. В более свежих версиях Windows программа может зависнуть, что неприемлемо для человека, который не может встать со стула и её перезапустить. Поэтому программу нужно было переделать.

Исходных текстов нет, есть только отдельные публикации, приоткрывающие технологии, на которых она основана (MFCC, MLP – читайте об этом во второй части).

По образу и подобию была написана новая программа (месяца за три).

Собственно, посмотреть, как она работает, можно :

Скачать программу и/или посмотреть исходные коды можно .

Никаких особенных действий для установки программы выполнять не надо, просто щёлкаете на ней, да запускаете. Единственное, в некоторых случаях требуется, чтобы она была запущена от имени администратора (например, при работе с виртуальной клавиатурой “Comfort Keys Pro”):

Пожалуй, стоит упомянуть здесь и о других вещах, которые я ранее делал для того, чтобы можно было управлять компьютером без рук.

Если у вас есть возможность поворачивать голову, то хорошей альтернативой eViacam может послужить гироскоп, крепящийся к голове. Вы получите быстрое и точное позиционирование курсора и независимость от освещения.

Если вы можете двигать только зрачками глаз, то можно использовать трекер направления взгляда и программу к нему (могут быть сложности, если вы носите очки).

Часть II. Как это устроено?

Из опубликованных материалов о программе «Vocal Joystick» было известно, что работает она следующим образом:
  1. Нарезка звукового потока на кадры по 25 миллисекунд с перехлёстом по 10 миллисекунд
  2. Получение 13 кепстральных коэффициентов (MFCC) для каждого кадра
  3. Проверка того, что произносится один из 6 запомненных звуков (4 гласных и 2 согласных) при помощи многослойного персептрона (MLP)
  4. Воплощение найденных звуков в движение/щелчки мыши
Первая задача примечательна лишь тем, что для её решения в реальном времени пришлось вводить в программу три дополнительных потока, так как считывание данных с микрофона, обработка звука, проигрывание звука через звуковую карту происходят асинхронно.

Последняя задача просто реализуется при помощи функции SendInput.

Наибольший же интерес, мне кажется, представляют вторая и третья задачи. Итак.

Задача №2. Получение 13 кепстральных коэффициентов

Если кто не в теме – основная проблема узнавания звуков компьютером заключается в следующем: трудно сравнить два звука, так как две непохожие по очертанию звуковые волны могут звучать похоже с точки зрения человеческого восприятия.

И среди тех, кто занимается распознаванием речи, идёт поиск «философского камня» - набора признаков, которые бы однозначно классифицировали звуковую волну.

Из тех признаков, что доступны широкой публике и описаны в учебниках, наибольшее распространение получили так называемые мел-частотные кепстральные коэффициенты (MFCC).

История их такова, что изначально они предназначались совсем для другого, а именно, для подавления эха в сигнале (познавательную статью на эту тему написали уважаемые Оппенгейм и Шафер, да пребудет радость в домах этих благородных мужей. См. A. V. Oppenheim and R.W. Schafer, “From Frequency to Quefrency: A History of the Cepstrum”).

Но человек устроен так, что он склонен использовать то, что ему лучше знакомо. И тем, кто занимался речевыми сигналами, пришло в голову использовать уже готовое компактное представление сигнала в виде MFCC. Оказалось, что, в общем, работает. (Один мой знакомый, специалист по вентиляционным системам, когда я его спросил, как бы сделать дачную беседку, предложил использовать вентиляционные короба. Просто потому, что их он знал лучше других строительных материалов).

Являются ли MFCC хорошим классификатором для звуков? Я бы не сказал. Один и тот же звук, произнесённый мною в разные микрофоны, попадает в разные области пространства MFCC-коэффициентов, а идеальный классификатор нарисовал бы их рядом. Поэтому, в частности, при смене микрофона вы должны заново обучать программу.

Это всего лишь одна из проекций 13-мерного пространства MFCC в 3-мерное, но и на ней видно, что я имею в виду – красные, фиолетовые и синие точки получены от разных микрофонов: (Plantronix, встроенный массив микрофонов, Jabra), но звук произносился один.

Однако, поскольку ничего лучшего я предложить не могу, также воспользуюсь стандартной методикой – вычислением MFCC-коэффициентов.

Чтобы не ошибиться в реализации, в первых версиях программы в качестве основы был использован код из хорошо известной программы CMU Sphinx, точнее, её реализации на языке C, именующейся pocketsphinx, разработанной в Университете Карнеги-Меллона (мир с ними обоими! (с) Хоттабыч).

Исходные коды pocketsphinx открыты, да вот незадача – если вы их используете, то должны в своей программе (как в исходниках, так и в исполняемом модуле) прописать текст, содержащий, в том числе, следующее:

* This work was supported in part by funding from the Defense Advanced * Research Projects Agency and the National Science Foundation of the * United States of America, and the CMU Sphinx Speech Consortium.
Мне это показалось неприемлемым, и пришлось код переписать. Это сказалось на быстродействии программы (в лучшую сторону, кстати, хотя «читабельность» кода несколько пострадала). Во многом благодаря использованию библиотек “Intel Performance Primitives”, но и сам кое-что оптимизировал, вроде MEL-фильтра. Тем не менее, проверка на тестовых данных показала, что получаемые MFCC-коэффициенты полностью аналогичны тем, что получаются при помощи, например, утилиты sphinx_fe.

В программах sphinxbase вычисление MFCC-коэффициентов производится следующими шагами:

Шаг Функция sphinxbase Суть операции
1 fe_pre_emphasis Из текущего отсчёта вычитается большая часть предыдущего отсчета (например, 0.97 от его значения). Примитивный фильтр, отбрасывающий нижние частоты.
2 fe_hamming_window Окно Хемминга – вносит затухание в начале и конце кадра
3 fe_fft_real Быстрое преобразование Фурье
4 fe_spec2magnitude Из обычного спектра получаем спектр мощности, теряя фазу
5 fe_mel_spec Группируем частоты спектра [например, 256 штук] в 40 кучек, используя MEL-шкалу и весовые коэффициенты
6 fe_mel_cep Берём логарифм и применяем DCT2-преобразование к 40 значениям из предыдущего шага.
Оставляем первые 13 значений результата.
Есть несколько вариантов DCT2 (HTK, legacy, классический), отличающихся константой, на которую мы делим полученные коэффициенты, и особой константой для нулевого коэффициента. Можно выбрать любой вариант, сути это не изменит.

В эти шаги ещё вклиниваются функции, которые позволяют отделить сигнал от шума и от тишины, типа fe_track_snr, fe_vad_hangover, но нам они не нужны, и отвлекаться на них не будем.

Были выполнены следующие замены для шагов по получению MFCC-коэффициентов:

Задача №3. Проверка того, что произносится один из 6 запомненных звуков

В программе-оригинале «Vocal Joystick» для классификации использовался многослойный персептрон (MLP) – нейронная сеть без новомодных наворотов.

Давайте посмотрим, насколько оправдано применение нейронной сети здесь.

Вспомним, что делают нейроны в искусственных нейронных сетях.

Если у нейрона N входов, то нейрон делит N-мерное пространство пополам. Рубит гиперплоскостью наотмашь. При этом в одной половине пространства он срабатывает (выдаёт положительный ответ), а в другой – не срабатывает.

Давайте посмотрим на [практически] самый простой вариант – нейрон с двумя входами. Он, естественно, будет делить пополам двумерное пространство.

Пусть на вход подаются значения X1 и X2, которые нейрон умножает на весовые коэффициенты W1 и W2, и добавляет свободный член C.


Итого, на выходе нейрона (обозначим его за Y) получаем:

Y=X1*W1+X2*W2+C

(опустим пока тонкости про сигмоидальные функции)

Считаем, что нейрон срабатывает, когда Y>0. Прямая, заданная уравнением 0=X1*W1+X2*W2+C как раз и делит пространство на часть, где Y>0, и часть, где Y<0.

Проиллюстрируем сказанное конкретными числами.

Пусть W1=1, W2=1, C=-5;

Теперь посмотрим, как нам организовать нейронную сеть, которая бы срабатывала на некоторой области пространства, условно говоря – пятне, и не срабатывала во всех остальных местах.

Из рисунка видно, что для того, чтобы очертить область в двумерном пространстве, нам потребуется по меньшей мере 3 прямых, то есть 3 связанных с ними нейрона.

Эти три нейрона мы объединим вместе при помощи ещё одного слоя, получив многослойную нейронную сеть (MLP).

А если нам нужно, чтобы нейронная сеть срабатывала в двух областях пространства, то потребуется ещё минимум три нейрона (4,5,6 на рисунках):

И тут уж без третьего слоя не обойтись:

А третий слой – это уже почти Deep Learning…

Теперь обратимся за помощью к ещё одному примеру. Пусть наша нейронная сеть должна выдавать положительный ответ на красных точках, и отрицательный – на синих точках.

Если бы меня попросили отрезать прямыми красное от синего, то я бы сделал это как-то так:

Но нейронная сеть априори не знает, сколько прямых (нейронов) ей понадобится. Этот параметр надо задать перед обучением сети. И делает это человек на основе… интуиции или проб и ошибок.

Если мы выберем слишком мало нейронов в первом слое (три, например), то можем получить вот такую нарезку, которая будет давать много ошибок (ошибочная область заштрихована):

Но даже если число нейронов достаточно, в результате тренировки сеть может «не сойтись», то есть достигнуть некоторого стабильного состояния, далёкого от оптимального, когда процент ошибок будет высок. Как вот здесь, верхняя перекладина улеглась на два горба и никуда с них не уйдёт. А под ней большая область, порождающая ошибки:

Снова, возможность таких случаев зависит от начальных условий обучения и последовательности обучения, то есть от случайных факторов:

- Что ты думаешь, доедет то колесо, если б случилось, в Москву или не доедет?
- А ты как думаешь, сойдётся ента нейронная сеть или не сойдётся?

Есть ещё один неприятный момент, связанный с нейронными сетями. Их «забывчивость».

Если начать скармливать сети только синие точки, и перестать скармливать красные, то она может спокойно отхватить себе кусок красной области, переместив туда свои границы:

Если у нейронных сетей столько недостатков, и человек может провести границы гораздо эффективнее нейронной сети, зачем же их тогда вообще использовать?

А есть одна маленькая, но очень существенная деталь.

Я очень хорошо могу отделить красное сердечко от синего фона отрезками прямых в двумерном пространстве.

Я неплохо смогу отделить плоскостями статую Венеры от окружающего её трёхмерного пространства.

Но в четырёхмерном пространстве я не смогу ничего, извините. А в 13-мерном - тем более.

А вот для нейронной сети размерность пространства препятствием не является. Я посмеивался над ней в пространствах малой размерности, но стоило выйти за пределы обыденного, как она меня легко уделала.

Тем не менее вопрос пока открыт – насколько оправдано применение нейронной сети в данной конкретной задаче, учитывая перечисленные выше недостатки нейронных сетей.

Забудем на секунду, что наши MFCC-коэффициенты находятся в 13-мерном пространстве, и представим, что они двумерные, то есть точки на плоскости. Как в этом случае можно было бы отделить один звук от другого?

Пусть MFCC-точки звука 1 имеют среднеквадратическое отклонение R1, что [грубо] означает, что точки, не слишком далеко отклоняющиеся от среднего, наиболее характерные точки, находятся внутри круга с радиусом R1. Точно так же точки, которым мы доверяем у звука 2 находятся внутри круга с радиусом R2.

Внимание, вопрос: где провести прямую, которая лучше всего отделяла бы звук 1 от звука 2?

Напрашивается ответ: посередине между границами кругов. Возражения есть? Возражений нет.
Исправление: В программе эта граница делит отрезок, соединяющий центры кругов в соотношении R1:R2, так правильнее.

И, наконец, не забудем, что где-то в пространстве есть точка, которая является представлением полной тишины в MFCC-пространстве. Нет, это не 13 нулей, как могло бы показаться. Это одна точка, у которой не может быть среднеквадратического отклонения. И прямые, которыми мы отрежем её от наших трёх звуков, можно провести прямо по границам окружностей:

На рисунке ниже каждому звуку соответствует кусок пространства своего цвета, и мы можем всегда сказать, к какому звуку относится та или иная точка пространства (или не относится ни к какому):

Ну, хорошо, а теперь вспомним, что пространство 13-мерное, и то, что было хорошо рисовать на бумаге, теперь оказывается тем, что не укладывается в человеческом мозгу.

Так, да не так. К счастью, в пространстве любой размерности остаются такие понятия, как точка, прямая, [гипер]плоскость, [гипер]сфера.

Мы повторяем все те же действия и в 13-мерном пространстве: находим дисперсию, определяем радиусы [гипер]сфер, соединяем их центры прямой, рубим её [гипер]плоскостью в точке, равно отдалённой от границ [гипер]сфер.

Никакая нейронная сеть не сможет более правильно отделить один звук от другого.

Здесь, правда, следует сделать оговорку. Всё это справедливо, если информация о звуке – это облако точек, отклоняющихся от среднего одинаково во всех направлениях, то есть хорошо вписывающееся в гиперсферу. Если бы это облако было фигурой сложной формы, например, 13-мерной изогнутой сосиской, то все приведённые выше рассуждения были бы не верны. И возможно, при правильном обучении, нейронная сеть смогла бы показать здесь свои сильные стороны.

Но я бы не рисковал. А применил бы, например, наборы нормальных распределений (GMM), (что, кстати и сделано в CMU Sphinx). Всегда приятнее, когда ты понимаешь, какой конкретно алгоритм привёл к получению результата. А не как в нейронной сети: Оракул, на основе своего многочасового варения бульона из данных для тренировки, повелевает вам принять решение, что запрашиваемый звук – это звук №3. (Меня особенно напрягает, когда нейронной сети пытаются доверить управление автомобилем. Как потом в нестандартной ситуации понять, из-за чего машина повернула влево, а не вправо? Всемогущий Нейрон повелел?).

Но наборы нормальных распределений – это уже отдельная большая тема, которая выходит за рамки этой статьи.

Надеюсь, что статья была полезной, и/или заставила ваши мозговые извилины поскрипеть.

Я часто работаю на ПК в то время, когда другие члены семьи спят. Обычно перед тем как начать или завершить работу, отключаю звук, но если забываю это сделать или случается аварийный отказ, звуки разносятся по всему дому. Можно ли как-нибудь заглушать Windows автоматически?

Эндрю Хоббз, Северная Каролина

Операционная система Windows не предлагает беззвучной загрузки в качестве особой опции, но все же кое-какие окольные пути и некоторые утилиты помогают это ограничение преодолеть. Вот несколько моих любимых трюков и инструментов, позволяющих «удерживать ПК от разговоров», да и вообще управлять его звуковыми функциями.

Аппаратный способ. Самый простой вариант заставить компьютер замолчать еще до того, как он начнет издавать звуки, - это убавить звук до нуля, повернув регулятор громкости на динамиках или просто обесточить их, если есть выключатель питания.

К сожалению, подобные способы не годятся не только для ноутбуков, но и для многих настольных систем. Однако для отдельных ПК можно отключать звук через экран настроек, если войти туда во время загрузки, до начала запуска Windows. Конечно, чтобы вернуть звук, придется перезагружаться и снова изменять настройки.

Отключение звука при запуске. Более удачное решение - использование бесплатной утилиты для отключения звука. Читатель Кристиан Клюкас из г. Магдебурга создал программы Mute («Отключение звука») и SetVol («Установка громкости»). Эти бесплатные утилиты доступны по адресу find.pcworld. com/12280. Поместите их в какую-нибудь папку по своему выбору. Чтобы сделать запуск Windows беззвучным, щелкните правой кнопкой мыши на кнопке «Пуск», выберите пункт «Открыть», дважды щелкните на значке «Программы», а затем, также дважды, на значке «Автозагрузка». С помощью Проводника или через «Пуск?Найти» найдите файл mute.exe. Перетащите его при нажатой правой кнопке мыши в папку «Автозагрузка» и выберите опцию «Создать ярлык». После этого при нажатой клавише дважды щелкните на ярлыке (или щелкните на нем правой кнопкой и укажите «Свойства»), чтобы открыть список его свойств. На закладке «Ярлык» щелкните на поле «Объект». Поместите курсор в конец имеющейся командной строки и введите пробел со следующим нужным вам переключателем; в данном случае требуется on -delay. По завершении командная строка должна выглядеть примерно так: «C:Program Filesmute.exe» on -delay (рис. 1).

Теперь нажмите OK. Эта команда будет поддерживать программу Mute в активном состоянии, так что каждый раз, когда вы будете завершать сеанс работы или выходить из Windows, звук отключится.

Хотя Mute и занимает всего лишь 1,5 Кбайт оперативной памяти, вы, возможно, не захотите, чтобы она постоянно там находилась. Поэтому уберите последовательность -delay из графы «Объект» в окне свойств ярлыка, и тогда звук во время запуска Windows будет отключаться, а программа Mute - закрываться. Однако Windows по-прежнему станет воспроизводить звук при запуске приложений из папки «Автозагрузка» (включая программу Mute), так что полностью беззвучного запуска вы не получите. С этой проблемой можно справиться, выбрав опции «Пуск?Настройка?Панель управления?Звук» («Звук и мультимедиа» в Windows 2000 и Me). В списке «События» (в Windows 2000 и Me предварительно выберите закладку «Звуки») отметьте «Запуск Windows», после чего в окне «Файл» укажите «(Нет)». Если есть другие приложения, запускаемые в начале работы ПК, вам, возможно, придется повторить такой шаг и для событий «Открытие программы» и «Закрытие программы». Завершив все, щелкните на OK.

Если требуется отключать звук запуска лишь от случая к случаю, используйте Mute с переключателем -delay, но запускайте программу с помощью ярлыка вручную вместо того, чтобы помещать его в папку «Автозагрузка».

Отключение звука по завершении работы. Программу Mute можно активировать также из какого-либо приложения, созданного специально для запуска программ при закрытии Windows. Парочка таких программ описана во врезке «Инструменты Windows».

Значок на Панели задач. После того как звук отключен, его можно вновь включить, щелкнув на значке громкоговорителя, расположенном в Системном лотке (около часов). Когда на экране появится панель управления громкостью, выключите функцию в квадратике слева от «Выкл.». Чтобы снова отключить звук, повторите те же шаги, снова включив функцию щелчком мыши. Если значок громкоговорителя не виден, откройте Панель управления и дважды щелкните на значке «Мультимедиа» (в Windows 9x) или «Звук и мультимедиа» (в Windows Me или 2000). Включите опцию в позиции «Регулятор громкости на панели задач» и нажмите OK. На Панели задач Windows XP щелкните на значке «Звук, речь и аудиоустройства», потом на «Звуки и аудиоустройства». Включите функцию «Отображать значок на панели задач» и нажмите OK.

Быстрый запуск. Когда вы щелкаете на значке громкоговорителя на Панели задач, то регулятор громкости иногда появляется на экране лишь через несколько секунд. Чтобы избежать такой задержки, можно использовать для включения и отключения звука утилиту Mute или же предпочесть утилиту SetVol для установки уровня громкости одним-единственным щелчком на значке, расположенном на панели «Быстрый запуск» в левой части Панели задач Windows.

Для создания постоянной кнопки отключения звука выберите опции «Пуск?Найти», которые нужны, чтобы найти файл mute.exe, и затем перетащите его при нажатой правой кнопке мыши на панель «Быстрый запуск». Затем задайте опцию «Создать ярлык». С помощью появившегося в результате этой операции значка Mute можно отключать или включать звук. Чтобы получить значок регулировки громкости, проделайте то же самое с файлом setvol.exe. Потом щелкните правой кнопкой на значке SetVol на панели «Быстрый запуск» и выберите «Свойства». В конце командной строки в поле «Объект», что на закладке «Ярлык», введите пробел, а после него - последовательность -10. Теперь создайте еще один ярлык для SetVol с переключателем +10 в конце командной строки. Когда вам захочется уменьшить громкость на 10%, щелкните на первом из этих ярлыков, а если увеличить на 10% - на втором. Можно использовать любые числа с шагом, равным 10. Если опустить знаки «+» или «-», то будет устанавливаться тот процент громкости, который вы укажете.

Чтобы снабдить новые значки подсказками, всплывающими при наведении на них курсора, щелкните на значке правой кнопкой мыши и выберите опцию «Переименовать». Введите текст подсказки и щелкните на OK (в Windows 98 SE). В более ранних версиях Windows для того же щелкните правой кнопкой мыши на свободном поле панели «Быстрый запуск» и выберите опцию «Открыть», после чего используйте в качестве имени значка устраивающий вас текст подсказки (рис. 2).

Управление с клавиатуры. Чтобы включать и выключать звук с помощью клавиатуры, создайте ярлык для утилиты Mute и поместите его на Рабочий стол или в какую-нибудь папку в иерархии Главного меню. Я рекомендую для этого организовать папку под названием «Быстрые клавиши» (или Keyboard Shortcuts, если угодно) в «Главном меню/Программы». Это позволяет легко найти сведения о быстрых клавишах, если вам когда-либо понадобится их удалить или заменить.

Щелкните правой кнопкой мыши на нужном вам ярлыке и выберите пункт «Свойства». На закладке «Ярлык» щелкните на поле «Быстрый вызов», после чего нажмите те клавиши, которые вы хотите назначить для включения-отключения звука. Если вы выберете просто какую-либо из функциональных клавиш (- клавиши в верхнем ряду клавиатуры) или клавишу на цифровой клавиатуре, то не сможете в дальнейшем применять ее для иных целей, так что лучше указать сочетания, +, +, + или ++ с какой-либо иной клавишей. Постарайтесь к тому же выбрать такую комбинацию, которой у вас не будет в других программах (рис. 3).

Щелкните на OK. Если вы в дальнейшем удалите эту быструю клавишу, вам придется перезапускать Windows, чтобы соответствующая комбинация вновь стала свободной.

Компактная панель управления громкостью. Если вы щелкнете на значке громкоговорителя на Панели задач дважды, то на экране появится диалоговое окно управления громкостью, включающее регулятор баланса и отдельные регуляторы громкости для Wav-звуков, лазерного проигрывателя и т. д. (конкретный набор зависит от комплекта установленных в вашей системе аудиодрайверов). Чтобы сделать данное диалоговое окно более компактным, нажмите +S (рис. 4). Оно будет сохранять этот новый, более изящный облик до тех пор, пока вы не откроете его опять и не нажмете на +S.

Мгновенный вызов Диспетчера задач

Windows 2000. Диспетчер задач Windows позволяет с легкостью отключать скрытые или проблемные приложения, проверять, какие из программ пожирают оперативную память, и анализировать работу ЦП. Вы можете быть страстным поклонником Диспетчера задач -- и не знать кратчайшего способа добраться до этой утилиты.

В Windows 2000 Диспетчер задач можно запустить, нажав сочетание клавиш ++ для вывода на экран диалогового окна «Безопасность Windows» и щелкнув потом на кнопке «Диспетчер задач».

В Windows XP надо просто щелкнуть правой кнопкой на свободном пространстве Панели задач и выбрать в раскрывшемся меню опцию «Диспетчер задач».

А вот способ, позволяющий сделать обращение к Диспетчеру задач еще более удобным. Читатель Тимоти Дж. Луома из шт. Флорида указывает, что когда Диспетчер задач работает, то он помещает в Системный лоток (в правом нижнем углу экрана) крохотный анимированный значок, отражающий работу ЦП. Наведя на него курсор мыши и задержав его там на несколько мгновений, можно также увидеть сообщение о том, на сколько процентов используется ЦП, - оно выводится в составе подсказки к этому значку. Если эта функция вам нравится, то почему бы не заставить Диспетчер задач работать постоянно, поместив ярлык к нему в папку «Автозагрузка»?

Щелкните правой кнопкой мыши на кнопке «Пуск» и выберите пункт «Открыть». Дважды щелкните на значке «Программы», потом «Автозагрузка». Снова щелкнув на кнопке «Пуск», выберите «Найти?Файлы и папки», введите в верхнюю графу команду tаskmgr.exe, в графе «Где искать» укажите диск, с которого запускается система (для большинства пользователей это будет c:), и щелкните на кнопке «Найти». Когда увидите программный файл Диспетчера задач в окне результатов поиска, перетащите его при нажатой правой кнопке в раскрытую папку «Автозагрузка». Отпустив кнопку мыши, выберите опцию «Создать ярлыки». Теперь щелкните правой кнопкой на новом ярлыке и укажите пункт «Свойства». Выберите затем закладку «Ярлык», а в ниспадающем списке в графе «Окно» - «Свернутое в значок». Щелкните на OK. Чтобы Диспетчер задач не попадался на глаза, когда он не нужен, дважды щелкните на ярлыке для запуска утилиты и в меню в верхней части ее окна задайте «Параметры?Скрывать свернутое».

Теперь Диспетчер задач будет запускаться незримо, но вы всегда сможете раскрыть его окно, дважды щелкнув на значке ЦП на Системной панели.

Scott Dunn. Sound Off: Take Charge of Windows Audio Controls. PC World, январь 2002 г., с. 148.

Запуск Задач при завершении работы

Имеющуюся в Windows папку «Главное меню/Программы/Автозагрузка» и «Планировщик задач» можно использовать для автоматического запуска приложений или выполнения других задач в определенные моменты времени, за исключением того момента, когда нужно будет завершать работу ПК. Если же вы хотите при выключении компьютера вычищать созданные в течение дня временные файлы или, скажем, отключать после работы звук, то вам помогут следующие утилиты.

В качестве возможного бесплатного решения попробуйте ActiveSaver, тощенький 45-Кбайт файл с данными для хранителя экрана (.scr), который, подобно стандартному хранителю экрана, поможет запускать какой-либо другой файл, выходить из Windows или проводить обе эти операции по истечении некоторого, заранее установленного промежутка времени. Для конфигурирования ActiveSaver подойдет стандартная кнопка «Настройка» хранителя экрана. (Откройте доступ к ней, щелкнув правой кнопкой мыши на свободной поверхности Рабочего стола, выберите пункт «Свойства» и щелкните на закладке «Заставка»). Но чтобы ActiveSaver работал, его даже не обязательно специально указывать в качестве активного хранителя экрана. Просто перетащите файл ActiveSaver.scr на кнопку «Пуск» или на панель «Быстрый запуск», после чего, если вы решите, что на сегодня с вас хватит, используйте образовавшуюся позицию/значок вместо привычных команд «Пуск?Завершение работы».

Утилита ActiveSaver позволяет запускать при завершении работы только одну какую-нибудь программу, и к тому же на моей машине с Windows 2000 она конфликтует с функцией выключения питания компьютера. Если это вас волнует или хочется иметь более многофункциональную утилиту, рассмотрите ShutdownPlus. Эта условно-бесплатная программа разрешает при завершении работы запускать несколько задач, а в Windows 98 и более поздних версиях этой ОС она замещает применяемое в Windows диалоговое окно завершения работы своим собственным. Значит, вам не придется запускать для выхода из системы какое-либо специальное приложение. Утилита ShutdownPlus поставляется в персональной (30 долл.) и профессиональной (40 долл.) версиях. Обе указанные программы можно получить по адресу ind.pcworld.com/12280.