Смартфон, фас! Используем голосовое управление на полную катушку

20.11.2020 0

Typle

Typle позволяет использовать голосовое управление компьютером. Присутствует возможность запуска программ, открытия интернет ресурсов или документов используя голосовое управление. Программа имеет довольно легкий интерфейс и русскую версию. Для работы желательно иметь хороший микрофон, без шумов и с работой в широких частотах. Скачать Typle можно с официального сайта.

Настройка приложения:

Установив программу требуется создать учетную запись. Добавить ключевую фразу, после этого звуковой сигнал уведомит об активации.

Далее создаются голосовые команды, они могут быть любого вида и назначения. Произвольное слово может быть запрограммировано на открытие любого приложения.

Также создаются и другие команды, которые закрепляются за каким-либо действием компьютера.

Now on Tap

Описанию этого сервиса было уделено отдельное пристальное внимание на презентации Android 6.0 Marshmallow. И преподносился он как одна из основных особенностей новой прошивки. Но более-менее нормальную функциональность в России мы получили только в декабре. В официальном русском переводе он называется контекст от Now.

Как это работает? «Когда вы запускаете контекст от Now, Google анализирует все, что вы видите на экране, и ищет информацию в соответствии с этими данными» — вот официальное описание со страницы поддержки.

На деле это значит, что вместо того, чтобы выделять и копировать интересующие фразы на экране, затем открывать поиск и вставлять фразу, можно просто нажать и удерживать кнопку «Домой». После этого Google предложит варианты для найденных ключевых фраз. Это могут быть картинки, видео, предложение открыть это место на картах, новости. Может предложить открыть сайт организации или сделать звонок, открыть профиль Facebook или посмотреть Twitter-аккаунт знаменитостей, добавить заметку. При наличии соответствующих приложений на устройстве после тапа на иконке страница откроется сразу внутри приложения. При прослушивании музыки из разных приложений можно одним нажатием вызвать подробную информацию об исполнителях, альбомах, клипах на YouTube и прочем.

Работа Now on Tap на примере «ВКонтакте»

Так же как и в десктопной версии поиска, в голосовом поиске есть пасхалки. Приведу только несколько команд, остальные можете узнать по этой ссылке. К сожалению, почти все они срабатывают только на английском языке и с английским интерфейсом или при выбранном в настройках только английском языке.

«Do a barrel roll». «Make me a sandwich!» «Sudo make me a sandwich!» «When am I?» «Beam me up, Scotty!» «Up up down down left right left right». «What does the fox say?»

Speaker

Приложение предельно простое для пользователя. Предназначено для голосового управления компьютером Windows 7, 8, 10. Утилита является незаметной для пользователя, работает в фоне и активируется нажатием на среднюю кнопку мыши и кнопку Ctrl. Speaker позволяет юзеру при помощи голосовых команд проводить различные действия с файлами, менять языковую раскладку, перезагружать или выключать компьютер (ПК). Интерфейс удобен и минималистичен, свертывается программа в системный трей. Для настройки утилиты придерживаемся следующего алгоритма:

После установки программы и подключения микрофона, предстоит настроить команды. Открыть окно приложения и добавить команды нажав на большой плюс.

Выбрать «добавить команду» и установить для нее действие. Программа долго «думает» 3-4 сек., обусловлено это тем, что сначала голос преобразуется в текст и только потом выполняется задача.

Программы для сканирования документов

Голосовое управление Андроид

Голосовое управление Андроид – это инновационная технология, с помощью которой можно управлять устройством без лишних манипуляций, а только голосом. Эта функция находится в стадии активного развития и усовершенствования.

Ok, Google на Андроид, даёт возможность более эффективно использовать устройство. Голосом можно выполнять много функций и получать качественный результат. К примеру, искать необходимую информацию, включать/выключать приложения и даже набирать текст. На сегодняшний день данная разработка не идеальна и включает в себя различные недоработки.

Также Ok, Google имеет расширение – Google Assistant. Более подробно читайте в нашей статье – Что такое Google Assistant и как он работает.

Все команды, которые возможно осуществить с помощью голосового управления делятся на две группы.

А именно:

управление функциями самого устройства – если вы хотите послушать музыку, то просто скажите – “Проиграть плейлист”, если хотите включить будильник, то произнесите фразу – “Разбуди меня в такое-то время” и так далее

поиск информации – голосовым запросом можно узнать, например, погоду, посмотреть счёт игры любимой команды, найти слова песни и так далее

Но к сожалению, есть и некоторые ограничения в работе голосового управления. Иногда на невостребованные запросы вы не сможете получить информацию. Например, вас интересует расписание сеансов в кинотеатрах Киева, и вы без проблем получите ответ, а вот если вы зададите тот же запрос, но уже касательно менее крупного города, то тут могут возникнуть проблемы, и вы можете столкнуться с отсутствием информации.

Laitis

Laitis быстро устанавливается, следует просто запустить инсталлятор и установка пройдет в фоновом режиме без вмешательств пользователя. В наличии больший список уже запрограммированных команд и выражений:

Все списки готовых фраз находятся в вкладке «Команды».

В данном окне все действия разделены на подгруппы, которые относятся к определенному приложению или действию. Но и подгруппы содержат в себе категории, в которых уже прописаны сами команды.

При выборе команды всплывает диалоговое окно, в который находятся все варианты голосовых команд, которые действуют в этом приложении. Редактировать их можно нажав на эмблему карандаша.

При необходимости можно создать новые команды, нажав на значок «+» в отведенных для этого местах.

Для добавления новой голосовой команды нужно в открывшемся окне «Голосовые команды» записать выражение, которое будет активировать действие.

В пункте «Условие» следует выбрать, когда это действие может быть активно. Также указать вид задачи «Действие» или «Веб-действие». После заверешения добавления нажать «Сохранить изменения».

Команда будет добавлена.

«Алиса»

Разработка российской компании Яндекс, приложение обучается наблюдая за действиями пользователя. Для настройки «Алисы» выполняем следующий алгоритм:

После установки программы для голосового управления компьютером, на «Панели инструментов» появится область поиска «Алиса». Для его запуска нужно произнести в микрофон «Привет, Алиса».

Приложение откроется и будет ждать дальнейших указаний, чтоб узнать все доступные команды нужно нажать по вопросительному знаку в открывшемся окне.

Станет активна панель с действиями программы. Чтоб узнать нужную фразу для запуска действия нужно выбрать интересующую команду. При запуске откроется список голосовых команд, которые выполняют действия. Стоит заметить, что Алиса не имеет возможности добавления голосовых команд.

Как прошить телефон или смартфон, используя программу SP Flash Tool

Cortana для Windows 10

Виртуальный помощник, который взаимодействует с пользователем и помогает ему собирать конкретную информацию. Присутствует возможность самообучения, предугадывание запросов и требований пользователя. Для поиска помощник использует поисковую систему Bing. Иногда приложение может поговорить с пользователем и даже пошутить. Единственным весомым минусом может являться поддержка малого количества языков.

Роль запуска Cortana берет на себя Пуск, который открывает поиск. Функция распознает большинство запросов, те же которые не были корректно поняты можно ввести в строку поиска приложения вручную.

Доступ к помощнику происходит при помощи функции поиска, находящейся на панели задач. Активировать поиск можно вводом текста или произнеся фразу голосом. Cortana откроется в окне и отобразит на главной страницу данные об интересах и увлечениях пользователя.

Она выполнит любую просьбу или команду. Рекомендуется начинать работу с Cortana просто заведя с ней диалог, после такого общения приложение обучается и больше узнает о предпочтениях.

Присутствует функция добавления своего имени, которое программа будет использовать при обращении к пользователю. Тут же можно указать места, которые являются «домашними, рабочими либо любыми другими». На основе местоположения помощник будет эффективнее подбирать сводку новостей и информацию о погоде поблизости.

Cortana также имеет функции напоминаний, которые имеют глубокую сортировку по времени, местоположению или человеку.

Присутствует и синхронизация с предустановленными программами Windows, например, Microsoft Edge. К примеру можно просто выделить интересующее пользователя слово или словосочетание и помощник найдет в своем отдельном окне всю информацию о них.

Часть II. Как это устроено?

Из опубликованных материалов о программе «Vocal Joystick» было известно, что работает она следующим образом:

Нарезка звукового потока на кадры по 25 миллисекунд с перехлёстом по 10 миллисекунд

Получение 13 кепстральных коэффициентов (MFCC) для каждого кадра

Проверка того, что произносится один из 6 запомненных звуков (4 гласных и 2 согласных) при помощи многослойного персептрона (MLP)

Воплощение найденных звуков в движение/щелчки мыши

Первая задача примечательна лишь тем, что для её решения в реальном времени пришлось вводить в программу три дополнительных потока, так как считывание данных с микрофона, обработка звука, проигрывание звука через звуковую карту происходят асинхронно.
Последняя задача просто реализуется при помощи функции SendInput.

Наибольший же интерес, мне кажется, представляют вторая и третья задачи. Итак.

Задача №2. Получение 13 кепстральных коэффициентов

Если кто не в теме – основная проблема узнавания звуков компьютером заключается в следующем: трудно сравнить два звука, так как две непохожие по очертанию звуковые волны могут звучать похоже с точки зрения человеческого восприятия.
И среди тех, кто занимается распознаванием речи, идёт поиск «философского камня» — набора признаков, которые бы однозначно классифицировали звуковую волну.

Из тех признаков, что доступны широкой публике и описаны в учебниках, наибольшее распространение получили так называемые мел-частотные кепстральные коэффициенты (MFCC).

История их такова, что изначально они предназначались совсем для другого, а именно, для подавления эха в сигнале (познавательную статью на эту тему написали уважаемые Оппенгейм и Шафер, да пребудет радость в домах этих благородных мужей. См. A. V. Oppenheim and R.W. Schafer, “From Frequency to Quefrency: A History of the Cepstrum”).

Но человек устроен так, что он склонен использовать то, что ему лучше знакомо. И тем, кто занимался речевыми сигналами, пришло в голову использовать уже готовое компактное представление сигнала в виде MFCC. Оказалось, что, в общем, работает. (Один мой знакомый, специалист по вентиляционным системам, когда я его спросил, как бы сделать дачную беседку, предложил использовать вентиляционные короба. Просто потому, что их он знал лучше других строительных материалов).

Являются ли MFCC хорошим классификатором для звуков? Я бы не сказал. Один и тот же звук, произнесённый мною в разные микрофоны, попадает в разные области пространства MFCC-коэффициентов, а идеальный классификатор нарисовал бы их рядом. Поэтому, в частности, при смене микрофона вы должны заново обучать программу.

Это всего лишь одна из проекций 13-мерного пространства MFCC в 3-мерное, но и на ней видно, что я имею в виду – красные, фиолетовые и синие точки получены от разных микрофонов: (Plantronix, встроенный массив микрофонов, Jabra), но звук произносился один.

Однако, поскольку ничего лучшего я предложить не могу, также воспользуюсь стандартной методикой – вычислением MFCC-коэффициентов.

Чтобы не ошибиться в реализации, в первых версиях программы в качестве основы был использован код из хорошо известной программы CMU Sphinx, точнее, её реализации на языке C, именующейся pocketsphinx, разработанной в Университете Карнеги-Меллона (мир с ними обоими! (с) Хоттабыч).

Исходные коды pocketsphinx открыты, да вот незадача – если вы их используете, то должны в своей программе (как в исходниках, так и в исполняемом модуле) прописать текст, содержащий, в том числе, следующее:

* This work was supported in part by funding from the Defense Advanced * Research Projects Agency and the National Science Foundation of the * United States of America, and the CMU Sphinx Speech Consortium. Мне это показалось неприемлемым, и пришлось код переписать. Это сказалось на быстродействии программы (в лучшую сторону, кстати, хотя «читабельность» кода несколько пострадала). Во многом благодаря использованию библиотек “Intel Performance Primitives”, но и сам кое-что оптимизировал, вроде MEL-фильтра. Тем не менее, проверка на тестовых данных показала, что получаемые MFCC-коэффициенты полностью аналогичны тем, что получаются при помощи, например, утилиты sphinx_fe.

В программах sphinxbase вычисление MFCC-коэффициентов производится следующими шагами:

ШагФункция sphinxbaseСуть операции 1fe_pre_emphasisИз текущего отсчёта вычитается большая часть предыдущего отсчета (например, 0.97 от его значения). Примитивный фильтр, отбрасывающий нижние частоты. 2fe_hamming_windowОкно Хемминга – вносит затухание в начале и конце кадра 3fe_fft_realБыстрое преобразование Фурье 4fe_spec2magnitudeИз обычного спектра получаем спектр мощности, теряя фазу 5fe_mel_specГруппируем частоты спектра [например, 256 штук] в 40 кучек, используя MEL-шкалу и весовые коэффициенты 6fe_mel_cepБерём логарифм и применяем DCT2-преобразование к 40 значениям из предыдущего шага. Оставляем первые 13 значений результата. Есть несколько вариантов DCT2 (HTK, legacy, классический), отличающихся константой, на которую мы делим полученные коэффициенты, и особой константой для нулевого коэффициента. Можно выбрать любой вариант, сути это не изменит.

В эти шаги ещё вклиниваются функции, которые позволяют отделить сигнал от шума и от тишины, типа fe_track_snr, fe_vad_hangover, но нам они не нужны, и отвлекаться на них не будем.
Были выполнены следующие замены для шагов по получению MFCC-коэффициентов:

ШагФункция sphinxbaseПеределка 1fe_pre_emphasiscas_pre_emphasis (через frame -= frame * pre_emphasis_alpha;) 2fe_hamming_windowfor(i=0;i buf_in*=(0.53836-0.46164*cos(2*3.14159*i/(MM_SOUND_BUFFER_LEN-1))); 3fe_fft_realippsDFTFwd_RToCCS_32f 4fe_spec2magnitudefor(i=0;i<=DFT_SIZE/2;i++) buf_ipp=buf_ipp[i*2]*buf_ipp[i*2]+buf_ipp[i*2+1]*buf_ipp[i*2+1]; 5fe_mel_speccas_mel_spec (через предрасчитанную таблицу) 6fe_mel_cepCS_mel_cep (через логарифм + ippsDCTFwd_32f_I)

Что же дальше? У нас есть вектор 13-мерного пространства. Как определить, к какому звуку он относится?

Горыныч

Голосовой помощник, который принимает запросы пользователя для поиска информации и также работает с программами и приложениями в самой операционной системе. Ввод информации может производиться текстом и голосом. Горыныч имеет следующий функционал – поиск в интернете, работа с текстовыми файлами, запуск приложений, ввод текста, добавление новых слов в словарь программы.

Iobit Driver Booster 3 – лучшая программа для автоматического обновления драйверов

Siri на компьютер

Siri — голосовой ассистент, работающий на устройствах от компании Apple: iOS, iPhone, iPad и iPod touch и ноутбуках с macOS Sierra. На «яблочных» гаджетах Сири установлена по умолчанию, все что вам необходимо — активировать ее в настройках устройства.

С помощью эмулятора можно установить на Windows 7-10, размер файла 79 Мб. Программа преобразовывает речь человека, впоследствии давая пользователю рекомендации. Американский ассистент может выполнять простые команды, подобно другим. Отлично «понимает» русскую речь. Для работы необходимо подключение к интернету.

Так же читают:

Яндекс Алиса голосовой помощник
Алиса и Сири: сравнение
Как настроить Алису для Windows

Не нашли ответ, пишите в комментарии или обратную связь.

Speechka

Удобное и бесплатное приложения для управления Windows при помощи голоса. Присутствует поддержка русского языка. Speechka настраивается под запуск программ, папок, плееров, документов и многого другого. Имеет легкий в настройке интерфейс. Активация приложения осуществляется клавишами или голосом.

Добавление голосового управления происходит следующим методом: в открытом окне приложения выбрать для чего программируется голосовая команда, добавить текст команды и URL ресурса (либо путь к программе), который она должна открыть. После остается нажать клавишу «Добавить».

Рубрикановости

7 лучших плагинов таймера обратного отсчета для WordPress

Какой формат у ibooks. IBooks: книги для iPhone, делаем и читаем. Какие есть форматы электронных книг