Смартфон, фас! Используем голосовое управление на полную катушку
20.11.2020Typle
Typle позволяет использовать голосовое управление компьютером. Присутствует возможность запуска программ, открытия интернет ресурсов или документов используя голосовое управление. Программа имеет довольно легкий интерфейс и русскую версию. Для работы желательно иметь хороший микрофон, без шумов и с работой в широких частотах. Скачать Typle можно с официального сайта.
Настройка приложения:
Now on Tap
Описанию этого сервиса было уделено отдельное пристальное внимание на презентации Android 6.0 Marshmallow. И преподносился он как одна из основных особенностей новой прошивки. Но более-менее нормальную функциональность в России мы получили только в декабре. В официальном русском переводе он называется контекст от Now.
Как это работает? «Когда вы запускаете контекст от Now, Google анализирует все, что вы видите на экране, и ищет информацию в соответствии с этими данными» — вот официальное описание со страницы поддержки.
На деле это значит, что вместо того, чтобы выделять и копировать интересующие фразы на экране, затем открывать поиск и вставлять фразу, можно просто нажать и удерживать кнопку «Домой». После этого Google предложит варианты для найденных ключевых фраз. Это могут быть картинки, видео, предложение открыть это место на картах, новости. Может предложить открыть сайт организации или сделать звонок, открыть профиль Facebook или посмотреть Twitter-аккаунт знаменитостей, добавить заметку. При наличии соответствующих приложений на устройстве после тапа на иконке страница откроется сразу внутри приложения. При прослушивании музыки из разных приложений можно одним нажатием вызвать подробную информацию об исполнителях, альбомах, клипах на YouTube и прочем.
Работа Now on Tap на примере «ВКонтакте»
Так же как и в десктопной версии поиска, в голосовом поиске есть пасхалки. Приведу только несколько команд, остальные можете узнать по этой ссылке. К сожалению, почти все они срабатывают только на английском языке и с английским интерфейсом или при выбранном в настройках только английском языке.
«Do a barrel roll». «Make me a sandwich!» «Sudo make me a sandwich!» «When am I?» «Beam me up, Scotty!» «Up up down down left right left right». «What does the fox say?»
Speaker
Приложение предельно простое для пользователя. Предназначено для голосового управления компьютером Windows 7, 8, 10. Утилита является незаметной для пользователя, работает в фоне и активируется нажатием на среднюю кнопку мыши и кнопку Ctrl. Speaker позволяет юзеру при помощи голосовых команд проводить различные действия с файлами, менять языковую раскладку, перезагружать или выключать компьютер (ПК). Интерфейс удобен и минималистичен, свертывается программа в системный трей. Для настройки утилиты придерживаемся следующего алгоритма:
Программы для сканирования документов
Голосовое управление Андроид
Голосовое управление Андроид – это инновационная технология, с помощью которой можно управлять устройством без лишних манипуляций, а только голосом. Эта функция находится в стадии активного развития и усовершенствования.
Ok, Google на Андроид, даёт возможность более эффективно использовать устройство. Голосом можно выполнять много функций и получать качественный результат. К примеру, искать необходимую информацию, включать/выключать приложения и даже набирать текст. На сегодняшний день данная разработка не идеальна и включает в себя различные недоработки.
Также Ok, Google имеет расширение – Google Assistant. Более подробно читайте в нашей статье – Что такое Google Assistant и как он работает.
Все команды, которые возможно осуществить с помощью голосового управления делятся на две группы.
А именно:
Но к сожалению, есть и некоторые ограничения в работе голосового управления. Иногда на невостребованные запросы вы не сможете получить информацию. Например, вас интересует расписание сеансов в кинотеатрах Киева, и вы без проблем получите ответ, а вот если вы зададите тот же запрос, но уже касательно менее крупного города, то тут могут возникнуть проблемы, и вы можете столкнуться с отсутствием информации.
Laitis
Laitis быстро устанавливается, следует просто запустить инсталлятор и установка пройдет в фоновом режиме без вмешательств пользователя. В наличии больший список уже запрограммированных команд и выражений:
«Алиса»
Разработка российской компании Яндекс, приложение обучается наблюдая за действиями пользователя. Для настройки «Алисы» выполняем следующий алгоритм:
Как прошить телефон или смартфон, используя программу SP Flash Tool
Cortana для Windows 10
Виртуальный помощник, который взаимодействует с пользователем и помогает ему собирать конкретную информацию. Присутствует возможность самообучения, предугадывание запросов и требований пользователя. Для поиска помощник использует поисковую систему Bing. Иногда приложение может поговорить с пользователем и даже пошутить. Единственным весомым минусом может являться поддержка малого количества языков.
Роль запуска Cortana берет на себя Пуск, который открывает поиск. Функция распознает большинство запросов, те же которые не были корректно поняты можно ввести в строку поиска приложения вручную.
Доступ к помощнику происходит при помощи функции поиска, находящейся на панели задач. Активировать поиск можно вводом текста или произнеся фразу голосом. Cortana откроется в окне и отобразит на главной страницу данные об интересах и увлечениях пользователя.
Она выполнит любую просьбу или команду. Рекомендуется начинать работу с Cortana просто заведя с ней диалог, после такого общения приложение обучается и больше узнает о предпочтениях.
Присутствует функция добавления своего имени, которое программа будет использовать при обращении к пользователю. Тут же можно указать места, которые являются «домашними, рабочими либо любыми другими». На основе местоположения помощник будет эффективнее подбирать сводку новостей и информацию о погоде поблизости.
Cortana также имеет функции напоминаний, которые имеют глубокую сортировку по времени, местоположению или человеку.
Присутствует и синхронизация с предустановленными программами Windows, например, Microsoft Edge. К примеру можно просто выделить интересующее пользователя слово или словосочетание и помощник найдет в своем отдельном окне всю информацию о них.
Часть II. Как это устроено?
Из опубликованных материалов о программе «Vocal Joystick» было известно, что работает она следующим образом:
Первая задача примечательна лишь тем, что для её решения в реальном времени пришлось вводить в программу три дополнительных потока, так как считывание данных с микрофона, обработка звука, проигрывание звука через звуковую карту происходят асинхронно.
Последняя задача просто реализуется при помощи функции SendInput.
Наибольший же интерес, мне кажется, представляют вторая и третья задачи. Итак.
Задача №2. Получение 13 кепстральных коэффициентов
Если кто не в теме – основная проблема узнавания звуков компьютером заключается в следующем: трудно сравнить два звука, так как две непохожие по очертанию звуковые волны могут звучать похоже с точки зрения человеческого восприятия.
И среди тех, кто занимается распознаванием речи, идёт поиск «философского камня» — набора признаков, которые бы однозначно классифицировали звуковую волну.
Из тех признаков, что доступны широкой публике и описаны в учебниках, наибольшее распространение получили так называемые мел-частотные кепстральные коэффициенты (MFCC).
История их такова, что изначально они предназначались совсем для другого, а именно, для подавления эха в сигнале (познавательную статью на эту тему написали уважаемые Оппенгейм и Шафер, да пребудет радость в домах этих благородных мужей. См. A. V. Oppenheim and R.W. Schafer, “From Frequency to Quefrency: A History of the Cepstrum”).
Но человек устроен так, что он склонен использовать то, что ему лучше знакомо. И тем, кто занимался речевыми сигналами, пришло в голову использовать уже готовое компактное представление сигнала в виде MFCC. Оказалось, что, в общем, работает. (Один мой знакомый, специалист по вентиляционным системам, когда я его спросил, как бы сделать дачную беседку, предложил использовать вентиляционные короба. Просто потому, что их он знал лучше других строительных материалов).
Являются ли MFCC хорошим классификатором для звуков? Я бы не сказал. Один и тот же звук, произнесённый мною в разные микрофоны, попадает в разные области пространства MFCC-коэффициентов, а идеальный классификатор нарисовал бы их рядом. Поэтому, в частности, при смене микрофона вы должны заново обучать программу.
Это всего лишь одна из проекций 13-мерного пространства MFCC в 3-мерное, но и на ней видно, что я имею в виду – красные, фиолетовые и синие точки получены от разных микрофонов: (Plantronix, встроенный массив микрофонов, Jabra), но звук произносился один.
Однако, поскольку ничего лучшего я предложить не могу, также воспользуюсь стандартной методикой – вычислением MFCC-коэффициентов.
Чтобы не ошибиться в реализации, в первых версиях программы в качестве основы был использован код из хорошо известной программы CMU Sphinx, точнее, её реализации на языке C, именующейся pocketsphinx, разработанной в Университете Карнеги-Меллона (мир с ними обоими! (с) Хоттабыч).
Исходные коды pocketsphinx открыты, да вот незадача – если вы их используете, то должны в своей программе (как в исходниках, так и в исполняемом модуле) прописать текст, содержащий, в том числе, следующее:
* This work was supported in part by funding from the Defense Advanced * Research Projects Agency and the National Science Foundation of the * United States of America, and the CMU Sphinx Speech Consortium. Мне это показалось неприемлемым, и пришлось код переписать. Это сказалось на быстродействии программы (в лучшую сторону, кстати, хотя «читабельность» кода несколько пострадала). Во многом благодаря использованию библиотек “Intel Performance Primitives”, но и сам кое-что оптимизировал, вроде MEL-фильтра. Тем не менее, проверка на тестовых данных показала, что получаемые MFCC-коэффициенты полностью аналогичны тем, что получаются при помощи, например, утилиты sphinx_fe.
В программах sphinxbase вычисление MFCC-коэффициентов производится следующими шагами:
В эти шаги ещё вклиниваются функции, которые позволяют отделить сигнал от шума и от тишины, типа fe_track_snr, fe_vad_hangover, но нам они не нужны, и отвлекаться на них не будем.
Были выполнены следующие замены для шагов по получению MFCC-коэффициентов:
Что же дальше? У нас есть вектор 13-мерного пространства. Как определить, к какому звуку он относится?
Горыныч
Голосовой помощник, который принимает запросы пользователя для поиска информации и также работает с программами и приложениями в самой операционной системе. Ввод информации может производиться текстом и голосом. Горыныч имеет следующий функционал – поиск в интернете, работа с текстовыми файлами, запуск приложений, ввод текста, добавление новых слов в словарь программы.
Iobit Driver Booster 3 – лучшая программа для автоматического обновления драйверов
Siri на компьютер
Siri — голосовой ассистент, работающий на устройствах от компании Apple: iOS, iPhone, iPad и iPod touch и ноутбуках с macOS Sierra. На «яблочных» гаджетах Сири установлена по умолчанию, все что вам необходимо — активировать ее в настройках устройства.
С помощью эмулятора можно установить на Windows 7-10, размер файла 79 Мб. Программа преобразовывает речь человека, впоследствии давая пользователю рекомендации. Американский ассистент может выполнять простые команды, подобно другим. Отлично «понимает» русскую речь. Для работы необходимо подключение к интернету.
Так же читают:
- Яндекс Алиса голосовой помощник
- Алиса и Сири: сравнение
- Как настроить Алису для Windows
Не нашли ответ, пишите в комментарии или обратную связь.
Speechka
Удобное и бесплатное приложения для управления Windows при помощи голоса. Присутствует поддержка русского языка. Speechka настраивается под запуск программ, папок, плееров, документов и многого другого. Имеет легкий в настройке интерфейс. Активация приложения осуществляется клавишами или голосом.
Добавление голосового управления происходит следующим методом: в открытом окне приложения выбрать для чего программируется голосовая команда, добавить текст команды и URL ресурса (либо путь к программе), который она должна открыть. После остается нажать клавишу «Добавить».