Ни одна программа не сможет полностью заменить ручную работу по расшифровке записанной речи. Однако существуют решения, которые позволяют существенно ускорить и облегчить перевод речи в текст, то есть, упростить транскрибацию.

Транскрибация – это запись аудио или видео-файла в текстовом виде. Есть в интернете оплачиваемые платные задания, когда за транскрибацию текста исполнителю выплачивается некоторая сумма денег.

Перевод речи в текст полезен

  • студентам для перевода записанных аудио- или видео-лекций в текст,
  • блогерам, ведущим сайты и блоги,
  • писателям, журналистам для написания книг и текстов,
  • инфобизнесменам, которым нужен текст после проведенного ими вебинара, выступления и т.д.,
  • людям, которым сложно печатать – они могут надиктовать письмо и послать его родным или близким,
  • другие варианты.

Опишем наиболее эффективные инструменты, доступные на ПК, мобильные приложения и онлайн-сервисы.

1 Сайт speechpad.ru

Это онлайн-сервис, который позволяет через браузер Google Chrome переводить речь в текст. Сервис работает с микрофоном и с готовыми файлами. Конечно, качество будет значительно выше, если использовать внешний микрофон и диктовать самому. Однако сервис неплохо справляется даже с видеороликами на YouTube.

Нажимаем «Включить запись», отвечаем на вопрос про «Использование микрофона» – для этого кликаем «Разрешить».

Длинную инструкцию про использование сервиса можно свернуть, нажав на кнопку 1 на рис. 3. От рекламы можно избавиться, пройдя несложную регистрацию.

Рис. 3. Сервис speechpad

Готовый результат легко редактируется. Для этого нужно либо вручную исправить выделенное слово, либо надиктовать его заново. Результаты работы сохраняются в личном кабинете, их также можно скачать на свой компьютер.

Список видео-уроков по работе с speechpad:

Можно транскрибировать видео с Youtube или со своего компьютера, правда, понадобится микшер, подробнее:

Видео «транскрибирование аудио»

Работает сервис с семью языками. Есть небольшой минус. Он заключается в том, что если нужно транскрибировать готовый аудио-файл, то его звучание раздаётся в колонки, что создает дополнительные помехи в виде эха.

2 Сервис dictation.io

Замечательный онлайн-сервис, который позволит бесплатно и легко переводить речь в текст.

Рис. 4. Сервис dictation.io

1 на рис. 4 – русский язык можно выбрать в конце страницы. В браузере Google Chrome язык выбирается, а в Мозилле почему-то нет такой возможности.

Примечательно то, что реализована возможность автосохранять готовый результат. Это убережет от случайного удаления в результате закрытия вкладки или браузера. Готовые файлы этот сервис не распознает. Работает с микрофоном. Нужно называть знаки препинания, когда производите диктовку.

Текст распознается достаточно корректно, орфографических ошибок нет. Можно самостоятельно вставлять знаки препинания с клавиатуры. Готовый результат можно сохранить на своем компьютере.

3 RealSpeaker

Эта программа позволяет легко переводить человеческую речь в текст. Она предназначена для работы в разных системах: Windows, Android, Linux, Mac. С ее помощью можно преобразовывать речь, звучащую в микрофон (например, он может быть встроен в ноутбук), а также записанную в аудиофайлы.

Может воспринимать 13 языков мира. Существует бета-версия программы, которая работает в режиме онлайн-сервиса:

Нужно перейти по указанной выше ссылке, выбрать русский язык, загрузить на онлайн-сервис свой аудио- или видео-файл и оплатить его транскрибацию. После транскрибации можно будет скопировать полученный текст. Чем больше файл для транскрибации, чем больше времени понадобится на его обработку, подробнее:

В 2017-ом году был бесплатный вариант транскрибации с помощью RealSpeaker, в 2018-ом году такой возможности нет. Сильно смущает тот момент, что транскрибированный файл доступен всем пользователям для скачивания, возможно это будет доработано.

Контакты разработчика (ВКонтакте, Facebook, Youtube, Твиттер, электронная почта, телефон) программы можно найти на странице его сайта (точнее, в подвале сайта):

4 Speechlogger

Альтернатива предыдущему приложению для мобильных устройств, работающих на Android. Доступно бесплатно в магазине приложений:

Текст редактируется автоматически, в нем расставляются знаки препинания. Очень удобно для того, чтобы надиктовывать себе заметки или составлять списки. В результате текст получится весьма достойного качества.

5 Dragon Dictation

Это приложение, которое распространяется бесплатно для мобильных устройств от компании Apple.

Программа может работать с 15 языками. Она позволяет редактировать результат, выбирать из списка нужные слова. Нужно четко проговаривать все звуки, не делать лишних пауз и избегать интонации. Иногда возникают ошибки в окончаниях слов.

Приложение Dragon Dictation используют обладатели , например, чтобы, перемещаясь по квартире, надиктовать список покупок в магазине. Приду туда, можно будет посмотреть на текст в заметке, и не надо слушать.

Какую бы программу Вы ни использовали в своей практике, будьте готовы перепроверять результат и вносить определенные коррективы. Только так можно получить безукоризненный текст без ошибок.

Также полезные сервисы:

Получайте актуальные статьи по компьютерной грамотности прямо на ваш почтовый ящик .
Уже более 3.000 подписчиков

.

Windows Vista - первая ОС от Microsoft, в котороую встроена возможность распознавания речи. Используя эту функцию, Вы можете выполнять голосом различные задачи, такие как запуск программ, закрытия, сохранения и удаления файлов, диктовать текст, который будет дословно записан, а также его редактировать. Деб Шиндер (Deb Shinder), IT консультант, подробно расскажет вам, как пользоваться этой функцией.

Ещё со времён выхода фильма Стар Трек (Star Trek) многие компьютерные пользователи мечтали выкинуть клавиатуры, мышки и голосом контролировать свой компьютер. Программы, которые позволяли говорить разные команды, диктовать текст компьютеру - делали в течение многих лет и были очень полезны тем, кто физически не был в состоянии использовать другие методы ввода. Но почему-то эти программы не были популярны.

Windows Vista - первая операционная система от Microsoft, которая может распознавать речь. Ранее функция распознавания речи присутствовала в Microsoft Office XP и Office 2003, также можно было использовать программы других разработчиков, например Dragon NaturallySpeaking. Ещё Microsoft добавила функцию распознавание речи в Windows Mobile.

Чтобы начать разговаривать с компьютером, вам не придётся ничего дополнительно покупать, в Vista уже всё есть для этого. По умолчанию функция выключена, но вы без труда сможете её запустить в Панели управления (Control Panel), как показано на Рисунке A.

Также вы можете запустить эту функцию в меню, выбрав Все Программы | Стандартные | Специальные Возможности (All Programs | Accessories | Ease Of Access), как показано на Рисунке B.

Как это работает

Вы можете выбрать один из двух режимов работы распознавания речи:

  • Для управления программами: Запускать и закрывать программы, переключаться между ними, сохранять и удалять файлы, и так далее.
  • Чтобы диктовать текст, который дословно будет записан, а также редактировать его.

Разработчики софта могут добавлять поддержку этой функции в свои программы. Досадно, что на данный момент распознавание речи поддерживает всего несколько языков: Английский (США и Соединенное Королевство), Немецкий, Французский, Испанский, Японский и Китайский (традиционный и упрощенный).

Настройка распознавания речи

Прежде чем вы сможете использовать распознавание речи, вам придётся выполнить следующие шаги:

  • Включите распознавание речи.
  • Настроить микрофон.
  • Прочитать руководство (не обязательно).
  • Потренироваться четко, говорить (тоже не обязательно).

После двойного щелчка на Распознавание Речи (Speech Recognition) в Панеле управления (Control Panel) или выбора Распознавание Речи в меню, перед вами откроется окно настройки, которое показано на рисунке Рисунке C.


Когда вы кликните на Start Speech Recognition, на верху вашего экрана появится панель управления голосом, она показана на Рисунке D.


Если у вас уже настроено эта функция, то панелька пропишется в автостарт и будет запускаться при каждой загрузке Windows. Ещё в трее появится синенькая иконка управления голосом.
Вы сможете вызвать контекстное меню для настройки, кликнув правой кнопкой мыши на иконку в трее, либо на панель управления голосом, как показано на Рисунке E.


В меню вы увидите следующие настройки:

  • Включение речи (Turn Speech On): Компьютер будет слушать всё, что вы говорите, и будет выполнять команды, которые распознает.
  • Ждущий режим (Sleep): Компьютер будет следить за вашей речью, но не станет реагировать ни на одну команду, пока вы не скажете "Начать слушать (Start listening)".
  • Выключено (Off): Компьютер вас не слушает, что бы вы ему не говорили.
  • Открыть шпаргалку по распознаванию речи (Open Speech Reference Card): Удобная шпаргалка с основными командами и дополнительной информацией.
  • Начать курс обучения (Start Speech Tutorial): Видеоурок, где вам всё расскажут и покажут.
  • Помощь (Help): Открывает справку, хелп фаил об этой функции.
  • Опции (Options): Здесь вы можете настроить загрузку программы вместе с Windows, автоматическую корректировку текста и т. д.
  • Настройка (Configuration): Здесь вы сможете настроить свой микрофон, улучшить распознавание речи и открыть панель управления.
  • Открыть голосовой словарь (Open The Speech Dictionary): Вы можете добавить новые слова (очень пригодится для имён и слов, сложных для распознавания), также можно будет исключит слова, которые вы никогда не произносите.
  • Тема диктанта (Dictation Topic): Здесь можно выбрать только повествование (Narrative).
  • Посетить сайт (Go To The Speech Recognition Web site).
  • Получить информацию (Get Information About Speech Recognition): Это привычное нам диалоговое окно Windows, в котором написана версия, номер лицензии и название программы.
  • Открыть распознавание речи (Open Speech Recognition).
  • Выйти (Exit): Полностью закрывает программу.

Управление с помощью сенсорного экрана — это уже стандарт. Новейшие системы, такие как Windows 8 «понимают» голосовые команды.Распознавание речи должно привести к тому, что наша связь с компьютером будет еще проще, интуитивнее и… естественнее. Я расскажу как это выглядит на сегодняшний момент.

Немного истории — как развивалось общение с машиной

Способы общения с компьютером развивались на протяжении многих лет. Первым интерфейсом, через который человек мог давать команды были перфокарты, которые восходят к 1832 году. Они использовались в машинах для производства ткани. Клавиатуру же начали использовать в 1960 году. Два десятилетия спустя присоединилась стандартная мышь и используется по сей день. Хотя мышь поделилась полномочиями с трекпадом, но она все еще самый популярный вид управления. Благодаря смарфонам и планшетам стал очень популярным сенсорный интерфейс и жесты, которые используются, в частности,для управление Xbox 360 Kinect. После сенсорных экранов и жестов, идет голосовое управление, но это решение до сих пор было так слаборазвито, что порой о ней и не услышишь.

Настройка распознавания речи в Windows 8

К сожалению, голосовое управление пока не доступно на русском языке. Поддерживаются пока английский, французский, немецкий, японский, корейский, китайсий и испанский языки. Microsoft решила сосредоточиться на крупнейших и наиболее развитых странах, но не исключено, что в течение некоторого времени он добавит эту функции и для нашей страны. Если попробовать запустить, вот так ругается

Если вы все еще хотите протестировать это решение, необходимо настроить систему(изменить язык) и выучить пару слов на английском. Чтобы сделать это, необходимо перейти в панель управления, и выбрать пункт Язык. Если у вас нет другого языка, кроме русского, необходимо нажать кнопку «Добавить язык», а затем выбрать один из поддерживаемых языков. В нашем случае это «Английский (США)». Видим, что доступна только раскладка на этом языке, два раза кликаем, пойдет проверка доступности языка для интерфейса, после проверки нажимаем «Загрузить и установить языковой пакет», и пойдет процесс, терпеливо ждем когда загрузится. Как только этот процесс завершится, установите английский языком по умолчанию

Теперь нужно перейти на начальный экран Windows 8 (плиточный), в поиск ввести «Windows Speech Recognition» и нажать Enter.

Таким образом, вы можете запустить инструмент распознавания голоса. При первом запуске он предложит настроить микрофон, после выбора, что нибудь скажите, чтобы проверить.

Далее предложить пройти обучающие уроки. Они длятся до 15-20 минут, но очень полезны и содержат основные сведения об использовании функций. Но если вы в английском не сильны, я думаю не стоит тратить время, трудно будет что-либо разобрать, сразу в бой

Как работать

Для того чтобы компьютер начал распознавать вашу речь необходимо сказать «start listening» (что означает начать слушать), или нажмите кнопку микрофона для запуска режима прослушивания. Теперь можно открыть приложение или просто диктовать слова в текстовый редактор, строку браузера или поиска

Что мы можем делать

В принципе возможности огромны, кроме стандартных слов можно создавать свои команды. Основные возможности приведены в таблице

Действие Что сказать
Выберите любой элемент по его имени Click File,Start,View
Выберите любой элемент или значок Click Recycle Bin,Click Computer,Click(название файла)
Дважды нажмите или дважды щелкните любой элемент Double-clickRecycle Bin,Double-click Computer
Переключение между открытыми приложениями Switch to Paint,Switch to WordPad

Прокрутка

Scroll up; Scroll down;
Scroll left; Scroll right

Включить новый пункт или новую строку в документе

New paragraph; New line

Выберите слово в документе

Корректировка слова

Correct word

Выберите и удалите определенные слова

Показать перечень применимых команд

Refresh speech commands

Включите режим прослушивания

Отключите режим прослушивания

Свернуть микрофон

Minimize speech recognition

Посмотреть Windows, справки и поддержку

How do I do something?
Например:How do I install a printer?

Если вы не знаете, как произносится фраза, я предлагаю вам использовать Google Translate или http://училочка.рф (этого сайта он лучше понимал)

Было у меня желание записать свои команды состоящих из простых буржуйских слов. Которые я могу выговорить. Так он мне и не дал этого сделать, не сумел запустить редактор команд. В итоге он отлично понимал мое произношение слов One, Two и Open. Этим набором можно запустить приложение по номеру в начальном экране. Сначала сказать номер, потом сказать OPEN. Не густо конечно, но я считаю эксперимент удавшимся. Было бы не плохо, если бы Microsoft ввел русский язык, хорошая замена пульту дистанционного управления.

im пытается создать динамический распознаватель речи, но по какой-то причине он не работает. Я попытался использовать функцию emulaterecognize, и приложение работает нормально, но это не работает, когда я говорю. это означает, что список слов правильно добавлен, а речевое распознанное событие функционирует правильно, но оно никогда не вызывается без emulaterecognize. любая помощь будет оценена по достоинству. Ниже приведен код im.

Using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Forms; using System.Speech; using System.Speech.Recognition; namespace HotKeyApp { public partial class Form1: Form { //initialize speech recognizer SpeechRecognitionEngine sre = new SpeechRecognitionEngine(new System.Globalization.CultureInfo("en-US")); //initialize grammer builder GrammarBuilder gb = new GrammarBuilder(); //choices will contain the words from the first column Choices jargon = new Choices(); //words will contain the array to give choices string words; //A speech recognition grammar is a set of rules or constraints that define what a speech recognition engine can recognize as meaningful input. Grammar g; private int columns = 2; private int rows; Dictionary HotKeys = new Dictionary(); public Form1() { InitializeComponent(); } private void Form1_Load(object sender, EventArgs e) { } private void SpeechRecognized(object sender, SpeechRecognizedEventArgs e) { MessageBox.Show("ping"); //to implement loop through the words array if the match call approporaite method for (int i = 0; i < words.Length; i++) { if (e.Result.Text == words[i]) { MessageBox.Show(words[i]); } } } private void btnCreate_Click(object sender, EventArgs e) { //get number of rows/words rows = Convert.ToInt32(txtNum.Text); //words length is equal to number of rows words = new string; GenerateTable(columns, rows); } private void GenerateTable(int columnCount, int rowCount) { //Clear out the existing row and column styles myGridView.Rows.Clear(); myGridView.Columns.Clear(); myGridView.Columns.Add("WordColumn", "Word"); myGridView.Columns.Add("HotKeyColumn", "HotKey"); //loop as many times as need to create the rows for (int y = 0; y < rowCount; y++) { myGridView.Rows.Add(); } } private void btnSubmit_Click(object sender, EventArgs e) { int i = 0; foreach (DataGridViewRow r in myGridView.Rows) { string Instructions = r.Cells.Value.ToString(); string Command = r.Cells.Value.ToString(); HotKeys.Add(Instructions, Command); words[i] = Instructions; i++; } //give jargon the words array jargon.Add(words); //give the grammer builder the jargon choices gb.Append(jargon); //build grammer, load grammer, enable voice recognition g = new Grammar(gb); sre.RequestRecognizerUpdate(); sre.LoadGrammarAsync(g); sre.SpeechRecognized += new EventHandler(SpeechRecognized); //set sre to use default audio device sre.SetInputToDefaultAudioDevice(); sre.RecognizeAsync(RecognizeMode.Multiple); MessageBox.Show("Recognition enabled"); //Register a handler for the SpeechRecognized event. //sre.EmulateRecognize("Hello"); } } }

попытался преобразовать его в консольное приложение и его работу, но мне нужно это в приложении форм Windows. вот код консоли:

Class Program { static SpeechRecognitionEngine sre; //words will contain the array to give choices static string words; static void Main(string args) { //initialize speech recognizer sre = new SpeechRecognitionEngine(new System.Globalization.CultureInfo("en-US")); //initialize grammer builder GrammarBuilder gb = new GrammarBuilder(); //choices will contain the words from the first column Choices jargon = new Choices(); //A speech recognition grammar is a set of rules or constraints that define what a speech recognition engine can recognize as meaningful input. Grammar g; string input; Console.WriteLine("Input words seperated by comma ,"); input = Console.ReadLine(); words = input.Split(new char { "," }, StringSplitOptions.RemoveEmptyEntries); foreach (string s in words) { Console.WriteLine(s); } Console.ReadKey(); //give jargon the words array jargon.Add(words); //give the grammer builder the jargon choices gb.Append(jargon); //build grammer, load grammer, enable voice recognition g = new Grammar(gb); sre.RequestRecognizerUpdate(); sre.LoadGrammarAsync(g); //set sre to use default audio device sre.SetInputToDefaultAudioDevice(); sre.SpeechRecognized += new EventHandler(SpeechRecognized); sre.RecognizeAsync(RecognizeMode.Multiple); Console.ReadLine(); } static void SpeechRecognized(object sender, SpeechRecognizedEventArgs e) { Console.WriteLine("Recognized Word"); //to implement loop through the words array if the match call approporaite method for (int i = 0; i < words.Length; i++) { if (e.Result.Text == words[i]) { Console.WriteLine(words[i]); } } } }