Проект Whisper — это удобное локальное приложение для работы с моделями Whisper, включая Faster-Whisper. Оно разработано для пользователей Windows и позволяет выполнять автоматическое распознавание речи без необходимости обращаться к облачным сервисам.
Распознать можно файлы следующих форматов: .mp3, .PRO, .aac, .wav, .wma, .ogg, .m4a. При необходимости можно добавить поддержку других типов файлов.
1. Последнюю сборку нейросети Faster-Whisper-XXL (в процессе подготовки я использовал версию Faster-Whisper-XXL_r245.2_windows.7z).
2. Модуль распознавания аудиопротоколов IOSWhisperManager (подробное описание доступно на странице скачивания).
Рекомендуется использовать одну папку для программ, что упростит процесс настройки распознавания. Для ускорения процесса распознавания аудиофайлов также рекомендуется использовать SSD-диск.
Структура папок, которую я создавал для подготовки этой инструкции. Вы можете использовать любую удобную для вас структуру папок.
- audio_rec
-- Faster-Whisper-XXL - собственно сама сборка нейросети
-- IOSWhisperManager v.1.12 - модуль распознавания аудиопротоколов
-- audio - папка, куда будем копировать аудиофайлы для распознавания.
Количество папок для распознавания можно создать неограниченное количество.
1. Запустите IOSWhisperManage.exe из папки IOSWhisperManager v.1.12
2. Укажите путь к папке, где будут храниться аудиофайлы для распознавания (нажав + в соответствующем поле)
3. В открывшемся окне программы нажмите на поле "Адрес исполняемого файла Faster-Whisper-XXL", после чего откроется проводник, в котором выберите путь к файлу. Получившийся адрес должен выглядеть так:
4. Укажите тип сохраняемого протокола: только Word или txt + Word.
TXT-файл является исходным файлом с тайм-кодами каждой фразы без обработки, а для DOCX-файла используется постобработка:
6. Нажмите на кнопку "Сохранить настройки", иначе изменения не будут применены.
На этом этапе программа готова к использованию.
При первом запуске автоматически будет скачана модель, указанная в настройках (описание того, как сменить модель и в чём они отличаются, приведено ниже).
2. После завершения распознавания текста прозвучит специальный сигнал и в папке audio будут созданы файлы с результатами распознавания.
*Может и будет отличаться в зависимости от возможностей вашего ПК
Список моделей не ограничивается этим списком, с полным списком можно ознакомится здесь.
Для запуска распознавания при помощи альтернативной модели достаточно добавить к имени файла символы "##"
Если активировать пункт «Обработка аудио FFmpeg перед распознаванием», то к исходному файлу будут применены следующие параметры: -af atempo=0.75 -q:a 1. В команде FFmpeg эти параметры означают следующее:
Оглавление
- Системные требования.
- Процесс подготовки к настройке.
- Настройка IOSWhisperManager
- Процесс распознавания аудиофайла
Системные требования
Обратите внимание, что это минимальные системные требования, на которых можно запустить распознавание, однако высокая скорость и качество распознавания не гарантируются.- ОС Windows 7 (поддержка завершена после версии R192.3.4)
- 8 GB оперативной памяти;
- CPU любой;
- MS Office не ниже 2010 (сохранение результата в файл формата docx).
- Наличие видеокарты Nvidia с СUDA будет преимуществом.
Распознать можно файлы следующих форматов: .mp3, .PRO, .aac, .wav, .wma, .ogg, .m4a. При необходимости можно добавить поддержку других типов файлов.
Процесс подготовки
Для начала нам понадобится скачать следующие программы:1. Последнюю сборку нейросети Faster-Whisper-XXL (в процессе подготовки я использовал версию Faster-Whisper-XXL_r245.2_windows.7z).
2. Модуль распознавания аудиопротоколов IOSWhisperManager (подробное описание доступно на странице скачивания).
Рекомендуется использовать одну папку для программ, что упростит процесс настройки распознавания. Для ускорения процесса распознавания аудиофайлов также рекомендуется использовать SSD-диск.
Структура папок, которую я создавал для подготовки этой инструкции. Вы можете использовать любую удобную для вас структуру папок.
- audio_rec
-- Faster-Whisper-XXL - собственно сама сборка нейросети
-- IOSWhisperManager v.1.12 - модуль распознавания аудиопротоколов
-- audio - папка, куда будем копировать аудиофайлы для распознавания.
Количество папок для распознавания можно создать неограниченное количество.
Настройка IOSWhisperManager
После создания папок и распаковки файлов приступим к настройке.1. Запустите IOSWhisperManage.exe из папки IOSWhisperManager v.1.12
2. Укажите путь к папке, где будут храниться аудиофайлы для распознавания (нажав + в соответствующем поле)
3. В открывшемся окне программы нажмите на поле "Адрес исполняемого файла Faster-Whisper-XXL", после чего откроется проводник, в котором выберите путь к файлу. Получившийся адрес должен выглядеть так:
4. Укажите тип сохраняемого протокола: только Word или txt + Word.
TXT-файл является исходным файлом с тайм-кодами каждой фразы без обработки, а для DOCX-файла используется постобработка:
- Из текста вырезаны тайм-коды;
- фразы сформированы в предложения. Каждое предложение оформлено в отдельный абзац. Лишние переносы строки убраны.
- формат текста по умолчанию: шрифт Times New Roman, размер 12, красная строка (это все можно менять в шаблоне templ1.dotx).
- из текста удалены «слова-паразиты», которые программа регулярно вставляет куда попало, хотя их нет в аудиозаписи; эти слова, представленные списком, содержатся в файле "bugWords.lst" и могут быть изменены вручную через Блокнот. Слова из этого списка будут исключены из текста в DOCX-файле.
- После формирования текста происходит его постобработка с целью замены специфических фраз из файла phraseReplacement.txt.
6. Нажмите на кнопку "Сохранить настройки", иначе изменения не будут применены.
На этом этапе программа готова к использованию.
Процесс распознавания аудиофайла
1. Для запуска распознавания скопируйте файл в папку «audio» и нажмите на кнопку "Запустить распознавание"При первом запуске автоматически будет скачана модель, указанная в настройках (описание того, как сменить модель и в чём они отличаются, приведено ниже).
2. После завершения распознавания текста прозвучит специальный сигнал и в папке audio будут созданы файлы с результатами распознавания.
Дополнительные настройки
В этом разделе я опишу дополнительные настройки которые не обязательны в применении, но рекомендуются для изучения.Изменение модели распознавания
Предустановленная модель large-v3-turbo оптимально сочетает скорость и качество распознавания речи. Она предлагает высокую производительность при минимальной потере точности, что делает её идеальным выбором для большинства задач. Однако для повышения качества распознавания можно переключиться на более точные модели, такие как large-v3 или large-v2. Это приведет к улучшению результатов, но также снизит скорость обработки в зависимости от характеристик вашего оборудования.Модель | Параметры | Описание | Значение поля "Параметры распознавания аудио" | Время распознавания в минутах* |
---|---|---|---|---|
large-v3-turbo | 809 миллионов параметров | Оптимизированная версия large-v3 с более высокой скоростью обработки (в 6 раз быстрее, чем large-v2 ) при минимальной потере точности. | -l ru --model large-v3-turbo --compute_type int8_float32 --temperature 0.0001 --max_initial_timestamp 0.001 | 4 |
large-v3 | 1,54 миллиарда параметров | Оригинальная модель Whisper с высоким качеством распознавания речи, но требует много ресурсов. | -l ru --model large-v3 --compute_type int8_float32 --temperature 0.0001 --max_initial_timestamp 0.001 | 21 |
large-v2 | 1,55 миллиарда параметров | Предшествующая модель. Отличается хорошим соотношением скорости и точности. | -l ru --model large-v2 --compute_type int8_float32 --temperature 0.0001 --max_initial_timestamp 0.001 | 8 |
*Может и будет отличаться в зависимости от возможностей вашего ПК
Список моделей не ограничивается этим списком, с полным списком можно ознакомится здесь.
Изменить язык распознавания
Для того, чтобы изменить язык распознавания текста, необходимо модифицировать параметры запуска нейросети, заменив -l ru на любой поддерживаемый моделью язык, например -l uk для распознавания украинского.Сокращение | Полное наименование | Строка для параметра запуска модели |
---|---|---|
af | Afrikaans | -l af |
am | Amharic | -l am |
ar | Arabic | -l ar |
as | Assamese | -l as |
az | Azerbaijani | -l az |
ba | Bashkir | -l ba |
be | Belarusian | -l be |
bg | Bulgarian | -l bg |
bn | Bengali | -l bn |
bo | Burmese | -l bo |
br | Breton | -l br |
bs | Bosnian | -l bs |
ca | Catalan | -l ca |
cs | Czech | -l cs |
cy | Welsh | -l cy |
da | Danish | -l da |
de | German | -l de |
el | Greek | -l el |
en | English | -l en |
es | Spanish | -l es |
et | Estonian | -l et |
eu | Basque | -l eu |
fa | Persian | -l fa |
fi | Finnish | -l fi |
fo | Faroese | -l fo |
fr | French | -l fr |
gl | Galician | -l gl |
gu | Gujarati | -l gu |
ha | Hausa | -l ha |
haw | Hawaiian | -l haw |
he | Hebrew | -l he |
hi | Hindi | -l hi |
hr | Croatian | -l hr |
ht | Haitian Creole | -l ht |
hu | Hungarian | -l hu |
hy | Armenian | -l hy |
id | Indonesian | -l id |
is | Icelandic | -l is |
it | Italian | -l it |
ja | Japanese | -l ja |
jw | Javanese | -l jw |
ka | Georgian | -l ka |
kk | Kazakh | -l kk |
km | Khmer | -l km |
kn | Kannada | -l kn |
ko | Korean | -l ko |
la | Latin | -l la |
lb | Luxembourgish | -l lb |
ln | Lingala | -l ln |
lo | Lao | -l lo |
lt | Lithuanian | -l lt |
lv | Latvian | -l lv |
mg | Malagasy | -l mg |
mi | Maori | -l mi |
mk | Macedonian | -l mk |
ml | Malayalam | -l ml |
mn | Mongolian | -l mn |
mr | Marathi | -l mr |
ms | Malay | -l ms |
mt | Maltese | -l mt |
my | Myanmar | -l my |
ne | Nepali | -l ne |
nl | Dutch | -l nl |
nn | Nynorsk | -l nn |
no | Norwegian | -l no |
oc | Occitan | -l oc |
pa | Punjabi | -l pa |
pl | Polish | -l pl |
ps | Pashto | -l ps |
pt | Portuguese | -l pt |
ro | Romanian | -l ro |
ru | Russian | -l ru |
sa | Sanskrit | -l sa |
sd | Sindhi | -l sd |
si | Sinhala | -l si |
sk | Slovak | -l sk |
sl | Slovenian | -l sl |
sn | Shona | -l sn |
so | Somali | -l so |
sq | Albanian | -l sq |
sr | Serbian | -l sr |
su | Sundanese | -l su |
sv | Swedish | -l sv |
sw | Swahili | -l sw |
ta | Tamil | -l ta |
te | Telugu | -l te |
tg | Tajik | -l tg |
th | Thai | -l th |
tk | Turkmen | -l tk |
tl | Tagalog | -l tl |
tr | Turkish | -l tr |
tt | Tatar | -l tt |
uk | Ukrainian | -l uk |
ur | Urdu | -l ur |
uz | Uzbek | -l uz |
vi | Vietnamese | -l vi |
yi | Yiddish | -l yi |
yo | Yoruba | -l yo |
yue | Cantonese | -l yue |
zh | Chinese | -l zh |
Использование альтернативной модели
IOSWhisperManager поддерживает запуск распознавания с использованием альтернативных настроек, что удобно, если для определённых файлов требуются свои параметры распознавания. Для изменения настроек необходимо внести коррективы в поле "Альтернативные параметры распознавания аудио".Параметр | Основные настройки | Альтернативные настройки | Описание параметра |
---|---|---|---|
-l | ru | ru | Задает язык распознавания (в данном случае — русский). |
--model | large-v3-turbo | large-v3-turbo | Определяет используемую модель для обработки аудио. |
--compute_type | int8_float32 | (отсутствует) | Оптимизация вычислений путем комбинирования целых чисел (int8 ) и float32 . |
--temperature | 0.0001 | 0.01 | Контролирует случайные отклонения при выборе гипотез; чем ниже, тем стабильнее. |
--max_initial_timestamp | 0.001 | 0.001 | Ограничивает начальную временную метку для лучшей синхронизации с аудиотреком. |
--ff_speechnorm | (отсутствует) | Включён | Активирует фильтрацию и нормализацию речи для повышения качества распознавания. |
--ff_loudnorm | (отсутствует) | Включён | Включает дополнительную нормализацию громкости для выравнивания уровня звука. |
Для запуска распознавания при помощи альтернативной модели достаточно добавить к имени файла символы "##"
Дополнительная обработка аудио файла перед распознаванием
У модуля распознавания добавлен FFmpeg, для предварительной обработки аудио перед распознаваниемЕсли активировать пункт «Обработка аудио FFmpeg перед распознаванием», то к исходному файлу будут применены следующие параметры: -af atempo=0.75 -q:a 1. В команде FFmpeg эти параметры означают следующее:
- -af atempo=0.75: аудиофильтр, который изменяет темп аудио без изменения высоты тона. Данное значение замедляет скорость воспроизведения на 25%. Допустимые значения для atempo — от 0.5 (в два раза медленнее) до 2.0 (в два раза быстрее).
- -q:a 1: Управляет качеством выходного аудио при кодировании. Значение 1 обычно обеспечивает высокое качество. Чем ближе значение к 0, тем выше качество и больший размер файла.
Журнал работы
В закладке "Журнал работы" фиксируются все этапы выполнения распознавания, в том числе сообщения о возникших ошибках. Также лог записывается в файл WorkLog.log, расположенный в папке с программой.
Последнее редактирование: