Инструкции Faster-Whisper. Распознавание аудио и сохранение его в текстовом формате

  • Автор темы Автор темы akok
  • Дата начала Дата начала
Пошаговые руководства, рекомендации и подробные объяснения для выполнения задач и решений вопросов.

Переводчик Google

Проект Whisper — это удобное локальное приложение для работы с моделями Whisper, включая Faster-Whisper. Оно разработано для пользователей Windows и позволяет выполнять автоматическое распознавание речи без необходимости обращаться к облачным сервисам.

Оглавление​

Системные требования​

Обратите внимание, что это минимальные системные требования, на которых можно запустить распознавание, однако высокая скорость и качество распознавания не гарантируются.
  • ОС Windows 7 (поддержка завершена после версии R192.3.4)
  • 8 GB оперативной памяти;
  • CPU любой;
  • MS Office не ниже 2010 (сохранение результата в файл формата docx).
  • Наличие видеокарты Nvidia с СUDA будет преимуществом.
Whisper может работать как на CPU, так и на GPU. По умолчанию программа автоматически выбирает GPU при наличии совместимой видеокарты. Если GPU не обнаружен или не поддерживается, будет использоваться CPU для обработки.

Распознать можно файлы следующих форматов: .mp3, .PRO, .aac, .wav, .wma, .ogg, .m4a. При необходимости можно добавить поддержку других типов файлов.

Процесс подготовки​

Для начала нам понадобится скачать следующие программы:
1. Последнюю сборку нейросети Faster-Whisper-XXL (в процессе подготовки я использовал версию Faster-Whisper-XXL_r245.2_windows.7z).
2. Модуль распознавания аудиопротоколов IOSWhisperManager (подробное описание доступно на странице скачивания).

Рекомендуется использовать одну папку для программ, что упростит процесс настройки распознавания. Для ускорения процесса распознавания аудиофайлов также рекомендуется использовать SSD-диск.

Структура папок, которую я создавал для подготовки этой инструкции. Вы можете использовать любую удобную для вас структуру папок.
- audio_rec
-- Faster-Whisper-XXL - собственно сама сборка нейросети
-- IOSWhisperManager v.1.12 - модуль распознавания аудиопротоколов
-- audio - папка, куда будем копировать аудиофайлы для распознавания.
1738332644968.webp


Количество папок для распознавания можно создать неограниченное количество.

Настройка IOSWhisperManager

После создания папок и распаковки файлов приступим к настройке.

1. Запустите IOSWhisperManage.exe из папки IOSWhisperManager v.1.12
1738333725579.webp

2. Укажите путь к папке, где будут храниться аудиофайлы для распознавания (нажав + в соответствующем поле)
1738333855302.webp

3. В открывшемся окне программы нажмите на поле "Адрес исполняемого файла Faster-Whisper-XXL", после чего откроется проводник, в котором выберите путь к файлу. Получившийся адрес должен выглядеть так:
1738333711803.webp


4. Укажите тип сохраняемого протокола: только Word или txt + Word.
1738334569830.webp

TXT-файл является исходным файлом с тайм-кодами каждой фразы без обработки, а для DOCX-файла используется постобработка:
  • Из текста вырезаны тайм-коды;
  • фразы сформированы в предложения. Каждое предложение оформлено в отдельный абзац. Лишние переносы строки убраны.
  • формат текста по умолчанию: шрифт Times New Roman, размер 12, красная строка (это все можно менять в шаблоне templ1.dotx).
  • из текста удалены «слова-паразиты», которые программа регулярно вставляет куда попало, хотя их нет в аудиозаписи; эти слова, представленные списком, содержатся в файле "bugWords.lst" и могут быть изменены вручную через Блокнот. Слова из этого списка будут исключены из текста в DOCX-файле.
  • После формирования текста происходит его постобработка с целью замены специфических фраз из файла phraseReplacement.txt.
5. Опционально: снимите галочку с пункта "Сворачивать трей при закрытии".
6. Нажмите на кнопку "Сохранить настройки", иначе изменения не будут применены.
На этом этапе программа готова к использованию.

Процесс распознавания аудиофайла​

1. Для запуска распознавания скопируйте файл в папку «audio» и нажмите на кнопку "Запустить распознавание"
1738335110596.webp

1738335392090.webp

При первом запуске автоматически будет скачана модель, указанная в настройках (описание того, как сменить модель и в чём они отличаются, приведено ниже).
Процесс скачивания модели


2. После завершения распознавания текста прозвучит специальный сигнал и в папке audio будут созданы файлы с результатами распознавания.
1738335720176.webp


Дополнительные настройки​

В этом разделе я опишу дополнительные настройки которые не обязательны в применении, но рекомендуются для изучения.

Изменение модели распознавания​

Предустановленная модель large-v3-turbo оптимально сочетает скорость и качество распознавания речи. Она предлагает высокую производительность при минимальной потере точности, что делает её идеальным выбором для большинства задач. Однако для повышения качества распознавания можно переключиться на более точные модели, такие как large-v3 или large-v2. Это приведет к улучшению результатов, но также снизит скорость обработки в зависимости от характеристик вашего оборудования.

МодельПараметрыОписаниеЗначение поля "Параметры распознавания аудио"Время распознавания в минутах*
large-v3-turbo809 миллионов параметровОптимизированная версия large-v3 с более высокой скоростью обработки (в 6 раз быстрее, чем large-v2) при минимальной потере точности.-l ru --model large-v3-turbo --compute_type int8_float32 --temperature 0.0001 --max_initial_timestamp 0.0014
large-v31,54 миллиарда параметровОригинальная модель Whisper с высоким качеством распознавания речи, но требует много ресурсов.-l ru --model large-v3 --compute_type int8_float32 --temperature 0.0001 --max_initial_timestamp 0.00121
large-v21,55 миллиарда параметровПредшествующая модель. Отличается хорошим соотношением скорости и точности.-l ru --model large-v2 --compute_type int8_float32 --temperature 0.0001 --max_initial_timestamp 0.0018

*Может и будет отличаться в зависимости от возможностей вашего ПК

Список моделей не ограничивается этим списком, с полным списком можно ознакомится здесь.

Изменить язык распознавания​

Для того, чтобы изменить язык распознавания текста, необходимо модифицировать параметры запуска нейросети, заменив -l ru на любой поддерживаемый моделью язык, например -l uk для распознавания украинского.

СокращениеПолное наименованиеСтрока для параметра запуска модели
afAfrikaans-l af
amAmharic-l am
arArabic-l ar
asAssamese-l as
azAzerbaijani-l az
baBashkir-l ba
beBelarusian-l be
bgBulgarian-l bg
bnBengali-l bn
boBurmese-l bo
brBreton-l br
bsBosnian-l bs
caCatalan-l ca
csCzech-l cs
cyWelsh-l cy
daDanish-l da
deGerman-l de
elGreek-l el
enEnglish-l en
esSpanish-l es
etEstonian-l et
euBasque-l eu
faPersian-l fa
fiFinnish-l fi
foFaroese-l fo
frFrench-l fr
glGalician-l gl
guGujarati-l gu
haHausa-l ha
hawHawaiian-l haw
heHebrew-l he
hiHindi-l hi
hrCroatian-l hr
htHaitian Creole-l ht
huHungarian-l hu
hyArmenian-l hy
idIndonesian-l id
isIcelandic-l is
itItalian-l it
jaJapanese-l ja
jwJavanese-l jw
kaGeorgian-l ka
kkKazakh-l kk
kmKhmer-l km
knKannada-l kn
koKorean-l ko
laLatin-l la
lbLuxembourgish-l lb
lnLingala-l ln
loLao-l lo
ltLithuanian-l lt
lvLatvian-l lv
mgMalagasy-l mg
miMaori-l mi
mkMacedonian-l mk
mlMalayalam-l ml
mnMongolian-l mn
mrMarathi-l mr
msMalay-l ms
mtMaltese-l mt
myMyanmar-l my
neNepali-l ne
nlDutch-l nl
nnNynorsk-l nn
noNorwegian-l no
ocOccitan-l oc
paPunjabi-l pa
plPolish-l pl
psPashto-l ps
ptPortuguese-l pt
roRomanian-l ro
ruRussian-l ru
saSanskrit-l sa
sdSindhi-l sd
siSinhala-l si
skSlovak-l sk
slSlovenian-l sl
snShona-l sn
soSomali-l so
sqAlbanian-l sq
srSerbian-l sr
suSundanese-l su
svSwedish-l sv
swSwahili-l sw
taTamil-l ta
teTelugu-l te
tgTajik-l tg
thThai-l th
tkTurkmen-l tk
tlTagalog-l tl
trTurkish-l tr
ttTatar-l tt
ukUkrainian-l uk
urUrdu-l ur
uzUzbek-l uz
viVietnamese-l vi
yiYiddish-l yi
yoYoruba-l yo
yueCantonese-l yue
zhChinese-l zh

Использование альтернативной модели​

IOSWhisperManager поддерживает запуск распознавания с использованием альтернативных настроек, что удобно, если для определённых файлов требуются свои параметры распознавания. Для изменения настроек необходимо внести коррективы в поле "Альтернативные параметры распознавания аудио".

ПараметрОсновные настройкиАльтернативные настройкиОписание параметра
-lruruЗадает язык распознавания (в данном случае — русский).
--modellarge-v3-turbolarge-v3-turboОпределяет используемую модель для обработки аудио.
--compute_typeint8_float32(отсутствует)Оптимизация вычислений путем комбинирования целых чисел (int8) и float32.
--temperature0.00010.01Контролирует случайные отклонения при выборе гипотез; чем ниже, тем стабильнее.
--max_initial_timestamp0.0010.001Ограничивает начальную временную метку для лучшей синхронизации с аудиотреком.
--ff_speechnorm(отсутствует)ВключёнАктивирует фильтрацию и нормализацию речи для повышения качества распознавания.
--ff_loudnorm(отсутствует)ВключёнВключает дополнительную нормализацию громкости для выравнивания уровня звука.

Для запуска распознавания при помощи альтернативной модели достаточно добавить к имени файла символы "##"

Дополнительная обработка аудио файла перед распознаванием​

У модуля распознавания добавлен FFmpeg, для предварительной обработки аудио перед распознаванием
1738415105607.webp


Если активировать пункт «Обработка аудио FFmpeg перед распознаванием», то к исходному файлу будут применены следующие параметры: -af atempo=0.75 -q:a 1. В команде FFmpeg эти параметры означают следующее:
  • -af atempo=0.75: аудиофильтр, который изменяет темп аудио без изменения высоты тона. Данное значение замедляет скорость воспроизведения на 25%. Допустимые значения для atempo — от 0.5 (в два раза медленнее) до 2.0 (в два раза быстрее).
  • -q:a 1: Управляет качеством выходного аудио при кодировании. Значение 1 обычно обеспечивает высокое качество. Чем ближе значение к 0, тем выше качество и больший размер файла.
Если выбрать пункт "Двойное распознавание, выбрать лучший вариант", то сначала будет распознан оригинальный файл, а затем — с постобработкой; из двух вариантов будет выбран тот, в котором окажется больше символов.

Журнал работы​

В закладке "Журнал работы" фиксируются все этапы выполнения распознавания, в том числе сообщения о возникших ошибках. Также лог записывается в файл WorkLog.log, расположенный в папке с программой.
 
Последнее редактирование:
Назад
Сверху Снизу