Введение
IOSWhisperManager — это специализированная программа, созданная отделом информатизации Иркутского областного суда для преобразования аудиозаписей судебных заседаний в текстовый формат (txt и docx). Опубликована с разрешения правообладателя.Несмотря на то, что модуль для сборки нейросети Faster-Whisper-XXL разработан для судебной системы РФ, его можно использовать и в бытовых целях, отказавшись от некоторых функций.
Минимальные системные требования
- ОС Windows 7 (последняя доступная версия Faster-Whisper-XXL R192.3.4);
- 8 GB оперативной памяти (пробовали, работает);
- Процессор любой — особых требований к CPU у Faster-Whisper нет;
- MS Office не ниже 2010 (сохранение результата в файл DOCX);
- Наличие GPU с поддержкой СUDA будет преимуществом;
- Наличие установленной сборки нейросети Faster-Whisper-XXL.
Возможности модуля
Это упрощённое описание возможностей модуля, в котором опущены или упрощены части, касающиеся специализированных возможностей.1. Режим интеграции с Суд-инфо (при включённой вкладке "Аудиопротоколы").
2. Режим распознавания из локальных и сетевых папок.
Модуль позволяет распознавать все типы аудиофайлов, указанных в строке параметров (по умолчанию это файлы *.mp3; *.PRO; *.aac; *.wav; *.wma; *.ogg; *.m4a, но могут быть указаны и другие). В состав модуля включён файл ffmpeg для предварительной обработки аудио при конвертации PRO-файлов Фемиды
Также доступно распознавание PRO файлов АПК Фемиды. При распознавании PRO-файлов программа сначала склеивает и микширует все микрофоны в один mp3-файл, сохраняет его в папке оригинала и распознает штатным способом.
Режим обработки папок:
- в данном режиме модуль проверяет указанные в настройках папки в том порядке, в каком они идут в листинге (т.е. сначала будет полностью обработана первая папка, потом вторая и т.д.);
- находит файлы (в указанных расширениях) и производит их распознавание, с сохранением результата в ту же папку;
- если результат уже есть, то повторная обработка не происходит;
- если необходимо использовать альтернативные настройки распознавания, имя файла должно содержать символы «##»;
- пользователь самостоятельно следит за папкой и забирает оттуда распознанные записи, дополняет новыми при необходимости.
Результат работы
В результате работы модуля пользователь получает два файла: TXT-файл, содержащий исходный текст с таймкодами без обработки, и DOCX-файл — отформатированную версию, готовую для использования.В DOCX-файле:
- из текста вырезаны таймкоды;
- фразы сформированы в предложения;
- каждое предложение оформлено в отдельный абзац;
- лишние переносы строки убраны.
- формат текста по умолчанию: шрифт Times New Roman, размер 12, красная строка (всё это можно изменить в шаблоне templ1.dotx);
- Из текста вырезаны «слова-паразиты», которые регулярно вставляются без учета контекста, хотя их нет на аудио. Эти слова перечислены в файле "bugWords.lst" и могут быть отредактированы вручную через блокнот. После формирования текста он проходит постобработку с целью замены слов из этого списка.
Прочее
- Пошаговая инструкция по настройке модуля и нейросети для работы подробно описана в соответствующей теме.
- Выражаем благодарность @HotBeer за содействие в получении разрешения на публикацию.