IOSWhisperManager [1.15.1]

Введение

IOSWhisperManager — это специализированная программа, созданная отделом информатизации Иркутского областного суда для преобразования аудиозаписей судебных заседаний в текстовый формат (txt и docx). Опубликована с разрешения правообладателя.

Несмотря на то, что модуль для сборки нейросети Faster-Whisper-XXL разработан для судебной системы РФ, его можно использовать и в бытовых целях, отказавшись от некоторых функций.

Минимальные системные требования

ОС Windows 7 (последняя доступная версия Faster-Whisper-XXL R192.3.4);
8 GB оперативной памяти (пробовали, работает);
Процессор любой — особых требований к CPU у Faster-Whisper нет;
MS Office не ниже 2010 (сохранение результата в файл DOCX);
Наличие GPU с поддержкой СUDA будет преимуществом;
Наличие установленной сборки нейросети Faster-Whisper-XXL.

Нейросеть Whisper может работать как на CPU, так и на GPU. По умолчанию программа автоматически выбирает GPU при наличии совместимой видеокарты.

Возможности модуля

Это упрощённое описание возможностей модуля, в котором опущены или упрощены части, касающиеся специализированных возможностей.
1. Режим интеграции с Суд-инфо (при включённой вкладке "Аудиопротоколы").
2. Режим распознавания из локальных и сетевых папок.

Модуль позволяет распознавать все типы аудиофайлов, указанных в строке параметров (по умолчанию это файлы *.mp3; *.PRO; *.aac; *.wav; *.wma; *.ogg; *.m4a, но могут быть указаны и другие). В состав модуля включён файл ffmpeg для предварительной обработки аудио при конвертации PRO-файлов Фемиды

Также доступно распознавание PRO файлов АПК Фемиды. При распознавании PRO-файлов программа сначала склеивает и микширует все микрофоны в один mp3-файл, сохраняет его в папке оригинала и распознает штатным способом.

Режим обработки папок:

в данном режиме модуль проверяет указанные в настройках папки в том порядке, в каком они идут в листинге (т.е. сначала будет полностью обработана первая папка, потом вторая и т.д.);
находит файлы (в указанных расширениях) и производит их распознавание, с сохранением результата в ту же папку;
если результат уже есть, то повторная обработка не происходит;
если необходимо использовать альтернативные настройки распознавания, имя файла должно содержать символы «##»;
пользователь самостоятельно следит за папкой и забирает оттуда распознанные записи, дополняет новыми при необходимости.

Результат работы

В результате работы модуля пользователь получает два файла: TXT-файл, содержащий исходный текст с таймкодами без обработки, и DOCX-файл — отформатированную версию, готовую для использования.

В DOCX-файле:

из текста вырезаны таймкоды;
фразы сформированы в предложения;
каждое предложение оформлено в отдельный абзац;
лишние переносы строки убраны.
формат текста по умолчанию: шрифт Times New Roman, размер 12, красная строка (всё это можно изменить в шаблоне templ1.dotx);
Из текста вырезаны «слова-паразиты», которые регулярно вставляются без учета контекста, хотя их нет на аудио. Эти слова перечислены в файле "bugWords.lst" и могут быть отредактированы вручную через блокнот. После формирования текста он проходит постобработку с целью замены слов из этого списка.

Прочее

Пошаговая инструкция по настройке модуля и нейросети для работы подробно описана в соответствующей теме.
Выражаем благодарность @HotBeer за содействие в получении разрешения на публикацию.

Реакции: merc-hog, HotBeer, Sandor и ещё 1 человек

IOSWhisperManager 1.15.1

Введение

Минимальные системные требования

Возможности модуля

Режим обработки папок:

Результат работы

Прочее

Оценки

Другие ресурсы пользователя akok

Поделиться ресурсом

Последние обновления

Что нового в 1.15.1

IOSWhisperManager 1.15.1

Введение​

Минимальные системные требования​

Возможности модуля​

Режим обработки папок: ​

Результат работы​

Прочее​

Оценки

Другие ресурсы пользователя akok

Поделиться ресурсом

Последние обновления

Что нового в 1.15.1

Введение

Минимальные системные требования

Возможности модуля

Режим обработки папок:

Результат работы

Прочее