JavaScript отключён. Чтобы полноценно использовать наш сайт, включите JavaScript в своём браузере.

IOSWhisperManager 1.18.14

Скачать

Автор akok
Дата создания 2 Фев 2025
Теги

whisper

Обзор Обновления (2) История Обсуждение

Что нового 1.18.14 (24.06.2025).

8 Июл 2025

1. Подобран новый промпт, который работает на модели Large-v3-turbo (в 1,5 раза быстрее чем Large V2). Промпт практически полностью избавляет модель от заиканий (повторении одной фразы на целый абзац). На практике находит прилично больше слов чем модели V2 с аналогичными настройками.

Теперь промпт по умолчанию: «-l ru --model large-v3-turbo --compute_type int8_float32 --sentence -prompt default --vad_method pyannote_v3 --temperature 0.01 --max_initial_timestamp 0.001 --repetition_penalty=1.1 --hallucination_silence_threshold 4 --no_repeat_ngram_size 2.

Альтернативным вариантом настроек выбран промпт, который ранее был основным: -l ru --model large-v2 --compute_type=int8_float16 --sentence -prompt default --vad_method pyannote_v3 --temperature 0.0001 --max_initial_timestamp 0.001 (модель Large-V2 не входит в комплект для скачивания)

Правда с новым промптом он стал работать более топорно что-ли, что слышит, то и переводить, не додумывая, поэтому скорее всего он стал меньше галлюцинировать, но стал писать менее грамотно, например, судебное заседание, или апельсионная жалоба и т.д. Иногда вставляет внутрь слова английские буквы с транслитерацией, например пишет "прокuрор". Т.е. ошибок внутри слов он стал делать больше. Для исправления этого добавлен функционал п.2.

Теперь промпт по умолчанию будет работать и на CPU из коробки.

2. Добавлена возможность выполнения средствами Word автоматической проверки орфографии в итоговом файле с принятием всех предлагаемых Word изменений (выбор первого варианта из предложенных). Позволяет избавиться от значительно количества простых ошибок, однако иногда может заменять на слова, которые не подходят по смыслу. Кроме того, данная функция вычищает все символы не русского или английского алфавита. По умолчанию эти опция включена, но можно выключить в настройках. Так же в связи с этим в программу добавлен файл GoodWords.lst, содержащий список слов, которые не нужно заменять средствами WORD (например он слово "майнинга" заменял на "май Инга". Причем добавление слова в словарь Word'а не дает эффекта при проверке орфографии через OLE (интерфейс взаимодействия с Word из внешней программы) оно все-равно выходит, как ошибка. Чтобы этого избежать и создан данный список.

3. Добавлена настройка не заменять автоматически при проверке орфографии слова, начинающиеся с большой буквы (чтобы не исправлял фамилии).

4. Добавлен не сохраняемый параметр "замены в лог". Если он включен в журнал работы будут выведены все слова, замененные при помощи проверки орфографии в Word. Какое слова (в контексте двух слов до и двух слов после) на какое было заменено. Это сделано для удобства поиска и формирования своего листа автозамен.

5. В контекстное меню на в журнале работе при включенной галочке "Интеграция с Суд-инфо" добавлен пункт "Снять статус ошибка за последние 3 дня". Он позволяет снимать статусы ошибок с записей, распознание которых по каким-то причинам завершилось с ошибкой (статус 4).

6. Добавлен вывод в лога номера дела, по которому идет распознавание в режиме интеграции с Суд-инфо.

7. Поля параметров распознавания заменены на Memo (теперь видно весь текст промпта).

Внимание: Ваш используемый в программе промпт при установке данной версии будет заменен на новый по умолчанию.

8. К полям параметров добавлены кнопки "По умолчанию", которые возвращают настройки распознавания по умолчанию для данной версии Модуля.

9. Исправлена ошибка при сохранении файлов на СХД (в режиме интеграции с суд-инфо) если стояла галочка предобработки файла, но не стояла галочка двойного распознавания.

10. Сделано разделение списка фраз автозамены на файла2. Остался список phraseReplacement.txt (он и был раньше), дополнительно появился список phraseReplacementLocal.txt. Он предназначен для хранения фраз замены, составляемых локально по месту использования модуля, в том числе для фраз регионального характера, название городов, районов, улиц и т.д.

*В дальнейших обновлениях обновляться будет только основной список автозамены. Если вы ведете локальный список, то он не будет затираться с обновлением, соответственно можно вести его самостоятельно не боясь его потерять. В лог будет выводиться количество произведенных замен по обоим списка отдельно. В папке с модулем пустой файл локальных автозамен будет называться phraseReplacementLocal-.txt, чтобы начать его использовать нужно убрать знак минуса в конце (применять его не обязательно, но при должном усердии его составления, он может существенно улучшить финальный результат распознавания).

11. Существенно дополнен список автозамен до ~1300 строк.

12. Оснастка FasterWhisperXXL обновлена до актуальной версии 245.4. В архиве представлена с моделью V3-turbo. Если нужна модель V2, то качать самостоятельно (если компьютер, на котором установлен модуль подключен к интернету, то модель V2 сама скачается при первом обращении к ней).

Что нового в 1.15.1

17 Апр 2025

1.15.1 (31.03.2025).

1.Исправлена ошибка неопределения путей к файлам при щелчке на тексте журнала работы, если журнал большой.

*Если эта функция вами не использовалась, то можно не обновляться.

1.15 (30.03.2025)

1. На форуме разработчика Faster-Whisper подсмотрен промпт, рекомендованный им для распознавания именно русской речи. Теперь он встроен в программу по умолчанию ("-l ru --model large-v2 --compute_type=int8_float16 --sentence -prompt default --vad_method pyannote_v3 --temperature 0.0001 --max_initial_timestamp 0.001").

В нем рекомендована использовать модель Large-V2, другой метод расчета и особый механизм определения тишины.

По предварительным оценкам, распознавание с этим промптом стало значительно лучше. А главное позволило существенно (процентов на 80-90%) сократить случаи "заиканий" нейросети в результатах распознавания.

Пришлось вернуться на модель Large-V2, т.к. в V3 в этом плане показал себя хуже, поэтому модель для скачивания заменена на V2 по умолчанию.

2. Существенно расширен список автозамен с 350 до 800 строк, что тоже значительно повлияло на конечный результат распознавания в некоторых случаях.

3. Для проверки работы механизма автозамен во вкладке "журнал работы" снизу появилась галочка "сохранять файлы результатов".

Данная опция позволяет сохранять в папке Logs\ReplacementLogs\ файлы txt с идентичным названию файла аудиозаписи. В данном файле будут содержаться количество сделанных автозамен по каждой из заменяемых фраз, что позволяет объективно оценить эффективность работы данного механизма. Галочка не сохраняется (т.е. сбрасывается после перезапуска программы), предназначена для точечных экспериментальных целей.

4. В журнал работы модуля теперь выводит общее количество сделанных автозамен из справочника.

5. В журнале работы модуля теперь можно щелкнуть на путь к интересующему файлу, и его (либо папку где он располагается) можно будет открыть при помощи кнопок внизу окна, или при помощи контекстного меню. Таким образом теперь можно гораздо более удобно анализировать работу модуля и результаты распознавания.

6. В журнал работы модуля добавлена возможность поиска по ключевым фразам (ввод фразы вверху окна, после ввода нажать Enter).

7. Убран перенос строки после слов "млн.", "тыс.", "т.е.";

8. В папку модели Whisperа помещен файл Help.txt, в котором перечислены возможный команды работы нейросети (на английском).

*Важно: 1. Если вы обновляете модуль (т.е. у вас уже есть свои настройки, т.е. файл Settings.ini), то они не сбросятся, однако и новый промпт не будет применен.

Если хотите использовать новый промпт, вставьте его вручную (размещен в п.1. данного обновления), либо сделайте чистую установку (в другую папку), тогда настройки применяется по-умолчанию.

2. Если у вас есть свой лист автозамен (особенно региональных), то сохраните его (файл phraseReplacement.txt) перед обновлением

(т.к. он будет заменен на новый).

1.13 (12.03.2025)

1. Добавлен параметр "Режим работы". В нем на выбор "Распознавание ИИ" или "Преобразование PRO файлов в Mp3".

Если выбран второй режим модуль только будет обрабатывать указанные в настройках папки на предмет наличия Pro файлов и преобразовывать их в Mp3 файлы без запуска процесса распознавания. В этом случае будут скрыты все не относящиеся к делу настройки.
Также сохранена опциональная возможность проводить постобработки полученного Mp3 файла после склейки Pro файла, по умолчанию команда "-af volume=15dB" позволяющая добавить 15 децибел к уровню громкости (можно ставить другие команды постобработки при помощи библиотеки ffmpeg, возможности библиотеки большие).

Если хочется наблюдать за процессом, то снимите галку «Скрытая конвертация» тогда будет видно процесс обработки файлов (окна cmd).

B еще один момент, если например вы знаете что какая-то дорожка (микрофон) не нужен (например он шумит), то его можно удалить из папки c wav файлами. Название файла каждой дорожки начинается на какую-то цифру. Там можно найти ненужный микрофон и удалить все записи этого канала, тогда склейка пройдет без этого микрофона и качество записи может улучшиться (обязательно надо удалять все файлы канала, т.к. иначе склейка не пройдет).

2. Расширен файл автозамен phraseReplacement.txt (если вы его заполняли сами, например региональным переменными, убедитесь что ваш вариант файла сохранен перед заменой).