1. Подобран новый промпт, который работает на модели Large-v3-turbo (в 1,5 раза быстрее чем Large V2). Промпт практически полностью избавляет модель от заиканий (повторении одной фразы на целый абзац). На практике находит прилично больше слов чем модели V2 с аналогичными настройками.
Теперь промпт по умолчанию: «-l ru --model large-v3-turbo --compute_type int8_float32 --sentence -prompt default --vad_method pyannote_v3 --temperature 0.01 --max_initial_timestamp 0.001 --repetition_penalty=1.1 --hallucination_silence_threshold 4 --no_repeat_ngram_size 2.
Альтернативным вариантом настроек выбран промпт, который ранее был основным: -l ru --model large-v2 --compute_type=int8_float16 --sentence -prompt default --vad_method pyannote_v3 --temperature 0.0001 --max_initial_timestamp 0.001 (модель Large-V2 не входит в комплект для скачивания)
Правда с новым промптом он стал работать более топорно что-ли, что слышит, то и переводить, не додумывая, поэтому скорее всего он стал меньше галлюцинировать, но стал писать менее грамотно, например, судебное заседание, или апельсионная жалоба и т.д. Иногда вставляет внутрь слова английские буквы с транслитерацией, например пишет "прокuрор". Т.е. ошибок внутри слов он стал делать больше. Для исправления этого добавлен функционал п.2.
Теперь промпт по умолчанию будет работать и на CPU из коробки.
2. Добавлена возможность выполнения средствами Word автоматической проверки орфографии в итоговом файле с принятием всех предлагаемых Word изменений (выбор первого варианта из предложенных). Позволяет избавиться от значительно количества простых ошибок, однако иногда может заменять на слова, которые не подходят по смыслу. Кроме того, данная функция вычищает все символы не русского или английского алфавита. По умолчанию эти опция включена, но можно выключить в настройках. Так же в связи с этим в программу добавлен файл GoodWords.lst, содержащий список слов, которые не нужно заменять средствами WORD (например он слово "майнинга" заменял на "май Инга". Причем добавление слова в словарь Word'а не дает эффекта при проверке орфографии через OLE (интерфейс взаимодействия с Word из внешней программы) оно все-равно выходит, как ошибка. Чтобы этого избежать и создан данный список.
3. Добавлена настройка не заменять автоматически при проверке орфографии слова, начинающиеся с большой буквы (чтобы не исправлял фамилии).
4. Добавлен не сохраняемый параметр "замены в лог". Если он включен в журнал работы будут выведены все слова, замененные при помощи проверки орфографии в Word. Какое слова (в контексте двух слов до и двух слов после) на какое было заменено. Это сделано для удобства поиска и формирования своего листа автозамен.
5. В контекстное меню на в журнале работе при включенной галочке "Интеграция с Суд-инфо" добавлен пункт "Снять статус ошибка за последние 3 дня". Он позволяет снимать статусы ошибок с записей, распознание которых по каким-то причинам завершилось с ошибкой (статус 4).
6. Добавлен вывод в лога номера дела, по которому идет распознавание в режиме интеграции с Суд-инфо.
7. Поля параметров распознавания заменены на Memo (теперь видно весь текст промпта).
Внимание: Ваш используемый в программе промпт при установке данной версии будет заменен на новый по умолчанию.
8. К полям параметров добавлены кнопки "По умолчанию", которые возвращают настройки распознавания по умолчанию для данной версии Модуля.
9. Исправлена ошибка при сохранении файлов на СХД (в режиме интеграции с суд-инфо) если стояла галочка предобработки файла, но не стояла галочка двойного распознавания.
10. Сделано разделение списка фраз автозамены на файла2. Остался список phraseReplacement.txt (он и был раньше), дополнительно появился список phraseReplacementLocal.txt. Он предназначен для хранения фраз замены, составляемых локально по месту использования модуля, в том числе для фраз регионального характера, название городов, районов, улиц и т.д.
*В дальнейших обновлениях обновляться будет только основной список автозамены. Если вы ведете локальный список, то он не будет затираться с обновлением, соответственно можно вести его самостоятельно не боясь его потерять. В лог будет выводиться количество произведенных замен по обоим списка отдельно. В папке с модулем пустой файл локальных автозамен будет называться phraseReplacementLocal-.txt, чтобы начать его использовать нужно убрать знак минуса в конце (применять его не обязательно, но при должном усердии его составления, он может существенно улучшить финальный результат распознавания).
11. Существенно дополнен список автозамен до ~1300 строк.
12. Оснастка FasterWhisperXXL обновлена до актуальной версии 245.4. В архиве представлена с моделью V3-turbo. Если нужна модель V2, то качать самостоятельно (если компьютер, на котором установлен модуль подключен к интернету, то модель V2 сама скачается при первом обращении к ней).