Перевода аудиозаписей (видео) в текст или генерация субтитров. В специальных форматах
Умеет так же проставлять тайм метки на тексте.
Видео длиной 1,3ч сконвертировано в текст за 13минут (rtx 3050) , качество текста вполне себе!
Что нужно сделать, чтобы попробовать:
- Загрузить Whisper Desktop отсюда: Releases · Const-me/Whisper · GitHub
- Загрузить нужную модель (например
ggml-medium.bin) отсюда: ggerganov/whisper.cpp at main (большие модели у меня не запустились, возможно мало памяти, маловероятно что они заработают у вас, это оптимальная модель) - Запустить Whisper Desktop, открыть в нём модель из п.2, выбрать аудио- или видеофайл для распознавания и нажать кнопку Transcribe