VibeVoice работает

🚨 Скорее всего, вы ещё не слышали об ИИ от Microsoft, который способен распознавать 60-минутную аудиозапись за один проход.

Потому что большинство подобных инструментов работают так:
Разбивают аудио на маленькие части → обрабатывают каждый фрагмент отдельно → затем снова собирают результат.

На каждом разрезе теряется контекст. Система забывает, кто говорит. Тема разговора распадается.

VibeVoice работает иначе.

Он обрабатывает 60-минутный аудиофайл от начала до конца — за один проход.
Кто говорил. Когда говорил. Что именно сказал. Всё сразу. Не по частям.

Технология, которая делает это возможным, проста, но очень мощна: всего 7,5 токена в секунду. Сверхнизкая скорость обработки.
Благодаря этому 60 минут аудио укладываются в 64 000 токенов. Ничего не теряется. Никто из говорящих не забывается.

Кроме того:
→ Поддержка более 50 языков — не нужно вручную выбирать язык
→ Можно добавить собственный словарь — названия компаний, термины
→ Интеграция с библиотекой Hugging Face Transformers
→ ASR-модель на 7 млрд параметров — уже доступна на Hugging Face

Это open source. Вы можете взять код, доработать его и адаптировать под свои задачи.

На базе VibeVoice уже создан инструмент голосового ввода под названием “Vibing” — он работает на macOS и Windows.

А теперь посмотрите на это в контексте Азербайджана: сколько совещаний до сих пор расшифровываются вручную каждую неделю? Сколько рабочих часов уходит на редактирование каждого часа аудио?

Главный вопрос: какая азербайджанская компания сможет быстрее всех получить пользу от этой технологии? Юридическая сфера? Медицина?

⚠️ Примечание: VibeVoice — это исследовательский проект.
Он требует серьёзных GPU-ресурсов. Перед коммерческим использованием обязательно проведите тщательное тестирование.

Ayaz Dostaliyev

09-Апр-2026 73

ГРУППА КОМПАНИЙ ОПТИМА - iiko АЗЕРБАЙДЖАН

У вас есть вопросы по iiko? Давайте обсудим!

+994 50 380 88 24