Odyssey перевела генерацию миров в полноценный реалтайм и добавила звук. Их новая модель Starchild-1 умеет авторегрессивно создавать синхронизированное аудио и видео, непрерывно реагируя на потоковый ввод. Если традиционные модели вроде Veo от DeepMind рендерят ролики фиксированной длины в офлайне, здесь среда меняется на лету. Модель учитывает текстовые команды, голос и действия пользователя прямо в процессе генерации.
Синхронизировать картинку и звук в реальном времени сложно из-за разной частоты и плотности информации. На длинной дистанции ошибка в одной модальности быстро ломает весь поток. Для Starchild-1 разработчики собрали пайплайн каузальной дистилляции, который превращает тяжелую foundation-модель в быструю реалтаймовую. В техническом отчете описана асинхронная архитектура KV-cache, специально спроектированная под рассинхрон характеристик аудио и видео при долгом горизонте планирования.
Прошлые алгоритмы Odyssey уже умели выдавать редактируемые сцены при 20 кадрах в секунду, занимая нишу между обычными нейросетями для видео и игровыми движками. Starchild-1 делает следующий шаг к симуляторам физического мира. Окружение, фоновые звуки и физика объектов больше не заперты в жестком сценарии, а развиваются интерактивно в ответ на внешние стимулы.
Поделиться:
Документальный сериал Студии Артемия Лебедева о формировании языка дизайна пространства →
Архитектура Claude Code: реверс-инжиниринг AI-агента от Anthropic →