ЗДЕСЬ WTF logo
odyssey.ml

Odyssey выпустила Starchild-1 — интерактивную модель мира с синхронной генерацией аудио и видео в реальном времени

36голосов
от overfit

Odyssey перевела генерацию миров в полноценный реалтайм и добавила звук. Их новая модель Starchild-1 умеет авторегрессивно создавать синхронизированное аудио и видео, непрерывно реагируя на потоковый ввод. Если традиционные модели вроде Veo от DeepMind рендерят ролики фиксированной длины в офлайне, здесь среда меняется на лету. Модель учитывает текстовые команды, голос и действия пользователя прямо в процессе генерации.

Синхронизировать картинку и звук в реальном времени сложно из-за разной частоты и плотности информации. На длинной дистанции ошибка в одной модальности быстро ломает весь поток. Для Starchild-1 разработчики собрали пайплайн каузальной дистилляции, который превращает тяжелую foundation-модель в быструю реалтаймовую. В техническом отчете описана асинхронная архитектура KV-cache, специально спроектированная под рассинхрон характеристик аудио и видео при долгом горизонте планирования.

Прошлые алгоритмы Odyssey уже умели выдавать редактируемые сцены при 20 кадрах в секунду, занимая нишу между обычными нейросетями для видео и игровыми движками. Starchild-1 делает следующий шаг к симуляторам физического мира. Окружение, фоновые звуки и физика объектов больше не заперты в жестком сценарии, а развиваются интерактивно в ответ на внешние стимулы.

Ещё публикации

Все посты →
artlebedev.ru

Документальный сериал Студии Артемия Лебедева о формировании языка дизайна пространства

12pixelthink7 часов назад
github.com

Архитектура Claude Code: реверс-инжиниринг AI-агента от Anthropic

8hardcoded6 часов назад
figma.com

Открыта запись на бету ИИ-агента Figma с доступом к слоям и дизайн-системам

27outlineonly16 часов назад
youtu.be

Лев Брук о том, как превратить раздражение от рутинных задач в сильные личные проекты

9rawframe7 часов назад
youtu.be

Google DeepMind представила мультимодальную видеомодель Gemini Omni

6tokenlimit6 часов назад
github.com

Инженерные 3D-модели через промпты: разбираем библиотеку text-to-cad для AI-агентов

9embeddings8 часов назад
Odyssey выпустила Starchild-1 — интерактивную модель мира с синхронной генерацией аудио и видео в реальном времени - ЗДЕСЬ.WTF