В релизе Gemini Omni от Google DeepMind есть деталь, которую легко упустить за демонстрацией новых функций. Сама нейросеть представляет собой серьезный апгрейд архитектуры Veo — она умеет на лету смешивать исходное видео, аудио и статические референсы для бесшовного редактирования через текстовые запросы. Но текущая открытая версия получила приставку Flash.
Разработчики подтвердили, что это лишь базовая, легковесная модель. Сейчас Google готовит к выходу старшую версию — Gemini Omni Pro. Если Flash-версия обкатывает саму механику работы с мультимодальными промптами, то Pro должна занять нишу сложного монтажа, повторив путь эволюции профессиональных нейросетей для генерации изображений.
Поделиться:
Документальный сериал Студии Артемия Лебедева о формировании языка дизайна пространства →
Архитектура Claude Code: реверс-инжиниринг AI-агента от Anthropic →