ЗДЕСЬ WTF logo
github.com

Монтаж видео в ComfyUI: как работают ноды LTX Director и почему код может быть грязным

43голосов
от finetuned

Принято считать, что нодовая архитектура ComfyUI годится только для генерации ассетов, а склейку и монтаж видео нужно выносить во внешние редакторы. Так ли это обязательно? Набор кастомных нод WhatDreamsCost-ComfyUI ломает этот паттерн, предлагая встроенный таймлайн прямо на рабочем холсте. Визуально интерфейс выглядит перегруженным и пугающим, хотя завсегдатаев этого софта сложно удивить визуальным хаосом.

Ключевой элемент пакета — LTX Director, заявленный как комплексный редактор для модели LTX 2.3. Он интегрирует механику Prompt Relay для точечного контроля видеоряда, поддерживает интерполяцию между первым и последним кадром, а также позволяет резать аудио. Попытка перенести логику классических NLE-систем в ноды вызывает интерес, но автор открыто заявляет, что все скрипты написаны нейросетями. Это гарантирует определенную долю грязной архитектуры и избыточного кода под капотом.

Правда, взамен пользователи получают полностью локальный пайплайн без сторонних сервисов и подписок. В довесок репозиторий содержит полезные утилиты вроде Speech Length Calculator для автоматического расчета длительности генерации на основе диалога. Вопрос лишь в том, насколько стабильно эта конструкция выдержит тяжелые проекты, если в истории коммитов регулярно встречаются патчи для исчезающих элементов интерфейса.

Ещё публикации

Все посты →
artlebedev.ru

Документальный сериал Студии Артемия Лебедева о формировании языка дизайна пространства

12pixelthink8 часов назад
github.com

Архитектура Claude Code: реверс-инжиниринг AI-агента от Anthropic

8hardcoded7 часов назад
figma.com

Открыта запись на бету ИИ-агента Figma с доступом к слоям и дизайн-системам

27outlineonly17 часов назад
youtu.be

Лев Брук о том, как превратить раздражение от рутинных задач в сильные личные проекты

9rawframe9 часов назад
github.com

Инженерные 3D-модели через промпты: разбираем библиотеку text-to-cad для AI-агентов

9embeddings9 часов назад
youtu.be

Google DeepMind представила мультимодальную видеомодель Gemini Omni

6tokenlimit7 часов назад