В данной работе представлен подход к редактированию реальных видео с использованием предварительно обученных диффузионных моделей без необходимости дополнительного обучения на видеоданных. Для генерации предлагается набор методов, основанных на использовании временной согласованности между кадрами исходного видео для сохранения пространственно-временных связей объектов в кадре генерируемого видео.