Helios 论文核心总结与关键部分翻译
一、文章主要内容
本文由北京大学与字节跳动联合提出了Helios,这是首个14B参数的实时长视频生成模型,在单张NVIDIA H100 GPU上可实现19.5 FPS的生成速度,支持分钟级长视频生成,且质量与强基线模型相当。模型针对长视频生成的三大核心挑战(漂移问题、实时性不足、训练/推理成本高)提出系统性解决方案,同时统一支持文本到视频(T2V)、图像到视频(I2V)、视频到视频(V2V)三类任务,并构建了HeliosBench基准数据集以填补实时长视频生成领域的评测空白。
实验结果表明,Helios在短视频(81帧)和长视频(最长1440帧)生成任务中均持续优于现有方法,在语义对齐、运动流畅度、自然度等核心指标上表现突出,且计算成本与1.3B参数模型相当甚至更低。
二、核心创新点
1. 无传统抗漂移策略的长视频生成
- 识别出长视频漂移的三种典型模式:位置偏移(Position Shift)、颜色偏移(Color Shift)、恢复偏移(Restoration Shift,含模糊和噪声)。
- 提出Easy Anti-Drifting策略:通过相对旋转位置编码(Relative RoPE)消除重复运动;以第一帧为全局视觉锚点(First-Frame Anchor)稳定颜色分布;通过帧感知破坏(Frame-Aware Corrupt)在训练中模拟历史帧漂移,提升模型鲁棒性,无需依赖自强制
订阅专栏 解锁全文
2862

被折叠的 条评论
为什么被折叠?



