Helios: Real Real-Time Long Video Generation Model

Helios 论文核心总结与关键部分翻译

一、文章主要内容

本文由北京大学与字节跳动联合提出了Helios,这是首个14B参数的实时长视频生成模型,在单张NVIDIA H100 GPU上可实现19.5 FPS的生成速度,支持分钟级长视频生成,且质量与强基线模型相当。模型针对长视频生成的三大核心挑战(漂移问题、实时性不足、训练/推理成本高)提出系统性解决方案,同时统一支持文本到视频(T2V)、图像到视频(I2V)、视频到视频(V2V)三类任务,并构建了HeliosBench基准数据集以填补实时长视频生成领域的评测空白。

实验结果表明,Helios在短视频(81帧)和长视频(最长1440帧)生成任务中均持续优于现有方法,在语义对齐、运动流畅度、自然度等核心指标上表现突出,且计算成本与1.3B参数模型相当甚至更低。

二、核心创新点

1. 无传统抗漂移策略的长视频生成

  • 识别出长视频漂移的三种典型模式:位置偏移(Position Shift)、颜色偏移(Color Shift)、恢复偏移(Restoration Shift,含模糊和噪声)。
  • 提出Easy Anti-Drifting策略:通过相对旋转位置编码(Relative RoPE)消除重复运动;以第一帧为全局视觉锚点(First-Frame Anchor)稳定颜色分布;通过帧感知破坏(Frame-Aware Corrupt)在训练中模拟历史帧漂移,提升模型鲁棒性,无需依赖自强制
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值