Helios: Real Real-Time Long Video Generation Model

最新推荐文章于 2026-07-01 09:06:09 发布

原创最新推荐文章于 2026-07-01 09:06:09 发布 · 54 阅读

·

0

·

收录于

Multimodal

LLM Daily 专栏收录该内容

2907 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

Helios 论文核心总结与关键部分翻译

一、文章主要内容

本文由北京大学与字节跳动联合提出了Helios，这是首个14B参数的实时长视频生成模型，在单张NVIDIA H100 GPU上可实现19.5 FPS的生成速度，支持分钟级长视频生成，且质量与强基线模型相当。模型针对长视频生成的三大核心挑战（漂移问题、实时性不足、训练/推理成本高）提出系统性解决方案，同时统一支持文本到视频（T2V）、图像到视频（I2V）、视频到视频（V2V）三类任务，并构建了HeliosBench基准数据集以填补实时长视频生成领域的评测空白。

实验结果表明，Helios在短视频（81帧）和长视频（最长1440帧）生成任务中均持续优于现有方法，在语义对齐、运动流畅度、自然度等核心指标上表现突出，且计算成本与1.3B参数模型相当甚至更低。

二、核心创新点

1. 无传统抗漂移策略的长视频生成

识别出长视频漂移的三种典型模式：位置偏移（Position Shift）、颜色偏移（Color Shift）、恢复偏移（Restoration Shift，含模糊和噪声）。
提出Easy Anti-Drifting策略：通过相对旋转位置编码（Relative RoPE）消除重复运动；以第一帧为全局视觉锚点（First-Frame Anchor）稳定颜色分布；通过帧感知破坏（Frame-Aware Corrupt）在训练中模拟历史帧漂移，提升模型鲁棒性，无需依赖自强制

标签

#人工智能 #计算机视觉 #深度学习

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。