小讯AIGC

AIGC热门工具
AIGC写作平台
- AI写作工具
- AI论文写作
- AI论文查重
- AI聊天
- AI提示词
- AI内容检测
- AI公文
- AI问答
- AI阅读
- AI搜索
- AI小说
AIGC绘画平台
- AI绘画工具
- AI绘画提示
- AI绘画社区
- AI绘画模型
- AI-3D生成
- AI图形工作站
- AI图片审核
- AI搜索图片
- AI素材
- AI绘本
- PS·AI插件
AI 智能体平台
- 中文版GPTS
- ChatGLMS
- AI提示语
AIGC设计平台
- AI设计工具
- AI图像处理
- AI图像扩展
- AI商品图
- AI一键抠图
- AI标志设计
- AI空间设计
- AI服装设计
- AI字体设计
- AI头像/艺术照
- AI艺术二维码
AIGC视频平台
- AI视频生成
- AI数字人
- AI视频后期
- AI口播视频
- AI动作捕捉
- AI换脸
- AI博主
- AI视频模型
- AI字幕翻译
- 图片转视频
AIGC音频平台
- AI语音生成-文转音
- AI语音识别-音转文
- AI语音合成
- AI语音降噪
- AI音乐创作
- AI音乐鉴赏
AIGC办公平台
- AI办公工具
- AI制作PPT
- AI翻译
- AI思维导图
- AI会议助理
- AI文档处理
- AI总结摘要
- AI简历制作
- AI公益应用
AIGC学习平台
- AIGC免费课程
- AIGC专题课程
- AIGC精选专栏
- AI运营启发
- 京东AI好书推荐
- prompt学习
AIGC企业平台
- AI企业服务
- AI数字员工
- AI人力资源
- AI电子合同
- AI法律服务
- AI金融事务
- AI算力平台
- AI行业协会
- AI官方活动
AIGC运营平台
- AI营销工具
- AI电商增长
- AI行业门户
- AI流量优化
- AI舆情分析
- AI数据分析
- AI国际导航
- 全球大学AI
- 大陆大学AI
AIGC开发平台
- AI编程工具
- AI开发课堂
- AI开发框架
- AI开放平台
- AI开发者社区
- AI低(无)代码编程
- AI-SQL数据库
- AI训练模型
AI 大模型平台
- AI大语言模型
- AI视觉大模型
- AI视频大模型
- AI语音大模型
- AI多模态大模型
- AI教育大模型
- AI医学大模型
- AI法律大模型
- AI行业大模型
- AI海外大模型
AIGC服务平台
- AI基础设施
- AI应用接口API
- AI中文研究机构
- AI海外研究机构
- AI生命科学
- AI游戏应用
- AI安全技术
- AIGC元宇宙
AI图像工具
- AI常用图像工具
- AI图片插画生成
- AI图片背景移除
- AI图片无损调整
- AI图片优化修复
- AI图片物体抹除
AI写作工具
AI音频工具
AI视频工具
AI设计工具
AI编程工具
AI对话聊天
AI办公工具
- AI幻灯片和演示
- AI表格数据处理
- AI文档工具
- AI思维导图
- AI会议工具
- AI效率提升
AI语言翻译
AI内容检测
AI提示指令
AI训练模型
AI学习网站
AI开发框架
AIGC热门推荐
AIGC绘画工具
- AI绘画工具
- AI绘画提示
- AI绘画社区
- AI绘画模型
- AI-3D生成
- AI图形工作站
- AI图片审核
- AI搜索图片
- AI素材
- AI绘本
- PS·AI插件
- AI漫画翻译
AIGC智能对话
- AI智能助手
- AI聊天对话
- AI知识问答
- AI角色扮演
AIGC搜索引擎
AIGC设计工具
- AI设计工具
- AI图像处理
- AI图像扩展
- AI商品图
- AI一键抠图
- AI标志设计
- AI空间设计
- AI服装设计
- AI字体设计
- AI头像/艺术照
- AI艺术二维码
AIGC音频工具
- AI语音生成-文转音
- AI语音识别-音转文
- AI语音合成
- AI语音降噪
- AI音乐创作
- AI音乐鉴赏
AIGC办公效率
- AI制作PPT
- AI文档处理
- AI电子表格
- AI思维导图
- AI总结摘要
- AI翻译
- AI会议助理
- AI简历制作
- AI协作办公
- AI浏览器插件
AIGC学习资源
- AIGC免费课程
- AIGC专题课程
- AIGC精选专栏
- AI运营启发
- 京东AI好书推荐
- prompt学习
- 全球大学AI
- 大陆大学AI
- AI行业协会
- AI行业门户
- AI官方活动
- AI中文研究机构
- AI海外研究机构
- AI大赛
AIGC基础设施
- AI应用接口API
- AI基础设施
- AI算力平台
- AI云服务
AIGC应用场景
- AI营销工具
- AI数字员工
- AI法律服务
- AI电子合同
- AI人力资源
- AI数据分析
- AI企业服务
- AI流量优化
- AI舆情分析
- AI安全技术
AIGC行业应用
- AI金融事务
- AI跨境电商
- AI生命科学
- AI教育助理
- AI公益应用
- AI游戏应用
- AIGC元宇宙
AIGC导航推荐
AIGC行业证书
AIGC副业项目
AIGC绘画生成
- AI绘画工具
- AI绘本
- AI素材
- PS·AI插件
- AI-3D生成
- AI绘画提示
- AI绘画社区
- AI绘画模型
- AI图形工作站
- AI图片审核
- AI搜索图片
- AI漫画翻译
- AI博主
AIGC视频创作
- AI视频生成
- AI数字人
- AI换脸
- AI短剧
- AI视频后期
- AI动作捕捉
- AI视频模型
- AI字幕翻译
- 图片转视频
- AI动漫视频
- AI数字生命
AIGC创意设计
- AI设计工具
- AI商品图
- AI一键抠图
- AI写真
- AI图像扩展
- AI图像处理
- AI标志设计
- AI空间设计
- AI服装设计
- AI字体设计
- AI珠宝设计
- AI海报设计
- AI艺术二维码
- AI头像
- AI智能标注
AIGC音频处理
- AI语音生成（配音）
- AI语音识别
- AI语音合成
- AI语音降噪
- AI音乐创作
- AI同声传译
AIGC生命科学
- AI生物医学
- AI心理咨询
AIGC企业场景
- AI营销工具
- AI流量优化
- AI数字员工
- AI法律服务
- AI电子合同
- AI人力资源
- AI数据分析
- AI企业服务
- AI舆情分析
- AI安全技术
关于本站 ♥︎

生成不遗忘，「超长时序」世界模型！北大EgoLCD长短时记忆加持

新智元，2025-12-24 13:19:46

新智元报道

编辑：LRST

【新智元导读】视频生成模型总是「记性不好」？生成几秒钟后物体就变形、背景就穿帮？北大、中大等机构联合发布EgoLCD，借鉴人类「长短时记忆」机制，首创稀疏KV缓存+LoRA动态适应架构，彻底解决长视频「内容漂移」难题，在EgoVid-5M基准上刷新SOTA！让AI像人一样拥有连贯的第一人称视角记忆。

随着Sora、Genie等模型的爆发，视频生成正从「图生动」迈向「世界模拟器」的宏大目标。

然而，在通往「无限时长」视频生成的路上，横亘着一只拦路虎——「内容漂移」（Content Drift）。

你是否发现，现有的视频生成模型在生成长视频时，往往也是「金鱼记忆」：前一秒还是蓝色瓷砖，后一秒变成了白色墙壁；原本手里的杯子，拿着拿着就变成了奇怪的形状；

对于第一人称（Egocentric）视角这种晃动剧烈、交互复杂的场景，模型更是极其容易「迷失」。

生成长视频不难，难的是「不忘初心」。

近日，来自北京大学、中山大学、浙江大学、中科院和清华大学的研究团队，提出了一种全新的长上下文扩散模型EgoLCD，不仅引入了「类脑的长短时记忆」设计，还提出了一套全新的结构化叙事Promp方案，成功让AI在生成长视频时「记住」场景布局和物体特征。

论文地址：https://arxiv.org/abs/2512.04515

项目主页：https://aigeeksgroup.github.io/EgoLCD

在EgoVid-5M基准测试中，EgoLCD在时间一致性和生成质量上全面碾压OpenSora、SVD等主流模型，向构建具身智能世界模型迈出了关键一步！

核心痛点

AI为什么会「失忆」？

在长视频生成中，传统的自回归（AR）模型非常容易出现生成式遗忘。

这就像让一个人蒙眼画画，画着画着就偏离了最初的构图。对于第一人称视频（如Ego4D数据集）来说，剧烈的相机抖动和复杂的手物交互，让这种「漂移」更加致命。

传统的Transformer虽然有注意力机制，但面对长序列，计算量呈二次方爆炸根本存不下那么多历史信息；而简单的滑动窗口又会丢掉早期的关键信息。

EgoLCD (Egocentric Video Generation with Long Context Diffusion) 将长视频生成重新定义为一个「高效且稳定的内存管理问题」。

长短时记忆系统 (Long-Short Memory)

EgoLCD 设计了一种类似人类大脑的双重记忆机制：

长期记忆（Long-Term Sparse KV Cache）：不再傻傻地缓存所有Token，而是利用稀疏注意力机制，只存储和检索最关键的「语义锚点」（比如房间的布局、关键物体的特征）。这不仅大大降低了显存占用，还锁死了全局一致性。

短期记忆（Attention+LoRA）：利用LoRA作为隐式记忆单元，增强短窗口注意力的适应性，快速捕捉当前视角的剧烈变化（如手的快速移动）。

一句话总结：长期记忆负责「稳」，短期记忆负责「快」。

记忆调节损失 (Memory Regulation Loss)

为了防止模型在训练时「偷懒」，团队设计了一种特殊的损失函数。它强制模型生成的每一帧，都要与从长期记忆库中检索到的「历史片段」保持语义对齐。

这就像给AI戴上了一个「紧箍咒」，一旦它生成的画面开始「胡编乱造」（漂移），Loss就会惩罚它，迫使它回归原本的设定。

结构化叙事提示 (Structured Narrative Prompting, SNP)

EgoLCD抛弃了简单的文本提示，采用了一种分段式的、包含时间逻辑的结构化剧本。

训练时：使用GPT-4o生成极其详尽的帧级描述，训练模型将视觉细节与文字严格对应。

推理时：SNP充当「外部显性记忆」，通过检索前序片段的Prompt，引导当前片段的生成，确保故事线和视觉风格的连贯。

性能炸裂

为了公正地评测「不遗忘」的能力，研究团队甚至专门开发了一套新指标——NRDP (Normalized Referenced Drifting Penalty)，专门用来惩罚那些「虎头蛇尾」、越往后质量越差的模型。

实验结果显示：

一致性碾压：在NRDP-Subject（主体一致性）和NRDP-Background（背景一致性）上，EgoLCD取得了压倒性优势，漂移率极低。

超越基线：相比SVD、DynamiCrafter和OpenSora等顶流模型，EgoLCD在EgoVid-5M基准上的CD-FVD（时序连贯性）和动作一致性指标均为最佳。

极长生成：展示了长达60秒的连贯视频生成（如一名演讲者从黄昏讲到深夜），人物衣着、背景楼宇细节始终如一，没有发生形变！

通往具身智能的「黑客帝国」

EgoLCD不仅仅是一个视频生成模型，它更像是一个「第一人称世界模拟器」。

通过生成长时程、高一致性的第一人称视频，EgoLCD能够为具身智能（机器人）提供海量的训练数据，模拟复杂的物理交互和长序列任务（如做饭、修理）。

正如Sora让人们看到了世界模型的雏形，EgoLCD则让「通过视频教会机器人理解世界」的梦想，变得前所未有的清晰。

参考资料：

https://arxiv.org/abs/2512.04515

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！