您现在的位置是：首页>大视野

大视野

2026智源大会议程公开丨从 Token 到世界状态预测，多模态的下一场范式革命

孟小岸2026-06-01 10:17:00大视野385来源：精忠报国杂志社

本网讯(中国国际新闻杂志社常务副社长孟小岸推荐)智源大会是人工智能领域最具影响力的学术盛会，7年来，14位图灵奖得主与全球AI先锋齐聚，成为AI内行人的年度思想坐标。

2026年6月12日-13日，第8届智源大会如期而至。大会坚持“学术硬核”，汇聚200余位顶尖专家学者与40余位AI企业CEO及联合创始人，共同探讨Agent、世界模型、具身智能、AI自进化与AI安全等前沿议题，期待与全球AI同行相聚北京，共同定义下一代智能未来。

多模态论坛论坛丨6月13日上午

2026年，多模态大模型正处于从“感知理解”向“交互生成”跨越的关键分水岭。单纯的图文理解已不再是瓶颈，如何构建具备空间感知、长时序推演与实时交互能力的原生多模态系统，成为迈向AGI的核心挑战。

本次智源大会多模态论坛，聚焦“多模态世界模型与交互式生成”这一前沿命题，直击当前技术演进的三大核心趋势：

1. 打破“表演三难困境”，迈向全双工实时交互：探索如何在高表现力、实时推理与长时身份稳定之间取得突破，从单向内容生成走向支持无限时长流式对话的交互式表演模型（如LPM 1.0），赋予数字角色真正的“生命感”。

2. 从2D到3D，构建空间感知基础模型：突破现有模型对物理世界三维空间理解的局限，探讨如何通过空间感知基础模型的研究，让AI真正理解几何、遮挡与物理规律，为具身智能和三维世界模型奠定底层能力。

3. 技术底座与商业闭环的深度融合：展示从底层多模态大模型（如视频生成、音乐音频模型）到全球化AI产品矩阵（AI时代的Spotify/Netflix）的完整路径，探讨AIGC多模态技术如何在规模化商业落地中实现自我进化。

本次论坛汇聚了来自MIT、Anuttacon、浙江大学、腾讯混元、昆仑万维等全球顶尖机构与企业的学者及技术先锋，旨在探讨多模态技术如何跨越从“看懂世界”到“进入世界并与之交互”的鸿沟，推动视频原生多模态智能体的加速到来。

2026北京智源大会倒计时：18 天

论坛主席

王鑫龙，研究员

王鑫龙，主要研究多模态世界模型，本科毕业于同济大学，博士毕业于阿德莱德大学。

赵敏，南京大学助理教授

赵敏，即将加入南京大学担任助理教授，国产视频生成模型 Vidu 核心作者，入选清华大学“水木学者”计划。研究方向为视频生成与可交互视频世界模型。以第一作者/共同第一作者身份在 NeurIPS、ICML、ICLR 等国际顶级会议发表论文多篇，一作论文引用700余次，累计引用1000余次。提出的视频长度外推方法 RIFLEx 及实时交互生成方法 casual forcing 等，已被 HunyuanVideo、CogVideoX 等主流开源视频扩散框架集成应用，主导相关开源项目累计获得 GitHub Star近3000次。

演讲主题及嘉宾介绍

（按照发言先后顺序）

1. Generative Modeling via Drifting

邓明扬，MIT博士生

邓明扬现为 MIT 博士生，师从何恺明教授，研究方向为生成模型。他高中阶段曾获 IMO 与 IOI 金牌，本科就读于 MIT 数学与计算机科学专业，并曾在 DeepMind、Meta 参与科研实习。2026 年，他以第一作者提出 Drifting Models（漂移模型），从分布漂移的角度探索更高效的生成方法。

2. LPM 1.0：基于视频生成的交互表演模型

彭思达，浙江大学研究员

彭思达，浙江大学软件学院“百人计划”研究员，博士生导师，研究方向为三维计算机视觉和计算机图形学。至今在TPAMI/TOG发表9篇论文，在CCF-A类会议发表15篇Oral/Highlight论文，谷歌学术引用9000余次，其中一篇一作论文获得CVPR最佳论文提名，成果获得GitHub数万次stars和2024年中国CCF优秀图形开源软件奖；入选China3DV 2025年度杰出青年学者、斯坦福2024/2025全球Top 2%科学家榜单、2024年中国计算机学会优博（国内计算机领域评选十人）；被苹果公司评为2022 Apple Scholar（亚太地区唯一）。

4. HY World：迈向统一的多模态世界模型

王腾飞，腾讯混元世界模型（HY World）负责人

王腾飞，博士毕业于香港科技大学。现在腾讯负责混元世界模型的研发与落地，从0搭建了混元世界模型的数据与算法研发体系，带领团队先后发布HY World 1.0、2.0、 WorldPlay、WorldMirror等多个模型，并获得开源社区广泛关注。在人工智能顶级期刊和会议上发表论文 40 余篇，谷歌学术引用量 3500 余次，系列开源项目在 GitHub 累计星标 20000 余次，研究工作曾获评 ICCV 和 ECCV 最有影响力论文。

5. 从Skyreels V4到Mureka V9：昆仑万维的AIGC多模态布局

成宇，香港中文大学计算机系副教授，昆仑万维集团首席科学家

成宇，昆仑万维首席科学家，香港中文大学计算机系副教授。从 2018年到2023年，担任微软雷德蒙德研究院的首席研究员。在加入微软之前，是IBM Research & MIT-IBM Watson AI Lab 的研究员。研究涵盖深度学习，特别关注模型压缩和效率、深度生成模型和语言/多模态大模型等。从2021年开始，带领团队和OpenAI团队紧密合作，对GPT系列模型进行了效率、鲁棒性和扩展性优化，推动相关服务和应用的产品化，包括以GPT-4作为主要模型的New Bing、由GPT-3.5提供后台服务的Github Copilot以及由DALL-E-2提供支持的Image Creator。从2023年到2025年，主导或者参与了Minimax abab6.5, M1/Hailuo Video模型, 以及Skywork R1V2/V3, Super Agent等产品和模型。

6. 视频世界模型：从离线内容生成到实时交互

赵敏，南京大学助理教授

圆桌讨论｜从看懂到交互：多模态如何重构世界模型？

圆桌嘉宾：

邓明扬丨MIT博士生

曾爱玲丨Anuttacon研究员

彭思达丨浙江大学研究员

王腾飞丨腾讯混元世界模型负责人

成宇丨香港中文大学计算机系副教授，昆仑万维集团首席科学家

主持人丨赵敏丨南京大学助理教授

大会官网 https://2026.baai.ac.cn