2026智源大会议程公开丨从 Token 到世界状态预测,多模态的下一场范式革命

本网讯(中国国际新闻杂志社常务副社长孟小岸推荐)智源大会是人工智能领域最具影响力的学术盛会,7年来,14位图灵奖得主与全球AI先锋齐聚,成为AI内行人的年度思想坐标。
2026年6月12日-13日,第8届智源大会如期而至。大会坚持“学术硬核”,汇聚200余位顶尖专家学者与40余位AI企业CEO及联合创始人,共同探讨Agent、世界模型、具身智能、AI自进化与AI安全等前沿议题,期待与全球AI同行相聚北京,共同定义下一代智能未来。
多模态论坛 论坛丨6月13日 上午
2026年,多模态大模型正处于从“感知理解”向“交互生成”跨越的关键分水岭。单纯的图文理解已不再是瓶颈,如何构建具备空间感知、长时序推演与实时交互能力的原生多模态系统,成为迈向AGI的核心挑战。
本次智源大会多模态论坛,聚焦“多模态世界模型与交互式生成”这一前沿命题,直击当前技术演进的三大核心趋势:
1. 打破“表演三难困境”,迈向全双工实时交互:探索如何在高表现力、实时推理与长时身份稳定之间取得突破,从单向内容生成走向支持无限时长流式对话的交互式表演模型(如LPM 1.0),赋予数字角色真正的“生命感”。
2. 从2D到3D,构建空间感知基础模型:突破现有模型对物理世界三维空间理解的局限,探讨如何通过空间感知基础模型的研究,让AI真正理解几何、遮挡与物理规律,为具身智能和三维世界模型奠定底层能力。
3. 技术底座与商业闭环的深度融合:展示从底层多模态大模型(如视频生成、音乐音频模型)到全球化AI产品矩阵(AI时代的Spotify/Netflix)的完整路径,探讨AIGC多模态技术如何在规模化商业落地中实现自我进化。
本次论坛汇聚了来自MIT、Anuttacon、浙江大学、腾讯混元、昆仑万维等全球顶尖机构与企业的学者及技术先锋,旨在探讨多模态技术如何跨越从“看懂世界”到“进入世界并与之交互”的鸿沟,推动视频原生多模态智能体的加速到来。
2026北京智源大会倒计时:18 天

论坛主席
王鑫龙,研究员
王鑫龙,主要研究多模态世界模型,本科毕业于同济大学,博士毕业于阿德莱德大学。
赵敏,南京大学助理教授
赵敏,即将加入南京大学担任助理教授,国产视频生成模型 Vidu 核心作者,入选清华大学“水木学者”计划。研究方向为视频生成与可交互视频世界模型。以第一作者/共同第一作者身份在 NeurIPS、ICML、ICLR 等国际顶级会议发表论文多篇,一作论文引用700余次,累计引用1000余次。提出的视频长度外推方法 RIFLEx 及实时交互生成方法 casual forcing 等,已被 HunyuanVideo、CogVideoX 等主流开源视频扩散框架集成应用,主导相关开源项目累计获得 GitHub Star近3000次。
演讲主题及嘉宾介绍
(按照发言先后顺序)
1. Generative Modeling via Drifting
邓明扬,MIT博士生
邓明扬现为 MIT 博士生,师从何恺明教授,研究方向为生成模型。他高中阶段曾获 IMO 与 IOI 金牌,本科就读于 MIT 数学与计算机科学专业,并曾在 DeepMind、Meta 参与科研实习。2026 年,他以第一作者提出 Drifting Models(漂移模型),从分布漂移的角度探索更高效的生成方法。
2. LPM 1.0:基于视频生成的交互表演模型
彭思达,浙江大学研究员
彭思达,浙江大学软件学院“百人计划”研究员,博士生导师,研究方向为三维计算机视觉和计算机图形学。至今在TPAMI/TOG发表9篇论文,在CCF-A类会议发表15篇Oral/Highlight论文,谷歌学术引用9000余次,其中一篇一作论文获得CVPR最佳论文提名,成果获得GitHub数万次stars和2024年中国CCF优秀图形开源软件奖;入选China3DV 2025年度杰出青年学者、斯坦福2024/2025全球Top 2%科学家榜单、2024年中国计算机学会优博(国内计算机领域评选十人);被苹果公司评为2022 Apple Scholar(亚太地区唯一)。
4. HY World:迈向统一的多模态世界模型
王腾飞,腾讯混元世界模型(HY World)负责人
王腾飞,博士毕业于香港科技大学。现在腾讯负责混元世界模型的研发与落地,从0搭建了混元世界模型的数据与算法研发体系,带领团队先后发布HY World 1.0、2.0、 WorldPlay、WorldMirror等多个模型,并获得开源社区广泛关注。在人工智能顶级期刊和会议上发表论文 40 余篇,谷歌学术引用量 3500 余次,系列开源项目在 GitHub 累计星标 20000 余次,研究工作曾获评 ICCV 和 ECCV 最有影响力论文。
5. 从Skyreels V4到Mureka V9:昆仑万维的AIGC多模态布局
成宇,香港中文大学计算机系副教授,昆仑万维集团首席科学家
成宇,昆仑万维首席科学家,香港中文大学计算机系副教授。从 2018年到2023年,担任微软雷德蒙德研究院的首席研究员。在加入微软之前,是IBM Research & MIT-IBM Watson AI Lab 的研究员。研究涵盖深度学习,特别关注模型压缩和效率、深度生成模型和语言/多模态大模型等。从2021年开始,带领团队和OpenAI团队紧密合作,对GPT系列模型进行了效率、鲁棒性和扩展性优化,推动相关服务和应用的产品化,包括以GPT-4作为主要模型的New Bing、由GPT-3.5提供后台服务的Github Copilot以及由DALL-E-2提供支持的Image Creator。从2023年到2025年,主导或者参与了Minimax abab6.5, M1/Hailuo Video模型, 以及Skywork R1V2/V3, Super Agent等产品和模型。
6. 视频世界模型:从离线内容生成到实时交互
赵敏,南京大学助理教授
圆桌讨论|从看懂到交互:多模态如何重构世界模型?
圆桌嘉宾:
邓明扬丨MIT博士生
曾爱玲丨Anuttacon研究员
彭思达丨浙江大学研究员
王腾飞丨腾讯混元世界模型负责人
成 宇丨香港中文大学计算机系副教授,昆仑万维集团首席科学家
主持人丨赵敏丨南京大学助理教授
大会官网 https://2026.baai.ac.cn
