挑战闭源格局!腾讯混元3D世界模型2.0开源发布,性能对标商业级模型

AGI
点云F1-score达43.16,超越SEVA、Gen3C等模型30%以上,开源生态迎来“鲶鱼效应”?

长期以来,3D世界建模领域存在两大技术“孤岛”:生成式模型擅长从文本、单图创作天马行空的3D场景,但几何精度不足、视角一致性差;重建式模型能从多图、视频中还原真实3D结构,却缺乏生成想象力,难以处理稀疏输入。腾讯此次HY-World 2.0的发布,首次将这两大能力融合,构建了从“稀疏输入”到“可交互3D世界”的完整技术闭环。

据腾讯官方文档,作为3D世界的“第一块拼图”,HY-Pano 2.0解决了传统全景生成依赖相机参数、场景结构破碎的行业痛点。通过Multi-Modal Diffusion Transformer(MMDiT)实现视角到全景的隐式转换,无需任何相机元数据,就能从单张图片或一段文本中生成结构连贯、细节丰富的360°全景场景。

(技术报告地址:https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf)

在文本到全景(T2P)任务中,CLIP-T指标达行业最高的0.258,Q-Align美学评分较竞品提升12%;在图像到全景(I2P)任务中,全指标排名第一,几何一致性远超CubeDiff、GenEx等模型。

有了高质量的全景基础,如何高效探索3D世界成为新的挑战。HY-World 2.0设计了语义感知轨迹规划模块,通过全景点云、语义掩码与导航网格的融合分析,自动生成多样化轨迹模式,实现无碰撞、全覆盖的相机路径规划。这一技术不仅确保了后续3D重建时无视角盲区,更让AI能够像人类一样“聪明地”探索复杂场景——比如自动环绕建筑物拍摄细节,或沿着走廊漫游捕捉完整结构。

在3D世界扩展阶段,最大的技术瓶颈是“多视角一致性”——不同轨迹生成的视频常常出现物体错位、光影矛盾等问题。HY-World 2.0通过全局几何记忆与空间立体记忆双记忆机制,让AI能够“记住”整个3D场景的几何结构,从而生成视角连贯、细节一致的扩展场景。结合Distribution Matching Distillation蒸馏技术,生成速度提升4倍,在Tanks-and-Temples数据集上,点云F1-score达43.16,超越SEVA、Gen3C等模型30%以上。

作为全链路的核心,HY-World 2.0的通用3D重建模块支持从多图、视频中恢复点云、深度图、法向量等几何信息。该模块通过归一化位置编码解决了长期困扰行业的“分辨率泛化”问题,高分辨率下相机姿态AUC@30仍达86.89,较前代产品提升31%;通过深度-法线耦合监督,深度估计AbsRel误差降至0.162。在效率方面,支持序列并行、混合精度与全分片数据并行,单GPU可处理256视图,4GPU下128视图推理时间仅5.6秒,为大规模3D重建提供了可能。

性能逼近闭源商业产品

技术创新最终要靠数据说话,HY-World 2.0在多项核心指标上实现了对开源模型的全面超越,更在部分场景逼近闭源商业模型Marble。在相同全景输入下,HY-World 2.0生成的3D场景与输入一致性达94%,而Marble仅为88%,几何误差降低25%;在复杂场景如城市建筑、自然景观中,HY-World 2.0的纹理、光影还原度更接近真实世界,细节表现力远超竞品。

端到端生成速度方面,HY-World 2.0仅需约12分钟/场景(712秒),远快于Marble的15分钟/场景和开源竞品平均30分钟/场景的速度,效率提升50%以上。更值得关注的是,HY-World 2.0是全球首个开源的多模态3D世界模型,全部模型权重、代码与技术细节已对外开放,这意味着开发者无需依赖昂贵的商业模型,就能快速构建3D生成应用,极大降低了AGI空间智能的开发门槛。

开源开放的模式也让HY-World 2.0具备了更强的生态活力,开发者可以基于该模型进行二次开发,推动3D生成技术在更多场景的应用。目前,已有多家游戏、机器人、数字孪生领域的企业与腾讯混元团队展开合作,探索HY-World 2.0的商业化落地。

技术的价值最终要体现在应用场景中,HY-World 2.0还配套了WorldLens高性能3DGS渲染平台,支持实时物理反馈和空间交互,为下游应用提供高效的渲染支持。

在游戏开发领域,HY-World 2.0支持实时可交互3D场景生成,内置物理碰撞检测与角色控制,可直接导入Unity/Unreal引擎,显著缩短开发周期。一款开放世界游戏的场景建模,传统方法需要数月时间,而使用HY-World 2.0,开发者只需输入一段文本描述,就能在约12分钟内生成可交互的3D场景。

在机器人领域,HY-World 2.0通过重建真实环境生成高精度仿真场景,支持机器人路径规划与视觉导航训练,提升机器人研发效率与仿真精度。目前,已有多家机器人企业基于HY-World 2.0构建了仿真训练平台,优化机器人导航算法开发流程。

在数字孪生领域,HY-World 2.0可快速生成工厂、园区、城市等场景的3D数字孪生模型,支持多视角漫游与设备状态可视化,优化运维流程。一个大型工厂的数字孪生建模,传统方法需要投入大量人力物力,而使用HY-World 2.0,只需导入工厂的航拍视频,就能在数小时内生成高精度的3D数字孪生模型。(本文首发钛媒体APP,作者 | 硅谷Tech_news,编辑 | 秦聪慧)

作品声明:内容由AI生成
本文系作者 AGI-Signal 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 双记忆机制太精髓,AI 真的能记住整个场景结构

    回复 4月17日 · via h5
  • 语义感知轨迹规划,复杂建筑走廊也能全覆盖无死角

    回复 4月17日 · via h5
  • T2P 指标行业第一,美学评分比竞品高 12% 质感拉满

    回复 4月17日 · via android
  • 几何精度大幅提升,3D 重建终于告别模糊破碎老问题

    回复 4月17日 · via pc
  • 配套 WorldLens 渲染平台,实时交互物理反馈全都有

    回复 4月17日 · via iphone
  • 这波开源不仅是技术输出,更是在推动整个行业前进

    回复 4月17日 · via iphone
  • 全球首个开源多模态 3D 世界模型,开发者门槛直接被打下来

    回复 4月17日 · via h5
  • 数字孪生机器人游戏全场景覆盖,应用空间无限大

    回复 4月17日 · via h5
  • 全局几何记忆保结构,场景扩展再也不会前后矛盾

    回复 4月17日 · via h5
  • 数字孪生效率暴增,航拍视频几小时建好工厂 3D 模型

    回复 4月17日 · via iphone
更多评论

快报

更多

2026-04-18 23:10

伊朗第一副总统:伊朗拥有霍尔木兹海峡管理权

2026-04-18 22:52

国产光纤全球爆单,部分产品价格暴涨650%

2026-04-18 22:38

伊朗称导弹和无人机的生产仍在持续

2026-04-18 22:28

特朗普称伊朗无法“要挟”美国

2026-04-18 22:20

伊朗正在审议美方新建议,尚未回应

2026-04-18 21:54

特朗普:美伊正对话 “今天结束前会有消息”

2026-04-18 21:54

伊朗就美伊谈判最新进展发布声明

2026-04-18 21:51

伊朗:将控制霍尔木兹海峡通行直至战争彻底结束

2026-04-18 21:17

DeepSeek启动首次外部融资?机构人士:消息很有可能属实,目前完全投不进去

2026-04-18 21:11

新疆新能源富集区探索机关单位改用绿电

2026-04-18 21:00

一季度经港珠澳大桥珠海公路口岸进出口总值达961.7亿元

2026-04-18 20:44

张雪机车WSBK荷兰站第一回合正赛第四

2026-04-18 20:29

今年第一季度中国企业信用指数为162.05,保持稳中向好态势

2026-04-18 20:24

4月18日新闻联播速览24条

2026-04-18 19:54

美军称在对伊朗港口封锁行动中已迫使23艘船只掉头

2026-04-18 19:42

指责对方违反停火协议,以军在黎南部继续打击真主党

2026-04-18 19:26

强对流天气蓝色预警:华北黄淮西南等部分地区有雷暴大风或冰雹

2026-04-18 19:15

伊朗宣布暂停机票销售,航班须逐一审批

2026-04-18 19:00

伊朗最高领袖:伊朗海军已做好准备,将给敌方造成“新的惨痛失败”

2026-04-18 18:53

海事情报公司:伊朗革命卫队向试图穿越霍尔木兹海峡的油轮开火

38

扫描下载App

Baidu
map