网站首页 > 企业新品 >
NVIDIA 推出加速物理 AI 开发的 Cosmos 世界基础模型平台
发布时间:2025-01-07 17:50:35 · 赵法彬

拉斯维加斯—CES—太平洋时间2025 年 1 月6日,NVIDIA宣布推出NVIDIA Cosmos™,该平台由先进的生成式世界基础模型、高级 tokenizer、护栏和加速视频处理管线组成,将推动自动驾驶汽车(AV)和机器人等物理 AI系统的发展。

444db5f1ly1hxcchbfvozj20kg0bfab9

物理 AI 模型的开发成本很高并且需要大量真实数据和测试。Cosmos 世界基础模型(WFM)使开发者能够轻松生成大量基于物理学的逼真合成数据,以用于训练和评估其现有的模型。他们还可以通过微调 Cosmos WFM 构建自定义模型。


为了加速机器人和自动驾驶汽车行业的工作,Cosmos 模型将以开放模型许可证的方式提供。开发者可以在NVIDIA API 目录中预览首批模型,也可以从NVIDIA NGC™ 目录或Hugging Face下载整个系列的模型和微调框架。


Cosmos 的首批用户包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot,、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和小鹏汽车等领先机器人和汽车公司以及共享出行巨头 Uber。


NVIDIA 创始人兼首席执行官黄仁勋表示:“机器人技术的 ChatGPT 时刻即将到来。与大语言模型一样,世界基础模型是推动机器人和自动驾驶汽车开发的基础,但并非所有开发者都拥有自主训练模型所需的专业知识和资源。我们创建 Cosmos 是为了普及物理 AI,让每一位开发者都能接触到通用机器人技术。”


开放世界基础模型将加速下一轮 AI 热潮

借助 NVIDIA Cosmos 的开放模型套件,开发者可以根据目标应用的需要,使用数据集定制自动驾驶汽车旅行视频、机器人在仓库中的移动轨迹等 WFM。


Cosmos WFM 专为物理 AI 的研发而构建,可以根据文本、图像和视频等输入组合以及机器人传感器或运动数据生成基于物理学的视频。这些模型为实现基于物理学的交互、物体恒存性以及生成高质量的仿真工业环境(例如仓库或工厂)和驾驶环境(包括各种路况)而构建。


在 CES 主题演讲中,NVIDIA 创始人兼首席执行官黄仁勋展示了物理AI开发者如何使用 Cosmos模型,包括用于:


 视频搜索和理解:使开发者能够从视频数据中轻松找到特定的训练场景,例如雪天路况或仓库拥堵等。

 基于物理学的逼真合成数据生成:使用 Cosmos 模型从NVIDIAOmniverse™ 平台上开发的可控 3D 场景中生成逼真视频。

 物理 AI 模型开发和评估:在基础模型上构建自定义模型,使用 Cosmos 进行强化学习以改进模型,或者测试模型在特定仿真场景中的表现。

 预测与“多元宇宙”模拟:使用 Cosmos 和 Omniverse 生成 AI 模型所有未来可能实现的结果,以便帮助其选择最佳和最准确的路径。


先进的世界模型开发工具

构建物理 AI 模型需要数 PB(petabytes)的视频数据以及数万小时的计算来处理、整理和标记这些数据。为了帮助节省在数据整理、训练和模型定制方面的巨大成本,Cosmos 提供了以下功能:


 NVIDIA NeMo™ Curator驱动的 NVIDIA AI 和 CUDA® 加速数据处理管线,使开发者能够使用 NVIDIA Blackwell 平台在 14 天内处理、整理和标记 2000 万小时的视频,而如果单纯使用 CPU 则需要 3 年以上。

 NVIDIA Cosmos Tokenizer是先进的可视化 tokenizer,可将图像和视频转换成 token。与当前领先的 tokenizer 相比,其总压缩率提高了 8 倍,处理速度提高了 12 倍。

 NVIDIA NeMo框架可用于高效的模型训练、定制和优化。


全球各大物理 AI 行业纷纷采用 Cosmos

物理 AI 行业的领先者已开始使用 Cosmos 技术。


AI 和人形机器人公司 1X 使用 Cosmos Tokenizer 推出了1X World Model Challenge数据集。小鹏汽车将使用 Cosmos 加快其人形机器人的开发。Hillbot 和 Skild AI 正在使用 Cosmos 加速其通用机器人的开发。


Agility 首席技术官 Pras Velagapudi 表示:“数据的稀缺性和可变性是在机器人环境中成功学习的主要挑战。借助 Cosmos 的文本、图像和视频到世界的能力,我们能够在各种任务中生成和增强逼真的场景并利用这些场景训练模型,而不需要采集那么多昂贵的真实数据。”


交通运输领域的领先企业也在使用 Cosmos 构建适用于自动驾驶汽车的物理AI:

 Waabi 是一家从自动驾驶汽车开始致力于开发物理世界生成式 AI 的先驱。该公司正在评估 Cosmos 在自动驾驶汽车软件开发和仿真中数据整理的应用。

 Wayve 是一家致力于开发自动驾驶 AI 基础模型的公司。该公司正在评估使用 Cosmos 搜索用于提高安全性和验证的极端驾驶场景。

 自动驾驶汽车工具链提供商 Foretellix 将使用 Cosmos 与NVIDIA Omniverse  Sensor RTX API大规模评估和生成高保真测试场景与训练数据。

 全球共享出行巨头Uber 正在与 NVIDIA 合作,共同加速自动驾驶汽车的发展。Uber 丰富的驾驶数据集在与 Cosmos 平台和NVIDIA DGX Cloud™的功能结合后,能够帮助自动驾驶汽车合作伙伴更加高效地构建更强大的 AI 模型。


Uber 首席执行官 Dara Khosrowshahi 表示:“生成式 AI 将驱动未来的移动出行,而这需要丰富的数据和非常强大的算力。相信在 NVIDIA 的助力下,我们能够帮助行业更快开发出安全、可扩展的自动驾驶解决方案。”


开发开放、安全和负责任的 AI

NVIDIA Cosmos 根据 NVIDIA 的可信 AI原则开发而成,该原则将优先考虑隐私、安全、保障、透明和减少不必要的偏见。


可信 AI 对于促进开发者社区创新和维护用户信任至关重要。NVIDIA 致力于实现安全、可信的 AI,这与全球的各个 AI 安全倡议相吻合。


Cosmos 开放平台加入了专为减少有害文字和图像而设计的护栏,并提供了一个增强文字提示准确性的工具。使用 NVIDIA API 目录上的 Cosmos 自回归模型和扩散模型生成的视频会带有隐形水印,可识别 AI 生成的内容,这有助于减少错误信息和错误归属的可能性。


NVIDIA 鼓励开发者采用可信 AI 实践,并进一步改进其应用的护栏和水印解决方案。


供货情况

Cosmos WFM 现在可以通过 NVIDIA在 Hugging Face 和 NVIDIA NGC 目录上的开放模型许可证获得,并且很快将以经过全面优化的NVIDIA NIM微服务形式提供。


开发者可以使用NVIDIA NeMo Curator加速视频处理,并使用NVIDIA NeMo定制自己的世界模型。然后,他们可以通过NVIDIA DGX Cloud快速、简单地部署这些模型,并获得NVIDIA AI Enterprise软件平台提供的企业支持。


NVIDIA 还宣布推出全新NVIDIA Llama Nemotron 大语言模型和 NVIDIA Cosmos Nemotron 视觉语言模型。开发者可将这些模型用于医疗、金融服务、制造等领域的企业 AI 用例。

本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:1633373438