探索NVIDIA Cosmos Reason2:物理AI与机器人学的推理视觉语言模型

摘要

NVIDIA Cosmos Reason2是一个开源、可定制的推理视觉语言模型(VLM),专为物理AI和机器人设计。它理解空间、时间和基本物理原理,能作为规划模型,帮助机器人使用先验知识、物理理解和常识在现实世界中行动。模型包括2B和8B参数版本,支持视频分析、数据 curation 和机器人规划,需至少24GB GPU内存,支持Hopper和Blackwell架构。

引言:为什么物理AI需要像人类一样“思考”?

想象一下,你正在设计一个机器人,它需要在未知环境中导航:避开障碍物、预测物体运动,甚至根据常识决定下一步行动。这听起来像科幻,但NVIDIA Cosmos Reason2正让它成为现实。作为一名在AI和机器人领域工作多年的从业者,我经常遇到这样的挑战:如何让机器不只是“看”,而是真正“理解”物理世界?Cosmos Reason2通过后训练注入物理常识和具身推理能力,解决了这个问题。它使用链式思考(chain-of-thought)来模拟人类推理,无需人类标注,就能处理多样化的物理场景。

这个模型家族于2025年12月19日发布,包括2B和8B参数版本,现在已在Hugging Face上可用。无论你是机器人开发者,还是视频分析专家,这篇文章将带你一步步了解如何设置、使用和扩展它。我们会从基础开始,逐步深入,确保你能轻松上手。

NVIDIA Cosmos

模型家族:选择适合你的Cosmos Reason2版本

Cosmos Reason2家族包括两个主要模型:Cosmos-Reason2-2B和Cosmos-Reason2-8B。每个都基于Qwen3-VL架构,专为多模态输入设计,能处理文本提示加上视频或图像。

  • Cosmos-Reason2-2B:参数量为2B(具体为2,000,000,000左右),适合入门级应用。最小GPU内存需求24GB,适用于视频字幕生成或简单具身推理任务。
  • Cosmos-Reason2-8B:参数量精确为8,767,123,696,更强大,支持长上下文理解高达256K输入令牌。最小GPU内存32GB,增强了时空理解、时间戳精度和对象检测(包括2D/3D点定位和边界框坐标)。

这些模型在后训练中使用监督微调和强化学习,注入物理常识和具身推理数据。结果?它们能处理长尾多样化物理场景,比如快速相机移动、重叠人-物交互或低光高模糊环境下的复杂动态。

如果你是初学者,从2B版本开始测试;对于生产级应用,如机器人规划,8B版本提供更精确的时空推理。模型开发者是NVIDIA,确保了商业可用性。

新功能亮点:Cosmos Reason2的升级点

与前代相比,Cosmos Reason2引入了几个关键改进,让它在物理AI中脱颖而出:

  • 增强物理AI推理:改善时空理解和时间戳精度,能精确定位视频帧中的事件。
  • 对象检测支持:提供2D/3D点定位、边界框坐标,并附带推理解释和标签。
  • 长上下文处理:输入令牌上限256K,适合分析长视频或复杂指令。

用例包括:

  • 视频分析AI代理:从海量视频中提取洞见,进行根因分析。适用于城市或工业操作的录制或实时视频流。
  • 数据 curation 和标注:自动化高质量数据集过滤、标注和去重。NVIDIA Cosmos Curator框架以此为基础,帮助处理物理AI开发所需的大量传感器数据。
  • 机器人规划和推理:作为视觉语言动作(VLA)模型的“大脑”,解释环境、分解复杂命令,并在陌生环境中使用常识执行任务。适用于人形机器人或自动驾驶车辆(AV)。

这些功能让模型成为物理AI的规划核心,能预测具身代理的下一步行动。

设置环境:从零开始安装Cosmos Reason2

设置Cosmos Reason2的环境并不复杂,但需要注意硬件兼容性。模型在Hopper和Blackwell GPU上工作良好,已在NVIDIA H100(CUDA 12.8)、GB200(CUDA 13.0)、DGX Spark(CUDA 13.0)和Jetson AGX Thor(CUDA 13.0)上测试。其他配置可能兼容,但未正式验证。

选择你的环境

你有两种主要选项:虚拟环境或Docker容器。

虚拟环境设置

  1. 安装系统依赖:

    sudo apt-get install curl ffmpeg git git-lfs
    
  2. 安装uv工具:

    curl -LsSf https://astral.sh/uv/install.sh | sh
    source $HOME/.local/bin/env
    
  3. 安装Hugging Face CLI并登录:

    uv tool install -U huggingface_hub
    hf auth login
    
  4. 克隆仓库并安装:

    git clone https://github.com/nvidia-cosmos/cosmos-reason2.git
    cd cosmos-reason2
    uv sync --extra cu128
    source .venv/bin/activate
    

    CUDA变体:

    CUDA版本 参数 注意事项
    12.8 –extra cu128 需要相应NVIDIA驱动
    13.0 –extra cu130 DGX Spark和Jetson AGX必须用此;设置TRITON_PTXAS_PATH=”/usr/local/cuda/bin/ptxas”

Docker容器设置

确保有Docker和NVIDIA Container Toolkit。

  1. 构建镜像:

    image_tag=$(docker build -f Dockerfile --build-arg=CUDA_VERSION=12.8.1 -q .)
    

    CUDA变体类似上表。

  2. 运行容器:

    docker run -it --gpus all --ipc=host --rm -v .:/workspace -v /workspace/.venv -v /workspace/examples/cosmos_rl/.venv -v /root/.cache:/root/.cache -e HF_TOKEN="$HF_TOKEN" $image_tag
    

    可选参数解释:

    • –ipc=host:处理并行torchrun的高共享内存需求。
    • -v /root/.cache:/root/.cache:避免重复下载缓存。
    • -e HF_TOKEN=”$HF_TOKEN”:设置Hugging Face令牌。

这些步骤确保你能快速启动,而无需仓库本身运行推理——只需参考inference_sample.py脚本。

推理指南:如何用Cosmos Reason2处理视频和图像

推理是Cosmos Reason2的核心功能,支持Transformers和vLLM部署。最小GPU内存:2B模型24GB,8B模型32GB。

使用Transformers进行推理

Cosmos Reason2集成在transformers>=4.57.0中。

最小示例(处理视频):

import transformers
import torch

model_name = "nvidia/Cosmos-Reason2-2B"
model = transformers.Qwen3VLForConditionalGeneration.from_pretrained(
    model_name, dtype=torch.float16, device_map="auto", attn_implementation="sdpa"
)
processor: transformers.Qwen3VLProcessor = (
    transformers.AutoProcessor.from_pretrained(model_name)
)

video_messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}],
    },
    {"role": "user", "content": [
            {
                "type": "video",
                "video": "file:///path/to/your/video.mp4",
                "fps": 4,
            },
            {"type": "text", "text": (
                    "Is it safe to turn right? Answer the question using the following format:\n\n<think>\nYour reasoning.\n</think>\n\nWrite your final answer immediately after the </think> tag."
                )
            },
        ]
    },
]

# Process inputs
inputs = processor.apply_chat_template(
    video_messages,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt",
    fps=4,
)
inputs = inputs.to(model.device)

# Run inference
generated_ids = model.generate(**inputs, max_new_tokens=4096)
generated_ids_trimmed = [
    out_ids[len(in_ids) :]
    for in_ids, out_ids in zip(inputs.input_ids, generated_ids, strict=False)
]
output_text = processor.batch_decode(
    generated_ids_trimmed,
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False,
)

关键提示:

  • 输入:文本+视频(mp4,FPS=4匹配训练设置)或图像(jpg)。
  • 输出:文本字符串,使用和格式鼓励长链式思考。
  • 推荐max_new_tokens=4096或更多,避免截断长响应。
  • 模型识别帧底时间戳,用于精确时序定位。

在Jetson AGX上,支持Transformers推理;vLLM推理即将到来。

部署:在线服务和离线推理

使用vLLM>=11.0.0进行部署。

在线服务

启动服务器:

vllm serve nvidia/Cosmos-Reason2-2B \
  --allowed-local-media-path "$(pwd)" \
  --max-model-len 16384 \
  --media-io-kwargs '{"video": {"num_frames": -1}}' \
  --reasoning-parser qwen3 \
  --port 8000

可选:

  • –max-model-len 16384:范围8192-16384,避免OOM。
  • –media-io-kwargs:允许每样本覆盖FPS。
  • –reasoning-parser qwen3:解析推理轨迹。
  • –port 8000:避免地址冲突。

启动后,视频字幕示例:

cosmos-reason2-inference online --port 8000 -i prompts/caption.yaml --reasoning --videos assets/sample.mp4 --fps 4

具身推理示例(带详细输出):

cosmos-reason2-inference online -v --port 8000 -i prompts/embodied_reasoning.yaml --reasoning --images assets/sample.png

离线推理

时序字幕视频并保存帧调试:

cosmos-reason2-inference offline -v --max-model-len 16384 -i prompts/temporal_localization.yaml --videos assets/sample.mp4 --fps 4 -o outputs/temporal_localization

常见参数:

  • –model nvidia/Cosmos-Reason2-2B:模型名或路径。

这些工具让部署变得简单,适合批量处理或实时服务。

后训练:自定义你的Cosmos Reason2

Cosmos Reason2支持后训练,使用TRL和Cosmos-RL示例。

  • TRL:见examples/notebooks/README.md,用于监督微调。
  • Cosmos-RL:见examples/cosmos_rl/README.md,用于强化学习具身推理数据集。

训练数据集包括EgoExo4D、PerceptionTest、Language Table、IntPhys、InfLevel和CLEVRER,混合自动/传感器收集和人类/自动化标注。评估数据集相同,提供多模态视频、传感器信号和结构化物理推理覆盖。

数据格式:视频(mp4)和文本。

通过这些,你能微调模型以适应特定机器人任务。

量化:优化性能

使用llmcompressor进行量化(见docs/llmcompressor.md)。这减少内存需求,同时保持推理质量。适用于边缘设备如Jetson AGX。

故障排除:常见问题解决

遇到问题?参考docs/troubleshooting.md。常见包括:

  • OOM:降低max-model-len。
  • CUDA兼容:确保驱动匹配。
  • 服务器启动失败:检查端口。

对于DGX Spark和Jetson,始终用CUDA 13.0并设置TRITON_PTXAS_PATH。

附加资源:深入探索

  • 故障排除:docs/troubleshooting.md
  • 示例提示:prompts/README.md
  • 基于Qwen3-VL架构:参考Qwen3-VL仓库、vLLM文档和Qwen3文档。
  • vLLM资源:在线服务、离线推理、多模态输入和LoRA。

许可和联系:使用时的注意事项

NVIDIA Cosmos源代码在Apache 2.0许可下发布。模型在NVIDIA Open Model License下,版本发布日期2025年9月23日。

关键条款:

  • 商业可用;可创建和分发衍生模型;NVIDIA不声称输出所有权。
  • 定义:衍生模型包括模型修改;法律实体定义控制关系。
  • 使用条件:遵守AI伦理(NVIDIA Trustworthy AI条款);若绕过防护,你的权利终止;模型可能指定为专用目的。
  • 许可授予:永久、世界范围、非独占、无费用、可撤销许可,用于表演、显示、复制、使用、创建衍生、制造、销售、分发和进口。
  • IP所有权:NVIDIA拥有模型及其衍生;你拥有你的衍生;无输出所有权。
  • 再分发:提供本协议副本;包含“NVIDIA Corporation许可”和“基于NVIDIA Cosmos”归属。
  • 单独组件:可能包括开源许可。
  • 免责:AS IS,无保证。
  • 责任限制:无损害责任。
  • 赔偿:你赔偿NVIDIA第三方索赔。
  • 反馈:NVIDIA可无偿使用。
  • 管辖:美国和特拉华法律;圣克拉拉县法院管辖。
  • 贸易合规:遵守出口、进口、贸易和制裁法。

对于自定义许可,联系cosmos-license@nvidia.com。

重要:若绕过防护(如技术限制、安全护栏),权利自动终止。

FAQ:解答你的疑问

Cosmos Reason2适合哪些硬件?

已测试H100 (CUDA 12.8)、GB200 (13.0)、DGX Spark (13.0)和Jetson AGX Thor (13.0)。Hopper和Blackwell兼容。

如何处理长视频?

用FPS=4;max_new_tokens=4096+;长上下文支持256K令牌。

模型能检测对象吗?

是的,8B版本支持2D/3D点、边界框和解释。

训练数据集是什么?

EgoExo4D、PerceptionTest等,混合收集和标注,覆盖视频和物理推理。

如何自定义模型?

用TRL微调或Cosmos-RL强化学习。

许可允许商业用吗?

是的,但遵守NVIDIA Open Model License。

How-To:一步步构建视频分析代理

  1. 准备环境:跟随虚拟环境设置,安装依赖。
  2. 加载模型:用Transformers加载nvidia/Cosmos-Reason2-8B。
  3. 准备输入:创建video_messages,包括系统提示和用户内容(视频路径、FPS=4、文本提示如“分析安全转弯”)。
  4. 处理和生成:应用chat_template,生成输出。
  5. 解析响应:用和提取推理和答案。
  6. 部署:用vLLM在线服务,集成到代理中。
  7. 测试:用样例视频,检查时空精度。

这个流程能扩展到根因分析或实时流。

伦理考虑:负责任使用Cosmos Reason2

NVIDIA强调可信AI是共享责任。模型应用需符合Trustworthy AI条款。

  • 偏见缓解:训练视频来源包括多种物理体现(如人类、汽车、机器人)和环境(室内/室外),通过多样数据集减少偏见。
  • 可解释性:模型类型为Transformer;输出文本;工作方式:视觉编码器+投影器+LLM模块,支持步步思考。
  • 隐私:无生成或逆向工程个人数据;数据集前审查;符合隐私政策。
  • 安全:无已知生命关键影响;限制:最小特权原则;模型/数据集访问控制。

潜在风险:输出可能生成有害文本;用户负责输入/输出和护栏。

性能指标:物理AI基准排行,使用定量/定性评估,如视觉问答准确率。

质量基准:Cosmos Reason2的表现

在Physical AI Bench Leaderboard上,Cosmos-Reason2-8B在时空理解和具身推理中表现出色。基准包括EgoExo4D等数据集,评估准确率。

PAI Bench Leaderboard

系统要求:H100/A100测试;BF16精度推理;32GB+ GPU内存。

结语:开启物理AI新时代

Cosmos Reason2不仅仅是模型,它是通往智能机器人的桥梁。通过理解物理世界,它帮助开发者构建更可靠的AI代理。无论视频 curation 还是机器人规划,从设置到部署,这篇文章提供了实用指导。开始你的旅程吧——克隆仓库,运行样例,探索无限可能。如果你有反馈,NVIDIA随时欢迎。