OneThinker：一个模型，理解图像与视频的世界

你是否想象过，存在一个“全能”的AI，既能解答复杂的数学图表题，又能为视频中的物体进行精准追踪和分割？过去，我们需要为图像问答、视频分析、物体定位等不同任务训练不同的专用模型。但现在，这一切正被一个统一的“通才”所改变。

今天，我们将深入探讨 OneThinker —— 一个旨在统一图像与视频理解的多模态推理大模型。它在一个单一的框架内，掌握了包括问答、描述、定位、追踪、分割在内的十大核心视觉任务，向我们展示了迈向通用视觉智能的坚实一步。

一、 OneThinker是什么？它能做什么？

简单来说，OneThinker是一个“多面手”AI。它基于强大的Qwen3-VL模型构建，并通过大规模、多任务训练，获得了前所未有的泛化能力。

你可以向它提出各种各样的问题或指令：

看图解题： “根据这个几何图，如果∠ABD = 50°，那么∠BCD是多少度？”（它会一步步推理，最终给出答案C：40°）
视频问答： “这段视频中，主角在第三秒时手里拿着什么？”
物体定位（空间接地）： “请用框标出图片中那个穿红衣服的人。”
事件定位（时间接地）： “在这段电影预告片中，汽车爆炸发生在哪几秒？”
视频追踪： “给定第一帧中白色汽车的位置，请跟踪它在后续每一帧中的移动。”
图像/视频分割： “请把视频里个子较矮的那个人分割出来。”

所有这些任务，OneThinker都在同一个模型中处理。它先进行内部“思考”（生成推理链），然后输出结构化答案（如选项、坐标框、时间点等）。这种统一的设计不仅使其功能强大，更促进了不同任务间的知识迁移。

二、为什么OneThinker如此特别？它的核心技术是什么？

现有的视觉推理模型大多“各司其职”：有的专精图像，有的只处理视频；有的擅长答题，有的专攻检测。这种分割限制了模型的实用性和泛化潜力。OneThinker的雄心在于打破这些壁垒，其背后的三大支柱至关重要：

1. 大规模、高质量的训练数据：OneThinker-600K

要培养一个通才，就必须让它见识足够广博的世界。团队构建了包含约60万个样本的 OneThinker-600K 数据集。这个数据集覆盖了图像和视频两种模态，以及规则问答、开放问答、描述、空间/时间/时空定位、跟踪、分割等八大类任务。

为了给模型一个良好的推理起点，他们利用强大的Seed1.5-VL模型为数据生成了高质量的“思维链”注释，得到了 OneThinker-SFT-340K 数据集，用于模型的初始微调。

2. 创新的训练算法：EMA-GRPO

当把这么多不同任务放在一起用强化学习训练时，一个巨大的挑战出现了：奖励异构性。例如，数学题的奖励（对/错）和检测框的奖励（IoU重叠度）在数值范围、分布密度上完全不同。直接用传统方法训练，会导致模型偏向某些任务而忽略其他。

OneThinker提出了 EMA-GRPO 算法来巧妙解决这个问题。你可以把它理解为一个“智能平衡器”：

问题：传统方法在归一化奖励时，要么在单个任务内对难易样本不公平，要么在不同任务间对奖励尺度不同的任务不公平。
解决方案：EMA-GRPO为每个任务单独维护一个奖励标准差的指数移动平均值。在计算更新梯度时，用各自任务的这个动态尺度来进行归一化。
结果：这样既能保证同一任务内所有样本被公平对待，又能确保数学、检测、分割等不同任务对模型训练的贡献是平衡的。这就像为每个学科设置了不同的评分曲线，让偏科的学生也能全面发展。

3. 统一的任务与奖励格式

无论输入是图像还是视频，问题是什么类型，OneThinker都遵循统一的输出格式：

思考过程：模型将推理步骤写在 <think>...</think> 标签中。
最终答案：将结构化答案（如{"boxes": {...}}）或文本答案写在 <answer>...</answer> 标签中。

这种设计使得自动化的奖励计算成为可能。奖励通常由两部分组成：任务准确度奖励（R_acc）和格式正确奖励（R_format）。对于需要框、点等输出的任务，格式奖励确保了模型输出的可解析性。

三、 OneThinker的表现到底有多强？

理论说得好，实践见真章。OneThinker在涵盖10大类视觉任务的31个权威基准测试上接受了全面检验，其性能提升令人印象深刻。

以下是部分核心成绩摘要：

任务类别	代表性基准	Qwen3-VL-8B (基线)	OneThinker-8B	关键提升
图像问答	MMMU (综合多学科)	60.2%	70.6%	+10.4%
	MathVerse (数学推理)	58.1%	64.3%	+6.2%
视频问答	VideoMMMU (视频多学科)	63.3%	66.2%	+2.9%
	LongVideo-Reason (长视频推理)	71.5%	79.2%	+7.7%
空间定位	RefCOCO testA	92.2	93.7	+1.5
时间定位	ActivityNet R@0.5	26.1%	43.6%	+17.5%
视频追踪	GOT-10k AO	33.7	73.0	+39.3
视频分割	ReasonVOS J&F	19.6	54.9	+35.3

解读与洞见：

全面领先：在绝大多数任务上，OneThinker相比其基础模型Qwen3-VL都取得了显著提升，尤其在追踪、分割等感知型任务上提升巨大。
通才优势：它不仅在单一任务上表现出色，更展现了跨任务知识迁移的能力。例如，训练中包含的空间定位知识，帮助提升了图像问答和分割的性能；时间定位的训练，则显著增益了视频问答和追踪。
零样本泛化：在MMT-Bench的一些未经过专门训练的新任务（如点追踪、图像质量评估）上，OneThinker也展现出了优于基线的泛化能力，这证明了统一训练带来的强大潜力。

四、常见问题解答 (FAQ)

Q1: OneThinker和ChatGPT、Gemini等通用模型有什么区别？
A1: 虽然都是多模态模型，但侧重点不同。ChatGPT等是通用的对话和内容生成模型，覆盖文本、图像、音频等广泛领域。OneThinker则更专注于视觉深度推理和精细化感知任务，特别是在需要输出精确空间/时间坐标（如画框、定位、分割）的任务上，它通过专门的训练和输出格式，实现了更可靠、更结构化的结果。可以将其视为在视觉专业领域更精深的“专家”。

Q2: “统一模型”会不会导致它在每个任务上都不如专用模型？
A2: 从论文结果来看，OneThinker在许多任务上已经达到或超越了同规模的专用模型（如Video-R1, Seg-R1）。更重要的是，统一训练带来了1+1>2的效果：跨任务的知识共享让模型获得了更全面的视觉理解能力，这反而可能在某些复杂、需要综合能力的场景下优于单一任务的模型。当然，与某些在超大数据上训练的顶尖商用专用模型相比，可能仍有差距，但OneThinker证明了统一路径的可行性。

Q3: 我可以自己试用或研究OneThinker吗？
A3: 完全可以！ 这正是该项目最值得称道的一点。作者团队已经完全开源了所有资源：

📄 论文：详细阐述了方法与实验。
🤖 模型权重：包括8B参数的最终模型和SFT阶段模型。
📊 训练与评估数据：包含600K的训练数据集和各个基准的评估文件。
💻 完整代码：提供了从环境配置、SFT训练、RL训练到评估的全套流程脚本。

Q4: 它的技术栈是什么？训练成本高吗？
A4: OneThinker基于Qwen3-VL架构，使用LLaMA-Factory进行SFT训练，使用EasyR1进行强化学习训练。根据论文，训练需要至少8张80GB显存的GPU（如H800）。完整训练过程约需10天。对于普通研究者，如果资源有限，可以直接使用他们发布的预训练模型进行推理或进一步微调。

五、如何开始使用OneThinker？

如果你是一名开发者或研究者，想要运行或研究OneThinker，可以遵循以下步骤：

环境设置

项目需要配置两个环境：一个用于SFT，一个用于RL。

# 1. 克隆代码
git clone https://github.com/tulerfeng/OneThinker
cd OneThinker

# 2. 构建SFT环境 (使用LLaMA-Factory)
conda create -n llamafactory python=3.11
conda activate llamafactory
cd LLaMA-Factory
pip install -e ".[torch,metrics]" --no-build-isolation

# 3. 构建RL环境 (使用EasyR1)
conda create -n easyr1 python=3.11
conda activate easyr1
cd EasyR1
pip install -e .

获取数据与模型

从Hugging Face仓库下载训练数据集 OneThinker-train-data 并解压。
下载评估数据集 OneThinker-eval。
下载训练好的模型 OneThinker-8B-model 或 SFT模型 OneThinker-SFT-Qwen3-8B。

运行训练（可选，资源要求高）

如果你想复现训练过程：

# SFT冷启动训练
bash ./LLaMA-Factory/local_scripts/run_onethinker_sft.sh

# RL训练（基于SFT模型）
bash ./EasyR1/local_scripts/run_onethinker_rl.sh

进行推理与评估

对单条样本进行推理：

python ./Evaluation/inference_single/inference.py

在全部基准上进行评估：

bash ./Evaluation/Eval/eval_bench_all.sh

对于图像和部分视频QA任务，也可以使用VLMEvalKit进行评估。

六、总结与展望

OneThinker为我们勾勒了一个令人兴奋的未来图景：一个真正意义上的多模态推理通才。它通过精心构建的数据集、创新的EMA-GRPO算法以及统一的任务框架，成功地将图像与视频、认知与感知融合在一个模型中。

这项工作带来的启示是深远的：

可行性验证：它证明了统一训练大规模、异构视觉任务是可行的，并且能带来性能增益和知识迁移。
开源精神：完全开源的模型、代码和数据，极大地降低了社区的研究门槛，必将推动该领域的快速发展。
方向指引：为迈向更通用的人工智能（AGI）提供了一条切实可行的技术路径。

当然，这条路还很长。如何扩展到更复杂的任务、处理更长的视频、融入更多的模态（如音频），都是未来的挑战。但OneThinker无疑已经迈出了关键且坚实的一步。它不仅仅是一个强大的工具，更是一个关于如何构建下一代AI系统的启发性范例。

对于任何对多模态AI、计算机视觉或通用人工智能感兴趣的人来说，OneThinker都是一个值得深入关注和探索的宝藏项目。

相关资源链接

项目主页与代码: https://github.com/tulerfeng/OneThinker
论文: https://arxiv.org/abs/2512.03043
🤗 Hugging Face 模型与数据仓库: https://huggingface.co/OneThink

OneThinker：颠覆视觉AI的统一模型如何实现10项全能？