OneThinker:一个模型,理解图像与视频的世界
你是否想象过,存在一个“全能”的AI,既能解答复杂的数学图表题,又能为视频中的物体进行精准追踪和分割?过去,我们需要为图像问答、视频分析、物体定位等不同任务训练不同的专用模型。但现在,这一切正被一个统一的“通才”所改变。
今天,我们将深入探讨 OneThinker —— 一个旨在统一图像与视频理解的多模态推理大模型。它在一个单一的框架内,掌握了包括问答、描述、定位、追踪、分割在内的十大核心视觉任务,向我们展示了迈向通用视觉智能的坚实一步。
一、 OneThinker是什么?它能做什么?
简单来说,OneThinker是一个“多面手”AI。它基于强大的Qwen3-VL模型构建,并通过大规模、多任务训练,获得了前所未有的泛化能力。
你可以向它提出各种各样的问题或指令:
-
看图解题: “根据这个几何图,如果∠ABD = 50°,那么∠BCD是多少度?”(它会一步步推理,最终给出答案C:40°) -
视频问答: “这段视频中,主角在第三秒时手里拿着什么?” -
物体定位(空间接地): “请用框标出图片中那个穿红衣服的人。” -
事件定位(时间接地): “在这段电影预告片中,汽车爆炸发生在哪几秒?” -
视频追踪: “给定第一帧中白色汽车的位置,请跟踪它在后续每一帧中的移动。” -
图像/视频分割: “请把视频里个子较矮的那个人分割出来。”
所有这些任务,OneThinker都在同一个模型中处理。它先进行内部“思考”(生成推理链),然后输出结构化答案(如选项、坐标框、时间点等)。这种统一的设计不仅使其功能强大,更促进了不同任务间的知识迁移。
二、 为什么OneThinker如此特别?它的核心技术是什么?
现有的视觉推理模型大多“各司其职”:有的专精图像,有的只处理视频;有的擅长答题,有的专攻检测。这种分割限制了模型的实用性和泛化潜力。OneThinker的雄心在于打破这些壁垒,其背后的三大支柱至关重要:
1. 大规模、高质量的训练数据:OneThinker-600K
要培养一个通才,就必须让它见识足够广博的世界。团队构建了包含约60万个样本的 OneThinker-600K 数据集。这个数据集覆盖了图像和视频两种模态,以及规则问答、开放问答、描述、空间/时间/时空定位、跟踪、分割等八大类任务。
为了给模型一个良好的推理起点,他们利用强大的Seed1.5-VL模型为数据生成了高质量的“思维链”注释,得到了 OneThinker-SFT-340K 数据集,用于模型的初始微调。
2. 创新的训练算法:EMA-GRPO
当把这么多不同任务放在一起用强化学习训练时,一个巨大的挑战出现了:奖励异构性。例如,数学题的奖励(对/错)和检测框的奖励(IoU重叠度)在数值范围、分布密度上完全不同。直接用传统方法训练,会导致模型偏向某些任务而忽略其他。
OneThinker提出了 EMA-GRPO 算法来巧妙解决这个问题。你可以把它理解为一个“智能平衡器”:
-
问题:传统方法在归一化奖励时,要么在单个任务内对难易样本不公平,要么在不同任务间对奖励尺度不同的任务不公平。 -
解决方案:EMA-GRPO为每个任务单独维护一个奖励标准差的指数移动平均值。在计算更新梯度时,用各自任务的这个动态尺度来进行归一化。 -
结果:这样既能保证同一任务内所有样本被公平对待,又能确保数学、检测、分割等不同任务对模型训练的贡献是平衡的。这就像为每个学科设置了不同的评分曲线,让偏科的学生也能全面发展。
3. 统一的任务与奖励格式
无论输入是图像还是视频,问题是什么类型,OneThinker都遵循统一的输出格式:
-
思考过程:模型将推理步骤写在 <think>...</think>标签中。 -
最终答案:将结构化答案(如 {"boxes": {...}})或文本答案写在<answer>...</answer>标签中。
这种设计使得自动化的奖励计算成为可能。奖励通常由两部分组成:任务准确度奖励(R_acc)和格式正确奖励(R_format)。对于需要框、点等输出的任务,格式奖励确保了模型输出的可解析性。
三、 OneThinker的表现到底有多强?
理论说得好,实践见真章。OneThinker在涵盖10大类视觉任务的31个权威基准测试上接受了全面检验,其性能提升令人印象深刻。
以下是部分核心成绩摘要:
| 任务类别 | 代表性基准 | Qwen3-VL-8B (基线) | OneThinker-8B | 关键提升 |
|---|---|---|---|---|
| 图像问答 | MMMU (综合多学科) | 60.2% | 70.6% | +10.4% |
| MathVerse (数学推理) | 58.1% | 64.3% | +6.2% | |
| 视频问答 | VideoMMMU (视频多学科) | 63.3% | 66.2% | +2.9% |
| LongVideo-Reason (长视频推理) | 71.5% | 79.2% | +7.7% | |
| 空间定位 | RefCOCO testA | 92.2 | 93.7 | +1.5 |
| 时间定位 | ActivityNet R@0.5 | 26.1% | 43.6% | +17.5% |
| 视频追踪 | GOT-10k AO | 33.7 | 73.0 | +39.3 |
| 视频分割 | ReasonVOS J&F | 19.6 | 54.9 | +35.3 |
解读与洞见:
-
全面领先:在绝大多数任务上,OneThinker相比其基础模型Qwen3-VL都取得了显著提升,尤其在追踪、分割等感知型任务上提升巨大。 -
通才优势:它不仅在单一任务上表现出色,更展现了跨任务知识迁移的能力。例如,训练中包含的空间定位知识,帮助提升了图像问答和分割的性能;时间定位的训练,则显著增益了视频问答和追踪。 -
零样本泛化:在MMT-Bench的一些未经过专门训练的新任务(如点追踪、图像质量评估)上,OneThinker也展现出了优于基线的泛化能力,这证明了统一训练带来的强大潜力。
四、 常见问题解答 (FAQ)
Q1: OneThinker和ChatGPT、Gemini等通用模型有什么区别?
A1: 虽然都是多模态模型,但侧重点不同。ChatGPT等是通用的对话和内容生成模型,覆盖文本、图像、音频等广泛领域。OneThinker则更专注于视觉深度推理和精细化感知任务,特别是在需要输出精确空间/时间坐标(如画框、定位、分割)的任务上,它通过专门的训练和输出格式,实现了更可靠、更结构化的结果。可以将其视为在视觉专业领域更精深的“专家”。
Q2: “统一模型”会不会导致它在每个任务上都不如专用模型?
A2: 从论文结果来看,OneThinker在许多任务上已经达到或超越了同规模的专用模型(如Video-R1, Seg-R1)。更重要的是,统一训练带来了1+1>2的效果:跨任务的知识共享让模型获得了更全面的视觉理解能力,这反而可能在某些复杂、需要综合能力的场景下优于单一任务的模型。当然,与某些在超大数据上训练的顶尖商用专用模型相比,可能仍有差距,但OneThinker证明了统一路径的可行性。
Q3: 我可以自己试用或研究OneThinker吗?
A3: 完全可以! 这正是该项目最值得称道的一点。作者团队已经完全开源了所有资源:
-
📄 论文:详细阐述了方法与实验。 -
🤖 模型权重:包括8B参数的最终模型和SFT阶段模型。 -
📊 训练与评估数据:包含600K的训练数据集和各个基准的评估文件。 -
💻 完整代码:提供了从环境配置、SFT训练、RL训练到评估的全套流程脚本。
Q4: 它的技术栈是什么?训练成本高吗?
A4: OneThinker基于Qwen3-VL架构,使用LLaMA-Factory进行SFT训练,使用EasyR1进行强化学习训练。根据论文,训练需要至少8张80GB显存的GPU(如H800)。完整训练过程约需10天。对于普通研究者,如果资源有限,可以直接使用他们发布的预训练模型进行推理或进一步微调。
五、 如何开始使用OneThinker?
如果你是一名开发者或研究者,想要运行或研究OneThinker,可以遵循以下步骤:
环境设置
项目需要配置两个环境:一个用于SFT,一个用于RL。
# 1. 克隆代码
git clone https://github.com/tulerfeng/OneThinker
cd OneThinker
# 2. 构建SFT环境 (使用LLaMA-Factory)
conda create -n llamafactory python=3.11
conda activate llamafactory
cd LLaMA-Factory
pip install -e ".[torch,metrics]" --no-build-isolation
# 3. 构建RL环境 (使用EasyR1)
conda create -n easyr1 python=3.11
conda activate easyr1
cd EasyR1
pip install -e .
获取数据与模型
-
从Hugging Face仓库下载训练数据集 OneThinker-train-data并解压。 -
下载评估数据集 OneThinker-eval。 -
下载训练好的模型 OneThinker-8B-model或 SFT模型OneThinker-SFT-Qwen3-8B。
运行训练(可选,资源要求高)
如果你想复现训练过程:
# SFT冷启动训练
bash ./LLaMA-Factory/local_scripts/run_onethinker_sft.sh
# RL训练(基于SFT模型)
bash ./EasyR1/local_scripts/run_onethinker_rl.sh
进行推理与评估
对单条样本进行推理:
python ./Evaluation/inference_single/inference.py
在全部基准上进行评估:
bash ./Evaluation/Eval/eval_bench_all.sh
对于图像和部分视频QA任务,也可以使用VLMEvalKit进行评估。
六、 总结与展望
OneThinker为我们勾勒了一个令人兴奋的未来图景:一个真正意义上的多模态推理通才。它通过精心构建的数据集、创新的EMA-GRPO算法以及统一的任务框架,成功地将图像与视频、认知与感知融合在一个模型中。
这项工作带来的启示是深远的:
-
可行性验证:它证明了统一训练大规模、异构视觉任务是可行的,并且能带来性能增益和知识迁移。 -
开源精神:完全开源的模型、代码和数据,极大地降低了社区的研究门槛,必将推动该领域的快速发展。 -
方向指引:为迈向更通用的人工智能(AGI)提供了一条切实可行的技术路径。
当然,这条路还很长。如何扩展到更复杂的任务、处理更长的视频、融入更多的模态(如音频),都是未来的挑战。但OneThinker无疑已经迈出了关键且坚实的一步。它不仅仅是一个强大的工具,更是一个关于如何构建下一代AI系统的启发性范例。
对于任何对多模态AI、计算机视觉或通用人工智能感兴趣的人来说,OneThinker都是一个值得深入关注和探索的宝藏项目。
相关资源链接
-
项目主页与代码: https://github.com/tulerfeng/OneThinker -
论文: https://arxiv.org/abs/2512.03043 -
🤗 Hugging Face 模型与数据仓库: https://huggingface.co/OneThink

