Gemini 2.5 Deep Think:当AI开始深入思考
Gemini 2.5 Deep Think 现已对 Ultra 订阅用户开放!它在处理需要创造力和规划的问题时表现出色,通过同时考虑、修改和组合许多想法来找到最佳答案。这是刚刚达到 IMO 金牌水平的模型的更快版本。尽情享受吧!
你是否曾经希望AI不仅能快速回答问题,还能真正”思考”问题?就像人类面对复杂挑战时会花时间探索不同角度、权衡潜在解决方案,然后才得出最佳答案。现在,Google推出了Gemini 2.5 Deep Think,让这种深度思考能力成为现实。
什么是Deep Think?
Deep Think是Google最新推出的AI思考模式,专为解决需要创造力、战略规划和逐步改进的复杂问题而设计。它不是简单地加快响应速度,而是从根本上改变了AI处理复杂任务的方式。
如果你是Google AI Ultra订阅者,现在就可以在Gemini应用中体验这一功能。这不是一个简单的升级,而是AI思考方式的一次革新。
Deep Think如何工作:不只是更快,而是更深入
想象一下,当你面对一个复杂的数学问题或需要创造性解决方案的挑战时,你会怎么做?大多数人不会立即给出答案,而是会:
-
花时间探索问题的不同角度 -
考虑多种可能的解决方案 -
权衡每种方案的优缺点 -
逐步完善思路,最终得出最佳答案
Deep Think正是模仿了这种人类思考过程,但它使用了一种称为”并行思考”的技术。这意味着Gemini可以同时生成多个想法并考虑它们,甚至随时间修订或组合不同的想法,然后才得出最佳答案。
这种技术的关键在于延长了推理时间或”思考时间”。通过给予Gemini更多时间来探索不同的假设,它能够为复杂问题找到更具创造性的解决方案。
Google还开发了新的强化学习技术,鼓励模型充分利用这些扩展的推理路径,使Deep Think能够随着时间的推移成为更好的、更直观的问题解决者。
Deep Think的实际应用:从数学到代码
Deep Think不是理论上的进步,它已经在实际应用中展现出令人印象深刻的能力:
1. 科学和数学发现
Deep Think能够帮助研究人员解决高度复杂的问题。它可以协助制定和探索数学猜想,或者推理复杂的科学文献,有可能加速发现过程。
Google已经将Deep Think提供给像Michel van Garrel这样的数学家,用于测试数学猜想。更令人印象深刻的是,完整的Gemini 2.5 Deep Think模型最近在国际数学奥林匹克竞赛(IMO)中达到了金牌标准。
虽然用于IMO竞赛的完整模型需要数小时来推理复杂的数学问题,但今天在Gemini应用中推出的版本更快、更适合日常使用,同时仍能达到2025 IMO基准的铜牌水平。
2. 迭代开发和设计
我们对Deep Think在需要逐步构建复杂事物的任务中的表现印象深刻。例如,在网页开发任务中,Deep Think能够同时改进美学和功能性。
3. 算法开发和编码
Deep Think特别擅长解决那些问题表述和仔细考虑权衡及时间复杂性至关重要的编码难题。在竞争性编程问题中,它表现出色。
性能表现:数据说话
Deep Think的性能不仅仅体现在理论上的改进,它在多个具有挑战性的基准测试中也表现出色:
能力领域 | 基准测试 | Gemini 2.5 Pro | Gemini 2.5 Deep Think | OpenAI o3 | Grok 4 |
---|---|---|---|---|---|
推理与知识 | Humanity’s Last Exam (无工具) | 21.6% | 34.8% | 20.3% | 25.4% |
数学 | IMO 2025 | 31.6% (无奖牌) | 60.7% (铜牌等级) | 16.7% (无奖牌) | 21.4% (无奖牌) |
数学 | AIME 2025 | 88.0% | 99.2% | 88.9% | 91.7% |
代码生成 | LiveCodeBench v6 | 74.2% | 87.6% | 72.0% | 79.0% |
这些数据表明,Deep Think在多项关键能力上都有显著提升,特别是在需要深度推理的领域。
Deep Think的技术细节
模型架构
Gemini 2.5 Deep Think是Gemini 2.5系列的一部分,采用稀疏混合专家(MoE)架构。这种架构允许模型激活每个输入token的模型参数子集,通过学习将token动态路由到参数子集(专家)。这使得模型能够在总模型容量与每个token的计算和服务成本之间解耦。
输入与输出
-
输入:文本字符串(例如问题、提示、要总结的文档)、图像、音频和视频文件,具有1M token的上下文窗口 -
输出:文本,有192K token的输出能力
安全与负责任的AI开发
随着AI问题解决能力的提升,Google也在深入研究与复杂性增加相关的风险,包括对前沿安全评估的更深入审视,以及为关键能力水平实施计划中的缓解措施。
安全评估结果
在测试中,Gemini 2.5 Deep Think在内容安全和语气客观性方面比Gemini 2.5 Pro有所改进,但确实有更高的倾向拒绝无害请求。
评估类型 | 描述 | Gemini 2.5 Deep Think vs. Gemini 2.5 Pro |
---|---|---|
文本到文本安全 | 自动化内容安全评估 | -16.3% |
多语言安全 | 多语言安全政策评估 | -1.0% |
图像到文本安全 | 自动化内容安全评估 | +2.1%(非严重) |
语气 | 测量模型拒绝的客观语气 | +16.3% |
指令遵循 | 测量模型在保持安全的同时遵循指令的能力 | -9.9% |
注:正百分比增加表示在敏感话题上模型语气和模型在保持安全的同时遵循指令的能力有所改进。改进用绿色标记,退步用红色标记。
前沿安全评估
Google DeepMind在2024年5月发布了前沿安全框架(FSF),并在2025年2月进行了更新。该框架包括一系列针对其前沿模型可能带来的严重伤害风险的流程和评估。
对于CBRN(化学、生物、放射性和核)Uplift Level 1,评估认为该模型在某些CBRN场景和阶段具有足够的技术知识,被认为达到了早期预警阈值。作为预防措施,Google已经实施了额外的缓解措施。
对于网络安全Uplift Level 1,早期预警警报阈值最初由Gemini 2.5 Pro达到,并继续由Gemini 2.5 Deep Think满足。Google已经部署了缓解措施,并继续更频繁地进行测试。
如何使用Deep Think
如果你是Google AI Ultra订阅者,今天就可以在Gemini应用中使用Deep Think:
-
打开Gemini应用 -
在模型下拉菜单中选择2.5 Pro -
在提示栏中切换”Deep Think” -
开始使用预设的一组每日提示
Deep Think会自动与代码执行和Google搜索等工具配合使用,并且可以生成更长的响应。
Google还计划在未来几周内通过Gemini API向一组受信任的测试者发布带有和不带工具的Deep Think,以更好地了解其对开发人员和企业用例的可用性。
常见问题解答
Deep Think和普通Gemini有什么区别?
Deep Think不是更快的Gemini,而是思考方式不同的Gemini。它使用并行思考技术,让AI同时探索多个思路,而不是只走一条推理路径。这使得它能够更好地解决需要创造力和战略规划的复杂问题。
我需要什么才能使用Deep Think?
目前,Deep Think仅对Google AI Ultra订阅者可用。如果你是Ultra订阅者,可以在Gemini应用中通过切换提示栏中的”Deep Think”选项来使用它。
Deep Think真的能在数学上达到金牌水平吗?
是的,完整的Gemini 2.5 Deep Think模型在2025年国际数学奥林匹克竞赛(IMO)中达到了金牌标准。不过,用于IMO竞赛的完整模型需要数小时来推理复杂的数学问题,而今天在Gemini应用中推出的版本更快、更适合日常使用,同时仍能达到2025 IMO基准的铜牌水平。
Deep Think会取代普通Gemini吗?
不会。Deep Think是为特定类型的复杂问题设计的。对于日常查询和简单任务,标准Gemini模型可能更高效。Deep Think更像是一个”高级模式”,当你需要深入思考复杂问题时可以启用。
Deep Think在安全方面有什么保障?
Google在Gemini的整个训练和部署生命周期中持续构建安全和责任。Gemini 2.5 Deep Think在内容安全和语气方面比Gemini 2.5 Pro有所改进,但确实有更高的倾向拒绝无害请求。Google还实施了额外的安全措施,包括数据集过滤、条件预训练、监督微调等。
为什么Deep Think有时会拒绝无害请求?
这是安全措施的一部分。随着AI问题解决能力的提升,确保其安全使用变得更为重要。有时模型会过于谨慎,拒绝一些实际上无害的请求,这是为了防止潜在的滥用。Google正在不断改进这一平衡。
Deep Think能帮助我写代码吗?
是的,Deep Think特别擅长解决那些问题表述和仔细考虑权衡及时间复杂性至关重要的编码难题。在LiveCodeBench v6基准测试中,它达到了87.6%的分数,远超其他模型。
Deep Think的上下文窗口有多大?
Deep Think具有1M token的上下文窗口,这意味着它可以处理非常长的输入。输出方面,它可以生成最多192K token的文本。
未来会向所有用户开放Deep Think吗?
目前Deep Think仅对Google AI Ultra订阅者可用,但Google表示正在通过Gemini API向受信任的测试者测试该功能,以了解其对开发人员和企业用例的可用性。未来可能会根据反馈扩大访问范围。
结语:AI思考的新纪元
Deep Think代表了我们在构建更有帮助、更有能力的AI方面的重大进步,进一步推动了我们使用Gemini拓展人类知识前沿的承诺。
这不是关于创造更快的AI,而是关于创造能够真正思考的AI。当面对复杂问题时,Deep Think不会急于给出答案,而是会像人类一样花时间探索、权衡和改进,最终提供更深入、更有创意的解决方案。
对于研究人员、开发者和任何需要解决复杂问题的人来说,Deep Think提供了一种全新的思维方式。它不是要取代人类的思考,而是增强我们的能力,帮助我们达到以前难以企及的高度。
正如Google在博客中所说:”我们迫不及待地想看看你用它构建什么。”随着更多人开始使用Deep Think,我们可能会看到AI辅助创新的新浪潮,从数学突破到代码优化,再到科学发现。
在这个AI不断进化的时代,Deep Think提醒我们:有时候,真正的进步不在于速度,而在于深度。