2025大模型范式巨浪！六大AI革命颠覆人类认知

高效码农

2 天前

2025年大模型发展回顾：六大范式变迁与未来启示

2025年的大模型领域，已不再是单纯追求参数规模的竞赛，而是转向对智能形态、训练方法与应用范式的深刻重塑。

2025年是大语言模型领域波澜壮阔的一年。这一年，我们目睹的不仅仅是模型性能数字的攀升，更是一系列根本性的“范式变迁”。这些变化重新定义了我们对人工智能能力的理解、训练它们的方法，以及它们融入我们数字生活的方式。本文旨在梳理这些关键转变，用通俗的语言解读其背后的逻辑与深远影响。

1. 从人类反馈到可验证奖励：RLVR如何教会AI“思考”？

长期以来，打造一个成熟的商用大模型遵循着一条经典“配方”：大规模预训练、监督微调，以及基于人类反馈的强化学习。这套流程稳定而有效，直到2025年，一个新的核心阶段被广泛引入——基于可验证奖励的强化学习。

那么，RLVR到底是什么？它为何如此重要？

简单来说，RLVR让大模型在一个能自动评判对错的环境里学习，比如解数学题或编程题。系统会给出一个明确的、无法作弊的奖励信号（例如，题目最终是否被正确解答）。在这个过程中，模型并非被直接告知“该如何一步步推理”，而是必须自己去摸索、尝试，最终自发地形成一套在人类看来像“推理”的策略：它会学会将复杂问题分解为中间步骤，会尝试不同的解题策略，甚至懂得回头检查、修正错误。

这与之前的训练方法有本质区别：

SFT（监督微调） 和 RLHF（人类反馈强化学习） 阶段相对“短平快”，主要是对模型进行微调。
RLVR 则是一个可以持续很长时间的优化过程。因为它有客观的、非博弈性的奖励目标，计算资源可以源源不断地投入其中，驱动模型能力持续进化。

带来的直接影响是：

“思考时间”成为新维度：RLVR模型在测试时可以通过生成更长的“推理链”来提升答案质量，这意味着“计算量”可以灵活转化为“思考深度”。
计算资源重新分配：RLVR阶段被证明“性价比”极高，大量原本计划用于预训练的计算资源被转移到了这个新阶段。因此，2025年的能力飞跃，主要来自于模型在RLVR上“烧”了更长时间，而不仅仅是模型变得更大。
标志性产品涌现：OpenAI的o1模型是RLVR的首次演示，而2025年初的o3版本则让大众直观地感受到了这种能力上的“质变”。

通俗理解：你可以把RLVR想象成让AI在一个拥有无限习题册和自动批改系统的超级题库中自学。它没有老师手把手教步骤，但通过不断做题、看对错，自己总结出了一套高效的学习和解题方法。

2. 幽灵还是动物？理解大模型“锯齿状”的智能形态

2025年，整个行业开始更直观地理解大模型智能的独特“形状”。一个核心比喻是：我们不是在“进化/养育动物”，而是在“召唤幽灵”。

为什么是“幽灵”而不是“动物”？
因为构建大模型的一切——神经网络架构、训练数据、优化目标——都与生物智能的进化路径截然不同。人类大脑的“优化目标”是在丛林中生存和繁衍，而大模型的“优化目标”是模仿人类文本、在数学谜题中得分、在评测中获取好评。

这导致了两个关键特征：

锯齿状能力分布：在RLVR可触及的可验证领域（如数学、编程），大模型的能力会形成尖锐的“峰值”，表现犹如博学天才。然而，在不那么“可验证”的常识、复杂推理或对抗性场景（如安全绕过）中，其表现可能瞬间跌落，像一个容易被误导的小学生。

(示意图：蓝色代表人类智能，红色代表AI智能。两者都有其独特的“锯齿状”分布。)
对评测基准的信任危机：既然基准测试本身就是一种“可验证环境”，那么它必然成为RLVR优化的首要目标。模型团队会围绕基准测试的题目类型，专门训练出对应的“能力尖刺”来覆盖它们。这导致“在测试集上训练”成了一门新艺术，也让我们不禁要问：横扫所有基准测试，是否就等于实现了通用人工智能（AGI）？答案显然是否定的。

核心洞见：大模型是一种新型的、非生物基础的智能体。用衡量人类智能的“平滑”标准去要求它是不恰当的。我们必须接受并理解其“天才与幼稚并存”的锯齿状特性，并在应用中妥善管理。

3. Cursor现象：揭示“大模型应用”的新层级

2025年，除了模型本身的进步，应用层的创新同样耀眼。Cursor 的崛起清晰地揭示了一个新的“大模型应用”层级，以至于人们开始讨论“某某领域的Cursor”。

这类新型应用究竟做什么？
它们不仅仅是调用一个API。根据 Andrej Karpathy 在 Y Combinator 的演讲，这类应用的核心价值在于：

上下文工程：它们为特定垂直领域（如编程、设计、写作）精心构建和准备对话上下文。
复杂编排：在后台，它们将多个大模型调用编排成日益复杂的“有向无环图”，精细地平衡性能与成本。
专属交互界面：它们提供针对特定工作流的图形用户界面，极大优化人机协作效率。
“自主性滑块”：用户可以根据任务需求，灵活调节AI的自主操作程度。

一个关键的市场问题是：这个应用层有多“厚”？大模型实验室会吞掉所有应用机会吗？
目前的观察是：大模型实验室倾向于培养“通才型大学生”，提供基础且强大的通用能力。而大模型应用开发商则扮演了“专业人力资源公司”和“项目管理者”的角色，它们通过整合私有数据、特定工具和反馈循环，将这些“通才”组织、微调、打造成能够解决具体领域问题的“专业团队”。

4. Claude Code：生活在您电脑中的AI“智能体”

如果说Cursor代表了一种新型的应用范式，那么Claude Code 则定义了什么是真正意义上的“大模型智能体”，并开创了新的交互范式。

Claude Code的突破性在哪里？

真正的智能体循环：它能以循环往复的方式，将工具使用和推理步骤串联起来，进行长时间的、复杂的解决问题流程。
“本地优先”哲学：Claude Code直接运行在开发者的本地计算机上。这与早期一些将AI智能体部署在云端容器中的尝试形成鲜明对比。虽然云端智能体集群听起来像是“AGI的终极形态”，但在当前能力仍呈“锯齿状”、发展渐进的现实下，让智能体直接访问开发者本地的环境、数据、配置和上下文，并实现低延迟交互，是更务实、更强大的选择。
从“网站”到“住客”的范式转变：AI不再仅仅是一个像谷歌那样的、你需要去访问的网站。Claude Code像一个住在你电脑里的“小精灵”或“幽灵”，它熟悉你的一切工作环境。这种常驻性、私密性和深度集成，标志着人机交互进入了一个全新的阶段。

5. “氛围编程”：当代码成为免费且可丢弃的表达工具

2025年，AI在编程领域跨过了一个关键的能力门槛，催生了“氛围编程”这一现象。简单说，就是用纯自然语言描述需求，让AI生成可工作的程序，以至于开发者几乎可以“忘记代码本身的存在”。

这带来了双重解放：

对非专业者的解放：编程不再仅仅是受过严格训练的专业人士的专利。任何有想法的人，都可以通过对话的方式创建程序，这是技术扩散史上的一次巨大翻转，让普通人获得了前所未有的技术赋能。
对专业开发者的解放：专业人士可以借此快速构建大量“一次性”或“探索性”的软件工具。例如，为了一个特定需求（比如定制一个高性能的Rust分词器，或者快速制作一个菜单生成器原型），开发者可以直接“氛围编程”出来，而无需投入大量时间学习陌生库或从头编写。代码变得免费、短暂、可塑、用后即弃。

深远影响：氛围编程将深刻改变软件开发的形态和从业者的工作描述。它鼓励更多的实验、更快的原型验证，并将创造力从繁琐的语法细节中解放出来。

6. 图形化交互曙光：Gemini Nano Banana与“大模型GUI”

Google的 Gemini Nano Banana 模型在2025年提供了一个关于未来的重要启示：大模型的交互方式，必将从以文本为主的“聊天”，向更丰富的图形用户界面演进。

背后的逻辑与传统计算发展史如出一辙：

早期计算机用户需要通过命令行输入文本指令。
后来，图形用户界面被发明出来，因为视觉和空间信息才是人类更偏爱的消费方式。
同样，大模型虽然“喜爱”文本，但人类不喜欢阅读大段文字。我们更喜欢图像、信息图、幻灯片、白板草图、动画甚至交互式网页应用。

早期的GUI雏形：我们已经在使用表情符号和Markdown来“装扮”文本，使其更具可读性。
未来的GUI关键：真正的突破将来自于模型本身具备文本生成、图像生成和世界知识的联合能力。Nano Banana正是这一方向的早期信号。未来的AI将不仅用文字回答，更能直接生成信息图解释概念、绘制示意图阐明流程、甚至生成一个简单的交互界面来演示功能。

这意味着什么？ 我们将迎来一个由多模态AI驱动的、更直观、更高效的交互时代。输出不再是单调的文本流，而是量身定制的、最适合人类理解的视觉化信息包。

总结与展望

回顾2025，大模型的发展呈现出一种迷人的“悖论”：它们既比我们预想的更聪明（在特定领域），又比我们预想的更“笨拙”（在另一些领域）。这种“锯齿状智能”正是其作为非生物智能体的本质特征。

尽管进展迅速，但整个行业可能连现有模型潜力的10%都尚未发掘。从训练范式（RLVR）、智能形态认知（幽灵与动物）、应用分层（Cursor）、交互范式（Claude Code）、生产工具（氛围编程）到交互界面（GUI），每一个方向都敞开着巨大的创新空间。

未来，我们将继续目睹能力的快速提升，同时也面临着如何安全、有效、创造性地驾驭这种新型智能的长期课题。旅程才刚刚开始，值得所有人期待。

常见问题解答 (FAQ)

Q1: RLVR会让大模型在数学和编程之外的能力也提升吗？
A1: RLVR直接优化的通常是可形式化验证的领域（如数学、代码、逻辑谜题）。这些领域能力的提升，有时能间接促进模型的结构化推理能力，从而可能惠及其他需要类似思维模式的领域。但对于高度依赖世界常识、模糊语境或复杂伦理判断的任务，RLVR的直接贡献可能有限，仍需结合其他训练数据和方法。

Q2: “锯齿状智能”是否意味着大模型不可靠？
A2: 并非不可靠，而是需要我们更聪明地使用它。关键在于“知其长短”。在它擅长的、可验证的领域（如代码生成、数据清洗、知识问答），它可以非常可靠且强大。但在需要深层理解、创造性突破或涉及安全伦理的领域，人类必须保持监督和最终判断权。正确的做法是利用其“尖峰”，同时用流程和规则防范其“低谷”。

Q3: 像Cursor这样的应用，未来会不会被大模型实验室自己推出的产品取代？
A3: 这取决于竞争的动态。大模型实验室的核心优势在于基础模型研发。而垂直应用开发商的优势在于对特定行业工作流的深度理解、私有数据的积累以及精细化的人机交互设计。更可能出现的格局是分工协作：实验室提供强大的“基础模型引擎”，应用开发商基于此构建专注、好用的“整车”。两者既有竞争，更有广泛的合作生态。

Q4: 本地运行的AI智能体（如Claude Code）和云端智能体，哪个是未来？
A4: 两者很可能并存，服务于不同场景。本地智能体 优势在于低延迟、数据隐私、深度集成现有工作环境，适合对即时性、隐私和个性化要求高的单兵或小团队作业。云端智能体集群 优势在于无限的算力扩展、易于协作共享、可管理复杂工作流，适合大型项目或需要调动海量资源的任务。短期来看，“本地优先”的智能体因其更好的用户体验和隐私保障，可能更早普及。

Q5: “氛围编程”会导致程序员失业吗？
A5: 更准确的描述是“程序员的工作内涵将发生变革”。初级、重复性的编码任务会大幅减少，但对复杂系统的架构设计能力、对AI生成代码的审查与集成能力、将模糊需求转化为精准AI指令的能力（即“提示工程”或“AI协调”），以及解决那些AI尚不擅长的创新性问题，将变得前所未有的重要。程序员会从“代码打字员”更多地向“AI增强型解决方案架构师”和“技术调校师”转变。