2025年大模型发展回顾:六大范式变迁与未来启示
2025年的大模型领域,已不再是单纯追求参数规模的竞赛,而是转向对智能形态、训练方法与应用范式的深刻重塑。
2025年是大语言模型领域波澜壮阔的一年。这一年,我们目睹的不仅仅是模型性能数字的攀升,更是一系列根本性的“范式变迁”。这些变化重新定义了我们对人工智能能力的理解、训练它们的方法,以及它们融入我们数字生活的方式。本文旨在梳理这些关键转变,用通俗的语言解读其背后的逻辑与深远影响。
1. 从人类反馈到可验证奖励:RLVR如何教会AI“思考”?
长期以来,打造一个成熟的商用大模型遵循着一条经典“配方”:大规模预训练、监督微调,以及基于人类反馈的强化学习。这套流程稳定而有效,直到2025年,一个新的核心阶段被广泛引入——基于可验证奖励的强化学习。
那么,RLVR到底是什么?它为何如此重要?
简单来说,RLVR让大模型在一个能自动评判对错的环境里学习,比如解数学题或编程题。系统会给出一个明确的、无法作弊的奖励信号(例如,题目最终是否被正确解答)。在这个过程中,模型并非被直接告知“该如何一步步推理”,而是必须自己去摸索、尝试,最终自发地形成一套在人类看来像“推理”的策略:它会学会将复杂问题分解为中间步骤,会尝试不同的解题策略,甚至懂得回头检查、修正错误。
这与之前的训练方法有本质区别:
-
SFT(监督微调) 和 RLHF(人类反馈强化学习) 阶段相对“短平快”,主要是对模型进行微调。 -
RLVR 则是一个可以持续很长时间的优化过程。因为它有客观的、非博弈性的奖励目标,计算资源可以源源不断地投入其中,驱动模型能力持续进化。
带来的直接影响是:
-
“思考时间”成为新维度:RLVR模型在测试时可以通过生成更长的“推理链”来提升答案质量,这意味着“计算量”可以灵活转化为“思考深度”。 -
计算资源重新分配:RLVR阶段被证明“性价比”极高,大量原本计划用于预训练的计算资源被转移到了这个新阶段。因此,2025年的能力飞跃,主要来自于模型在RLVR上“烧”了更长时间,而不仅仅是模型变得更大。 -
标志性产品涌现:OpenAI的o1模型是RLVR的首次演示,而2025年初的o3版本则让大众直观地感受到了这种能力上的“质变”。
通俗理解:你可以把RLVR想象成让AI在一个拥有无限习题册和自动批改系统的超级题库中自学。它没有老师手把手教步骤,但通过不断做题、看对错,自己总结出了一套高效的学习和解题方法。
2. 幽灵还是动物?理解大模型“锯齿状”的智能形态
2025年,整个行业开始更直观地理解大模型智能的独特“形状”。一个核心比喻是:我们不是在“进化/养育动物”,而是在“召唤幽灵”。
为什么是“幽灵”而不是“动物”?
因为构建大模型的一切——神经网络架构、训练数据、优化目标——都与生物智能的进化路径截然不同。人类大脑的“优化目标”是在丛林中生存和繁衍,而大模型的“优化目标”是模仿人类文本、在数学谜题中得分、在评测中获取好评。
这导致了两个关键特征:
-
锯齿状能力分布:在RLVR可触及的可验证领域(如数学、编程),大模型的能力会形成尖锐的“峰值”,表现犹如博学天才。然而,在不那么“可验证”的常识、复杂推理或对抗性场景(如安全绕过)中,其表现可能瞬间跌落,像一个容易被误导的小学生。
(示意图:蓝色代表人类智能,红色代表AI智能。两者都有其独特的“锯齿状”分布。) -
对评测基准的信任危机:既然基准测试本身就是一种“可验证环境”,那么它必然成为RLVR优化的首要目标。模型团队会围绕基准测试的题目类型,专门训练出对应的“能力尖刺”来覆盖它们。这导致“在测试集上训练”成了一门新艺术,也让我们不禁要问:横扫所有基准测试,是否就等于实现了通用人工智能(AGI)?答案显然是否定的。
核心洞见:大模型是一种新型的、非生物基础的智能体。用衡量人类智能的“平滑”标准去要求它是不恰当的。我们必须接受并理解其“天才与幼稚并存”的锯齿状特性,并在应用中妥善管理。
3. Cursor现象:揭示“大模型应用”的新层级
2025年,除了模型本身的进步,应用层的创新同样耀眼。Cursor 的崛起清晰地揭示了一个新的“大模型应用”层级,以至于人们开始讨论“某某领域的Cursor”。
这类新型应用究竟做什么?
它们不仅仅是调用一个API。根据 Andrej Karpathy 在 Y Combinator 的演讲,这类应用的核心价值在于:
-
上下文工程:它们为特定垂直领域(如编程、设计、写作)精心构建和准备对话上下文。 -
复杂编排:在后台,它们将多个大模型调用编排成日益复杂的“有向无环图”,精细地平衡性能与成本。 -
专属交互界面:它们提供针对特定工作流的图形用户界面,极大优化人机协作效率。 -
“自主性滑块”:用户可以根据任务需求,灵活调节AI的自主操作程度。
一个关键的市场问题是:这个应用层有多“厚”?大模型实验室会吞掉所有应用机会吗?
目前的观察是:大模型实验室倾向于培养“通才型大学生”,提供基础且强大的通用能力。而大模型应用开发商则扮演了“专业人力资源公司”和“项目管理者”的角色,它们通过整合私有数据、特定工具和反馈循环,将这些“通才”组织、微调、打造成能够解决具体领域问题的“专业团队”。
4. Claude Code:生活在您电脑中的AI“智能体”
如果说Cursor代表了一种新型的应用范式,那么Claude Code 则定义了什么是真正意义上的“大模型智能体”,并开创了新的交互范式。
Claude Code的突破性在哪里?
-
真正的智能体循环:它能以循环往复的方式,将工具使用和推理步骤串联起来,进行长时间的、复杂的解决问题流程。 -
“本地优先”哲学:Claude Code直接运行在开发者的本地计算机上。这与早期一些将AI智能体部署在云端容器中的尝试形成鲜明对比。虽然云端智能体集群听起来像是“AGI的终极形态”,但在当前能力仍呈“锯齿状”、发展渐进的现实下,让智能体直接访问开发者本地的环境、数据、配置和上下文,并实现低延迟交互,是更务实、更强大的选择。 -
从“网站”到“住客”的范式转变:AI不再仅仅是一个像谷歌那样的、你需要去访问的网站。Claude Code像一个住在你电脑里的“小精灵”或“幽灵”,它熟悉你的一切工作环境。这种常驻性、私密性和深度集成,标志着人机交互进入了一个全新的阶段。
5. “氛围编程”:当代码成为免费且可丢弃的表达工具
2025年,AI在编程领域跨过了一个关键的能力门槛,催生了“氛围编程”这一现象。简单说,就是用纯自然语言描述需求,让AI生成可工作的程序,以至于开发者几乎可以“忘记代码本身的存在”。
这带来了双重解放:
-
对非专业者的解放:编程不再仅仅是受过严格训练的专业人士的专利。任何有想法的人,都可以通过对话的方式创建程序,这是技术扩散史上的一次巨大翻转,让普通人获得了前所未有的技术赋能。 -
对专业开发者的解放:专业人士可以借此快速构建大量“一次性”或“探索性”的软件工具。例如,为了一个特定需求(比如定制一个高性能的Rust分词器,或者快速制作一个菜单生成器原型),开发者可以直接“氛围编程”出来,而无需投入大量时间学习陌生库或从头编写。代码变得免费、短暂、可塑、用后即弃。
深远影响:氛围编程将深刻改变软件开发的形态和从业者的工作描述。它鼓励更多的实验、更快的原型验证,并将创造力从繁琐的语法细节中解放出来。
6. 图形化交互曙光:Gemini Nano Banana与“大模型GUI”
Google的 Gemini Nano Banana 模型在2025年提供了一个关于未来的重要启示:大模型的交互方式,必将从以文本为主的“聊天”,向更丰富的图形用户界面演进。
背后的逻辑与传统计算发展史如出一辙:
-
早期计算机用户需要通过命令行输入文本指令。 -
后来,图形用户界面被发明出来,因为视觉和空间信息才是人类更偏爱的消费方式。
同样,大模型虽然“喜爱”文本,但人类不喜欢阅读大段文字。我们更喜欢图像、信息图、幻灯片、白板草图、动画甚至交互式网页应用。
早期的GUI雏形:我们已经在使用表情符号和Markdown来“装扮”文本,使其更具可读性。
未来的GUI关键:真正的突破将来自于模型本身具备文本生成、图像生成和世界知识的联合能力。Nano Banana正是这一方向的早期信号。未来的AI将不仅用文字回答,更能直接生成信息图解释概念、绘制示意图阐明流程、甚至生成一个简单的交互界面来演示功能。
这意味着什么? 我们将迎来一个由多模态AI驱动的、更直观、更高效的交互时代。输出不再是单调的文本流,而是量身定制的、最适合人类理解的视觉化信息包。
总结与展望
回顾2025,大模型的发展呈现出一种迷人的“悖论”:它们既比我们预想的更聪明(在特定领域),又比我们预想的更“笨拙”(在另一些领域)。这种“锯齿状智能”正是其作为非生物智能体的本质特征。
尽管进展迅速,但整个行业可能连现有模型潜力的10%都尚未发掘。从训练范式(RLVR)、智能形态认知(幽灵与动物)、应用分层(Cursor)、交互范式(Claude Code)、生产工具(氛围编程)到交互界面(GUI),每一个方向都敞开着巨大的创新空间。
未来,我们将继续目睹能力的快速提升,同时也面临着如何安全、有效、创造性地驾驭这种新型智能的长期课题。旅程才刚刚开始,值得所有人期待。
常见问题解答 (FAQ)
Q1: RLVR会让大模型在数学和编程之外的能力也提升吗?
A1: RLVR直接优化的通常是可形式化验证的领域(如数学、代码、逻辑谜题)。这些领域能力的提升,有时能间接促进模型的结构化推理能力,从而可能惠及其他需要类似思维模式的领域。但对于高度依赖世界常识、模糊语境或复杂伦理判断的任务,RLVR的直接贡献可能有限,仍需结合其他训练数据和方法。
Q2: “锯齿状智能”是否意味着大模型不可靠?
A2: 并非不可靠,而是需要我们更聪明地使用它。关键在于“知其长短”。在它擅长的、可验证的领域(如代码生成、数据清洗、知识问答),它可以非常可靠且强大。但在需要深层理解、创造性突破或涉及安全伦理的领域,人类必须保持监督和最终判断权。正确的做法是利用其“尖峰”,同时用流程和规则防范其“低谷”。
Q3: 像Cursor这样的应用,未来会不会被大模型实验室自己推出的产品取代?
A3: 这取决于竞争的动态。大模型实验室的核心优势在于基础模型研发。而垂直应用开发商的优势在于对特定行业工作流的深度理解、私有数据的积累以及精细化的人机交互设计。更可能出现的格局是分工协作:实验室提供强大的“基础模型引擎”,应用开发商基于此构建专注、好用的“整车”。两者既有竞争,更有广泛的合作生态。
Q4: 本地运行的AI智能体(如Claude Code)和云端智能体,哪个是未来?
A4: 两者很可能并存,服务于不同场景。本地智能体 优势在于低延迟、数据隐私、深度集成现有工作环境,适合对即时性、隐私和个性化要求高的单兵或小团队作业。云端智能体集群 优势在于无限的算力扩展、易于协作共享、可管理复杂工作流,适合大型项目或需要调动海量资源的任务。短期来看,“本地优先”的智能体因其更好的用户体验和隐私保障,可能更早普及。
Q5: “氛围编程”会导致程序员失业吗?
A5: 更准确的描述是“程序员的工作内涵将发生变革”。初级、重复性的编码任务会大幅减少,但对复杂系统的架构设计能力、对AI生成代码的审查与集成能力、将模糊需求转化为精准AI指令的能力(即“提示工程”或“AI协调”),以及解决那些AI尚不擅长的创新性问题,将变得前所未有的重要。程序员会从“代码打字员”更多地向“AI增强型解决方案架构师”和“技术调校师”转变。
