大语言模型为何会产生幻觉?从预训练到评估的全方位解析

本文欲回答的核心问题:大语言模型的幻觉为何难以彻底消除?其根源是预训练阶段的统计特性,还是后训练阶段的评估体系偏差?我们又能通过哪些具体改革减少幻觉,提升模型可靠性?

当你向大语言模型询问“Adam Tauman Kalai的生日”时,它可能会先后给出“03-07”“15-06”“01-01”三个完全错误的日期,却始终表现得无比自信;当你查询“Adam Tauman Kalai的博士论文标题”时,GPT-4o、DeepSeek、Llama三款主流模型分别生成了三个与事实不符的结果——这些“看似合理、实则错误”的输出,就是大语言模型领域令人头疼的“幻觉”问题。

尽管近年来模型架构(如Transformer的优化)、训练方法(如更大规模的预训练数据)不断升级,幻觉却始终如影随形,成为制约大语言模型在医疗、法律等关键领域应用的核心障碍。OpenAI的一项新研究指出,幻觉的根源并非单纯的模型缺陷,而是预训练的统计必然性与评估体系的激励错位共同作用的结果。本文将从预训练到后训练,逐步拆解幻觉的产生机制,并提出可落地的解决方向。

一、什么是大语言模型的幻觉?

本小节欲回答的核心问题:大语言模型的“幻觉”具体指什么?它和人类的普通错误有何本质区别?有哪些典型案例能说明幻觉的表现形式?

大语言模型的幻觉,是指模型生成“自信但错误”的输出,且这些输出在表面上看似合理。与人类“知道自己不知道”或“不小心犯错”不同,模型的幻觉往往伴随强烈的确定性,即使输出完全偏离事实,也不会表现出丝毫犹豫。

从表现形式上,幻觉可分为“内在幻觉”和“外在幻觉”:内在幻觉是指输出与用户的prompt直接矛盾,例如当你询问“DEEPSEEK中有多少个字母D”时,DeepSeek-V3在十次测试中给出“2”“3”甚至“7”等错误答案,与“DEEPSEEK”的实际拼写(仅1个D)完全不符;外在幻觉则是输出与训练数据或现实事实矛盾,例如前文提到的学者生日、论文标题错误,均属于外在幻觉。

1.1 幻觉的典型案例:从生日到论文标题的错误

研究中记录了多个真实的幻觉案例,这些案例清晰地展现了幻觉的“自信性”与“错误性”:

  • 生日查询案例:当向DeepSeek-V3(600B参数)询问“Adam Tauman Kalai的生日”并要求仅在知道时回复“DD-MM”格式时,模型在三次尝试中给出了三个错误日期,而正确日期实际上在秋季。更值得注意的是,即使prompt明确要求“仅在知道时回复”,模型仍选择猜测而非弃权。
  • 论文标题案例:当询问“Adam Tauman Kalai的博士论文标题”时,GPT-4o生成“Boosting, Online Algorithms, and Other Topics in Machine Learning”(声称2002年在CMU完成),DeepSeek生成“Algebraic Methods in Interactive Machine Learning”(声称2005年在哈佛完成),Llama生成“Efficient Algorithms for Learning and Playing Games”(声称2007年在MIT完成)——但事实是,Adam Tauman Kalai的论文标题为“Probabilistic and on-line methods in machine learning”,于2001年在卡内基梅隆大学完成。
  • 字母计数案例:当询问“DEEPSEEK中有多少个字母D”时,DeepSeek-V3、Meta AI、Claude 3.7 Sonnet均表现出明显的幻觉,答案从“2”到“7”不等,而通过简单拼写拆解(D-E-E-P-S-E-E-K)可知,正确答案应为1。

1.2 幻觉与人类错误的本质区别

尽管幻觉和人类错误都表现为“输出与事实不符”,但二者存在三个关键区别:

  1. 置信度与正确性的匹配度:人类在不确定时通常会表现出犹豫(如“我记不太清了”),而模型即使完全不知道答案,也会生成自信的输出;
  2. 错误的系统性:人类的错误可能是偶然的(如记错生日),但模型的幻觉往往具有系统性(如对所有罕见事实都频繁出错);
  3. 纠错难度:人类可通过学习纠正错误,而模型的幻觉受训练和评估机制制约,仅靠增加数据量难以彻底消除。

反思:这些案例让我意识到,评估模型性能时,“准确性”不能作为唯一指标——模型的“置信度校准”(即自信程度与实际正确性的匹配度)同样重要。一个能在不确定时说“我不知道”的模型,或许比一个虽有高准确率但偶尔自信犯错的模型,在医疗、法律等领域更具实用价值。

二、预训练阶段:幻觉为何在统计上不可避免?

本小节欲回答的核心问题:即使使用完全干净的训练数据,预训练过程为何仍会导致大语言模型产生幻觉?其统计层面的根源是什么?Is-It-Valid(IIV)任务如何揭示这一本质?

即使训练数据中没有任何错误,大语言模型在预训练阶段也会因统计机制的固有特性产生幻觉。这一结论来自OpenAI研究中提出的“生成错误率与IIV误分类率的定量关系”:大语言模型的生成错误率(即幻觉率)至少是其IIV二元分类任务误分类率的两倍。这意味着,幻觉的产生与监督学习中的误分类本质同源,是统计学习过程中无法完全规避的结果。

2.1 预训练的核心目标:交叉熵与密度估计

大语言模型的预训练本质是“密度估计”任务——模型通过学习训练数据中的语言分布(如词语的搭配、句子的结构、事实的表述),构建一个近似真实分布的概率模型(记为)。预训练的优化目标通常是“交叉熵损失”,即最小化模型预测分布与真实数据分布的差异。

然而,这种优化目标存在一个关键问题:即使训练数据完全干净(即真实分布中没有错误,记为),模型为了贴合整体分布,仍会不可避免地生成一些不在真实分布中的输出(即错误输出,记为)。这就像人类学习语言时,即使只接触正确的句子,也可能在初期说出语法错误的话——模型的“错误生成”,是其学习分布过程中的必然产物。

2.2 Is-It-Valid(IIV)任务:连接生成错误与分类错误

为了揭示幻觉的统计本质,研究团队将问题简化为一个二元分类任务——Is-It-Valid(IIV):给定一个模型输出,判断它是“有效”(Valid,符合事实或语法)还是“错误”(Error,即幻觉)。

2.2.1 IIV任务的定义与分布

IIV任务的训练数据来自两个部分,各占50%:

  • 正例(+):来自真实训练分布的有效输出(如正确的生日、论文标题);
  • 负例(-):从所有可能的错误输出中均匀随机选取的样本(如错误的生日、论文标题)。

模型在IIV任务中的表现用“误分类率”()衡量,即模型将正例误判为负例或负例误判为正例的概率。

2.2.2 生成错误率与IIV误分类率的定量关系

研究团队通过理论证明得出:大语言模型的生成错误率()至少是其IIV误分类率的两倍,即:
err \geq 2 \cdot err_{iiv} – \text{常数项}
其中“常数项”由有效输出与错误输出的数量比、模型校准度等因素决定,在大多数场景下数值较小,可以忽略。

这一公式的核心意义在于:幻觉并非大语言模型的“专属缺陷”,而是与监督学习中的分类错误同源。导致分类错误的因素(如认知不确定性、模型表达能力不足、分布偏移、数据噪音),同样会导致幻觉。例如,当模型无法准确区分“有效输出”和“错误输出”(即IIV误分类率高)时,其生成错误输出的概率(幻觉率)也必然会高。

2.3 预训练中导致幻觉的三大关键因素

基于IIV任务的分析,预训练阶段导致幻觉的因素可归纳为三类,这些因素均与分类错误的根源高度一致:

2.3.1 认知不确定性:无规律事实的学习困境

当训练数据中的事实不存在“可学习的规律”时(如个人生日、小众事件的时间),模型会因“认知不确定性”(即缺乏足够的信息区分有效与错误输出)产生高IIV误分类率,进而导致高幻觉率。

例如,训练数据中“某学者的生日”可能仅出现一次,且与其他信息(如学者的研究领域、论文发表时间)无关联——模型无法从数据中学习到“如何判断一个生日是否正确”的规律,在生成时只能随机猜测,最终导致幻觉。

研究中提出的“单例率”(Singleton Rate)概念,定量描述了这一现象:单例率是指“在训练数据中仅出现一次的事实占比”。根据Good-Turing缺失质量估计理论,如果20%的事实是单例(即仅出现一次),那么至少20%的这类事实会被模型幻觉。这也解释了为何模型对“爱因斯坦生日”(频繁出现)回答准确,对“小众学者生日”(单例)频繁出错。

2.3.2 模型表达能力不足:无法捕捉关键模式

当模型家族(如n-gram模型、子词token模型)的表达能力不足以捕捉数据中的关键模式时,即使数据充足,也会产生系统性幻觉。这对应于分类任务中“模型家族无法表示目标函数”的问题。

典型案例包括:

  • n-gram模型的语法错误:早期的trigram模型(基于前两个词预测下一个词)无法捕捉长距离依赖,例如面对“她丢了它,完全不知所措”(She lost it and was completely out of…)和“他丢了它,完全不知所措”(He lost it and was completely out of…)时,模型无法区分“her mind”和“his mind”的正确搭配,导致生成“She lost it and was completely out of his mind”这类不合逻辑的句子。
  • 子词token模型的计数错误:现代模型使用子词token(如将“DEEPSEEK”拆分为“D/EEP/SEE/K”),这种拆分方式隐藏了单个字符的信息,导致模型在“字母计数”任务中频繁出错(如前文提到的“DEEPSEEK中D的数量”错误)。而具备推理能力的模型(如DeepSeek-R1)通过“逐字母拼写拆解”(D-E-E-P-S-E-E-K),则能正确完成任务——这说明模型的表达能力(是否支持细粒度推理)直接影响幻觉率。

2.3.3 分布偏移:训练与测试数据的不匹配

当测试prompt(如“一磅羽毛和一磅铅哪个更重”)与训练数据的分布差异较大时,模型会因“分布偏移”产生幻觉。这与分类任务中“训练数据与测试数据分布不一致导致误分类”的机制完全相同。

例如,训练数据中可能很少出现“看似矛盾的常识问题”,当模型遇到“一磅羽毛和一磅铅哪个更重”时,由于缺乏相关训练样本,无法准确判断“重量相同”的事实,可能错误地认为“铅更重”,从而产生幻觉。

反思:过去我常将预训练阶段的幻觉归咎于“数据不够多”,但研究表明,即使数据量足够,模型表达能力不足或事实无规律,仍会导致幻觉。这提醒我们,预训练优化不能只追求“更大的数据集”,还需关注“模型是否能捕捉任务所需的关键模式”(如字母计数需要细粒度字符信息)、“事实是否存在可学习的规律”(如是否需要为无规律事实设计特殊的存储机制)。

大语言模型预训练幻觉产生机制示意图
图片来源:Unsplash

三、后训练阶段:为何RLHF等方法无法根除幻觉?

本小节欲回答的核心问题:RLHF(基于人类反馈的强化学习)、DPO(直接偏好优化)等后训练方法能减少有害输出,为何却无法根除过度自信的幻觉?后训练阶段的关键瓶颈是什么?

RLHF、DPO、RLAIF(基于AI反馈的强化学习)等后训练方法,确实能有效减少大语言模型的有害输出(如阴谋论、歧视性内容),但无法根除过度自信的幻觉。其根本原因在于:后训练的优化目标受限于评估体系的“激励错位”——主流基准测试采用“二元评分机制”,鼓励模型“猜测”而非“诚实表达不确定性”,即使后训练技术再先进,也难以对抗这种系统性激励。

3.1 后训练方法的局限性:减少有害输出,却无法解决“猜测激励”

后训练的核心逻辑是“通过反馈调整模型输出”:例如RLHF通过人类对模型输出的偏好打分,训练一个奖励模型,再用强化学习优化原模型,使其输出更符合人类偏好。这类方法在解决“有害性”问题上效果显著——例如,未经过后训练的模型可能会生成“地球是平的”这类阴谋论,而经过RLHF优化后,模型会拒绝生成此类内容。

但对于“幻觉”问题,后训练方法存在明显局限:它们无法改变模型“在不确定时选择猜测”的行为。因为后训练的优化目标仍以“在现有基准测试中得分”为导向,而现有基准的评分机制本质上鼓励猜测。

例如,当模型面对一个不确定的问题(如“某小众学者的论文发表时间”)时,有两种选择:

  • 选择A:回答“我不知道”(弃权),在二元评分机制中得0分;
  • 选择B:随机猜测一个答案,有一定概率得1分(正确),否则得0分(错误)。

从期望得分来看,选择B的期望得分(如1/365,假设生日猜测的正确概率)始终高于选择A的0分。因此,即使经过后训练,模型仍会倾向于选择猜测,从而产生幻觉。

3.2 评估基准的“二元评分机制”:幻觉的隐形推手

主流的大语言模型评估基准(如MMLU、GPQA、SWE-bench)几乎都采用“二元评分机制”——正确得1分,错误或弃权得0分,且错误与弃权的惩罚程度完全相同。这种机制直接导致模型“为了得分而猜测”,即使知道答案不确定,也不会选择弃权。

3.2.1 主流基准评分机制的具体表现

下表整理了研究中提到的主流评估基准的评分机制,清晰展现了“二元评分”的普遍性:

基准名称 评分方法 是否为二元评分 弃权(如“我不知道”)是否得学分
GPQA 多项选择准确率 无学分
MMLU-Pro 多项选择准确率 无学分
IFEval 程序化指令验证 无学分
Omni-MATH 等价性评分(如数学答案是否正确) 无学分
WildBench LM评分(1-10分制) 部分学分(3-4分,低于含幻觉的“公平回答”5-6分)
BBH 多项选择/精确匹配 无学分
MATH(L5拆分) 等价性评分 无学分
MuSR 多项选择准确率 无学分
SWE-bench 补丁是否通过单元测试 无学分
HLE 多项选择/等价性评分 无学分

从表中可以看出,10个主流基准中,9个采用严格的二元评分,仅WildBench采用10分制,但“弃权”的得分(3-4分)仍低于“含幻觉的公平回答”(5-6分)——这意味着,即使在非二元评分的基准中,模型选择猜测(即使产生幻觉)仍比弃权更有利。

3.2.2 案例:Model A与Model B的得分对比

为了更直观地说明评分机制的影响,我们可以构建一个简单的对比实验:

  • Model A:诚实表达不确定性,对确定的问题回答正确(准确率80%),对不确定的问题选择弃权(占比20%);
  • Model B:从不弃权,对确定的问题回答正确(准确率80%),对不确定的问题随机猜测(正确率10%,占比20%)。

在二元评分机制下,两者的得分计算如下:

  • Model A的得分 = 80%×1 + 20%×0 = 0.8;
  • Model B的得分 = 80%×1 + 20%×10%×1 = 0.82。

尽管Model A更“诚实”且更少产生幻觉,但Model B的得分更高。这种评分机制下,开发者为了在排行榜上取得更好的名次,会优先优化Model B这类“擅长猜测”的模型,而非Model A这类“擅长校准置信度”的模型——幻觉问题因此被进一步强化。

3.3 排行榜的系统性压力:倒逼模型“追求自信而非准确”

主流的大语言模型排行榜(如Open LLM Leaderboard、HELM Capabilities)以基准测试的得分为核心指标,这进一步加剧了幻觉问题。因为排行榜的竞争压力会让开发者将“提升基准得分”作为首要目标,而忽略“减少幻觉”这一实际需求。

例如,SWE-bench(软件工程基准)要求模型生成代码补丁,仅根据“补丁是否通过单元测试”给出二元评分——即使模型对问题理解不透彻,生成的补丁可能存在潜在漏洞(但恰好通过测试),也能得1分;而如果模型选择“我不知道如何修复”,则得0分。在这种压力下,开发者会优化模型生成“看似能通过测试的补丁”,而非“真正可靠的补丁”,从而导致模型在实际软件工程场景中产生幻觉(如生成存在隐藏bug的代码)。

反思:后训练技术的发展陷入了“治标不治本”的困境——我们花大量精力优化模型的反馈学习机制,却忽略了评估体系这一“源头”。就像教育领域,如果考试规则是“猜题得分更高”,那么即使老师反复强调“要诚实”,学生仍会选择猜题。要解决幻觉问题,不能只盯着模型本身,更要改革评估体系这一“指挥棒”。

二元评分机制下模型选择示意图
图片来源:Pixabay

四、如何通过改革减少大语言模型的幻觉?

本小节欲回答的核心问题:要有效减少大语言模型的幻觉,需要从哪些层面入手?具体的评估体系改革方案是什么?这些方案如何在实际场景中落地?

减少大语言模型的幻觉,不能仅依赖技术层面的优化(如更好的模型架构、更多的训练数据),而需要“社会技术变革”——核心是改革评估体系,通过“明确置信度目标”重新对齐激励:让模型“在不确定时弃权”比“猜测”更有利,从而鼓励“行为校准”(即模型的输出行为与自身置信度匹配)。

4.1 核心改革方向:明确置信度目标与差异化评分

研究团队提出的改革方案核心是:在评估基准中“明确置信度目标”,即清晰规定“模型在何种置信度下应回答,何种情况下应弃权”,并采用“差异化评分”——对错误回答施加惩罚,对弃权给予部分学分(或至少不惩罚)。

具体的评分规则设计可参考如下示例:

“仅当你对答案的置信度>75%时才回答。正确回答得1分,错误回答扣2分,回答‘我不知道’得0分。”

这种规则的数学逻辑是:当模型的置信度≤75%时,猜测的期望得分(如置信度70%时,期望得分为70%×1 + 30%×(-2) = 0.1)低于弃权的0分,因此模型会选择弃权;只有当置信度>75%时,猜测的期望得分(如80%×1 + 20%×(-2) = 0.4)高于弃权,模型才会选择回答。

这种设计借鉴了早期SAT、GRE等标准化考试的“猜测惩罚”机制——例如旧SAT中,错误答案会扣0.25分,以此鼓励学生“只在确定时答题”。

4.2 关键概念:行为校准(Behavioral Calibration)

改革评估体系的最终目标是实现模型的“行为校准”——即模型的输出行为(回答或弃权)与其真实的置信度匹配:

  • 当模型置信度高于阈值(如75%)时,选择回答,且回答的正确率应与置信度一致;
  • 当模型置信度低于阈值时,选择弃权,避免产生过度自信的幻觉。

行为校准与传统的“概率校准”(如模型输出的置信度概率与实际正确率匹配)不同:概率校准关注“模型输出的概率是否准确”,而行为校准关注“模型是否根据置信度采取合理的行动”。例如,一个模型可能知道“自己有70%的概率正确”(概率校准),但在二元评分机制下仍会选择回答(行为未校准);而在差异化评分机制下,模型会根据70%的置信度选择弃权(行为校准)。

4.2.1 行为校准的实际落地案例

以医疗问答场景为例,假设我们为模型设定如下置信度目标:

“仅当你对医疗建议的置信度>95%时才回答。正确回答得1分,错误回答扣10分,‘我不知道’得0分。”

在这种规则下:

  • 对于“普通感冒的常见症状”这类确定的问题(模型置信度98%),模型会回答,且正确率高;
  • 对于“罕见遗传病的诊断建议”这类不确定的问题(模型置信度60%),模型会选择弃权,并建议“咨询专业医生”,避免给出错误的医疗建议(幻觉)。

这种落地方式既能保证模型在确定领域的可用性,又能避免在高风险领域产生致命的幻觉。

4.3 改革的延伸:从基准测试到实际应用

评估体系的改革不能仅停留在基准测试层面,还需要延伸到实际应用场景,具体可分为三个步骤:

4.3.1 步骤1:在主流基准中加入置信度目标

首先,在MMLU、SWE-bench等主流基准中,修改评分规则,加入明确的置信度目标。例如,对SWE-bench的改革可设计为:

“仅当你确定代码补丁能解决问题(置信度>80%)时才生成补丁。补丁通过所有单元测试得1分,未通过扣3分,回答‘无法确定解决方案’得0分。”

这种改革能倒逼开发者优化模型的置信度校准能力,而非仅追求“通过测试的补丁数量”。

4.3.2 步骤2:开发行为校准的评估工具

其次,需要开发专门的工具评估模型的行为校准能力。例如,通过以下方式评估:

  • 构建“置信度梯度测试集”:包含不同置信度水平的问题(如置信度60%、70%、80%、90%);
  • 统计模型在不同置信度区间的“回答率”和“正确率”:若模型在置信度<75%的区间回答率低于10%,且在置信度>75%的区间正确率高于80%,则认为模型实现了行为校准。

4.3.3 步骤3:在实际应用中定制置信度阈值

最后,在不同的实际应用场景中,根据风险等级定制置信度阈值:

  • 低风险场景(如娱乐问答):可设置较低的阈值(如50%),允许模型在中等置信度
    下选择回答,以提升交互性;
  • 中风险场景(如金融咨询):设置中等阈值(如80%),要求模型在较高置信度下回答,避免给出错误的投资建议;
  • 高风险场景(如医疗诊断、法律文书):设置极高阈值(如95%),仅允许模型在近乎确定的情况下输出,最大限度降低幻觉导致的风险。

例如,在法律场景中,模型面对“某合同条款是否符合《民法典》第XX条”的问题时,若置信度为92%(低于95%阈值),则应回答“无法确定该条款的合规性,建议咨询专业律师”,而非强行给出可能错误的解读——这正是行为校准在高风险场景中的实际价值。

4.4 改革方案的优势与局限性

4.4.1 优势:从“激励猜测”到“激励诚实”

与现有二元评分机制相比,“明确置信度目标+差异化评分”的改革方案有三个核心优势:

  1. 对齐真实需求:实际应用中,用户更需要“可靠的输出”而非“尽可能多的输出”——例如,医生不会希望AI在不确定时给出错误的诊断,而改革方案恰好鼓励模型在不确定时弃权,符合真实场景需求;
  2. 减少系统性幻觉:通过惩罚错误、不惩罚弃权,模型“猜测”的动力被大幅削弱,从而减少因“为得分而猜测”导致的系统性幻觉;
  3. 可量化校准:置信度阈值的设定让“行为校准”可量化评估,开发者能通过调整阈值,平衡模型的“可用性”与“可靠性”——例如,对新手用户可提高阈值(更保守),对专业用户可适当降低阈值(更灵活)。

4.4.2 局限性:需要行业共识与渐进落地

改革方案并非无懈可击,实际落地面临两个主要挑战:

  1. 阈值设定的主观性:不同场景的置信度阈值(如医疗95%、金融80%)缺乏绝对客观的标准,需要行业内多方(开发者、用户、监管机构)共同协商确定,这一过程可能耗时较长;
  2. 现有基准的兼容性:主流基准(如MMLU、SWE-bench)已广泛使用,直接替换评分机制可能导致历史数据失去可比性,因此需要渐进式改革——例如,先在基准中新增“行为校准”分项得分,再逐步将其纳入核心排名指标。

反思:改革评估体系的难点不在于技术设计,而在于行业共识的建立。就像统一度量衡需要各国协调,置信度阈值的设定也需要跨企业、跨领域的合作。但从长远来看,这是解决幻觉问题的必经之路——毕竟,大语言模型的终极价值在于“可靠地辅助人类”,而非“在排行榜上取得高分”。

五、实用摘要与操作清单

本小节欲回答的核心问题:普通开发者、企业用户如何将本文的理论转化为实际行动?有哪些可直接落地的步骤或清单?

无论是模型开发者还是企业用户,都可通过以下“实用摘要”和“操作清单”,将幻觉治理的思路应用到实际工作中。

5.1 实用摘要(核心观点速览)

  1. 幻觉根源:幻觉并非模型“不聪明”,而是预训练的统计必然性(生成错误率与IIV分类错误率正相关)与后训练的评估激励错位(二元评分鼓励猜测)共同导致;
  2. 关键认知:即使训练数据无错误,模型仍会因“无规律事实”“模型表达不足”“分布偏移”产生幻觉;后训练方法(如RLHF)无法根除幻觉,因评估体系未变;
  3. 解决方案:核心是改革评估体系,通过“明确置信度目标+差异化评分”实现行为校准,让模型“不确定时弃权”比“猜测”更有利;
  4. 落地原则:根据场景风险定制置信度阈值(低风险50%、中风险80%、高风险95%),优先在高风险场景落地。

5.2 操作清单(分角色落地步骤)

5.2.1 模型开发者操作清单(减少幻觉的开发流程)

  1. 预训练阶段

    • 识别训练数据中的“单例事实”(如仅出现一次的生日、论文标题),为这类数据添加“低置信度标记”,避免模型过度拟合;
    • 针对需要细粒度推理的任务(如字母计数、代码调试),选择支持细粒度建模的架构(如支持字符级推理的模型),提升模型表达能力;
    • 加入“分布偏移测试集”(如与训练数据差异较大的prompt),评估模型在OOD(分布外)场景的幻觉率,优先优化高幻觉率任务。
  2. 后训练阶段

    • 设计包含“置信度目标”的反馈数据(如标注“该回答置信度70%,应弃权”),而非仅标注“正确/错误”;
    • 在后训练优化中,将“行为校准指标”(如置信度>75%时的回答正确率、置信度<75%时的弃权率)纳入损失函数,而非仅优化基准得分;
    • 针对不同场景开发“置信度阈值插件”,允许用户根据需求调整阈值(如医疗场景默认95%阈值)。
  3. 评估阶段

    • 参与主流基准的改革,推动在MMLU、SWE-bench等中加入“行为校准分项”;
    • 自建“幻觉评估测试集”,包含不同置信度水平的问题,定期测试模型的行为校准能力。

5.2.2 企业用户操作清单(降低幻觉风险的应用策略)

  1. 场景分类

    • 按风险等级划分应用场景(低/中/高),明确各场景的置信度阈值(参考:低50%、中80%、高95%);
    • 高风险场景(如医疗、法律)禁止直接使用模型输出,需经人类专家审核;中风险场景(如金融)需双重验证(模型输出+初级专家审核);低风险场景(如娱乐)可直接使用。
  2. 模型选型

    • 选择时优先关注“行为校准指标”(如厂商提供的“置信度>80%时的正确率”),而非仅看基准得分;
    • 要求厂商提供“幻觉率报告”,包含不同场景下的幻觉率数据(如代码生成场景幻觉率、医疗问答场景幻觉率),避免“一刀切”选型。
  3. 应用优化

    • 在prompt中加入“置信度要求”,例如:“仅当你对答案的置信度>90%时回答,否则回复‘无法确定’”;
    • 建立“幻觉反馈机制”,让用户标记错误输出,定期将反馈数据提供给厂商,推动模型迭代。

六、一页速览(One-page Summary)

维度 核心内容
幻觉定义 模型生成“自信但错误”的输出,分内在(与prompt矛盾)和外在(与事实矛盾)两类
预训练根源 1. 认知不确定性(无规律事实,如单例生日);2. 模型表达不足(如n-gram语法错误);3. 分布偏移(OOD prompt)
后训练根源 二元评分机制鼓励猜测(弃权得0分,猜测期望得分更高),排行榜压力强化这一行为
核心解决方案 明确置信度目标+差异化评分,实现行为校准(置信度高于阈值则回答,否则弃权)
场景阈值参考 低风险(娱乐):50%;中风险(金融):80%;高风险(医疗):95%
关键指标 行为校准指标(如置信度>75%回答率、正确率)、IIV误分类率、单例率
落地挑战 阈值设定需行业共识、现有基准兼容性需渐进解决

七、常见问答(FAQ)

本小节欲回答的核心问题:读者在理解和应用本文内容时,最可能遇到哪些疑问?这些疑问的答案如何基于研究结论给出?

  1. 问:大语言模型的幻觉是否完全无法避免?
    答:是的,幻觉在统计上具有必然性,但可大幅减少。即使训练数据无错误,模型的生成错误率仍至少是IIV误分类率的两倍——这意味着只要存在分类错误(如无法区分有效与错误输出),就会存在幻觉。但通过评估体系改革(如行为校准),可将幻觉率降低到“不影响实际应用”的水平,例如在高风险场景中,让幻觉率低于1%。

  2. 问:行为校准与概率校准有什么区别?为什么行为校准更重要?
    答:概率校准关注“模型输出的置信度概率是否准确”(如模型说“90%确定”,实际正确率是否真的90%);行为校准关注“模型是否根据置信度采取合理行动”(如90%确定则回答,60%确定则弃权)。行为校准更重要是因为,即使概率校准良好,模型仍可能因评分机制选择“低置信度猜测”(如60%确定时,二元评分下猜测期望得分高于弃权);而行为校准直接对齐实际应用需求,确保模型“该回答时回答,该弃权时弃权”。

  3. 问:现有的后训练方法(如RLHF)是否需要被淘汰?
    答:不需要,但需与评估体系改革结合。RLHF等方法的价值在于减少“有害输出”(如歧视、阴谋论),这与“减少幻觉”是不同目标——前者解决“输出的价值观问题”,后者解决“输出的准确性与置信度匹配问题”。未来的最优路径是:用RLHF确保输出无害,用“明确置信度目标的评估”确保输出可靠,两者结合实现“既无害又少幻觉”的模型。

  4. 问:中小企业没有能力开发行为校准的模型,该如何应对幻觉问题?
    答:中小企业可通过“应用层优化”降低幻觉风险,无需从零开发模型:① 在prompt中明确置信度要求(如“仅当置信度>80%时回答”);② 按场景风险分级,高风险场景必须经人类审核;③ 选择支持“置信度输出”的商用模型(如要求厂商提供每个输出的置信度分数),根据分数决定是否使用输出。例如,某电商企业使用模型生成商品描述时,可仅采用置信度>90%的描述,低于该分数的描述由人工修改。

  5. 问:为什么WildBench采用10分制仍无法解决幻觉问题?
    答:因为WildBench的评分规则仍“惩罚弃权”。根据研究,WildBench中“弃权”的得分(3-4分)低于“含幻觉的公平回答”(5-6分)——这意味着,模型即使不确定,生成含幻觉的回答仍比弃权更有利,因此仍会选择猜测。真正有效的非二元评分,需要让“合理弃权”的得分不低于“低置信度猜测”,例如将弃权得分调整为5分,与“含少量幻觉的回答”持平,才能鼓励模型诚实表达不确定性。

  6. 问:单例率与幻觉率的关系是什么?企业如何利用这一关系减少幻觉?
    答:单例率是“训练数据中仅出现一次的事实占比”,研究表明,模型对单例事实的幻觉率至少等于单例率(如20%单例率对应至少20%幻觉率)。企业可利用这一关系优化数据使用:① 识别业务相关的单例事实(如小众客户的需求偏好),避免让模型单独依赖这些数据生成关键决策;② 对单例事实进行人工验证,补充多源数据(如向客户确认需求),将单例事实转化为“多出现事实”,降低幻觉率。

  7. 问:评估体系改革需要哪些角色参与?普通开发者能做些什么?
    答:评估体系改革需要“开发者、企业用户、监管机构、学术界”四方参与:开发者推动基准规则修改,企业用户提出场景化需求,监管机构制定高风险场景标准,学术界提供理论支持。普通开发者可从两方面行动:① 在模型评估中,主动加入行为校准指标(如自制包含置信度目标的测试集),而非仅看排行榜得分;② 参与开源社区讨论(如Hugging Face论坛),推动主流基准(如Open LLM Leaderboard)加入行为校准分项。

  8. 问:模型在弃权时,除了说“我不知道”,还能提供哪些更有用的反馈?
    答:弃权时的反馈可根据场景优化,核心是“帮助用户推进任务”而非仅拒绝回答。例如:① 医疗场景:“无法确定你的症状对应的疾病,建议重点描述以下信息:症状持续时间、是否伴随发热、近期接触史,以便进一步判断”;② 代码场景:“无法确定该bug的修复方案,建议检查以下文件:xxx.py(第10-20行)、yyy.config(配置项是否正确)”;③ 教育场景:“无法确定这道题的解法,建议先复习‘一元二次方程求根公式’,再尝试解题”。这种“弃权+引导”的方式,既能避免幻觉,又能保持模型的实用性。

八、结论

大语言模型的幻觉问题,长期被误认为是“模型技术不够先进”的产物,但研究表明,其根源在于“预训练的统计特性”与“后训练的评估激励错位”——前者决定了幻觉无法完全消除,后者则导致幻觉在现有体系下被不断强化。

要真正减少幻觉,我们需要跳出“仅优化模型”的单一思路,转向“改革评估体系”的系统性解决方案:通过明确置信度目标、差异化评分,让模型的“诚实”比“猜测”更有利,最终实现“行为校准”。这一改革不仅需要技术层面的设计,更需要行业共识的建立——从开发者到企业用户,从基准制定者到监管机构,都需认识到:大语言模型的价值,不在于“答对每一道题”,而在于“在正确的场景下,以正确的置信度,给出正确的输出”。

未来,随着评估体系的完善,我们有理由相信,大语言模型将从“自信的猜测者”转变为“可靠的助手”——在医疗、法律、金融等关键领域,既能提供高效支持,又能坦诚自身局限,真正实现“人机协同”的核心价值。