大语言模型为何会产生幻觉？从预训练到评估的全方位解析

本文欲回答的核心问题：大语言模型的幻觉为何难以彻底消除？其根源是预训练阶段的统计特性，还是后训练阶段的评估体系偏差？我们又能通过哪些具体改革减少幻觉，提升模型可靠性？

当你向大语言模型询问“Adam Tauman Kalai的生日”时，它可能会先后给出“03-07”“15-06”“01-01”三个完全错误的日期，却始终表现得无比自信；当你查询“Adam Tauman Kalai的博士论文标题”时，GPT-4o、DeepSeek、Llama三款主流模型分别生成了三个与事实不符的结果——这些“看似合理、实则错误”的输出，就是大语言模型领域令人头疼的“幻觉”问题。

尽管近年来模型架构（如Transformer的优化）、训练方法（如更大规模的预训练数据）不断升级，幻觉却始终如影随形，成为制约大语言模型在医疗、法律等关键领域应用的核心障碍。OpenAI的一项新研究指出，幻觉的根源并非单纯的模型缺陷，而是预训练的统计必然性与评估体系的激励错位共同作用的结果。本文将从预训练到后训练，逐步拆解幻觉的产生机制，并提出可落地的解决方向。

一、什么是大语言模型的幻觉？

本小节欲回答的核心问题：大语言模型的“幻觉”具体指什么？它和人类的普通错误有何本质区别？有哪些典型案例能说明幻觉的表现形式？

大语言模型的幻觉，是指模型生成“自信但错误”的输出，且这些输出在表面上看似合理。与人类“知道自己不知道”或“不小心犯错”不同，模型的幻觉往往伴随强烈的确定性，即使输出完全偏离事实，也不会表现出丝毫犹豫。

从表现形式上，幻觉可分为“内在幻觉”和“外在幻觉”：内在幻觉是指输出与用户的prompt直接矛盾，例如当你询问“DEEPSEEK中有多少个字母D”时，DeepSeek-V3在十次测试中给出“2”“3”甚至“7”等错误答案，与“DEEPSEEK”的实际拼写（仅1个D）完全不符；外在幻觉则是输出与训练数据或现实事实矛盾，例如前文提到的学者生日、论文标题错误，均属于外在幻觉。

1.1 幻觉的典型案例：从生日到论文标题的错误

研究中记录了多个真实的幻觉案例，这些案例清晰地展现了幻觉的“自信性”与“错误性”：

生日查询案例：当向DeepSeek-V3（600B参数）询问“Adam Tauman Kalai的生日”并要求仅在知道时回复“DD-MM”格式时，模型在三次尝试中给出了三个错误日期，而正确日期实际上在秋季。更值得注意的是，即使prompt明确要求“仅在知道时回复”，模型仍选择猜测而非弃权。
论文标题案例：当询问“Adam Tauman Kalai的博士论文标题”时，GPT-4o生成“Boosting, Online Algorithms, and Other Topics in Machine Learning”（声称2002年在CMU完成），DeepSeek生成“Algebraic Methods in Interactive Machine Learning”（声称2005年在哈佛完成），Llama生成“Efficient Algorithms for Learning and Playing Games”（声称2007年在MIT完成）——但事实是，Adam Tauman Kalai的论文标题为“Probabilistic and on-line methods in machine learning”，于2001年在卡内基梅隆大学完成。
字母计数案例：当询问“DEEPSEEK中有多少个字母D”时，DeepSeek-V3、Meta AI、Claude 3.7 Sonnet均表现出明显的幻觉，答案从“2”到“7”不等，而通过简单拼写拆解（D-E-E-P-S-E-E-K）可知，正确答案应为1。

1.2 幻觉与人类错误的本质区别

尽管幻觉和人类错误都表现为“输出与事实不符”，但二者存在三个关键区别：

置信度与正确性的匹配度：人类在不确定时通常会表现出犹豫（如“我记不太清了”），而模型即使完全不知道答案，也会生成自信的输出；
错误的系统性：人类的错误可能是偶然的（如记错生日），但模型的幻觉往往具有系统性（如对所有罕见事实都频繁出错）；
纠错难度：人类可通过学习纠正错误，而模型的幻觉受训练和评估机制制约，仅靠增加数据量难以彻底消除。

反思：这些案例让我意识到，评估模型性能时，“准确性”不能作为唯一指标——模型的“置信度校准”（即自信程度与实际正确性的匹配度）同样重要。一个能在不确定时说“我不知道”的模型，或许比一个虽有高准确率但偶尔自信犯错的模型，在医疗、法律等领域更具实用价值。

二、预训练阶段：幻觉为何在统计上不可避免？

本小节欲回答的核心问题：即使使用完全干净的训练数据，预训练过程为何仍会导致大语言模型产生幻觉？其统计层面的根源是什么？Is-It-Valid（IIV）任务如何揭示这一本质？

即使训练数据中没有任何错误，大语言模型在预训练阶段也会因统计机制的固有特性产生幻觉。这一结论来自OpenAI研究中提出的“生成错误率与IIV误分类率的定量关系”：大语言模型的生成错误率（即幻觉率）至少是其IIV二元分类任务误分类率的两倍。这意味着，幻觉的产生与监督学习中的误分类本质同源，是统计学习过程中无法完全规避的结果。

2.1 预训练的核心目标：交叉熵与密度估计

大语言模型的预训练本质是“密度估计”任务——模型通过学习训练数据中的语言分布（如词语的搭配、句子的结构、事实的表述），构建一个近似真实分布的概率模型（记为 $\overset{p}{^}$ ）。预训练的优化目标通常是“交叉熵损失”，即最小化模型预测分布与真实数据分布的差异。

然而，这种优化目标存在一个关键问题：即使训练数据完全干净（即真实分布中没有错误，记为 $p (E) = 0$ ），模型为了贴合整体分布，仍会不可避免地生成一些不在真实分布中的输出（即错误输出，记为 $E$ ）。这就像人类学习语言时，即使只接触正确的句子，也可能在初期说出语法错误的话——模型的“错误生成”，是其学习分布过程中的必然产物。

2.2 Is-It-Valid（IIV）任务：连接生成错误与分类错误

为了揭示幻觉的统计本质，研究团队将问题简化为一个二元分类任务——Is-It-Valid（IIV）：给定一个模型输出，判断它是“有效”（Valid，符合事实或语法）还是“错误”（Error，即幻觉）。

2.2.1 IIV任务的定义与分布

IIV任务的训练数据来自两个部分，各占50%：

正例（+）：来自真实训练分布的有效输出（如正确的生日、论文标题）；
负例（-）：从所有可能的错误输出中均匀随机选取的样本（如错误的生日、论文标题）。

模型在IIV任务中的表现用“误分类率”（ $er r_{ii v}$ ）衡量，即模型将正例误判为负例或负例误判为正例的概率。

2.2.2 生成错误率与IIV误分类率的定量关系

研究团队通过理论证明得出：大语言模型的生成错误率（ $err$ ）至少是其IIV误分类率的两倍，即：
err \geq 2 \cdot err_{iiv} – \text{常数项}
其中“常数项”由有效输出与错误输出的数量比、模型校准度等因素决定，在大多数场景下数值较小，可以忽略。

这一公式的核心意义在于：幻觉并非大语言模型的“专属缺陷”，而是与监督学习中的分类错误同源。导致分类错误的因素（如认知不确定性、模型表达能力不足、分布偏移、数据噪音），同样会导致幻觉。例如，当模型无法准确区分“有效输出”和“错误输出”（即IIV误分类率高）时，其生成错误输出的概率（幻觉率）也必然会高。

2.3 预训练中导致幻觉的三大关键因素

基于IIV任务的分析，预训练阶段导致幻觉的因素可归纳为三类，这些因素均与分类错误的根源高度一致：

2.3.1 认知不确定性：无规律事实的学习困境

当训练数据中的事实不存在“可学习的规律”时（如个人生日、小众事件的时间），模型会因“认知不确定性”（即缺乏足够的信息区分有效与错误输出）产生高IIV误分类率，进而导致高幻觉率。

例如，训练数据中“某学者的生日”可能仅出现一次，且与其他信息（如学者的研究领域、论文发表时间）无关联——模型无法从数据中学习到“如何判断一个生日是否正确”的规律，在生成时只能随机猜测，最终导致幻觉。

研究中提出的“单例率”（Singleton Rate）概念，定量描述了这一现象：单例率是指“在训练数据中仅出现一次的事实占比”。根据Good-Turing缺失质量估计理论，如果20%的事实是单例（即仅出现一次），那么至少20%的这类事实会被模型幻觉。这也解释了为何模型对“爱因斯坦生日”（频繁出现）回答准确，对“小众学者生日”（单例）频繁出错。

2.3.2 模型表达能力不足：无法捕捉关键模式

当模型家族（如n-gram模型、子词token模型）的表达能力不足以捕捉数据中的关键模式时，即使数据充足，也会产生系统性幻觉。这对应于分类任务中“模型家族无法表示目标函数”的问题。

典型案例包括：

n-gram模型的语法错误：早期的trigram模型（基于前两个词预测下一个词）无法捕捉长距离依赖，例如面对“她丢了它，完全不知所措”（She lost it and was completely out of…）和“他丢了它，完全不知所措”（He lost it and was completely out of…）时，模型无法区分“her mind”和“his mind”的正确搭配，导致生成“She lost it and was completely out of his mind”这类不合逻辑的句子。
子词token模型的计数错误：现代模型使用子词token（如将“DEEPSEEK”拆分为“D/EEP/SEE/K”），这种拆分方式隐藏了单个字符的信息，导致模型在“字母计数”任务中频繁出错（如前文提到的“DEEPSEEK中D的数量”错误）。而具备推理能力的模型（如DeepSeek-R1）通过“逐字母拼写拆解”（D-E-E-P-S-E-E-K），则能正确完成任务——这说明模型的表达能力（是否支持细粒度推理）直接影响幻觉率。

2.3.3 分布偏移：训练与测试数据的不匹配

当测试prompt（如“一磅羽毛和一磅铅哪个更重”）与训练数据的分布差异较大时，模型会因“分布偏移”产生幻觉。这与分类任务中“训练数据与测试数据分布不一致导致误分类”的机制完全相同。

例如，训练数据中可能很少出现“看似矛盾的常识问题”，当模型遇到“一磅羽毛和一磅铅哪个更重”时，由于缺乏相关训练样本，无法准确判断“重量相同”的事实，可能错误地认为“铅更重”，从而产生幻觉。

反思：过去我常将预训练阶段的幻觉归咎于“数据不够多”，但研究表明，即使数据量足够，模型表达能力不足或事实无规律，仍会导致幻觉。这提醒我们，预训练优化不能只追求“更大的数据集”，还需关注“模型是否能捕捉任务所需的关键模式”（如字母计数需要细粒度字符信息）、“事实是否存在可学习的规律”（如是否需要为无规律事实设计特殊的存储机制）。

大语言模型预训练幻觉产生机制示意图
图片来源：Unsplash

三、后训练阶段：为何RLHF等方法无法根除幻觉？

本小节欲回答的核心问题：RLHF（基于人类反馈的强化学习）、DPO（直接偏好优化）等后训练方法能减少有害输出，为何却无法根除过度自信的幻觉？后训练阶段的关键瓶颈是什么？

RLHF、DPO、RLAIF（基于AI反馈的强化学习）等后训练方法，确实能有效减少大语言模型的有害输出（如阴谋论、歧视性内容），但无法根除过度自信的幻觉。其根本原因在于：后训练的优化目标受限于评估体系的“激励错位”——主流基准测试采用“二元评分机制”，鼓励模型“猜测”而非“诚实表达不确定性”，即使后训练技术再先进，也难以对抗这种系统性激励。

3.1 后训练方法的局限性：减少有害输出，却无法解决“猜测激励”

后训练的核心逻辑是“通过反馈调整模型输出”：例如RLHF通过人类对模型输出的偏好打分，训练一个奖励模型，再用强化学习优化原模型，使其输出更符合人类偏好。这类方法在解决“有害性”问题上效果显著——例如，未经过后训练的模型可能会生成“地球是平的”这类阴谋论，而经过RLHF优化后，模型会拒绝生成此类内容。

但对于“幻觉”问题，后训练方法存在明显局限：它们无法改变模型“在不确定时选择猜测”的行为。因为后训练的优化目标仍以“在现有基准测试中得分”为导向，而现有基准的评分机制本质上鼓励猜测。

例如，当模型面对一个不确定的问题（如“某小众学者的论文发表时间”）时，有两种选择：

选择A：回答“我不知道”（弃权），在二元评分机制中得0分；
选择B：随机猜测一个答案，有一定概率得1分（正确），否则得0分（错误）。

从期望得分来看，选择B的期望得分（如1/365，假设生日猜测的正确概率）始终高于选择A的0分。因此，即使经过后训练，模型仍会倾向于选择猜测，从而产生幻觉。

3.2 评估基准的“二元评分机制”：幻觉的隐形推手

主流的大语言模型评估基准（如MMLU、GPQA、SWE-bench）几乎都采用“二元评分机制”——正确得1分，错误或弃权得0分，且错误与弃权的惩罚程度完全相同。这种机制直接导致模型“为了得分而猜测”，即使知道答案不确定，也不会选择弃权。

3.2.1 主流基准评分机制的具体表现

下表整理了研究中提到的主流评估基准的评分机制，清晰展现了“二元评分”的普遍性：

基准名称	评分方法	是否为二元评分	弃权（如“我不知道”）是否得学分
GPQA	多项选择准确率	是	无学分
MMLU-Pro	多项选择准确率	是	无学分
IFEval	程序化指令验证	是	无学分
Omni-MATH	等价性评分（如数学答案是否正确）	是	无学分
WildBench	LM评分（1-10分制）	否	部分学分（3-4分，低于含幻觉的“公平回答”5-6分）
BBH	多项选择/精确匹配	是	无学分
MATH（L5拆分）	等价性评分	是	无学分
MuSR	多项选择准确率	是	无学分
SWE-bench	补丁是否通过单元测试	是	无学分
HLE	多项选择/等价性评分	是	无学分

从表中可以看出，10个主流基准中，9个采用严格的二元评分，仅WildBench采用10分制，但“弃权”的得分（3-4分）仍低于“含幻觉的公平回答”（5-6分）——这意味着，即使在非二元评分的基准中，模型选择猜测（即使产生幻觉）仍比弃权更有利。

3.2.2 案例：Model A与Model B的得分对比

为了更直观地说明评分机制的影响，我们可以构建一个简单的对比实验：

Model A：诚实表达不确定性，对确定的问题回答正确（准确率80%），对不确定的问题选择弃权（占比20%）；
Model B：从不弃权，对确定的问题回答正确（准确率80%），对不确定的问题随机猜测（正确率10%，占比20%）。

在二元评分机制下，两者的得分计算如下：

Model A的得分 = 80%×1 + 20%×0 = 0.8；
Model B的得分 = 80%×1 + 20%×10%×1 = 0.82。

尽管Model A更“诚实”且更少产生幻觉，但Model B的得分更高。这种评分机制下，开发者为了在排行榜上取得更好的名次，会优先优化Model B这类“擅长猜测”的模型，而非Model A这类“擅长校准置信度”的模型——幻觉问题因此被进一步强化。

3.3 排行榜的系统性压力：倒逼模型“追求自信而非准确”

主流的大语言模型排行榜（如Open LLM Leaderboard、HELM Capabilities）以基准测试的得分为核心指标，这进一步加剧了幻觉问题。因为排行榜的竞争压力会让开发者将“提升基准得分”作为首要目标，而忽略“减少幻觉”这一实际需求。

例如，SWE-bench（软件工程基准）要求模型生成代码补丁，仅根据“补丁是否通过单元测试”给出二元评分——即使模型对问题理解不透彻，生成的补丁可能存在潜在漏洞（但恰好通过测试），也能得1分；而如果模型选择“我不知道如何修复”，则得0分。在这种压力下，开发者会优化模型生成“看似能通过测试的补丁”，而非“真正可靠的补丁”，从而导致模型在实际软件工程场景中产生幻觉（如生成存在隐藏bug的代码）。

反思：后训练技术的发展陷入了“治标不治本”的困境——我们花大量精力优化模型的反馈学习机制，却忽略了评估体系这一“源头”。就像教育领域，如果考试规则是“猜题得分更高”，那么即使老师反复强调“要诚实”，学生仍会选择猜题。要解决幻觉问题，不能只盯着模型本身，更要改革评估体系这一“指挥棒”。

二元评分机制下模型选择示意图
图片来源：Pixabay

四、如何通过改革减少大语言模型的幻觉？

本小节欲回答的核心问题：要有效减少大语言模型的幻觉，需要从哪些层面入手？具体的评估体系改革方案是什么？这些方案如何在实际场景中落地？

减少大语言模型的幻觉，不能仅依赖技术层面的优化（如更好的模型架构、更多的训练数据），而需要“社会技术变革”——核心是改革评估体系，通过“明确置信度目标”重新对齐激励：让模型“在不确定时弃权”比“猜测”更有利，从而鼓励“行为校准”（即模型的输出行为与自身置信度匹配）。

4.1 核心改革方向：明确置信度目标与差异化评分

研究团队提出的改革方案核心是：在评估基准中“明确置信度目标”，即清晰规定“模型在何种置信度下应回答，何种情况下应弃权”，并采用“差异化评分”——对错误回答施加惩罚，对弃权给予部分学分（或至少不惩罚）。

具体的评分规则设计可参考如下示例：

“

“仅当你对答案的置信度>75%时才回答。正确回答得1分，错误回答扣2分，回答‘我不知道’得0分。”

这种规则的数学逻辑是：当模型的置信度≤75%时，猜测的期望得分（如置信度70%时，期望得分为70%×1 + 30%×(-2) = 0.1）低于弃权的0分，因此模型会选择弃权；只有当置信度>75%时，猜测的期望得分（如80%×1 + 20%×(-2) = 0.4）高于弃权，模型才会选择回答。

这种设计借鉴了早期SAT、GRE等标准化考试的“猜测惩罚”机制——例如旧SAT中，错误答案会扣0.25分，以此鼓励学生“只在确定时答题”。

4.2 关键概念：行为校准（Behavioral Calibration）

改革评估体系的最终目标是实现模型的“行为校准”——即模型的输出行为（回答或弃权）与其真实的置信度匹配：

当模型置信度高于阈值（如75%）时，选择回答，且回答的正确率应与置信度一致；
当模型置信度低于阈值时，选择弃权，避免产生过度自信的幻觉。

行为校准与传统的“概率校准”（如模型输出的置信度概率与实际正确率匹配）不同：概率校准关注“模型输出的概率是否准确”，而行为校准关注“模型是否根据置信度采取合理的行动”。例如，一个模型可能知道“自己有70%的概率正确”（概率校准），但在二元评分机制下仍会选择回答（行为未校准）；而在差异化评分机制下，模型会根据70%的置信度选择弃权（行为校准）。

4.2.1 行为校准的实际落地案例

以医疗问答场景为例，假设我们为模型设定如下置信度目标：

“

“仅当你对医疗建议的置信度>95%时才回答。正确回答得1分，错误回答扣10分，‘我不知道’得0分。”

在这种规则下：

对于“普通感冒的常见症状”这类确定的问题（模型置信度98%），模型会回答，且正确率高；
对于“罕见遗传病的诊断建议”这类不确定的问题（模型置信度60%），模型会选择弃权，并建议“咨询专业医生”，避免给出错误的医疗建议（幻觉）。

这种落地方式既能保证模型在确定领域的可用性，又能避免在高风险领域产生致命的幻觉。

4.3 改革的延伸：从基准测试到实际应用

评估体系的改革不能仅停留在基准测试层面，还需要延伸到实际应用场景，具体可分为三个步骤：

4.3.1 步骤1：在主流基准中加入置信度目标

首先，在MMLU、SWE-bench等主流基准中，修改评分规则，加入明确的置信度目标。例如，对SWE-bench的改革可设计为：

“

“仅当你确定代码补丁能解决问题（置信度>80%）时才生成补丁。补丁通过所有单元测试得1分，未通过扣3分，回答‘无法确定解决方案’得0分。”

这种改革能倒逼开发者优化模型的置信度校准能力，而非仅追求“通过测试的补丁数量”。

4.3.2 步骤2：开发行为校准的评估工具

其次，需要开发专门的工具评估模型的行为校准能力。例如，通过以下方式评估：

构建“置信度梯度测试集”：包含不同置信度水平的问题（如置信度60%、70%、80%、90%）；
统计模型在不同置信度区间的“回答率”和“正确率”：若模型在置信度<75%的区间回答率低于10%，且在置信度>75%的区间正确率高于80%，则认为模型实现了行为校准。

4.3.3 步骤3：在实际应用中定制置信度阈值

最后，在不同的实际应用场景中，根据风险等级定制置信度阈值：

低风险场景（如娱乐问答）：可设置较低的阈值（如50%），允许模型在中等置信度
下选择回答，以提升交互性；
中风险场景（如金融咨询）：设置中等阈值（如80%），要求模型在较高置信度下回答，避免给出错误的投资建议；
高风险场景（如医疗诊断、法律文书）：设置极高阈值（如95%），仅允许模型在近乎确定的情况下输出，最大限度降低幻觉导致的风险。

例如，在法律场景中，模型面对“某合同条款是否符合《民法典》第XX条”的问题时，若置信度为92%（低于95%阈值），则应回答“无法确定该条款的合规性，建议咨询专业律师”，而非强行给出可能错误的解读——这正是行为校准在高风险场景中的实际价值。

4.4 改革方案的优势与局限性

4.4.1 优势：从“激励猜测”到“激励诚实”

与现有二元评分机制相比，“明确置信度目标+差异化评分”的改革方案有三个核心优势：

对齐真实需求：实际应用中，用户更需要“可靠的输出”而非“尽可能多的输出”——例如，医生不会希望AI在不确定时给出错误的诊断，而改革方案恰好鼓励模型在不确定时弃权，符合真实场景需求；
减少系统性幻觉：通过惩罚错误、不惩罚弃权，模型“猜测”的动力被大幅削弱，从而减少因“为得分而猜测”导致的系统性幻觉；
可量化校准：置信度阈值的设定让“行为校准”可量化评估，开发者能通过调整阈值，平衡模型的“可用性”与“可靠性”——例如，对新手用户可提高阈值（更保守），对专业用户可适当降低阈值（更灵活）。

4.4.2 局限性：需要行业共识与渐进落地

改革方案并非无懈可击，实际落地面临两个主要挑战：

阈值设定的主观性：不同场景的置信度阈值（如医疗95%、金融80%）缺乏绝对客观的标准，需要行业内多方（开发者、用户、监管机构）共同协商确定，这一过程可能耗时较长；
现有基准的兼容性：主流基准（如MMLU、SWE-bench）已广泛使用，直接替换评分机制可能导致历史数据失去可比性，因此需要渐进式改革——例如，先在基准中新增“行为校准”分项得分，再逐步将其纳入核心排名指标。

反思：改革评估体系的难点不在于技术设计，而在于行业共识的建立。就像统一度量衡需要各国协调，置信度阈值的设定也需要跨企业、跨领域的合作。但从长远来看，这是解决幻觉问题的必经之路——毕竟，大语言模型的终极价值在于“可靠地辅助人类”，而非“在排行榜上取得高分”。

五、实用摘要与操作清单

本小节欲回答的核心问题：普通开发者、企业用户如何将本文的理论转化为实际行动？有哪些可直接落地的步骤或清单？

无论是模型开发者还是企业用户，都可通过以下“实用摘要”和“操作清单”，将幻觉治理的思路应用到实际工作中。

5.1 实用摘要（核心观点速览）

幻觉根源：幻觉并非模型“不聪明”，而是预训练的统计必然性（生成错误率与IIV分类错误率正相关）与后训练的评估激励错位（二元评分鼓励猜测）共同导致；
关键认知：即使训练数据无错误，模型仍会因“无规律事实”“模型表达不足”“分布偏移”产生幻觉；后训练方法（如RLHF）无法根除幻觉，因评估体系未变；
解决方案：核心是改革评估体系，通过“明确置信度目标+差异化评分”实现行为校准，让模型“不确定时弃权”比“猜测”更有利；
落地原则：根据场景风险定制置信度阈值（低风险50%、中风险80%、高风险95%），优先在高风险场景落地。

5.2 操作清单（分角色落地步骤）

5.2.1 模型开发者操作清单（减少幻觉的开发流程）

预训练阶段：
- 识别训练数据中的“单例事实”（如仅出现一次的生日、论文标题），为这类数据添加“低置信度标记”，避免模型过度拟合；
- 针对需要细粒度推理的任务（如字母计数、代码调试），选择支持细粒度建模的架构（如支持字符级推理的模型），提升模型表达能力；
- 加入“分布偏移测试集”（如与训练数据差异较大的prompt），评估模型在OOD（分布外）场景的幻觉率，优先优化高幻觉率任务。
后训练阶段：
- 设计包含“置信度目标”的反馈数据（如标注“该回答置信度70%，应弃权”），而非仅标注“正确/错误”；
- 在后训练优化中，将“行为校准指标”（如置信度>75%时的回答正确率、置信度<75%时的弃权率）纳入损失函数，而非仅优化基准得分；
- 针对不同场景开发“置信度阈值插件”，允许用户根据需求调整阈值（如医疗场景默认95%阈值）。
评估阶段：
- 参与主流基准的改革，推动在MMLU、SWE-bench等中加入“行为校准分项”；
- 自建“幻觉评估测试集”，包含不同置信度水平的问题，定期测试模型的行为校准能力。

5.2.2 企业用户操作清单（降低幻觉风险的应用策略）

场景分类：
- 按风险等级划分应用场景（低/中/高），明确各场景的置信度阈值（参考：低50%、中80%、高95%）；
- 高风险场景（如医疗、法律）禁止直接使用模型输出，需经人类专家审核；中风险场景（如金融）需双重验证（模型输出+初级专家审核）；低风险场景（如娱乐）可直接使用。
模型选型：
- 选择时优先关注“行为校准指标”（如厂商提供的“置信度>80%时的正确率”），而非仅看基准得分；
- 要求厂商提供“幻觉率报告”，包含不同场景下的幻觉率数据（如代码生成场景幻觉率、医疗问答场景幻觉率），避免“一刀切”选型。
应用优化：
- 在prompt中加入“置信度要求”，例如：“仅当你对答案的置信度>90%时回答，否则回复‘无法确定’”；
- 建立“幻觉反馈机制”，让用户标记错误输出，定期将反馈数据提供给厂商，推动模型迭代。

六、一页速览（One-page Summary）

维度	核心内容
幻觉定义	模型生成“自信但错误”的输出，分内在（与prompt矛盾）和外在（与事实矛盾）两类
预训练根源	1. 认知不确定性（无规律事实，如单例生日）；2. 模型表达不足（如n-gram语法错误）；3. 分布偏移（OOD prompt）
后训练根源	二元评分机制鼓励猜测（弃权得0分，猜测期望得分更高），排行榜压力强化这一行为
核心解决方案	明确置信度目标+差异化评分，实现行为校准（置信度高于阈值则回答，否则弃权）
场景阈值参考	低风险（娱乐）：50%；中风险（金融）：80%；高风险（医疗）：95%
关键指标	行为校准指标（如置信度>75%回答率、正确率）、IIV误分类率、单例率
落地挑战	阈值设定需行业共识、现有基准兼容性需渐进解决

七、常见问答（FAQ）

本小节欲回答的核心问题：读者在理解和应用本文内容时，最可能遇到哪些疑问？这些疑问的答案如何基于研究结论给出？

问：大语言模型的幻觉是否完全无法避免？
答：是的，幻觉在统计上具有必然性，但可大幅减少。即使训练数据无错误，模型的生成错误率仍至少是IIV误分类率的两倍——这意味着只要存在分类错误（如无法区分有效与错误输出），就会存在幻觉。但通过评估体系改革（如行为校准），可将幻觉率降低到“不影响实际应用”的水平，例如在高风险场景中，让幻觉率低于1%。
问：行为校准与概率校准有什么区别？为什么行为校准更重要？
答：概率校准关注“模型输出的置信度概率是否准确”（如模型说“90%确定”，实际正确率是否真的90%）；行为校准关注“模型是否根据置信度采取合理行动”（如90%确定则回答，60%确定则弃权）。行为校准更重要是因为，即使概率校准良好，模型仍可能因评分机制选择“低置信度猜测”（如60%确定时，二元评分下猜测期望得分高于弃权）；而行为校准直接对齐实际应用需求，确保模型“该回答时回答，该弃权时弃权”。
问：现有的后训练方法（如RLHF）是否需要被淘汰？
答：不需要，但需与评估体系改革结合。RLHF等方法的价值在于减少“有害输出”（如歧视、阴谋论），这与“减少幻觉”是不同目标——前者解决“输出的价值观问题”，后者解决“输出的准确性与置信度匹配问题”。未来的最优路径是：用RLHF确保输出无害，用“明确置信度目标的评估”确保输出可靠，两者结合实现“既无害又少幻觉”的模型。
问：中小企业没有能力开发行为校准的模型，该如何应对幻觉问题？
答：中小企业可通过“应用层优化”降低幻觉风险，无需从零开发模型：① 在prompt中明确置信度要求（如“仅当置信度>80%时回答”）；② 按场景风险分级，高风险场景必须经人类审核；③ 选择支持“置信度输出”的商用模型（如要求厂商提供每个输出的置信度分数），根据分数决定是否使用输出。例如，某电商企业使用模型生成商品描述时，可仅采用置信度>90%的描述，低于该分数的描述由人工修改。
问：为什么WildBench采用10分制仍无法解决幻觉问题？
答：因为WildBench的评分规则仍“惩罚弃权”。根据研究，WildBench中“弃权”的得分（3-4分）低于“含幻觉的公平回答”（5-6分）——这意味着，模型即使不确定，生成含幻觉的回答仍比弃权更有利，因此仍会选择猜测。真正有效的非二元评分，需要让“合理弃权”的得分不低于“低置信度猜测”，例如将弃权得分调整为5分，与“含少量幻觉的回答”持平，才能鼓励模型诚实表达不确定性。
问：单例率与幻觉率的关系是什么？企业如何利用这一关系减少幻觉？
答：单例率是“训练数据中仅出现一次的事实占比”，研究表明，模型对单例事实的幻觉率至少等于单例率（如20%单例率对应至少20%幻觉率）。企业可利用这一关系优化数据使用：① 识别业务相关的单例事实（如小众客户的需求偏好），避免让模型单独依赖这些数据生成关键决策；② 对单例事实进行人工验证，补充多源数据（如向客户确认需求），将单例事实转化为“多出现事实”，降低幻觉率。
问：评估体系改革需要哪些角色参与？普通开发者能做些什么？
答：评估体系改革需要“开发者、企业用户、监管机构、学术界”四方参与：开发者推动基准规则修改，企业用户提出场景化需求，监管机构制定高风险场景标准，学术界提供理论支持。普通开发者可从两方面行动：① 在模型评估中，主动加入行为校准指标（如自制包含置信度目标的测试集），而非仅看排行榜得分；② 参与开源社区讨论（如Hugging Face论坛），推动主流基准（如Open LLM Leaderboard）加入行为校准分项。
问：模型在弃权时，除了说“我不知道”，还能提供哪些更有用的反馈？
答：弃权时的反馈可根据场景优化，核心是“帮助用户推进任务”而非仅拒绝回答。例如：① 医疗场景：“无法确定你的症状对应的疾病，建议重点描述以下信息：症状持续时间、是否伴随发热、近期接触史，以便进一步判断”；② 代码场景：“无法确定该bug的修复方案，建议检查以下文件：xxx.py（第10-20行）、yyy.config（配置项是否正确）”；③ 教育场景：“无法确定这道题的解法，建议先复习‘一元二次方程求根公式’，再尝试解题”。这种“弃权+引导”的方式，既能避免幻觉，又能保持模型的实用性。

八、结论

大语言模型的幻觉问题，长期被误认为是“模型技术不够先进”的产物，但研究表明，其根源在于“预训练的统计特性”与“后训练的评估激励错位”——前者决定了幻觉无法完全消除，后者则导致幻觉在现有体系下被不断强化。

要真正减少幻觉，我们需要跳出“仅优化模型”的单一思路，转向“改革评估体系”的系统性解决方案：通过明确置信度目标、差异化评分，让模型的“诚实”比“猜测”更有利，最终实现“行为校准”。这一改革不仅需要技术层面的设计，更需要行业共识的建立——从开发者到企业用户，从基准制定者到监管机构，都需认识到：大语言模型的价值，不在于“答对每一道题”，而在于“在正确的场景下，以正确的置信度，给出正确的输出”。

未来，随着评估体系的完善，我们有理由相信，大语言模型将从“自信的猜测者”转变为“可靠的助手”——在医疗、法律、金融等关键领域，既能提供高效支持，又能坦诚自身局限，真正实现“人机协同”的核心价值。

大语言模型幻觉为何难以消除？揭秘预训练统计宿命与评估陷阱