激活潜在子空间：引导大语言模型生成特定编程语言代码

摘要： 随着大语言模型（LLM）在自然语言处理领域的飞速发展，其在代码生成等任务中展现出了巨大潜力。然而，模型生成代码时对不同编程语言的选择偏好存在局限性。本文将探讨如何通过激活变换器（Transformer）模型的潜在子空间，来引导模型在科学代码生成任务中更倾向于特定编程语言，特别是 C++，从而提高代码的准确性和适用性。

一、引言

大语言模型（LLM）已成为复杂的自然语言处理器，能够构建自主执行复杂工作流的代理系统。在众多应用中，LLM 驱动的代码生成代理尤为引人注目。通过引入插件架构以调用外部 API 和执行命令行操作，这些代理为现实世界的应用提供了强大支持。

然而，LLM 在科学代码生成领域的应用仍面临挑战。科学软件通常依赖于 C++、CUDA 等底层编程语言，而这些语言在大多数预训练数据集中较为稀缺。因此，LLM 生成的代码常出现语法或语义错误，导致编译失败或运行时不稳定。

为解决这一问题，本文提出了一种通过激活模型潜在子空间来引导代码生成方向的方法。研究首先评估了五个因果 LLM 在科学编程提示下对四种编程语言的基准偏差，发现模型在不同编程语言的选择上存在明显偏爱。例如，一些模型在执行 Gauss-Seidel 矢量矩阵求解等性能密集型操作时倾向于 C++，而在处理经典算法挑战如排序例程时更偏好 Python。

基于这些发现，研究开发了一种梯度细化的自适应激活引导框架（G-ACT），以实现对模型生成代码编程语言选择的可靠引导。

二、研究方法

（一）静态神经元归因方法

静态神经元归因方法旨在通过直接解码神经元权重向量来识别与特定目标令牌（如 “C++”）相关的神经元。具体步骤如下：

提取变换器层：遍历每个变换器层，访问相应的多层感知机（MLP）组件。
计算有效神经元权重：利用上投影权重和门投影权重的元素乘积来计算有效神经元权重。
通过语言模型（LM）头部进行解码：将每个有效神经元权重的行映射到词汇表 logits 并计算概率分布。

在确定与目标令牌相关的神经元后，通过增加其激活值，观察模型在生成代码时编程语言选择的变化。

（二）自适应方法

鉴于单个神经元通常无法唯一编码高层概念，研究提出了基于自适应激活引导（ACT）框架的梯度算法。该算法在推理时激活与概念相关的整个神经元集合，以实现对概念的可靠引导。

具体而言，首先为每个提示提取风格差异向量，然后对这些向量进行聚类，形成少量的引导方向。接着，在每个层训练轻量级探测器，以在推理时将新激活分配给这些聚类。通过在推理期间使用梯度下降对探测器进行迭代细化，以更新探测器参数并保持基础模型权重固定，从而提高模型对目标编程语言的选择准确性。

三、实验与结果

（一）模型评估

研究评估了五个指令调优的 LLM，包括 Llama-3.2-3B-Instruct、Llama-3.3-70B-Instruct、Qwen2.5-Coder-32B-Instruct 等。在 84 个基准问题的采样温度为 1.0 的条件下，获取了每个模型在不同编程语言上的生成偏好。

结果显示，不同模型表现出明显的编程语言偏好。例如，Llama-3.2-3B-Instruct 默认主要生成 Java 和 Python 代码，而 Qwen2.5-14B-Instruct-1M 更倾向于生成 Julia 和 Python 代码。这些发现表明，模型规模、架构设计和微调数据的差异共同影响了模型代码生成行为。

（二）静态方法分析

通过应用静态神经元归因方法，研究识别了对 “C++” 令牌具有最高激活概率的神经元在不同模型中的位置。例如，在 Llama-3.2-3B-Instruct 模型中，该神经元位于模型的第 27 层。

进一步实验表明，人为放大该神经元的激活值，可显著影响模型的编程语言选择。以 Llama-3.2-3B-Instruct 为例，激活与 “C++” 相关的神经元后，模型在几乎每个问题上都主要生成 C++ 代码，而原本占主导地位的 Java 和 Python 输出大幅减少或消失。这证实了通过选择性激活特定 MLP 神经元，可以对模型的编程语言选择施加强有力的因果控制，有效覆盖其固有偏差。

（三）自适应方法分析

在自适应方法中，研究将数据集分为训练集和测试集，并对每个训练提示进行两次前向传播，以获取在 CPP 和 Python 风格下的各层激活值。通过计算层间差异向量来表征 CPP 和 Python 之间的风格转变。

研究发现，风格信号在早期层中几乎可以忽略不计，但随着层数增加，风格信号逐渐增强，在最终块中达到最大值。因此，研究决定将引导努力集中在较后的层中。

此外，研究还对注意力头差异向量进行了聚类分析，发现这些向量可以分为几个不同的模式。每个聚类中心代表了一组在输入风格变化时在注意力头激活中引起相似转变的提示。

（四）每层激活探测器结果

研究比较了标准 ACT 和梯度细化 ACT 算法在 Llama-3.2-3B-Instruct 和 Llama-3.3-70B-Instruct 模型上的性能。在 Llama-3.2-3B-Instruct 模型中，梯度细化 ACT 在早期层（0-6 层）的探测器准确率从 0% 提高到 61.5%，平均准确率提高了 15%，宏观 F1 分数提高了 7.3%。然而，在 Llama-3.3-70B-Instruct 模型中，由于注意力头状态激活变得过于分散或嘈杂，两者的探测器性能均较差。

尽管如此，研究也发现，即使在 Llama-3.3-70B 模型中，针对关键层的注入仍然可以提高语言选择的准确性，尽管整体激活较弱。

四、结论

研究通过对五个因果语言模型在科学编码提示上的评估，揭示了模型在编程语言选择上的偏差。实验表明，较小的模型对 Java 或 Julia 的偏好不一致，而 LLaMA 模型在其内部激活中表现出明显的可分离性。

静态神经元归因方法能够识别与 CPP 风格相关的语言模型头部神经元，并通过对这些神经元进行人工扰动来生成 CPP 代码。然而，这种方法较为脆弱，对神经元选择、提示措辞和模型规模高度敏感。

为克服这些限制，研究引入了梯度细化版本的 ACT。通过对每个提示的 “差异” 向量进行聚类，训练轻量级的每层探测器，并在推理过程中通过交叉熵损失进行在线细化，在 LLaMA-3.2 3B 模型中，探测器的平均分类准确率得到了显著提高，早期层（0-6 层）的准确率提高了 61.5%。即使在较大的 LLaMA-3.3 70B 模型中，G-ACT 仍然能够通过在关键层进行针对性注入，可靠地引导生成向 CPP 的偏向，尽管注意力头状态激活变得较为分散。

尽管添加每层探测器会带来一定的运行时开销，但通过仅引导部分层、缓存子标记或接受稍长的延迟等方法，可以在实际部署中容纳这一成本。G-ACT 提供了一种可扩展、可解释且高效的机制，能够以可接受的推理成本引导 LLM 生成特定目标主题（如 CPP）的代码，并确保不同用户获得相同的模型行为，从而开创了输出可重复性的新范式。

如何让AI更懂C++？清华最新研究破解大模型编程语言偏好难题