模型安全归档 | 高效码农

4个月前高效码农

让大模型“坦白从宽”：OpenAI 的 Confession 机制为什么值得关注？关键词：大模型诚实性、Confession、自我报告、奖励破解、幻觉、AI 安全开场白：当 AI 开始“打马虎眼” …

8个月前高效码农

大型语言模型抄袭检测新方法：MDIR技术详解引言随着大型语言模型（LLM）的快速发展，模型权重抄袭问题日益凸显。开发者可能在未授权情况下复制他人模型参数，通过微调、持续预训练等方式伪装原创性。这种 …

9个月前高效码农

大语言模型中的 “机器遗忘”：探秘遗忘痕迹的检测之道在当今数字化浪潮中，大型语言模型（LLMs）已成为人工智能领域耀眼的明星，为各行各业带来前所未有的变革机遇。然而，随着 LLM 应用的日益广泛，数 …