模型安全技术归档

5个月前高效码农

一致性训练：让AI语言模型更能抵御“奉承”和“越狱”提示大家好——如果你用AI聊天时，发现它因为你几句好话就突然附和你（即使你说错了），或者它直截了当拒绝一个危险请求，但一包装成故事就松口了，那你不 …

9个月前高效码农

大语言模型中的 “机器遗忘”：探秘遗忘痕迹的检测之道在当今数字化浪潮中，大型语言模型（LLMs）已成为人工智能领域耀眼的明星，为各行各业带来前所未有的变革机遇。然而，随着 LLM 应用的日益广泛，数 …