Google DeepMind发布一致性训练:破解AI奉承与越狱攻击的关键方法

21天前 高效码农

一致性训练:让AI语言模型更能抵御“奉承”和“越狱”提示 大家好——如果你用AI聊天时,发现它因为你几句好话就突然附和你(即使你说错了),或者它直截了当拒绝一个危险请求,但一包装成故事就松口了,那你不 …

震惊!大语言模型「机器遗忘」竟留「指纹」,AI安全新发现

4个月前 高效码农

大语言模型中的 “机器遗忘”:探秘遗忘痕迹的检测之道 在当今数字化浪潮中,大型语言模型(LLMs)已成为人工智能领域耀眼的明星,为各行各业带来前所未有的变革机遇。然而,随着 LLM 应用的日益广泛,数 …