Google DeepMind发布一致性训练:破解AI奉承与越狱攻击的关键方法

12小时前 高效码农

一致性训练:让AI语言模型更能抵御“奉承”和“越狱”提示 大家好——如果你用AI聊天时,发现它因为你几句好话就突然附和你(即使你说错了),或者它直截了当拒绝一个危险请求,但一包装成故事就松口了,那你不 …