机器学习安全归档

9个月前高效码农

SHADE-Arena：评估大语言模型代理的隐蔽破坏与监控能力前沿AI模型能否在完成日常任务时秘密执行有害操作？最新研究揭示大语言模型代理的破坏潜力与防御之道一、研究背景：AI代理的隐蔽风险随着 …

9个月前高效码农

DeepTeam：大型语言模型安全测试的利器在当今这个人工智能技术飞速发展的时代，大型语言模型（LLM）已经被广泛应用于各种场景，从智能聊天机器人到复杂的数据分析工具。然而，随着这些模型在各个领域影 …