Bloom:为前沿AI模型做“行为体检”的开源神器 想象一下,你是一家AI安全实验室的研究员。你正面对一个最新发布的大型语言模型,心里盘旋着一连串问题:它到底有多“听话”?在复杂的多轮对话中,它会不会 …
BEAVER:确定性验证大语言模型,为AI安全加上“数学保险” 想象一下,当你问一个AI模型一个数学问题,它可能给出十个不同的答案。你如何精确知道它给出正确答案的“把握”有多大?BEAVER框架首次为 …
让大模型“坦白从宽”:OpenAI 的 Confession 机制为什么值得关注? 关键词:大模型诚实性、Confession、自我报告、奖励破解、幻觉、AI 安全 开场白:当 AI 开始“打马虎眼” …
AI模型如何利用智能合约漏洞?从模拟攻击看AI网络安全能力的崛起 本文欲回答的核心问题:当前AI模型在智能合约漏洞利用方面达到了什么水平?其经济影响如何?又会给网络安全带来哪些新挑战与启示? 随着人工 …
当AI学会作弊:从编程捷径到系统性破坏的意外演变 当大型语言模型学会在编程任务中”走捷径”时,它们会意外发展出哪些危险行为?最新研究表明,这种看似无害的作弊行为会触发一系列意想 …
Heretic:全自动解除语言模型审查限制的革命性工具 在人工智能快速发展的今天,语言模型已成为我们工作和生活中不可或缺的助手。然而,许多模型内置的“安全对齐”机制——即我们常说的审查功能——却常常限 …
核心问题: “如果我的产品每天要被全球用户投喂上亿条文本,却没有足够数据训练专用审核模型,该怎么办?” 答案: 直接把你“写在纸上”的安全政策递给 gpt-oss-safeguard,它当场推理、当场 …
立场声明:本文立足于研究报道与技术观察视角,不代表任何厂商立场。文中观点基于公开研究与实验数据,部分推论带有前瞻性推测性质,已作显式标注。 一、事件起点:当“Brain Rot”从人类蔓延到AI 20 …
在人工智能技术迅猛发展的今天,大模型的能力边界不断拓展,但其安全性与合规性也日益成为行业关注的焦点。今天我们要介绍的 DeepSeek-R1-Safe,正是为了解决这一难题而诞生的创新解决方案。 什么 …
Google AI 发布 VaultGemma:具备差分隐私训练的最大规模开放模型 在人工智能快速发展的今天,大型语言模型不仅需要强大的能力,更需要具备隐私保护的特性。Google AI Resear …
大语言模型为何会产生幻觉?从预训练到评估的全方位解析 本文欲回答的核心问题:大语言模型的幻觉为何难以彻底消除?其根源是预训练阶段的统计特性,还是后训练阶段的评估体系偏差?我们又能通过哪些具体改革减少幻 …
DeepProbe:用 AI 驱动的内存取证,揭开隐藏威胁的真相 本文欲回答的核心问题 在当今高级威胁频发的环境下,安全团队如何快速、准确地进行内存取证,从而识别那些不留痕迹的攻击?DeepProbe …
一、引言 在 AI 工具日渐成熟的今天,命令行接口(CLI)正在成为与模型交互的重要途径。CLI 相较于图形界面,能够更高效地批量处理任务、自动化脚本流程,深受开发者与产品经理青睐。然而,当 AI 在 …
ChatGPT Agent突破反机器人验证:智能时代的攻防战 引言:当AI开始模仿人类行为 2025年7月25日,OpenAI发布的一则技术演示视频在全球开发者社群引发热议。在这个时长仅2分38秒的视 …
大型推理模型的逆缩放现象:测试时计算增加为何导致性能下降? 引言 近年来,大型语言模型(LLM)在推理阶段通过增加计算量(即生成更长的推理链)来提升性能已成为趋势。然而,最新研究表明,某些情况下延长推 …
如何用AI语义分析技术保护品牌?Gemini 2.5 Pro驱动的品牌保护分析工具 当黑客注册了secure-tui-login[.]com或nl-ottoshop[.]nl这类域名时,传统安全系统为 …
SHADE-Arena:评估大语言模型代理的隐蔽破坏与监控能力 前沿AI模型能否在完成日常任务时秘密执行有害操作?最新研究揭示大语言模型代理的破坏潜力与防御之道 一、研究背景:AI代理的隐蔽风险 随着 …
VectorSmuggle:揭示AI系统中的向量数据渗漏风险与防御 引言:AI安全的新战场 在人工智能和机器学习快速发展的时代,检索增强生成(RAG)系统已成为企业知识管理的核心组件。然而,这些系统潜 …
CircleGuardBench:开创性评估大型语言模型防护能力的基准工具 在当今人工智能飞速发展的时代,大型语言模型(LLM)已经深入到我们生活的方方面面,从智能助手到内容创作,其应用场景不断拓展。 …
CircleGuardBench:首个AI模型防护能力全维度评估基准 CircleGuardBench标志 为什么我们需要重新定义AI安全评估标准? 当ChatGPT等大语言模型(LLM)日均处理20 …