模型评估归档 | 高效码农

4个月前高效码农

Bloom：为前沿AI模型做“行为体检”的开源神器想象一下，你是一家AI安全实验室的研究员。你正面对一个最新发布的大型语言模型，心里盘旋着一连串问题：它到底有多“听话”？在复杂的多轮对话中，它会不会 …

11个月前高效码农

{ “@context”: “https://schema.org”, “@type”: “Article”, “headline”: “多模态语言模型核心认知缺陷深度指南：2025年最新研究解析”, …

1年前高效码农

大型语言模型幻觉率排行榜：解读主流AI模型的真实表现引言：为什么我们需要关注语言模型的”幻觉”问题？在人工智能快速发展的今天，大型语言模型（LLM）已在多个领域展现惊人能力 …

1年前高效码农

OpenCompass 全面解析：大语言模型评测的一站式解决方案一、工具定位与核心价值 OpenCompass 是由中国人工智能研究团队开发的开源大语言模型评测平台。该工具如同数字时代的&#8221 …