AI评估归档 | 高效码农

2个月前高效码农

DeepPlanning：如何真正测试人工智能的长程规划能力？你是否曾让某个AI助手帮你规划一次旅行，结果它给出的行程漏洞百出？或者让它推荐购物清单，却发现总价远超预算？这背后反映的，可能不是模型“ …

3个月前高效码农

Bloom：为前沿AI模型做“行为体检”的开源神器想象一下，你是一家AI安全实验室的研究员。你正面对一个最新发布的大型语言模型，心里盘旋着一连串问题：它到底有多“听话”？在复杂的多轮对话中，它会不会 …

8个月前高效码农

深入解析AA-LCR：评估大模型长文本推理能力的关键基准在人工智能快速发展的今天，大语言模型处理和理解长文本的能力越来越受关注。无论是分析多份公司报告、梳理法律文件中的复杂关系，还是从政府政策文档中 …