多模态生成式推理(MMGR)大揭秘:为什么Sora做不对数独、穿墙而过还自认合理?

5天前 高效码农

多模态生成式推理到底测什么? ——一份给普通人的 MMGR 技术说明书 如果你只想知道结论,可以直接跳到最后「一分钟速读」。 如果你想弄懂“为什么我的 AI 视频总穿墙、数独填错格、迷宫走到死胡同”, …

大模型基准测试陷信任危机?动态评估成破局关键!

3个月前 高效码农

大模型基准测试的最新进展:从静态到动态评估 图片来源:项目原始文件 本文要回答的核心问题 在大语言模型(LLM)的快速发展背景下,为什么数据污染(data contamination)成为亟需解决的问 …