模型评测归档 | 高效码农

7个月前高效码农

深入解读 OpenBench：一站式语言模型评测基础设施 OpenBench 是一款面向研究者和开发者的开源评测工具，旨在为大规模语言模型（LLM）提供统一、可复现的基准测试流程。无论你使用哪家模型 …

8个月前高效码农

2025 国际数学奥林匹克大模型答卷实录：谁把最难的第五题做对了？ IMO 2025 考场一角每年盛夏，国际数学奥林匹克（IMO）都会吸引全球目光。2025 年也不例外，六道题目再次让无数数学爱好者 …