斯坦福重磅推出MedAgentBench!医疗AI‘办事员’首次实战测试,70%成功率背后的医疗革命

20天前 高效码农

长久以来,我们对医疗人工智能的想象,往往停留在它能像一位博学的医生那样,通过考试或回答复杂的医学问题。大型语言模型(LLM)确实在美国医师执照考试(USMLE)等知识问答测试中取得了令人瞩目的成绩。但 …

GPT-5医疗AI突破:解码MedHELM评估的6大亮点与2大隐忧

1个月前 高效码农

从GPT-4到GPT-5:医疗AI能力进化全景图 引言:医疗AI评估的新里程碑 在人工智能快速发展的今天,评估大型语言模型(LLM)在医疗领域的实际能力变得尤为重要。MedHELM作为首个全面评估医疗 …