2026-01-22
点我查看首创“证据锚定”技术,百川推出最低幻觉循证增强医疗大型语言模型M3 Plus
1月22日,百川智能正式发布 Baichuan-M3 Plus,严肃医疗场景下的问答准确性、可靠性,再次刷新了刚刚推出的M3所创下的世界纪录。凭借独创的六源循证技术与M3基座结合,M3 Plus将幻觉率降低至2.6%,低于 Open Evidence,达到全球最低水平;首创“证据锚定”技术,不仅给出引文来源,还能将模型生成的每一句医学结论,精确锚定到原始论文中的对应证据段落,使 人工智能 的医学判断真正做到可核验、可追责、可教学。
更具意义的是,百川宣布推出「海纳百川」计划,将全球最低幻觉的循证增强医疗大型语言模型以API形式,免费开放给中国医疗服务机构,共同繁荣国内的人工智能医疗生态,推动中国人工智能医疗的变革,让每一位中国医务工作者都能拥有可靠、好用的人工智能助手。
低幻觉率再次刷新世界纪录,让人工智能具备迈向临床的诊疗能力
对于中国的医生而言,拥抱人工智能的先决条件,是人工智能真实具备了足够优秀的诊疗能力。当患者频繁使用DeepSeek、豆包等通用大型语言模型的人工智能产品去寻求诊疗建议,大量的误判、幻觉,不仅让医生不胜其烦,更逐渐演变为一场对中国医疗人工智能技术的信任危机。
随着上周百川M3大型语言模型的正式开源,这一局面已被彻底打破。M3不仅在 Healthbench、Healthbench Hard 等多个权威评测中登顶榜首,实现了对 生成式预训练模型-5.2的全面超越,更在 Open人工智能 引以为傲的低幻觉领域完成超越,以3.5%的幻觉率领跑全球。
作为百川拓展低幻觉技术路线的成功实践,M3首创的 Fact-Aware RL的强化学习范式,使底座模型在无工具的设定下,幻觉也能大幅降低到SOTA水平。在此基础上,M3 Plus 将 M2 Plus 模型已验证有效的六源循证范式,引入模型训练和推理过程,确保模型的每条建议都有专业医学证据支持。最终,M3 Plus的事实性幻觉降低到新的SOTA,仅2.6%,相较生成式预训练模型-5.2大幅下降超30%。即便与行业标杆 Open Evidence相比,M3 Plus 也完成了超越。
首创“证据锚定”技术:让 人工智能 的每一句医学结论,都能被逐句核验
在循证医学体系中,真正决定医生是否信任一条结论的,从来不是语言是否流畅,而是结论背后的证据是否权威、是否准确、是否可追溯。相比“说得像不像医生”,临床更关心的是:这句话,究竟依据哪篇论文、哪条指南、哪一段原文。
当前行业中,无论是通用大型语言模型还是医疗模型,大多已支持“文献引用”——在结论后标注论文或指南来源。但在实际使用中,医生往往会发现:点开引文,依然无法判断 人工智能 的这句结论究竟源自哪一段证据。更常见的问题是两类:一是“张冠李戴”,引用编号存在,但文献内容对不上;二是“内容冲突”,文献本身正确,但被引用的段落与结论并不匹配,甚至存在拼接、误读。
百川 M3 Plus 首创“证据锚定(Evidence Anchoring)”技术,不是简单标注“引用自哪篇文献”,而是要求模型生成的每一句医学结论,都必须精确对应到原始论文或指南中的具体证据段落。每一句判断,都能被逐字溯源、逐条核验。