鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

就在医疗AI赛道激战正酣时,一个搅局者低调入场了。

依旧是蚂蚁,依旧「SOTA」

它就是蚂蚁集团联合浙江省卫生健康信息中心、浙江省安诊儿医学人工智能科技有限公司开源的医疗大模型——蚂蚁·安诊⼉(AntAngelMed)。

一经发布就登顶多项医疗基准测试榜单。



不讲什么噱头,也丝毫不喧嚣,它用数据和排名说话:

在OpenAI发布的HealthBench评测中强势霸榜开源模型第一,超越Baichuan-M2和gpt-oss-120B。

并横扫MedAIBench、MedBench等权威医疗榜单。

它也是迄今为止参数规模最大的开源医疗模型,足足有100B。

应用门槛相当低,即使是在中小型医疗机构,AntAngelMed也足以支撑起实时多轮交互和规模化部署,是真正能够落地跑起来的模型。



它为行业示范出一条清晰明确的路径——通过“专、精、稳”三位一体,构建通用智能+医疗专长的全栈能力闭环。

环顾全球,AI医疗正在成为一场关乎全人类健康的数字化变革。

李飞飞团队发布的斯坦福《2025 AI Index Report》中明确指出,AI已经从实验室正式走向临床和实际应用。

研究表明,AI比专业医生在诊断复杂临床病例时表现更优,而AI与医生的协作往往能取得最佳结果。与此同时,一系列医疗专用大模型也呈现出持续涌现的态势。

蚂蚁则在用实际行动全面押注这一赛道。

开源即登顶多项权威医疗榜单

具体来说,AntAngelMed是蚂蚁集团联合浙江省卫⽣健康委共同研发的开源医疗大模型,从诞生之初就是专为真实医疗场景所设计的。



这也充分体现在模型的基准测试表现上。

比如由OpenAI在去年发布的医疗健康领域评估测试集HealthBench,来自全球60个国家、262名医⽣共同构建,包含5000种多轮医疗对话场景,评分标准涵盖准确性、完整性、沟通质量、情境感知等多维度。

在面对DeepSeek-R1、Qwen3、OpenAI GPT-OSS等一众开源模型,AntAngelMed以62.5的评分拿下第一。

更进一步,在HealthBench的子集HealthBench-Hard(专为困难场景设计)上,AntAngelMed同样稳居榜首。

这也是继Baichuan-M2后,唯二打破HealthBench-Hard 32分魔咒的开源模型,要知道在HealthBench-Hard刚发布时,其困难程度一度让所有模型都拜倒在32分之下,甚至当时还有很多顶尖模型都直接挂零。

AntAngelMed的表现足以证明,其在最真实也最容易出错的复杂医疗环境中,仍然能够表现稳定,专业度拉满。



在由国家⼈⼯智能应⽤中试基地(医疗)·浙江、中国医学科学院北京协和医学院、中国信息通信研究院三⽅共建的权威测评体系MedAIBench中,AntAngelMed同样表现突出,尤其是在医疗知识问答、医疗伦理安全等多个核心维度上优势显著。

这侧面说明,模型不是在医疗基础知识或者临床诊断这类单一科目上能力强劲,而是整体医疗水平均衡,短板够长、专业够全面,容错率也会更低。



而在面向中文医疗场景的医疗大模型评测体系MedBench时,AntAngelMed依旧位列⾃测榜单第⼀。

MedBench拥有36个自主评测集,约70万条样本,最关键的是它区别于很多以英文为主的国际benchmark,更偏向于本土医疗体系,在表达上也更贴合国内问诊场景。

AntAngelMed在医学知识问答、医学语⾔理解、医学语⾔⽣成、复杂医学推理、医疗安全与伦理五⼤核⼼维度上稳定领先,展现出与基层临床流程的高度适配和无缝集成。



日常生活场景为例,我们向AntAngelMed提问:



生成速度很快,几乎是秒入秒出

仔细看思考过程,它首先提及的是要照顾用户情绪,在给出答案时避免引起恐慌。

nice!这波人性化必须好评,毕竟之前每次上网搜症状,都感觉自己得了绝症……(慌张.jpg)



在给出具体建议时,它也会基于自身医学知识,仔细分析症状表现,找到最契合的成因。



结构上逻辑严谨,从共感→原因分析→建议→鼓励,全方位解决用户需求。



最终给出的答案也很专业暖心,感觉像是在和一位主任级医生面对面就诊。



P.S.不过正如AntAngelMed所说,症状加剧时一定要及时就医哦~



接着让AntAngelMed试着解读专业术语



在肿瘤病理报告中,免疫组化(IHC)指标是决定癌症治疗方案(如化疗、靶向、免疫治疗)的关键,而指标组合又极其复杂。

AntAngelMed首先用通俗易懂的语言解释了这几个相关指标的含义,对于极少接触专业医学知识的普通人,或者需要查找狭窄领域信息的专业医生来说,颇具参考价值。



此外,它也能准确识别出癌症亚型,给出倾向于激素治疗而非靶向治疗的参考意见。



值得关注的是,AntAngelMed还会告知用户接下来可以去挂哪些科室,以及可以询问主治医师哪些问题。

对于本看病困难星人,实在是暖暖的、很贴心~



整体感受下来,AntAngelMed既像一个无微不至的家庭医生,也像一位经验丰富的专家学者,无论是个人、医生、医疗机构,或许都能从中找到最适合的匹配方案。

既要专业度,也要人情味

那么AntAngelMed是如何做到的呢?

要厘清思路,首先需要回到模型本身。

AntAngelMed继承了百灵⼤模型Ling-flash-2.0的⾼效混合专家(MoE)架构,并建立起三阶段的训练过程:

Step 1:持续预训练。

通过持续预训练,大量的临床指南、医学文献等高质量知识被融入进模型参数中,让模型与知识深度融合,能够自然地以专业医学角度进行思考和表述。

换言之,这是在为医学AI打下最坚实的地基。



Step 2:监督微调。

为了解决真实场景应用的问题,在这个阶段里,指令数据兼具多种类型的表述形式,能够增强模型的通用推理能力,学会分步思考和多方案权衡。

另外,模型的人性化也同步得到提升,要知道医患问答不等同于学术问答,模型的输出如何能够更贴近真实医生的表达,这是关键。

Step 3:GRPO强化学习算法+双阶段强化学习路径。

这一步决定模型最终能不能被真实使用。

GRPO强化学习算法的引入,让模型对复杂任务的处理更加得心应手,也能更好地对齐人类价值,约束模型安全边界。

其中双阶段强化学习又分为两步:

最终二者结合,共同推动模型朝着专业、克制又能共情的方向演化。



为了实现模型效率与性能两手抓,在原有的Ling-flash-2.0架构上,模型也在一系列核心设计上进行了全面优化,比如1/32激活⽐例、⽆辅助损失+Sigmoid路由策略、MTP层以及Partial-RoPE等。

最终帮助模型在参数规模相近的情况下,实现了相比Dense架构的7倍效率提升,模型计算成本同步得到大幅度降低。



要让模型跑得快、跑得稳,还需要进行推理加速。

这里采用的是FP8量化+EAGLE3优化

前者负责将模型推理时的数值精度压缩到FP8,可显著减少内存占用以提高计算吞吐;而后者主要用于抑制FP8量化带来的数值抖动,在效率与稳定性中找到最优解。

最终在真实线上医疗系统的典型负载32并发场景中,实现推理吞吐的稳步提升:HumanEval提升71%,GSM8K提升45%,Math-500提升⾼达94%。

蚂蚁医疗AI布局有迹可循

不难看出,AntAngelMed反映了蚂蚁对医疗AI领域的洞察细致入微,因为近一线所以懂行业痛点,因为有技术所以懂如何改进。

所以AntAngelMed才能从一众医疗大模型中脱颖而出,做到真实环境中也可以智商情商双在线,而非仅仅局限于基准测试的demo。

可以说,AntAngelMed的出现,进一步完善了蚂蚁在医疗AI领域的布局。

技术层面,AntAngelMed可以作为最坚实的基座模型,承载起AI在专业场景的规模化落地,解决的是蚂蚁最底层的技术需求。

它走的不是通用大模型+Prompt的基础医学问答路线,而是深度对齐医学语料、诊疗流程和医学推理链后,完成的专业性更强的诊疗推理。



国内外目前也有越来越多模型正在推进这一相似的范式转移。

显然,蚂蚁已率先预见到这条路线的正确性,并沿着它一路狂飙,来到了收获成果的阶段。

产品层面,蚂蚁也建立起了以面向用户的AI健康管家、面向医生的好大夫在线、面向机构的医疗大模型一体机为代表的三端一体产品矩阵。

从患者、医生到机构,蚂蚁的AI产品全方位覆盖医疗服务体系,满足从下至上每一个角色对AI医疗的切身需求。

组织层面,蚂蚁在去年年末,完成了一次相当重要的战略调整,将原来的数字医疗健康事业部正式升级为蚂蚁健康事业群

从事业部升级为事业群,这意味着医疗健康不再是蚂蚁的补充业务,而是正式成为与支付宝、数字支付、财富保险、信贷并列的核心板块。

可以预见的是,蚂蚁未来会将更多资源和精力倾向给AI医疗,而AntAngelMed还只是蚂蚁正式入局的开端。

那么为什么要选择做医疗AI呢?

归根结底在于通用大模型和专业场景存在鸿沟,缺乏相关领域的知识、难以进行复杂任务的决策,以及对话交互不等同于有效协同。

而专业智能体是把通用智能拆解、工程化,本质上是将不确定性约束在具体的产业里,只有这样才能实现大模型的生产价值最大化。



医疗则是其中最具代表性的练兵场,医疗的核心不是操作,而是智能密度最高的认知、推理和决策。

对于大模型来说,这是一块试金石,能倒逼大模型完成深度优化,推动模型向其它基础领域迁移。

而这个领域恰好还刚刚起步,有足够大的蓝海可以探索。

与此同时,蚂蚁也有做医疗AI的底气,多年来蚂蚁深耕支付、医保领域,为打通医疗AI提供了坚实的数据基础。

由此,在这条隐秘的医疗战线里,蚂蚁无疑会成为走得最久、也最深的先行者。

P.S.目前AntAngelMed模型系列已在平台开源,可访问官方开源仓库下载使⽤:

HuggingFace:https://huggingface.co/MedAIBase/AntAngelMed
ModelScope:https://modelscope.cn/models/MedAIBase/AntAngelMed
GitHub: https://github.com/MedAIBase/AntAngelMed