全球首个！联影医疗重磅发布

日期:2026-04-28

浏览量：2084

4月24日，上海联影智能科技股份有限公司（以下简称“联影智能”）开源了全球首个医疗视频理解大模型——uAI Nexus MedVLM（元智医疗视频理解大模型）。该论文被CVPR 2026收录，同步开源的还有6245组精标测试集与全球首个医疗视频理解公共评测体系。

医疗视频理解领域，终于有了第一把"标尺"。

三大核心瓶颈，

长期制约行业发展

长期以来，医疗手术视频理解领域始终存在三大核心技术瓶颈，制约着行业的发展：

其一，数据获取与标注成本高企。手术视频涉及患者隐私保护，合规数据的获取本身存在较高门槛；而精细化的帧级标注，需要临床医生的专业参与，标注成本极高，绝大多数研发团队难以承担。

其二，行业缺乏统一的评测标准。过往行业内各研发主体采用独立的数据集与评测指标，技术能力的横向对比缺乏统一标尺，导致赛道发展陷入同质化内耗，技术迭代节奏受阻。

其三，任务技术壁垒极高。手术视频理解需要实现毫米级的空间识别、高精度的时序逻辑理解，以及高度专业化的临床语义解析，对模型的感知与推理能力要求严苛；即便是当前顶级的通用大模型，也难以适配这一高度专业化的临床场景。

针对性突破：

53万条数据，单卡能跑

而本次，联影智能发布的 uAI Nexus MedVLM，就专门针对上述大三瓶颈进行了突破。

uAI Nexus MedVLM的底子是53万条视频-指令数据，4B/7B参数规模，一张卡就能部署。覆盖内镜、腹腔镜、开放手术、机器人手术、护理操作等8个医学数据集。

而模型能干8件事：视频摘要、关键安全视野评估、下一步操作预测、技能评估、时间动作定位、密集视频描述、区域级描述、时空基础化。

团队还开发了MedGRPO强化学习框架，解决了一个很实际的问题——异构医学数据混合训练容易崩溃。他们用跨数据集奖励归一化和医学LLM评审机制，让不同难度的数据集能公平优化。这套框架让器械定位能力提升14%，手术步骤识别能力提升52%。

性能测试结果显示，uAI Nexus MedVLM 在多项医疗视频核心任务中，性能全面超越当前主流通用大模型：

「元智」医疗视频理解大模型 (uAI NEXUS-MedVLM) 在多项医疗视频核心任务中性能全面超越主流通用大模型

以腹腔镜胆囊切除术的操作描述任务为例：

GPT-5.4 仅能给出笼统的泛化描述，无法识别具体手术器械；

Gemini-3.1 出现了器械识别错误，将手术工具误判为 “电凝钩”；

其他国产通用大模型则无法识别正确的手术步骤。

而 uAI Nexus MedVLM 的输出为：“位于左上方的抓钳持续向上并朝中央牵引胆囊，保持张力并为钩子暴露分离平面”，几乎接近标准答案。

全链条开源，

打造全球协同研发生态

值得一提的事，联影这次不只是开源模型，还同步开源了大规模高质量医疗视频标注数据，提供了一个统一的评测基准，彻底解决了过往行业内技术能力无法横向对比的问题。

以前各说各话，现在同一个数据集上跑一跑，谁强谁弱一目了然。

此外，联影智能还发布「医疗视频理解大模型榜单」，面向全球开发者发出邀请。开发者提交模型结果，系统自动评分，动态更新排行榜。全球开发者都能下载模型、用数据集、上传成果。

医疗视频理解大模型榜单

本次 uAI Nexus MedVLM 的开源，不仅是联影智能在医疗AI领域的又一次技术突破，更是整个医疗视频理解赛道的全新起点。

未来，随着该模型与具身智能等前沿技术的融合落地，医疗 AI 将逐步从影像诊断等单点场景，向全流程、全场景的临床辅助延伸，真正实现技术普惠，为全球医疗行业的数字化转型，注入全新的行业动力。

▲文章来源：量子位、联影智能、医疗器械经销商联盟整理

▲转载请标注以上来源

声明：本文仅作信息传递之目的，仅供参考。本文不对投资及治疗构成任何建议，请谨慎甄别。如涉及作品内容、版权和其它问题，为保障双方权益，请与我们联系，我们将立即处理。如有平台转载本篇文章，须自行对该篇文章负责，医疗器械创新网不对转载引起的二次传播负责。

大赛项目成果汇报

美敦力领投、礼来跟投！这家无锡械企再获亿元美金融资