资讯中心

以临床实效为导向 医疗健康行业智能体专项评测正式启动

来源:中国信通院
2026年06月05日 16:41:07
关键词:医疗健康智能体
点击量:26622
导读:基于真实病历开展评测:依托真实临床脱敏病历,数据来源涵盖期刊论文、医学专著、开源数据集等,不生成虚拟病例;患者、检查、诊断等角色智能体反馈信息全部源自真实医疗数据,确保评测环境真实可信。
  【智慧城市网 企业关注】中国信息通信研究院(简称“中国信通院”)携手国家人工智能应用中试基地(医疗)·浙江、中国医学科学院北京协和医学院于2025年成立了“医学人工智能测评验证联合实验室”。为进一步促进人工智能在医疗卫生领域的规范应用,实验室日前正式发布医疗健康行业智能体评测体系,为医疗健康行业智能体技术规范应用提供权威、客观的评估依据。
 
  一、医疗健康行业智能体评测体系概要
 
  (一)全流程覆盖、多专科布局
 
  评测体系覆盖诊前预问诊、诊中辅助诊断、诊后随访与报告解读全诊疗链条。诊中辅助诊断已覆盖消化内科、内分泌科、肾内科、神经内科、心血管内科、眼科、精神科、血液内科、普通外科、耳鼻喉科、呼吸内科、妇科等12 个专科,可支撑多场景医疗健康行业智能体能力验证。
 
  评测能力维度
 
  (二)四大核心维度,明确指标
 
  围绕医疗健康行业智能体核心价值,建立四大核心评估维度,设置标准化量化指标。
 
  ● 信息采集质量:考核智能体主动问诊、精准开具检查的能力,评估信息收集的全面性与针对性。
 
  ● 核心决策能力:以诊断正确率、指南符合率为核心,核验智能体临床推理精准度与诊疗行为合规性。
 
  ● 资源利用效率:引入检查费用控制指标,兼顾诊疗效果与医疗控费需求,适配行业发展趋势。
 
  ● 可靠性与稳定性:通过多轮重复测试,测算诊断稳定性,评估智能体输出一致性,防范临床应用风险。
 
  评测体系架构
 
  (三)评测思路创新,保障结果客观可信
 
  为确保评测结果真实反映模型能力,体系遵循六大核心设计思路。
 
  ● 基于真实病历开展评测:依托真实临床脱敏病历,数据来源涵盖期刊论文、医学专著、开源数据集等,不生成虚拟病例;患者、检查、诊断等角色智能体反馈信息全部源自真实医疗数据,确保评测环境真实可信。
 
  ● 信息分阶段获取:仅向被测智能体/模型提供主诉等初始信息,其余信息须通过主动问询或开具检查获取,以评估信息收集与临床推理能力。
 
  ● 开放式作答:被测智能体/模型自由生成问诊内容、检查申请和诊断结论,避免选择题形式导致的虚高准确率。
 
  ● 重复测试与稳定性评估:每个病历重复测试多次,记录多次测试全部正确的概率(反映诊断稳定性)和至少一次正确的概率。
 
  ● 费用指标纳入:记录辅助检查总花费并计算均价和中位数,以评估模型在医疗控费背景下的经济合理性。
 
  ● 以自动化评测为主:依托多智能体闭环实现全流程自动化测评,体系以世界模型与多智能体协同为基础,构建包含医生、患者、辅助检查、评估四类智能体的闭环交互环境,完整模拟问诊、检查、诊断、评估等真实临床环节,确保评测过程贴近实际诊疗场景;同时,降低人工打分带来的个体差异与主观偏差,提升评测一致性、可比性与可复现性。
 
  世界模型与多智能体系统
 
  二、下一步拓展计划
 
  实验室立足医疗健康全产业链,在临床诊疗评测基础上,计划下一步拓展评测维度,构建覆盖医药研发、医生科研、医院管理等核心场景的智能体能力评估模块。
 
  (一)医药研发智能体:加速创新,降本提效
 
  聚焦药物研发“周期长、成本高、成功率低”痛点,构建医药研发专项评测体系,覆盖靶点发现、化合物筛选、临床前研究、临床试验设计、药物不良反应预测等核心环节,拟建立科学、可量化的评估指标体系:
 
  ● 临床前研发能力:靶点发现与验证能力、化合物设计与优化能力、成药性综合评价能力、安全性早期预测能力等。
 
  ● 临床试验能力:方案设计能力、患者精准招募能力、实时数据监测与分析能力等。
 
  ● 上市后监测能力:真实世界研究能力、药物重定位与适应症拓展能力、因果推断方案设计能力等。
 
  (二)医生科研智能体评测:赋能学术,助力产出
 
  紧扣临床医生科研刚需,打造医生科研专项评测模块,覆盖文献检索与精读、科研选题设计、数据统计分析、论文撰写润色、学术热点追踪等场景,核心评估指标拟包括以下内容。
 
  ● 文献处理能力:文献检索能力、摘要提取能力、文献真实性等。
 
  ● 科研设计能力:选题创新性与可行性、研究方案生成能力等。
 
  ● 数据分析能力:临床数据清洗能力、统计模型选择能力等。
 
  ● 学术产出能力:论文结构完整性、引用真实性、医生首选率等。
 
  (三)医院管理智能体评测:精细管控,提质降耗
 
  围绕现代医院精细化管理需求,搭建医院管理专项评测体系,覆盖医疗质量管控、运营成本优化、人力资源调度、患者服务管理、后勤保障等领域,拟形成标准化评估维度。
 
  ● 医疗质量管控:病历质控能力、不良事件预警能力等。
 
  ● 运营效率优化:多系统执行能力、医保资源利用效率等。
 
  ● 管理决策支持:数据整合能力、趋势预测准确率、异常事件识别能力等。
 
  ● 患者服务体验:预约分诊准确率、患者满意度等。
 
  实验室将持续完善医疗健康行业智能体评测体系,深化医疗AI模型的能力评估与场景适配研究,为行业提供科学、客观、可信的选型依据,助力医疗健康行业智能体技术的规范化发展与高质量落地。
 
  ● 开放评测邀请:我们诚挚欢迎各医疗机构、AI技术厂商、科研院所及行业伙伴参与医疗健康行业智能体体系的官方评测。我们将为您提供官方黑盒评估得分、分析报告和专属证书,助力您第一时间验证产品核心性能、提升市场竞争力。
 
  ● 生态共建邀约:我们诚挚欢迎专科垂类智能体开发者、临床专家及医药企业等参与生态共建,我们将提供权威评估集构建方法论,携手打造垂类评估标准与测评集;同时招募医疗全场景AI与临床专家,共同推进体系迭代升级。
 
  ● 创新临床验证:我们即将开展各类医疗人工智能产品进入真实医疗场景中的临床验证工作,诚挚欢迎各级各类医疗机构申请加入医学人工智能测评验证联合实验室。
 
全部评论

上一篇:第三批数据流通安全治理典型案例 | 基于供应链协同场景的钢铁企业数据流通安全技术应用案例

下一篇:国家卓越级智能工厂|上汽通用动力科技(上海)有限公司AI赋能汽车动力装备智能工厂

相关新闻
查看更多资讯
写评论...