中国信通院可信AI评测服务:大模型评估测试体系(2024)升级发布
- 来源:中国信通院CAICT
- 2024/4/29 9:21:2739909
【智慧城市网 企业关注】2024年,“两会”政府工作报告中首次提到“人工智能+”行动,人工智能被视为形成新质生产力的重要引擎。随着人工智能技术的快速演进,AI大模型已成为全球科技竞争的新高地、未来产业的新赛道、经济发展的新引擎,展现出巨大的发展潜力和应用前景。AI大模型的应用领域广泛,包括但不限于办公、制造、金融、医疗、政务等,这些领域的创新和发展为AI大模型产业注入了强大的活力。当前,我国AI大模型产业呈现蓬勃发展的态势,通用大模型、行业大模型、端侧大模型如雨后春笋般涌现,并在多个领域取得了显著成果。
大模型是典型的人工智能平台赋能性技术,加快我国大模型技术创新和应用落地,需要加强大模型评测体系研究,搭建全量测试题库、自动测试平台和高效测试方法,降低研发和使用成本,满足大模型能力持续监测和能力迭代的要求,从而推动我国自主可控的大模型产业生态继续向前迈进。
中国信息通信研究院(简称“中国信通院”)长期研究大模型发展态势,自2022年3月启动大模型评测技术研究以来,根据产业发展不断优化迭代,已形成一套覆盖范围全、评测指标精、需求映射准的大模型评测体系。此次全新升级的“中国信通院可信AI评测服务——大模型评估测试体系(2024)”覆盖七大模块:大模型基础软硬件及集群系统、大模型能力基准测试、大模型平台、基础大模型、行业大模型、智能应用和大模型能力安全测试。
具体来说,评测体系一是为满足大模型训练及推理的软硬件系统、软硬件系统前沿技术能力以及当前我国AI软硬件兼容适配及能力迁移需求,提供多种能力验证服务;二是从综合能力、通用能力、行业和应用能力方面构建大模型基准测试体系;三是从大模型平台、基础大模型、行业大模型和大模型智能应用全链条提供产品评估服务;同时针对大模型各种服务形式,全方位开展MaaS安全、基准安全、模型安全、内容安全、数据安全和服务安全等评估,助力行业安全发展。
“中国信通院可信AI评测服务——大模型评估测试体系(2024)”作为业界专业面向大模型的可信AI测评体系,从技术、应用、安全等各方面对大模型相关产品进行评估测试,为“人工智能+”行业落地保驾护航。
规范行业发展,树立标杆应用。通过科学、客观的评测,有利于更好地理解和把握大模型技术的发展趋势,为政府部门提供科学依据,支持国家在人工智能领域的政策制定和顶层设计。通过有效筛选出高性能、高可靠性的大模型产品服务,并针对测试过的大模型标杆企业开展应用推广活动,树立可推广、可复制、高价值的标杆产品应用。
推动应用落地,加速产业化进程。不仅帮助供需各方评估和优化其模型性能,激发厂家优化迭代产品,有利于形成行业市场良性竞争环境;还可以通过提供测试指标、方法和工具,促进技术标准化,拓展大模型应用的广度和深度,加速产业化进程,实现技术、应用与产业的协同发展。
帮助用户了解产品,协助企业验收。一方面,大模型评测是一项重要的验收工具,可以帮助企业全面检验产品各项指标,并了解性能瓶颈和改进方向,不断优化模型结构和算法;另一方面,通过参与评测并与同行交流,企业能够获取更多的行业信息和优秀实践,提升技术水平和竞争力。
部分已通过评测企业(持续更新)