中国信通院可信AI评测服务：大模型评估测试体系（2024）升级发布

来源：中国信通院CAICT

2024/4/29 9:21:2739909

　　【智慧城市网企业关注】2024年，“两会”政府工作报告中首次提到“人工智能+”行动，人工智能被视为形成新质生产力的重要引擎。随着人工智能技术的快速演进，AI大模型已成为全球科技竞争的新高地、未来产业的新赛道、经济发展的新引擎，展现出巨大的发展潜力和应用前景。AI大模型的应用领域广泛，包括但不限于办公、制造、金融、医疗、政务等，这些领域的创新和发展为AI大模型产业注入了强大的活力。当前，我国AI大模型产业呈现蓬勃发展的态势，通用大模型、行业大模型、端侧大模型如雨后春笋般涌现，并在多个领域取得了显著成果。

　　大模型是典型的人工智能平台赋能性技术，加快我国大模型技术创新和应用落地，需要加强大模型评测体系研究，搭建全量测试题库、自动测试平台和高效测试方法，降低研发和使用成本，满足大模型能力持续监测和能力迭代的要求，从而推动我国自主可控的大模型产业生态继续向前迈进。

　　中国信息通信研究院(简称“中国信通院”)长期研究大模型发展态势，自2022年3月启动大模型评测技术研究以来，根据产业发展不断优化迭代，已形成一套覆盖范围全、评测指标精、需求映射准的大模型评测体系。此次全新升级的“中国信通院可信AI评测服务——大模型评估测试体系(2024)”覆盖七大模块：大模型基础软硬件及集群系统、大模型能力基准测试、大模型平台、基础大模型、行业大模型、智能应用和大模型能力安全测试。

　　具体来说，评测体系一是为满足大模型训练及推理的软硬件系统、软硬件系统前沿技术能力以及当前我国AI软硬件兼容适配及能力迁移需求，提供多种能力验证服务；二是从综合能力、通用能力、行业和应用能力方面构建大模型基准测试体系；三是从大模型平台、基础大模型、行业大模型和大模型智能应用全链条提供产品评估服务；同时针对大模型各种服务形式，全方位开展MaaS安全、基准安全、模型安全、内容安全、数据安全和服务安全等评估，助力行业安全发展。

　　“中国信通院可信AI评测服务——大模型评估测试体系(2024)”作为业界专业面向大模型的可信AI测评体系，从技术、应用、安全等各方面对大模型相关产品进行评估测试，为“人工智能+”行业落地保驾护航。

　　规范行业发展，树立标杆应用。通过科学、客观的评测，有利于更好地理解和把握大模型技术的发展趋势，为政府部门提供科学依据，支持国家在人工智能领域的政策制定和顶层设计。通过有效筛选出高性能、高可靠性的大模型产品服务，并针对测试过的大模型标杆企业开展应用推广活动，树立可推广、可复制、高价值的标杆产品应用。

　　推动应用落地，加速产业化进程。不仅帮助供需各方评估和优化其模型性能，激发厂家优化迭代产品，有利于形成行业市场良性竞争环境；还可以通过提供测试指标、方法和工具，促进技术标准化，拓展大模型应用的广度和深度，加速产业化进程，实现技术、应用与产业的协同发展。

　　帮助用户了解产品，协助企业验收。一方面，大模型评测是一项重要的验收工具，可以帮助企业全面检验产品各项指标，并了解性能瓶颈和改进方向，不断优化模型结构和算法；另一方面，通过参与评测并与同行交流，企业能够获取更多的行业信息和优秀实践，提升技术水平和竞争力。

　　部分已通过评测企业(持续更新)

智慧城市网

中国信通院可信AI评测服务：大模型评估测试体系（2024）升级发布

上一篇：比亚迪通信信号携手中国电信融创“卫星＋汽车”新场景，联合推出汽车直连卫星业务

下一篇：关于公布矿山领域机器人典型应用场景名单的通知

相关资讯：