《人工智能服务器系统性能测试规范》国家标准征求意见

来源：仪表网

2024/4/9 14:42:1240664

　　【智慧城市网行业标准】近日，由中国电子技术标准化研究院、华为技术有限公司、中国科学院软件研究所、北京航空航天大学、浪潮电子信息产业股份有限公司等单位起草，TC28(全国信息技术标准化技术委员会)归口的国家标准计划《人工智能服务器系统性能测试规范》征求意见稿已编制完成，现公开征求意见。

　　当前具有代表性的通用 AI 测试基准、HPC 性能测试基准或服务器技术规范，如 MLPerf、AI Benchmark、benchcouncil、AI-HPL、Linpack、DAWNBENCH、T/CESA 1043-2019《面向深度学习的服务器规范》、GB/T 9813.3《计算机通用规范第 3 部分：服务器》《人工智能芯片面向云侧的深度学习芯片测试指标与测试方法》以及 AIIA DNN benchmark 等，在 AI 服务器系统性能测试方面，仍存在一些未解决的问题。

　　1) 通用服务器技术规范对 AI 服务器系统的性能测试的规定不深入、而且存在同质化倾向。在测试指标方面，仅端到端运行时间、能耗等不能准确反映AI 服务器系统。系统内部运行时效能方面，尚不存在标准化的测试方法。

　　2) 通用 AI 性能测试，使用公众可获得的模型、数据集。它们与行业(如金融、医疗)实际使用的模型、数据有较大差异。通用测试的结果，对行业指导意义不强，行业业务在 AI 服务器系统计算设施上的运行效果，无直接评判依据。

　　3) 当前的测试基准对测试科学(test technology)理论的实践相对较薄弱。这些测试基准对性能的理解、解释及测试方法仅限于稳定状态运行时间，而未考虑真实运行环境及系统自身现实状态。

　　针对以上问题，该标准拟结合测试技术，在通用及行业应用两方面，研究并标准化测试方法、用例，达到较为全面、准确的测试效果。

　　人工智能服务器系统，包含人工智能服务器、集群和高性能计算设施等形态。人工智能服务器系统，是各类深度学习模型(包含大规模预训练模型)的训练和推理的核心载体，是各行业应用人工智能技术提升生产效率的核心工具。人工智能服务器系统专为处理人工智能计算任务设计，在架构、运算方式和用途用法上，与通用服务器系统有较大差别，其测试过程、负载和指标等，皆有独特性。本文件提出人工智能服务器系统性能基准测试的方法，并对基准测试工具提出技术要求。

　　本文件规定了人工智能服务器系统，完成深度学习训练及推理任务的性能(运行时间、能耗、实际吞吐率、能效、效率、弹性、承压能力等)测试方法。本文件适用于人工智能服务器系统的性能评估。

　　本文件内容框架如下：

　　1. 测试类型

　　a) 开放测试

　　b) 封闭测试

　　2. 训练

　　a) 训练过程；

　　b) 测试控制要素(含准确率门限、机器学习框架、混合精度训练、训练结果精度要求、数据读入要求、数据预处理过程、数据遍历要求、目标模型要求、超参选取规则、优化算法技术要求、损失函数技术要求、操作系统及环境要求等)；

　　c) 结果符合性(含元数据、结果模型一致性、训练代码要求、日志要求等)

　　d) 场景(含通用及行业专用场景)；

　　e) 指标及获取方法(含通用指标、测试学相关指标、行业专用指标等)；

　　f) 测试工具要求(构架、功能要求、公平性保障要求)；

　　3. 推理

　　a) 推理过程；

　　b) 测试控制要素(含作业到达控制、准确率、机器学习框架、量化、重训练、数据预处理、数据后处理、数据遍历、数据缓存、作业延误及丢失控制、操作系统及环境要求等)；

　　c) 结果(含元数据、模型一致性要求、代码技术要求、日志要求等)；

　　d) 场景(含通用及行业专用场景)；

　　e) 指标及获取方法(含通用指标、测试学相关指标、行业专用指标)；测试工具要求(构架、功能要求、公平性保障要求等)。

　　更多内容详情请见附件。

智慧城市网

《人工智能服务器系统性能测试规范》国家标准征求意见

上一篇：上海市通信制造业行业协会关于《智慧城市基础设施分类与编码》团体标准立项的公告

下一篇：北京市设备购置与更新改造贷款贴息实施方案征求意见，涉及8大领域34个细分领域

相关资讯：