《人工智能 服务器系统性能测试规范》国家标准征求意见
- 来源:仪表网
- 2024/4/9 14:42:1240581
当前具有代表性的通用 AI 测试基准、HPC 性能测试基准或服务器技术规范,如 MLPerf、AI Benchmark、benchcouncil、AI-HPL、Linpack、DAWNBENCH、T/CESA 1043-2019《面向深度学习的服务器规范》、GB/T 9813.3《计算机通用规范 第 3 部分:服务器》《人工智能芯片 面向云侧的深度学习芯片测试指标与测试方法》以及 AIIA DNN benchmark 等,在 AI 服务器系统性能测试方面,仍存在一些未解决的问题。
1) 通用服务器技术规范对 AI 服务器系统的性能测试的规定不深入、而且存在同质化倾向。在测试指标方面,仅端到端运行时间、能耗等不能准确反映AI 服务器系统。系统内部运行时效能方面,尚不存在标准化的测试方法。
2) 通用 AI 性能测试,使用公众可获得的模型、数据集。它们与行业(如金融、医疗)实际使用的模型、数据有较大差异。通用测试的结果,对行业指导意义不强,行业业务在 AI 服务器系统计算设施上的运行效果,无直接评判依据。
3) 当前的测试基准对测试科学(test technology)理论的实践相对较薄弱。这些测试基准对性能的理解、解释及测试方法仅限于稳定状态运行时间,而未考虑真实运行环境及系统自身现实状态。
针对以上问题,该标准拟结合测试技术,在通用及行业应用两方面,研究并标准化测试方法、用例,达到较为全面、准确的测试效果。
人工智能服务器系统,包含人工智能服务器、集群和高性能计算设施等形态。人工智能服务器系统,是各类深度学习模型(包含大规模预训练模型)的训练和推理的核心载体,是各行业应用人工智能技术提升生产效率的核心工具。人工智能服务器系统专为处理人工智能计算任务设计,在架构、运算方式和用途用法上,与通用服务器系统有较大差别,其测试过程、负载和指标等,皆有独特性。本文件提出人工智能服务器系统性能基准测试的方法,并对基准测试工具提出技术要求。
本文件规定了人工智能服务器系统,完成深度学习训练及推理任务的性能(运行时间、能耗、实际吞吐率、能效、效率、弹性、承压能力等)测试方法。本文件适用于人工智能服务器系统的性能评估。
本文件内容框架如下:
1. 测试类型
a) 开放测试
b) 封闭测试
2. 训练
a) 训练过程;
b) 测试控制要素(含准确率门限、机器学习框架、混合精度训练、训练结果精度要求、数据读入要求、数据预处理过程、数据遍历要求、目标模型要求、超参选取规则、优化算法技术要求、损失函数技术要求、操作系统及环境要求等);
c) 结果符合性(含元数据、结果模型一致性、训练代码要求、日志要求等)
d) 场景(含通用及行业专用场景);
e) 指标及获取方法(含通用指标、测试学相关指标、行业专用指标等);
f) 测试工具要求(构架、功能要求、公平性保障要求);
3. 推理
a) 推理过程;
b) 测试控制要素(含作业到达控制、准确率、机器学习框架、量化、重训练、数据预处理、数据后处理、数据遍历、数据缓存、作业延误及丢失控制、操作系统及环境要求等);
c) 结果(含元数据、模型一致性要求、代码技术要求、日志要求等);
d) 场景(含通用及行业专用场景);
e) 指标及获取方法(含通用指标、测试学相关指标、行业专用指标);测试工具要求(构架、功能要求、公平性保障要求等)。
更多内容详情请见附件。