人工智能和机器学习如何改变数据中心运营的游戏规则?
- 来源:企业网D1Net
- 2022/7/5 14:26:0036592
随着数据中心专注于支持人们越来越需要的工作和生活的基本技术服务,数据中心的运营如此繁重也就不足为奇了。在没有放缓迹象的推动下,人们看到与视频、存储、计算需求、智能物联网集成以及5G连接推出相关的数据使用量大幅增加。然而,尽管工作量不断增加,但不幸的是,当今许多数据中心设施的运行效率都不够高。
鉴于数据中心的平均工作寿命超过20年,这不足为奇。效率总是取决于数据中心设施的原始设计,并且基于早已被超越的预期IT负载。与此同时,变化是一个不变的因素,平台、设备设计、拓扑、功率密度和冷却要求都随着新的应用的不断发展而变化。其结果是经常发现全球各地的数据中心很难将当前和计划的IT负载与其关键基础设施相匹配。随着数据中心需求的增加,这种情况只会加剧。根据分析师的预测,从现在到2025年,数据中心的工作负载量将以每年20%左右的速度继续增长。
传统的数据中心技术和方法难以满足这些不断升级的需求。对可用性进行优先级排序在很大程度上是以牺牲效率为代价的,太多的工作仍然依赖于运营人员的经验,并且相信假设是正确的。不幸的是,有证据表明这种模式不再适用。远程传感器监控提供商EkkoSense公司的研究表明,数据中心中平均有15%的IT机架在ASHRAE的温度和湿度指南规定的范围之外运行,而由于效率低下甚至导致数据中心冷却能耗高达60%。这是一个主要问题,根据Uptime Institute估计,由于冷却和气流管理效率低下,全球数据中心浪费的能源损失约为180亿美元。这相当于浪费了大约1500亿度电。
数据中心基础设施使用的35%的能源用于冷却,很明显,传统的性能优化方法错过了实现效率提升的巨大机会。EkkoSense公司的调查表明,三分之一的计划外数据中心中断是由过热问题引发的。因此需要找到不同的方法来管理这个问题,可以为数据中心运营团队提供很好的方法来确保可用性和提高效率。
传统监控技术的局限性
不幸的是,目前只有大约5%的运维团队在每个机架上监控和报告他们的数据中心设备温度。此外,DCIM和传统监控解决方案可以提供趋势数据,并设置成在出现故障时提供警报,但这些措施还不够。它们缺乏分析能力,无法深入了解问题的原因,以及如何在未来解决和避免问题。
运营团队认识到这种传统监控技术有其局限性,但他们也知道根本没有资源和时间来获取他们拥有的数据,并从分析数据中获得有意义的见解。好消息是,现在可以使用技术解决方案来帮助数据中心解决这个问题。
现在是让数据中心与机器学习和人工智能相结合的时候了
机器学习和人工智能的应用在如何处理数据中心运营方面创造了一个新的模式。运营团队现在可以利用机器学习来收集更细粒度的数据,而不是被过多的性能数据淹没——这意味着他们可以开始实时访问数据中心的运行情况。关键是使其易于访问,使用智能3D可视化是一种很好的方法,可以让数据中心团队更轻松地在更深层次上解释性能和数据:例如显示更改和突出显示异常。
下一阶段是应用机器学习和人工智能分析来提供可行的见解。通过使用机器学习算法扩充测量数据集,数据中心团队可以立即受益于易于理解的见解,以帮助支持他们的实时优化决策。每五分钟进行一次实时粒度数据收集和人工智能/机器学习分析相结合,使运营人员不仅可以查看其数据中心设施中发生的情况,还可以找出原因,以及应该如何处理。
人工智能和机器学习支持的分析还可以揭示建议关键领域的可操作更改所需的洞察力,如最佳设定点、地板格栅布局、冷却设施操作以及风扇速度调整等。热量分析还将显示安装机架的最佳位置。而且,由于人工智能能够实现实时可视化,数据中心团队可以快速获得任何已经执行更改的即时性能反馈。
人工智能和机器学习为数据中心运营提供帮助
鉴于减少碳排放量和尽量减少电价上涨影响的压力,数据中心团队如果要实现其可靠性和效率目标,就需要新的优化支持。
利用最新的机器学习和人工智能驱动的数据中心优化方法当然可以通过减少冷却能源和使用来产生影响——在几周内即可获得立竿见影的结果。将细粒度数据置于优化计划的前沿,数据中心团队不仅能够消除过热和电力故障风险,还能确保将冷却能耗成本和碳排放量平均降低30%。很难忽视这种成本节省可能产生的影响,尤其是在电价快速上涨的时期。如今为优化而权衡风险和可用性的日子已经一去不复返了,人工智能和机器学习技术将应用在数据中心运营的前沿。