私有云性能监控保证集中化服务性
- 来源:TechTarget中国 作者:编辑部
- 2012/7/26 10:48:272000
持续收集私有云性能监控数据
持续地收集数据而不是仅在整合、集中或故障诊断时才去做。通常,用户和监控系统在问题刚刚产生时不会察觉。只有当问题变得严重足以影响到用户使用后才被发现。通过历史数据,您可以看到问题产生的时间。或许CPU负载的问题在一周前的病毒扫描程序升级完成后就产生了。您可以在历史数据中轻松发现这点,帮助解决问题的人员快速地定位、修复和恢复到状态。
私有云性能监控还带来一些非技术性收益。您希望集中的一些服务,例如各部门的Web服务器通常不会设置很多的监控。当服务宕机或变慢时,很多部门的做法是简单重启。而这种做法是错误的。
如果您推动集中服务的理由是通过监控提高可用性和性能,那么各部门很难拒绝。毕竟,您做了正确的事情,而他们没有。
透明化
透明化也很重要。把云性能数据开放给开发人员和应用管理员,这样他们可以看到自己所做配置选择对性能的影响。对基于虚拟化架构的云而言,类似的一些选择可能对应用本身是有益的,但却影响到整个环境的性能。IT系统也讲究平衡,包括性能在内。某个应用的性能目标应该用文档记录,这样可以尽力去达到而不是超出。超出这些目标需要额外的资金和时间投入。
选择相关联的数据采集点对私有云性能进行监控
当部署私有云性能监控系统时,尽可能多地从正确的地点收集相关联维度的数据。不要从虚拟化环境中某台虚拟机中获取关于CPU负载的信息,结果会是错误的。您应该从虚拟化平台角度去获取准确数据。同样,内存使用率、网络I/O、存储I/O等等也是这样。
相反,应用性能好从单个服务器的级别上判断,可以帮助识别某个集群成员是否已超负荷。另外,尽可能地以小粒度收集数据。很多性能监控工具以5、15或60分钟的平均数据作为历史数据,这体现到图形上就使得峰值数据变得平缓。这种平缓带来一些假象,因为峰值数据意义重大。
当应用响应工作时,不是慢慢地进行,而是调用所有它可用的CPU资源尽可能快速地完成,在图形上体现为100%的CPU使用率峰值。峰值时间的长度非常重要,这通常代表终用户对应用快慢的感受。换句话说,是请求和结果之间的延迟时间。
如果性能监控软件把这些峰值跟空闲时间进行了平均,可能看到的是50%的CPU使用率,从而得到错误的结论认为性能可以满足。网络和存储连接的工作方式类似。假设某一分钟100%的使用率,而下一分钟为0%,那么平均使用率为50%,看起来不是什么问题。这种情况下通过高解析度软件进行深入分析很有必要。当然保留大量的数据和收集高精度数据的过程也会消耗CPU、内存、网络和存储资源,所以您需要找到平衡点。