浅谈大数据存储与处理瓶颈及应对之策
- 来源:中国安防展览网整理 作者:编辑部
- 2014/6/8 12:03:128640
什么是大数据?为什么要大数据?
“大数据”通常指的是那些数量巨大、难于收集、处理、分析的数据集,亦指那些在传统基础设施中长期保存的数据。这里的“大”有几层含义,它可以形容组织的大小,而更重要的是,它界定了企业中IT基础设施的规模。业内对大数据应用寄予了无限的期望商业信息积累的越多价值也越大只不过我们需要一个方法把这些价值挖掘出来。
与以往相比,我们除了有能力存储更多的数据量之外,还要面对更多的数据类型。这些数据的来源包括网上交易、网络社交活动、自动传感器、移动设备以及科学仪器等等。除了那些固定的数据生产源,各种交易行为还可能加快数据的积累速度。比如说,社交类多媒体数据的爆炸性增长就源于新的网上交易和记录行为。数据永远都在增长之中,但是,只有存储海量数据的能力是不够的,因为这并不能保证我们能够成功地从中搜寻出商业价值。
大数据的存储及处理能力挑战
当前,我国大数据存储、分析和处理的能力还很薄弱,与大数据相关的技术和工具的运用也相当不成熟,大部分企业仍处于IT产业链的低端。我国在数据库、数据仓库、数据挖掘以及云计算等领域的技术,普遍落后于国外先进水平。
在大数据存储方面,数据的爆炸式增长,数据来源的极其丰富和数据类型的多种多样,使数据存储量更庞大,对数据展现的要求更高。而目前我国传统的数据库,还难以存储如此巨大的数据量。在大数据的分析处理方面,由于针对具体的应用类型,需要采用不同的处理方式,因此必须通过建立大数据的分析模型,来实现快速抽取大数据的核心数据、分析这些核心数据并从中发现价值,而这些数据分析能力我国还很欠缺。
因此,如何提高我国对大数据资源的存储和整合能力,实现从大数据中发现、挖掘出有价值的信息和知识,是当前我国大数据存储和处理所面临的挑战。
处理大数据存储挑战的建议
通过隔离管理大数据存储
如果您在您的企业中有多个存储箱,那么将数据库、线交易处理(OLTP)和微软Exchange应用到特定的存储系统是一个好主意。而专其它存储系统则用于大数据应用,如门户网站,在线流媒体应用,等等。
如果您的企业负担不起分隔的存储系统,将特定的前端存储端口到数据库,OLTP,等等;致力于大数据应用到其他端口。背后的基本原理是使用专用端口,而大数据流量是以千字节或兆字节衡量,OLTP应用流量是以每秒的输入/输出操作(IOPS)衡量,因为数据块的大小是比大数据更大而比OLTP应用程序更小。OLTP应用程序是CPU密集型的,而大数据应用程序更多的使用前端端口。因此,更多的端口可以专注于大数据应用。
专业的大数据存储管理
如今,很多公司提供兼容数据管理的存储系统。你应该在寻找你的大数据存储管理解决方案时评估这些公司。如EMCIsilon的集群存储系统对于大数据存储管理是一个更好的选择,因为在一个单一的文件系统中大数据能增长到多字节的数据。
大数据分析
除了存储,大数据管理的另一项大的挑战是数据分析。一般的数据分析应用程序无法很好的处理大数据,毕竟涉及到大量的数据。
目前,诸如EMCGreenplum这样的公司就在采用专门针对大数据的管理和分析的工具。这些应用程序运行在集群存储系统上,缓解大数据的管理。建议选择应用程序可同时工作在群集存储系统,并迅速有效地分析数据。快速索引,确保元数据始终驻留在固态硬盘(SSD),如果存储箱为您提供了这样的选择的话。
管理大数据的另一个需要重点考虑的是未来的数据增长。你的大数据存储管理系统应该是可扩展的,足以满足未来的存储需求。
大数据的存储管理和云计算
许多公司正在寻找云计算服务来进行存储和管理海量数据。而选择云服务来大型数据存储管理,可以确保数据的所有权仍然是你的。
你应该有权选择将您的数据移入或移出云服务,而不被供应商锁定。其他重要的考虑因素是供应商的数据安全指南。