分享：罗列开源可用的十项大数据技术

来源：CSDN

2016/9/9 17:39:3936637

　　【中国安防展览网媒体导读】大数据到底是什么？我们为什么需要大数据技术？从本质上来说，大数据就是曾经被称为数据仓库的逻辑延伸。顾名思义，大数据就是一个大型的数据仓库，一般有一个能支持业务决策的业务重点。但是，它和传统数据库不同的是，大数据不用构建。大数据技术，就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术，它们成为大数据采集、存储、处理和呈现的有力武器。在这个大数据爆炸的时代，各种新项目如雨后春笋一般，每天从世界各地不断涌现出来。好消息是当下的技术都是开源可用的。下面就一起来看看这个*0列表，应用起来吧!

分享：罗列开源可用的十项大数据技术

　　
　　1.Hadoop
　　
　　Hadoop是稳定企业实力和其他一切工作的基础。你需要利用YARN，HDFS和Hadoop中的基础设施，存储原始数据以及运行关键的大数据服务和应用程序。
　　
　　2.Spark
　　
　　Spark易于使用，并且支持所有重要的大数据语言(Scala，Python，Java，R)。同时，Spark还是一个巨大的生态系统，发展迅速，便于支持microbatching/batching/SQL。这是另一个不费脑筋的技术。
　　
　　3.NiFi
　　
　　NiFi是NSA工具，它可以用少的编码和一个光滑的UI，提供简单的数据摄取、存储和处理各种来源数据。这些数据的来源包括社交媒体，JMS，NoSQL，SQL，Rest/JSON Feeds，AMQP，SQS，FTP，Flume，Elastic Search，S3，MongoDB，Splunk，Email，HBase，Hive，HDFS，Azure Event Hub，Kafka等等。如果NiFi没有你需要的来源或汇集，你可以为NiFi直接用Java代码编写自己的处理器。NiFi是另一个推荐选入工具箱中的Apache项目，是大数据工具中的瑞士军刀。
　　
　　4.ApacheHive2.1
　　
　　Apache Hive是运行在Hadoop之上的SQL解决方案。在Apache Hive 2.1新版本中，性能和功能上的增强使Hive成功作为SQL大数据解决方案留在榜单。
　　
　　5.Kafka
　　
　　Kafka是大数据系统间进行异步、分布式消息传递的选择，它能够进入大多数的堆栈。从Spark到NiFi，到第三方工具，再到Java和Scala，它很好地维系了系统。Kafka需要在栈中应用。
　　
　　6.Phoenix-HBase
　　
　　由于很多公司都在应用HBase，也就导致了这个开源项目的数据规模极大。在HDFS支持下，NoSQL能够很好地集成所有工具。所以，在HBase上额外构建的Phoenix成为了NoSQL。这增强了HBase的SQL、JDBC、OLTP和运营分析能力。
　　
　　7.Zeppelin
　　
　　在使用Hive，Spark，SQL，Shell，Scala，Python以及许多其他的数据挖掘和机器学习工具时，Zeppelin是一款便捷、集成性较高的notebook工具。在易于使用的同时，Zeppelin能够以很好的方式来探索和查询数据。而且这个工具可以支持多种环境和功能，用户只需要经常更新图表和映射数据即可。
　　
　　8.SparklingWater
　　
　　Sparkling Water弥补了Spark中Machine Learning和其他工作间的空缺，提供所有可能用到的机器学习服务。
　　
　　9.ApacheBeam
　　
　　Apache Beam是一个用Java编写的统一框架，用于数据处理和管道开发。同时，它也可以支持Spark和Flink。其他的框架很快也会上线，用户不必再去学习太多的框架。
　　
　　10.StanfordCoreNLP
　　
　　Natural Language Processing目前应用极广且增长迅速，Stanford Core NLP也在不断地提高他们的框架性能。
　　
　　时下有数不清的大数据项目，所以好的办法就是合并及测试不同项目版本，来确保他们在安全和管理上都能够顺畅运行。

智慧城市网

分享：罗列开源可用的十项大数据技术

上一篇：别高兴太早！零关税实施未必全是利好

下一篇：车联网火速来临智能生活又添新元素

相关资讯：

上一篇：别高兴太早！零关税实施未必全是利好

下一篇：车联网火速来临 智能生活又添新元素

相关资讯：

下一篇：车联网火速来临智能生活又添新元素