H3C DataEngine平台产品

H3C DataEngine平台产品

参考价: 面议

具体成交价以合同协议为准
2024-04-07 12:53:51
377
产品属性
关闭
成都万纬信息技术有限公司

成都万纬信息技术有限公司

免费会员
收藏

组合推荐相似产品

产品简介

在DT时代的今天,各行各业时时刻刻都在产生海量的结构多样的数据,企业数据规模不断增长,数据类型也变得复杂多样,传统数据库技术已无法满足企业海量多样化数据的有效存储、快速读取以及分析挖掘的需求,急需一套专业化的大数据解决方案来点石成金,H3CDataEngine大数据平台在此背景下应运而生

详细介绍

   在DT时代的今天,各行各业时时刻刻都在产生海量的结构多样的数据,企业数据规模不断增长,数据类型也变得复杂多样,传统数据库技术已无法满足企业海量多样化数据的有效存储、快速读取以及分析挖掘的需求,急需一套专业化的大数据解决方案来点石成金,H3C DataEngine大数据平台在此背景下应运而生。
   H3C DataEngine 3.0大数据平台基于开源Hadoop3.0而优于开源Hadoop,提供一套完整的数据实时采集、数据存储、计算、分析、管理与开发于一体的大数据平台方案。相比开源Hadoop 3.0平台,DataEngine大数据平台在安全性、易用性、稳定性与兼容性等多方面,进行内核级优化与外围加固,为用户提供更贴心、更适合的大数据平台方案。H3C DataEngine大数据平台与H3C CloudOS深度融合,以云操作系统作为基础底座,形成独立的数据平台云服务,利用云提供灵活的基础设施资源管理,提供海量数据存储以及高性能的查询分析处理能力,助力企业用户快速构建海量数据处理系统,分析挖掘数据内在价值,并用于指导企业经营决策, 完成业务驱动到数据驱动的转型。


系统架构

   H3C DataEngine大数据平台,整合基础资源服务(IaaS)、平台服务(PaaS)、数据服务(DaaS)一站式数据解决方案,支持物理机与虚拟机多种资源服务模式,深度定制大数据生态系统,打通数据全链路开发处理流程和数据全域管理能力,助力企业业务快速创新,完成ICT转型。

数据源:大数据平台可对接各种类型的数据源,结构化数据、非结构化数据与半结构化数据,包括但不限于关系型数据库、日志、流量、物联网数据、图片等。支持接收上一个数据处理组件或数据接入阶段的数据。支持自定义的数据处理操作,并可向下一个数据处理组件发送数据;支持多元化数据处理方式,包括支持Java、Python、SQL等开发语言。
资源服务层:DataEngine大数据平台依托H3C CloudOS云基础平台,提供数据平台运行的服务支撑能力,包括控制台管理框架、统一用户组织管理、工单流程管理、组件监控告警、日志管理以及微服务治理、资源池管理等。数据平台服务支持部署在物理机、裸金属服务器和虚拟机,用户可以根据实际业务场景需求灵活选择。
平台服务层:提供丰富的大数据组件即服务,包括但不限于分布式文件系统、NoSQL数据库服务、内存数据库服务、离线计算、流式计算、内存计算等服务,并通过自研统一SQL服务,兼容标准SQL,对外提供统一的数据查询、分析服务,提升平台的整体易用性。
分布式文件系统支持查询存储容量、存储使用量等信息;支持根据数据价值的高低和存储周期的长短,定义数据的物理存储节点,提高集群资料使用效率。根据数据价值高可以存储配置在SSD盘或者SATA盘的节点上,同时提供gzip、或lzc、或snappy、或其它存储压缩算法。
数据服务层:在数据存储与计算平台服务之上,还提供数据工厂、数据开发、数据资产以及数据质量等增值服务,形成统一数据标准规范,真正形成数据资产化,满足上层应用的数据要求。
   H3C DataEngine 大数据平台产品包括以下关键特性:
多数据源的快速采集:数据集成服务通过简易的工作流管理界面,可轻松将存储在文件、关系型数据库、实时数据流(如设备syslog信息)等各类数据源中的海量结构化数据、非结构化数据、半结构化数据采集至大数据集群中。
海量数据的存储:对结构化、半结构化和非结构化数据提供低成本存储,通过的Ensure Code技术实现数据低冗余、高容错,并通过集群高可用和多副本机制,避免单节点故障,保证节点损坏时数据不丢失。此外平台还具有高可扩展性,用户可以增加集群节点数量,横向扩展数据存储和计算能力。
   支持对集群内服务器硬盘故障自动容错处理,支持硬盘热插拔,故障硬盘的业务恢复时间< 2分钟。
元数据库支持快速切换容灾,故障时可在1分钟内完成服务恢复。
多计算框架融合:融合了稳定的离线计算MapReduce、高效的内存计算Spark以及实时的流计算Flink等多种计算框架,为客户提供灵活的计算支持能力,全面支持各类计算业务场景,客户无需切换平台或架构即可完成复杂多变的计算任务。在各类计算框架之上H3C DataEngine通过自研的统一SQL引擎,高度兼容标准SQL,智能选择计算引擎,极大降低使用复杂度,为上层应用程序提供标准的JDBC/ODBC/REST接口、多种语言的编程API和DaaS接口,辅以BI展示和可视化工具,通过即时报表、直方图、柱状图等方式直观呈现数据价值。
可视化数据工厂:提供一站式数据接入、可视化的数据开发,全托管的数据处理流程调度,实现一整套全生命周期数据开发服务,适用于数据建仓、数据分析与探索、业务报表生成、实时数据预警等业务场景。
丰富的行业应用: H3C DataEngine大数据平台经过不断的产品优化和架构演进,已经成功在、医疗、电力、税务、高校等多个行业落地实施,配合行业的应用服务开发商为客户提供丰富的大数据应用。
容灾备份:可对关键组件元数据、文件、表进行备份和恢复;数据备份和数据恢复,支持全量或增量备份。数据中心间的数据集群备份,满足多中心之间的数据互备需求,备份过程可视化管理。
多租户支持:通过对物理或虚拟资源的分配实现多个租户以及他们的计算和数据彼此隔离和不可访问。
隔离管理:支持多租户并行执行,租户任务提交到不同的队列执行,租户间资源隔离。
权限管理:支持各业务组件的租户统一管理,实现租户资源的动态配置和管理,资源隔离,资源使用统计等功能,支持多级租户的管理功能。
调度管理:支持多集群和多资源池的多租户调度。

产品特点

易用的平台管理界面

   H3C DataEngine提供可视化的集群安装部署界面,方便快捷的进行资源管理,主机分配等操作, 支持组件服务一键安装、升级和图形化运维,实时监测各项服务的健康状态以及运行指标,超过一定配置阈值后进行告警并邮件通知管理员,大幅提升运维效率。并可支持滚动升级与补丁能力,业务不中断,一次升级少量节点,循环滚动,直至集群所有节点升级到新版本。支持集群内某个业务节点故障时,不影响整体服务实例运行,并提供集群的自适应性负载能力,在高并发、高负载请求场景下无需调整集群参数保证业务运行。


超大规模集群能力

   H3C DataEngine 大数据平台深度优化集群扩展能力,支持5000+节点以上超大规模集群的实施能力,具备丰富的大规模集群调优能力,从规划部署策略,反复验证以最少的资源实现资源合理利用、优化部署架构,实现分片并行、增加本地化安装源避免流量洪峰、修改单线操作,合理提高并行度,提升组件管理和业务性能、增加缓存机制,减少调度延迟,保障页面响应快速,数据更新及时、反复优化组件资源参数和系统参数,提升大集群稳定性。采用大二层扁平网络部署,可支持交换机线性扩展,支持负载分担,采用业务平面管理平面隔离。平台支持自主可控CPU架构部署。

高效的工作流调度引擎

   数据工厂中支持可视化的工作流任务编排,并提供强大的工作流调度引擎。用户可以调试运行工作流,也可以周期运行工作流。在周期调度设置中,支持多维度的调度方式,即可以按照年、月、周、日、小时、分钟的方式进行工作流执行周期的设置。同时支持工作流的优先级与并发数设置,用户可以针对不同工作流设置不同的优先级,或者针对工作流实际运行需求来设置并发数。

通用数据服务接口

   提供统一SQL服务和可编程API,提取数据存储计算平台的数据处理结果,屏蔽底层细节,为上层应用提供数据服务。数据服务接口主要包括SQL接口、MapReduce/Spark/Storm/Flink等多种计算框架的可编程API、全文搜索接口、业务定向接口、关联查询接口,满足数据查询、可视化BI展示、数据分析、综合查询等业务应用的需要。提供接口文档、二次开发指导手册与二次开发示例程序,满足开发人员的使用需求。

安全的数据管控中心

   H3C DataEngine基于安全协议Kerberos实现安全认证,使用LDAP作为账户管理系统;同时利用Range提供统一的用户和角色的管理体系,遵从RBAC(Role-Based Access Control)模型规范,通过角色绑定用户进行权限管理。此外DataEngine还支持用户对各组件的审计日志及检索能力,自动存储到服务器的目录下(或对接日志服务,并可通过日志服务下载日志),便于长期存储、管理审计日志信息。全组件管理界面均支持单点登录。
   采用多节点集群架构,平台内各组件管理节点需实现高可用机制,运维管理节点故障不影响业务正常运行。使得平台真正做到安全可靠。


智能数据分析挖掘

   支持R语言,集成机器学习算法库Spark MLlib,包含聚类分析、分类算法、频度关联分析和推荐系统在内的常用机器学习算法。满足批处理统计分析、在线数据检索、R语言数据挖掘、实时流处理、全文搜索等需求。可帮助企业建立高速可扩展的数据仓库和数据集市,结合多种报表工具提供交互式数据分析、即时报表和BI可视化展示能力。

多形态部署模式

   数据平台支持独立模式和共享模式两种资源划分模式,满足不同场景下业务需求。共享模式下可以创建一个大集群,不同用户申请集群的共享存储和计算资源,并通过权限进行隔离,适合对资源管控严格且各二级部门数据交换频繁的企业使用。独立模式下不同用户可申请创建单独的集群,独享集群的所有资源,不同集群之前使用网络进行隔离,适用于资源比较充分且各二级部门之间业务相对独立的企业。
   此外为满足企业稳定性要求,DataEngine还提供了常用服务的独立产品模式,包括NoSQL数据库HBase、内存数据库Redis、消息中间件Kafka、搜索服务Solr和Elasticsearch,避免不同组件之间资源抢占影响集群稳定性。

云数平台深度融合

   H3C DataEngine大数据平台做为H3C CloudOS云服务提供,充分发挥云计算与大数据融合优势,利用云IaaS能力提供虚拟化资源池和裸金属资源池,用户可以根据具体业务场景灵活选择数据平台部署模式。虚拟机部署适合小数据量、性能要求不高的应用场景,服务器资源利用率;裸金属部署适合大数据量、高性能场景,提升用户业务能力。


功能特性

可视化安装运维管理

   大数据平台提供一体化的安装运维管理界面,通过Web界面化的方式实现一站式安装部署、监控告警、参数配置、服务管理、日志审计、用户管理、多集群管理等功能,避免用户在多个管理界面间切换;对集群的各项服务做集中式管理,提供启动服务、停止服务、修改属性和设定运行参数等功能,实现集群各项服务运行状态(基本信息、告警、运行健康状态)实时监控,保障集群稳定运行。

一站式开发服务数据工厂

   数据工厂覆盖数据采集、存储、计算、分析、开发、调度等环节的大数据全链路处理能力,降低用户使用大数据的门槛,帮助用户快速构建大数据处理体系。
   文件管理为用户提供可视化的HDFS操作能力,免去了用户依靠终端输入命令行的方式进行HDFS操作,支持可视化上传、下载、共享等操作。
   数据开发以拖拽方式构建任务流,按照时间和依赖关系的对进行任务调度管理,支持对Shell,Java,MapReduce,Spark,HDFS,Hive,SparkSQL等任务调度与编排。
   资源空间管理提供开发依赖jar包,tar包,文件等资源的管理,支持在线分组分类,增删改等操作。
   连接管理支持SSH协议主机连接和关系型数据库、大数据存储、消息队列以及其他类型(FTP)数据源连接。

多样化分布式计算框架

   DataEngine提供MapReduce、Spark和Flink三种分布式处理框架,分别满足稳定、高效、快速迭代三类应用场景,同时支持Hive、SparkSQL等SQL on Hadoop工具,简化计算任务编写过程,快速进行数据开发工作。
   Hive默认执行引擎采用Tez计算框架,将多个具有依赖的作业转换为DAG作业,避免复杂任务多次读写HDFS过程,大幅提升作业运行性能,复杂计算场景下相比MapReduce作业能够提升10倍以上性能。
   提供Spark内存计算框架,通过RDD之间的血缘关系管理算子之间依赖关系,确保数据能够快速恢复并重新计算,中间结果数据支持灵活选择内存、SSD等缓存模式,在迭代式计算场景提供更高性能的算力,计算性能可达MapReduce的10-100倍。
   采用Flink计算框架统批处理,一个计算引擎可同时满足流计算业务和批处理业务,支持自实现状态管理和Exactly-Once语义,具有容错机制,保证数据零丢失,具有的吞吐量及亚秒级延迟性能。同时支持完善Flink SQL语法,快速实现双流join、流批join等业务场景,降低流式作业开发难度 。

全面的全文检索数据库

   全文检索主要应用于业务场景下的人员、车辆、企事业单位等电子档案的全文检索、结构化数据的关联查询分析以及原始库、资源库、主题库、业务库、业务要素索引库组建。技术实践方面,全文库除满足机关档案类非结构化数据的搜索需求外,因其对结构化数据索引及实时查询性能的良好支持,不应局限于将其应用于非结构化数据的全文检索,同时,由于当前分析型数据库在高并发关联查询场景下的性能欠缺,对于面向一线民警的高并发结构化数据关联检索类场景都可考虑使用全文检索库来承载。本次全文检索数据容量按照全量结构化数据以及全量非结构化数据的数据容量进行规划,采用Solr或者ES全文检索组件,其中包括对结构化以及非结构化数据的检索。
   Elasticsearch+Solr全文检索引擎是一个高性能,采用Java开发,基于Lucene的全文搜索服务器,可以实现每天百亿增量数据的实时入库,并在数据入库1-2分钟后就可以进行查询。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎 (Lucene是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎)。它对外提供了类似于REST的HTTP/XML和JSON的API。其主要功能包括强大的全文检索,高亮显示,层面搜索,近实时索引,动态聚类,数据库整合,丰富的文档(如Word中,PDF格式)处理和地理信息搜索等。
   Elasticsearch+Solr全文检索引擎作为业界优秀的企业搜索服务器具有以下特性:
 高级的全文搜索功能
 支持针对数据的语义分析、情感分析和打标签功能
 支持基于协同过滤算法实现智能推荐提高查询有效性
 支持异步文件存储能力,自动支持文件的切片和合并能力以及对象存储能力,并提供基于Restful的查询接口
 具备非结构化数据的存储和快速检索能力,以及PB数据量级的毫秒级搜索能力
 专为高通量的网络流量进行的优化
 基于开放接口(XML和HTTP)的标准
 综合的HTML管理界面
 可伸缩性-能够有效地复制到另外一个全文检索服务器
 使用XML配置达到灵活性和适配性
 支持可扩展的插件体系
 高效、灵活的缓存功能
 垂直搜索功能,高亮显示搜索结果


自研统一SQL引擎

   DataEngine大数据平台提供自研Sparrow组件,对外提供统一的SQL访问服务。兼容通用标准SQL,从数据库平滑过渡到大数据平台,提升SQL兼容性,可对接ES、HBase、Hive等数据源,降低平台使用门槛;提供增强型统一SQL on Hadoop方案,支持图计算与机器学习SQL,大幅度提升平台易用性。

丰富的大数据服务组件

   基于Hadoop 3.0版本,与开源社区的版本、接口保持一致,不采用私有架构。提供分布式文件存储、海量数据处理、实时数据分析、交互式查询、数据检索、安全认证与权限管理等功能。软件服务组成及功能描述如下:
服务名称 版本号 描述
YARN 3.0.0 Hadoop资源管理器,是一个通用的资源管理系统,可为上层应用提供统一的资源管理和调度服务,使MapReduce、Spark、Flink等多种计算框架共享资源
HDFS 3.0.0 Hadoop分布式文件系统,具有高容错、高吞吐等特点,适用于存储超大文件
MapReduce2 3.0.0 批处理框架,主要用于离线计算、计算密集型应用。设计思想是分而治之,即将一个大任务分成多个独立的小任务,最后汇总各个小任务的结果
ZooKeeper 3.4.5 分布式应用程序协调服务,为集群提供一致性服务,包括配置维护、名字服务、分布式同步、组成员管理等
Spark 2.4.0 一个快速的通用的大规模数据处理引擎,提供批处理、流处理、SQL查询、机器学习、图计算、R语言等功能。Spark计算中的中间结果缓存在内存中,在后续计算过程中直接读取缓存数据,具有高效的计算性能。
Storm 1.2.1 Storm是一个分布式的、容错的实时流处理引擎,效率非常高且能保证每条消息都能被处理
Tez 0.9.0 一个支持DAG作业的计算框架。Tez将多个有依赖关系的作业转化为一个DAG作业,大幅提升性能,帮助MapReduce克服在迭代计算和交互式计算方面的不足
HBase 2.1.1 HBase是一个分布式、面向列的NOSQL数据库,常用于非结构化和半结构化数据的存储和查询。在应用程序开发中,常使用Java API等接口访问HBase中的数据,也可以借助Phoenix等SQL引擎使用JDBC访问HBase中的数据
Redis 5.0.4 Redis是Key-Value型内存数据库,支持单机和集群两种运行模式,常用作高速缓存和消息队列代理
Flink 1.6.0 Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎
ElasticSearch5 7.4.0 ElasticSearch是一个基于Lucene的全文搜索服务器,提供了一个分布式的、多用户全文搜索引擎。对外提供RESTful编程接口,特点是易扩展、实时搜索、稳定可靠,是当前流行的企业级搜索引擎
Solr 7.4.0 Solr是一个基于Apache Lucene项目的搜索平台。其主要功能包括全文搜索、命中突出、面搜索、动态集群、数据库集成和丰富的文档(如Word、PDF)处理
Hive 2.1.1 基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的类SQL查询功能,具有以下特点:
· 易于进行数据抽取、转换和加载
· 支持多样的数据存储格式
· 能直接访问存储在HDFS或其他的数据存储系统(如HBase)上的文件。多种使用方式,支持Shell交互式命令、JDBC、WebUI等
Impala 3.2.0 Impala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎,提供了高性能和低延迟查询分析能力。
Kafka 2.3.0 一种高吞吐量的分布式发布订阅消息系统
Infra Solr 0.1.0 Infra Solr是一个专门提供给LogSearch服务的企业级搜索应用服务器
Sqoop 1.4.7 Sqoop是一个用于Hadoop和结构化数据存储(如关系型数据库)之间进行高效传输大批量数据的工具:
· Hadoop数据:HDFS文件、HBase表、Hive表
· 关系型数据库:MySQL、PostgreSQL、Oracle、SQL Server和DB2等支持JDBC的数据库
Kerberos 1.10.3.10 Kerberos是一种不依赖主机地址信任、不要求网络中所有主机的安全,通过密钥系统为客户机和服务器应用程序提供强大的认证服务的网络认证协议
在Hadoop中,使用Kerberos来安全访问各个服务
HBase Indexer 1.5 HBase Indexer是针对HBase开发的索引插件,使HBase支持二级索引
Oozie 5.1.0 Oozie是用于Hadoop平台的工作流调度引擎,管理Hadoop作业
Flume 1.9.0 Flume是一个分布式的、高可靠的、高可用的将大批量的不同数据源的日志数据收集、聚合、移动到HDFS进行存储的系统
 

云化大数据服务

   采用基于云计算平台的大数据服务,用户通过云端申请大数据集群,H3C CloudOS云平台会为大数据集群分配和管理主机资源,用户只需专注于自己的业务层面,按需购买大数据服务,并可为大数据集群提供扩容、缩容的功能。提供两种部署方式:裸金属与虚拟化。虚拟机部署适合小数据量、性能要求不高的应用场景,提升服务器资源利用率;裸金属部署适合大数据量、高性能场景,提升用户业务能力。

安全认证和权限管理

   为保障用户的数据信息安全,DataEngine集成了用户身份认证和权限管理功能,在创建大数据集群时根据实际需求进行启用安全管理即可。
   开启安全管理的集群统一使用Kerberos认证协议进行安全认证,kerberos认证支持密码认证和keytab认证两种模式,集群管理员可在用户管理模块为集群使用者分配用户和设置认证密码,避免外部用户登录集群,提高集群安全性。
   由于集群每个特定用户可能拥有集群资源的不同访问和使用权限,支持按照用户需要对数据进行加密。支持对所有数据进行加密或部分关键数据进行加密。支持SHA256、AES128等方式的数据加密。为保护不同业务数据的信息安全,安全集群利用Ranger进行鉴权,确保认证用户拥有集群资源的访问权限。如果用户权限不足,需要管理员为用户授予对应资源的权限后才能进行访问。
   支持数据访问权限管理,包括登录权限、创建表权限、读写权限、白名单控制权限等;支持管理权限控制,包括管理员分级等;提供集中统一的用户权限管理功能,将系统中各组件零散的权限管理功能集中呈现和管理,对普通用户屏蔽掉内部的权限管理细节,对管理员简化权限管理的操作方法,提升权限管理的易用性和用户体验。
   提供权限管理和细粒度用户操作审计;具备完善的权限认证与隔离机制,保障用户数据的性;支持通过多租户模式实现资源隔离。

 
 
上一篇:人工智能如何推动向私有云的转变 下一篇:为什么人工智能的发展会给环境带来风险?
热线电话 在线询价
提示

请选择您要拨打的电话:

温馨提示

该企业已关闭在线交流功能