大数据平台解决方案

  • 格式:doc
  • 大小:151.50 KB
  • 文档页数:22

下载文档原格式

  / 22
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

. 1

大数据平台技术方案1.大数据平台技术方案3

1.1技术路线3

1.2动静态信息交换4

1.2.1系统概述4

1.2.2数据采集效劳4

1.2.3数据采集效劳配置5

1.2.4平台认证效劳5

1.2.5动静态数据发布订阅效劳5

1.2.6负载均衡效劳6

1.2.7协议分析转换功能6

1.2.8动静态数据分发效劳6

1.2.9数据分发效劳配置6

1.2.10数据缓存效劳7

1.2.11数据交换信息日志7

1.3大数据存储7

1.3.1数据仓库工具8

1.3.2大数据在线存储8

1.3.3大数据离线存储9

1.4数据清洗转换12

1.4.1流数据处理框架12

1.4.2分布式ETL工具12

1.4.3ETL功能介绍12

1.5大数据处理14

1.5.1实时数据流处理14

1.5.2数据挖掘分析引擎15

1.6大数据效劳引擎15

1.6.1大数据配置效劳管理15

1.6.2大数据在线分析15

1.6.3大数据离线分析16

1.6.4大数据可视化管理18

1.7大数据全文检索19

1.8调度与业务监控20

1.9资源与平安20 1.9.1租户管理21 1.9.2资源分配21 1.9.3权限管理21 1.10接口封装22

1.大数据平台技术方案

1.1概述

大数据平台必须具有高度可扩展性、实时性、高性能、低延迟分析、高度容错性、可用性、支持异构环境、开放性、易用性,同时也希望具有较低本钱;其核心技术包括大规模数据流处理技术以及大规模数据管理、分析技术。

系统技术架构采用面向效劳的体系构造〔Service-Oriented Architecture, SOA〕,遵循分层原则,每一层为上层提供效劳。将大数据平台进展逐层解析,从下至上分别是数据接口层、文件存储层、数据存储层、数据分析层、数据层、业务控制层、表现层、系统监控层。

〔1〕数据接口层:为保证数据接入层的接口灵活性,采用Restful风格接口实现方式,Restful有轻量级以及通过直接传输数据的特性,Web 效

劳的 RESTful 方法已经成为最常见的方法。同时数据的接入及交换采用Kafka 集群和WebService方式,Kafka是一种高吞吐量的分布式发布订阅消息系统,可以满足系统与大数据平台的高并发量数据交换。Web Service是一个平台独

立的,低耦合的,自包含的、基于可编程的web的应用程序,可使用开放的*M 标准来描述、发布、发现、协调和配置这些应用程序,用于开发分布式的互操作的应用程序。

〔2〕文件存储层:为满足大数据的存储要求,文件存储采用HDFS文件系统,Hadoop分布式文件系统(HDFS)是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

〔3〕数据存储层:根据本工程数据资源设计的需要,数据存储分别采用关系数据库、存数据库Redis、分布式大数据存储。

〔4〕数据分析层:采用Storm技术完成实时流分析的需求,Storm是一个分布式的、容错的实时计算系统。可以方便地在一个计算机集群中编写与扩展复杂的实时计。采用MapReduce和Spark实现离线分析。Spark是类Hadoop

MapReduce的通用并行框架,能更好地适用于数据挖掘与机器学习等需要迭代

的MapReduce的算法。

〔5〕数据接入层:应用与数据库的交互采用JDBC级Hibernate技术实现。Hibernate是一个开放源代码的对象关系映射框架,它对JDBC进展了非常轻量级的对象封装,它将POJO与数据库表建立映射关系,是一个全自动的 orm框架,hibernate可以自动生成SQL语句,自动执行,使得Java程序员可以随心所欲的使用对象编程思维来操纵数据库。

〔6〕业务控制层:采用当今最流行的轻量级Java开发框架Spring,同时与SpringMVC整合。Spring具有轻量、低侵入式设计、方便解耦,简化开发、AOP编程的支持、方便集成各种优秀框架等优点。

〔7〕表现层:采用EasyUI,Aja*,FreeMarker,JavaScript技术,这些技术能极大提高开发效率,同时能满足工程中各种复杂的前端展现要求。

〔8〕监控层:采用Zookeeper 分布式效劳框架。主要是用来解决分布式

应用中经常遇到的一些数据管理问题,如:统一命名效劳、状态同步效劳、集群管理、分布式应用配置项的管理等。它的作用主要是用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以到达基于数据的集群管理。

1.2动静态信息交换

1.2.1系统概述

动静态信息交换建立目的是通过标准的规性数据接口定义,实现采集各类动态和静态数据,实现与接入平台的数据通信与交换共享。

数据采集交换系统根据数据交换的对象和容的不同,效劳对象包括省市级管理机构等。数据交换平台包含一系列的效劳,如:数据采集效劳、平台认证效劳、发布订阅效劳等。

1.2.2数据采集效劳

数据采集效劳采集各级行业管理部门、各行业业务系统的数据信息,对这些静动态数据进展收集,用以进展后续操作。

数据采集模块按照定义的接口规进展连接、响应、接收、发送处理。接收各级行业管理部门报送的数据。

1.2.3数据采集效劳配置

针对上报大数据管理平台的信息,灵活配置其可采集的效劳种类,来源,IP 地址,采集的数据类型以及效劳方式,使数据的采集更加灵活可控。

数据采集效劳配置模块的主要功能有:

(1)动态配置效劳。根据IP、数据类型和效劳方式对效劳进展动态配置。

(2)对接入数据进展验证。不允许非配置的效劳接入数据,允许配置的效劳接入数据。

1.2.4平台认证效劳

为了保障数据效劳的平安性,在传输数据之前,需要先通过接口进展登录认证,从而确定数据交换平台及权限,以及平台接入的有效期。

平台认证模块主要功能有:

根据平台信息进展登录认证。根据申请接入的其他平台或者系统的相关信息,对该平台或者系统进展身份验证。

根据认证结果获取登录权限和有效期等信息。如果验证通过,则允许接入系统,如果验证不通过,则不允许接入。

1.2.5动静态数据发布订阅效劳

发布订阅效劳根据分发调度策略,判断采集动静态数据属于*个地市,发布到该地市的主题,存储到消息队列,记录日志。

动静态数据发布订阅模块的主要功能有:

(1)获取信息,将数据存储到消息队列。根据接入数据的相关信息,获取对应的信息。

(2)记录日志信息。将信息下发到相应的消息队列,并记录日志信息。