大数据平台概要设计说明书模板
- 格式:doc
- 大小:564.28 KB
- 文档页数:32
XXX系统XX项目概要设计说明书xxxxx有限公司版本记录目录第一章引言1.1编写目的编写该文档的目的在于明确本系统的用户需求,从技术实现角度描述用户需求,使得软件开发人员与用户对待开发软件的需求有统一的、无二义性的认识。
该文档所描述的内容,可作为软件确认测试的依据,检测所最后的成果是否达到了所描述的技术需求。
该文档的读者为用户代表、软件分析人员、开发管理人员和测试人员。
1.2背景根据xxxxx,为使系统管理更深入业务、更人性化,以及适应国家政策倡导的管理转向服务的发展方向,xxx提出了开发《XXX》的需求。
系统由xxxx有限公司进行系统的设计、开发、以及维护。
系统的主要使用者如下:●xxxxxxxxx。
系统的部署分三方面:●数据库以及服务器端的部署,这两部分部署到xxx机房。
●客户端部署到xxxx机器上。
●xxxx通过浏览器联通互联网进行操作。
1.3参考资料●GB 8566 计算机软件开发规范●GB 8567 计算机软件产品开发文件编制指南●计算机软件工程规范国家标准汇编●《计算机软件工程规范国家标准汇编》第二章任务概述2.1目标xxxxx,建设的目的主要有以下几个方面:⏹xxxx;⏹使系统管理更深入业务、更人性化;⏹通过技术手段把xxxx的数据依据;⏹升级系统的安全性,得到更好的数据保障。
2.2运行环境(按实际环境填写)2.2.1硬件环境服务器配置1. 应用服务器一型号:DELL PowerEdge 6850CPU:2个Intel Xeon MP Model 6 Stepping 8 3.0 Ghz (双核)内存:12G硬盘:2个67.75G2. 应用服务器二型号:DELL PowerEdge 6850CPU:4个Intel Xeon MP Model 6 Stepping 8 3.0 Ghz (双核)内存:16G硬盘:1个67.75G3. 应用服务器三型号:DELL PowerEdge 6850CPU:2个Intel Xeon MP Model 6 Stepping 8 3.0 Ghz (双核)内存:4G硬盘:1个67.75G4. 数据库服务器:两台DELL PowerEdge R910,每台配置:4个 Intel(R) Xeon(R) CPU E7540 @ 2.00GHz Model 46 Stepping 6(六核)CPU,64GB内存,2个278.88 GB 硬盘详细参数参见硬件供应商提供的说明。
量子科技城建设项目大数据系统概要设计文档1引言1.1编写目的本概要设计说明书的编写目的用来描述县大数据台建设项目中的设计基准。
文档主要给设计开发人员、实施人员参考使用,包括程序系统的基本处理流图、程序系统的组织结构、模块划分、功能分配、接口设计、运行设计、数据结构设计和安全性设计等。
以向整个设计期提供关于程序系统的逻辑和数据功能实现方式的总体描述,从而作为程序详细设计或编码的基础。
1.2读者范围◆建设单位项目管理人员、技术人员。
◆承建单位项目管理、设计开发者、测试人员、质量管理员。
◆监理单位监理工程师。
2总体设计2.1总体结构2.1.1软件结构图2.1.2模块清单文档中描述的为整个大数据台项目的整体规划,在初验阶段前需完成的有:首页、数据分析、数据目录、帮助中心全站搜索、登录、个人中心(依据不同角色,享有不同权限,可使用不同功能)等功能模块,其余模块将终验阶段前完成。
2.2设计思路开发时考虑的总体原则是:它必须满足设计目标中的要求,并充分考虑本网站的基本约定。
建立完善的系统设计方案。
信息系统的实施作为信息化规划的实践和实现,必须遵循信息化规划方案的思想,对规划进行项目实施层面上的细化和实现。
首先必须遵循信息化规划“投资适度,快速见效,成熟稳定,总体最优”的总原则。
具体细化到信息系统分析设计和软件系统工程上来。
2.2.1先进性系统构成必须采用成熟、具有国内先进水,并符合国际发展趋势的技术、软件产品和设备。
在设计过程中充分依照国际上的规范、标准,借鉴国内外目前成熟的主流网络和综合信息系统的体系结构,以保证系统具有较长的生命力和扩展能力。
2.2.2实用性实用性是指所设计的软件应符合需求方自身特点,满足需求方实际需要。
在合法性的基础上,应根据需求方自身特点,设置符合需求方的设计需求。
对于需求方的需求,在不违背使用原则的基础上,确定适合需求的设计,满足需求方内部管理的要求。
1)设计上充分考虑当前各业务层次、各环节管理中数据处理的便利和可行,把满足管理需求作为第一要素进行考虑。
密级:秘密系统名称:XXXX系统系统版本:X.X文档分类:系统设计文件编号:XXXX系统Ver X。
X 概要设计说明书XXX计算机有限公司XXXX年X月XXX系统VerX.X概要设计说明书共22页第2页目录目录 (2)1.引言 (4)1.1文档目的 (4)1.2项目概述 (4)1.3参考资料 (5)1.4术语定义 (5)1.5修改记录 (5)2.系统概述 (6)2。
1系统实现目标 (6)2.2条件与限制 (6)2。
3运行环境 (7)3.需求概述 (7)3。
1.总体描述 (8)3.2.系统角色 (8)3。
3.系统功能 (8)3。
3。
4.功能划分83.3。
5。
用例清单83.4。
性能和运行需求 (8)4。
总体设计 (8)4。
1设计原则 (8)4。
2设计规范 (9)4。
3软件体系结构 (10)5。
模块结构设计 (11)5。
1组件模块总体设计 (11)5。
1。
1。
组件模块的划分和功能描述115。
1。
2.组件模块关系125.1.3.组件模块的物理分布 (12)5.1。
4。
组件模块与用例映射135.2组件模块描述 (13)XXX系统VerX.X概要设计说明书共22页第3页5.2。
1.组件模块1136。
用例实现 (14)7。
数据结构设计 (16)8。
接口设计 (16)9.系统安全设计 (16)9。
1系统故障预防和恢复 (16)9。
2用户管理和权限控制 (17)9。
3数据备份与恢复 (17)9.3。
1。
数据备份179。
3。
2.数据恢复1710。
系统运行设计 (18)10。
1运行模块组合 (18)10。
2运行控制 (18)11。
系统出错处理设计 (19)11。
1出错处理信息 (19)11.1.1。
通讯线路错误 (19)11。
1。
2。
系统环境错误1911。
1。
3。
应用设计错误1911。
2出错处理对策 (19)12.系统维护设计 (21)12。
1数据维护 (21)12.2功能维护 (21)13.系统版本设计 (21)14.附件 (21)XXX系统VerX.X概要设计说明书共22页第4页1.引言1.1文档目的简要说明编写这份概要设计说明书的目的,指出预期的读者。
概要设计说明书1. 引言概要设计说明书旨在对系统或项目的整体结构、模块划分进行概括性的描述和解释,详细阐述系统设计的思路、目标和原则。
本文档将介绍系统的基本概念、架构设计、模块划分、接口设计等关键内容,以帮助开发人员更好地理解系统的整体设计思路和实现方法。
2. 系统概述本系统是一个xxx(系统名称)的xxx(系统类型),旨在xxx(系统目标)。
系统包括xxx个模块,分别负责xxx功能。
系统采用xxx(架构模式),拥有良好的可扩展性、可维护性和可测试性。
3. 功能需求3.1 功能1功能1的主要目标是xxx。
实现这一功能的关键步骤包括:xxx(详细描述功能实现的步骤或算法)。
对应的模块为xxx模块,该模块负责xxx(模块的职责描述)。
3.2 功能2功能2的主要目标是xxx。
实现这一功能的关键步骤包括:xxx(详细描述功能实现的步骤或算法)。
对应的模块为xxx模块,该模块负责xxx(模块的职责描述)。
…4. 结构设计4.1 总体结构系统的总体结构如下图所示:插入总体结构示意图系统分为xxx个核心模块,分别为xxx。
每个模块之间通过xxx(接口协议或通信方式)进行通信和数据交互。
4.2 模块设计4.2.1 模块1模块1的主要职责是xxx。
模块1包含如下子模块:•子模块1:负责xxx;•子模块2:负责xxx;•…4.2.2 模块2模块2的主要职责是xxx。
模块2包含如下子模块:•子模块1:负责xxx;•子模块2:负责xxx;•……5. 接口设计系统的各模块之间通过接口进行数据传输和方法调用。
本节将描述系统的主要接口及其定义。
5.1 接口1接口1用于xxx的数据传输和方法调用。
接口1的定义如下:public interface Interface1 {// 方法1的说明void method1();// 方法2的说明int method2(String param);}5.2 接口2接口2用于xxx的数据传输和方法调用。
大数据平台方案设计说明随着互联网的发展和智能化的进步,数据量的增长速度越来越快,数据分析和挖掘也成为了当今企业决策的重要手段。
为了更好地利用大数据进行分析和挖掘,企业需要建立大数据平台来支持数据的存储、处理和分析等各个环节。
1. 数据存储:大数据平台的核心是数据的存储,需要选择适合大数据存储和处理的技术。
常见的大数据存储技术包括分布式文件系统(例如HDFS)、NoSQL数据库(例如MongoDB)和列式数据库(例如HBase)。
根据数据的特点和处理需求,选择合适的存储技术进行数据存储。
2. 数据采集:为了建立大数据平台,需要从各个数据源中采集数据。
数据源可以包括关系数据库、日志文件、传感器数据等。
为了实现数据的实时采集和传输,可以使用消息队列(例如Kafka)或流处理引擎(例如Spark Streaming)等技术,将数据源中的数据实时传输到大数据平台中。
3. 数据处理:大数据平台需要支持数据的实时处理和批量处理。
实时处理可以使用流处理引擎(例如Spark Streaming)或复杂事件处理引擎(例如Flink)等技术。
批量处理可以使用MapReduce框架(例如Hadoop)或Spark等技术。
通过数据处理,可以实现数据的清洗、转换、聚合、计算等操作,为后续的数据分析和挖掘做准备。
4.数据分析和挖掘:数据分析和挖掘是大数据平台的重要功能,可以帮助企业发现潜在的业务机会和风险。
常见的数据分析和挖掘技术包括机器学习、数据挖掘、统计分析等。
通过对大数据平台中的数据进行分析和挖掘,可以发现数据中隐藏的模式、规律和异常,为企业决策提供支持。
5. 数据可视化:为了更好地理解和展示数据分析的结果,需要将分析结果进行可视化。
数据可视化技术可以帮助用户直观地理解数据,发现数据中的模式和趋势。
常见的数据可视化工具包括Tableau、Power BI等。
通过数据可视化,可以将分析结果以图表、报表等形式展示给用户,提供直观的数据分析和挖掘服务。
!计算平台概要设计说明书作者:日期: 2013-01-28批准:日期:—审核:日期:(版权所有,翻版必究)文件修改记录目录\1.引言...................................................编写目的.................................................术语与缩略词.............................................对象及范围...............................................参考资料.................................................2.系统总体设计...........................................需求规定.................................................数据导入............................................:数据运算............................................运算结果导出........................................系统监控............................................调度功能............................................自动化安装部署与维护................................运行环境.................................................基本设计思路和处理流程...................................系统结构.................................................?大数据运算系统架构图................................hadoop体系各组件之间关系图.........................计算平台系统功能图..................................系统功能图逻辑说明..................................计算平台业务流程图..................................尚未解决的问题...........................................3.模块/功能设计..........................................计算驱动模块.............................................\设计思路............................................流程图..............................................处理逻辑............................................调度模块.................................................设计思路............................................流程图..............................................处理逻辑............................................自动化安装部署模块.......................................…设计思路............................................处理逻辑............................................调度模块与计算驱动模块交互流程...........................处理流程图..........................................处理逻辑............................................hadoop驱动模块调用驱动接口.........................调度模块接收hadoop执行状态接口.....................调度模块与kettle交互流程................................&处理流程图..........................................处理逻辑............................................对调度任务运行过程进行监控流程...........................处理流程图..........................................处理逻辑............................................对hadoop驱动任务运行过程进行监控流程....................处理流程图..........................................处理逻辑............................................~对操作系统/应用程序监控流程..............................处理流程图..........................................处理逻辑............................................监控报警模块.............................................设计思路............................................流程图..............................................处理逻辑............................................4.系统数据结构设计.......................................>数据实体关系图...........................................数据逻辑结构.............................................驱动任务设置表......................................驱动设置表..........................................驱动任务执行明细表..................................调度任务表..........................................调度步骤表..........................................调度步骤执行记录表..................................<操作系统监控数据表..................................应用程序监控数据表..................................监控系统配置表......................................业务数据记录表......................................数据物理结构.............................................5.安全设计...............................................6.容错设计...............................................挽救措施.................................................~系统维护设计.............................................7.日志设计...............................................1.引言1.1编写目的大数据泛指巨量的数据集,因可从中挖掘出有价值的信息而受到重视。
项目技术方案大数据平台方案设计1.1需求分析1.1.1采购范围与基本要求建设XX高新区开发区智慧园区的人口库(12万居民)、法人库(1200家企业)、地理信息库(已建设区域35平方公里的3维电子地图、未建设区域80平方公里的航拍电子地图)、视频库(1000个摄像点)、大数据处理平台、数据管理服务平台。
1.1.2建设内容要求1.1.2.1人口库人口库的基本信息以公安部门户籍和暂住人口信息为基础,整合人社、计生、民政、教育等多个部门信息资源,建设统一规范的人口库和人口信息服务平台。
(1)人口库的内容目录(2)人口信息服务平台功能需求数据库层:能够安全存储人口库的内容目录中列出的信息内容,对居民、企业、政府提供安全的人口信息服务,为人口大数据分析提供基本数据源。
应用支撑层:包括门户框架、数据库维护、报表组件、数据挖掘等,用于为应用层提供应用支撑。
数据挖掘提供常见的数据分析/挖掘工具、通用算法,利用大数据平台的计算能力进行分析,对人口库数据进行数据挖掘与发现,提供有价值的分析结果。
应用层:包括人口信息服务、人口专题分析、公共服务等。
1.1.2.2法人库法人库以工商部门的企业信息为基础,整合各参建部门系统中的法人信息,如机构代码、机构名称、机构类型、经济行业、业务经营范围、机构地址、法定代表人等字段信息,建成标识统一、结构科学、查询快捷、动态管理的法人信息库。
制定与交换平台对应的相关标准、制度和规范管理体系,实现工商局、地税局、国税局、质量技术监督局等法人数据相关业务部门之间的网络互联和业务数据的实时交换与应用。
(1)法人库的内容目录(2)法人信息服务平台功能需求数据库层:能够安全存储法人库的内容目录中列出的信息内容,对居民、企业、政府提供安全的法人信息服务,为法人大数据分析提供基本数据源。
应用支撑层:包括门户框架、数据库维护、统计与报表组件、数据挖掘等,用于为应用层提供应用支撑。
数据挖掘提供常见的数据分析/挖掘工具、通用算法,利用大数据平台的计算能力进行分析,对法人库数据进行数据挖掘与发现,提供有价值的分析结果。
系统概要设计说明书一、现状与需求分析1.1项目建设背景1.2系统建设现状市大XXX台的建设,深入参照了《公共信息台总体框架》,遵循《务信息资源目录体系》国家标准与《务信息资源交换体系》并结合了市市电子务发展的实际需要。
二、总体设计2.1质量与安全管理1.在大XXX台建设和运行过程中,定期对系统进行整体的风险评估。
发现安全隐患,及时调整安全策略,实行动态防护。
2.根据系统的重要程度和自身安全需求,依据国家标准《计算机信息系统安全保护等级划分准则》,实行等级防护、适度防护等措施。
3.要求所有被采用的安全产品都必须提供开放接口,以利于将来建设统一的安全管理中心,对安全事件进行有效及时的监控和响应。
4.将防护重点放在系统层和应用层的安全上。
重点保护局部计算环境和XXX文件的安全(如核心XXX库等),确保系统用户身份的真实性和可审核性。
为了应对以上提出的要求,将会实现XXX加密、XXX脱敏、访问控制、身份认证和日志审计五个大的方面的功能。
2.2开发原则1.标准性、开放性系统所采用的相关标准必须与国际、国家、、市级标准相符合,确保系统具有良好的开放性,能够实现与多种技术和软硬件台的有机集成。
2.安全性系统应具有完整、全面的安全体系和良好的安全性,能够提供信息传输保密性、XXX完整性、身份识别和数字认证、防抵赖性等安全保障措施,确保信息交换的安全运行。
系统设计不影响各部门相关信息系统的安全性。
3.可扩展性系统采用可扩展的技术体系架构,以适应信息化建设和应用系统快速发展的要求。
系统必须支持异构XXX库之间XXX交换和共享,支持主流关系型XXX库,支持不同操作系统之间信息交换应用的互联互通。
4.高可靠性系统应具有良好的可靠性,建立各种故障的快速恢复机制,确保实现7×24小时地正常运转,确保信息交换工作正常运行。
5.可管理性系统应具有良好的可管理性,允许管理人员通过管理工具实现系统全面的监控、管理和配置,并为系统故障的判断、排错和分析提供支撑,可对信息交换流程进行简易、灵活地定制和调整,同时对系统运行情况能够实时的统计分析、报表展示。
计算平台概要设计说明书作者:日期: 2013-01-28 批准:日期:审核:日期:(版权所有,翻版必究)文件修改记录目录1.引言 (5)1.1 编写目的 (5)1.2 术语与缩略词 (6)1.3 对象及范围 (8)1.4 参考资料 (9)2.系统总体设计 (9)2.1 需求规定 (9)2.1.1 数据导入..................................... 错误!未定义书签。
2.1.2 数据运算..................................... 错误!未定义书签。
2.1.3 运算结果导出................................. 错误!未定义书签。
2.1.4 系统监控..................................... 错误!未定义书签。
2.1.5 调度功能..................................... 错误!未定义书签。
2.1.6 自动化安装部署与维护......................... 错误!未定义书签。
2.2 运行环境 (9)2.3 基本设计思路和处理流程 (9)2.4 系统结构 (10)2.4.1 大数据运算系统架构图 (10)2.4.2 hadoop体系各组件之间关系图.................. 错误!未定义书签。
2.4.3 计算平台系统功能图 (11)2.4.4 系统功能图逻辑说明 (11)2.4.5 计算平台业务流程图........................... 错误!未定义书签。
2.5 尚未解决的问题 (12)3.模块/功能设计 (12)3.1 计算驱动模块 (15)3.1.1 设计思路 (15)3.1.2 流程图 (17)3.1.3 处理逻辑 (18)3.2 调度模块 (13)3.2.1 设计思路 (13)3.2.2 流程图 (14)3.2.3 处理逻辑 (14)3.3 自动化安装部署模块................................. 错误!未定义书签。
3.3.1 设计思路..................................... 错误!未定义书签。
3.3.2 处理逻辑..................................... 错误!未定义书签。
3.4 调度模块与计算驱动模块交互流程..................... 错误!未定义书签。
3.4.1 处理流程图................................... 错误!未定义书签。
3.4.2 处理逻辑..................................... 错误!未定义书签。
3.4.3 hadoop驱动模块调用驱动接口.................. 错误!未定义书签。
3.4.4 调度模块接收hadoop执行状态接口.............. 错误!未定义书签。
3.5 调度模块与kettle交互流程.......................... 错误!未定义书签。
3.5.1 处理流程图................................... 错误!未定义书签。
3.5.2 处理逻辑..................................... 错误!未定义书签。
3.6 对调度任务运行过程进行监控流程..................... 错误!未定义书签。
3.6.1 处理流程图................................... 错误!未定义书签。
3.6.2 处理逻辑..................................... 错误!未定义书签。
3.7 对hadoop驱动任务运行过程进行监控流程.............. 错误!未定义书签。
3.7.1 处理流程图................................... 错误!未定义书签。
3.7.2 处理逻辑..................................... 错误!未定义书签。
3.8 对操作系统/应用程序监控流程 (19)3.8.1 处理流程图 (19)3.8.2 处理逻辑 (19)3.9 监控报警模块 (20)3.9.1 设计思路 (20)3.9.2 流程图 (21)3.9.3 处理逻辑 (21)4.系统数据结构设计 (22)4.1 数据实体关系图 (22)4.2 数据逻辑结构 (22)4.2.1 驱动任务设置表............................... 错误!未定义书签。
4.2.2 驱动设置表................................... 错误!未定义书签。
4.2.3 驱动任务执行明细表........................... 错误!未定义书签。
4.2.4 调度任务表................................... 错误!未定义书签。
4.2.5 调度步骤表 (23)4.2.6 调度步骤执行记录表 (24)4.2.7 操作系统监控数据表........................... 错误!未定义书签。
4.2.8 应用程序监控数据表........................... 错误!未定义书签。
4.2.9 监控系统配置表............................... 错误!未定义书签。
4.2.10 业务数据记录表............................... 错误!未定义书签。
4.3 数据物理结构 (31)5.安全设计 (31)6.容错设计 (31)6.1 挽救措施 (31)6.2 系统维护设计 (31)7.日志设计 (31)1.引言1.1编写目的大数据泛指巨量的数据集,因可从中挖掘出有价值的信息而受到重视。
《华尔街日报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的三大技术变革。
麦肯锡公司的报告指出数据是一种生产资料,大数据是下一个创新、竞争、生产力提高的前沿。
世界经济论坛的报告认定大数据为新财富,价值堪比石油。
因此,发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。
互联网特别是移动互联网的发展,加快了信息化向社会经济各方面、大众日常生活的渗透。
有资料显示,1998年全球网民平均每月使用流量是1MB(兆字节),2000年是10MB,2003年是100MB,2008年是1GB(1GB等于1024MB),2014年将是10GB。
全网流量累计达到1EB(即10亿GB或1000PB)的时间在2001年是一年,在2004年是一个月,在2007年是一周,而2013年仅需一天,即一天产生的信息量可刻满1.88亿张DVD光盘。
我国网民数居世界之首,每天产生的数据量也位于世界前列。
淘宝网站每天有超过数千万笔交易,单日数据产生量超过50TB(1TB等于1000GB),存储量40PB(1PB等于1000TB)。
百度公司目前数据总量接近1000PB,存储网页数量接近1万亿页,每天大约要处理60亿次搜索请求,几十PB 数据。
一个8Mbps(兆比特每秒)的摄像头一小时能产生3.6GB数据,一个城市若安装几十万个交通和安防摄像头,每月产生的数据量将达几十PB。
医院也是数据产生集中的地方。
现在,一个病人的CT影像数据量达几十GB,而全国每年门诊人数以数十亿计,并且他们的信息需要长时间保存。
总之,大数据存在于各行各业,一个大数据时代正在到来。
信息爆炸不自今日起,但近年来人们更加感受到大数据的来势迅猛。
一方面,网民数量不断增加,另一方面,以物联网和家电为代表的联网设备数量增长更快。
2007年全球有5亿个设备联网,人均0.1个;2013年全球将有500亿个设备联网,人均70个。
随着宽带化的发展,人均网络接入带宽和流量也迅速提升。
全球新产生数据年增40%,即信息总量每两年就可以翻番,这一趋势还将持续。
目前,单一数据集容量超过几十TB甚至数PB已不罕见,其规模大到无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理。
数据规模越大,处理的难度也越大,但对其进行挖掘可能得到的价值更大,这就是大数据热的原因。
鉴于越来越大的数据规模,采用常规基于DBMS的数据分析工具和方法已经无法满足大规模数据分析的需求,目前一些大型互联网公司采用hadoop体系进行大规模数据的运算,结合hadoop体系结构与实际的运算需求结合,采用hadoop 体系结构的分布式运算模型,通过集群的方式实现大数据运算,为企业提供大数据的价值。
为适应大数据计算的要求,同时提供大数据运算平台的系统设计的依据,特制定计算平台的系统概要设计文档,为后期的系统详细设计和实现提供依据。
1.2术语与缩略词下列术语、定义和缩略语适用于本标准:1.3对象及范围1、开发人员、DBA、测试人员;2、研发主管领导、产品人员;1.4参考资料1、《大数据处理体系架构》2、《HBase The Definitive Guide》3、《The.Definitive.Guide.3rd.Edition.May.2012》4、《Programming_Hive》2.系统总体设计2.1需求规定2.2运行环境操作系统:RedHad Enterprise 5.5软件环境:Java 1.6Hadoop-1.0.4HBase-0.94.9Hive-0.10.0sqoop-1.4.2zookeeper-3.4.5Kettle 4.3MySQL 5.1硬件环境:8核16G内存PC服务器8台2.3基本设计思路和处理流程1、按照数据分析的实时性,分为在线数据分析和离线数据分析。
2、在线数据分析:往往要求系统在数秒内返回上亿行数据的分析,从而才能达到不影响用户体验的目的。
3、离线数据分析:对大多数反馈时间要求不高的应用,比如离线统计分析、机器学习等,应采用离线分析的方式,通过数据采集工具将日志数据导入专门的分析平台进行分析。
4、系统主要以离线数据分析为主,采用目前在互联网业界流行的hadoop体系结构对大批量的数据进行运算,采用hadoop集群的方式对大数据进行运算。
5、数据运算平台以调度为主线,作为运算平台的核心控制系统,对运算平台的各个环节进行控制,且对运算过程中的步骤依赖关系进行控制,同时对各个环节进行监控,通过监控异常报警来提高系统的稳定性和异常响应速度。
2.4系统结构2.4.1大数据运算系统架构图2.4.2大数据平台系统功能图系统功能图逻辑说明1)生产系统的源数据通过sqoop,flume,Kettle等获取后保存在Kafka消息队列中或者保存到hadoop的hdfs系统中。