大数据架构图
- 格式:pptx
- 大小:9.58 MB
- 文档页数:49
数据架构规划一.当前架构结合研发二部数据量最大的校讯通产品来描述,其他的产品在性能上出现瓶颈,可以向校讯通靠拢。
数据库整体架构:目前校讯通产品根据用户量的多少以及数据库服务资源的繁忙程度,横向采用了历史库+当前库的分库架构或者单一的当前库架构,其中历史库只作为web平台读数据库,纵向结合了applications的memcache+Sybase ASE12.5传统永久磁盘化数据库架构。
数据模型架构:原则上采用了一事一地的数据模型(3NF范式),为了性能考虑,一些大数据量表适当的引用了数据冗余,根据业务再结合采用了当前表+历史表的数据模型。
以下就用图表来进行当前数据架构的说明:横向分库数据库架构图:纵向app layer+memcache layler+disk db layer图:其中web层指的是客户端浏览器层,逻辑上:app层指的是应用服务层,mc 层指的是memcache的客户端层,ms层指的是memcache的服务层,db层指的是目前永久磁盘化的数据库层,当然在物理机器上可能app层跟mc层,ms层是重叠的部署在相同服务器上。
数据模型架构图:其中以上数据模型中除了少数几张表外其他的都有历史表存在,当然有很多表是没在这个模型图中的,这部分是核心数据模型。
这部分模型对象中也包括了一些冗余性的设计,比如用户中有真实姓名,特别是不在这个模型内,由模型核心表产生的一些统计报表,为了查询的性能冗余了合理一些学校名称,地区名称等方面的设计。
二.劣势现象1.流水表性能瓶颈当前架构的性能瓶颈集中在流水表的访问上,最大流水表的记录量达到了超5亿级别,这是由于目前外网在用的sybase数据库系统版本,没有采取很好的关于分区的技术。
曾经有过把流水表进行物理水平分割,把不同月份的数据分割放在不同的物理表上的模型改造设想,碍于产生的应用程序修改工作量大,老旧数据迁移的麻烦,再加上进行了从单库架构改造到分库架构后,数据库性能瓶颈就不是特别突出。
工业大数据技术架构概述目录第一章工业大数据系统综述 (1)1.1建设意义及目标 (1)1.2重点建设问题 (2)第二章工业大数据技术架构概述 (3)2.1数据采集与交换 (5)2.2数据集成与处理 (6)2.3数据建模与分析 (8)2.4决策与控制应用 (9)2.5技术发展现状 (10)— 1 —第一章工业大数据系统综述1.1建设意义及目标工业大数据是工业生产过程中全生命周期的数据总和,包括产品研发过程中的设计资料;产品生产过程中的监控与管理数据;产品销售与服务过程的经营和维护数据等。
从业务领域来看,可以分为企业信息化数据、工业物联网数据和外部跨界数据。
现阶段工业企业大数据存在的问题包括数据来源分散、数据结构多样、数据质量参差不齐、数据价值未有效利用等情况。
工业大数据技术的应用,核心目标是全方位采集各个环节的数据,并将这些数据汇聚起来进行深度分析,利用数据分析结果反过来指导各个环节的控制与管理决策,并通过效果监测的反馈闭环,实现决策控制持续优化。
如果将工业互联网的网络比做神经系统,那工业大数据的汇聚与分析就是工业互联网的大脑,是工业互联网的智能中枢。
工业大数据系统的建设首要解决的是如何将多来源的海量异构数据进行统一采集和存储。
工业数据来源广泛,生产流程中的每个关键环节都会不断的产生大量数据,例如设计环节中非结构化的设计资料、生产过程中结构化的传感器及监控数据、管理流程中的客户和交易数据、以及外部行业的相关数据等,不仅数据结构不同,采集周期、存储周期及应用场景也不尽相同。
这就需要一个能够适应多种场景的采集系统对各环节的数据进行统一的收集和整理,并设计合理的存储方案来满足各种数据的留存要求。
同时需要依据合适的数据治理要求对汇入系统的数据进行标准和质量上的把控,根据数据的类型与特征进行有效管理。
之后就需要提供计算引擎服务来支撑各类场景的分析建模需求,包括基础的数据脱敏过滤、关联数据的轻度汇总、更深入的分析挖掘等。