数据整合方案

  • 格式:doc
  • 大小:492.00 KB
  • 文档页数:10

下载文档原格式

  / 10
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.信息资源标准化

数据标准化主要实现了数据格式、内容和语义的映射、转换,实现编码一致化、面向主题集成、数据聚合等功能。

通过数据交换、采集,形成的基础业务数据,通过数据整合进一步的数据ETL(数据抽取、转换、加载),按照定制的标准信息规范进行匹配映射(Match)、数据格式转换(Transform),并对重复数据进行数据清洗(Cleanse)、过滤(Filtrate)、聚合(Aggregate),最后多维加载(Load)后形成标准化数据。

采用数据同步工具和ETL工具完成数据抽取、同步等整合工作,并通过任务调度管理实现对整合工具的集中管理和执行。

数据采集时可以按信息资源平台的要求将数据标准化。在采集抽取数据时没有按信息资源平台转换为标准数据的数据,需要按信息资源平台的要求转换成标准的数据如字典的统一。

2.数据加工管理

2.1.数据抽取

数据抽取是利用抽取工具,建立抽取模型,将多个数据源数据汇总到一个数据库的过程。

2.2.数据清洗

由于数据来自多个业务系统,而且包含历史数据,需要按照一定的规划把数据进行清洗,整个数据清洗的对象应包括不完整的数据、错误的数据、重复的数据等三大类。

2.3.数据转换

数据转换主要实现数据标准化的过程,信息资源平台的数据,来自多个业务系统,有些数据源没有按照统一的标准规范设计,因此会造成数据难以与其他数据共享。数据转换应实现按照统一的数据标准和既定的格式转换规则,对数据的整理和格式统一。

2.4.数据装载

数据装载操作效率是数据资源平台需要考虑的重要环节。投标人应详细描述针对本项目的不同数据资源所应采用的数据装载策略。

2.5.数据标识

数据标识主要为了突出数据的关键性信息,便于实时的统计和更有效的比对,进而获取符合用户业务办理相关的结果。

3.数据整合处理系统

3.1.数据处理流程

数据中心的构建,基础和核心的工作是需要对来自各方的数据进行充分的整合和处理,对获取的各类源数据,需要进行大量的数据梳理、分析,并作相关的数据整理工作,通过数据梳理和转换工作,把不同来源的数据基于数据标准,转换成标准化数据后,再进行入库,从而保证进入数据中心的数据质量,不产生垃圾数据,从而为数据中心的全局应用奠定基础。

数据处理的流程如下图所示:

数据的处理流程主要如下:

1、获取源数据

通过数据共享交换对接和实施,获取各单位的原始数据,并暂存在数据缓冲库中,这部分的数据结构和原始数据的数据结构相同。

2、数据整合处理

v1.0 可编辑可修改对缓冲库中存储的数据,基于数据标准,对原始的数据进行整合处理,包括企业关键码标准化处理、企业基础数据整合处理、企业许可数据整合处理、企业监管数据整合处理、其他政府部门数据整合处理、电子统计报表数据导入处理、历史数据整合处理等。

通过整合处理,把非标准化的原始数据转换成标准化的数据。

3、数据中心数据入库

对整合处理后的数据按照数据的性质,分别进入到基础数据库和业务数据库中。

3.2.食品安全监管数据整合处理分析

3.2.1.企业关键码标准化处理

目前,有关企业的各类信息都分散在XX省XX监管平台、网上办事大厅XX 分厅以及相关部门的行政审批系统,不同的系统对企业的唯一编码各不相同,目前存在三种方式:

企业组织机构代码

企业工商登记注册号

统一社会信用代码

企业XX行业相关许可证号

由于不同的业务系统是由不同的开发商开发的,在企业编码的标识上各不统一的,为了实现基于企业为主线,首先需要以企业关键码为关联,对各方汇聚的有关企业的各类信息进行关联整合,形成企业综合资源,为后续的企业综合分析提供数据支撑。

因此,需要基于企业编码标准,对采集的原始企业业务数据的企业编码进行标准化处理。

企业关键码标准化处理涉及的工作包括:

1、基础数据获取

通过共享交换对接、文件导入等多种方式,获取有关企业的基础数据等。

2、企业关键码梳理分析

根据调研情况,针对XX市企业基础数据的实际情况和国家推行三码合一的政策,采用依次以信用代码、组织机构代码、工商登记注册号、许可证号对从各方获取的企业信息进行梳理分析,和企业关键码进行比对,制定企业关键码标准化的处理规则。

3、企业关键码数据标准化

对各方汇聚的企业关键码数据按照标准化处理规则进行转换、补充等处理。

3.2.2.企业基础信息整合处理

在不同的业务系统中,对企业基础信息描述有有差异、包括企业字段和相关的数据结构的设计等,因此,需要对各方汇聚的企业基础信息按照统一的企业基础数据标准,进行整合处理,构建企业基础数据库。

3.2.3.企业许可数据整合处理

目前,XX市相关企业许可数据主要分布在两个渠道:网上办事大厅XX分厅XX省XX监管平台等。

1、网上办事大厅XX分厅许可数据整合处理

通过网上办事大厅XX分厅进行受理和审批,则通过和网上办事大厅XX分厅进行对接,获取相关的企业许可数据。

对获取的企业许可数据按照统一的数据标准进行整合处理,经过规则转换后形成标准的企业许可数据导入到数据中心。

2、XX省XX监管平台企业许可数据导入

若属于XX省监督管理局办理的许可事项,则对接XX省监督管理局的数据中心,获取XX市XX相关企业的许可信息,按照企业的许可标准导入到市局数据中心。

3.2.

4.企业监管数据整合处理

以企业为主线,对分散在不同渠道的企业监管数据进行梳理,按照数据标准要求,对和企业相关的监管数据进行整合处理并入库。

需要进行整合处理的监管数据大类包括:

四品一械企业日常监管数据

四品一械企业行政执法数据

四品一械企业抽样检验数据

四品一械企业信用数据

食品追溯数据

广告监管系统的抓取视频、抓拍图片和抓取音频等广告监测数据

其他

3.2.5.电子统计报表数据导入处理

对XX市XX监督管理局上报省局的统计报表数据(以电子表格方式),对这部分数据也需要导入到数据中心,提供全局应用的数据支撑。

3.3.数据整合处理功能

3.3.1.数据抽取

在融合数据库中,必须从不同的操作型数据库系统以及其它形式外部数据源中有选择地抽取数据,而不应该将所有源数据全部塞入融合数据库。在具体的抽取过程中,还必须根据是增量装载工作还是初始完全装载等不同情况的变化规划抽取任务。

有效的数据抽取对于数据仓库的成功很关键,需要合理细致地制订数据抽取策略。数据抽取的要点主要有:

数据源确认:确认数据的源系统(或文件)和结构;

列出对事实表的每一个数据项和事实

对于每个目标数据项,找出源数据项

一个数据元素有多个来源,选择最好的来源

确认一个目标字段的多个源字段,建立合并规则