当前位置:文档之家› 大数据时效性关键技术的研究

大数据时效性关键技术的研究

目录

目录

摘要 .......................................................................................................................... I ABSTRACT ................................................................................................................ II 第1章绪论 .. (1)

1.1课题来源及研究的背景和意义 (1)

1.1.1 课题来源 (1)

1.1.2 研究的背景和意义 (1)

1.2国内外研究现状 (2)

1.2.1 基于时间戳的时效性判定 (2)

1.2.2基于规则的时效性判定 (3)

1.2.3相对数据时效性判定 (4)

1.3本文的主要研究内容 (5)

1.4本文内容安排 (6)

第2章基于数据时效性的MAPREDUCE负载平衡算法 (7)

2.1引言 (7)

2.2相关背景介绍 (7)

2.2.1 MapReduce工作原理 (7)

2.2.2负载平衡问题近期研究工作 (8)

2.3问题描述 (9)

2.4分布式负载平衡算法 (10)

2.4.1 算法介绍 (10)

2.4.2 算法近似比证明 (13)

2.5实验结果及分析 (15)

2.5.1 真实数据实验结果及分析 (15)

2.5.2 合成数据实验结果及分析 (16)

2.6本章小结 (17)

第3章动态数据时效性判定问题的研究 (18)

3.1引言 (18)

3.2问题描述 (18)

3.2.1问题引例 (18)

3.2.2 问题定义 (21)

目录

3.3动态数据时效性判定模型 (22)

3.3.1 预处理 (22)

3.3.2 动态实时判定 (26)

3.4动态数据时效性判定问题的相关算法 (26)

3.4.1 时效规则处理的优化算法 (26)

3.4.2 时效信息的获取算法 (29)

3.4.3 EQB-Tree索引与ES-SLL静态链表的建立 (31)

3.4.4 数据更新相关算法 (32)

3.5实验结果及分析 (39)

3.5.1 实体数目对算法执行效率的影响 (39)

3.5.2 属性数目对算法执行效率的影响 (40)

3.5.3 元组数目对算法执行效率的影响 (41)

3.5.4 时效规则数目对算法执行效率的影响 (43)

3.6本章小结 (44)

第4章基于多源异构数据的时效性问题的研究 (46)

4.1引言 (46)

4.2问题描述 (46)

4.2.1问题引例 (46)

4.2.2问题定义 (48)

4.3问题模型 (49)

4.4基于多源异构数据的时效性问题模型相关算法 (50)

4.4.1时效性与同一性 (50)

4.4.2时效性与一致性 (51)

4.4.3时效性与完整性 (52)

4.5实验结果及分析 (53)

4.6本章小结 (56)

结论 (57)

参考文献 (58)

哈尔滨工业大学学位论文原创性声明和使用权限 (63)

致谢 (64)

第1章绪论

1.1 课题来源及研究的背景和意义

1.1.1 课题来源

本课题来源于国家973项目“海量信息可用性基础理论与关键技术研究”(编号:2012CB316200),国家自然科学基金项目“面向浙江省制造业的大数据分析理论与关键技术研究”(编号U1509216),“大数据错误检测与修复关键技术的研究”(编号:61472099)和国家科技支撑项目“基于大数据的综合健康服务关键技术研究与应用”(编号:2015BAH10F01)。

1.1.2 研究的背景和意义

现代社会是一个大数据时代,据统计分析,Google一分钟就有200万次搜索,Facebook一分钟内就能产出350GB的数据量,用户累计点击180万次“赞”按钮,甚至Facebook每一秒就有41000个帖子发布。Instagram每秒就有3600张照片上传,甚至全球一分钟内总计发出2.04亿封电子邮件。沃尔玛一分钟内就有17000笔交易。大数据对科研工作、企业决策以及人们的日常生活都有着重要的利用价值,例如医院通过对每秒钟有超过3000次的数据读取与研究分析,能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。然而大数据与生俱来的三大特点:规模性(volume)、高速性(velocity)和多样性(variety)[1]直接影响着大数据的可用性,据报道,美国商业每年因为数据质量问题亏损6000亿美元。

一般情况下,数据质量问题从以下5个方面来表述数据可用性[2]。(1)一致性:数据集合中的每条记录不存在语义错误或者矛盾冲突。例如,记录(区号=―021‖,城市=“北京”)中,北京的区号不是021,数据信息不一致。(2)精确性:数据集合中的记录准确的表述相应的实体。例如,中国领土总面积为9,634,057平方公里,而数据库中信息为960万平方公里,信息虽然没有语义错误,但是不够精确,数据库中一致的数据不一定精确。(3)时效性:数据集合中的每条记录保证描述的是相应实体最新的信息,而非陈旧过时的。例如,某用户在2015年搬家了,数据库中存储的该用户的原家庭住址就过时了。(4)完整性:数据集合中的记录能够完整并无缺省值的表述相应的实体。例如,某医疗信息集虽然能保证数据一致性与精确性,但是缺少病人的以往病史,数据

相关主题
文本预览
相关文档 最新文档