当前位置:文档之家› 大数据下MongoDB数据库数据文档存储去重研究

大数据下MongoDB数据库数据文档存储去重研究

龙源期刊网 https://www.doczj.com/doc/4a5292580.html,

大数据下MongoDB数据库数据文档存储去重研究

作者:李兴武

来源:《数字技术与应用》2017年第09期

摘要:随着现代科技的逐渐发展,我国对于档案存储的研究也得到了社会各界的广泛重视,因此需要利用对存储档案文档管理进行重复的去重操作。

关键词:大数据;MongoDB数据库;档案文档存储;去重研究

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2017)09-0099-01

1 传统的档案存储

在传统的档案存储的过程当中,主要是对文档来进行文件的形式进行存储,对于原本的数据需要根据实际情况来建立起档案文件和数据的链接,并把该链接的路径存储在关系数据库中。在此种方式下对文件进行存储的过程当中,会产生相当多的重复文件。[1]因此在其存储

的过程当中为了避免出现重复的现象,都需要进行人工的方式来检查。在这种方式下,存储空间很快会被耗尽,要靠不断的增加存储设备来解决大量档案数据存放的问题,同时在管理方面也是相当不利的,在扩展性方面是相对较差的。在此种情况下,就需要利用MongoDB数据库来存储这些非结构化的数据,并且在存放之前就完成对重复档案文档的去重操作。

2 MongoDB数据库存储和管理机制

2.1 多用户存储机制

在进行存储的过程当中,MongoDB数据库提供主从复制和副本集复制2种方式满足冗余备份与高可用性。一般来说都是需要主从复制的,可以在进行复制的过程的当中对数据做出有效的转移和优化。并且在对MongoDB数据库当中还可以实现自动切片功能,易于实现横向扩展。此项功能主要适用于在用户存储量相对较大的情况下,其中所产生的数据量和频繁的I/O 操作也是相对较多的,因此可以采用自动切片与副本集复制相结合的方式,来实现对不同的数据集合进行分层存储,这样一来在每一个分片当中都会具备不同的多个副本,从而对数据库服务器端实现故障转移以及自动扩展的现象,[2]其流程图如图1所示。在客户对其中的数据进行读取的时候,可以调用路由进程,并从配置服务器中读取数据与片的对应关系等信息,实现对数据信息的有效读取。

2.2 矢量空间数据存储

相关主题
文本预览
相关文档 最新文档