【CN109947757A】一种海量数据实时清洗处理的系统和方法【专利】
- 格式:pdf
- 大小:454.75 KB
- 文档页数:11
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201810143012.8(22)申请日 2018.02.11(71)申请人 中国联合网络通信集团有限公司地址 100033 北京市西城区金融大街21号(72)发明人 博格利 贾子翔 龙岳 蒋成 郭佳睿 (74)专利代理机构 北京天昊联合知识产权代理有限公司 11112代理人 彭瑞欣 罗瑞芝(51)Int.Cl.G06F 17/30(2006.01)G06F 9/451(2018.01)(54)发明名称一种数据清洗方法和数据清洗系统(57)摘要本发明提供一种数据清洗方法和数据清洗系统。
该数据清洗方法包括:步骤S10:通过图形化界面从异构数据源中选定待清洗的数据源;其中,异构数据源包括文本文件和数据库数据;步骤S11:通过图形化界面编辑数据清洗规则;步骤S12:通过图形化界面执行数据清洗。
该数据清洗方法通过图形化界面从异构数据源中选定待清洗的数据源,能够实现对不同数据源的融合清洗,同时,用户通过在图形化界面上简单操作即可实现对数据的清洗,无需掌握数据清洗工具的开发和使用方法,降低了大数据应用服务的技术门槛,提升了用户对大数据服务的体验。
权利要求书1页 说明书5页 附图2页CN 108363782 A 2018.08.03C N 108363782A1.一种数据清洗方法,其特征在于,包括:步骤S10:通过图形化界面从异构数据源中选定待清洗的数据源;其中,所述异构数据源包括文本文件和数据库数据;步骤S11:通过所述图形化界面编辑数据清洗规则;步骤S12:通过所述图形化界面执行数据清洗。
2.根据权利要求1所述的数据清洗方法,其特征在于,所述步骤S11包括:步骤S110:通过所述图形化界面从选定的所述待清洗的数据源中选择待清洗文件;步骤S111:通过所述图形化界面指定所述待清洗文件中的待清洗字段;步骤S112:通过所述图形化界面对所述待清洗字段配置清洗规则。
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202010145897.2(22)申请日 2020.03.05(71)申请人 苏州浪潮智能科技有限公司地址 215100 江苏省苏州市吴中区吴中经济开发区郭巷街道官浦路1号9幢(72)发明人 王雪静 (74)专利代理机构 济南舜源专利事务所有限公司 37205代理人 张营磊(51)Int.Cl.G06F 16/215(2019.01)(54)发明名称一种海量数据处理方法、系统、终端及存储介质(57)摘要本发明提供一种海量数据处理方法、系统、终端及存储介质,包括:设置数据质量检测的基础规则;根据业务需要修改所述基础规则并根据修改后的基础规则生成特定业务数据校验模板;利用基础规则和所述特定业务校验模板对海量数据进行校验;将校验出的问题数据以及问题数据的校验结果保持至问题数据库。
本发明能够定量、分批且快速准确的定位出问题数据,并将问题数据已数据报告的方式列出,对数据治理有指导性意义。
避免因系统资源不足导致数据处理效率低的问题。
权利要求书2页 说明书6页 附图2页CN 111475494 A 2020.07.31C N 111475494A1.一种海量数据处理方法,其特征在于,包括:设置数据质量检测的基础规则;根据业务需要修改所述基础规则并根据修改后的基础规则生成特定业务数据校验模板;利用基础规则和所述特定业务校验模板对海量数据进行校验;将校验出的问题数据以及问题数据的校验结果保持至问题数据库。
2.根据权利要求1所述的方法,其特征在于,所述设置数据质量检测的基础规则,包括:根据业务场景对数据的普遍需求设置数据检测的基础规则,所述基础规则限定数据格式和数据字典属性。
3.根据权利要求1所述的方法,其特征在于,所述根据业务需要修改所述基础规则并根据修改后的基础规则生成特定业务数据校验模板,包括:根据数据的业务含义将数据来源与业务项进行绑定;根据数据的业务项需求调整对绑定数据的基础规则的属性限定值;根据数据的业务项需求在基础规则的基础上增加业务项必须的校验规则;生成特定业务校验模板,并将基础规则和校验规则写入特定业务校验模板。
一种面向大数据的数据清洗系统及方法概述:本文介绍了一种面向大数据的数据清洗系统及方法,该系统能够高效地处理大规模的数据,去除其中的噪声和冗余信息,提高数据质量和准确性。
本文将详细介绍该系统的架构、工作流程和关键技术。
一、系统架构该数据清洗系统采用分布式架构,由多个模块组成,包括数据导入模块、数据预处理模块、数据清洗模块、数据整合模块和数据导出模块。
1. 数据导入模块该模块负责将原始数据导入系统,支持多种数据源,如数据库、文件系统、实时数据流等。
在导入过程中,系统会对数据进行初步的格式检查和去重操作,以确保数据的完整性和一致性。
2. 数据预处理模块该模块对导入的数据进行预处理,包括数据格式转换、字段解析、缺失值处理等。
通过预处理,可以将数据转换为统一的格式,便于后续的清洗和整合操作。
3. 数据清洗模块该模块是整个系统的核心部分,采用多种数据清洗算法和技术,对数据进行去噪、去重、纠错、规范化等操作。
清洗过程中,系统会根据预设的规则和模型,对数据进行分析和筛选,去除不符合要求的数据,提高数据的质量和准确性。
4. 数据整合模块该模块将清洗后的数据进行整合和合并,消除重复数据和冗余信息,生成一份完整、准确的数据集。
在整合过程中,系统会利用数据匹配和聚类等算法,将相似的数据进行合并,提高数据的利用价值。
5. 数据导出模块该模块将整合后的数据导出到指定的目标,如数据库、文件系统、数据仓库等。
导出过程中,系统会根据用户的需求,选择合适的数据格式和存储方式,以便后续的数据分析和应用。
二、系统工作流程该数据清洗系统的工作流程如下:1. 数据导入:将原始数据导入系统,并进行初步的格式检查和去重操作。
2. 数据预处理:对导入的数据进行格式转换、字段解析、缺失值处理等操作,生成统一的数据格式。
3. 数据清洗:采用多种清洗算法和技术,对数据进行去噪、去重、纠错、规范化等操作,提高数据质量。
4. 数据整合:将清洗后的数据进行整合和合并,消除重复数据和冗余信息,生成一份完整、准确的数据集。
专利名称:一种数据清洗方法及系统专利类型:发明专利
发明人:龙震岳,魏理豪,艾解清
申请号:CN201510293101.7
申请日:20150601
公开号:CN104850361A
公开日:
20150819
专利内容由知识产权出版社提供
摘要:本发明提供了一种数据清洗方法及系统,其中,所述方法包括:首先,程序运行后构建待清洗数据源;再根据工具脚本提取待清洗数据源中有用的数据生成相应的命令,运行后再通过实时返回或者回调方式得到运行后的数据源。
其容易拓展,适应能力强,不会因为工具的更新换代而导致整个系统重新编译,是目前非常可行的解决方案,具有很好的市场推广应用前景。
申请人:广东电网有限责任公司信息中心
地址:510000 广东省广州市越秀区东风东路水均岗6-8号粤电大厦
国籍:CN
代理机构:广州番禺容大专利代理事务所(普通合伙)
代理人:刘新年
更多信息请下载全文后查看。
(10)申请公布号(43)申请公布日 (21)申请号 201410503126.0(22)申请日 2014.09.26G06F 17/30(2006.01)(71)申请人中国移动通信集团湖北有限公司地址430040 湖北省武汉市东西湖区金银湖路2号(72)发明人廖振松 熊胜 吴勤华 杨晶蕾冯文仲 沈力 黄艳 田纪军莫益军 曾志华(74)专利代理机构北京派特恩知识产权代理有限公司 11270代理人张颖玲 蒋雅洁(54)发明名称一种数据清洗方法及装置(57)摘要本发明公开了一种数据清洗方法,获取待清洗数据,并依据对所述待清洗数据中噪声数据分布的分析,获得所述待清洗数据中待清洗字段;查找所述待清洗数据中可扩维字段,并对所述可扩维字段进行高阶张量扩维,获得M 个张量字段集;利用所述张量字段集中与所述待清洗字段相关的张量字段对所述待清洗字段进行数据清洗。
本发明还同时公开了一种数据清洗装置。
(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书8页 附图2页CN 105468658 A 2016.04.06C N 105468658A1.一种数据清洗方法,其特征在于,所述方法包括:获取待清洗数据,并依据对所述待清洗数据中噪声数据分布的分析,获得所述待清洗数据中待清洗字段;查找所述待清洗数据中可扩维字段,并对所述可扩维字段进行高阶张量扩维,获得M 个张量字段集;其中,M为正整数;利用所述张量字段集中与所述待清洗字段相关的张量字段对所述待清洗字段进行数据清洗。
2.根据权利要求1所述方法,其特征在于,所述获取待清洗数据之后,所述方法还包括:将所述待清洗数据录入建立的数据库中,并对所述数据库进行优化,得到原始数据库。
3.根据权利要求1或2所述方法,其特征在于,所述依据对所述待清洗数据中噪声数据分布的分析,获得所述待清洗数据中待清洗字段包括:获取指定时间段内所述待清洗数据的任一字段中噪声数据值出现的概率P,P=m/n;其中,m为所述指定时间段内噪声数据值出现的次数,n为所述指定时间段内数据记录的总数;时,标记所述噪声数据所属字段为待清洗字段。
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910862332.3(22)申请日 2019.09.12(71)申请人 上海富数科技有限公司地址 201802 上海市嘉定区科福路358_368号4幢1层E区J680室(72)发明人 盛伟松 曾维 (74)专利代理机构 上海智信专利代理有限公司31002代理人 王洁 郑暄(51)Int.Cl.G06F 16/215(2019.01)(54)发明名称实现实时数据清洗处理的系统及其方法(57)摘要本发明涉及一种实现实时数据清洗处理的系统,包括历史数据处理模块,用于根据数据模型将数据分类为波动特征和平稳特征,应用对应规则库进行处理;实时数据清洗模块,与所述的历史数据处理模块相连接,用于通过流处理引擎加载清洗规则对数据进行实时处理。
本发明还涉及一种实现实时数据清洗处理的方法。
采用了本发明的实现实时数据清洗处理的系统及其方法,将历史数据切分为不同的时间窗口,进行特征提取,然后按照特征分为平稳数据和波动数据,对于数据拟合出波动曲线作为数据规则,避免了因为冗余数据、重复数据、数据缺失等数据问题影响业务的发展的问题,避免了因为离线数据而滞后处理数据,能够在线实时处理处理,提高了处理性能。
权利要求书2页 说明书6页 附图2页CN 110569237 A 2019.12.13C N 110569237A1.一种实现实时数据清洗处理的系统,其特征在于,所述的系统包括:历史数据处理模块,用于根据数据模型将数据分类为波动特征和平稳特征,应用对应规则库进行处理;实时数据清洗模块,与所述的历史数据处理模块相连接,用于通过流处理引擎加载清洗规则对数据进行实时处理。
2.根据权利要求1所述的实现实时数据清洗处理的系统,其特征在于,所述的历史数据处理模块包括:数据模型,用于对历史数据进行分类;过滤规则库,与所述的数据模型相连接,用于判断数据为脏数据或正确数据,并做后续处理;纠正规则库,与所述的数据模型相连接,用于对平稳特征的进行补充或修正。
专利名称:海量数据处理方法和系统
专利类型:发明专利
发明人:闻剑峰,贺仁龙,石屹嵘,龚德志,段勇申请号:CN201210215717.9
申请日:20120627
公开号:CN103514205A
公开日:
20140115
专利内容由知识产权出版社提供
摘要:本发明公开了一种海量数据处理方法和系统,涉及数据处理领域,包括并行采集多个数据文件;将每个所述数据文件划分成多个独立的数据块,分别存储所述数据块;对每个所述数据块进行清洗;将清洗后的每个所述数据块保存到数据仓库。
本发明通过并行采集和分散存储的数据处理方式,有效解决了数据输入的瓶颈限制,提高数据输入的效率,并且数据块分散存储为后续的并行处理提供了前提条件。
申请人:中国电信股份有限公司
地址:100033 北京市西城区金融大街31号
国籍:CN
代理机构:中国国际贸易促进委员会专利商标事务所
代理人:孙宝海
更多信息请下载全文后查看。
专利名称:一种数据清洗方法、系统、数据清洗设备和可读存储介质
专利类型:发明专利
发明人:高响
申请号:CN202010856580.X
申请日:20200824
公开号:CN112084178A
公开日:
20201215
专利内容由知识产权出版社提供
摘要:本发明公开了一种数据清洗方法、系统、数据清洗设备及可读存储介质,其中数据清洗方法包括:将数据清洗装置嵌入到工业设备上,数据清洗装置中集成有清洗不同类型的设备数据的清洗策略;获取工业设备产生的待清洗的设备数据,并将设备数据传递给数据清洗装置进行数据清洗;数据清洗装置根据预设的清洗策略对不同类型的设备数据进行数据清洗;将清洗后的设备数据导出并存储。
本发明将针对不同类型的设备数据的数据清洗策略集成在数据清洗装置中,数据清洗装置以代码块或者配置文件的形式保存,用户只需要将数据清洗装置配置到工业设备中,即可实现设备端对设备数据的自动清洗,简化了数据清洗的难度,提高了数据清洗的效率。
申请人:上海微亿智造科技有限公司,常州微亿智造科技有限公司
地址:201100 上海市闵行区元江路5500号第1幢
国籍:CN
代理机构:上海塔科专利代理事务所(普通合伙)
代理人:耿恩华
更多信息请下载全文后查看。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910231734.3
(22)申请日 2019.03.26
(71)申请人 上海德拓信息技术股份有限公司
地址 200233 上海市徐汇区虹漕路448号1
幢9楼
(72)发明人 苟雨轩 谢赟 周龙
(74)专利代理机构 上海湾谷知识产权代理事务
所(普通合伙) 31289
代理人 张恒
(51)Int.Cl.
G06F 16/215(2019.01)
G06F 16/22(2019.01)
G06F 16/2458(2019.01)
(54)发明名称
一种海量数据实时清洗处理的系统和方法
(57)摘要
本发明公开了一种海量数据实时清洗处理
的系统,包括:数据存储模块,将各方来源数据整
合为原数据包并存储;数据分包分发模块,定时
将所述数据存储模块中存储的原数据包进行分
类分包,重新存储,然后删除原数据包;数据清洗
模块,定时依次对分类分包后的各数据包进行解
析,然后将解析获得的数据逐条校验和去重;分
布式存储模块,用于存储经过所述数据清洗模块
清洗后的合格数据。
同时,本发明还公开了一种
海量数据实时清洗处理的方法。
本发明能够实时
地把海量数据清洗存储。
权利要求书1页 说明书4页 附图5页CN 109947757 A 2019.06.28
C N 109947757
A
权 利 要 求 书1/1页CN 109947757 A
1.一种海量数据实时清洗处理的系统,其特征在于,包括:
数据存储模块,将各方来源数据整合为原数据包并存储;
数据分包分发模块,定时将所述数据存储模块中存储的原数据包进行分类分包,重新存储,然后删除原数据包;
数据清洗模块,定时依次对分类分包后的各数据包进行解析,然后将解析获得的数据逐条校验和去重;以及
分布式存储模块,用于存储经过所述数据清洗模块清洗后的合格数据。
2.根据权利要求1所述的海量数据实时清洗处理的系统,其特征在于,还包括:连接所述分布式存储模块,用于人机交互以实时统计数据和实时搜索数据的互联网交互模块。
3.根据权利要求1所述的海量数据实时清洗处理的系统,其特征在于,所述数据存储模块包括:
用于存储原数据包的第一文件夹模块;和
包含多个子文件夹,用于存储分类分包后的各数据包的第二文件夹模块。
4.一种海量数据实时清洗处理的方法,其特征在于,包括:
将各方来源数据整合为原数据包并存储;
定时将原数据包进行分类分包,重新存储,然后删除原数据包;
定时依次对分类分包后的各数据包进行解析,然后将解析获得的数据逐条校验和去重;以及
对合格的数据进行分布式存储。
5.根据权利要求4所述的海量数据实时清洗处理的方法,其特征在于,原数据包存储在一个文件夹中,分类分包后的各数据包分别存在另一个文件夹的各子文件夹中。
6.根据权利要求4所述的海量数据实时清洗处理的方法,其特征在于,对数据包解析,包括:若没有数据包或者数据包中没有数据,则删除该数据包,否则,解压数据包;
将解析获得的数据逐条校验和去重,包括:
检查必填字段是否存在,若不存在,则进入下一条数据验证,否则,进行以下步骤;
检查各必填字段是否符合预设规则,若不符合,则进入下一条数据验证,否则,进行以下步骤;
将几个必填字段组成一个字符串进行加密,并插入PostgreSQL的表中,若正常插入,则存储该条数据,否则,删除此条数据,进行下一条数据验证。
7.根据权利要求4所述的海量数据实时清洗处理的方法,其特征在于,所述方法还包括:输入关键字,根据关键字从分布式存储的数据中实时统计和实时搜索。
2。