基于影响度的隐私保护关联规则挖掘算法
- 格式:pdf
- 大小:299.43 KB
- 文档页数:3
信息安全工程师考点—隐私保护,希望对在备考信息安全工程师的考生有所帮助。
考点5、隐私保护【考法分析】本考点主要是隐私保护相关内容的考查。
【要点分析】1.从隐私所有者的角度,隐私可以分为以下三类:①个人隐私;②通信内容隐私;③行为隐私。
2.隐私泄露方式:①互联网服务;②智能终端;③黑客攻击;④管理者监听。
3.从数据挖掘的角度,目前的隐私保护技术主要可以分为三类:①基于数据失真的隐私保护技术;②基于数据加密的隐私保护技术;③基于数据匿名化的隐私保护技术。
4.数据失真技术通过扰动原始数据来实现隐私保护。
基于数据失真的技术通过添加噪音等方法,使敏感数据失真但同时保持某些数据或数据属性不变,仍然可以保持某些统计方面的性质。
①随机化:数据随机化即是对原始数据加入随机噪声,然后发布扰动后数据的方法。
②阻塞与凝聚:随机化技术一个无法避免的缺点是:针对不同的应用都需要设计特定的算法对转换后的数据进行处理,因为所有的应用都需要重建数据的分布。
鉴于随机化技术存在的这个缺陷,研究人员提出了凝聚技术:它将原始数据记录分成组,每一组内存储着由k 条记录产生的统计信息,包捂每个属性的均值、协方差等。
这样,只要是采用凝聚技术处理的数据,都可以用通用的重构算法进行处理。
③差分隐私保护:差分隐私保护可以保证,在数据集中添加或删除一条数据不会影响到查询输出结果,因此即使在最坏情况下,攻击者己知除一条记录之外的所有敏感数据,仍可以保证这一条记录的敏感信息不会被泄露。
5.基于数据加密的隐私保护技术所针对的数据对象往往是分布式的。
在分布式环境下,根据应用的不同,数据会有不同的存储模式,站点也会有不雨的可信度及相应行为。
6.分布式应用普遍采用两种模式存储数据:垂直划分的数据模式和水平划分的数据模式。
垂直划分数据是指分布式环境中每个站点只存储部分属性的数据,所有站点存锚的数据不重复;水平划分数据是将数据记录存储到分布式环境中的多个站点,所有站点存储的数据不重复。
数据挖掘方法及其应用研究数据挖掘是一种从大量数据中自动发掘出有用信息的技术,对于信息化时代的企业而言,数据挖掘技术的应用已经成为了提高业务水平和核心竞争力的必备手段。
本文将从数据挖掘的方法、应用以及研究方面进行探讨。
一、数据挖掘的方法数据挖掘的方法主要是基于数据分析和机器学习的,其中数据分析主要包括关联规则和分类预测等。
首先,关联规则挖掘是指在数据集中发掘出事物之间的关联性,比如“如果顾客购买了巧克力,那么他们很有可能也会购买口香糖”,而分类预测则是对数据进行分类,比如“根据用户的浏览记录,预测他们最可能会购买哪些商品”。
而机器学习是数据挖掘的核心技术,它是一种通过数据自我修正以提高性能的方法。
常见的机器学习方法包括决策树、神经网络以及聚类等。
决策树是一种用于分类和预测的树形结构,它将数据以节点的形式进行分类,直到数据达到叶节点,从而做出相应的决策;神经网络则是通过构建一种类比于人类大脑的模型来识别模式,进行分类或预测;而聚类则是在数据集中查找相似之处并将数据分组的方法。
二、数据挖掘的应用数据挖掘技术在各行各业的应用越来越广泛,比如在金融行业中常用于信用评估、欺诈检测以及风险管理等方面。
在零售业中,数据挖掘技术可以用于用户行为分析及商品推荐,以此提高销售额和用户忠诚度。
而在医疗领域,数据挖掘技术则可以用来提高早期预警、疾病诊断和药物研发等方面的能力。
此外,数据挖掘技术在交通、安全、舆情监测及人工智能等领域也发挥着越来越重要的作用。
三、数据挖掘的研究在数据挖掘的研究方面,目前有诸多的挑战。
首先,各类数据源的结构化程度参差不齐,挖掘数据的质量和有效性面临着较大的挑战。
其次,代表性和可扩展性是数据挖掘领域中的两大难点,它们影响着数据挖掘结果的可靠性和准确性。
另外,数据挖掘算法的集成和融合也是研究方向之一,通过多种算法的组合和协同来解决特定问题,进一步提高数据挖掘的效率和准确性。
最后,隐私保护和信息安全问题也是需要重点关注的研究方向,保障数据隐私的同时,也使得挖掘结果更加可靠。
基于LBS(位置服务)的隐私保护算法研究黄小英【摘要】随着数据挖掘和数据发布等数据库应用的出现与发展,如何保护隐私数据和防止敏感信息泄露成为当前面临的重大挑战.隐私保护技术需要在保护数据隐私的同时不影响数据应用.根据采用技术的不同,出现了数据失真、数据加密、限制发布等隐私保护技术.【期刊名称】《制造业自动化》【年(卷),期】2011(033)009【总页数】3页(P96-98)【关键词】隐私保护;随机化;安全计算【作者】黄小英【作者单位】广西工商职业技术学院,南宁,530003【正文语种】中文【中图分类】TP312数据挖掘和数据发布是当前数据库应用的两个重要方面。
一方面,数据挖掘与知识发现在各个领域都扮演着非常重要的角色。
数据挖掘的目的在于从大量的数据中抽取出潜在的、有价值的知识(模型或规则)。
传统的数据挖掘技术在发现知识的同时,也给数据的隐私带来了威胁。
另一方面,数据发布是将数据库中的数据直接地展现给用户。
而在各种数据发布应用中,如果数据发布者不采取适当的数据保护措施,将可能造成敏感数据的泄漏,从而给数据所有者带来危害。
所以,如何在各种数据库应用中保护数据的隐私,成为近年来学术界的研究热点。
没有任何一种隐私保护技术适用于所有应用。
隐私保护技术分为三类:1)基于数据失真(Distorting)的技术:使敏感数据失真但同时保持某些数据或数据属性不变的方法。
例如,采用添加噪声(Adding Noise)、交换(Swapping)等技术对原始数据进行扰动处理,但要求保证处理后的数据仍然可以保持某些统计方面的性质,以便进行数据挖掘等操作。
2)基于数据加密的技术:采用加密技术在数据挖掘过程中隐藏敏感数据的方法。
多用于分布式应用环境中,如安全多方计算(Secure Multiparty Computation,以下简称SMC)。
3)基于限制发布的技术:根据具体情况有条件地发布数据。
如:不发布数据的某些域值,数据泛化(Generalization)等。
金融数据分析与挖掘的方法与注意事项摘要:金融数据分析和挖掘是在金融领域中利用数学、统计学和计算机科学等方法来分析和挖掘数据的过程。
本文将介绍金融数据分析与挖掘的方法和注意事项,并提供一些实用的技巧和建议。
引言:随着互联网和大数据时代的来临,金融行业积累了大量的数据。
这些数据蕴含着丰富的信息和洞见,对于金融机构和投资者来说,利用这些数据进行分析和挖掘已成为一项重要的任务。
然而,金融数据的复杂性和高风险性要求我们采取科学合理、谨慎小心的方法和注意事项来进行分析和挖掘。
一、金融数据分析的方法1. 可视化分析:在金融数据分析中,可视化分析是一种重要的方法。
通过使用图表、图形和其他可视化工具,可以更直观地展示数据的趋势、关系和模式。
这有助于发现隐藏在数据背后的模式和规律。
2. 统计分析:统计分析是金融数据分析的基础。
通过应用统计学的知识和方法,可以对金融数据进行描述、推断和预测。
例如,使用回归分析可以发现变量之间的关系和影响因素。
3. 机器学习:机器学习是一种自动化的数据分析方法。
通过训练机器学习模型,可以从金融数据中学习规律和模式,并用于预测和决策。
常用的机器学习算法包括决策树、支持向量机和神经网络等。
4. 自然语言处理:自然语言处理是一种将人类语言转化为可分析的形式的技术。
在金融数据分析中,可以利用自然语言处理技术从新闻、社交媒体等文本数据中提取有用的信息和情感。
二、金融数据挖掘的方法1. 关联规则挖掘:关联规则挖掘是一种通过发现数据之间的关联关系来提取有用信息的方法。
它可以帮助发现金融数据中存在的隐藏模式和规律。
例如,通过挖掘信用卡数据,可以发现购买某种商品的顾客还有可能购买其他商品。
2. 时间序列分析:时间序列分析是一种用于处理有时间依赖的数据的方法。
在金融数据挖掘中,时间序列分析可以用于预测股票价格、货币汇率等。
常用的时间序列分析方法包括平滑法、季节性调整和ARIMA模型等。
3. 聚类分析:聚类分析是一种将数据分成不同组别的方法。
RDP 高斯机制1. 介绍在数据隐私保护领域,差分隐私是一种常用的技术,其目标是在保护个体敏感信息的同时,允许对数据进行分析和挖掘。
差分隐私通过向原始数据中添加噪声来改变分析结果,从而隐藏个体隐私信息。
本文介绍了一种基于差分隐私的数据发布机制——RDP(Randomized Differential Privacy)高斯机制,以及其工作原理和应用场景。
2. RDP 高斯机制的工作原理RDP 高斯机制是一种基于添加高斯噪声的差分隐私保护算法。
其工作原理如下:1.原始数据:假设有一份包含个体敏感信息的原始数据集。
2.整体敏感度:首先计算数据集的整体敏感度,即在数据集中最大可能修改一个元素对于结果影响的大小。
整体敏感度决定了添加到数据中的噪声的大小。
3.高斯噪声:在每个敏感查询上,为了保护个体隐私,会向该查询结果添加服从高斯分布的噪声。
噪声的方差由整体敏感度和隐私预算决定,隐私预算越大,添加的噪声越小。
4.隐私保护:通过添加高斯噪声,RDP 高斯机制能够在一定程度上隐藏个体敏感信息,从而保护数据隐私。
3. RDP 高斯机制的优势和局限性RDP 高斯机制具有以下优势:•灵活性:RDP 高斯机制支持多种不同类型的查询,包括求和、平均值、最大值等,适用于各种不同的分析场景。
•高度可控的隐私保护:通过调整隐私预算,可以控制添加到数据中的噪声大小,从而平衡数据可用性和隐私保护的需求。
•数学严谨性:RDP 高斯机制基于严谨的数学理论,具有良好的数学性质和可证明的隐私保护效果。
然而,RDP 高斯机制也存在一些局限性:•失真:添加的高斯噪声会引入一定的失真,可能影响到数据分析和挖掘的准确性。
•隐私预算分配:在实际应用中,如何合理分配隐私预算是一个挑战。
较大的隐私预算可以提供更好的隐私保护,但同时也会导致数据可用性的降低。
4. RDP 高斯机制的应用场景RDP 高斯机制在许多实际应用中具有广泛的应用场景,例如:4.1 数据分析RDP 高斯机制可以用于对敏感数据进行统计分析,如计算数据的平均值、求和、方差等。
基于影响度的隐私保护关联规则挖掘算法 徐龙琴1,刘双印1,2 (1. 广东海洋大学信息学院,广东 湛江 524025;2. 中国农业大学信息与电气工程学院,北京 100083) 摘 要:将T检验思想引入隐私保护数据挖掘算法,提出基于影响度的隐私保护关联规则挖掘算法。将影响度作为关联规则生成准则,以减少冗余规则和不相关规则,提高挖掘效率;通过调整事务间敏感关联规则的项目,实现敏感规则隐藏。实验结果表明,该算法能使规则损失率和增加率降低到6%以下。 关键词关键词::隐私保护;关联规则;影响度;数据挖掘;敏感规则
Privacy Preserving Association Rule Mining Algorithm Based on Influence Measure
XU Long-qin1, LIU Shuang-yin1,2 (1. College of Information, Guangdong Ocean University, Zhanjiang 524025, China; 2. College of Information and Electrical Engineering, China Agricultural University, Beijing 100083, China)
【Abstract】This paper introduces the idea of T-testing into privacy preserving data mining algorithms, proposes privacy preserving association rule mining algorithm based on influence measure. Considering influence measure as association rules generated as a criterion is to reduce the redundant rules and irrelevant rules so as to improve the efficiency of mining. Sensitive rules can be hided by adjusting the transaction association rules between the sensitive rule hiding sensitive items to achieve. Experimental results shows that, the algorithm makes the rules for side effects such as loss rate and the rate of decrease to as low as 6%. 【Key words】privacy preserving; association rule; influence measure; data mining; sensitive rule
DOI: 10.3969/j.issn.1000-3428.2011.11.020
计 算 机 工 程 Computer Engineering 第37卷 第11期
Vol.37 No.11 2011年6月
June 2011
·软件技术与数据库软件技术与数据库·· 文章编号文章编号::1000—3428(2011)11—0059—03 文献标识码文献标识码::A 中图分类号中图分类号::TP182
1 概述 随着网络技术、计算机存储技术的快速发展,浩瀚的数据收集存储变得更加便捷,出现了数据爆炸而知识匮乏的被动局面。关联规则数据挖掘可以从海量数据中抽取、分析并挖掘出隐藏的、用户感兴趣的规则、规律和模式,能有效解决上述困境,并在辅助决策预测、异常模式检测、欺诈行为发现、科学探索及医学研究等诸领域发挥积极作用,但同时也给隐私数据和信息安全带来严重的威胁。 例如,通过挖掘医院患者病历数据可发现不同疾病间潜藏的关联,制定更有针对性的治疗方案,但也造成患者隐私不同程度的泄露,使患者经常遭受婴儿用品厂商、婚姻中介商、医药保健公司等外界的“骚扰”。此外超市消费记录、网站购物偏好、个人或公司的信贷记录等信息中的关联关系也容易使个人或公司的隐私遭到侵害。 为此,隐私保护关联规则数据挖掘成为当前研究的热点,有关专家学者相继提出了许多解决的方法和对策[1-6],但这些方法都以Apriori算法和支持度-置信度框架生成关联规则,没考虑规则项目间相关度,产生了许多冗余、不相关的规则,不仅影响挖掘效率,还严重影响非敏感规则的支持度。 针对上述不足,本文提出一种新的隐私保护关联规则挖掘算法,可减少冗余规则的产生,提高挖掘效率和敏感规则隐私保护的综合性能。
2 研究研究背景背景 针对关联规则数据挖掘引起隐私泄漏问题,文献[1]提出了敏感规则、数据清理等概念,在尽可能不影响其他规则重
要性前提下,降低给定规则重要性,实现关联规则挖掘隐私保护。文献[2]使用“未知”值替换敏感数据,方法实现简单,但仅适用于少量项目值的挖掘。文献[3]使用删除项目方法,将含有许多后件的某项或多项删除,虽易实现,但当有许多规则存在时,作为后件的项目也常在其他规则中作为前件,如将该项目删除,易造成其他有效规则被误删除。文献[4]提出了SWA算法,通过删除包含敏感规则集部分项集方法,降低敏感规则支持度以隐藏敏感规则,该算法效率较高,适宜处理大规模的数据库。文献[5]将数据干扰和查询限制相结合,提出数据随机处理的隐私保护策略,有效实现了隐私保护的关联规则挖掘。文献[6]通过增减事务方法,降低敏感规则的支持度,实现敏感规则隐藏,但删除强相关事务,存在原数据库基本特征被修改,非敏感项目丢失等问题。文献[7]采用添加和删除项目相结合的方法,实现敏感知识隐藏,并通过选择最佳移动项候选事务减少非敏感事务的丢失率。 以上算法都是以传统的数据挖掘Apriori算法和支持度-置信度框架为基础,生成关联规则,所挖掘到的强关联规则中并不都是用户感兴趣的敏感规则,造成规则中存在大量冗
基金项目基金项目::国家星火计划基金资助项目(2007EA780068);广东省 自然科学基金资助项目(7010116);广东省科技计划基金资助项目(2010B020315025);湛江市科技计划基金资助项目(2010C3113011) 作者简介作者简介::徐龙琴(1977-),女,讲师、硕士、CCF会员,主研方向:数据库安全,智能信息系统,人工智能;刘双印,副教授、 博士研究生、CCF会员 收稿日期收稿日期::2011-01-29 E-mail:xlqlw@126.com 60 计 算 机 工 程 2011年6月5日 余不相关的规则,影响用户对规则的选择和挖掘效率,表1所示的实例说明了利用该框架生成规则时存在的不足。因篇幅所限,本文只列举部分数据和讨论若干长度为2的项目集,并假定支持度minSupp=0.25,置信度minConf=0.45。 表1 网上交易网上交易事务数据库事务数据库 事务号 项目集(Items) t1 A, B, C, D, J, Q t2 B, H, K, M, D, U … … t10 A, B, H, J, K, U 由表1计算可知:A⇒J和C⇒B的支持度和置信度都分别为0.4和1,大于设定的阈值,按以往惯例则认为都是有效的关联规则。但发现不管C是否出现,B总出现,显然C⇒B不是有效的关联规则。另外,U⇒M的支持度和置信度分别为0.3和0.6,大于设定的阈值,通常认为也应该为有效的规则,但计算得到P(U∪M)=P(U)P(M),从数理统计角度讲它们是不相关的。此外对表1采用数据变换法、数据阻塞法降低支持度,实现规则隐藏,但对非敏感规则支持度影响很大,存在规则丢失和虚假规则增生等缺陷。 为减少对非敏感规则的影响,提高挖掘效率,本文提出了一种基于影响度的隐私保护关联规则挖掘方法,把影响度作为关联规则生成的衡量准则,可大大减少不相关规则和冗余规则,加快挖掘速度;同时引入最佳候选移动项,在保证非敏感项影响最小前提下更新事务集,降低敏感规则的支持度和置信度,实现敏感规则隐藏。 3 基于影响度的隐私保护关联规则挖掘算法 鉴于传统挖掘算法存在挖掘效率低等不足,本文将数理统计中检验样本差异显著性的重要统计工具T检验的思想引入到隐私保护关联规则挖掘中,采用T检验来分析规则X⇒Y的Confidence(X⇒Y)与期望置信度P(Y)之间的差异,作为关联规则生成衡量准则。即根据关联规则影响度大小,在生成关联规则的过程中将差异不显著的规则直接过滤掉,可有效减少冗余的和不相关的规则的产生,提高关联规则的挖掘 效率。 3.1 相关概念 3.1.1 关联规则挖掘 假定项目集为I={i1, i2,…, im},事务数据库DB={t1, t2,…, tn},其中,ti为一个事务,∀ti⊆I,即每个事务ti所包含的项集都是I的子集。关联规则形式化表示为X⇒Y,其中,X⊆I,Y⊆I且X∩Y=∅[8]。关联规则的强度可用支持度Support和置信度Confidence度量。计算表达式如下: Support(X⇒Y)=|X∪Y|/|DB|≥minSupp (1) Confidence(X⇒Y)=|X∪Y|/|X|≥minConf (2) 其中,minConf为最小置信度;minSupp为最小支持度。为了隐藏挖掘出的敏感规则,由以上表达式可知,通过减少项目X和Y同时出现的频率,降低支持度Support和置信度Confidence,即可达到敏感规则隐藏的目的。 3.1.2 关联规则影响度 关联规则的影响度用来表征规则的前项和后项的相关程度,influence(X⇒Y)计算表达式定义如下: 定义1 ()()()()(1())ConfidenceXYPYinfluenceXYPYPYn⇒−⇒=− (3) 若influence (X⇒Y)>tα(n),即P(Y|X)与P(Y)之间的差异较大,则表明Y的出现受X的影响较大,规则X⇒Y是敏感的和需要保护的。tα(n)为样本容量为n的T分布显著水平为α
的下临界值,称为最小影响度。根据概率统计的需要及n值较大,tα(n)常用正态分布下显著水平为α=0.05下的临界值u
α
替代,即tα(n)≈u0.05=1.96。
基于T检验影响度的生成关联衡量准则将关联规则分为
4类: (1)不相关规则 如Confidence(X⇒Y)= P(Y),即P(X∪Y)= P(X)P(Y),则项集X和项集Y构成的X⇒Y为不相关规则,包含不相关规则的事务,称为不相关事务。 (2)冗余规则 若(Support(X⇒Y)≥minSupp)∧(P(Y)≥Confidence(X⇒Y)≥minConf)成立,则称X⇒Y为冗余规则,该冗余规则在挖掘的过程予以删除,以提高效率。 (3)弱关联规则:若(Support(X⇒Y)≥minSupp)∧(Confidence (X⇒Y)≥minConf)∧(0成立,则称X⇒Y为弱关联规则,包含弱关联规则X⇒Y的事务,称为弱相关事务。 (4)强关联规则 若(Support(X⇒Y)≥minSupp)∧(P(Y)≥Confidence(X⇒Y)≥minConf)∧(influence(X⇒Y)>t0.05(n)≈u0.05= 1.96)成立,则称