对现有基于隐私保护的攻击: 进行数据挖掘和数据发布的一项调查
- 格式:pdf
- 大小:489.80 KB
- 文档页数:12
数据挖掘中的数据隐私与安全保护数据挖掘是一种通过分析大量数据来发现隐藏模式、关联和趋势的技术。
然而,随着数据的不断增长和互联网的普及,数据隐私和安全保护的问题也日益凸显。
在数据挖掘过程中,我们通常需要收集、存储和处理大量的个人数据。
这些数据包括个人身份信息、偏好、购买记录等,具有极高的敏感性。
因此,数据隐私保护成为了一个必不可少的问题。
首先,数据挖掘中的数据隐私问题主要表现在数据收集和存储环节。
为了进行数据挖掘,我们需要从用户那里收集大量的个人数据。
然而,如果这些数据未经充分保护,就可能导致个人隐私的泄露。
因此,在数据收集过程中,我们必须遵循一系列的隐私保护原则,如数据匿名化、脱敏处理等。
其次,数据挖掘中的数据隐私问题还涉及到数据处理和分析阶段。
在这个阶段,我们通常需要对数据进行加工和处理,以便发现其中的模式和规律。
然而,如果不加以妥善处理,这些数据可能会暴露用户的个人信息。
因此,在数据处理和分析过程中,我们必须采取一系列的安全措施,如数据加密、访问控制等,以确保数据的安全性和隐私性。
此外,数据挖掘中的数据隐私问题还涉及到数据共享和交换环节。
在一些情况下,我们需要将数据共享给其他组织或个人,以便进行更深入的分析和研究。
然而,如果没有进行适当的隐私保护措施,这些共享的数据可能会被滥用或泄露。
因此,在数据共享和交换过程中,我们必须确保数据的安全传输和访问控制,以避免数据隐私的泄露。
为了解决数据挖掘中的数据隐私和安全保护问题,研究者们提出了许多有效的解决方案。
例如,差分隐私技术可以在保护数据隐私的同时,仍然能够提供有意义的数据分析结果。
另外,多方安全计算技术可以在不暴露原始数据的情况下,进行安全的数据处理和分析。
这些技术为数据挖掘中的数据隐私和安全保护提供了重要的支持。
然而,尽管有了这些解决方案,数据隐私和安全保护仍然是一个长期而且复杂的问题。
随着技术的不断发展和数据的不断增长,新的隐私和安全威胁也会不断涌现。
隐私保护的分布式关联规则挖掘算法研究的开题报告一、选题背景与意义随着现代信息技术迅速发展,大数据时代已经到来,人们更加依赖于互联网和移动设备进行数据的交换和处理。
然而,这种数据交换和处理行为也给个人隐私带来了风险。
随着个人敏感信息泄露事件的频发,人们对隐私保护的需求也越来越强烈。
在这种情况下,如何保护用户隐私信息成为面临重大挑战的问题。
为了保护隐私,已经有很多的研究着手将数据挖掘技术和隐私保护相结合。
由于大规模数据往往存储于分布式系统中,因此分布式关联规则挖掘成为了一种非常有前景的方法来解决个人隐私保护问题。
本文选择了隐私保护的分布式关联规则挖掘算法研究作为研究课题。
该课题有助于促进隐私保护研究、大数据安全研究、社会区域隐私保护等多个领域的交叉发展,在更好地理解大数据安全与隐私保护问题的基础上,提出更为有效的算法解决方案,维护人们的隐私权益,推动信息安全保障的进一步发展。
二、国内外研究现状和发展动态在隐私保护的领域,已有很多的研究人员投入到这个领域中,尝试解决隐私保护的问题。
然而,轻量级加密技术、差分隐私、homomorphic encryption等技术,虽然在一定程度上解决了隐私保护的问题,但这些技术通常需要修改数据本身,导致数据不能准确地表达用户的实际需求。
与此同时,数据挖掘技术大量应用于隐私保护领域。
其中,关联规则挖掘技术是一种比较流行的技术。
但由于数据往往存储于分布式系统中,如何在分布式环境下进行关联规则挖掘成为了当前研究的难点。
在国际上,已有许多学者提出了相应的分布式关联规则挖掘算法,为解决该问题提供了一定的参考。
然而,在国内该领域的研究相对较少,需要进一步探索和深入研究。
三、研究内容和方法本研究主要关注隐私保护的分布式关联规则挖掘算法,并在此基础上提出有效的算法策略,旨在解决该领域的研究难点。
具体来说,包括以下内容:1. 分析隐私保护的分布式关联规则挖掘技术;2. 分析隐私保护的数据挖掘算法;3. 研究基于隐私保护机制的关联规则挖掘算法,提出一种有效的分布式算法模型;4. 设计和实现隐私保护的分布式关联规则挖掘算法;5. 评估该算法的效果和性能,并进行比较分析。
收稿日期:2010-08-29;修回日期:2010-11-28基金项目:国家重点基础研究发展计划(973计划)资助项目(2011CB302903);江苏省高校自然科学基础研究项目(08KJ B620002);南京邮电大学校科研基金(NY207051)作者简介:李玲娟(1963-),女,辽宁辽阳人,教授,CCF 会员,研究方向为数据挖掘、分布式计算等。
基于数据处理的数据挖掘隐私保护技术分析李玲娟,郑少飞(南京邮电大学计算机学院,江苏南京210003)摘 要:随着数据挖掘技术的发展与应用,如何在得到准确的挖掘结果的同时保护隐私信息不被泄露,已经成为必须解决的问题。
基于数据处理的数据挖掘隐私保护是一种有效的途径,通过采用不同的数据处理技术,出现了基于数据匿名、数据变换、数据加密、数据清洗、数据阻塞等技术的隐私保护算法。
文中对基于数据处理的数据挖掘隐私保护技术进行了总结,对各类算法的基本原理、特点进行了探讨。
在对已有技术和算法深入对比分析的基础上,给出了数据挖掘隐私保护算法的评价标准。
关键词:数据挖掘;隐私保护;数据处理中图分类号:TP311 文献标识码:A 文章编号:1673-629X(2011)03-0094-04Analysis of D ata M i ning Privacy Preservi ng T echnologyB ased on Data Processi ngL I L i n g-j u an ,ZHENG Shao -fe i(Co llege o f Com puter ,N an ji ng U niversity o f Po sts and T e l ecomm un i ca tions ,N anji ng 210003,Ch i na)A bstract :A s t he deve l op m en t and app li cati on of data m i n i ng ,it is a p rob l e m w h i ch m u st be res o l ved t hat how t o p rotect p ri vacy fro m l eak i ng w hen obtai n i ng accurate res u l.t Datam i n i n g pri vacy pres erv i ng bas ed on dat a processi ng s hould be an effectivew ay to resolve t he prob le m.B as ed on differen t dat a p rocessi ng techno l og i es ,vari ou s privacy pres erv i ng al gorith m s ,such as data anonym it y,data d ist o r ti on ,dat a encryp ti on ,data purificati on and data ob st ru cti ng ,have been develop ed .In th i s paper ,t h e techno l og i es o f datam i n i ng p ri vacy preservi n g based on data processing are s u rveyed;t h e m echan is m s and ch aracteristics of vari ou s algorit hm s are d i scu ss ed.Follow i ng a com p rehen si ve com parison and anal y sis of t h e ex isti n g techno l og ies as w ellas the al gorit hm s ,the criteria o f eval uati ng dat a m i n i ng priva cy preservi n g algorit hm s are g i ven.K ey words :data m i n i ng ;privacy preservi n g ;data processi ng0 引 言数据挖掘能从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则[1]。
隐私保护分类数据挖掘研究的开题报告一、研究背景及意义随着互联网技术和数据挖掘技术的不断发展和普及,大量的个人隐私数据被收集和存储。
如果这些数据被不当地使用或暴露,可能会给个人带来严重的损失。
因此,隐私保护已经成为人们普遍关注的问题。
数据挖掘是一种通过分析数据来发现潜在的规律和模式的技术。
在数据挖掘过程中,由于数据的敏感性和机密性,分类数据挖掘的隐私保护问题成为了研究热点。
二、研究主要内容本研究将针对分类数据挖掘的隐私保护问题,从以下几个方面展开研究:1. 隐私保护模型研究。
本研究将对相应的隐私保护模型进行分析和研究,并且提出新的隐私保护模型。
2. 隐私保护算法研究。
本研究将针对不同的分类数据挖掘算法,提出隐私保护算法,并且对其进行比较和评估。
3. 隐私保护性能研究。
本研究将通过实验,评估隐私保护算法的性能,并且分析算法的优缺点。
三、研究方法1. 文献综述。
首先对分类数据挖掘的隐私保护问题进行文献综述,了解研究的进展和现状。
2. 隐私保护模型研究。
基于文献综述的结果,对已有的隐私保护模型进行分析和研究,并且提出新的隐私保护模型。
3. 隐私保护算法研究。
基于已有的隐私保护模型和分类数据挖掘算法,提出相应的隐私保护算法,对其进行比较和评估。
4. 隐私保护性能研究。
通过实验,评估隐私保护算法的性能,并且分析算法的优缺点。
四、预期研究成果通过本研究,预期可以达到以下几个方面的成果:1. 提出一种更为有效的隐私保护模型,对分类数据挖掘的隐私保护问题提供新的解决方案。
2. 提出一种更为有效的隐私保护算法,保障个人隐私的同时,保持原有数据的可用性和准确性。
3. 通过实验得出一些有价值的结论和经验,为分类数据挖掘领域的隐私保护提供参考和指导。
五、研究计划本研究预计在一年的时间内完成,具体的计划如下:1. 第一季度。
进行文献综述,了解分类数据挖掘的隐私保护问题的研究进展和现状。
2. 第二季度。
研究相关的隐私保护模型,提出新的隐私保护模型。
基于数据发布的隐私保护规则综述作者:于金英来源:《数字技术与应用》2012年第12期摘要:数据发布的隐私保护有两方面的研究:一是一次发布,二是多次发布。
目前,已有比较经典的规则应用在隐私保护中。
在本文中,针对这两种情况下的几种隐私保护规则进行分析总结,并对未解决的问题进行客观的评价。
关键词:隐私保护数据发布静态数据集动态数据集中图分类号:TN914 文献标识码:A 文章编号:1007-9416(2012)12-0193-021、引言由于网络技术的迅猛发展,人们进入到信息高度共享的时代。
数据库的应用越来越广泛,数据的收集和发布越来越方便,伴随而来的隐患是重要数据的泄漏。
有些人会趁机窃取用户的重要信息,造成隐私泄露。
为了防止信息的泄漏,许多人进行这方面的研究,形成了一系列的匿名原则,用来保护一次数据发布和多次数据发布中隐私数据的安全性。
2、相关知识2.1 等价类在数据发布的匿名表中,准标识符属性完全相同的记录称为一个等价类,用英文表示为QI-group。
2.2 匿名化匿名化的过程就是扰乱QI属性与敏感属性之间的一对一的关系的过程。
现有的匿名化技术都将数据表值的记录分成若干“等价组”,组中的任何一条记录可能对应多个隐私属性值,外界无法唯一确定某个个体的信息,从而保障了隐私信息的安全性。
2.3 链接攻击[1]通过收集多个数据源,这些数据源在孤立的情况下,无法从它本身得出任何个体的隐私信息,但如果这些数据源中存在部分属性重叠的情况,通过重叠属性的关联,可以在一个数据源中找出一条记录与另一个数据源相对应,而造成个体隐私信息泄露,将这一过程称为链接攻击。
2.4 同质攻击在链接攻击的前提下,如果无法从多个数据源中找出某一个体对应的一条信息,但是却可以找到该个体对应的多条信息,而这些信息都对应着同一个敏感属性信息,从而泄露该个体的隐私,我们称这一过程为同质攻击。
2.5 背景知识攻击在链接攻击的前提下,如果无法从多个数据源中找出某一个体对应的一条信息,但是却可以找到该个体对应的多条信息。
文章编号:1007-757X(2020)08-0041-04隐私保护数据挖掘技术研究综述杨洋,陈红军(北京经济管理职业学院管理学院,北京100102)摘要:随着云计算、物联网和社交媒体技术的快速发展,大数据挖掘和分析成为未来知识发现的重要手段,数据隐8泄露问题日趋严重,如何保护用户隐8和防止敏感信息泄露成为面临的最大挑战。
由于大数据具有规模大、多样性、动态更新速度快等特点,许多传统的隐8保护技术不再适用#文章从知识发现的视角,总结了隐8保护数据挖掘的生命周期模型;从输入隐8和输出隐8方面对隐8保护数据挖掘的相关技术研究进行了分类评述;最后,对隐8保护数据挖掘的研究挑战和未来展望进行了阐述#关键词:大数据分析;隐8保护;数据挖掘;知识发现中图分类号:TP309文献标志码:AA Review of Research on Privacy Preserving Data Mining TechnologyYANG Yang,CHEN Hongjun(Schoolof Management,BeijingInstituteofEconomicsand Management,Beijing100102,China)Abstract:With the rapid development of cloud computing,Internet of Things and social media technologies,big data mining andanalysishavebecomeanimportantmeansofknowledgediscoveryinthefuture.Thecontentofinformation withpersonal privacyisbecoming moreand morediverse,and the problem of data privacy leakage is becoming increasingly serious.Howto protectuserprivacyandpreventsensitiveinformationleakagehasbecomethebiggestcha l enge.Becauseofthelargescale,diversity,andfastdynamicupdateofbigdata,manytraditionalprivacypreservingtechnologiesarenolongerapplicable.Thisar-iclesummarizesthelifecyclemodelofprivacypreservingdataminingfromtheperspectiveofknowledgediscovery.Therelated researchonprivacypreservingdataminingisclassifiedandreviewedintermsofinputprivacyandoutputprivacy.Theresearch cha l engesandfutureprospectsofprivacypreservingdataminingaredescribed.Key words:big data analysis;privacy preserving;data mining;knowledge discovery0引言隐私保护通常与安全性混淆,隐私保护主要是指个人信息,安全性主要是指数据处理的完整性、可用性和机密性&数据挖掘((ata mining)是指从大量数据中获取有价值信息,并采用数据挖掘技术来揭示隐藏在大数据中的有用业务模型和知识,这可能对个人隐私构成威胁。
研究生学位论文开题报告题目名称:基于隐私保护的多源数据挖掘高效算法研究姓名:学号:专业名称:研究方向:攻读学位:学院:导师姓名:导师职称:填表时间年月日填表说明1.开题报告是研究生培养的重要环节,研究生需在认真完成。
2.完成时间:硕士研究生的开题报告应于第三学期末前完成3.打印要求:此表用A4纸双面打印。
4.此表与中期考核审核表、成绩单、实践报告、学术活动列表等材料一起交于学院,参加中期考核一、课题来源,国内外研究现状、水平及发展趋势,选题的研究意义、目的,参考文献(一)课题来源1、问题的提出数据挖掘,顾名思义即是从大型数据库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、潜在的、有用信息,提取的知识表示为概念、规则、规律、模式等形式[1]。
数据挖掘要处理的问题,就是在庞大的数据库中寻找有价值的隐藏事件,加以分析,并将这些有意义的信息归纳成结构模式,提供给有关部门决策时参考。
目前已经提出的常用方法有关联规则、决策树、聚类、神经网络等方法。
然而,在对数据进行挖掘的时候,都不可避免的会出现敏感信息泄露的问题,随着数据挖掘技术的日益发展,数据隐私和信息安全逐渐引起人们的关注。
为了保护数据的隐私,人们不愿提供正确的信息给服务商,以免个人信息泄露造成不必要的麻烦,但是数据挖掘结果准确的重要前提是提供的数据正确。
由于数据挖掘主要任务是对汇总数据的模式开发,这使得构造一个不需要访问精确的单个信息而获得准确的模式的挖掘技术成为可能。
目前,基于隐私保护的数据挖掘技术已经成为一个新颖热门的研究领域,国内外已有很多成熟的研究算法和技术。
通过众多文献比对我们发现,目前已有的这些基于隐私保护的数据挖掘算法和技术大多是针对单源数据库进行挖掘和保护,而在实际应用中,有很多情况必须面对多个数据源。
例如,许多大型企业、跨国公司都拥有过个子公司,每个子公司都有自己相应的数据库。
这就迫切需要数据库挖掘系统具有针对多数据源进行挖掘和保护的能力。
数据挖掘与隐私保护随着互联网的发展和智能技术的进步,大量的个人数据正在被收集、存储和分析。
而在数据挖掘的过程中,隐私保护问题愈发凸显。
本文将探讨数据挖掘与隐私保护的关系,并提出一些应对措施,以确保个人隐私得到有效保护。
一、数据挖掘的概念数据挖掘是一种从大量数据集中提取有用信息的技术。
通过数据挖掘,可以发现数据中隐藏的模式、规律和知识,帮助企业做出更准确的决策,提高效率和竞争力。
二、隐私保护的重要性个人隐私是每个人的基本权利,保护个人隐私是一项重要的社会责任。
随着数据挖掘技术的应用日益普遍,个人隐私泄露的风险也在增加。
一旦个人敏感信息被滥用,将会导致严重的后果,甚至对个人、组织乃至整个社会造成巨大伤害。
三、数据挖掘对隐私的威胁在数据挖掘过程中,通常需要收集大量的个人数据,这些数据包括但不限于个人身份信息、交易记录、社交网络活动等。
然而,这些数据的收集和分析过程往往涉及隐私的泄露风险。
首先,数据挖掘可能导致个人敏感信息的泄露。
通过分析个人数据,可以获取包括个人偏好、行为习惯、信用记录等在内的敏感信息,进而用于商业目的或其他恶意行为。
其次,数据挖掘可能揭示个人隐私的结构。
通过挖掘个人之间的关联和网络关系,可以推断出个人的社交圈、家庭成员、身份信息等,从而侵犯到个人的隐私权。
最后,数据挖掘可能导致个人信息被误用。
在数据挖掘的过程中,由于算法本身的局限性或操作人员的不当行为,个人信息可能被错误地解读、使用或传播,引发一系列问题。
四、数据挖掘与隐私保护的平衡在保护个人隐私的同时,我们也不能否认数据挖掘的重要性。
因此,需要在数据挖掘和隐私保护之间寻找平衡点,既能充分利用数据挖掘技术的优势,又能有效保护个人隐私。
首先,应采取匿名化和脱敏技术。
在数据收集和存储阶段,可以通过去标识化、数据脱敏等手段,降低数据关联和个人身份的可识别性,从而减轻隐私泄露的风险。
其次,可限制数据挖掘的范围和目的。
合理规定数据挖掘的目的和使用范围,禁止将个人数据用于未经授权的商业目的或其他不当用途。
《基于差分隐私和安全多方计算的模型融合隐私保护数据挖掘方案》篇一一、引言随着大数据时代的到来,数据挖掘技术在各个领域得到了广泛应用。
然而,数据隐私保护问题日益突出,如何在保护个人隐私的同时进行高效的数据挖掘成为了一个亟待解决的问题。
差分隐私和安全多方计算作为两种重要的隐私保护技术,为解决这一问题提供了有效的手段。
本文提出了一种基于差分隐私和安全多方计算的模型融合隐私保护数据挖掘方案,旨在实现数据挖掘过程中的隐私保护。
二、差分隐私技术差分隐私是一种数学框架,用于量化数据发布的隐私泄露。
其核心思想是在数据分析过程中加入一定的噪声,使得攻击者无法根据结果推断出单个实体的敏感信息。
差分隐私技术适用于数据集级别的隐私保护,可以在不泄露个体信息的情况下进行数据分析。
三、安全多方计算技术安全多方计算是一种密码学原语,旨在实现多个参与方在保护各自隐私的前提下共同计算某个函数。
该技术可以应用于多个参与方共同参与的数据处理和分析任务中,如金融、医疗等领域。
通过安全多方计算技术,可以在不暴露原始数据的情况下进行计算,从而保护数据的隐私。
四、模型融合隐私保护数据挖掘方案本方案将差分隐私技术和安全多方计算技术相结合,实现模型融合的隐私保护数据挖掘。
具体步骤如下:1. 数据预处理:对原始数据进行清洗、去重、匿名化等预处理操作,以减少敏感信息的泄露。
2. 差分隐私保护:在数据预处理的基础上,采用差分隐私技术对数据进行噪声添加,以保护个体隐私。
这一步骤可以在数据集级别上实现隐私保护。
3. 安全多方计算:将处理后的数据分割成多个部分,每个部分由不同的参与方保管。
然后,通过安全多方计算技术,各参与方可以在保护数据隐私的前提下共同进行计算。
这一步骤可以应用于需要多个参与方共同参与的数据处理和分析任务中。
4. 模型训练与融合:在安全多方计算的基础上,各参与方共同训练机器学习模型。
训练完成后,通过模型融合技术将各参与方的模型进行融合,以获得更准确的预测结果。
数据挖掘与隐私保护的关系与解决方法随着数字化时代的到来,大数据已经成为我们生活中不可或缺的一部分。
然而,大数据的使用也引发了一系列的隐私保护问题。
数据挖掘作为一种从大数据中提取有用信息的技术,与隐私保护之间存在着紧密的关系。
本文将探讨数据挖掘与隐私保护之间的关系,并提出一些解决方法。
首先,数据挖掘是一种通过分析大量数据来发现隐藏模式和关联规律的技术。
它可以帮助企业和组织做出更准确的决策,提高效率和竞争力。
然而,数据挖掘所依赖的数据往往包含了大量的个人隐私信息,如姓名、地址、电话号码等。
如果这些个人隐私信息被滥用或泄露,将会给个人带来不可预测的风险和损失。
因此,隐私保护成为了数据挖掘过程中必须要考虑的一个重要问题。
一方面,数据挖掘需要大量的数据来进行分析和建模,但过多的个人隐私信息的使用可能会引发隐私泄露的风险。
另一方面,隐私保护措施可能会限制数据挖掘的效果和准确性。
因此,如何在数据挖掘和隐私保护之间寻找平衡成为了一个关键问题。
解决这个问题的方法之一是采用数据匿名化技术。
数据匿名化是指通过对原始数据进行修改或脱敏,使得数据无法直接关联到特定个人。
这样一来,即使数据被泄露或滥用,个人隐私也不会受到太大的损害。
常见的数据匿名化方法包括数据加密、数据脱敏和数据扰乱等。
这些方法可以有效地保护个人隐私,同时又不影响数据挖掘的效果。
另一个解决方法是采用差分隐私技术。
差分隐私是一种在数据挖掘过程中保护个人隐私的方法,它通过在数据中引入一定的噪声,使得攻击者无法准确地得到个人的隐私信息。
差分隐私技术在数据挖掘中的应用越来越广泛,比如在推荐系统、个性化广告和社交网络等领域。
它不仅能够保护个人隐私,还能够提供一定的数据分析效果。
除了上述方法,还可以采用数据共享和访问控制等技术来解决数据挖掘与隐私保护的问题。
数据共享是指将数据提供给有需要的人或组织,但同时也需要保护数据的隐私。
访问控制是指限制对数据的访问权限,只有得到授权的人才能够访问和使用数据。
Journal of Information Security, 2013, 4, 101-112 http://dx.doi.org/10.4236/jis.2013.42012 Published Online April 2013 (http://www.scirp.org/journal/jis)
Attacks on Anonymization-Based Privacy-Preserving: A Survey for Data Mining and Data Publishing
Abou-el-ela Abdou Hussien1, Nermin Hamza2, Hesham A. Hefny2 1Department of Computer Science, Faculty of Science and Humanities, Shaqra University, Shaqra, KSA
2Department of Computer and Information Sciences, Institute of Statistical Studies and Research, Cairo University, Giza, Egypt
Email: abo_el_ela_2004@yahoo.com, nermin_hamza@yahoo.com, hehefny@hotmail.com
Received December 23, 2012; revised January 24, 2013; accepted February 2, 2013 Copyright © 2013 Abou-el-ela Abdou Hussien et al. This is an open access article distributed under the Creative Commons Attribu-tion License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.
ABSTRACT Data mining is the extraction of vast interesting patterns or knowledge from huge amount of data. The initial idea of privacy-preserving data mining PPDM was to extend traditional data mining techniques to work with the data modified to mask sensitive information. The key issues were how to modify the data and how to recover the data mining result from the modified data. Privacy-preserving data mining considers the problem of running data mining algorithms on confidential data that is not supposed to be revealed even to the party running the algorithm. In contrast, pri- vacy-preserving data publishing (PPDP) may not necessarily be tied to a specific data mining task, and the data mining task may be unknown at the time of data publishing. PPDP studies how to transform raw data into a version that is im-munized against privacy attacks but that still supports effective data mining tasks. Privacy-preserving for both data mining (PPDM) and data publishing (PPDP) has become increasingly popular because it allows sharing of privacy sen-sitive data for analysis purposes. One well studied approach is the k-anonymity model [1] which in turn led to other models such as confidence bounding, l-diversity, t-closeness, (α,k)-anonymity, etc. In particular, all known mechanisms try to minimize information loss and such an attempt provides a loophole for attacks. The aim of this paper is to present a survey for most of the common attacks techniques for anonymization-based PPDM & PPDP and explain their effects on Data Privacy.
Keywords: Privacy; k-Anonymity; Data Mining; Privacy-Preserving Data Publishing; Privacy-Preserving Data Mining
1. Introduction Although data mining is potentially useful, many data holders are reluctant to provide their data for data mining for the fear of violating individual privacy. In recent years, study has been made to ensure that the sensitive informa-tion of individuals cannot be identified easily. One well studied approach is the k-anonymity model [1] which in turn led to other models such as confidence bounding, l- diversity [2], (α,k)-anonymity [3], t-closeness [4]. These models assume that the data or table T contains: (1) a quasi-identifier (QID), which is a set of attributes (e.g., a QID may be {Date of birth, Zipcode, Sex}) in T which can be used to identify an individual, and (2) sensitive attributes, attributes in T which may contain some sensi-tive values (e.g., HIV of attribute Disease) of individuals. Often, it is also assumed that each tuple in T corresponds to an individual and no two tuples refer to the same indi- vidual. All tuples with the same QID value form an
equivalence class, which we call QID-EC. The table T is said to satisfy k-anonymity if the size of every equiva- lence class is greater than or equal to k. The intuition of k-anonymity is to make sure that each individual is indis-tinguishable from other k – 1 individuals. In this paper, we present some attacks for anonymization-based PPDM & PPDP and explain their effects. The paper is organized as follows: Section 2 explains anonymity models, Sec- tion 3 presents related research directions, Section 4 dis- cusses anonymization-based attacks, and Section 4 con- cludes the paper and presents future works.
2. Anonymity Models k-anonymization techniques have been the focus of in- tense research in the last few years. In order to ensure anonymization of data while at the same time minimizing the information loss resulting from data modifications, several extending models are proposed, which are dis-