MapReduce框架下支持差分隐私保护的随机梯度下降算法
- 格式:pdf
- 大小:715.46 KB
- 文档页数:8
数据隐私保护中的差分隐私算法分析比较随着数字化时代的到来,个人数据的收集与利用变得日益广泛。
然而,正是这种广泛的数据收集和利用也引发了对个人隐私的高度关注。
为了保护用户的隐私以及防止数据滥用,差分隐私算法应运而生。
本文将对差分隐私算法进行分析比较,探讨其在数据隐私保护方面的应用前景。
差分隐私是一种隐私保护机制,通过在数据收集过程中添加噪声,使得数据收集者无法确定特定个人的具体贡献。
以下是几种常见的差分隐私算法:1. 拉普拉斯机制(Laplace Mechanism)拉普拉斯机制是最简单同时也是最常用的差分隐私算法之一。
它通过在查询结果中添加服从拉普拉斯分布的噪声来保护数据的隐私。
由于其简单性和计算效率高,拉普拉斯机制被广泛应用于一些敏感数据的发布和查询场景。
然而,拉普拉斯机制可能会导致较大的噪声扰动,并对查询结果的准确性产生较大影响。
2. 指数机制(Exponential Mechanism)指数机制是另一种常见的差分隐私算法,它通过利用指数分布来添加噪声。
与拉普拉斯机制相比,指数机制可以提供更好的隐私保护和更高的查询准确性。
它适用于一些特定的数据查询任务,并被广泛应用于拍卖和在线广告等领域。
3. 差分隐私数据库发布算法(Differential Privacy Database Release)差分隐私数据库发布算法是一种在数据库发布过程中保护隐私的方法。
它通过添加噪声或扰动来保护原始数据,并确保数据库发布后的查询结果仍然保持一定的准确性。
这种算法的关键是在数据发布和查询之间实现平衡,以确保隐私与准确性之间的权衡。
4. 线性查询算法(Linear Query Algorithm)线性查询算法是一种特定类型的差分隐私算法,适用于满足线性查询操作的场景。
该算法通过在查询结果中添加噪声,保护数据隐私。
与其他差分隐私算法相比,线性查询算法具有较低的计算复杂度和更好的查询准确性。
5. 机器学习中的差分隐私算法(Differential Privacy in Machine Learning)差分隐私在机器学习领域也得到了广泛应用。
基于梯度选择的轻量化差分隐私保护联邦学习王周生;杨庚;戴华【期刊名称】《计算机科学》【年(卷),期】2024(51)1【摘要】为了应对机器学习过程中可能出现的用户隐私问题,联邦学习作为首个无需用户上传真实数据、仅上传模型更新的协作式在线学习解决方案,已经受到人们的广泛关注与研究。
然而,它要求用户在本地训练且上传的模型更新中仍可能包含敏感信息,从而带来了新的隐私保护问题。
与此同时,必须在用户本地进行完整训练的特点也使得联邦学习过程中的运算与通信开销问题成为一项挑战,亟需人们建立一种轻量化的联邦学习架构体系。
出于进一步的隐私需求考虑,文中使用了带有差分隐私机制的联邦学习框架。
另外,首次提出了基于Fisher信息矩阵的Dropout 机制——FisherDropout,用于对联邦学习过程中在客户端训练产生梯度更新的每个维度进行优化选择,从而极大地节约运算成本、通信成本以及隐私预算,建立了一种兼具隐私性与轻量化优势的联邦学习框架。
在真实世界数据集上的大量实验验证了该方案的有效性。
实验结果表明,相比其他联邦学习框架,FisherDropout机制在最好的情况下可以节约76.8%~83.6%的通信开销以及23.0%~26.2%的运算开销,在差分隐私保护中隐私性与可用性的均衡方面同样具有突出优势。
【总页数】10页(P345-354)【作者】王周生;杨庚;戴华【作者单位】南京邮电大学计算机学院;江苏省大数据安全与智能处理重点实验室【正文语种】中文【中图分类】TP309【相关文献】1.基于差分隐私的联邦学习数据隐私安全技术2.面向联邦学习的学习率裁剪梯度优化隐私保护方案3.基于差分隐私保护知识迁移的联邦学习方法4.基于本地差分隐私的联邦学习隐私保护方法5.结合联邦学习和增强学习的车联网数据差分隐私保护因版权原因,仅展示原文概要,查看原文内容请购买。
《利用MapReduce模型训练支持向量机的人脸识别方法》一、引言随着人工智能和计算机视觉技术的飞速发展,人脸识别技术在众多领域中得到了广泛应用。
然而,人脸识别技术面临的挑战在于处理大量的高维数据,并从中提取出有效的特征信息。
传统的支持向量机(SVM)在处理这类问题时表现出了一定的优越性,但其训练过程往往受限于计算资源的限制。
近年来,MapReduce模型作为一种高效的分布式计算模型,被广泛应用于大数据处理中。
本文提出了一种利用MapReduce模型训练支持向量机的人脸识别方法,旨在解决传统方法在处理大规模数据时面临的计算瓶颈问题。
二、相关背景与理论基础1. MapReduce模型:MapReduce是一种编程模型和计算框架,用于处理大规模数据集。
它通过将复杂的计算任务分解为多个简单的子任务,并利用分布式计算资源进行并行处理,从而提高了计算效率。
2. 支持向量机(SVM):SVM是一种基于统计学习理论的机器学习方法,常用于分类和回归问题。
在人脸识别中,SVM可以用于从高维数据中提取有效的特征信息并进行分类。
3. 人脸识别技术:人脸识别技术通过提取和分析人脸的特征信息,进行身份认证和识别。
在人脸识别过程中,关键在于从大量的人脸数据中提取出具有代表性的特征信息。
三、利用MapReduce模型训练SVM的方法1. 数据预处理:将原始的人脸数据集进行预处理,包括图像去噪、归一化、特征提取等操作,以获得可用于训练的数据集。
2. 任务分解:将训练数据集分解为多个小规模的数据子集,每个子集都可以作为一个Map任务进行计算。
3. Map阶段:在Map阶段,每个Map任务根据其负责的数据子集进行SVM的初训过程,并将计算结果保存到本地。
4. Reduce阶段:在Reduce阶段,通过合并所有Map任务的结果,形成一个完整的数据集,并在这个基础上进行全局的SVM 训练和参数调整。
5. 训练SVM:使用经过MapReduce模型训练得到的特征向量进行SVM训练,提取出最具有代表性的特征信息。
Spark框架下保护数据差分隐私的遗传聚类算法作者:张玉婷来源:《电脑知识与技术》2019年第04期摘要:针对分布式计算框架下海量数据聚类分析过程中的数据隐私泄露问题,提出了一种Spark下支持差分隐私保护的遗传k-means聚类算法。
首先利用遗传算法实现对k-means聚类方案的全局寻优,提高算法的准确率;并采用种群迁移策略将遗传k-means算法部署于Spark 框架中,实现基于内存读写的分布式聚类;然后利用差分隐私保护的Laplace机制在Spark每轮迭代的mapvalues算子中,对各聚簇中记录数量num和聚簇中各记录之和sum上添加随机噪声。
根据差分隐私保护的性质,通过理论分析证明了算法达到ε-差分隐私保护要求。
最后实验分析表明了算法在Spark框架下的时效性高于MapReduce框架,其运行时间主要受迭代次数的影响,并且得出了使算法隐私性和准确性达到平衡的最优隐私保护预算取值。
关键词:数据分析;k-means聚类;Spark框架;差分隐私;遗传算法中图分类号:TP309.7 文献标识码:A 文章编号:1009-3044(2019)04-0198-031 引言在大数据时代,数据挖掘技术得到了广泛的应用,聚类分析作为一种常用的无监督数据挖掘技术,可以将相近的数据划分到同一个类簇中,在网络入侵检测、目标识别等领域应用十分广泛。
k-means算法由于运算速度较快,实现原理简单,所以成为应用领域最广泛的聚类分析算法之一[1]。
本文提出一种Spark框架下满足差分隐私保护的遗传k-means算法(IGKM,Improved Genetic K-Means),利用遗传算法解决k-means算法容易陷入局部最优的问题,利用基于内存计算的Spark分布式框架,利用Laplace机制实现差分隐私保护,为应对任意背景知识恶意分析的高效聚类分析提供了一种解决方案。
2 差分隐私保护基础差分隐私方法能够解决任意背景知识下非法分析的问题[2]。
基于差分隐私的联邦学习隐私保护方法研究基于差分隐私的联邦学习隐私保护方法研究引言随着人工智能技术的快速发展,联邦学习作为一种新兴的机器学习方法,已经广泛应用于各种领域,如医疗、金融和物联网。
然而,随之而来的隐私泄露问题也变得日益严重。
为了保护个人隐私,研究人员提出了各种不同的联邦学习隐私保护方法,其中基于差分隐私的方法备受关注。
本文将介绍这一领域的研究现状和未来发展方向。
一、联邦学习概述联邦学习是一种分布式机器学习框架,允许在不共享原始数据的情况下,通过在设备端进行模型训练和协同更新来实现共享知识。
每个参与方只负责本地数据的模型训练,然后将更新的模型参数汇总到中央服务器。
这种分布式学习方法在解决数据隐私问题上具有巨大潜力。
二、差分隐私的概念与原理差分隐私是一种保护隐私的数学原理,通过在计算过程中引入噪声来隐藏个人敏感信息。
差分隐私的核心思想是通过在计算结果中添加噪声,使得敏感信息无法通过结果推断出来。
差分隐私可以提供强有力的隐私保护,因为即使攻击者已经掌握了其他参与方数据的全部信息,也无法推断出个人隐私。
三、基于差分隐私的联邦学习方法基于差分隐私的联邦学习方法主要包括隐私保护的模型训练和模型聚合两个步骤。
1. 隐私保护的模型训练在联邦学习中,参与方在本地训练模型时需要采取差分隐私的机制来保护数据隐私。
一种常用的方法是添加随机噪声,例如拉普拉斯噪声或高斯噪声,来保护梯度或模型参数。
这样可以在一定程度上减少敏感信息的泄露风险。
2. 模型聚合在模型聚合阶段,参与方通过将本地模型的参数汇总到中央服务器来生成全局模型。
为了保护模型聚合过程中的隐私,可以使用差分隐私算法来隐藏个人模型的细节。
一种常用的方法是基于聚合隐私传输的联邦学习,将参数更新限制在一定范围内,以平衡模型性能和隐私保护。
四、基于差分隐私的联邦学习隐私保护方法的优缺点基于差分隐私的联邦学习隐私保护方法具有以下优点:1. 强隐私保护能力:差分隐私能够提供数学上的隐私保证,防止敏感信息的泄露,即使攻击者掌握其他参与方的全部数据。
数据隐私保护的差分隐私方法随着大数据时代的到来,个人隐私保护问题变得越来越重要。
在大规模数据收集和分析背景下,保护个人隐私已成为一项紧迫而严峻的挑战。
差分隐私方法作为一种可行的解决方案,已经受到了广泛的关注和应用。
本文将重点介绍差分隐私方法,探讨其在数据隐私保护中的应用和局限性。
差分隐私是一种强力的隐私保护方法,它通过在数据发布过程中引入噪声,使得攻击者无法确定特定个体的隐私信息。
这种方法与传统的隐私保护方法相比具有许多优势。
首先,差分隐私强调对个体隐私的保护,而不仅仅是对敏感数据的保护。
其次,差分隐私方法采用了一种统一的量化隐私保护级别的度量标准,可以更加准确地评估和控制隐私泄露的风险。
最重要的是,差分隐私可以在数据发布过程中提供一定的理论保证,确保数据对攻击者的隐私攻击具有足够的抵抗力。
差分隐私方法有多种实现方式,其中最常见的是添加随机噪声。
在差分隐私方法中,噪声的引入是保护隐私的关键。
通过在数据中引入噪声,可以有效地控制隐私泄露的风险。
具体而言,差分隐私方法可以分为局部差分隐私和全局差分隐私。
局部差分隐私是指在数据发布过程中为每个个体添加一定量的噪声,从而保护其个人隐私。
全局差分隐私则是在数据发布过程中为整个数据集添加噪声,以保护数据集的隐私。
差分隐私方法的核心思想是通过添加噪声来模糊原始数据,从而保护个体隐私。
然而,差分隐私方法也存在一些局限性。
首先是隐私保护与数据可用性之间的权衡。
由于噪声的引入,差分隐私方法往往会降低数据的可用性和精确性。
在某些情况下,为了保护隐私,必须对数据进行过度的去标识化和扰动,使得数据在实际应用中的效用下降。
其次,差分隐私方法对于特定个体的隐私保护效果可能有限。
虽然差分隐私可以保护整体数据集的隐私,但对于少数个体而言可能无法提供足够的保护。
尽管差分隐私方法存在一些局限性,但它仍然是当前隐私保护领域广泛使用的方法之一。
许多研究人员和数据处理机构已经采用了差分隐私方法,来保护用户的个人隐私。
医疗数据隐私保护中的差分隐私算法使用方法医疗数据的隐私保护一直是一个备受关注的问题。
随着现代医疗领域中数据的不断增长和智能医疗的广泛应用,如何有效保护患者的隐私,同时又能够充分利用这些数据进行研究和分析,成为了一个迫切需要解决的难题。
差分隐私算法作为目前较为常用的隐私保护方法之一,已经在医疗数据隐私保护中得到广泛应用。
差分隐私算法是一种通过对原始数据进行噪声添加的方式来保护数据隐私的方法。
简单来说,差分隐私通过给每个个体数据添加一定的噪声,使得在其加入计算和分析之后,无法准确推断出其中任何一个个体数据的具体信息。
这种方法可以在一定程度上保证数据的隐私性,同时又不会完全破坏数据的可用性,从而保护医疗数据的隐私。
在医疗数据隐私保护中,使用差分隐私算法的方法主要可以分为两类:加噪和扰动查询。
下面,我将针对这两个方面,介绍差分隐私算法在医疗数据中的使用方法。
首先是加噪。
加噪方法是差分隐私算法中最常用的一种方法,其核心思想是在每个个体数据上添加一定的噪声。
这些噪声可以是随机噪声,也可以是根据具体数据特征进行设计的噪声。
加噪方法保护数据隐私的关键在于,加入数据集的每个个体数据都被破坏了一定程度的准确性,从而保护了数据本身的隐私。
在医疗数据隐私保护中,常见的差分隐私加噪方法有拉普拉斯机制和指数机制。
拉普拉斯机制是一种基于拉普拉斯分布的加噪方法,其特点是能够保护数据的隐私性,同时还能够保证数据的可用性。
具体来说,拉普拉斯机制通过在每个个体数据上加入拉普拉斯噪声来保护数据隐私。
这种方法的优点是简单易实现,同时能够提供较好的隐私保护效果。
在医疗数据隐私保护中,拉普拉斯机制可以应用于一些常见的数据分析任务,如聚合查询、数据挖掘等。
指数机制是一种基于指数分布的加噪方法,其特点是能够根据数据敏感度的不同,为每个个体数据添加不同程度的噪声。
具体来说,指数机制通过根据个体数据的敏感度来计算每个个体数据的贡献量,再根据其贡献量来为个体数据添加噪声。
基于差分隐私的分段裁剪联邦学习算法
吴俊仪;李晓会
【期刊名称】《计算机应用研究》
【年(卷),期】2024(41)5
【摘要】为解决现有的差分隐私联邦学习算法中使用固定的裁剪阈值和噪声尺度进行训练,从而导致数据隐私泄露、模型精度较低的问题,提出了一种基于差分隐私的分段裁剪联邦学习算法。
首先,根据客户端的隐私需求分为隐私需求高和低。
对于高隐私需求用户使用自适应裁剪来动态裁剪梯度,而低隐私需求用户则采用比例裁剪。
其次根据裁剪后阈值大小自适应地添加噪声尺度。
通过实验分析可得,该算法可以更好地保护隐私数据,同时通信代价也低于ADP-FL和DP-FL算法,并且与ADP-FL和DP-FL相比,模型准确率分别提高了2.25%和4.41%。
【总页数】6页(P1532-1537)
【作者】吴俊仪;李晓会
【作者单位】辽宁工业大学电子与信息工程学院
【正文语种】中文
【中图分类】TP309
【相关文献】
1.基于差分隐私的联邦学习数据隐私安全技术
2.基于个性化差分隐私的联邦学习算法
3.基于函数机制的差分隐私联邦学习算法
4.基于本地差分隐私的联邦学习隐私保护方法
5.基于联邦学习的中心化差分隐私保护算法研究
因版权原因,仅展示原文概要,查看原文内容请购买。
dpsgd算法原理摘要:一、DPSGD 算法简介1.算法背景2.算法目标二、DPSGD 算法原理1.随机梯度下降(SGD)2.差异隐私(DP)3.DPSGD 算法结合三、DPSGD 算法应用1.数据发布2.机器学习四、DPSGD 算法优缺点1.优点a.保护用户隐私b.计算效率高2.缺点a.精度受限b.数据利用率低正文:DPSGD 算法原理与应用随着大数据时代的到来,数据安全和隐私保护成为越来越受关注的问题。
在此背景下,DPSGD 算法应运而生,它是一种结合了随机梯度下降(SGD)和差异隐私(DP)的算法,旨在实现数据发布和机器学习的隐私保护。
一、DPSGD 算法简介DPSGD 算法是在传统梯度下降算法的基础上,引入了差异隐私机制。
其目标是在不泄露用户隐私的情况下,实现模型的训练和优化。
二、DPSGD 算法原理1.随机梯度下降(SGD)随机梯度下降(Stochastic Gradient Descent, SGD)是一种常用的求解无约束最小化问题的优化算法。
在每次迭代过程中,它根据当前模型参数和数据计算梯度,并通过更新参数来减小损失函数。
2.差异隐私(DP)差异隐私(Differential Privacy, DP)是一种数据发布和分析的隐私保护框架。
它要求在数据发布或分析过程中,对原始数据的任何敏感信息进行保护,使得查询结果无法追踪到特定的个人。
3.DPSGD 算法结合DPSGD 算法将SGD 与DP 相结合,通过对梯度进行加噪处理,实现对模型参数的更新。
在每次迭代过程中,算法首先计算当前梯度,然后对梯度进行加噪,最后根据加噪后的梯度更新模型参数。
通过这种方式,DPSGD 算法能够在保护用户隐私的同时,实现模型的训练和优化。
三、DPSGD 算法应用1.数据发布在数据发布场景中,DPSGD 算法可以应用于敏感数据的发布,如地理位置、人口统计信息等。
通过引入DP 机制,可以确保发布的数据不会泄露个人隐私。
dpsgd算法原理
DP-SGD(Differentially Private Stochastic Gradient Descent)是一种结合了隐私保护和机器学习的算法。
其原理是在随
机梯度下降(SGD)的基础上引入了差分隐私(Differential Privacy)的概念,以保护个体数据隐私的同时进行模型训练。
在DP-SGD中,差分隐私的概念被用来保护训练数据的隐私。
具
体而言,DP-SGD通过在计算梯度时引入噪声,使得在模型训练过程
中不会泄露个体数据的隐私信息。
这种方法可以在一定程度上保护
数据隐私,同时仍然能够进行有效的模型训练。
DP-SGD算法的核心原理是在梯度计算的过程中引入适当的噪声,以实现差分隐私的要求。
这样一来,即使在模型训练过程中,攻击
者也无法通过分析模型的更新情况来获取个体数据的隐私信息。
这
种算法的应用范围涵盖了许多需要保护隐私的领域,如医疗健康数据、金融数据等。
总的来说,DP-SGD算法的原理是通过在梯度计算中引入噪声,
以实现差分隐私的要求,从而保护个体数据的隐私,同时进行有效
的模型训练。
这种方法在实际应用中可以有效平衡数据隐私和模型效用的需求。
2018年1月 Journal on Communications January 2018 2018013-1 第39卷第1期 通 信 学 报 Vol.39 No.1
MapReduce框架下支持差分隐私保护的随机梯度下降算法 俞艺涵,付钰,吴晓平 (海军工程大学信息安全系,湖北 武汉 430033)
摘 要:针对现有分布式计算环境下随机梯度下降算法存在效率性与私密性矛盾的问题,提出一种MapReduce框架下满足差分隐私的随机梯度下降算法。该算法基于MapReduce框架,将数据随机分配到各个Map节点并启动Map分任务独立并行执行随机梯度下降算法;启动Reduce分任务合并满足更新要求的分目标更新模型,并加入拉普拉斯随机噪声实现差分隐私保护。根据差分隐私保护原理,证明了算法满足ε-差分隐私保护要求。实验表
明该算法具有明显的效率优势并有较好的数据可用性。 关键词:机器学习;随机梯度下降;MapReduce;差分隐私保护;拉普拉斯机制 中图分类号:TP301 文献标识码:A doi: 10.11959/j.issn.1000-436x.2018013
Stochastic gradient descent algorithm preserving differential privacy in MapReduce framework
YU Yihan, FU Yu, WU Xiaoping Department of Information Security, Naval University of Engineering, Wuhan 430033, China
Abstract: Aiming at the contradiction between the efficiency and privacy of stochastic gradient descent algorithm in dis-tributed computing environment, a stochastic gradient descent algorithm preserving differential privacy based on Ma-pReduce was proposed. Based on the computing framework of MapReduce, the data were allocated randomly to each Map node and the Map tasks were started independently to execute the stochastic gradient descent algorithm. The Reduce tasks were appointed to update the model when the sub-target update models were meeting the update requirements, and to add Laplace random noise to achieve differential privacy protection. Based on the combinatorial features of differential privacy, the results of the algorithm is proved to be able to fulfill ε-differentially private. The experimental results show that the algorithm has obvious efficiency advantage and good data availability. Key words: machine learning, stochastic gradient descent, MapReduce, differential privacy preserving, Laplace mechanism
1 引言 机器学习(ML, machine learning)作为人工智能的核心,可以利用现有数据,通过归纳、综合等方法使计算机实现具备自我学习与自我更新的功能。梯度下降算法是一种典型的求解无约束优化问题的方法,主要思想是朝着负梯度方向寻求目标的最优解。由于该算法具有适用性强、优化效果好等
优点,其在机器学习中得到了普遍应用。随机梯度下降(SGD, stochastic gradient descent)算法作为梯度下降算法的一种,由于其在每次迭代过程中不需要遍历所有数据,更适合运用在大数据背景下的机器学习中,但其仍存在以下2个方面的问题。1) 随着大数据时代的数据量越来越大,需用分布式计算架构来满足随机梯度下降算法的计算需求。而在分布式计算架构下,随机梯度下降算法在每个计算节
收稿日期:2017-06-19;修回日期:2017-12-19 基金项目:国家自然科学基金资助项目(No.61100042);国家社科基金资助项目(No.15GJ003-201) Foundation Items: The National Natural Science Foundation of China (No.61100042), The National Social Science Foundation ofChina (No.15GJ003-201) 第1期 俞艺涵等:MapReduce框架下支持差分隐私保护的随机梯度下降算法 ·71· 点所用样本的不全面性、节点间数据通信频繁造成开销过大等问题,都会导致算法的收敛速度下降[1]。如何在分布式计算框架下进行快速随机梯度下降算法的实现是亟待解决的关键性问题。2) 随机梯度下降算法在帮助人们运用机器学习、数据挖掘等技术不断探索、利用数据中有价值的信息,并以此作为评估、预测和决策等行为依据的同时,也存在着泄露数据集中敏感数据的风险,威胁数据隐私安全[2]。如何在利用大数据的同时,保证大数据中
的敏感数据安全是近年来的研究热点。 针对问题1),国内外学者做出了许多卓有成效的工作。文献[3]运用抽样概率的思想,使用特殊非均匀采样策略构建minibatch来减少随机梯度差异,但其本质需要依赖样本之间的直接关联性;文献[4]通过记录历史梯度,并在当前迭代中使用自适应平均的历史梯度来减少迭代中随机梯度的方差。然而,频繁的记录历史梯度将给存在众多参数的机器学习带来额外的负担。文献[5]提出采用残差最小化框架,修正随机梯度方向,提高随机梯度的稳定性,同时采用半随机梯度思想并提出一种分层半随机梯度下降新方法,来提高收敛速度。由于随机梯度下降算法不可避免地将出现多次更新迭代,这使MapReduce等分布式计算架构在处理随机梯度下降算法时,会出现因节点间的反复数据传递而造成的通信开销过大的问题。文献[6]提出在每一个分布式计算节点上完整地执行一遍梯度下降算法,通过平均模型合并得到最终模型。该方法减少了计算过程中的通信开销,但每一个节点的数据存在局限性,没有利用全局数据来提高运算性能。同时,在模型合并时,简单平均合并没有考虑到模型之间存在的差异性,可能会降低算法的收敛速度和最终模型的可用性。文献[7]利用文献[8]中提出的蝴蝶状通信机制,在每一轮迭代中,每个节点将迭代模型仅发送给另一个节点,并接受一个模型对本地模型进行更新。这样可使每一个节点能够充分利用全局数据来提高算法收敛速度与性能。同时,文献[7]还对模型的合并方法进行了优化,将各个更新模型的性能作为模型合并的加权依据,由此提高了算法性能。针对问题2),部分学者将差分隐私(DP, dif-ferential privacy)保护引入随机梯度下降算法中,以此来应对大数据环境下的隐私泄露问题。文献[9]和文献[10]所提方法为目前较为先进的将差分隐私保护运用到随机梯度下降算法中的方法。文献[9]
在随机梯度下降算法的每次迭代中加入扰动噪声,以此达到差分隐私保护的要求;文献[10]通过子集采样的方法来减少每次迭代的噪声量,同时可以保证最佳收敛。但是,以上2种方法都存在私密性与效率性以及可用性之间的矛盾,即保证私密性时,算法的性能以及最终模型的可用性将下降;相反,保证效率性与可用性时,扰动噪声的添加可能难以保证差分隐私保护的要求。 基于此,本文提出了一种在分布式计算环境下将差分隐私保护技术应用到随机梯度下降算法中,同时缓解数据私密性与算法效率性矛盾的新算法。该算法通过合理的数据分配方法和模型合并策略来提高随机梯度下降算法的收敛速度与性能,并以策略性的差分隐私保护预算分配进行随机噪声添加,使随机梯度下降算法的输出结果满足差分隐私。
2 差分隐私保护 差分隐私保护是针对具有丰富知识背景的攻击者所提出的一种隐私保护技术,其主要通过对真实数据添加随机扰动,并保证数据在被干扰后仍具有一定的可用性来实现的。其基本原理是,用户通过查询函数F对数据集D进行查询操作,随机算法
A通过对查询函数F进行扰动,使之满足差分隐私保护的条件[11]。 定理1 对于2个完全相同或至多相差一条记录的数据集D和D′,随机算法A的值域为()RA,事件X发生的可能性为Pr[]X,若对任意,()SSRA′∈,都满足 Pr[()]ePr[()]ADSADSε′′==≤ (1)
则随机算法A提供ε-差分隐私保护,ε为差分隐私
保护预算。 差分隐私保护通常对数据进行随机噪声添加和随机响应来达到隐私保护目的,主要的实现机制分别为拉普拉斯机制与指数机制。其中,拉普拉斯机制[12]适用于数值型保护,是随机梯度下降算法中
最常用的差分隐私保护机制。查询函数的全局敏感度是决定满足差分隐私保护的随机噪声大小的关键因素。全局敏感度定义如下。 定义1 查询函数F的全局敏感度为
1,max||()()||DD
FDD
′′
Δ=−FF (2)
其中,D和D′至多只相差一条记录,||()D−F
2018013-2