非对称性相关技术应用于商业数据分析的研究
- 格式:pdf
- 大小:453.57 KB
- 文档页数:5
《数据安全保护技术研究》分析报告范本一、引言数据安全在当今信息时代的重要性愈发凸显。
随着技术的不断进步和应用的普及,数据的规模和种类不断增加,同时也带来了数据泄漏和安全威胁的风险。
二、研究目的和意义本研究旨在深入探讨数据安全保护技术,分析其应用和前景,并为相关机构和企业提供参考,以加强数据安全保护意识和能力。
三、数据安全保护技术的背景1. 数据安全保护技术的定义:数据安全保护技术是指基于加密、防病毒、访问控制等方法和技术手段,保障数据不被未经授权的人员获取、篡改和破坏的一系列技术措施。
2. 数据安全保护技术的发展历程:数据安全保护技术从传统的单一防护手段逐渐发展为综合应用的防护体系,如传统的防火墙、入侵检测系统(IDS)等到现代的数据加密、数据备份恢复等。
四、数据安全保护技术的分类和应用1. 数据加密技术:通过对数据进行加密,保护数据的隐私和完整性,常见的数据加密算法有对称加密算法和非对称加密算法。
2. 访问控制技术:通过授权机制和权限管理,确保只有合法用户才能访问和操作数据,常见的访问控制方法包括密码、生物识别技术等。
3. 防病毒技术:通过实时监测和拦截病毒的传播,保护系统和数据免受病毒的侵害,常见的防病毒技术包括杀毒软件、入侵检测系统等。
4. 数据备份恢复技术:将重要数据备份存储在安全的地方,以防意外情况导致数据丢失,常见的数据备份恢复技术包括手动备份和自动化备份。
五、数据安全保护技术的前景和挑战1. 前景:随着大数据、云计算、物联网等技术的快速发展,对数据安全保护技术的需求不断增长,数据安全技术有望在多个领域得到广泛应用。
2. 挑战:数据安全保护技术面临着不断进化的黑客攻击、隐私保护和合规性要求等难题,需要不断跟进技术发展,提高安全保护能力。
六、结论数据安全保护技术在当今信息社会中具有重要意义,通过对数据加密、访问控制、防病毒和数据备份恢复等技术的应用,可以有效保护数据的安全性和完整性。
然而,数据安全保护技术仍然面临着众多挑战,需要不断创新和完善。
计算机网络数据库的安全管理技术分析【摘要】计算机网络数据库的安全管理技术是保障数据库系统稳定运行和信息安全的重要手段。
本文从数据库安全管理概述、访问控制技术、加密技术、审计技术以及备份与恢复技术等方面对计算机网络数据库的安全管理技术进行了深入分析和探讨。
通过综合分析各项技术的优劣势,揭示了当前数据库安全管理存在的问题,并提出了未来的发展趋势和发展方向。
本文旨在帮助研究人员和从业者更好地了解和应用计算机网络数据库的安全管理技术,提高数据库系统的安全性和稳定性,为信息安全领域的发展贡献力量。
【关键词】计算机网络数据库、安全管理技术、访问控制、加密技术、审计技术、备份与恢复技术、综合分析、发展趋势、总结。
1. 引言1.1 研究背景计算机网络数据库的安全管理技术一直是信息安全领域的重要议题。
随着计算机网络的普及和应用领域的不断扩大,数据库中存储的信息量也在快速增长,其中包含着大量的机密和重要数据。
随之而来的数据泄震动一直存在,数据库面临着各种安全威胁和风险。
如何有效保护数据库中的数据安全,成为了当今信息社会中亟需解决的问题。
在当前信息技术高度发达的背景下,数据库安全管理技术越发复杂和多样化。
传统的安全管理方法已难以满足日益复杂的安全需求,因此需要进一步深入研究和探讨新的安全管理技术。
通过对数据库安全管理技术的分析研究,不仅可以有效提升数据库的安全性,还可以为企业和组织提供更加全面和有效的数据保护方案,从而提升信息系统整体的安全性和可靠性。
基于上述背景,本文旨在对计算机网络数据库的安全管理技术进行深入分析和探讨,以期为相关研究和实际应用提供有益的参考和借鉴。
通过系统梳理和分析数据库安全管理的主要技术手段,为读者深入了解数据库安全管理技术提供有力支持和帮助。
1.2 研究目的数据库安全管理技术是计算机网络系统中非常重要的一个方面,其目的在于保护数据库中的数据不被未经授权的访问、篡改或破坏。
本文旨在对计算机网络数据库的安全管理技术进行深入分析和探讨,以实现更加全面和有效的数据安全保护。
0引言定性比较分析(Qualitative Comparative Analysis ,QCA )方法是基于布尔代数与集合论的组态分析方法[1],区别于传统的回归分析视角,QCA 能准确揭示多重、复杂的因果关系,尤其重视整体下的条件组态,通过QCA 可深化对现有理论研究的认识[2]。
近年来,这一研究方法在社会科学领域受到广泛重视,适用于国家层面创新创业的分析研究。
创新创业是一个复杂系统的动态演化过程,国家层面的创新创业受到多个因素的复杂交互非线性影响。
如何更好地探究国家创新创业模式,提高国家创新能力,是国家创新创业研究向科学化方向发展需要解决的问题。
本文对QCA 在创新和创业2个领域上的研究进行系统梳理和分析,在此基础上探讨国家未来发展的方向,旨在为提高国家创新绩效、推动国家创业成长提供一定的研究思路,为国内学者应用QCA 研究国家创新创业发展提供理论支持与参考[3]。
1QCA 方法应用于创新创业研究的文献分析1.1文献概况从国外文献发表的方式和数量看,2008—2022年以“QCA ”和“innovative ”为检索主题词搜索到的文献主要来自美国科学情报研究所的Web of Science 数据库。
国外创新创业领域应用QCA 方法的文献统计如图1所示,在检索到的50篇文献中,国外创新能力研究使用QCA 的相关文献较少,但数量上大体呈上升趋势。
国内创新创业领域应用QCA 方法的文献统计如图2所示,在知网搜索到的文献分布于2018—2022年,5年间发表文献的数量总体呈上升趋势,从国内文献发表数量看,QCA 方法还处于发展初期,正逐步得到管理学界的认可。
2008年2009年2010年2011年2012年2013年2014年2015年2016年2017年2018年2019年2020年2021年2022年总数“QCA ”和“innovative ”“QCA ”和“entrepreneurship ”(篇)图1国外创新创业领域应用QCA 方法的文献统计1.2研究评述本文对近年来QCA 方法应用于国家层面创新、创业领域研究中的国内外代表性文献进行检索及整理,梳理出10篇文献,其中创新领域与创业领域的研究各5篇(见表1)。
解密数据分析的密码学习使用统计学方法在当今信息时代,数据分析已经成为了各行各业的重要工具,它通过对海量数据的收集、整理、分析和应用,为决策者提供了科学依据。
然而,这些数据中往往蕴含着重要的商业机密、个人隐私等敏感信息,泄露将会对企业和个人带来极大的损失。
为此,加密技术在数据分析中的应用就显得尤为重要。
本文将介绍如何使用统计学方法进行数据分析的密码学学习,以保证数据的安全性与可信度。
1. 数据加密的基本原理数据加密是指将明文数据通过一定的算法和密钥转化为密文,在一定的加密解密规则下,恢复为明文。
数据加密主要基于两类算法:对称加密算法和非对称加密算法。
对称加密算法使用相同的密钥进行加密和解密,算法速度快但密钥传输不安全;非对称加密算法使用公钥加密、私钥解密,算法安全但速度较慢。
在数据分析中常使用对称加密算法,以确保数据的传输安全与效率。
2. 数据加密的统计学方法为了构建安全可信的数据分析系统,需要借助统计学方法。
首先,通过对数据的分布、相关性等统计特性进行分析,选取适当的加密算法和密钥长度。
其次,对数据进行匿名化处理,去除直接可识别的个人敏感信息,如姓名、电话号码等,以保护用户隐私。
然后,根据数据类型和场景要求,采用适当的加密算法,如AES、DES等,对数据进行混淆和加密,提高数据的安全性与可信度。
最后,使用密钥管理机制对加密密钥进行管理和分发,确保数据的保密性。
3. 加密技术在数据分析中的应用数据加密技术在数据分析中有着广泛的应用。
首先,在数据传输过程中,对数据进行加密可以保证数据在传输过程中不被非法获取和篡改。
其次,在数据存储过程中,对数据进行加密可以防止数据被未经授权的人员访问。
再次,对于敏感数据的分析和挖掘,加密技术可以保证数据的隐私和机密性,防止商业机密被泄露。
此外,加密技术还可以应用于数据共享和数据开放场景,确保数据在共享过程中的安全性。
5. 加密技术的挑战和发展虽然数据加密技术在数据分析中起到了重要作用,但也面临着一些挑战。
一、引言2006年9月5日新加坡推出境外首支以中国A股为标的的股指期货——富时中国A50股指期货(原名“新华富时中国A50指数”)。
由于富时中国A50股指期货与中国A 股市场的交易时间存在差异,富时中国A50股指期货也被投资者当作中国A 股价格走向的风向标。
可见,检验富时中国A50股指期货与股指现货市场间的价格关系具有重要的现实投资指导意义。
对此当前富时中国A50股指期货对A 股市场在价格引导方面的表现如何?不同阶段的价格关系是否相同?不同频率的价格波动幅度是否存在显著的差异?这些问题都有待解决,全球新冠肺炎疫情加剧了金融市场的波动,若投机资本通过股指期货的杠杆效应在两个市场之间进行投机,将会加剧中国A 股市场的波动。
因此,系统分析新加坡富时中国A50股指期货与股指现货之间的波动溢出效应,对于投资者对冲A 股的投资风险、市场监管机制建设具有重要的研究价值。
二、文献综述从相关文献来看,国内外学者经过研究发现期货价格能够对市场信息反应迅速,Hasbrouck (1995)发现期货能够引导市场价格走势,如果这种价格走势趋于合理,则说明其更具有价格发现功能。
为检验这一功能,国内外学者普遍采用ADF 方法对期货和现货基金项目:国家社科基金重大项目“中国—中南半岛经济走廊沿线综合调查数据库建设”(16ZDA092)收稿日期:2020-12-30作者简介:霍林,女,广西柳州人,工学博士,教授,博士生导师,供职于广西大学国际学院,研究方向为大数据分析、应用经济学。
黄俊杰,男,广西桂林人,广西大学国际学院,研究方向为国际金融。
新加坡富时中国A50股指期货的波动溢出效应研究霍林黄俊杰(广西大学,广西南宁530004)摘要:新加坡富时中国A50是第一只也是境外唯一一只衡量中国A 股的股指期货,近年来与A 股市场之间联动效应越来越明显。
对此,本文采用2006年9月5日至2020年9月30日数据分析不同时段现货与期货的价格关系,基于静态非对称BEKK-GARCH 模型与动态DCC-MVGARCH 模型检验该股指期货与股指现货在不同频率下的波动溢出效应。
医疗数据分析中的敏感数据脱敏与匿名化技术研究近年来,随着医疗信息技术的发展和大数据的兴起,医疗数据分析在医疗行业中具备了巨大的潜力。
然而,与此同时,医疗数据的敏感性也成为了一个令人关注的问题。
为了保护患者的隐私,医疗数据分析中的敏感数据脱敏与匿名化技术应运而生。
敏感数据脱敏是一种保护个人隐私的技术手段,通过对敏感数据进行处理,使得敏感信息无法被还原,从而降低了数据泄露的风险。
在医疗数据分析中,敏感数据主要包括患者的个人身份信息及健康状况等。
对于这些敏感数据的脱敏过程中,我们可以采用多种技术手段,例如数据删除、数据加密、数据替换等。
首先,数据删除是一种较为简单粗暴的脱敏方式,即直接删除敏感字段或者整个记录。
这种方式可以有效防止患者个体信息的泄露,但同时也会导致数据的质量下降,可能无法满足一些特定问题的分析需求。
其次,数据加密是一种较为常见的敏感数据脱敏方式。
通过对敏感数据进行加密,可以在数据不易被还原的同时,保证数据的可用性。
常见的加密算法有对称加密算法和非对称加密算法。
对称加密算法使用相同的密钥进行加密和解密,而非对称加密算法则使用公钥和私钥进行加密和解密。
医疗数据分析中,我们可以根据具体情况选择适当的加密方式。
此外,数据替换也是一种常见的敏感数据脱敏方式。
该方式将敏感数据替换为伪装数据,从而避免敏感信息的泄露。
常见的替换方式有:用随机数替代,用通用值替代,用具体的区间代替等。
这种方式能够在保护患者隐私的同时,保持原有数据的特征。
另外,为了进一步保护患者隐私,医疗数据分析中的匿名化技术也被广泛应用。
匿名化是将个人信息与相关标识进行分离,以确保不会对个体进行识别。
在医疗数据分析中,匿名化主要有两种方式:一是直接使个人身份无法追踪,例如将个人身份与医疗记录分离,匿名化后再进行分析;二是采用伪装化的方式,如将个人身份替换为虚拟身份。
这些匿名化技术在保护患者隐私的同时,也为医疗数据分析提供了可靠的数据基础。
国际粮食价格对中国粮食价格的非对称传导作者:韩磊来源:《当代经济科学》2018年第02期摘要:本文利用1998—2015年月度价格数据,借助门限自回归模型研究了国内外粮价的非对称性传导关系。
研究表明:稻谷、玉米和大豆的国内外价格具有非对称协整关系;长期来看,国际稻谷价格变动的451%、玉米价格变动的528%、大豆价格变动的676%会分别传导到国内市场,但短期内只有稻谷国际价格的变动会迅速传导到国内市场。
价格传递具有非对称性,当国际价格下降时,减少50%偏差玉米和大豆分别需要201个月和151个月,但价格上升时长期调整速度则不显著。
为了降低国内粮价波动及国际市场的影响,需要从价格、成本及品质等方面不断提高国内粮食产业竞争力。
关键词:粮食市场;价格传导;非对称性;门限自回归模型文献标识码:A 文章编号:1002-2848-2018(02)-0078-07一、引言中国加入世界贸易组织以来,国内市场和国际市场不断接轨,农业对外开放程度逐步加深,粮食进口规模快速增长。
2002—2015年,中国粮食进口量从1417万吨增加到125亿吨,年均增长182%。
随着中国粮食市场国际化程度的提高,国际粮价波动对国内粮食市场的影响也逐渐凸显。
国际粮价在2007—2008年的全球粮食危机期间显著上涨,同期中国粮价尤其是大豆价格也呈现出大幅上涨态势。
但2014年以来,国际粮价大幅下滑的同时中国粮食市场却保持相对平稳。
这意味着国际粮价对国内粮价的传导①可能存在非对称效应和阶段性差异。
已有大量文献表明,国际粮价波动最终会传导到国内粮食市场[1-5]。
但国际粮价波动是如何传导到国内粮食市场的,国际粮价上涨和下降对国内粮食市场的传导程度是否对称,当前研究并没有确定性的经验证据。
在中国粮食市场开放程度不断提高的语境下,回答上述问题显得更加迫切。
基于此,本文利用1998—2015年稻谷、小麦、玉米、大豆的月度价格数据,对国际粮价对国内粮价的传导效应进行实证分析,以期为中国粮食价格调控政策的调整提供经验证据和决策参考。
第17章 相关分析唯物论者认为,任何事物之间都是有联系的,这种联系间存在着强弱、直接或间接的差别。
相关分析就是通过定量的指标来描述这种联系。
提到相关分析,许多人会认为,研究的是两个变量间的关系。
但实际上,广义的相关分析研究的可以是一个变量和多个变量之间的关系,也可以是研究两个变量群,甚至于多个变量群之间的关系。
17.1 相关分析简介测量相关程度的相关系数有很多,各种参数的计算方法、特点各异。
有的基于卡方值、有的则主要考虑预测效果。
有些是对称性的,有些是非对称性的(在将变量的位置互换时,对称性参数将不变,非对称性参数则会改变)。
大部分关联强度参数的取值范围在0~1之间,0代表完全不相关,1代表完全其取值范围则在-1到11.连续变量的相关指标这种情况是最多见的,此时一般使用积差相关系数,又称为Pearson 相关系数,来表示其相关性的大小,其数值介于-1~1之间,当两个变量的相关性达到最大,散点呈一条直线时取值为-1或1,正负号表明了相关的方向;如两变量完全无关,则取值为0。
积差相关系数应用非常广泛,但严格地讲只适用于两变量呈线性相关时。
此外,作为参数方法,积差相关分析有一定的适用条件,当数据不能满足这些条件时,分析者可以考虑使用Spearman 等级相关系数来解决这一问题。
2. 有序变量的相关指标对于有序的等级资料的相关性,又往往称其为一致性,所谓一致性高,就是指行变量等级高的列变量等级也高,行变量等级低的列变量等级也低。
如果行变量等级高而列变量等级低,则称其为不一致。
3. 名义变量的相关指标 见教材,p328-329。
4. 其他特殊指标 见教材,p329。
也可参考 李沛良书第四章p80-118。
17.1.2 SPSS 中的相应功能SPSS 的相关分析功能基本可以在两个过程中完成。
1. “交叉表:统计量”子对话框 (1)“相关性”复选框:适用于两个连续变量的分析,计算行-列变量的Pearson 相关系数和Spearman 相关系数。
2010年第12期 福 建 电脑 75 非对称性相关技术应用于商业数据分析的研究 吴学超 (福建新大陆电脑股份有限公司福建福州350015)
【摘要】:通过条码识读设备和税控收款机可以容易地收集到大量的商业数据(购物篮数据),对这样 的商业数据的相关分析是商业辅助决策系统的一项重要内容。文章首先研究了购物篮数据项间的相关性, 分析了其非对称性的特点,引入了衡量非对称相关性的方法;并对统计独立性进行了研究,提出基于信息 熵的新方法用于检验非对称相关的统计独立性。最后,通过一个实例验证了上述方法的有效性。 【关键词】:数据挖掘;购物篮分析;相关性;对称性
在商业领域.条码技术和税控收款机技术的发展 使得商场、超市能容易地收集、存储大量的销售记录, 这些商业数据也称为购物篮数据(basket data)… 。在研 制新大陆税控收款机增值服务系统(商业营销辅助决 策系统)过程中,我们提出使用数据挖掘模型作为系统 的基础技术架构.购物篮数据分析是其中的一项关键 技术。 关联rassociation)分析是数据挖掘技术在购物篮数 据分析中的一项典型应用.其目的是挖掘购物篮数据 项间的有趣联系。在关联分析领域,已提出著名的 Apriori算法用于关联规则挖掘.Brin等人将关联规则推 广到相关(COrrelation)分析,文献[4,5]给出了相关分析 在商业领域的一些应用。然而.在构造商业数据挖掘模 型时.我们发现商品间的相关性存在明显的非对称现 象.这种特性使得上述经典技术和方法的有效性大大 降低。为此,本文研究了一种描述商品间这种非对称相 关的方法.并对其统计独立性进行了分析,在指出传统 方法缺点的基础上。提出了一种基于信息熵新方法.并 在实际购物篮数据上进行了实例验证 本文第1节主要介绍相关性分析的有关背景知识 和相关研究工作:第2节探讨非对称相关性的度量方法 以及基于信息熵的统计检验方法:第3节通过实例对研 究成果进行验证:最后在第4节结束语中对本文研究成 果进行总结并简要介绍研究成果的应用成效。 1、购物篮数据及其相关分析 商品间的相关性分析由关联分析延伸而来.下面 使用关联规则挖掘 中的一些记号和定义来描述购 物篮数据及其相关分析。 定义1事务:事务是顾客一次交易所购买的全部 商品的集合 所有事务的集合构成一个事务数据库,记为T。T也 就是本文涉及的购物篮数据的集合。ITl表示T中的事务 总数。 定义2项:事务数据库中的一个字段,也就是一种 商品,用x1,x2,…表示。 定义3项集:项集I ={x。,x:,…,x }为k个项的集合。I 也称为k一项集 定义4关联规则:对于包含n个项的事务数据集T. 形如AfB的规则为T的关联规则,其中A、BcI 是非空项
集.且AnB= 关联规则描述的是各种商品之间的关联关系.这 种关系以(一些商品A)f(另一些商品B)的形式表示,其 含义是顾客在购买商品A的同时也倾向于购买商品B 关联规则的“有趣程度”用下列的支持度和置信度衡 量。 定义5支持度:考虑任意项集I,若T中s%的事务包 含I.称I的支持度为s%。 定义6置信度:对于形如A B的关联规则,若T中 包含项集A的事务中有c%的事务也包含项集B.则关联 规 ̄JA(B的置信度为c%。 从统计学的角度看.项集A、B在事务数据T中的出 现可以看作两个随机变量X、Y的2个事件X=A和Y=B。 为叙述方便.在不引起混淆的情况下,下文将直接使用 A表示事件X=A,B表示事件Y=B。这样,规则AfB的支 持度可以表示为概率P(AuB1,置信度为条件概率P(BI A),分别反映了规则的有用性(同时购买项集A和B的所 有商品的可能性有多大)和确定性f购买了项集A中的 商品的顾客同时购买了B中商品的可能性有多大1。若 一条规则的支持度和置信度分别大于给定的最小阈 值.称这样的规则是“有趣的”。相关分析从使用支持 度一置信度架构的关联分析扩充而来.通常.当A并非独 立于B出现时.称A和B是相关的。 定义7相关:对于项集A和项集B,若P(AuB)≠P (A)P(B),则项集A和项集B是相关的。 定3L8相关规则:形如I ={x ,x2,…,xk}这样的项集, 其中项xI’x 一,Xk的出现是相关的。 购物篮数据项间的此类相关性是很常见的.但其 中的一些相关可能是随机发生的。假设某个顾客根据 76 福建电脑 2010年第12期 自己的需要同时购买了两样商品.此时可以认为这两 样商品是有关联的.因为它们同时出现在了一个事务 中,但是对于商家每天产生的大量事务而言,某一个顾 客的行为并不具备统计上的意义.该顾客也许只是一 次偶然的需要而同时购买了这两样商品.构成了这两 样商品之间随机的相关。直观上理解,只有“许多”顾客 都同时购买了这两样商品.才可以判断为这样的关联 购买行为具有普遍意义 因此.需要检验商品间这种相 关性的可信度。 有许多方法可以进行统计独立性的检查.统计假设 检验就是其中一种常用方法。这里,首先假设A和B是独 立的,构造一个合适的统计量,如x (卡方),用x‘值度量 A和B实际同时出现的概率和期望同时出现的概率之间 的偏差,查自由度为1的卡方表,可以得到一个概率p%, 说明可以在1-p%的置信度上接受A和B是相关的这个 假设。特别地,当x‘=3.84fl ̄p=5%。即x‘≥3.84时可以获得 95%以上的高置信度 在购物篮分析中.使用卡方检验 是发现统计上显著非随机关联的有效方法… .但也存 在局限性.例 ̄8lAhmed已经证明在大于2x2的相关表上 ‘检验是错误的【4]。 2.非对称性相关及其检验 本节首先分析购物篮数据的非对称相关现象.给 出衡量项问非对称相关性的方法.最后研究一种适合 于对这种非对称相关性进行统计检验的方法 2.1购物篮数据项间的非对称相关性 基于项间的相关性挖掘定义8所示的相关规则对 商家而言有重大的现实意义。例如,相关规则fx.,)【',…,x ) 可以提示管理人员xl'x 一'xl历代表的商品是紧密相关 的,对其中呈现正相关的商品f能够互相提升购买的商 品),应调整商品陈列、主动促销,产生更大的效益;对 于负相关的商品。应调整商品结构,积极调整扶持对能 给商家带来最大效益的商品或品类 通过对实际购物 篮数据的分析,我们发现相关规则fx''x 一,x }中项间的 相关性是非对称的。下面给出一个直观的例子。 例1在我们的实际购物篮数据f详见第3节.总事务 数为52020)中有一对商品(a,b),事务集中包含a的事务 数为86。包含b的事务数为31.同时包含a和b的事务数 为l8。这样,购买a商品的顾客同时购买b商品的概率可 1o 估计为P(1)Ia)= 一21%。而购买b商品的顾客同时购买 a商品I ̄P(alb)= 58%。 31 显然。项对<a,b>与<b,a>的相关性是有很大差异 的。P0ala)为21%表明购买a商品的顾客中有21%的可能 会购买b商品。意味着f若这种相关性有很高的置信度 的话1 a商品对b商品的提升率只有20%左右。另一方 面。从P(alb1—58%可知b商品对a商品的提升率达到了 50%以上。因此,对商家来说.b商品显得更为重要,因 为促销b商品的效果将明显好于促销a商品的效果。 项间内的这种非对称性相关在实际的购物篮数据 中是普遍存在的,有必要对其进行深入研究,探讨度量 项间非对称相关性和检验此类非对称相关性置信度的 有效方法.为商家实施商品,品类的精细管理提供辅助 支持。2.2节和2.3节将分别研究这两个问题。 2.2非对称相关性的度量 考虑两个有序项集对<A,B>和<B,A>,A f'lB=(,根 据定义7。其相关程度通常用以下公式计算 : cD elafion(A, ):—P(A—u B) (1)
P( )P(B) 这里,Correlation(A,B)小于1表示A和B负相关:大于 1表示正相关.意味着每一个的出现都蕴含另一个的出 现。由公式(1)可知Correlation(A,B)=Correlation(B,A), 意味着若基于这种传统的相关性衡量方法,<A。B>和< B,A>将具有相同的f对称的1相关性。这无法满足2.1节 指出的实际购物篮数据普遍存在的非对称相关分析的 需求。 为此,引入一种新的度量:提升度Lift,用于衡量有 序项集对<A,B>和<B_A>的相关性: L/fl<A,B>:—P(A ̄B)-—P(A)P(B) (2)
尸( )
Lift<B,A>:—P(AwB)-—P(A)P(B) (3)
P ) 数值上.Lift<A.B>是实际A和B同时出现的概率与 期望A和B同时出现的概率差除以A出现的概率。 Lift<A,B>≠Lh<B,A>,体现T<A,B>和<B,A>非对称 的相关性。使用例l的数据,Lift<a,b>:—18-86x3—1/52020
86 0.2087,Lift<b,a>:—18-86x3—1/52020 0.5790。根据2.
3l
1节分析.Lift<a’b>和Lift<b,a>的数值比较客观地反映 了<A,B>和<B'A>有区别的相关程度。 根据贝叶斯公式同,P(A u B)=P(A)P(BIA)=P(B)P(AI B),因此公式(2)和(3)可进一步简化为Lift<A,B>=P(BIA)
一P(B) ̄NLift<B,A>=P(AIB)一P(A),这与Ahmed定义H是相 符的。1:2Lifl<A,B>为例,从简化公式易知Lifl<A,B>∈[一 1,十1],当A与B相互独立时,Lift<A,B>接近于O;当A相 对于B是正相关时Lift<A。B>大于0;当A相对于B是负 相关时Lift<A,B>dx于0;ILift<A,B>I越大,表示相关程度 越高。 由于当A与B相互独立时.Hft<A。B>等于或接近于 0,故可以在数据挖掘模型中设定了一个阈值6 >0, Lifl<A,B>≥6. 时认为A相对于B可能具有显著的正相 关性(这里不考虑负相关,因为A与B间若存在显著负相 关,则应存在有满足uft<B,A>≥8。 的项集对),再使用