第十章典型相关分析
- 格式:doc
- 大小:527.50 KB
- 文档页数:11
第10章相关分析 (225)1 双变量相关分析 (225)1.1 双变量相关分析的数据特征 (225)1.2 皮尔逊相关系数 (225)1.3 肯德尔相关系数 (228)1.4 例题3 (230)2 偏相关关系 (232)2.1 偏相关关系 (232)2.2 例题 (232)3 距离相关分析 (234)3.1 特征 (234)3.2 主要参数 (235)3.3 例题 (235)3.4 实例介绍 (237)第10章相关分析相关分析是研究变量之间关系密切程度的一种统计方法,包括双变量相关分析、偏相关分析和距离相关分析。
1 双变量相关分析1.1 双变量相关分析的数据特征当某一个事物存在着多个变量时,而各个变量之间呈数量关系时,可以用双变量相关分析来研究,并做出统计学推断。
双变量相关分析可以输出两两变量之间的相关系数,相关系数的种类有皮尔逊相关系数、肯德尔相关系数、斯皮尔曼等级相关系数等。
1.2 皮尔逊相关系数X和Y有线性函数关系,两变量间的相关系数是+1~-1,相关系数没有单位。
1.2.1 例题133名产妇进行产前检查,测定X1-X6六项指标,试计算X1-X4的皮尔逊相关系数。
1.2.2 SPSS过程Data,analyze,correlate,打开bivariate对话框,选择x1-x4→variables,选择pearson 相关系数,two-tail,flag significant correlations,打开options对话框,means and standard deviations,exclude case pairwirs,continue,ok.two-tail,双尾检验;Flag significant correlations:用星号显示有显著性相关的相关系数;Exclude case pairwirs:剔除有缺失值的配对变量;Cross-product deviations and covarances:显示每一对变量的离均差交叉积与协方差。
第十章市场营销组合策略4C策略的基本概念14Ps向4Cs的转变24C策略的相关分析3案例分析4随着市场竞争日趋激烈,媒介传播速度越来越快,4Ps理论越来越受到挑战。
1990年,美国学者罗伯特·劳特朋(Robert Lauterborn)教授在其《4P退休4C登场》(New Marketing Litany: Four Ps Passé: C-Words Take Over)专文中提出了与传统营销的4P 相对应的4Cs营销理论。
4C(Customer、Cost、Convenience、Communication)营销理论以消费者需求为导向,重新设定了市场营销组合的四个基本要素:瞄准消费者的需求和期望(Customer)。
基本概述:1970年,美国著名未来学家AlvinToHler在其著名的Futureshock中曾预言:“未来的社会将要提供的并不是有限的、标准化的商品,而是有史以来最大多样化的、非标准化的商品和服务。
”大规模定制作为一种现代生产和管理的模式,将大规模生产和定制生产两种生产模式结合起来,以低成本向多元化细分市场生产和销售满足客户个性化要求的产品和服务,最终形成“销售—生产—服务”一体化模式。
为了实现向客户提供低成本、高质量的个性化定制产品和服务的目标,必须迅速发现和准确捕捉细分市场中个性化客户需求信息,与客户直接进行交流。
传统的以推销为中心的市场营销方式已经不再适应大规模定制生产模式的要求。
大规模定制作为一种崭新的生产和管理模式必然要求有一种新的市场营销方式与之对应。
大规模定制营销需要以市场为起点,发现和挖掘客户的个性化需求,以此制定综合的市场营销组合策略,以实现顾客价值和企业效益的双赢。
4Cs :指代Customer(顾客,主要指顾客的需求)、Cost(成本)、Convenience(便利)和Communication(沟通)。
Customer(顾客):主要指顾客的需求。
典型相关分析典型相关分析是一种统计学方法,用于研究两组变量之间的关系。
典型相关分析可以帮助我们了解这两组变量之间的相互关系以及它们是否能够彼此预测。
在本文中,我们将探讨典型相关分析的基本概念、应用场景、计算方法以及结果的解释和解读。
典型相关分析,又称为典型相关系数分析,是一种多变量统计技术,它可以在两组变量之间寻找最具相关性的线性组合,这个线性组合被称为典型变量。
典型相关分析的核心思想是将两组变量转化为一组最具相关性的综合变量,以便探索和解释它们之间的关系。
典型相关分析通常用于探索两组变量之间的关系,并确定是否存在一个或多个典型相关系数。
在许多实际应用中,这些变量可能代表相互关联的特征或维度,比如市场规模和销售额、学习时间和考试成绩等。
典型相关分析可以用于许多领域的研究。
例如,在市场研究中,我们可以使用典型相关分析来研究不同市场因素之间的关系,并确定市场的发展趋势。
在教育研究中,我们可以使用典型相关分析来研究学生的学习习惯和学术成绩之间的关系,以帮助教育者改进教学方法和学习环境。
接下来,我们将介绍典型相关分析的计算方法。
假设我们有两组变量X和Y,其中X包含p个变量,Y包含q个变量。
首先,我们计算X和Y的样本协方差矩阵SXX和SYY,以及它们之间的协方差矩阵SXY。
然后,我们对SXX和SYY进行特征值分解,得到它们的特征向量和特征值。
接下来,我们选择最大的r个特征值和对应的特征向量。
最后,我们计算典型相关系数以及典型变量。
结果的解释和解读是典型相关分析的最后一步。
典型相关系数的取值范围为-1到1,其中取值为1表示两组变量之间存在完全正相关的关系,取值为-1表示存在完全负相关的关系,取值为0表示两组变量之间不存在相关性。
此外,我们还可以通过检验统计量来判断典型相关系数是否显著。
总结起来,典型相关分析是一种统计学方法,用于研究两组变量之间的关系。
它可以帮助我们了解这两组变量之间的相互关系以及它们是否能够彼此预测。
第八章相关与回归分析一、本章重点1.相关系数的概念及相关系数的种类。
事物之间的依存关系,能够分为函数关系和相关关系。
相关关系又有单向因果关系和互为因果关系;单相关和复相关;线性相关和非线性相关;不相关、不完全相关和完全相关;正相关和负相关等类型。
2.相关分析,着重掌握如何画相关表、相关图,如何测定相关系数、测定系数和进行相关系数的推断。
相关表和相关图是变量间相关关系的生动表示,对于未分组资料和分组资料计算相关系数的方式是不同的,一元线性回归中相关系数和测定系数有着紧密的关系,取得样本相关系数后还要对整体相关系数进行科学推断。
3.回归分析,着重掌握一元回归的大体原理方式,一元回归是线性回归的基础,多元线性回归和非线性回归都是以此为基础的。
用最小平方式估量回归参数,回归参数的性质和显著性査验,随机项方差的估量,回归方程的显菁性査验, 利用回归方程进行预测是回归分析的主要内容。
4.应用相关与回归分析应注意的问题。
相关与回归分析都有它们的应用范围,必需明白在什么情形下能用,什么情形下不能用。
相关分析和回归分析必需以定性分析为前提,不然可能会闹岀笑话,在进行预测时选取的样本要尽可能分散,以减少预测误差,在进行预测时只有在现有条件不变的情形下才能进行,若是条件发生了转变,原来的方程也就失去了效用。
二、难点释疑本章难点在于计算公式多,不容易记忆,所以更要注重计算的练习。
为了辜握大体计算的内容,最少应认真理解书上的例题,做完本指导书上的全数计算题。
初学者可能会感到本章公式多且复杂,难于记忆,其实只要抓住Lxx、Lxy. Lyy 这三个记号,记住它们的展开式,几个主要的公式就不难记忆了。
若是能自己把这些公式推证一下,弄清其关系,那就更易记住了。
三、练习题(一)填空题1事物之间的依存关系,按照其彼此依存和制约的程度不同,能够分为()和()两种。
2.相关关系按相关关系的情形可分为()和();按自变量的多少分()和();按相关的表现形式分()和();按相关关系的紧密程度分()、()和();按相关关系的方向分()。
第十章 典型相关分析(Canonical Correlation Analysis )§10.1 引言一、何时采用典型相关分析1.两个随机变量Y 与 X −−−→−相关关系简单相关系数; 2.一个随机变量Y 与一组随机变量 p X X ,,1 −→−多重相关(复相关系数); 3.一组随机变量q Y Y ,,1 与另一组随机变量p X X ,,1 −→−典型(则)相关系数。
典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相关系数的特例。
典型相关是研究两组变量之间相关性的一种统计分析方法,也是一种降维技术。
二、实例由Hotelling (1935, 1936)最早提出,Cooley and Lohnes (1971)、 Kshirsagar (1972)和 Mardia, Kent, and Bibby (1979) 推动了它的应用。
实例(X 与Y 地位相同)1985年中国28 省市城市男生(19~22岁)的调查数据。
记形态指标身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽分别为621,,X X X ;机能指标脉搏(次/分)、收缩压(mmHg) 、舒张压(变音)、舒张压(消音)、肺活量(ml)分别为521,,Y Y Y 。
现欲研究这两组变量之间的相关性。
简单相关系数矩阵用简单相关系数描述两组变量的相关关系的缺点:只是孤立考虑单个X 与单个Y 间的相关,没有考虑X 、Y 变量组内部各变量间的相关。
两组间有许多简单相关系数(实例为30个),使问题显得复杂,难以从整体描述。
(复相关系数也如此)。
对于上例,要想研究两组变量间的相关关系,构造线性函数如下:525222121616212111Y a Y a Y a V X a X a X a U +++=+++=要求它们之间具有最大相关性,这就是典型相关分析问题。
§10.2 典型相关分析的统计思想典型相关分析研究两组变量之间整体性的线性相关关系,它是将每一组变量作为一个整体来进行研究而不是分析每一组变量内部的各个变量。
典型相关分析是借助于主成分分析的思想,对每一组变量分别寻找线性组合,使生成的新的变量能代表原始变量大部分的信息,同时,与由另一组变量生成的新的综合变量的相关程度最大,这样一组新的综合变量称为第一对典型相关变量,同样的方法可以找到第二对、第三对…使得各对典型相关变量之间互不相关,典型相关变量之间的简单相关系数称为典型相关系数。
典型相关分析就是用典型相关系数衡量两组变量之间的相关性。
一、典型相关分析的统计思想采用主成分思想寻找第i 对典型(相关)变量:mq p i Y b Y b Y b Y b V Xa X a X a X a U q iq i i i p ip i i i =='=+++='=+++=),min(,,2,1 ,22112211典型相关系数),(i i i V U Corr CanR =典型变量系数或典型权重b a '',,此处X 、Y 是已经过标准化的变量。
记第一对典型相关变量间的典型相关系数为:),(111V U Corr CanR = 使1U 与1V 间最大相关;第二对典型相关变量间的典型相关系数为:),(222V U Corr CanR =使2U 与2V 间最大相关,且分别与11,V U 无关;……。
第i 对典型相关变量间的典型相关系数为:),(i i i V U Corr CanR =,使i U 与i V 间最大相关,且分别与 ,,,,2211V U V U 无关;且0121≥≥≥≥≥i CanR CanR CanR 。
二、典型相关分析的基本理论和方法设有两组随机变量:()()'='=q p Y Y Y Y X X X X ,,,,,,,2121 ,X 、Y 的协方差矩阵为:⎪⎪⎭⎫⎝⎛∑∑∑∑=∑22211211。
设q p <,11∑是第一组变量的协方差阵,22∑是第二组变量的协方差阵,2112∑'=∑是两组变量之间的协方差阵。
且当∑是正定阵时,12∑与21∑也是正定的。
为了研究两组变量 X,Y 之间的相关关系,考虑它们的线性组合:⎩⎨⎧'=+++='=+++=Y b Y b Y b Y b V Xa X a X a X a U q q p p 1212111112121111 我们希望在X 、Y 及∑给定的条件下,选取b a ,使1U 与1V 之间的相关系数()()()max ,),(111→''''==Yb Var X a Var Y b X a Cov V U Corr CanR ,即问题成为 ()m ax ,121→∑'=''=b a Y b X a Cov CanR (1) ⎩⎨⎧=∑'='=∑'='1)(1)(..2211b b Y b Var a a X a Var t s (2)说明:由于随机变量乘以常数不改变它们之间的相关关系,所以可以取标准化的随机变量。
§10.3 总体的典型相关系数和典型变量一、总体的典型相关系数和典型变量的求法在约束条件(2)下,求qpR b R a ∈∈,使得(1)式达到最大。
由拉格朗日乘数法,这一问题等价于:()()max 1212221112→-∑'--∑'-∑'=b b a a b a G μλ,由极值的必要条件得:⎪⎩⎪⎨⎧=∑-∑=∂∂=∑-∑=∂∂0022121112b a aG a b a Gμλ (3)用b a '', 分别左乘(3)式,有⎩⎨⎧=∑'=∑'=∑'=∑'μμλλb b a b a a b a 22121112,又()'∑'=∑'b a a b 1212,所以有()λμ='∑'=∑'=b a a b 1212,即λ恰好是线性组合1U 和1V 之间的相关系数。
于是解方程组(3)归结为解方程组:⎩⎨⎧=∑-∑=∑-∑022121112b a a b μλ (4)以12212-∑∑左乘(4)中第二式并将第一式代入得:()a Aa a a a 222112212111112211221200λλλ=⇒=-∑∑∑∑⇒=∑-∑∑∑---;以11121-∑∑左乘(4)中第一式并将第二式代入得:()b Bb b b b 221211121122222121112100λλλ=⇒=-∑∑∑∑⇒=∑-∑∑∑---说明2λ既是A 又是B 的特征根,b a ,就是其相应于A 和B 的特征向量。
A 和B 的特征根的性质:(1)A 和B 有相同的非零特征根,且相等的非零特征根数目等于p ; (2)A 和B 的特征根非负;(3)A 和B 的全部特征根均在0~1之间。
通常用022221>≥≥≥p λλλ 表示;并称021>≥≥≥p λλλ 为典型相关系数,相应的单位特征向量分别为p p b b a a ,,;,1,1 。
综上所述,有如下定义:定义 在一切使方差为1的线性组合X a '与Y b '中,其中两者相关系数最大的X a U 11'=与Y b V 11'=称为第一对典型相关变量,它们的相关系数1λ,称为第一典型相关系数。
一般地,在定义了1-i 对典型相关变量后,在一切使方差为1且与前1-i 对典型相关变量都不相关的线性组合X a U i i '=与Y b V i i '=中,两者相关系数最大者称为第i 对典型相关变量,其相关系数称为第i 对典型相关系数。
相关系数i λ越大,说明相应的典型变量之间的关系越密切,因此一般在实用中忽略典型相关系数很小的那些典型变量,按i λ的大小只取前几个典型变量及典型相关系数进行分析。
二、典型相关变量的性质1.由p X X X ,,,21 所组成的典型变量p U U U ,,,21 互不相关,由q Y Y Y ,,,21 所组成的典型变量q V V V ,,,21 也互不相关,且它们的方差均等于1,即()()⎩⎨⎧≠==⎩⎨⎧≠==ji ji V V Cov j i ji U U Cov j i j i ,0,1,,0,1,2.同一对典型变量i U 与i V 之间的相关系数为i λ,不同对的典型变量i U 与()j i V j ≠ 之间互不相关,即()⎩⎨⎧≠=≠=j i ji V U Cov ij i,0,0,λ 3.i U , i V 的均值为0,方差为1。
§10.4 样本的典型相关系数和典型变量在实际研究中总体协方差阵∑是未知的,通常用样本数据估计∑。
设)()2()1(,,,n X X X 是来自总体容量为n 的样本,则∑的极大似然估计为:()'--=∑∑=X X X X n i n i i )(1)()(1ˆ其中∑==ni i X n X 1)(1 ,用∑ˆ代替∑,并按照前面的办法求出i i i b a ˆ,ˆ,ˆλ,称iλˆ为样本典型相关系数,称),,2,1(ˆˆ,ˆˆ)2()1(p i X b V X a U ii i i ='='=为样本的典型变量。
并且可以证明i i i b a ˆ,ˆ,ˆλ 分别为总体典型相关系数和典型相关系数向量i i b a ,的极大似然估计量。
计算时也可从样本的相关阵出发求样本的典型相关系数和典型变量。
()ij r R R R RR =⎥⎦⎤⎢⎣⎡=22211211其中p j i s s s r jjii ij ij ,,1,, ==;令⎪⎪⎪⎪⎪⎭⎫⎝⎛=pps s s S00000022111,⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=++++qq p p p p s s s S000002,21,12则有212112222222111111ˆ,ˆ,ˆS R S S R S S R S =∑=∑=∑, 进一步可得:⎩⎨⎧=-=-----0)ˆ)(ˆ(0)ˆ)(ˆ(221211121122122112212111i i i i b S R R R R a S R R R R λλ 则i i b S a S ˆ,ˆ21分别为矩阵2112212111R R R R --与1211121122R R R R --的相应于特征根iλˆ的特征向量, 且有第i 对样本的典型变量:p i X b V X a U ii i i ,,1,ˆˆ,ˆˆ)2()1( ='='=和典型相关系数iλˆ。
典型相关分析示意图:§10.5 典型相关系数的显著性检验在作两组变量的典型相关分析之前,首先应检验两组变量是否相关。