相关与回归分析(61)
- 格式:ppt
- 大小:586.00 KB
- 文档页数:14
直线相关与回归分析的区别和联系
1、区别
(1)资料要求不同相关要求两个变量是双变量正态分布;回归要求因变量Y服从正态分
布,而自变量X是能精确测量和严格控制的变量。
(2)统计意义不同相关反映两量变间的伴随关系,这种关系是相互的、对等的,不一定
有因果关系;回归则反映两变量间的依存关系,有自变量和因变量之分,一般将“因”
或较易测定、变异较小者定为自变量。
这种依存关系可能是因果关系,也可能是从属关系。
(3)分析目的不同相关分析的目的是把两变量间直线关系的密切程度及方向用一统计
指标表示出来;回归分析的目的则是把自变量与因变量的关系用函数公式定量表达出来。
2、联系
(1)变量间关系的方向一致对同一资料,其r与b的正负号一致。
(2)假设检验等价对同一样本,而这的概率值相同
(3)r与b值可相互转换。
(4)用回归解释相关相关系数的平方成为决定系数,是回归平方和与总的离均差平均和之比,故回归平方和是引入相关变量后总平方和减少的部分,其大小取决
于r2。
回归平方和越接近总平方和,则r2越接近1,说明引入相关的效果越好;
反之,则说明引入相关的效果不好或意义不大。
第 1 页共1 页。
回归分析和相关分析的联系和区别回归分析(Regression):Dependant variable is defined and can be forecasted by independent variable.相关分析(Correlation):The relationship btw two variables. --- A dose not define or determine B.回归更有用自变量解释因变量的意思,有一点点因果关系在里面,并且可以是线性或者非线形关系;相关更倾向于解释两两之间的关系,但是一般都是指线形关系,特别是相关指数,有时候图像显示特别强二次方图像,但是相关指数仍然会很低,而这仅仅是因为两者间不是线形关系,并不意味着两者之间没有关系,因此在做相关指数的时候要特别注意怎么解释数值,特别建议做出图像观察先。
不过,无论回归还是相关,在做因果关系的时候都应该特别注意,并不是每一个显著的回归因子或者较高的相关指数都意味着因果关系,有可能这些因素都是受第三,第四因素制约,都是另外因素的因或果。
对于此二者的区别,我想通过下面这个比方很容易理解:对于两个人关系,相关关系只能知道他们是恋人关系,至于他们谁是主导者,谁说话算数,谁是跟随者,一个打个喷嚏,另一个会有什么反应,相关就不能胜任,而回归分析则能很好的解决这个问题回歸未必有因果關係。
回歸的主要有二:一是解釋,一是預測。
在於利用已知的自變項預測未知的依變數。
相關係數,主要在了解兩個變數的共變情形。
如果有因果關係,通常會進行路徑分析(path analysis)或是線性結構關係模式。
我觉得应该这样看,我们做回归分析是在一定的理论和直觉下,通过自变量和因变量的数量关系探索是否有因果关系。
楼上这位仁兄说“回归未必有因果关系……如果有因果关系,通常进行路径分析或线性结构关系模式”有点值得商榷吧,事实上,回归分析可以看成是线性结构关系模式的一个特例啊。
第一节相关分析和回归分析的意义及种类一、相关分析和回归的概念1、变量间的依存关系(1)函数关系:变量保持着严格的依存关系,呈现出一一对应的特征。
(2)相关关系:变量保持着不确定的依存关系,即“若即若离”也。
2、相关分析主要研究:借助于若干分析指标(如相关系数、相关指数等)对变量间的依存关系的紧密程度作测定的过程。
3、回归分析主要研究:对具有相关关系的一些变量,用函数表达式来表达各变量之间的相互关系形式的研究过程。
二、相关关系的种类1、按相关的性质可分为正相关和负相关。
正相关:自变量与因变量之间的变动方向同步。
负相关:自变量与因变量之间的变动方向呈现逆向运动。
2、按相关形式可分为线性相关和非线性相关。
线性相关:如果变量之间存在着相关关系,因变量又近似表现为自变量的一次函数。
(以两个变量为例的散点图)非线性相关:如果变量之间存在着相关关系,因变量不能近似地表现为自变量的一次函数。
(以两个变量为例的散点图)3、按相关程度可分为完全相关、不完全相关和完全不相关。
完全相关:变量的所有值都完全满足一个方程。
如:圆面积S与半径r有关系式不完全相关:变量之间存在不严格的依存关系如:若把两个骰子同时投掷100次,其每次投出的相应点之间没有任何关系(除非这些投掷是负重的)。
完全不相关:自变量与因变量之间彼此互不影响。
如:身高的体重间则存在的关系。
●●下面是不完全相关的散点图4、按自变量的多少可以分为单相关和复相关。
三、相关关系的测定1、定性判断2、相关表:用表格反应现象之间的相关关系。
3、相关图:将观数据放在坐标系中,以观察有无相关关系及相关关系的紧密程度。
4、相关系数判断法:在直线相关条件下,说明两个变量之间相关关系密切程度的统计指标.相关系数计算公式:式中 2 变量的协方差;表示自变量的标准差;表示因变量的标准差。
由于变量的总体方差和标准差是不容易得到的,因此一般是有样本数据来求得到它们的估计量。
四、相关系数的性质:⑴取值范围:|r| ≤1⑵相关方向:0<r<1时,表示ς与 之间存在着正相关;-1<r<0时表示ς与 之间存在着为负相关。
统计学和统计法基础知识:统计方法题库知识点1、单选综合指数是一种()A.简单指数B.加权指数C.个体指数D.平均指数正确答案:B2、单选标准差指标数值越小,则说明变量值()。
A.越分散,平均(江南博哥)数代表性越低B.越集中,平均数代表性越高C.越分散,平均数代表性越高D.越集中,平均数代表性越低正确答案:B参考解析:在一个统计样本中,其标准差越大,说明它的各个观测值分布的越分散,它的趋中程度就越差。
反之,其标准差越小,说明它的各个观测值分布的越集中,它的趋中程度就越好。
3、单选抽样调查的主要目的是()A.获取样本资料B.获取总体资料C.A调查单位作深入研究D.以抽样样本的指标推算总体指标正确答案:D参考解析:抽样调查是一种非全面调查,它是按照随机原则从总体中抽取一部分单位作为样本进行观察研究,以抽样样本的指标去推算总体指标的一种调查。
4、多选假设检验可能犯()。
A.第一类错误B.第二类错误C.第三类错误D.第四类错误E.第五类错误正确答案:A, B参考解析:拒绝正确零假设的错误常被称为第一类错误或弃真错误:当备选假设正确时反而说零假设正确的错误,称为第二类错误或取伪错误。
5、判断题假设检验中显著性水平α是表示原假设不真实的概率。
()正确答案:错参考解析:假设检验中显著性水平α是表示弃真概率,即原假设H0为真,却根据样本信息做出拒绝H0的概率。
6、单选加权算术平均数中权数的实质是()A.各组的单位数B.总体单位数C.各组的单位数占总体单位数的比重D.各组的单位数与标志值的乘积正确答案:C参考解析:如果原始数据为分组数据,则采用加权平均数公式计算,其中的权数f为各组的频数。
其公式为7、判断题加法模式是假定影响时间数列的四种变动因素是相互不独立的。
()正确答案:错参考解析:加法模式是假定四种变动因素是相互独立的,时间数列各期发展水平是各个影响因素相加的总和。
8、多选时间序列分解较常用的模型有()。
A.加法模型B.乘法模型C.直线模型D.指数模型E.多项式模型正确答案:A, B参考解析:时间序列分解较常用的模型有加法模型和乘法模型两种:加法模型为:Yt=Tt+St+Ct+It;乘法模型为:Yt=Tt×St×Ct×It。
回归分析与相关分析的联系:研究在专业上有一定联系的两个变量之间是否存在直线关系以及如何求得直线回归方程等问题,需进行直线相关和回归分析。
从研究的目的来说,若仅仅为了了解两变量之间呈直线关系的密切程度和方向,宜选用线性相关分析;若仅仅为了建立由自变量推算因变量的直线回归方程,宜选用直线回归分析。
从资料所具备的条件来说,作相关分析时要求两变量都是随机变量(如:人的身长与体重、血硒与发硒);作回归分析时要求因变量是随机变量,自变量可以是随机的,也可以是一般变量(即可以事先指定变量的取值,如:用药的剂量)。
在统计学教科书中习惯把相关与回归分开论述,其实在应用时,当两变量都是随机变量时,常需同时给出这两种方法分析的结果;另外,若用计算器实现统计分析,可用对相关系数的检验取代对回归系数的检验,这样到了化繁为简的目的。
回归分析和相关分析都是研究变量间关系的统计学课题,它们的差别主要是:1、在回归分析中,y被称为因变量,处在被解释的特殊地位,而在相关分析中,x与y处于平等的地位,即研究x与y的密切程度和研究y与x的密切程度是一致的;2、相关分析中,x与y都是随机变量,而在回归分析中,y是随机变量,x可以是随机变量,也可以是非随机的,通常在回归模型中,总是假定x是非随机的;3、相关分析的研究主要是两个变量之间的密切程度,而回归分析不仅可以揭示x对y的影响大小,还可以由回归方程进行数量上的预测和控制。
1.为什么要对相关系数进行显著性检验?在对实际现象进行分析时,往往是利用样本数据计算相关系数()作为总体相关系数()的估计值,但由于样本相关系数具有一定的随机性,它能否说明总体的相关程度往往同样本容量有一定关系。
当样本容量很小时,计算出的不一定能反映总体的真实相关关系,而且,当总体不相关时,利用样本数据计算出的也不一定等于零,有时还可能较大,这就会产生虚假相关现象。
为判断样本相关系数对总体相关程度的代表性,需要对相关系数进行显著性检验。