两个变量之间的相关关系

格式：pptx
大小：986.52 KB
文档页数：3

描述两列变量之间的相关关系,可以采用的统计量

描述两列变量之间的相关关系,可以采用的统计量在统计学中，用来描述两列变量之间相关关系的常见统计量有以下几种：
1. 相关系数：反映两个变量之间线性相关程度的大小。

常见的相关系数包括皮尔逊相关系数、斯皮尔曼等级相关系数、切比雪夫相关系数等。

2. 回归分析：通过对自变量和因变量之间的线性关系进行建模，来预测因变量的值。

其中，最简单的回归模型是一元线性回归，也可以使用多元线性回归等。

3. 方差分析：用于比较不同组别或条件下的平均值是否存在显著差异，从而推断两个变量之间是否存在关联。

常见的方差分析方法包括单因素方差分析、双因素方差分析等。

4. 卡方检验：用于检验两个分类变量是否独立。

它适用于定类数据的分析，可以确定一个分布是否与期望分布有显著的偏离。

5. t检验：用于比较两个样本的平均值是否存在显著差异，可根据样本特征选择不同的t检验方法，如独立样本t检验、配对样本t检验等。

两个连续变量之间的相关关系

两个连续变量之间的相关关系两个连续变量之间的相关关系，即指两个随机变量之间的相关性。

它是衡量两个连续变量之间相互依赖程度的重要指标。

在数据分析、统计学以及机器学习等领域，相关性分析是一项基础而重要的任务。

一、计算相关性系数在统计学中，通常通过相关系数来衡量两个连续变量之间的相关关系。

相关系数通常是在-1到1之间取值，其中-1表示完全的负相关关系，即两个变量之间有完全相反的关系；1则表示完全的正相关关系，即两个变量之间具有完全相同的变化趋势；而0则表示两个变量之间没有线性关系。

计算相关系数的方法有多种，其中比较常用的是皮尔逊相关系数和斯皮尔曼等级相关系数。

皮尔逊相关系数适用于连续型变量，并且假设变量服从正态分布。

斯皮尔曼等级相关系数则适用于序数型数据以及不满足正态分布的变量。

在这里以皮尔逊相关系数为例进行说明。

二、使用Python计算相关性系数在Python中，统计分析库numpy和pandas都提供了计算相关性系数的函数。

numpy提供的pearsonr函数可以计算两个变量之间的皮尔逊相关系数以及相关性显著性；而pandas提供的corr函数可以计算两个DataFrame对象中所有列的相关系数矩阵。

下面通过一个例子来说明如何使用Python计算相关系数。

```pythonimport numpy as npimport pandas as pd# 构造样本数据x = np.array([1, 2, 3, 4, 5])y = np.array([2, 4, 6, 8, 10])# 计算皮尔逊相关系数correlation, p_value = np.corrcoef(x, y)[0][1],scipy.stats.pearsonr(x, y)[0]print(f"皮尔逊相关系数: {correlation:.4f} (p-value:{p_value:.4f})")# 构造DataFrame对象df = pd.DataFrame({'x': [1, 2, 3, 4, 5], 'y': [2, 4, 6, 8, 10]})# 计算相关系数矩阵corr_matrix = df.corr()print(f"相关系数矩阵: \n{corr_matrix}")```以上代码首先构造了两个变量x和y，分别表示1到5的整数和2到10的偶数。

两个变量的相关关系知识点和典例

两个变量的相关关系知识点和典例1.两个变量的线性相关(1)从散点图上看，如果这些点从整体上看大致分布在通过散点图中心的一条直线附近，称两个变量之间具有线性相关关系，这条直线叫做回归直线.（回归直线y ^＝b ^x ＋a ^必过样本点的中心(x ，y )，其它点不一定过直线只是在直线附近，这个结论既是检验所求回归直线方程是否准确的依据，也是求参数的一个依据.）(2)回归方程为y ^＝b ^x ＋a ^，其中b ^＝∑i =1nx i y i －n xy∑i =1nx 2i －n x2＝∑i =1n)(x i －x )(y i －y )∑i =1n)(x i －x )2，a ^＝y －b ^x .(3)相关系数：相关系数r ＝∑i =1n)(t i －t )(y i －y )∑i =1n)(t i －t )2∑i =1n )(y i －y )2当r ＞0时，表明两个变量正相关；当r ＜0时，表明两个变量负相关.r 的绝对值越接近于1，表明两个变量的线性相关性越强.r 的绝对值越接近于0时，表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时，认为两个变量有很强的线性相关性.（r 的符号表明两个变量是正相关还是负相关；|r |的大小表示线性相关性的强弱.）例一．某公司借助手机微信平台推广自己的产品，对今年前5个月的微信推广费用x 与月利润y （单位：百万元）进行了初步统计，得到下列表格中的数据：经计算，微信推广费用x 与月利润y 满足线性回归方程 6.517.5y x ∧=+.求p 的值．[解] ()()11245685,3040607040555p x y p =++++==++++=+，因为样本中心(),x y 在回归直线 6.517.5y x ∧=+上，所以40 6.5517.55p+=⨯+，解得50p = [变式练习]已知变量x ，y 之间的线性回归方程y ^=－0.7x +10.3，且变量x ，y 之间的一组相关数据如下表所示，则下列说法错误的是( )x 6 8 10 12 y6m32A.变量x ，y 之间呈负相关关系))))B.可以预测，当x ＝20时，b ^＝－3.7 C.m ＝4))))))))))))))))))))))))D.该回归直线必过点(9，4)[解]由－0.7<0，得变量x ，y 之间呈负相关关系，故A 正确；当x ＝20时，y ^＝－0.7×20＋10.3＝－3.7，故B 正确；由表格数据可知x －＝14×(6＋8＋10＋12)＝9，y －＝14(6＋m ＋3＋2)＝11＋m 4，则11＋m 4＝－0.7×9＋10.3，解得m ＝5，故C 错；由m ＝5，得y －＝6＋5＋3＋24＝4，所以该回归直线必过点(9，4)，故D 正确.故选C.例二．下图是我国2011年至2017年生活垃圾无害化处理量(单位：亿吨)的折线图.(1)由折线图看出，可用线性回归模型拟合y 与t 的关系，请用相关系数加以说明； (2)建立y 关于t 的回归方程(系数精确到0.01)，预测2019年我国生活垃圾无害化处理量.参考数据：∑i =17y i ＝9.32，∑i =17t i y i ＝40.17,)∑i =17)(y i －y )2＝0.55，7≈2.646.参考公式：相关系数r ＝∑i =1n)(t i －t )(y i －y )∑i =1n )(t i －t )2∑i =1n )(y i －y )2，回归方程y ^＝a ^＋b ^t 中斜率和截距的最小二乘估计公式分别为b ^＝∑i =1n)(t i －t )(y i －y )∑i =1n)(t i －t )2，a ^＝y －b ^)t .[解] (1)由折线图中的数据和附注中的参考数据得 t ＝4，∑i =17)(t i －t)2＝28,)∑i =17)(y i －y )2＝0.55，∑i =17)(t i －t )(y i －y )＝∑i =17t i y i －t ∑i =17y i ＝40.17－4×9.32＝2.89，∴r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99，说明y 与t 的线性相关程度相当大，从而可以用线性回归模型拟合y 与t 的关系.(2)由y ＝9.327≈1.331及(1)得b ^＝∑i =17)(t i －t )(y i －y )∑i =17)(t i －t )2＝2.8928≈0.103. a ^＝y －b ^)t ≈1.331－0.103×4≈0.92. 所以y 关于t 的回归方程为y ^＝0.92＋0.10t .将2019年对应的t ＝9代入回归方程得y ^＝0.92＋0.10×9＝1.82. 所以，预测2019年我国生活垃圾无害化处理量约为1.82亿吨.[变式练习]1.(2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示，该地周光照量X (单位：小时)都在30小时以上，其中不足50小时的有5周，不低于50小时且不超过70小时的有35周，超过70小时的有10周.根据统计，该基地的西红柿增加量y (千克)与使用某种液体肥料的质量x (千克)之间的对应数据为如图所示的折线图.(1)依据折线图计算相关系数r (精确到0.01)，并据此判断是否可用线性回归模型拟合y 与x 的关系.(若|r |＞0.75，则线性相关程度很高，可用线性回归模型拟合)(2)蔬菜大棚对光照要求较高，某光照控制仪商家为该基地提供了部分光照控制仪，但每周光照控制仪运行台数受周光照量X 限制，并有如下关系：对商家来说，若某台光照控制仪运行，则该台光照控制仪产生的周利润为3)000元；若某台光照控制仪未运行，则该台光照控制仪周亏损1)000元.若商家安装了3台光照控制仪，求商家在过去50周的周总利润的平均值.参考数据：0.3≈0.55，0.9≈0.95. 解：(1)由已知数据可得x ＝2＋4＋5＋6＋85＝5，y ＝3＋4＋4＋4＋55＝4.因为∑i ＝15)(x i －x )(y i －y )＝(－3)×(－1)＋0＋0＋0＋3×1＝6，∑i ＝15)(x i －x )2＝(－3)2＋(－1)2＋02＋12＋32＝25，∑i ＝15)(y i －y )2＝(－1)2＋02＋02＋02＋12＝2，所以相关系数r ＝∑i ＝15)(x i －x )(y i －y )∑i ＝15)(x i －x)2)∑i ＝15)(y i －y )2＝625×2＝)910≈0.95. 因为|r |＞0.75，所以可用线性回归模型拟合y 与x 的关系. (2)由条件可得在过去50周里，当X ＞70时，共有10周，此时只有1台光照控制仪运行，每周的周总利润为1×3)000－2×1)000＝1)000(元).当50≤X ≤70时，共有35周，此时有2台光照控制仪运行，每周的周总利润为2×3)000－1×1)000＝5)000(元).当30＜X ＜50时，共有5周，此时3台光照控制仪都运行，每周的周总利润为3×3)000＝9)000(元).所以过去50周的周总利润的平均值为1)000×10＋5)000×35＋9)000×550＝4)600(元)，所以商家在过去50周的周总利润的平均值为4)600元.例三．某机构为研究某种图书每册的成本费y(单位：元)与印刷数量x(单位：千册)的关系，收集了一些数据并进行了初步处理，得到了下面的散点图及一些统计量的值.x y u∑i＝18)(x i－x)2∑i＝18)(x i－x)(y i－y)∑i＝18)(u i－u)2∑i＝18)(u i－u)(y i－y) 15.25 3.630.2692)085.5－230.30.7877.049表中u i＝1x i，u＝18∑i＝18u i.(1)根据散点图判断：y＝a＋bx与y＝c＋dx哪一个模型更适合作为该图书每册的成本费y(单位：元)与印刷数量x(单位：千册)的回归方程？(只要求给出判断，不必说明理由)(2)根据(1)的判断结果及表中数据，建立y关于x的回归方程(回归系数的结果精确到0.01).(3)若该图书每册的定价为10元，则至少应该印刷多少册才能使销售利润不低于78)840元？(假设能够全部售出.结果精确到1)附：对于一组数据(ω1，υ1)，(ω2，υ2)，…，(ωn，υn)，其回归直线υ^＝α^＋β^ω的斜率和截距的最小二乘估计分别为β^＝∑i＝1n)(ωi－ω)(υi－υ)∑i＝1n)(ωi－ω)2，α^＝υ－β^ω.解：(1)由散点图判断，y＝c＋dx更适合作为该图书每册的成本费y(单位：元)与印刷数量x(单位：千册)的回归方程.(2)令u＝1x，先建立y关于u的线性回归方程，由于d ^＝∑i ＝18)(u i －u )(y i －y )∑i ＝18)(u i －u )2＝7.0490.787≈8.957≈8.96， ∴c ^＝y －d ^·u ＝3.63－8.957×0.269≈1.22， ∴y 关于u 的线性回归方程为y ^＝1.22＋8.96u ， ∴y 关于x 的回归方程为y ^＝1.22＋8.96x .(3)假设印刷x 千册，依题意得10x －⎝⎛⎭⎫1.22＋8.96x x ≥78.840，解得x ≥10，∴至少印刷10)000册才能使销售利润不低于78)840元.[变式练习](2015课标Ⅰ,19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响.对近8年的年宣传费x i )和年销售量y i ))(i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw∑i=18(x i -x )2∑i=18(w i -w )2 ∑i=18(x i -x )(y i -y ) ∑i=18(w i -w )(y i -y )46.6 563 6.8 289.81.61 469108.8表中w i =√x ,w =18∑i=18w i.(1)根据散点图判断,y =a +bx 与y =c +d √x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x,y 的关系为z =0.2y −x .根据(2)的结果回答下列问题: (i)年宣传费x =49时,年销售量及年利润的预报值是多少? (ii)年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ))),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑i=1n (u i -u )(v i -v )∑i=1n(u i -u )2,α^=v -β^)u .解析 (1)由散点图可以判断,y =c +d √x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2分)(2)令w =√x ,先建立y 关于w 的线性回归方程.由于 d ^=∑i=18(w i -w )(y i -y )∑i=18(w i -w )2=108.81.6=68,c ^=y -d ^)w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w,因此y 关于x 的回归方程为y ^=100.6+68√x .(6分) (3)(i)由(2)知,当x =49时,年销售量y 的预报值 y ^=100.6+68√49=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32.(9分) (ii)根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68√x )-x =-x +13.6√x +20.12. 所以当√x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.。