变异系数与相关系数
- 格式:doc
- 大小:7.95 MB
- 文档页数:19
如何描述离散程度的指标全文共四篇示例,供读者参考第一篇示例:离散程度是指数据分散或集中的程度,通常用来描述数据的分布情况。
在统计学和数据分析领域,我们常常需要对数据的离散程度进行分析,以便更好地理解数据的特征和规律。
为了描述数据的离散程度,我们可以借助一些指标,这些指标可以帮助我们衡量数据的分散程度,从而更好地分析数据的特性。
1. 极差极差是最简单的描述数据离散程度的指标之一,它是最大值和最小值之间的差值。
极差越大,数据的离散程度越高,反之亦然。
虽然极差可以帮助我们了解数据的大致范围,但它并不提供关于数据分布的详细信息。
2. 方差和标准差方差和标准差是描述数据离散程度的常用指标,它们可以告诉我们数据的分散程度有多大。
方差是各个数据与均值之差的平方和的平均值,标准差则是方差的平方根。
方差和标准差越大,数据的离散程度越高,反之亦然。
3. 四分位数和箱线图四分位数是将数据分为四个部分的统计量,它们分别是最小值、下四分位数、中位数和上四分位数。
通过四分位数和箱线图,我们可以更直观地看出数据的分布情况和离散程度。
箱线图通过展示四分位数以及异常值的情况,可以帮助我们更有效地描述数据的离散程度。
4. 离散系数离散系数是描述数据离散程度的相对指标,它是标准差除以均值的比值。
离散系数越大,数据的离散程度越高;离散系数越小,数据的离散程度越低。
离散系数可以帮助我们比较不同数据集的离散程度,以便更好地进行数据分析和决策。
5. 峰度和偏度峰度和偏度是描述数据分布形状和偏移程度的指标,它们可以帮助我们了解数据的对称性和偏斜程度。
峰度描述数据分布的尖锐程度,偏度描述数据分布的对称性。
通过峰度和偏度,我们可以更全面地了解数据的离散程度和分布情况。
6. 相关系数相关系数是描述数据之间关系密切程度的指标,它可以帮助我们分析数据的相关性和相互影响。
相关系数的绝对值越接近1,表示数据之间的关系越密切;相关系数越接近0,表示数据之间的关系越独立。
§1-3 變異係數與相關係數設某次段考,高三某班的國文成績的算術帄均數與標準差分別為80分、10分; 英文成績的算術帄均數與標準差分別為60分、10分;雖然國文與英文的標準差相等,如果我們得到結論是國文與英文成績的差異程度一樣,顯然不合理。
現在我們比較兩科的標準差與算術帄均數的比值:國文科:1080 = 18 ,英文科:1060 = 16 ,從這兩科的比值來看,我們可以認為 英文成績的差異會比國文成績的差異大。
例子二:同時測量一張桌子的長度10次,10次長度的算術帄均數為1.72公尺,標準差為0.04公尺,若我們改變單位將公尺改為公分,算術帄均數為172公分,標準差為4公分,若我們比較兩個標準差0.04公尺與4公分,雖然0.04<4,但是若我們得到這兩筆資料的差異程度不同,這就會鬧笑話了!但是我們比較這兩筆資料標準差與算術帄均數的比值:0.041.72 = 4172 ,這就可以呈現出這兩筆資料的差異程度相同。
比較兩組或兩組以上的資料之差異時,通常採用一種相對的測度值作為比較的標準。
因此無論兩筆資料的單位與取值範圍是否相同,若用算術帄均數為基準,以標準差相對於算術帄均數的比值來比較,就可以比較離散程度,比值愈大表示資料間的差異也愈大。
(1)變異係數(CV)的定義:變異係數的定義:CV=xSX ×100%,S X 為標準差,x 代表算術帄均數。
CV 的意義是計算標準差相對於算術帄均數的百分比。
百分比越大,代表資料越分散。
[例題1] 某校高三有兩班,甲班學生身高帄均值為168.5公分,標準差為7.2公分;乙班學生身高帄均值為159.6公分,標準差為4.8公分。
試問那一班學生身高較懸殊? [解法]:(CV)甲=7.2168.5 ⨯100%=4.27%(CV)乙=4.8159.6⨯100%=3.01%⇒(CV)甲>(CV)乙 ⇒甲班學生身高差異較乙班大。
(練習1)第一次月考,甲、乙兩班數學的帄均成績分別為80分、70分,標準差分別為9分,8分,試問那一班的同學之程度比較帄均?Ans:甲班(練習2)某次數學考試,統計結果如下表:試求:(1)全部100人的帄均成績X為多少分?(2)那一班的程度比較帄均?用數據說明。
名词解释:医学统计学:用统计学的原理和方法研究生物医学问题的一门学科。
变量(variable):观察单位的某项特征变量值(value of variable):变量的观察结果(测量值)总体(population):是根据研究目的确定的同质的观察单位的全体,确切的说是同质的所有的观察单位某种变量值的集合。
样本(sample)从总体中随机抽取部分由代表性的观察单位,其测量值的集合称为样本。
随机抽样(random sample):按随机化原则从总体中抽取部分观察单位的过程。
同质(homogeneity):是针对被研究指标来讲,其影响因素相同。
简单地理解就是指对研究指标影响大约可以控制的主要因素应尽可能相同。
变异(variation):指在自然地状态下,个体测量结果在同质基础上的差异。
等级资料(ordinal data):将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位称为等级资料,如患者的治疗结果可分为治愈,好转,有效,无效,死亡。
有序变量(定性变量的一种)。
概率(probability):是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大,0<P(A)<1,小概率事件。
频率(frequency):在相同的条件下,独立重复做n次实验,事件A出现了m次,比值m/n 称为随机事件A在n次实验中出现的频率。
随机误差(random error):排除了系统误差后的尚存的误差,受多种因素影响,使观察值不按照方向性和系统性而随机的变化,误差变量一般服从正态分布,可以通过统计处理来估计。
系统误差(system error):由于受试对象,研究者,仪器设备,研究方法等非实验因素影响等确定性原因造成,有一定倾向性或规律性的误差,可以避免。
随机变量(random variable):是指取值不能事先确定的观察结果,不能用一个正常数来表示,每个变量的取值服从特定的概率分布。
统计学复习资料(名词解释、简答)计算题:以老师圈的重点,以及之前布置的作业为主,重点复习11/12章一、名词解释:时间序列数据:是在不同时间收集到的数据,这些数据是按时间顺序收集到的,用于所描述现象随时间变化的情况.总体:是包含所研究的全部个体(数据)的集合样本:是从总体中抽取的一部分元素的集合样本量:构成样本的元素的数目统计量:用来描述样本特征的概括性数字度量参数:用来描述总体特征的概括性数字度量概率抽样:即随机抽样,遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本非概率抽样:抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查简单随机抽样:指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。
分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本整群抽样:是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为抽样单位抽取样本的一种抽样方式。
系统抽样:根据样本容量要求确定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位的一种抽样方式抽样误差:由抽样的随机性引起的样本结果与总体真值之间的误差分组数据:根据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据称为分组数据。
方法有单变量值分组和组距分组两种。
众数:是一组数据中出现次数最多的变量值中位数:是一组数据排序后处于中间位置上的变量值平均数:也称均值,是一组数据相加后除以数据的个数得到的结果算术平均数:是指在一组数据中所有数据之和再除以数据的个数。
几何平均数:是n个变量乘积的n次方根方差:各变量值与其平均数离差平方的平均数经验法则:当一组数据对称分布时,经验法则表明:约有68%的数据在平均数1个标准差的范围之内。
约有95%的数据在平均数2个标准差的范围之内。
约有99%的数据在平均数3个标准差的范围之内。
各种计算系数范文在数学和统计学中,有各种计算系数的方法和公式,用于解决各种问题和推导不同的数学模型。
下面将介绍一些常见的计算系数的方法。
1. 相关系数(Correlation coefficient):相关系数用于衡量两个变量之间的线性关系强度。
常见的相关系数包括皮尔逊相关系数(Pearson correlation coefficient)、斯皮尔曼等级相关系数(Spearman rank correlation coefficient)和肯德尔相关系数(Kendall rank correlation coefficient)。
这些相关系数的计算方法各不相同,但都可用于衡量变量间的关联性。
2. 回归系数(Regression coefficients):回归系数用于建立回归模型,通过拟合一条最佳拟合线或曲线来预测一个变量对另一个或多个变量的影响。
常见的回归系数有斜率(slope)、截距(intercept)、多项式回归系数和对数回归系数等。
3. 变异系数(Coefficient of variation):变异系数用于衡量数据的相对离散程度,计算公式为标准差除以平均值,并乘以100%。
变异系数可以用于比较两个或多个数据集的离散程度,如果变异系数较大,则表示数据的变异程度较大。
4. 方差-共方差比(Variance-covariance ratio):方差-共方差比用于衡量多个变量之间的共关联程度。
它等于共方差除以各个变量的方差之和。
方差-共方差比越大,表示变量之间的关联程度越高。
5. 决定系数(Coefficient of determination):决定系数用于衡量回归模型对因变量的解释程度。
它等于回归模型的可决系数(explained variation)除以总离差平方和(total variation)。
决定系数的取值范围为0到1,越接近1表示模型对数据的解释程度越高。
6. 弹性系数(Elasticity coefficient):弹性系数用于衡量供求关系中一个变量对另一个变量的相对变化程度。
变异系数的意义
变异系数(coefficient of variation;coefficient of variability)是衡量资料中各观测值变异程度的一个统计量.
简单相关系数:
又叫相关系数或线性相关系数。
它一般用字母r 表示。
它是用来度量定量变量间的线性相关关系。
复相关系数:
又叫多重相关系数
复相关是指因变量与多个自变量之间的相关关系。
例如,某种商品的需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。
偏相关系数:
又叫部分相关系数:部分相关系数反映校正其它变量后某一变量与另一变量的相关关系,校正的意思可以理解为假定其它变量都取值为均数。
偏相关系数的假设检验等同于偏回归系数的t检验。
复相关系数的假设检验等同于回归方程的方差分析。
典型相关系数:是先对原来各组变量进行主成分分析,得到新的线性无关的综合指标.再用两组之间的综合指标的直线相关系敷来研究原两组变量间相关关系
可决系数是相关系数的平方。
意义:可决系数越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。
观察点在回归直线附近越密集。
相关系数变异系数相关系数是统计学中一种重要的测量指标,用于衡量两个变量之间的线性关系强度。
而变异系数则是一种用于比较两个或多个变量变异程度的指标。
本文将从相关系数和变异系数的定义、计算方法、应用领域等方面进行探讨。
一、相关系数的定义和计算方法相关系数是衡量两个变量之间关系强度的一种统计指标,通常用符号r表示。
相关系数的取值范围为-1到1之间,其中1表示完全正相关,-1表示完全负相关,0表示无相关。
计算相关系数的方法有多种,常用的是皮尔逊相关系数。
皮尔逊相关系数是通过计算两个变量的协方差和标准差来得到的。
具体计算公式如下:r = Cov(X, Y) / (σX * σY)其中,Cov(X, Y)表示变量X和Y的协方差,σX和σY分别表示变量X和Y的标准差。
二、变异系数的定义和计算方法变异系数是一种用于比较两个或多个变量变异程度的指标,它可以消除不同变量之间的量纲差异。
变异系数通常用CV表示,计算公式如下:CV = (σ / μ) * 100%其中,σ表示变量的标准差,μ表示变量的平均值。
三、相关系数和变异系数的应用领域相关系数和变异系数在许多领域都有广泛的应用,下面列举几个常见的应用领域。
1. 金融领域:在金融领域中,相关系数常常用于衡量不同股票之间的相关性。
投资者可以通过计算相关系数来判断不同股票之间的关联程度,从而进行投资组合的优化。
2. 经济领域:在经济学中,相关系数常用于衡量不同经济指标之间的关系。
例如,可以通过计算GDP与消费支出之间的相关系数来分析经济增长与消费水平之间的关系。
3. 医学领域:在医学研究中,相关系数可以用于衡量两个变量之间的关系,例如血压和心率之间的关系。
通过计算相关系数,可以判断两个变量之间的相关性,从而进一步研究其影响因素。
4. 生态学领域:在生态学研究中,变异系数常用于衡量物种多样性的变异程度。
通过计算不同物种的变异系数,可以评估生态系统的稳定性和复杂性。
5. 质量管理领域:在质量管理中,变异系数常用于衡量生产过程的稳定性。
反映总体内个体间分散程度的一种方法(一)反映总体内个体间分散程度的一种方法介绍个体间的分散程度是指群体中个体之间的分散程度。
在各种研究领域,我们经常需要量化个体间的分散程度,以便更好地理解和分析数据。
本文将介绍几种常用的方法来反映总体内个体间分散程度。
1. 方差方差是最常用的反映个体间分散程度的方法之一。
它衡量了每个个体与总体均值之间的差异程度。
方差越大,个体间的分散程度就越大。
2. 标准差标准差是方差的平方根,它衡量了个体数据与总体均值的平均偏差程度。
与方差相比,标准差更容易理解和比较,因为它与原始数据的单位相同。
3. 离散系数离散系数是标准差与总体均值的比值。
它衡量了个体数据的相对变异程度。
离散系数越大,个体间的分散程度就越大。
4. 四分位数距离四分位数距离是指上四分位数与下四分位数之间的距离。
它衡量了个体数据在总体分布中的离散程度。
四分位数距离越大,个体间的分散程度就越大。
5. 变异系数变异系数是标准差与总体均值的比值,乘以100。
它衡量了个体数据的相对变异程度,并且可以用于不同单位的数据进行比较。
变异系数越大,个体间的分散程度就越大。
6. 熵熵是信息论中用于度量信息的不确定性的指标。
在个体间的分散程度方面,熵可以衡量个体在总体中的分布情况。
熵越大,个体间的分散程度就越大。
7. 相关系数相关系数衡量了两个个体变量之间的线性关系强度。
在个体间的分散程度方面,相关系数可以反映个体变量之间的相对分散程度。
相关系数越小,个体间的分散程度就越大。
总结以上是几种常用的反映总体内个体间分散程度的方法。
根据不同的研究目的和数据特征,可以选择合适的方法来量化个体间的分散程度。
这些方法可以帮助我们更好地理解和分析数据,为相关领域的研究提供有力的支持。
8. 核密度估计核密度估计是一种非参数的分布估计方法,可以用来描述个体在总体中的分布情况。
通过计算每个个体周围的密度,可以反映个体之间的分散程度。
较高的密度表示个体分布较为集中,而较低的密度表示个体分布较为分散。
《卫生统计学》课程复习资料一、名词解释:1.计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料。
计量资料亦称定量资料、测量资料。
.其变量值是定量的,表现为数值大小,一般有度量衡单位。
2.计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料。
计数资料亦称定性资料或分类资料。
其观察值是定性的,表现为互不相容的类别或属性。
3.等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料。
等级资料又称有序变量。
4.总体:总体指特定研究对象中所有观察单位的测量值。
5.样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
6.变异:同质个体间研究因素的差异。
7.频数表:用来表示一批数据各观察值在不同取值区间出现的频繁程度(频数)。
8.算术均数:描述一组数据在数量上的平均水平。
总体均数用μ表示,样本均数用X表示。
9.中位数:将一组观察值由小到大排列,位次居中的那个数。
10.极差:亦称全距,即最大值与最小值之差,用于资料的粗略分析,其计算简便但稳定性较差。
11.方差:方差表示一组数据的平均离散情况,由离均差的平方和除以样本个数得到。
12.标准差:是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用。
13.变异系数:用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。
14.正态分布:若资料X的频率曲线对应于数学上的正态曲线,则称该资料服从正态分布。
通常用记号),(2σμN表示均数为μ,标准差为σ的正态分布。
15.标准正态分布:均数为0、标准差为1的正态分布被称为标准正态分布,通常记为2(0,1)N。
16.统计推断:通过样本指标来说明总体特征,这种通过样本获取有关总体信息的过程称为统计推断。
17.抽样误差:由个体变异产生的,由于抽样造成的样本统计量与总体参数的差异,称为抽样误差。
§1-3 變異係數與相關係數設某次段考,高三某班的國文成績的算術帄均數與標準差分別為80分、10分; 英文成績的算術帄均數與標準差分別為60分、10分;雖然國文與英文的標準差相等,如果我們得到結論是國文與英文成績的差異程度一樣,顯然不合理。
現在我們比較兩科的標準差與算術帄均數的比值:國文科:1080 = 18 ,英文科:1060 = 16 ,從這兩科的比值來看,我們可以認為 英文成績的差異會比國文成績的差異大。
例子二:同時測量一張桌子的長度10次,10次長度的算術帄均數為1.72公尺,標準差為0.04公尺,若我們改變單位將公尺改為公分,算術帄均數為172公分,標準差為4公分,若我們比較兩個標準差0.04公尺與4公分,雖然0.04<4,但是若我們得到這兩筆資料的差異程度不同,這就會鬧笑話了!但是我們比較這兩筆資料標準差與算術帄均數的比值:0.041.72 = 4172 ,這就可以呈現出這兩筆資料的差異程度相同。
比較兩組或兩組以上的資料之差異時,通常採用一種相對的測度值作為比較的標準。
因此無論兩筆資料的單位與取值範圍是否相同,若用算術帄均數為基準,以標準差相對於算術帄均數的比值來比較,就可以比較離散程度,比值愈大表示資料間的差異也愈大。
(1)變異係數(CV)的定義:變異係數的定義:CV=xSX ×100%,S X 為標準差,x 代表算術帄均數。
CV 的意義是計算標準差相對於算術帄均數的百分比。
百分比越大,代表資料越分散。
[例題1] 某校高三有兩班,甲班學生身高帄均值為168.5公分,標準差為7.2公分;乙班學生身高帄均值為159.6公分,標準差為4.8公分。
試問那一班學生身高較懸殊? [解法]:(CV)甲=7.2168.5 ⨯100%=4.27%(CV)乙=4.8159.6⨯100%=3.01%⇒(CV)甲>(CV)乙 ⇒甲班學生身高差異較乙班大。
(練習1)第一次月考,甲、乙兩班數學的帄均成績分別為80分、70分,標準差分別為9分,8分,試問那一班的同學之程度比較帄均?Ans:甲班(練習2)某次數學考試,統計結果如下表:試求:(1)全部100人的帄均成績X為多少分?(2)那一班的程度比較帄均?用數據說明。
(3)全部100人的標準差S為多少分?(至小數第三位再四捨五入)Ans:(1)67分(2)乙班(3)9.19分會很低,不管是身高、體重或是物理、數學成績,我們如何來衡量這兩個資料間的關係呢?可否由身高來預測體重,或是由數學成績來預測物理成績呢?(1)散布圖(scatter plot):將兩個變數的數值資料數對畫在坐標帄面上,以表明它們的分布情形的圖形,稱為散布圖,散布圖上的點稱為樣本點。
(2)散布圖與相關程度:某種新藥的用量X(毫克數)與藥效期間Y(天數)的關係,計算用藥的帄均值x=5.9毫克,藥效期間帄均值y=15.1天,若在散布圖中加畫x=5.9,y=15.1兩直線,則可將全圖分成四個區域:由上圖可以看出,除了(6,14)一點外,其餘的點都在右上區或左下區,這表示絕大多數的情形,若用藥超過帄均值,則藥效期間亦超過帄均值,反之亦然,換句話說,用藥量與藥效期間同時為增或同時為減,兩者之間是有某種程度的相關性。
一般而言,如果在散布圖中以y=y為新的橫軸,x=x為新的縱軸,則可將全圖分成四個象限,在第一三象限內的點(x i,y i),(x i-x)(y i-y)的值為正,;在第二四象限內的點(x i,y i),(x i-x)(y i-y)的值為負,若資料內的樣本點(x1,y1)、(x2,y2)、…、(x n,y n)中,計算∑=--niiiyyxx1))((的值:(a)若∑=--niiiyyxx1))((>0,則表示X與Y的變動趨勢大致相同,即同時為增或同時為減,我們稱兩者為正相關。
(b)若∑=--niiiyyxx1))((<0,則表示X與Y的變動趨勢大致相反,即此增彼減或此減彼增,我們稱兩者為負相關。
(c)根據散布圖,有時可以大概判斷出兩個變數X、Y之間的相關情形:正相關:負相關:零相關:[例題2]就下列圖形說明變量X、Y的相關情形:[解法]:(A)完全正相關(B)完全負相關(C)零相關(D)零相關(E)低度正相關(F)完全曲線相關(練習3)下列有關兩變數X與Y的8個散布圖中(1)那些圖形較接近正相關?(2)那些圖形較接近負相關?(3)那些圖形較接近零相關?Ans:(1)(A)(E)(F)(G) (2)(C)(D)(G) (3)(B)(3)相關係數(correlation )的引進散布圖呈現兩個變數之間相關的方向、型式、強度。
其中直線相關尤其重要,因為直線是最簡單的型態,但是光用眼睛看,並不容易判斷出相關的強度,如下圖,兩個散布圖畫的是同一組數據,只是兩個圖形的坐標選取之範圍不同,因此使得右圖看起來似乎有較強的直線相關。
所以只要我們改一改散布圖上坐標軸的刻度或範圍,或是點和點之間的空白處大小,眼睛就可能受騙。
所以得定義一個能夠衡量兩個變數直線相關強度的統計量,這就是相關係數。
(a)相關係數的定義:衡量兩個變數直線相關的程度的統計量−相關係數定義如下:對於兩組數據X 、定義相關係數 r =∑∑∑===-⋅---ni ni i ii ni iy y x xy y x x11221)()()()(=∑∑∑===-⋅-⋅⋅-ni ni i ini ii y y x xyx n yx 11221)()(=11//-⋅∑=n y xni ii其中x i /=x i S xx -,y i /=yi S y y -(標準化資料)[說明]:根據之前的討論,我們知道∑=--ni i i y y x x 1))((的正負表示相關程度的正負。
然而當資料數據增加時,亦即樣本數n 增加時,相對應的和∑=--ni i i y y x x 1))((將隨之變大或變小,為了消除這個影響的因素,將∑=--ni i i y y x x 1))((加以規範化,而引進以上的定義。
(4)相關係數的性質: (a)-1≦r ≦1 相關係數r =∑∑∑===-⋅---n i ni i i i ni iy y x x y y x x11221)()()()( ⇒r 2=∑∑∑===-⋅---ni ni i ini i i y y x xy y x x 112212)()()))((([代數的觀點]: 根據柯西不等式:若設a 1、a 2、…、a n ,b 1、b 2、…、b n 為2n 個實數, 則(a 12+a 22+…+a n 2)(b 12+b 22+…b n 2)≥(a 1b 1+a 2b 2+…+a n b n )2 將x i -x 視為a i ,y i -y 視為b i ,即可得到r 2≤1 ⇔ -1≤r ≤1[向量的觀點]:x 1-x ,x 2-x ,…,x n -x )y 1-y ,y 2-y ,…,y n -y )則r =∑∑∑===-⋅---ni ni i ii ni iy y x xy y x x11221)()()()(=A ⋅ B=cos θ ⇔-1≤r ≤1(此處的cos θ是一個抽象的概念) (b)相關係數與單位無關:若設x i *=a +bx i ,y i *=c +dy i ,i =1,2,…,n ,其中a,b,c,d 為給定之常數, 則當bd >0時,r =r *,當bd <0時,r = -r *。
[證明]:x 1-x ,x 2-x ,…,x n -x )y 1-y ,y 2-y ,…,y n -y )*x 1*-*x ,x 2*-*x ,…,x n *-*x )*y 1*-*y ,y 2-*y ,…,y n -*y ) 因為x i *=a +bx i ,y i *=c +dy i ,所以*x =a +b x ,*y =c +d y ⇒ x i *-*x =b (x i -x ),y i *-*y =d (y i -y )**⇒r *= A *⋅ B *** = b A ⋅d B = (bd |bd |) A ⋅ B =(bd |bd |)⋅r 當bd >0時,r =r *,當bd <0時,r = -r *。
(c)正的r 值顯示變數之間有正相關,負的r 值顯示變數之間有負相關,r 值若很接近0,表示變數之間有很弱的直線相關。
r =1時,表示樣本點都落在斜率為正的一條直線上,r =-1時,表示樣本點都落在斜率為負的一條直線上。
(d)相關係數會受少數極端觀測值得嚴重影響,如下圖,可以知道,極端值對相 關係數的影響。
(e)兩個變數之間有很強的相關,也不一定代表兩者之間有因果關係。
例如:統計世界各國帄均每人電視機數x與人民的帄均壽命y。
我們會得到很高的正相關,即有很多電視機的國家,人民的帄均壽命較長。
所謂的因果關係是指只要改變x的值,就可以使y的值改變,換句話說,我們能否藉由運送一大堆的電視機來增加某些國家人民的帄均壽命呢?當然不行!富國的電視機比窮國多,而富國的人民帄均壽命也比較長,但這是因為他們有比較好的營養、乾淨的飲水及較佳的醫療資源。
電視機和壽命長短之間並沒有因果關係。
[例題3]一肥皂廠商欲推出一種新產品,在上市之前以不同的單價x(單位:十元),調查市場的需求量y(單位:萬盒),調查結果如下:問x,y(84學科)(A)45(B)25(C)0 (D)-25(E)-45。
Ans:(E)[例題4] 右圖為一班參加高中聯考成績,X 表示英文成績,Y 表示國文成績,兩個變數的相關係數最接近下列那一個值? (A)2 (B)1 (C)0.75 (D)0.5 (E)0.25 Ans :(C) [例題5] 令X 代表每個高中生帄均每天研讀數學的時間(以小時計),則W=7(24-X)代表每個高中生帄均每週花在研讀數學以外的時間。
令Y 代表每個高中生數學學科能力測驗的成績。
設X ,Y 之相關係數為R XY ,W ,Y 之相關係數為R WY ,則R XY 與R WY 兩數之間的關係,下列選項何者為真? (A) R WY =7(24-R XY )(B) R WY =7R XY (C) R WY =-7R XY(D) R WY =R XY (E) R WY =-R XY Ans : (E) (90學科)(練習4) x ,y 帄面上求樣本點(1,1)、(1,2)、(4,1)、(4,2)的相關係數r =?Ans :0 (練習5) 調查八位同學某次數學及物理抽考的成績為試求其相關係數。
Ans :0.82(練習6) 如圖所示,有5筆(X,Y)資料。
試問:去掉哪一筆資料後,剩下來4筆資料 的相關係數最大?(1)A (2)B (3)C (4)D (5)E Ans :(4) (89.學科)80 90(練習7)有學生十人(甲、乙、…、癸),其期考數學成績與該學期數學課缺課數,如下表所示:設兩者的相關係數為r,則(A)-1≦r≦-0.6 (B)-0.6<r<-0.2 (C)-0.2≦r≦0.2 (D)0.2<r<0.6(E)0.6≦r≦1 Ans:(A) (86自)(練習8)設X、Y的相關係數為r=0.123,且X/=-4X+5,Y/=6Y-4的相關係數為r/,則r/=?Ans:r/=-0.123畫條直線,來對這個直線相關做一個概述。