3.1 相关分析
- 格式:ppt
- 大小:691.00 KB
- 文档页数:34
3.1 我想做的自杀案例:23岁的福建女子陈某(化姓)就读于福建一高校,平常喜爱上网。
通过网络聊天,她同南京市雨花台区一所高校的赵某确立了恋爱关系。
11月27日下午,陈某独自一人从福建来到南京。
辗转找到赵某的宿舍后,赵某的室友得知陈某的身份随意说了一句:“他不想见你,早就躲起来了!”于是,陈某信以为真。
走出学校后,陈某痴痴地在校门口站了2个多小时,希望能够等到心上人。
晚上7点,天已经黑透,陈某失望地掏出随身携带的水果刀,在自己左手手腕上割了一刀。
校门口一家小店的店主发现后,立即拨打了110。
几分钟后,铁心桥派出所值班民警赶到了学校门口。
幸好陈某在割腕时,并没有太用力,所以没有伤及动脉。
民警将她送往学校医务室,经过包扎,陈某的伤口被处理妥当。
经过民警劝说,第二天一早,她终于踏上了回福建的火车。
分析:当代大学生失恋后往往会表现出一些不良的症状,比如,失恋会造成一系列消极心理瓜,如难堪、羞辱、失落、悲伤、孤独、虚无、绝望和报复等。
当失恋者对恋爱对象的喜欢程度越强时,该症状的表现就越强(2)感到无比的难堪和羞辱,羞见于人,无地自容。
对于自尊心越强的失恋者来说,加上恋爱的公开程度过大,这种症状的表现就越明显。
(3)充满了虚无感和失落感。
当热恋时对爱情的存在越肯定,失恋后的虚无感就越强烈;热恋时产生的依赖心理倾向越大,且得到恋人的温暖和安慰越多,这时的失落感也就越多。
(4)对事物冷淡和对恋爱对象产生憎恶。
失恋后,失恋者对平时感兴趣的事物会感到已索然无味,冷淡视之;对于恋爱的对象则会产生出一种憎恶感,怀恨在心,甚至会产生报复行为。
(5)有自杀的意念。
当失恋者感到十分的痛苦而无法自拔的时候,他们会采取非常的做法,走上绝境,以死来求得痛苦的解脱。
毕业论文中如何正确运用相关分析和回归分析1. 引言在毕业论文中,为了获得准确的研究结果和结论,需要使用统计学方法来分析和解释数据。
相关分析和回归分析是两个常用的统计学方法,本文将探讨毕业论文中如何正确运用这两种分析方法,并提供一些实用的指导和建议。
2. 相关分析相关分析是一种用来衡量两个变量之间关系的统计方法。
在毕业论文中,相关分析常被用来研究两个或多个变量之间的相关性。
以下是一些正确运用相关分析的步骤:2.1 数据收集在进行相关分析前,首先需要收集和整理相关的数据。
确保数据的准确性和完整性,并进行必要的预处理,如去除异常值和缺失值等。
2.2 确定变量类型在进行相关分析前,需要确定变量的类型。
变量可以分为离散变量和连续变量。
离散变量是指具有有限个取值的变量,如性别、学历等;连续变量是指可以取任意实数值的变量,如年龄、收入等。
2.3 计算相关系数相关系数是衡量两个变量之间线性相关程度的指标。
常用的相关系数包括皮尔逊相关系数和斯皮尔曼相关系数。
通过计算相关系数,可以得到两个变量之间的相关性程度。
2.4 解释结果在进行相关分析后,需要解释结果并得出结论。
解释结果时应注意结果的可靠性和统计学意义,并与相关的研究目标和假设进行对比。
同时,还应注意避免过度解读结果,准确描述相关系数的意义和限制。
3. 回归分析回归分析是一种用来研究自变量和因变量之间关系的统计方法。
在毕业论文中,回归分析常被用来探究变量间的因果关系。
以下是一些正确运用回归分析的步骤:3.1 确定因变量和自变量在进行回归分析前,需要确定研究中的因变量和自变量。
因变量是研究中感兴趣的依赖变量,自变量是用来解释因变量变化的独立变量。
3.2 数据预处理与相关分析类似,回归分析也需要进行数据的预处理,包括数据清洗、异常值和缺失值的处理等。
3.3 拟合回归模型拟合回归模型是回归分析的核心步骤。
可以根据研究目标和数据的特点选择合适的回归模型。
常见的回归模型包括线性回归模型、多项式回归模型和逻辑回归模型等。
3.1回归分析的基本思想及其初步应用课前预习学案一、预习目标1、了解相关系数r 和相关指数R 22、了解残差分析3、了解随机误差产生的原因 二、预习内容1 相关系数r①()()niix x y y r --=∑②r >0表明两个变量 ;r <0表明两个变量 ;r 的绝对值越接近1,表明两个变量相关性 ,r 的绝对值越接近0,表示两个变量之间 当r 的绝对值大于 认为两个变量具有很强的相关性关系。
2 随机误差①在线性回归模型:y bx a e =++中,a 和b 为模型的 ,e 是y 与y bx a =+之间的 ,通常e 为随机变量,称为随机误差,它的均值E (e )= ,方差D (e )= 2σ 0②线性回归模型的完整表达式为2()0,()y bx a e E e D e σ=++⎧⎨==⎩随机误差e 的方差2σ越小,通过回归直线y bx a =+预报真实值y 的精确度 3 残差分析①残差对于样本点112233(,),(,),(,),,(,).n n x y x y x y x y 而言,相应于它们的随机误差为i e = = (i =1,2,3,…,n )其估算值为i e = = (i =1,2,3,…,n ). 称为相应于点(,)i i x y 的残差。
②残差平方和:类比样本方差估计总体方差的思想,可以用2σ= =(n >2)作为2σ的估计量,其中a y bx =-, 121()()()niii nii x x y y b x x ==--=-∑∑,(,)Q a b 称为残差平方和,可以用2σ衡量回归方程的预报精度,2σ越小,预报精度 ③用图形来分析残差特性:用 21R =- 来刻画回归的效果。
三、提出问题1 随机误差产生的原因是什么? 2如何建立模型拟合效果最好? 课内探究学习 一、学习目标1 了解相关系数和相关指数的关系.2 理解随机误差产生的原因.3 3 会进行简单的残差分析 二、学习重难点学习重点 1、相关系数r 2、相关指数R 2 3、随机误差 学习难点 残差分析的应用 三、学习过程1、相关系数r =2、r 的性质:3、随机误差的定义:4、相关指数R 2= 5 、R 2的性质:6、 残差分析的步骤: 四、典型例题例 1.随着我国经济的快速发展,城乡居民的审核水平不断提高,为研究某市家庭平均收入与月平均生活支出的关系,该市统计部门随机调查10个家庭,得数据如下:(1)判断家庭平均收入与月平均生活支出是否相关?(2)若二者线性相关,求回归直线方程。
1 【优化方案】2013-2014学年高中数学 3.1 回归分析的基本思想及其初步应用能力提升(含解析)新人教A 版选修2-31.如果某地的财政收入x 与支出y 满足线性回归方程y =bx +a +e (单位:亿元),其中b =0.8,a=2,|e |≤0.5,如果今年该地区财政收入为10亿元,则年支出预计不会超过( )A .10亿B .9亿C .10.5亿D .9.5亿解析:选C.∵x =10时,y =0.8×10+2+e =10+e ,又∵|e |≤0.5,∴y ≤10.5.2.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本(单位:元)的资料进行线性回归分析,结果如下:x =72,y =71,∑i =16x 2i =79,∑i =16x i y i =1 481. 则销量每增加1 000箱,单位成本下降________元.解析:由题意知b ^=1 481-6×72×7179-6×⎝⎛⎭⎫722≈-1.818 2, a ^=71-(-1.818 2)×72≈77.36,y ^=-1.818 2x +77.36,销量每增加1千箱,则单位成本下降1.818 2元.答案:1.818 23.为了研究某种细菌繁殖的个数随时间x 变化的情况,收集如下数据:天数x (天) 1 2 3 4 5 6繁殖个数y (个) 6 12 25 49 95 190(1)(2)观察散点图是否可用曲线y =c 1e c 2x 拟合,描述解释变量与预报变量之间的关系. 解:(1)作出散点图,如图所示:(2)由散点图可以看出样本点分布在一条指数型函数y =c 1e c 2x 曲线的周围,于是令z =ln y ,则x 1 2 3 4 5 6z 1.79 2.48 3.22 3.89 4.55 5.25由计算得z ^=0.69x +1.115,则有y ^=e 0.69x +1.115.。
3.1 第一课时 回归分析的基本步骤及相关系数一、课前准备 1.课时目标(1) 会用散点图判断两个变量是否具备相关性; (2) 能利用公式求两个相关变量的线性回归方程; (3) 了解相关系数r 刻画回归效果. 2.基础预探1.函数关系是一种 关系.而相关关系是一种 关系. 是对具有相关关系的两个变量进行统计分析的一种常用方法.2.线性回归方程ˆˆˆybx a =+中,ˆb = ,ˆa = ,其中x = ,y = ,______________称为(i i y x ,)(i =1,2,…,n)的中心点.3.利用相关系数r 刻画回归效果r = = ;用它来衡量它们之间的线性相关程度.|r |≤ ,且|r |越接近于 ,相关程度越大;|r |越接近于 ,相关程度越小. 二、学习引领1.常见的两个变量之间的关系常见的两个变量之间的关系有两种:①函数关系是一种确定性的关系,例如正方形的周长C=4a ,周长C 与边长a 之间就是一种确定性关系.对于自变量边长的每一个确定的值,都有唯一确定的周长的值与之相对应;②当自变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系叫做相关关系,如人的身高与年龄之间的关系,显然,相关关系是一种非确定性关系.2.求线性回归直线方程的步骤 第一步:列表表示x i ,y i , x i 2,x i y i ;第二步:利用公式计算ˆb; 第三步:代人ˆˆay bx =-公式计算ˆa 的值; 第四步:写出回归直线方程.3.计算线性回归方程的系数的技巧计算线性回归方程的有关量时,由于数据运算量比较大,如果不进行系统的处理容易出错.一般推荐利用下表计算ˆb的需要的参数值.利用上表值易求,11n i i x x n ==∑,11ni i y y n ==∑,ˆb =1221ni i i nii x y nxyxnx ==--∑∑ , ˆa=ˆy bx -. 4.利用量化的观点研究两个变量的相关性给定一组值,由散点图判定其是否在一条直线附近主观性太强,统计中还通常用相关系数r ,来检验两个变量之间线性相关关系的强弱.r 的取值有如下特点: ①当r>0时,l xy >0,从而b=xy xxl l >0,两个变量的值总体上呈现出同时增加的趋势.此时称两个变量正相关,当|r|越接近于1,相关程度越强.②当r<0时,b<0.一个变量增加.另一个变量有减少的趋势,称两个变量负相关,当|r|越接近于0,相关程度越弱.③当r=0时.称两个变量线性不相关.④若r ∈[-1,-0.75]时,两变量负相关很强;r ∈[0.75,1]时,两变量正相关很强;r ∈(-0.75,-0.3]或[0.3,0.75)时,两变量相关性一般; r ∈[-0.25,0.25]时,两变量相关很弱. 三、典例导析题型一 回归系数b 与a 值的统计意义例1 iphone 某配件厂生产的某电子产品的产量(千件)与单位成本x (元)满足回归直线方程77.36 1.82y x =-,则以下说法正确的是( )A.产量每增加1000件,单位成本下降1.82元;B.产量每减少1000件,单位成本上升1.82元;C.产量每增加1000件,单位成本上升1.82元;D.产量每减少1000件,单位成本下降1.82元.思路导析:利用给出的回归方程,代入x 值便可得到相应的y 的估计值.解析:回归直线的斜率为 1.82-,所以x 每增加1,y 下降1.82,即电子产品每增加1000件,单位成本下降1.82元,故选A.规律总结:回归直线方程y a bx =+中,b 的统计学意义是:x 每增加(减少)一个单位,y 平均改变b 个单位;a y bx =-的意义是y 不受x 变化影响的部分.变式训练:若施化肥量x 与水稻产量y 的回归直线方程为y =5x +250,当施化肥量为80kg 时,预计的水稻产量为____________.题型二 线性回归方程的求法及应用例2 通过市场调查,得到某产品的资金投入x (万元)与获得的利润y (万元)的数据,如下表所示:(Ⅰ)画出数据对应的散点图;(Ⅱ)根据上表提供的数据,用最小二乘法求线性回归直线方程y bx a =+; (Ⅲ)现投入资金10(万元),求估计获得的利润为多少万元.思维导析:作出散点图,观察是散点否在一条直线附近,便可判断x 、y 是否具备线性相关.利用线性回归的公式求得回归方程,再估算投资10万元时获得的利润值. 解析:(Ⅰ)由x 、y 的数据可得对应的散点图为:从图上可知,这些点大致分布在一条直线附近,故资金投入x (万元)与获得的利润y (万元)显著线性相关关系. (Ⅱ)2345645x ++++==,2356955y ++++==,b =2233455669545 1.749162536516⨯+⨯+⨯+⨯+⨯-⨯⨯=++++-⨯.所以 1.8a y bx =-=-,所以 1.7 1.8y x =-. (Ⅲ)当=x 10(万元),2.15^=y (万元), 所以投入资金10(万元),估计获得的利润为2.15万元.规律总结:计算回归直线方程前,通常将有关数据列成表格,然后计算出各个量,这样处理会降低运算的难度,提高运算的准确率.变式训练:假定新型水稻基本亩数上(单位:亩)与成熟期有效穗,(单位:十万)之间存在相关关系,今测得5组数据如下:(1)以x 为解释变量,y 为预报变量,作出散点图; (2)求y 与x 之间的回归方程;(3)估计l00亩此新型水稻的成熟期有效穗数.题型三利用相关性检验确定相关关系例 3 在庆祝泰华世纪城开业一周年之际,家电部门经理向全体员工汇报了每个月的销售情况,下表是某个员工记录的部分月份的销售额(单位:万元)的有关数据,月份 2 4 5 6 8销售额30 40 60 50 70x(2)对变量x与y进行相关性检验,求出线性回归方程;(3)试估计12月份的销售额.思路导析:通过散点图和相关系数对x、y是否具备相关关系进行判断,然后利用公式求得x、y之间的回归方程,代入数据即可估算12月份的销售额.解析:(1) 把月份x作为横坐标,相应的月销售额y作为纵坐标,在直角坐标系中描点(x i,y i)(i=1,2,3,4)作出散点图如图所示.由图可以看出,各点都在一条直线附近,所以月份与销售额之间有线性相关关系,求回归直线方程有意义.(2)因为5)86542(51=++++⨯=x,1(3040605070)505y=⨯⨯⨯⨯⨯=521145iix==∑,511380i iix y==∑所以515522221150.92(5)(5)i iii ii ix y x yrx x y y===-=≈--∑∑∑| r |的值接近于1,因此,月份x与销售额y之间存在着显著的线性关系.所以5152221513805550ˆ 6.5145555i iiiix y xybx x==--⨯⨯===-⨯-∑∑,ˆˆ50 6.5517.5a y bx=-=-⨯=于是所求的回归直线方程是5.175.6ˆ+=xy(3)当12x=时,销售额y的值ˆ 6.51217.595.5y=⨯+=,所以12月份的销售额约为95.5万元.方法规律:如果两个变量之间不具有相关关系,或者说,它们之间相关关系不显著,即使求出了回归直线方程也是毫无意义的,而且估计和预测的量也是不可信的.因此,在解答回归方程问题时要先进行相关性检验,通过检验确认两个变量是否具有线性相关关系,再求其回归直线方程.检验的方法可以利用散点图,也可以利用样本相关关系数r.变式训练:有(1)判断y与x是否具有相关关系;(2)如果y与x具有相关关系,求回归直线方程;(3)预测如果某学生成绩为79分时,他的化学成绩为多少?四、随堂练习1.关于回归方程下列说法正确的是( )A.回归方程适用于一切总体B.我们建立的回归方程都能很好地估计预报变量可能的取值C.样本取值的范围会影响回归方程的适用范围D.回归方程得到的预报值就是预报变量的精确值2.在一次试验中,测得(x,y)的四组值分别是A(1,2),B(2,3),C(3,4),D(4,5),则y与x之间的线性回归方程为( )A.ˆy=x+lB.ˆy=x+2C.ˆy=2x+lD.ˆy=x-l3.工人的月工资(元)与劳动生产率(千元)变化的回归方程为ˆy=50+80x,以下判断正确的是( )A.劳动生产率是1000元,工资为130元B.劳动生产率提高l000元,工资提高80元C.劳动生产率提高l000元,工资提高130元D.当月工资为210元,劳动生产率为2000元4.则y关于x回归直线方程是.5.=则产量每增加1000件,单位成本下降 元.6.下表是某地年降雨量与年平均气温,两者具有相关关系吗?求回归直线方程有意义吗? 五、课后作业1.对于回归分析,下列说法错误的是 ()A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定B.线性相关系数可以是正的或负的C.回归分析中,如果211r r ==±或,说明x与y之间完全线性相关 D.样本相关系数(1,1)r ∈- 2.已知x 、y 的取值如下表所示从散点图分析,y 与x 线性相关,且0.15y x a =+,则a =( ) A.2.30 B.2.40 C.3.10 D.3.303.设某种产品产量为1000件时,其生产成本为30000元,其中固定成本为6000元,则总生产成本对产量的线性回归方程是 .4.下列命题错误的个数是 .(1)康乃馨、蝴蝶兰、洋兰是母亲节期间常见的花卉,一花农为了在节前能培育出三种花卉,便利用蝴蝶兰的温度(x )与发芽率(y )之间的回归方程来预测洋兰的发芽率.(2)一饲料商人,根据多年的经销经验,得到广告费用(x /万元)与销售量(y /万吨)之间的关系大体上为ˆ0.47yx =+,于是投入广告费用100万元,并信心十足地说,今年销售量一定达到47万吨以上.(3)已知女大学生的身高和体重之间的回归方程为0.84985.7y x =-,若小明今年13岁,已知他的身高是150cm ,则他的体重为41.65kg 左右若已知二者相关,求出回归直线方程.6.一台机器由于使用时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:(1)对变量y与x进行相关性检验;(2)如果y与x有线性相关关系,写出回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么机器的运转速度就控制在什么范围内?参考答案3.1 第一课时2.基础预探1.确定性 非确定性 回归分析2.1221ni ii nii x y nxyxnx ==--∑∑ ˆy bx - 11n i i x n =∑ 11n i i y n =∑ (y x ,) ()()nniii ix x y y x y nxy---=∑∑ 1 1 0三、典例导析例1 变式训练解析:当x=80kg 时,y =5×80+250=650. 答案:650kg 例2 变式训练 解:(1)散点图如下图所示:(2)由图看出.样本点呈条状分布,有比较好的线性相关关系.因此可以用线性回归方程刻画它们之间的关系.设回归方程y=bx+a ,由表中的数据可知, x =30,y =44.代入公式可知b =515221i ii ii x y nxyxnx ==--∑∑=0.54 , a =b x -y =27.8.故回归直线方程为ˆy=0.54x+27.8. (3)当x=100时,ˆy=54+27.8=81.8万. 所以,100亩此新型水稻的成熟期有效穗数为81.8.例3 变式训练 解析:(1)因为11(8876736663)73.2,(7865716461)67.8.55x y =⨯++++==⨯++++=222222222222222222887673666327174,786571646123167,8878766573716664636125054,527174573.2382.8,525054573.267.8239.2,523167567.8182.8,i iiii i ii x yx yx x x y x y y y r =++++==++++==⨯+⨯+⨯+⨯+⨯=∴-=-⨯=-⋅=-⨯⨯=-=-⨯=∴∑∑∑∑∑∑0.9042.382.8182.8=≈⨯|r|的值接近于1,因此,认为两个变量x与Y 之间具有线性相关关系.222525054573.267.8(2)0.625,27174573.2567.80.62573.222.050,i i ix y x y b x xa y bx --⨯⨯==≈-⨯-=-=-⨯≈∑∑∴回归直线方程为22.0500.625.y x =+(3)当x=79时,22.0500.6257971425.y =+⨯=这就是说,当某学生的数学成绩为79分时,他的化学成绩约为71分. 四、随堂练习1.解析:A 错.回归方程仅适用于我们研究的总体,超出这个范围,可能会没有意义;B 错,当相关指数r 接近于l 时,回归方程才能很好地估计预报变量的取值;D 错,得到的应为估计值. 答案:C2.解析:由于回归直线过点(x ,y ),x =2.5,y =3.5,代入A 、B 、C 、D 可知.选项A 正确. 答案:A3.解析:根据回归方程回归系数的意义可知:生产率每提高1000元,则工资提高80元. 答案:B4. 解析:根据回归方程的参数公式计算可得. 答案:5317.194235.0318y x =-.5.答案:1.81826.解:以x 轴为年平均气温,y 轴为年降雨量,可得相应的散点图如图因为图中各点并不在一条直线的附近,所以两者不具有相关关系,如果用公式求得回归直线也是没有意义的. 五、课后作业1.解析:样本相关系数[1,1]r ∈-. 答案:D2.解析:因为2,5x y ==,将()2,5代入ˆ0.15yx a =+得 3.30a =. 答案:D3.答案:600024y x =+解析:设回归直线方程为6000y bx =+,因为x=1000时,y =30000,所以24b = 4.答案:3解析:对于(1)其在很大程度上,看中的是三种花卉在母亲节意义上的平行性,而忽略了物种本身的生理特点;对于(2),误把回归方程中的两个变量x 与y 的关系作为函数中的自变量与因变量,将x 与y 看做因果关系,而错误的认为预报值即为预报变量的精确值,其实回归方程得到的预报值是预报变量的可能取值的平均值.(3)使用范围不对,无法估计.故3种说法都是错误的.5.解析:由题意得,44.50,7.37x y ==,设回归直线方程为y bx a =+,则12210.175,0.43ni ii nii x y nx yb a xnx==-=≈=--∑∑.故所求的回归直线方程为0.7150.43y x =-.6.解析:(1)4442211112.5,8.25,438,4412.5,660,291i iii i i i x y x yx y x y =========∑∑∑.所以0.995r ==.因为|r|接近于1,所以y与x有线性相关关系. (2)回归直线方程为:0.72860.8571y x =-.(3)要使0.72860.857110,14.9013y x x =-≤∴≤.所以机器的转速应控制在14.9013转/秒以下.。