第十一章(理) 第四节 正态分布、线性回归 精品
- 格式:ppt
- 大小:1.49 MB
- 文档页数:29
高二数学正态分布、线性回归人教版[同步教育信息]一. 本周教学内容正态分布、线性回归二. 重点、难点 〔一〕抽样方法1. 简单随机抽样⎩⎨⎧随机数表法抽签法2. 系统抽样3. 分层抽样关键:三种抽样均使每个个体被抽到的概率相等〔二〕总体分布总体分布曲条形图线总体密度频率分布直方图频率分布条⎪⎩⎪⎨⎧---累积频率分布,曲线上一点),(b a P 即:)(a P b <=ξ〔三〕正态分布1. 正态分布),(2σμN ,其总体密度曲线近似为函数。
R x x f x ∈=--222)(21)(σμσσπ 〔σμ,为参数,0>σ〕〔1〕曲线在x 轴上方,与x 轴不相交。
〔2〕曲线关于直线μ=x 对称。
〔3〕μ=x 时,)(x f 取得最大值。
〔4〕↑-∞),(μ↓∞+),(μ〔6〕σ越大,曲线越“矮胖〞,σ越小曲线越“高瘦〞。
2. 标准正态分布)1,0(N 2221)(x ex f -=πR x ∈〔1〕偶函数 〔2〕π21)(max =x f〔3〕↑-∞)0,( ),0(∞+↓3. 标准正态分布)(1)()(000x x x P x --=<=φφ )()()(a b b x a P φφ-=<<4. 一般正态分布与标准正态分布的转化),(2σμN 中,)()()(σμφξ-=<=x x P x F〔四〕线性回归相关关系、回归分析、散点图)(21n x x x n x +++=)(121n y y y ny +++=2222121nix x x xni +++=∑= 2222121ni y y y yni +++=∑= n n iiy x y x y x yx ni +++=∑= 22111∴ 2211xn xyx n y x b ni ni ii i --=∑∑== x b y a -=回归直线方程a bx y+=ˆ 样本相关系数))((2222111y n y x n x yx n yx r ni ni ii i i ni ---=∑∑∑===1≤r 且r 越接近于1,相关程度越大r 越接近0,相关程度越小05.0r r > 回归直线方程有意义 05.0r r ≤ 回归直线方程无意义[典型例题][例1] 某政府机关在职人员100人,其中副处级干部10人,一般干部70人,职员20人,上级机关为了解政府机构改革的意见,要从中抽一个容量为10人的样本应选择〔 D 〕A. 抽签法B. 随机数表法C. 系统抽样D. 分层抽系[例2] 某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现采用分层抽样抽取一个容量为45的样本,那么高一、高二、高三各年级抽取人数分别为〔 D 〕A. 15,5,25B. 15,15,15C. 10,5,30D. 15,10,20[例3] 一个容量为n 的样本分成假设干组,某组的频数和频率分别为30和0.25那么=n 〔 B 〕A. 750B. 120C. 240D. 150[例4] ξ~)05.0,4.1(N ,=<<)45.135.1(ξP 〔 C 〕A. 8413.0B. 4406.0C. 6826.0D. 5671.0[例5] 一个容量为20的样本数据,分组后组距与频数如下:]20,10(2个,]30,20(3个,]40,30(4个,]50,40(5个,]60,50(4个,]70,60(2个,那么样本在区间〔∞-,50〕上的频率为〔 D 〕A. 5%B. 25%C. 50%D. 70%[例6] 线性回归方程a bx y+=ˆ过定点),(y x 。
高三数学(理)正态分布、线性回归、复数 知识精讲 人教版一. 本周教学内容:正态分布、线性回归、复数二. 重点、难点:1. 正态分布,N (2,σμ) R x e x f x ∈=--222)(21)(σμσπ (μ、σ为参数,σ>0)(1)曲线在x 轴上方。
(2)关于μ=x 对称。
(3)μ=x 时y 最大。
(4)↓+∞↑-∞),(),(μμ2. 线性回归应验证 样本相关系数3. 复数),(R b a C bi a z ∈∈+=Z n i i i i i i n n n n ∈-=-===+++342414411【典型例题】[例1] 标准正态分布N (0,1),2221)(x e x f -=π,R x ∈的性质 解:R x e x f y x ∈==-2221)(π (1)偶函数(2)0=x π21max =y (3)↑-∞)0,(↓+∞),0((4))(1)()(000x x x P x -Φ-=<=Φ(5))()()(a b b x a P Φ-Φ=<<),(2σμN 转化为 )1,0(2N(6))()()(σμξ-Φ=<=x x P x F[例2] 一台自动包装机向袋中装糖果,标准是每袋64g ,但因随机性误差,每袋具体重量有波动,据以往资料认为袋装糖果的重量ξ服从正态分布)5.1,64(2N 。
试问随机抽一袋糖果,其重量超过65g 的概率是多少? 解:)5.16465()65(->=>t P P ξ )67.0(>=t P )67.0(1)67.0(1Φ-=<-=t P2514.07486.01=-=[例3] 假设数学会考成绩ξ近似服从正态分布)10,70(2N ,现知第100名学生的成绩为60分。
试问第20名的学生成绩为多少分。
(7486.0)67.0(=Φ,8413.0)1(=Φ,8319.0)96.0(=Φ) 解:1070-=ξt )107060(1)60(1)60(-<-=<-=≥t P P P ξξ )1()1(1)1(1Φ=-Φ-=-<-=t P=0.8413∴ 60分以上占总体的84.13% 总人数:1198413.0100≈人 前20名:1681.011920= 设第20名成绩为x∴1681.0)(=≥x P ξ1681.0)(1=<-x P ξ8319.01681.01)1070(=-=-<x t P ∴96.01070=-x 6.970=-x ∴6.79=x[例4] 为研究某市家庭平均收入与月平均生活支出的关系,该市统计调查,随机调查10个求回归直线方程。
一、【检查作业并讲评】 二、【课前热身】了解学生对本次内容的掌握情况,便于查漏补缺。
三、【内容讲解】1.正态分布密度函数:22()21()2x f x e μσπσ--=,(σ>0,-∞<x <∞)其中π是圆周率;e 是自然对数的底;x 是随机变量的取值;μ为正态分布的均值;σ是正态分布的标准差.正态分布一般记为),(2σμN2.正态分布),(2σμN )是由均值μ和标准差σ唯一决定的分布3.正态曲线的性质:正态分布由参数μ、σ唯一确定,如果随机变量ξ~N(μ,σ2),根据定义有:μ=E ξ,σ=D ξ。
正态曲线具有以下性质:(1)曲线在x 轴的上方,与x 轴不相交。
(2)曲线关于直线x =μ对称。
(3)曲线在x =μ时位于最高点。
(4)当x <μ时,曲线上升;当x >μ时,曲线下降。
并且当曲线向左、右两边无限延伸时,以x 轴为渐近线,向它无限靠近。
(5)当μ一定时,曲线的形状由σ确定。
σ越大,曲线越“矮胖”,表示总体越分散;σ越小,曲线越“瘦高”,表示总体的分布越集中。
五条性质中前三条较易掌握,后两条较难理解,因此应运用数形结合的原则,采用对比教学4.标准正态曲线:当μ=0、σ=l 时,正态总体称为标准正态总体,其相应的函数表示式是2221)(x ex f -=π,(-∞<x <+∞)其相应的曲线称为标准正态曲线标准正态总体N (0,1)在正态总体的研究中占有重要的地位 任何正态分布的概率问题均可转化成标准正态分布的概率问题5.标准正态总体的概率问题:x标准正态分布曲线f x () =12⋅π()⋅e -x 22()xy对于标准正态总体N (0,1),)(0x Φ是总体取值小于0x 的概率, 即 )()(00x x P x <=Φ,其中00>x ,图中阴影部分的面积表示为概率0()P x x < 只要有标准正态分布表即可查表解决.从图中不难发现:当00<x 时,)(1)(00x x -Φ-=Φ;而当00=x 时,Φ(0)=0.56.标准正态分布表标准正态总体)1,0(N 在正态总体的研究中有非常重要的地位,为此专门制作了“标准正态分布表”.在这个表中,对应于0x 的值)(0x Φ是指总体取值小于0x 的概率,即 )()(00x x P x <=Φ,)0(0≥x . 若00<x ,则)(1)(00x x -Φ-=Φ.利用标准正态分布表,可以求出标准正态总体在任意区间),(21x x 内取值的概率,即直线1x x =,2x x =与正态曲线、x 轴所围成的曲边梯形的面积1221()()()P x x x x x <<=Φ-Φ.7.非标准正态总体在某区间内取值的概率:可以通过)()(σμ-Φ=x x F 转化成标准正态总体,然后查标准正态分布表即可 在这里重点掌握如何转化 首先要掌握正态总体的均值和标准差,然后进行相应的转化8.小概率事件的含义:发生概率一般不超过5%的事件,即事件在一次试验中几乎不可能发生假设检验方法的基本思想:首先,假设总体应是或近似为正态总体,然后,依照小概率事件几乎不可能在一次试验中发生的原理对试验结果进行分析 假设检验方法的操作程序,即“三步曲”一是提出统计假设,教科书中的统计假设总体是正态总体;二是确定一次试验中的a 值是否落入(μ-3σ,μ+3σ); 三是作出判断9.相关关系:当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系 相关关系与函数关系的异同点如下: 相同点:均是指两个变量的关系不同点:函数关系是一种确定的关系;而相关关系是一种非确定关系;函数关系是自变量与因变量之间的关系,这种关系是两个非随机变量的关系;而相关关系是非随机变量与随机变量的关系.10.回归分析一元线性回归分析: 对具有相关关系的两个变量进行统计分析的方法叫做回归分析 通俗地讲,回归分析是寻找相关关系中非确定性关系的某种确定性 对于线性回归分析,我们要注意以下几个方面:(1)回归分析是对具有相关关系的两个变量进行统计分析的方法。
第十一章(理) 第四节 正态分布、线性回归1.111222则有 ( )A .μ1<μ2,σ1<σ2B .μ1<μ2,σ1>σ2C .μ1>μ2,σ1<σ2D .μ1>μ2,σ1>σ2解析:μ反映正态分布的平均水平,x =μ是正态曲线的对称轴,由图知μ1<μ2,σ 反映正态分布的离散程度,σ越大,曲线越“矮胖”,表明越分散,σ越小,曲线越 “高瘦”,表明越集中,由图知σ1<σ2. 答案:A2.已知随机变量ξ服从正态分布N (3,σ2),则P (ξ<3)= ( ) A.15 B.14C.13D.12解析:根据正态分布的知识可知此正态分布图象的对称轴为x =3,而P (ξ<3)表示对 称轴左边图象的面积,对称轴左右两边图象面积相等,整个图象的面积为1. 答案:D3.设随机变量ξ服从正态分布N (2,9),若P (ξ>c +1)=P (ξ<c -1),则c = ( ) A .1 B .2 C .3 D .4解析:由题意得随机变量ξ相应的正态密度曲线关于直线x =2对称,又P (ξ>c +1) =P (ξ<c -1),因此(c +1)+(c -1)2=2,c =2.答案:B4.设随机变量ξ服从标准正态分布N (0,1),已知Φ(-1.96)=0.025,则P (|ξ|<1.96)=( ) A .0.025 B .0.050 C .0.950 D .0.975 解析:P (|ξ|<1.96)=Φ(1.96)-Φ(-1.96) =1-2Φ(-1.96)=0.950. 答案:C5.已知随机变量ξ服从正态分布N (2,σ2),P (ξ≤4)=0.84,则P (ξ≤0)= ( ) A .0.16 B .0.32C .0.68D .0.84解析:根据正态分布曲线的对称性,得P (ξ≤0)=1-P (ξ≤4)=1-0.84=0.16. 答案:A6.对有线性相关关系的两个变量建立的回归直线方程y =a +bx 中,回归系数b ( ) A .可以小于0 B .大于0 C .能等于0 D .只能小于0解析:因为b =0时,r =0,这时不具有线性相关关系,但b 能大于0也能小于0. 答案:A7.以下是两个变量x 和y 的一组数据:则这两个变量间的回归直线方程为 ( ) A.y ^=x 2 B.y ^=x C.y ^=9x -15 D.y ^=15x -9 解析:根据数据可得x =4.5,y =25.5, ∑i =1n x 2i =204,∑i =1nx i y i =1 296.b =1221niii nii x ynx y xnx ==--∑∑=1 296-8×4.5×25.5204-8×4.52=9,a =y -b x =25.5-9×4.5=-15. ∴y ^=9x -15. 答案:C8.已知回归直线方程y ^=4.4x +838.19,则可估计x 与y 的增长速度之比约为________. 解析:x 与y 的增长速度之比即为回归直线方程的斜率的倒数14.4=1044=522.答案:5229.某肉食鸡养殖小区某种病的发病鸡只数呈上升趋势,统计近4个月这种病的新发病鸡只数的线性回归分析如下表所示:该养殖小区这种病的新发病鸡总只数约为________.解析:由上表可得:y ^=94.7x +1 924.7,当x 分别取9,10,11,12时,得估计值分别 为:2 777,2 871.7,2 966.4,3 061.1,则总只数约为2 777+2 871.7+2 966.4+3 061.1≈11 676. 答案:11 67610.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的 生产能耗y (吨标准煤)的几组对照数据:(1)请根据上表提供的数据,求出y 关于x 的回归直线方程y ^=bx +a ;(2)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(1)求出的回归 直线方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解:(1)∑i =14x i y i =3×2.5+4×3+5×4+6×4.5=66.5,x —=3+4+5+64=4.5, y —=2.5+3+4+4.54=3.5,∑i =14x 2i =32+42+52+62=86,b =66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a =y —-b x —=3.5-0.7×4.5=0.35. 故回归直线方程为y ^=0.7x +0.35.(2)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35,故耗能减少了90-70.35=19.65(吨).。
线性回归中的正态分布统计方法一般都有其适用的条件,或者说是必须满足的统计假设。
使用线性回归需要满足线性、独立性、正态性、方差齐性、自变量间不存在多重共线、因变量为连续变量。
不考虑前提条件地生搬硬套,也不对模型进行诊断,只能是“Garbage in,garbage out”。
今天谈谈线性回归的正态性检验的方法论。
首先要弄清楚线性回归模型中正态分布的概念。
有人在进行线性回归模型的正态性检验时,直接将对因变量进行检验,这实际上是对线性回归正态性检验的误解。
001。
当自变量为分类变量、因变量为连续变量时,也是可以采用线性回归的。
只是在更多的时候,这种类型的分析我们更关注的是组间差异比较而不是线性回归预测,通常采用方差分析或者t检验,尤其是自变量只有1个对的时候。
模型假定不同的组来自同一个总体中的抽样,各组(严格说应该是各个单元格)的残差服从同一个正态分布,不同组的残差均服从同一个均数为0标准差为σ2的正态分布。
在实际考察的时候我们往往直接考察固定的自变量值(不同的组)对应的因变量值是否呈正态分布。
比如4个随机分组的方差分析,想要考察的分组变量即为自变量,该自变量有4个水平,可以被赋值为1、2、3、4,此时的分类自变量每个水平都有多个相同的取值,可以分别考察自变量等于1、2、3、4时对应的因变量是否满足正态分布,只有1个因素考察因变量残差与直接考察因变量是一致的。
当然我们也可以采用了线性回归进行分析,为了消除赋值带来的误差,多分类的自变量在线性回归模型中需要设置成哑变量,结果同方差分析是一致的。
今天我们重点讨论的是第二种情况:当自变量为连续变量时。
此时自变量每个“水平”的取值往往只有有限几个甚至只有1个,其对应的因变量观测值也只有几个甚至1个,毕竟每个自变量一次抽样只能对应一个因变量值,很显然这么小的样本量没法直接像自变量为分类变量那样考察每个“水平”的因变量值是否正态。
而且连续性变量取值往往较多,即使我们的样本量足够大,自变量的每一个固定值有多个取值,这种考察正态性的工作量也会变的很大。
一章1. 解:回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。
回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;在线性回归中,按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多元线性回归分析。
相关分析,相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
相关分析和回归分析是研究客观现象之间数量联系的重要统计方法。
既可以从描述统计的角度,也可以从推断统计的角度来说明。
所谓相关分析,就是用一个指标来表明现象间相互依存关系的密切程度。
所谓回归分析,就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。
它们具有共同的研究对象,在具体应用时,相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。
只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。
由于相关分析不能指出变量间相互关系的具体形式,所以回归分析要对具有相关关系的变量之间的数量联系进行测定,从而为估算和预测提供了一个重要的方法。
在有关管理问题的定量分析中,推断统计加具有更加广泛的应用价值。
需要指出的是,相关分析和回归分析只是定量分析的手段。
通过相关与回归分析,虽然可以从数量上反映现象之间的联系形式及其密切程度,但是现象内在联系的判断和因果关系的确定,必须以有关学科的理论为指导,结合专业知识和实际经验进行分析研究,才能正确解决。
因此,在应用时要把定性分析和定量分析结合起来,在定性分析的基础上开展定量分析。
正态分布、线性回归一、 知识梳理1.正态分布的重要性正态分布是概率统计中最重要的一种分布,其重要性我们可以从以下两方面来理解:一方面,正态分布是自然界最常见的一种分布。
一般说来,若影响某一数量指标的随机因素很多,而每个因素所起的作用都不太大,则这个指标服从正态分布。
2.正态曲线及其性质正态分布函数:22()2()x f x μσ--=,x ∈(-∞,+∞)3.标准正态曲线标准正态曲线N (0,1)是一种特殊的正态分布曲线,00()1()x x Φ-=-Φ,以及标准正态总体在任一区间(a ,b)内取值概率)()(a b P Φ-Φ=。
4.一般正态分布与标准正态分布的转化由于一般的正态总体),(2σμN 其图像不一定关于y 轴对称,对于任一正态总体),(2σμN ,其取值小于x 的概率)()(σμ-Φ=x x F 。
只要会用它求正态总体),(2σμN 在某个特定区间的概率即可。
5.“小概率事件”和假设检验的基本思想“小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。
这种认识便是进行推断的出发点。
关于这一点我们要有以下两个方面的认识:一是这里的“几乎不可能发生”是针对“一次试验”来说的,因为试验次数多了,该事件当然是很可能发生的;二是当我们运用“小概率事件几乎不可能发生的原理”进行推断时,我们也有5%的犯错误的可能。
课本是借助于服从正态分布的有关零件尺寸的例子来介绍假设检验的基本思想。
进行假设检验一般分三步:第一步,提出统计假设。
课本例子里的统计假设是这个工人制造的零件尺寸服从正态分布),(2σμN ; 第二步,确定一次试验中的取值a 是否落入范围(μ-3σ,μ+3σ); 第三步,作出推断。
如果a ∈(μ-3σ,μ+3σ),接受统计假设;如果)3,3(σμσμ+-∉a ,由于这是小概率事件,就拒绝统计假设。
6.相关关系研究两个变量间的相关关系是学习本节的目的。