数学-正态分布和线性回归归纳
- 格式:doc
- 大小:208.00 KB
- 文档页数:5
正态分布与回归分析正态分布是统计学中非常重要的一种概率分布,也被称为高斯分布。
它具有许多重要的性质,广泛应用于各个领域的数据分析和建模中。
回归分析则是统计学中另一个重要的概念,用于研究自变量和因变量之间的关系。
本文将介绍正态分布和回归分析的基本概念,以及它们在实际应用中的重要性和作用。
正态分布是一种连续型的概率分布,其概率密度函数呈钟形曲线,左右对称,中心峰对称于均值。
正态分布的均值、方差完全决定了整个分布。
在正态分布中,68%的数据落在均值加减一个标准差的范围内,95%的数据落在均值加减两个标准差的范围内,99.7%的数据落在均值加减三个标准差的范围内。
这种性质使得正态分布在统计学中有着重要的地位,许多统计推断和假设检验方法都建立在对数据服从正态分布的假设之上。
正态分布在实际应用中有着广泛的应用,例如在自然科学、社会科学、工程技术等领域都能看到正态分布的身影。
许多自然现象和人类行为都服从正态分布,比如身高、体重、考试成绩等。
在实验设计和数据分析中,研究人员常常假设数据服从正态分布,以便进行后续的统计推断和分析工作。
正态分布的性质使得我们能够更好地理解和描述数据的分布规律,为数据分析提供了重要的理论基础。
回归分析是一种用于研究自变量和因变量之间关系的统计方法。
在回归分析中,我们试图通过建立一个数学模型来描述自变量和因变量之间的函数关系。
最常见的回归分析是线性回归分析,即假设自变量和因变量之间的关系是线性的。
通过最小二乘法等方法,我们可以估计出回归系数,从而得到一个最佳拟合的线性模型。
回归分析在实际应用中有着广泛的应用,例如在经济学、医学、市场营销等领域都能看到回归分析的身影。
通过回归分析,我们可以揭示自变量对因变量的影响程度,预测未来的趋势,评估政策措施的效果等。
回归分析不仅可以帮助我们理解数据之间的关系,还可以为决策提供科学依据,指导实践工作的开展。
正态分布和回归分析在实际应用中常常结合起来,例如在线性回归分析中,我们通常假设误差项服从正态分布。
高二数学正态分布、线性回归人教版[同步教育信息]一. 本周教学内容正态分布、线性回归二. 重点、难点 〔一〕抽样方法1. 简单随机抽样⎩⎨⎧随机数表法抽签法2. 系统抽样3. 分层抽样关键:三种抽样均使每个个体被抽到的概率相等〔二〕总体分布总体分布曲条形图线总体密度频率分布直方图频率分布条⎪⎩⎪⎨⎧---累积频率分布,曲线上一点),(b a P 即:)(a P b <=ξ〔三〕正态分布1. 正态分布),(2σμN ,其总体密度曲线近似为函数。
R x x f x ∈=--222)(21)(σμσσπ 〔σμ,为参数,0>σ〕〔1〕曲线在x 轴上方,与x 轴不相交。
〔2〕曲线关于直线μ=x 对称。
〔3〕μ=x 时,)(x f 取得最大值。
〔4〕↑-∞),(μ↓∞+),(μ〔6〕σ越大,曲线越“矮胖〞,σ越小曲线越“高瘦〞。
2. 标准正态分布)1,0(N 2221)(x ex f -=πR x ∈〔1〕偶函数 〔2〕π21)(max =x f〔3〕↑-∞)0,( ),0(∞+↓3. 标准正态分布)(1)()(000x x x P x --=<=φφ )()()(a b b x a P φφ-=<<4. 一般正态分布与标准正态分布的转化),(2σμN 中,)()()(σμφξ-=<=x x P x F〔四〕线性回归相关关系、回归分析、散点图)(21n x x x n x +++=)(121n y y y ny +++=2222121nix x x xni +++=∑= 2222121ni y y y yni +++=∑= n n iiy x y x y x yx ni +++=∑= 22111∴ 2211xn xyx n y x b ni ni ii i --=∑∑== x b y a -=回归直线方程a bx y+=ˆ 样本相关系数))((2222111y n y x n x yx n yx r ni ni ii i i ni ---=∑∑∑===1≤r 且r 越接近于1,相关程度越大r 越接近0,相关程度越小05.0r r > 回归直线方程有意义 05.0r r ≤ 回归直线方程无意义[典型例题][例1] 某政府机关在职人员100人,其中副处级干部10人,一般干部70人,职员20人,上级机关为了解政府机构改革的意见,要从中抽一个容量为10人的样本应选择〔 D 〕A. 抽签法B. 随机数表法C. 系统抽样D. 分层抽系[例2] 某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现采用分层抽样抽取一个容量为45的样本,那么高一、高二、高三各年级抽取人数分别为〔 D 〕A. 15,5,25B. 15,15,15C. 10,5,30D. 15,10,20[例3] 一个容量为n 的样本分成假设干组,某组的频数和频率分别为30和0.25那么=n 〔 B 〕A. 750B. 120C. 240D. 150[例4] ξ~)05.0,4.1(N ,=<<)45.135.1(ξP 〔 C 〕A. 8413.0B. 4406.0C. 6826.0D. 5671.0[例5] 一个容量为20的样本数据,分组后组距与频数如下:]20,10(2个,]30,20(3个,]40,30(4个,]50,40(5个,]60,50(4个,]70,60(2个,那么样本在区间〔∞-,50〕上的频率为〔 D 〕A. 5%B. 25%C. 50%D. 70%[例6] 线性回归方程a bx y+=ˆ过定点),(y x 。
高三数学(理)正态分布、线性回归、复数 知识精讲 人教版一. 本周教学内容:正态分布、线性回归、复数二. 重点、难点:1. 正态分布,N (2,σμ) R x e x f x ∈=--222)(21)(σμσπ (μ、σ为参数,σ>0)(1)曲线在x 轴上方。
(2)关于μ=x 对称。
(3)μ=x 时y 最大。
(4)↓+∞↑-∞),(),(μμ2. 线性回归应验证 样本相关系数3. 复数),(R b a C bi a z ∈∈+=Z n i i i i i i n n n n ∈-=-===+++342414411【典型例题】[例1] 标准正态分布N (0,1),2221)(x e x f -=π,R x ∈的性质 解:R x e x f y x ∈==-2221)(π (1)偶函数(2)0=x π21max =y (3)↑-∞)0,(↓+∞),0((4))(1)()(000x x x P x -Φ-=<=Φ(5))()()(a b b x a P Φ-Φ=<<),(2σμN 转化为 )1,0(2N(6))()()(σμξ-Φ=<=x x P x F[例2] 一台自动包装机向袋中装糖果,标准是每袋64g ,但因随机性误差,每袋具体重量有波动,据以往资料认为袋装糖果的重量ξ服从正态分布)5.1,64(2N 。
试问随机抽一袋糖果,其重量超过65g 的概率是多少? 解:)5.16465()65(->=>t P P ξ )67.0(>=t P )67.0(1)67.0(1Φ-=<-=t P2514.07486.01=-=[例3] 假设数学会考成绩ξ近似服从正态分布)10,70(2N ,现知第100名学生的成绩为60分。
试问第20名的学生成绩为多少分。
(7486.0)67.0(=Φ,8413.0)1(=Φ,8319.0)96.0(=Φ) 解:1070-=ξt )107060(1)60(1)60(-<-=<-=≥t P P P ξξ )1()1(1)1(1Φ=-Φ-=-<-=t P=0.8413∴ 60分以上占总体的84.13% 总人数:1198413.0100≈人 前20名:1681.011920= 设第20名成绩为x∴1681.0)(=≥x P ξ1681.0)(1=<-x P ξ8319.01681.01)1070(=-=-<x t P ∴96.01070=-x 6.970=-x ∴6.79=x[例4] 为研究某市家庭平均收入与月平均生活支出的关系,该市统计调查,随机调查10个求回归直线方程。
高考正态分布知识点在统计学中,正态分布是一种重要的概率分布,也被称为钟形曲线或高斯分布。
在高考数学中,正态分布是一个常见的考察点,学生需要了解和掌握与正态分布相关的概念、性质和应用。
下面将详细介绍高考正态分布的知识点。
一、正态分布的定义和性质1. 正态分布的定义:正态分布是指在数理统计中,如果随机变量X服从一个数学期望为μ、方差为σ²的正态分布,则记为X~N(μ, σ²),其中N表示正态分布。
2. 正态分布的性质:(1)正态分布是对称的,其均值、中位数和众数都相等,即μ=中位数=众数。
(2)正态分布的图像呈现出典型的钟形曲线。
(3)正态分布的曲线在均值两侧呈现出逐渐减小的趋势,但是永远不会到达横轴。
(4)正态分布的曲线关于均值μ对称。
(5)正态分布的标准差σ越大,曲线越矮胖;标准差σ越小,曲线越瘦高。
(6)约68%的数据落在均值±1个标准差范围内;约95%的数据落在均值±2个标准差范围内;约99.7%的数据落在均值±3个标准差范围内。
二、正态分布的概率计算1. 标准正态分布:标准正态分布是指均值为0,标准差为1的正态分布。
记为Z~N(0, 1)。
对于标准正态分布,我们可以通过计算标准正态分布表来得到对应的概率值。
2. 普通正态分布:当随机变量X服从正态分布N(μ, σ²)时,可以进行标准化处理,将X转化为一个服从标准正态分布的随机变量Z。
即Z=(X-μ)/σ,这样就得到了一个标准正态分布。
对于普通正态分布,可以通过标准正态分布表和标准化公式来计算相应的概率值。
3. 概率计算:对于正态分布,我们常常需要计算在某个区间范围内的概率值。
对于标准正态分布,可以利用标准正态分布表查找对应的概率值。
对于普通正态分布,可以将其转化为标准正态分布进行计算。
三、正态分布的参数估计1. 样本均值的抽样分布:在统计学中,我们经常需要对总体的均值进行估计。
对于正态分布,样本均值的抽样分布也是一个正态分布,并且其均值等于总体均值,方差等于总体方差除以样本容量的平方根。
2022年新高考数学总复习:正态分布知识点一正态曲线及其性质(1)正态曲线:函数f(x)=12πσe-(x-μ)22σ2,x∈(-∞,+∞),其中实数μ和σ(σ>0)为参数.我们称函数f(x)的图象为正态分布密度曲线,简称正态曲线,期望为μ、标准差为σ的正态分布通常记作__X~N(μ,σ2)__.(2)正态曲线的性质:①曲线位于x轴__上方__,与x轴不相交;②曲线是单峰的,它关于直线__x=μ__对称;③曲线在__x=μ__处达到峰值1σ2π;④曲线与x轴之间的面积为__1__;⑤当σ一定时,曲线的位置由μ确定,曲线随着μ的变化而沿着x轴平移;⑥当μ一定时,曲线的形状由σ确定,σ越小,曲线越“瘦高”,表示总体的分布越__集中__;σ越大,曲线越“矮胖”,表示总体的分布越__分散__.知识点二正态分布(1)正态分布的定义及表示.若对于任何实数a,b(a<b),随机变量X满足P(a<X≤b)=__⎠⎛abφμ,σ(x)d x__,则称X 服从正态分布,记作X~N(μ,σ2).(2)正态总体在三个特殊区间内取值的概率值:①P(μ-σ<X≤μ+σ)=__0.682_6__;②P(μ-2σ<X≤μ+2σ)=__0.954_4__;③P(μ-3σ<X≤μ+3σ)=__0.997_4__.归纳拓展对于正态分布N(μ,σ2),由x=μ是正态曲线的对称轴知(1)P(X≥μ)=P(X≤μ)=0.5;(2)对任意的a有P(X<μ-a)=P(X>μ+a);(3)P(X<x0)=1-P(x≥x0);(4)P(a<X<b)=P(X<b)-P(X≤a).注:在X服从正态分布,即X~N(μ,σ2)时,要充分利用正态曲线的关于直线x=μ对称和曲线与x轴之间的面积为1.双基自测题组一 走出误区1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)随机变量的均值是常数,样本的平均数是随机变量,它不确定.( √ )(2)随机变量的方差和标准差都反映了随机变量取值偏离均值的平均程度,方差或标准差越小,则偏离变量的平均程度越小.( √ )(3)正态分布中的参数μ和σ完全确定了正态分布,参数μ是正态分布的均值,σ是正态分布的标准差.( √ )(4)若X ~N (0,1),则P (x <-12)<P (x ≥12).( × )题组二 走进教材2.(P 75B 组T2改编)设随机变量ξ服从正态分布N (4,3),若P (ξ<a -5)=P (ξ>a +1),则实数a 等于( B )A .7B .6C .5D .4[解析] 由题意知(a -5)+(a +1)2=4,∴a =6.题组三 走向高考3.(2015·山东)已知某批零件的长度误差ξ(单位:毫米)服从正态分布N (0,32),从中随机取一件,其长度误差落在区间(3,6)内的概率为( B )(附:正态分布N (μ,σ2)中,P (μ-σ<ξ<μ+σ)=0. 682 7,P (μ-2σ<ξ<μ+2σ)=0.954 5)A .0.045 6B .0.135 9C .0. 271 8D .0.317 4[解析] 因为P (-3<ξ<3)=0. 682 7,P (-6<ξ<6)=0.954 5,所以P (3<ξ<6)=12×(0.954 5-0.682 7)=0.135 9.故选B .4.(2015·湖北,5分)设X ~N (μ1,σ21),Y ~N (μ2,σ22),这两个正态分布密度曲线如图所示,下列结论中正确的是( C )A .P (Y ≥μ2)≥P (Y ≥μ1)B .P (X ≤σ2)≤P (X ≤σ1)C .对任意正数t ,P (X ≤t )≥P (Y ≤t )D .对任意正数t ,P (X ≥t )≥P (Y ≥t )[解析] 由正态分布密度曲线的性质可知,X ~N (μ1,σ21),Y ~N (μ2,σ22)的密度曲线分别关于直线x =μ1,x =μ2对称,因此结合题中所给图象可得,μ1<μ2,所以P (Y ≥μ2)<P (Y ≥μ1),故A 错误.又X ~N (μ1,σ21)的密度曲线较Y ~ N (μ2,σ22)的密度曲线“瘦高”,所以σ1<σ2,所以P (X ≤σ2)>P (X ≤σ1),B 错误.对任意正数t ,P (X ≤t )≥P (Y ≤t ),P (X ≥t )≤P (Y ≥t ),C 正确,D 错误.5.(2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每天从该生产线上随机抽取16个零件,并测量其尺寸(单位:cm).根据长期生产经验,可以认为这条生产线正常状态下生产的零件的尺寸服从正态分布N (μ,σ2).(1)假设生产状态正常,记X 表示一天内抽取的16个零件中其尺寸在(μ-3σ,μ+3σ)之外的零件数,求P (X ≥1)及X 的数学期望;(2)一天内抽检零件中,如果出现了尺寸在(μ-3σ,μ+3σ)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①试说明上述监控生产过程方法的合理性; ②下面是检验员在一天内抽取的16个零件的尺寸: 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95 经计算得x =116∑16i =1x i=9.97,s =116∑16i =1 (x i -x )2=116∑16i =1(x 2i -16x -2)≈0.212,其中x i 为抽取的第i 个零件的尺寸,i =1,2, (16)用样本平均数x 作为μ的估计值μ^,用样本标准差s 作为σ的估计值σ^,利用估计值判断是否需对当天的生产过程进行检查?剔除(μ^-3σ^,μ^+3σ^)之外的数据,用剩下的数据估计μ和σ(精确到0.01).附:若随机变量Z 服从正态分布N (μ,σ2),则P (μ-3σ<Z <μ+3σ)=0.997 4,0.997 416≈0.959 2,0.008≈0.09.[解析] (1)抽取的一个零件的尺寸在(μ-3σ,μ+3σ)之内的概率为0.997 4,从而零件的尺寸在(μ-3σ,μ+3σ)之外的概率为0.002 6,故X ~B (16,0.002 6).因此P (X ≥1)=1-P (X =0)=1-0.997 416≈0.040 8.X 的数学期望为E (X )=16×0.002 6=0.041 6.(2)①如果生产状态正常,一个零件尺寸在(μ-3σ,μ+3σ)之外的概率只有0.002 6,一天内抽取的16个零件中,出现尺寸在(μ-3σ,μ+3σ)之外的零件的概率只有0.040 8,发生的概率很小.因此一旦发生这种情况,就有理由认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查,可见上述监控生产过程的方法是合理的.②由x -=9.97,s ≈0.212,得μ的估计值为μ^=9.97,σ的估计值为σ^=0.212,由样本数据可以看出有一个零件的尺寸在(μ^-3σ^,μ^+3σ^)之外,因此需对当天的生产过程进行检查.剔除(μ^-3σ^,μ^+3σ^)之外的数据9.22,剩下数据的平均数为115(16×9.97-9.22)=10.02,因此μ的估计值为10.02.∑16i =1x 2i =16×0.2122+16×9.972≈1 591.134, 剔除(μ^-3σ^,μ^+3σ^)之外的数据9.22,剩下数据的样本方差为115(1 591.134-9.222-15×10.022)≈0.008,因此σ的估计值为0.008≈0.09.考点突破·互动探究考点一 正态分布的性质——自主练透例1 (2021·河北唐山模拟)已知随机变量X 服从正态分布N (0,1),随机变量Y 服从正态分布N (1,1),且P (X >1)=0.158 7,则P (1<Y <2)=( B )A .0.158 7B .0.341 3C .0.841 3D .0.658 7[解析] 由正态曲线的性质知,随机变量X 、Y 的正态曲线形状相同,(如图).由题意P (Y >2)=P (X >1)=0.158 7,∴P (1<Y <2)=0.5-0.158 7=0.341 3.故选B .名师点拨对X ~N (μ,σ2)中的μ,σ的意义不清楚,特别是对μ的认识不清楚,就会在解题时无从下手,导致随便给出一个结果.这里μ是随机变量X 的均值,σ是标准差,x =μ是正态分布密度曲线的对称轴.〔变式训练2〕设两个正态分布N (μ1,σ21)(σ1>0)和N (μ2,σ22)(σ2>0)的密度函数分别为φ1(x )和φ2(x ),其图象如图所示,则下列结论正确的是( C )①μ1<μ2②μ1>μ2③σ1<σ2④σ1>σ2A.①②B.②③C.①③D.③④[解析]f(x)=12πσe-(x-μ)22σ2中x=μ是对称轴,故μ1<μ2;σ越大,曲线越“矮胖”,σ越小曲线越“高瘦”,故σ1<σ2.故选C.考点二正态分布——多维探究例1角度1正态曲线的对称性(1)(2021·山东新高考质量测评联盟联考)在2019年高中学生信息技术测试中,经统计,某校高二学生的测试成绩X~N(86,σ2),若已知P(80<X≤86)=0.36,则从该校高二年级任选一名考生,他的测试成绩大于92分的概率为(D)A.0.86B.0.64C.0.36D.0.14[解析]由题意P(86<x≤92)=P(80<x≤86)=0.36,∴P(X>92)=0.5-0.36=0.14,故选D.角度2确定正态曲线的对称轴(2)(2021·福建模拟)已知随机变量X服从正态分布N(μ,σ2),若P(X<3)+P(X≤1)=1,则μ=__2__.[解析]因为X服从正态分布N(μ,σ2),所以P(X<3)+P(X≥3)=1,所以P(X≤1)=P(X≥3),由正态曲线的对称性知对称轴为X=2,所以μ=2.角度3三个常用数据(3)(2020·安阳二模)2020年2月,受新冠肺炎的影响,医卫市场上出现了“一罩难求”的现象.在政府部门的牵头下,部分工厂转业生产口罩,已知某工厂生产口罩的质量指标ξ~N(15,0.002 5),单位为g,该厂每天生产的质量在(14.9 g,15.05 g)的口罩数量为818 600件,则可以估计该厂每天生产的质量在15.15 g以上的口罩数量为(D)参考数据:若ξ~N(μ,σ2),则P(μ-σ<ξ<μ+σ)=0.682 7,P(μ-2σ<ξ<μ+2σ)=0.954 5,P(μ-3σ<ξ<μ+3σ)=0.997 3.A.158 700B.22 750C .2 700D .1 350[解析] 由题意知,ξ~N (15,0.002 5), 即μ=15,σ2= 0.002 5,即σ=0.05;所以P (14.9<ξ<15.05)=P (μ-2σ<ξ<μ+σ)=0.682 7+0.954 52=0.818 6,所以该厂每天生产的口罩总量为 818 600÷0.818 6=1 000 000(件), 又P (ξ>15.15)=P (ξ>μ+3σ)=1- 0.997 32, 所以估计该厂每天生产的质量在15.15 g 以上的口罩数量为1 000 000×1-0.997 32=1350(件).故选D .[引申]本例(1)中若有1 000名学生参加测试,则测试成绩在80分以上的人数为__860__. [解析] 1 000×P (X >80)=1 000×[1-(0.5-0.36)]=860.名师点拨关于正态总体在某个区间内取值的概率求法(1)熟记P (μ-σ<X ≤μ+σ),P (μ-2σ<X ≤μ+2σ),P (μ-3σ<X ≤μ+3σ)的值; (2)充分利用正态曲线的对称性和曲线与x 轴之间面积为1.①正态曲线关于直线x =μ对称,从而在关于x =μ对称的区间上概率相等;②P (X <a )=1-P (X ≥a ),P (X <μ-a )=P (X ≥μ+a ).〔变式训练2〕(1)(角度1)(2021·江苏苏州调研)已知随机变量ξ服从正态分布N (1,σ2),且P (ξ<4)=0.9,则P (-2<ξ<1)=( C )A .0.2B .0.3C .0.4D .0.6(2)(角度2)(2021·江西模拟)已知随机变量ξ服从正态分布N (μ,σ2),若P (ξ<2)=P (ξ>8)=0.15,则P (2≤ξ<5)=( B )A .0.3B .0.35C .0.5D .0.7(3)(角度3)(2021·青岛模拟)已知某市居民在2019年用于手机支付的个人消费额ξ(单位:元)服从正态分布N (2 000,1002),则该市某居民手机支付的消费额在(1 900,2 200)内的概率为( C )附:随机变量ξ服从正态分布N (μ,σ2),则 P (μ-σ<ξ<μ+σ)=0.682 6,P (μ-3σ<ξ<μ+3σ)=0.997 4. A .0.975 9 B .0.84 C .0.818 5D .0.477 2[解析] (1)由P (ξ<4)=0.9,得P (ξ≥4)=0.1.又正态曲线关于x =1对称. 则P (ξ≤-2)=P (ξ≥4)=0.1,所以P (-2<ξ<1)=1-P (ξ≤-2)-P (ξ≥4)2=0.4.故选C .(2)根据题意,正态分布N (μ,σ2), 若P (ξ<2)=P (ξ>8)=0.15,则μ=5,即这组数据对应的正态曲线的对称轴x =5,则P (ξ<5)=0.5, 又由P (ξ<2)=0.15,得P (2≤ξ<5)=0.5-0.15=0.35.故选B . (3)∵服从正态分布N (2 000,1002), ∴μ=2 000,σ=100,则P (1 900<ξ<2 200)=P (μ-σ<ξ<μ+σ)+12[P (μ-2σ<ξ<μ+2σ)-P (μ-σ<ξ<μ+σ)]=0.682 6+12(0.954 4-0.682 6)=0.818 5.故选C .考点三,正态分布的综合应用例3 (1)(2021·贵州贵阳为明教育集团调研)如图,在正方形ABCD 中的阴影部分的上下边界分别是曲线C 1和C 2,其中C 1是正态分布N (0,0.52)的密度曲线,C 1与C 2关于x 轴对称,若在正方形中随机取一点,则该点取自阴影部分的概率是( C )参考数据:随机变量Z 服从正态分布N (μ,σ2)的概率为:P (μ-2σ<Z ≤μ+2σ)=0.954 4, P (μ-3σ<Z ≤μ+3σ)=0.997 4 A .0.682 6 B .0.954 4 C .0.477 2D .0.498 7(2)(2021·河南六市模拟)十九大以来,某贫困地区扶贫办积极贯彻落实国家精准扶贫的政策要求,带领广大农村地区人民群众脱贫奔小康.经过不懈的奋力拼搏,新农村建设取得巨大进步,农民年收入也逐年增加,为了制定提升农民收入、实现2020年脱贫的工作计划,该地扶贫办统计了2019年50位农民的年收入并制成如下频率分布直方图:(ⅰ)根据频率分布直方图,估计50位农民的平均年收入x -(单位:千元);(同一组数据用该组数据区间的中点值表示);(ⅱ)由频率分布直方图,可以认为该贫困地区农民年收入X 服从正态分布N (μ,σ2),其中μ近似为年平均收入x -,σ2近似为样本方差s 2,经计算得s 2=6.92,利用该正态分布,求:①在扶贫攻坚工作中,若使该地区约有占总农民人数的84.14%的农民的年收入高于扶贫办制定的最低年收入标准,则最低年收入标准大约为多少千元?②为了调研“精准扶贫,不落一人”的政策要求落实情况,扶贫办随机走访了1 000位农民.若每位农民的年收入互相独立,问:这1000位农民中的年收入不少于12.14千元的人数最有可能是多少?附参考数据:6.92≈2.63,若随机变量X 服从正态分布N (μ,σ2),则P (μ-σ<X <μ+σ)=0.6827,P (μ-2σ<X <μ+2σ)=0.9545,P (μ-3σ<X <μ+3σ)=0.9973.[解析] (1)因为C 1是正态分布N (0,0.52)的密度曲线, 且P (μ-2σ<Z ≤μ+2σ)=0.954 4, 所以P (-1<Z ≤1)=0.954 4,则阴影部分的面积S =0.954 4×2=1.908 8,所以若在正方形中随机取一点,则该点取自阴影部分的概率是1.908 84=0.477 2.故选C .(2)(ⅰ)x -=12×0.04+14×0.12+16×0.28+18×0.36+20×0.10+22×0.06+24×0.04=17.40千元.故估计50位农民的年平均收入x -为17.40千元. (ⅱ)由题意知X ~N (17.40,6.92), ①P (X >μ-σ)=12+0.682 72≈0.841 4,所以μ-σ=17.40-2.63=14.77时,满足题意, 即最低年收入大约为14.77千元.②由P (x ≥12.14)=P (x ≥μ-2σ)=0.5+0.954 52≈0.977 3,每个农民的年收入不少于12.14千元的事件的概率为0.977 3, 记1 000个农民的年收入不少于12.14千元的人数为ξ 则ξ~B (1 000,p ),其中p =0.977 3于是恰好有k 个农民的年收入不少于12.14千元的事件概率为P (ξ=k )=C k 1 000p k (1-p )1 000-k , 从而由P (ξ=k )P (ξ=k -1)=(1 001-k )×p k ×(1-p )>1,得k <1 001p而1 001p =978.277 3,所以,当0≤k ≤978时,P (ξ=k -1)<P (ξ=k ); 当979≤k ≤1 000时,P (ξ=k -1)>P (ξ=k ),由此可知,在所走访的1 000位农民中,年收入不少于12.14千元的人数最有可能是978人.名师点拨解决正态分布问题的三个关键点 若随机变量ξ~N (μ,σ2),则 (1)对称轴x =μ; (2)标准差σ;(3)分布区间.利用对称性可求指定范围内的概率值;由μ,σ,分布区间的特征进行转化,使分布区间转化为3σ特殊区间,从而求出所求概率〔变式训练3〕(2021·广西柳州铁路一中、玉林一中联考)从某公司生产线生产的某种产品中抽取1 000件,测量这些产品的一项质量指标,由检测结果得如图所示的频率分布直方图:(1)求这1 000件产品质量指标的样本平均数x -和样本方差s 2(同一组中的数据用该组区间的中点值作代表);(2)由直方图可以认为,这种产品的质量指标值Z 服从正态分布N (μ,σ2),其中μ近似为样本平均数x -,σ2近似为样本方差s 2.①利用该正态分布,求P (175.6<Z <224.4);②已知每件该产品的生产成本为10元,每件合格品(质量指标值Z ∈(175.6,224.4))的定价为16元;若为次品(质量指标值Z ∉(175.6,224.4)),除了全额退款外且每件次品还须赔付客户48元,若该公司卖出100件这种产品,记Y 表示这些产品的利润,求E (Y ).附:150≈12.2,若Z ~N (μ,σ2),则P (μ-σ<Z <μ+σ)≈0.68,P (μ-2σ<Z <μ+2σ)≈0.95. [解析] (1)由题意得x -=170×0.02+180×0.09+190×0.22+200×0.33+210×0.24+220×0.08+230×0.02=200s 2=(170-200)2×0.02+(180-200)2×0.09+(190-200)2×0.22+(200-200)2×0.33+(210-200)2×0.24+(220-200)2×0.08+(230-200)2×0.02=150.即样本平均数为200,样本方差为150. (2)①由(1)可知,μ=200,σ=150≈12.2, ∴Z ~N (200,12.22),∴P (175.6<Z <224.4) =P (μ-2σ<Z <μ+2σ)≈0.95 ②设X 表示100件产品的正品数, 题意得X ~B (100,0.95),∴E (X )=95, ∴E (Y )=16E (X )-48×5-100×10=280.名师讲坛·素养提升利用均值与方差求解决策性问题例4 (2021·湖南益阳调研)已知6名某疾病病毒密切接触者中有1名感染病毒,其余5名未感染,需要通过化验血液来确定感染者.血液化验结果呈阳性的即为感染者,呈阴性即为未感染者.(1)若从这6名密切接触者中随机抽取2名,求抽到感染者的概率;(2)血液化验确定感染者的方法有:方法一是逐一化验;方法二是平均分组混合化验,先将血液样本平均分成若干组,对组内血液混合化验,若化验结果呈阴性,则该组血液不含病毒,若化验结果呈阳性,则对该组的备份血液逐一化验;直至确定感染者.(ⅰ)采取逐一化验,求所需化验次数ξ的分布列及数学期望;(ⅱ)采取平均分成三组混合化验(每组血液份数相同),求该分组方法所需化验次数的数学期望.你认为选择哪种化验方案更合理?请说明理由.[解析] (1)抽到感染者的概率P =C 11C 15C 26=515=13.(2)(ⅰ)按逐一化验法,ξ的可能取值为1,2,3,4,5,P (ξ=1)=C 11C 16=16,P (ξ=2)=C 15C 11A 26=16,P (ξ=3)=A 25C 11A 36=16,P (ξ=4)=A 35C 11A 46=16,P (ξ=5)=A 45C 11+A 55A 56=13, 所以ξ的分布列为数学期望E (ξ)=1×16+2×16+3×16+4×16+5×13=103.(ⅱ)平均分成三组即按(2,2,2)分组, 记所需化验次数为η,则η=2,3, P (η=2)=13,P (η=3)=23×12+23×12=23所以η的分布列为数学期望E (η)=2×13+3×23=83.因为E (ξ)>E (η),所以按平均分组法较合理.名师点拨随机变量的均值反映了随机变量取值的平均水平,方差反映了随机变量稳定于均值的程度,它们从整体和全局上刻画了随机变量,是生产实际中用于方案取舍的重要理论依据.一般先比较均值,若均值相同,再用方差来决定.〔变式训练4〕(2021·湖南郴州质检)某蔬菜种植基地有一批蔬菜需要两天内采摘完毕,天气预报显示这两天每天是否有雨相互独立,无雨的概率都为0.8.现有两种方案可以选择:方案一:基地人员自己采摘,不额外聘请工人,需要两天完成,两天都无雨收益为2万元,只有一天有雨收益为1万元,两天都有雨收益为0.75万元.方案二:基地额外聘请工人,只要一天就可以完成采摘,当天无雨收益为2万元,有雨收益为1万元.额外聘请工人的成本为a 万元.(1)若不额外聘请工人,写出基地收益X 的分布列及基地的预期收益; (2)该基地是否应该外聘工人?请说明理由. [解析] (1)基地收益X 的可能值为2,1,0.75,则P (X =2)=0.8×0.8=0.64,P (X =1)=0.8×0.2+0.2×0.8=0.32, P (X =0.75)=(1-0.8)×(1-0.8)=0.04, 故X 的分布列为则E (X )=2×0.64(2)设基地额外聘请工人时的收益为Y 万元, 则其预期收益E (Y )=2×0.8+1×0.2-a =1.8 -a E (Y )-E (X )=0.17-a综上可得,当额外聘请工人的成本高于0.17万元时,E (X )>E (Y ),不外聘工人, 当成本低于0.17万元时E (X )<E (Y ),外聘工人,当成本恰为0.17万元时,E (X )=E (Y ),是否外聘工人均可以.高考大题规范解答系列(六)——概率与统计考点一 离散型随机变量的分布列与期望(理)例1 (2021·山西联考)已知甲盒中有三个白球和三个红球,乙盒中仅装有三个白球,球除颜色外完全相同.现从甲盒中任取三个球放入乙盒中.(1)求乙盒中红球个数X 的分布列与期望; (2)求从乙盒中任取一球是红球的概率. 【标准答案】——规范答题 步步得分 (1)由题意知X 的可能取值为0,1,2,3.P (X =0)=C 03C 33C 36=120,P (X =1)=C 13C 23C 36=920,P (X =2)=C 23C 13C 36=920,P (X =3)=C 33C 03C 36=120,所以X 的分布列为所以E (X )=0×120+1×920+2×920+3×120=32.(2)当乙盒中红球个数为0时,P 1=0,当乙盒中红球个数为1时,P 2=920×16=340,当乙盒中红球个数为2,P 3=920×26=320, 当乙盒中红球个数为3时,P 4=120×36=140,所以从乙盒中任取一球是红球的概率为P 1+P 2+P 3+P 4=14.【评分细则】(1)第一问中,正确算出P (X =0),P (X =1),P (X =2),P (X =3)各得1分,列出分布列得1分,求出期望得1分.(2)第二问中,分类讨论,每种情况各占1分. (3)其他方法按步骤酌情给分.例2 (2019·课标Ⅰ,21)为治疗某种疾病,研制了甲、乙两种新药,希望知道哪种新药更有效,为此进行动物试验.试验方案如下:每一轮选取两只白鼠对药效进行对比试验.对于两只白鼠,随机选一只施以甲药,另一只施以乙药.一轮的治疗结果得出后,再安排下一轮试验.当其中一种药治愈的白鼠比另一种药治愈的白鼠多4只时,就停止试验,并认为治愈只数多的药更有效.为了方便描述问题,约定:对于每轮试验,若施以甲药的白鼠治愈且施以乙药的白鼠未治愈,则甲药得1分,乙药得-1分;若施以乙药的白鼠治愈且施以甲药的白鼠未治愈,则乙药得1分,甲药得-1分;若都治愈或都未治愈,则两种药均得0分.甲、乙两种药的治愈率分别记为α和β,一轮试验中甲药的得分记为X .(1)求X 的分布列;(2)若甲药、乙药在试验开始时都赋予4分,p i (i =0,1,…,8)表示“甲药的累计得分为i 时,最终认为甲药比乙药更有效”的概率,则p 0=0,p 8=1,p i =ap i -1+bp i +cp i +1(i =1,2,…,7),其中a =P (X =-1),b =P (X =0),c =P (X =1).假设α=0.5,β=0.8.①证明:{p i +1-p i }(i =0,1,2,…,7)为等比数列; ②求p 4,并根据p 4的值解释这种试验方案的合理性. 【标准答案】——规范答题 步步得分(1)X 的所有可能取值为-1,0,1. P (X =-1)=(1-α)β, P (X =0)=αβ+(1-α)·(1-β), P (X =1)=α(1-β). 所以X 的分布列为(2)①由(1)得a =0.4,b =0.5,c =0.1.因此p i =0.4P i -1+0.5p i +0.1p i +1, 故0.1(p i +1-p i )=0.4(p i -p i -1), 即p i +1-p i =4(p i -p i -1). 又因为p 1-p 0=p 1≠0,所以{p i +1-p i }(i =0,1,2,…,7)是公比为4,首项为p 1的等比数列. ②由①可得p 8=p 8-p 7+p 7-p 6+…+p 1-p 0+p 0=(p 8-p 7)+(p 7-p 6)+…+(p 1-p 0)=48-13p 1.由于p 8=1,故p 1=348-1,所以p 4=(p 4-p 3)+(p 3-p 2)+(p 2-p 1)+(p 1-p 0) =44-13p 1=1257.p 4表示最终认为甲药更有效的概率.由计算结果可以看出,在甲药治愈率为0.5,乙药治愈率为0.8时,认为甲药更有效的概率为p 4=1257≈0.003 9,此时得出错误结论的概率非常小,说明这种试验方案合理. 【评分细则】①每个式子1分,表格1分;给出X 的可能取值给1分; ②得出a 、b 、c 的值(有正确的)得1分; ③得到P i +1-P i =4(P i -P i -1)得1分; ④给出结论得1分;⑤得出P 8,P 4,P 1的表达式各得1分;⑥说明P 4非常小得1分; ⑦说明实验方案合理得1分. 【名师点评】1.核心素养:本题主要考查相互独立事件的概率、随机变量的期望、方差的应用、二项分布、决策问题等,考查数据处理能力、运算求解能力,考查或然与必然思想,考查的核心素养的逻辑推理、数学建模、数学运算、数据分析.2.解题技巧:破解此类题的关键:一是认真读题,读懂题意;二是会利用导数求最值;三是会利用公式求服从特殊分布的离散型随机变量的期望值;四是会利用期望值,解决决策型问题.〔变式训练1〕(2021·湖南五市十校教研教改共同体联考)某学校为了了解学生对新冠病毒的传播和预防知识的掌握情况,学校决定组织一次有关新冠病毒预防知识竞答.竞答分为必答题(共5题)和选答题(共2题)两部分.每位同学答题相互独立,且每道题答对与否互不影响.已知甲同学答对每道必答题的概率为45,答对每道选答题的概率为25.(1)求甲恰好答对4道必答题的概率;(2)在选答阶段,若选择回答且答对奖励5分,答错扣2分,选择放弃回答得0分.已知甲同学对于选答的两道题,选择回答和放弃回答的概率均为12,试求甲同学在选答题阶段,得分X 的分布列.[解析] (1)甲恰好答对4道必答题的概率为 P =C 45⎝⎛⎭⎫454×15=256625.(2)依题意,每道题选择回答并答对的概率为12×25=15,选择回答且答错的概率为12×35=310,选择放弃回答的概率为12.甲得分的可能性为-4分,-2分,0分,3分,5分和10分. 所以P (X =-4)=9100,P (X =-2)=C 1212×12×35=310, P (X =0)=12×12=14,P (X =3)=C 1212×12×25×35=325,P (X =5)=C 1212×12×25=15, P (X =10)=12×12×⎝⎛⎭⎫252=125.所以X 的分布列为考点一 随机抽样、频率分布直方图及其应用(文)例1 (2021·河南质量测评)“不忘初心、牢记使命”主题教育活动正在全国开展,某区政府为统计全区党员干部一周参与主题教育活动的时间,从全区的党员干部中随机抽取n 名,获得了他们一周参加主题教育活动的时间(单位:时)的频率分布直方图,如图所示,已知参加主题教育活动的时间在(12,16]内的人数为92.(1)估计这些党员干部一周参与主题教育活动的时间的平均值;(2)用频率估计概率,如果计划对全区一周参与主题教育活动的时间在(16,24]内的党员干部给予奖励,且参与时间在(16,20],(20,24]内的分别获二等奖和一等奖,通过分层抽样方法从这些获奖人中随机抽取5人,再从这5人中任意选取3人,求3人均获二等奖的概率.【分析】 (1)先利用频率分布“直方图中各小矩形面积为1”求出a 的值,再利用各小矩形中点横坐标与该矩形面积积的和求平均值;(2)利用分层抽样的性质先求出在(16,20],(20,24]内分别抽取的人数,再用列举法求概率.【标准答案】——规范答题 步步得分 (1)由已知可得a =1÷4-(0.025 0+0.047 5+0.050 0+0.012 5)=0.115 0,2分得分点①所以这些党员干部一周参加主题教育活动的时间的平均值为(6×0.025+10×0.047 5+14×0.115+18×0.05+22×0.012 5)×4=13.644分得分点②(2)因为0.115 0×4×n =92,所以n =920.115 0×4=200.6分得分点③故参与主题教育活动的时间在(16,20]的人数为 0.050 0×4×200=40,参与主题教育活动的时间在(20,24]的人数为 0.012 5×4×200=10.8分得分点④则利用分层抽样抽取的人数:在(16,20]内为4人,9分得分点⑤ 设为a ,b ,c ,d ;在(20,24]内为1人,设为A ,从这5人中选取3人的事件空间为:{(a ,b ,c ),(a ,b ,d ),(a ,b ,A ),(a ,c ,d ),(a ,c ,A ),(a ,d ,A ),(b ,c ,d ),(b ,c ,A ),(b ,d ,A ),(c ,d ,A )},共10种情况,10分其中全是二等奖的有4种情况.11分 故P =410=25.12分得分点⑥【评分细则】①列对算式计算错误得1分,全对得2分; ②列对算式计算错误得1分,全对得2分; ③计算错误不得分;④求对(20,24],(16,20]上人数各得1分; ⑤求对(20,24]或(16,20]内抽取人数得1分;⑥列举出事件空间得1分,数对数目得1分;求对概率得1分. 【名师点评】本题主要考查随机抽样、频率分布直方图及概率,考查学生数据处理能力、运算能力. 〔变式训练1〕(2020·四川成都诊断)2019年12月,《生活垃圾分类标志》新标准分布并正式实施.为进一步普及生活垃圾分类知识,了解居民生活垃圾分类情况,某社区开展了一次关于垃圾分类的问卷调查活动,并对随机抽取的1 000人的年龄进行了统计,得到如下的各年龄段频数分布表和各年龄段人数频率分布直方图:(1)请补全各年龄段人数频率分布直方图,并求出各年龄段频数分布表中m ,n 的值; (2)现从年龄在[30,40)段中采用分层抽样的方法选取5名代表参加垃圾分类的知识交流活动,应社区要求,从被选中的这5名代表中任意选2名作交流发言,求选取的2名发言者中恰有1名年龄在[35,40)段中的概率.[解析] (1)∵第三组的频率为1-(0.04+0.06+0.03+0.02+0.01)×5=0.2, ∴第三组直方图的高为0.25=0.04.补全频率分布直方图如下图:由频率分布直方图,知m =0.02×1 000=200, n =0.02×(50-45)×1 000=100.(2)由(1)知年龄在[30,35)段中的人数与年龄在[35,40)段中的人数的比值为300200=32,所以采用分层抽样法抽取5名,年龄在[30,35)段中的有3名,年龄在[35,40)段中的有2名.不妨设年龄在[30,35)段中的3名为A 1,A 2,A 3,年龄在[35,40)段中的2名为B 1,B 2由于从5名代表中任选2名作交流发言的所有可能情况有:{A 1,A 2},{A 1,A 3},{A 1,B 1},{A 1,B 2},{A 2,A 3},{A 2,B 1},{A 2,B 2},{A 3,B 1},{A 3,B 2},{B 1,B 2},共10种,其中选取的2名发言者中恰有1名年龄在[35,40)段的情况有:{A 1,B 1},{A 1,B 2},{A 2,B 1},{A 2,B 2},{A 3,B 2},{A 3,B 2},共6种.故所求概率为P =610=35.考点二 线性回归分析例3 (2018·全国2)下图是某地区2000年至2016年环境基础设施投资y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①;y ^=-30.4+13.5t ,根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.【分析】 (1)模型①中取t =19,模型②中取t =9,求出对应的函数值即可;(2)利用所给折线图中数据的增长趋势,加以分析即可.【标准答案】——规范答题 步步得分(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为 y ^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为 y ^=99+17.5×9=256.5(亿元). (2)利用模型②得到的预测值更可靠.理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,答出其中任意一种或其他合理理由均可得分) 12分得分点④ 【评分细则】①根据模型①求出预测值给3分; ②根据模型②求出预测值给3分; ③判断模型②得到的预测值更可靠给2分; ④作出正确的判断,写出合理理由,给4分; 【名师点评】1.核心素养:本题主要考查线性回归方程的实际应用,考查考生的应用意识,分析问题与解决问题的能力以及运算求解能力,考查数学的核心素养是数据分析、数学建模、数学运算.2.解题技巧:统计中涉及的图形较多、常见的有条形统计图、折线图、茎叶图、频率分布直方图、应熟练地掌握这些图形的特点,提高识图与用图的能力.〔变式训练2〕(2021·安徽蚌埠质检)经销商小王对其所经营的某一型号二手汽车的使用年数x (0<x ≤10,x ∈N )与每辆的销售价格y (单位:万元)进行整理,得到如表的对应数据:(1)试求y 关于x 的回归直线方程;(2)已知每辆该型号汽车的收购价格ω(单位:万元)与使用年数x (0<x ≤10,x ∈N )的函数关系为ω=0.05x 2-1.75x +17.2,根据(1)中所求的回归方程,预测x 为何值时,小王销售一辆该型号汽车所获得的利润z 最大.附:回归直线的斜率和截距的最小二乘估计公式分别为b ^=∑i =1nx i y i -n x -·y-∑i =1nx 2i -n x -2,a ^=y --b ^ x -. [解析] (1)由表中数据,得x -=15×(2+4+6+8+10)=6,。
正态分布知识点总结考研正态分布的数学表达式为:\[ f(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]其中,\( \mu \) 为均值,\( \sigma \) 为标准差。
正态分布的均值、中位数和众数都相等,而且都位于曲线的中心处。
正态分布的性质:1. 对称性:正态分布曲线在均值处对称。
2. 零偏度:正态分布的偏度为0,即分布呈对称分布。
3. 尖峰度:正态分布的峰度为3,表现为中间部分较高,两端较低,呈现出钟形。
4. 标准正态分布:当均值\( \mu = 0 \) ,标准差\( \sigma = 1 \) 时,称为标准正态分布。
正态分布的应用:1. 自然科学:许多自然现象符合正态分布,如人类身高、体重、心脏跳动间隔等。
2. 经济学:股票市场、金融市场的波动往往符合正态分布。
3. 生物学:许多生物的特征符合正态分布,如种群数量、体重等。
4. 工程学:许多工程参数的变化也符合正态分布,如材料强度、电子元件寿命等。
正态分布的统计推断:1. 置信区间:对于正态分布的均值和方差,可以使用置信区间对其进行估计。
2. 假设检验:对于两个或多个正态分布的样本,可以进行假设检验以判断它们的均值是否相等。
3. 方差分析:用于分析多个正态分布总体均值是否相等的统计方法。
正态分布的中心极限定理:中心极限定理指出,对于任意分布的随机变量,其样本均值的分布在样本量足够大的情况下都会近似服从正态分布。
这一定理在统计学中具有非常重要的意义,使得正态分布具有了更广泛的应用。
总之,正态分布是一种重要的概率分布形式,广泛应用于自然科学、社会科学以及工程技术等领域。
掌握正态分布的性质和统计推断方法对于理解和应用统计学知识具有重要意义。
正态分布和线性回归
高考要求
1.了解正态分布的意义及主要性质
2.了解线性回归的方法和简单应用
知识点归纳
1.正态分布密度函数:
2
2
()
2
()
x
f x
μ
σ
-
-
=,(σ>0,-∞<x<∞)
其中π是圆周率;e是自然对数的底;x是随机变量的取值;μ为正态分布的均值;σ是正态分布的标准差.正态分布一般记为)
,
(2
σ
μ
N
2.正态分布)
,
(2
σ
μ
N)是由均值μ和标准差σ唯一决定的分布
例1、下面给出三个正态总体的函数表示式,请找出其均值μ和标准差σ.
(1)2
2
2
1
)
(
x
e
x
f-
=
π
,(-∞<x<+∞)
(2
)
2
(1)
8
()
x
f x
-
-
=,(-∞<x<+∞)
解:(1)0,1 (2)1,2
3.正态曲线的性质:正态分布由参数μ、σ唯一确定,如果随机变量ξ~N(μ,σ2),根据定义有:μ=Eξ,σ=Dξ。
正态曲线具有以下性质:
(1)曲线在x轴的上方,与x轴不相交。
(2)曲线关于直线x =μ对称。
(3)曲线在x =μ时位于最高点。
(4)当x <μ时,曲线上升;当x >μ时,曲线下降。
并且当曲线向左、右两边无限延伸时,以x 轴为渐近线,向它无限靠近。
(5)当μ一定时,曲线的形状由σ确定。
σ越大,曲线越“矮胖”,表示总体越分散;σ越小,曲线越“瘦高”,表示总体的分布越集中。
五条性质中前三条较易掌握,后两条较难理解,因此应运用数形结合的原则,采用对比教学
4.标准正态曲线:当μ=0、σ=l 时,正态总体称为标准正态
总体,其相应的函数表示式是2
221)(x e
x f -
=
π
,(-∞<x <+∞)
其相应的曲线称为标准正态曲线
标准正态总体N (0,1)在正态总体的研究中占有重要的地位 任何正态分布的概率问题均可转化成标准正态分布的概率问题
5.标准正态总体的概率问题:
对于标准正态总体N (0,1),)(0x Φ是总体取值小于0x 的概率, 即 )()(00x x P x <=Φ,
其中00>x ,图中阴影部分的面积表示为概率0()P x x < 只要有标
准正态分布表即可查表解决.从图中不难发现:当00<x 时,
)(1)(00x x -Φ-=Φ;而当00=x 时,Φ(0)=0.5
例2 设),(~2σμN X ,且总体密度曲线的函数表达式为: 4
1
2221
)(+--
=
x x e
x f π
,x ∈R 。
(1)求μ,σ;
(2)求)2|1(|<-x P 的值。
分析:根据表示正态曲线函数的结构特征,对照已知函数求出μ和σ。
利用一般正态总体),(2σμN 与标准正态总体N (0,1)概率间的关系,将一般正态总体划归为标准正态总体来解决。
解:(1)由于2
22)2(2)1(4
122
21
21
)(--
+--
⋅=
=
x x x e
e
x f ππ,
根据一般正态分布的函数表达形式,可知μ=1,2=σ,故X ~N (1,2)。
(2))2121()2|1(|+<<-=<-x P x P
1
(1)(2)
)
(1)(1)2(1)120.84131
F F =-=Φ-Φ=Φ-Φ-=Φ-=⨯- 6826.0=。
点评:在解决数学问题的过程中,将未知的,不熟悉的问题
转化为已知的、熟悉的、已解决了的问题,是我们常用的手段与思考问题的出发点。
通过本例我们还可以看出一般正态分布与标准正态分布间的内在关联。
9.相关关系:当自变量一定时,因变量的取值带有一定的随机
性的两个变量之间的关系称为相关关系
相关关系与函数关系的异同点如下: 相同点:均是指两个变量的关系
不同点:函数关系是一种确定的关系;而相关关系是一种非确定关系;函数关系是自变量与因变量之间的关系,这种关系是两个非随机变量的关系;而相关关系是非随机变量与随机变量的关系.
10.回归分析一元线性回归分析: 对具有相关关系的两个变量进行统计分析的方法叫做回归分析 通俗地讲,回归分析是寻找相关关系中非确定性关系的某种确定性
对于线性回归分析,我们要注意以下几个方面:
(1)回归分析是对具有相关关系的两个变量进行统计分析的方法。
两个变量具有相关关系是回归分析的前提。
(2)散点图是定义在具有相关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析。
(3)求回归直线方程,首先应注意到,只有在散点图大至呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义。
11.散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图.散点图形象地反映了各对数据的密切程度 粗略地
12. 回归直线
设所求的直线方程为,^
a bx y +=,其中a 、
b 是待定系数.
11
22211()()()n n
i i i i i i n n i i
i i x x y y x y nxy b x x x nx a y bx
====⎧
---⎪
⎪==⎨--⎪⎪
=-⎩∑∑∑∑, ∑==n i i x n x 11,∑==n
i i y n y 11 相应的直线叫做回归直线,对两个变量所进行的上述统计分析叫做回归分析
13.相关系数:相关系数是因果统计学家皮尔逊提出的,对于变量y 与x 的一组观测值,把
∑∑∑===----=
n
i n
i i i
n
i i i
y y x x
y y x x
r 1
1
2
21
)()()
)((=
∑∑∑===---n i n i i i n
i i
i y n y x n x y
x n y
x 1
1
22221
)
)((
叫做变量y 与x 之间的样本相关系数,简称相关系数,用它来衡量两个变量之间的线性相关程度.
14.相关系数的性质: r ≤1,且r 越接近1,相关程度越大;且r 越接近0,相关程度越小.一般的,当r ≥ 0.75 时,就可以判断其具有很强的相关性,这时求线性回归方程才有意义。
例3 假设关于某设备的使用年限x 和所支出的维修费用y (万
(1)线性回归方程;
(2)估计使用年限为10年时,维修费用是多少?
分析:本题为了降低难度,告诉了y 与x 间呈线性相关关系,目的是训练公式的使用。
于是23.14
5905
453.112552
2
51
25
1=⨯-⨯⨯-=
--=
∑∑==x
x y
x y
x b i i i i
i , 08.0423.15=⨯-=-=bx y a 。
∴线性回归方程为:08.023.1^
+=+=x a bx y。
(2)当x=10时,38.1208.01023.1^
=+⨯=y
(万元) 即估计使用10年时维修费用是12.38万元。
点评:本题若没有告诉我们y 与x 间是呈线性相关的,应首先进行相关性检验。
如果本身两个变量不具备线性相关关系,或者说它们之间相关关系不显著时,即使求出回归方程也是没有意义的,而且其估计与预测也是不可信的。