高中数学统计统计案例知识点总结和典例
- 格式:docx
- 大小:238.84 KB
- 文档页数:9
第二章:统计 1、抽样方法:①简单随机抽样(总体个数较少) ②系统抽样(总体个数较多) ③分层抽样(总体中差异明显)注意:在N 个个体的总体中抽取出n 个个体组成样本, 每个个体被抽到的机会(概率)均为Nn。
2、总体分布的估计: ⑴一表二图:①频率分布表——数据详实 ②频率分布直方图——分布直观③频率分布折线图——便于观察总体分布趋势 注:总体分布的密度曲线与横轴围成的面积为1。
⑵茎叶图:①茎叶图适用于数据较少的情况, 从中便于看出数据的分布, 以及中位数、众位数等。
②个位数为叶, 十位数为茎, 右侧数据按照从小到大书写, 相同的数据重复写。
3、总体特征数的估计:⑴平均数:nx x x x x n++++=Λ321; 取值为n x x x ,,,21Λ的频率分别为n p p p ,,,21Λ, 则其平均数为n n p x p x p x +++Λ2211; 注意:频率分布表计算平均数要取组中值。
⑵方差与标准差:一组样本数据n x x x ,,,21Λ方差:212)(1∑=-=ni ix xns ;标准差:21)(1∑=-=ni ix xns注:方差与标准差越小, 说明样本数据越稳定。
平均数反映数据总体水平;方差与标准差反映数据的稳定水平。
⑶线性回归方程①变量之间的两类关系:函数关系与相关关系; ②制作散点图, 判断线性相关关系 ③线性回归方程:a bx y +=∧(最小二乘法)1221ni i i ni i x y nx y b x nx a y bx==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑注意:线性回归直线经过定点),(y x 。
第三章:概率1、随机事件及其概率:⑴事件:试验的每一种可能的结果, 用大写英文字母表示;⑵必然事件、不可能事件、随机事件的特点; ⑶随机事件A 的概率:1)(0,)(≤≤=A P nmA P . 2、古典概型:⑴基本事件:一次试验中可能出现的每一个基本结果;⑵古典概型的特点: ①所有的基本事件只有有限个; ②每个基本事件都是等可能发生。
新课标必修3概率部分知识点总结◆ 事件:随机事件( random event ),确定性事件: 必然事件( certain event )和不可能事件( impossible event )❖ 随机事件的概率(统计定义):一般的,如果随机事件 A 在n 次实验中发生了m 次,当实验的次数n 很大时,我们称事件A 发生的概率为()nm A P ≈ 说明:① 一个随机事件发生于具有随机性,但又存在统计的规律性,在进行大量的重复事件时某个事件是否发生,具有频率的稳定性 ,而频率的稳定性又是必然的,因此偶然性和必然性对立统一 ② 不可能事件和确定事件可以看成随机事件的极端情况 ③ 随机事件的频率是指事件发生的次数和总的试验次数的比值,它具有一定的稳定性,总在某个常数附近摆动,且随着试验次数的不断增多,这个摆动的幅度越来越小,而这个接近的某个常数,我们称之为概事件发生的概率 ④ 概率是有巨大的数据统计后得出的结果,讲的是一种大的整体的趋势,而频率是具体的统计的结果 ⑤ 概率是频率的稳定值,频率是概率的近似值♦ 概率必须满足三个基本要求:① 对任意的一个随机事件A ,有()10≤≤A P② ()()0,1,=Φ=ΩΦΩP P 则有可能事件分别表示必然事件和不和用③如果事件()()()B P A P B A P B A +=+:,则有互斥和⌧ 古典概率(Classical probability model ):① 所有基本事件有限个 ② 每个基本事件发生的可能性都相等 满足这两个条件的概率模型成为古典概型如果一次试验的等可能的基本事件的个数为个n ,则每一个基本事件发生的概率都是n1,如果某个事件A 包含了其中的m 个等可能的基本事件,则事件A 发生的概率为 ()nm A P = ⍓ 几何概型(geomegtric probability model ):一般地,一个几何区域D 中随机地取一点,记事件“改点落在其内部的一个区域d 内”为事件A ,则事件A 发生的概率为()的侧度的侧度D d A P = ( 这里要求D 的侧度不为0,其中侧度的意义由D 确定,一般地,线段的侧度为该线段的长度;平面多变形的侧度为该图形的面积;立体图像的侧度为其体积 )几何概型的基本特点:① 基本事件等可性 ② 基本事件无限多颜老师说明:为了便于研究互斥事件,我们所研究的区域都是指的开区域,即不含边界,在区域D 内随机地取点,指的是该点落在区域D 内任何一处都是等可能的,落在任何部分的可能性大小只与该部分的侧度成正比,而与其形状无关。
高中数学知识点:概率统计知识点总结概括高中数学知识点:概率统计知识点总结概括一.算法,概率和统计1.算法初步(约12课时)(1)算法的含义、程序框图①通过对解决具体问题过程与步骤的分析(如,二元一次方程组求解等问题),体会算法的思想,了解算法的含义。
②通过模仿、操作、探索,经历通过设计程序框图表达解决问题的过程。
在具体问题的解决过程中(如,三元一次方程组求解等问题),理解程序框图的三种基本逻辑结构:顺序、条件分支、循环。
(2)基本算法语句经历将具体问题的程序框图转化为程序语句的过程,理解几种基本算法语句--输入语句、输出语句、赋值语句、条件语句、循环语句,进一步体会算法的基本思想。
(3)通过阅读中国古代数学中的算法案例,体会中国古代数学对世界数学发展的贡献。
3.概率(约8课时)(1)在具体情境中,了解随机事件发生的不确定性和频率的稳定性,进一步了解概率的意义以及频率与概率的区别。
(2)通过实例,了解两个互斥事件的概率加法公式。
(3)通过实例,理解古典概型及其概率计算公式,会用列举法计算一些随机事件所含的基本事件数及事件发生的概率。
④在解决统计问题的过程中,进一步体会用样本估计总体的思想,会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征;初步体会样本频率分布和数字特征的随机性。
⑤会用随机抽样的基本方法和样本估计总体的思想,解决一些简单的实际问题;能通过对数据的分析为合理的决策提供一些依据,认识统计的作用,体会统计思维与确定性思维的差异。
⑥形成对数据处理过程进行初步评价的意识。
(3)变量的相关性①通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系。
②经历用不同估算方法描述两个变量线性相关的过程。
知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。
二.常用逻辑用语1。
命题及其关系①了解命题的逆命题、否命题与逆否命题。
②理解必要条件、充分条件与充要条件的意义,会分析四种命题的相互关系。
概率与统计一、概率及随机变量的分布列、期望与方差(一)概率及其计算1.几个互斥事件和事件概率的加法公式①如果事件A 与事件B 互斥,则()P A B =()()P A P B +.推广:如果事件1A ,2A ,…,n A 两两互斥(彼此互斥),那么事件12n A A A +++发生的概率,等于这n 个事件分别发生的概率的和,即()12n P A A A +++=()()()12n P A P A P A ++.②若事件B 与事件A 互为对立事件,则()P A =()1P B -. 2.古典概型的概率公式P (A )=A 包含的基本事件的个数基本事件的总数.(二)随机变量的分布列、期望与方差1. 常用的离散型随机变量的分布列(1)二项分布如果随机变量X 的可能取值为0,1,2,…,n ,且X 取值的概率()P X k ==C k k n kn p q-(其中0,1,2,,,1k n q p ==-),其随机变量分布列为X 0 1 …k…nP0C nnp q111C n np q-…C k k n knp q-…0C n n n p q则称X 服从二项分布,记为(),X B n p ~.(2)超几何分布在含有M 件次品的N 件产品中,任取n 件,其中恰有X 件次品,则事件{}X k =发生的概率为C C C k n kM N Mn N--()0,10,1,2,,2,,k m =,其中{}min ,m M n =,且n N …,M N …,n ,M ,*N ÎN .此时称随机变量X 的分布列为超几何分布列,称随机变量X 服从超几何分布.2.条件概率及相互独立事件同时发生的概率 I.条件概率条件概率一般地,设A ,B 为两个事件,且()0P A >,称()()()P ABP B A P A=为事件A 发生的条件下,事件B 发生的条件概率.在古典概型中,若用()n A 表示事件A 中基本事件的个数,则()()()()()n AB P AB P B A n A P A ==. II .相互独立事件相互独立事件(1)若,A B 相互独立.则()P AB =()()P A P B .(3)若A 与B 相互独立,则A 与B ,A 与B ,A 与B 也都相互独立. III .独立重复试验与二项分布独立重复试验与二项分布在n 次独立重复试验中,事件A 发生k 次的概率为(每次试验中事件A 发生的概率为p)()C 1n kkknp p --,事件A 发生的次数是一个随机变量X ,其分布列为()01)2()C 1(n kk knP X k k n p p -===-¼,,,,,此时称随机变量X 服从二项分布. 学科*网3.离散型随机变量的数学期望(均值)与方差 (1)若离散型随机变量X 的概率分布列为的概率分布列为X x 1 x 2 … x i … x n P p 1 p 2 … p i … p n则称EX =1122i i n n x p x p x p x p ++++¼+¼为随机变量X 的均值或数学期望. (2)若Y aX b =+,则EY =aEX b +,)(D aX b +=2a DX (3)若()X B n p ~,,则EX np =.()(1)D X np p -=. 4.正态分布(1)正态曲线的性质:正态曲线的性质:①曲线位于x 轴上方,与x 轴不相交;②曲线是单峰的,它关于直线x m =对称;③曲线在x m=处达到峰值12πs;④曲线与x 轴之间的面积为1;⑤当s 一定时,曲线的位置由m 确定,曲线随着m 的变化而沿x 轴平移,⑥当m 一定时,曲线的形状由s 确定,s 越小,曲线越“瘦高”,表示总体的分布越集中;s 越大,曲线越“矮胖”,表示总体的分布越分散,如图乙所示.(3)服从正态分布的变量在三个特殊区间内取值的概率服从正态分布的变量在三个特殊区间内取值的概率 ①0().6826P X m s m s -<+=…;②2209().544P X m s m s -<+=…; ③3309().974P X m s m s -<+=…. 二、统计与统计案例 (一)抽样方法 1.简单随机抽样设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本()n N …,如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样,最常用的简单随机抽样的方法:抽签法和随机数表法.最常用的简单随机抽样的方法:抽签法和随机数表法. 2.系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本.的样本.(1)先将总体的N 个个体编号.(2)确定分段间隔k ,对编号进行分段,当Nn是整数时,取N k n =.如果遇到Nn不是整数的情况,可以先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量整除得总体中剩余的个体数能被样本容量整除(3)在第1段用简单随机抽样确定第一个个体编号()l l k ….(4)按照一定的规则抽取样本,通常是将l 加上间隔k 得到第2个个体编号()l k +,再加k 得到第3个个体编号()2l k +,依次进行下去,直到获取整个样本.直到获取整个样本.3.分层抽样在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.分层抽样的应用范围:当总体是由差异明显的几个部分组成的,往往选用分层抽样.层抽样.注:注:不论哪种抽样方法不论哪种抽样方法,总体中的每一个个体入样的概率是相同的. (二)统计图表的含义 1.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差).(2)决定组距和组数.(3)将数据分组.(4)列频率分布表.列频率分布表. (5)画频率分布直方图.画频率分布直方图. (三)样本的数字特征1.众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.出现次数最多的数据叫做这组数据的众数.2.中位数:将一组数据按大小依次排列,把处在中间位置的一个数据(或中间两个数据的平均数)叫做这组数据的中位数叫做这组数据的中位数3.平均数:样本数据的算术平均数,即x =()121n x x x n+++.4.方差:()()()2222121n s x x x x x x n éù=-+-++-êúëû(n x 是样本数据,n 是样本容量,x 是样本平均数).5.标准差:()()()222121ns x x x x x x n éù=-+-++-êúëû.(四)线性回归直线方程 1.两个变量的线性相关(1)如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,如果点分布在从左下角到右上角的区域内,那么两个变量的这种相关关系称为正相关;如果点分布在从左上角到右下角的区域内,那么两个变量的这种相关关系称为负相关. (3)相关系数相关系数r =ååå===----ni nj jini i i y y x x y y x x 11221)()())((,当0r >时,表示两个变量正相关;当0r <时,表示两个变量负相关.r 的绝对值越接近1,表示两个变量的线性相关性越强;r 的绝对值越接近0,表示两个变量的线性相关性越弱.通常当r 的绝对值大于0.75时,便认为两个变量具有很强的线性相关关系.当1r =时,两个变量在回归直线上两个变量在回归直线上 2.回归直线方程 (1)通过求21()ni i i Qy x a b ==--å的最小值而得出回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.该式取最小值时的a ,b 的值即分别为aˆ,b ˆ. (2)两个具有线性相关关系的变量的一组数据:11(,)x y ,22(,)x y ,…,()n n x y ,,其回归方程为a x b y ˆˆˆ+=,则1122211()()ˆ()ˆˆnn i i i i i i n ni ii i x x y y x y nx yb x x x nxa y bx ====ì---×ï==ïí--ïï=-ïîåååå.注:样本点的中心(),x y 一定在回归直线上. (3)相关系数22121ˆ()1()n i ii ni i y yR y y ==-å=--å.2R 越大,说明残差平方和越小,即模型的拟合效果越好;2R 越小,残差平方和越大,即模型的拟合效果越差.在线性回归模型中,2R表示解释变量对于预报变量变化的贡献率,2R 越接近于1,表示回归的效果越好. (六)独立性检验(1)变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.像这样的变量称为分类变量.(2)像下表所示列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y ,它们的可能取值分别为12(,)x x 和12(,)y y ,其样本频数列联表(称为22´列联表)为表)为y 1 y 2 总计总计x 1 a b a b + x 2 cdc d +总计a c +b d +a b c d +++构造一个随机变量()()()()()22n ad bc K a b c d a c b d -=++++ ,其中n a b c d =+++为样本容量.确定临界值0k ,如果2K 的观测值0k k …,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.。
9.3 统计案例公司员工的肥胖情况调查分析本节通过公司员工的肥胖情况调查分析,让学生了解统计案例的一些信息,让学生了解统计学与现实生活是息息相关的.课程目标1。
了解统计报告的组成部分.2.可对统计案例进行初步分析。
数学学科素养1.数学抽象:统计报告的组成部分;2.数学运算:对统计案例进行初步分析.重点:①了解统计报告的组成部分;②对统计案例进行初步分析。
难点:对统计案例进行初步分析.教学方法:以学生为主体,小组为单位,采用诱思探究式教学,精讲多练。
教学工具:多媒体。
一、情景导入近年来,我国肥胖人数的规模急速增长,肥胖人群有很大的心血管安全隐患,为了了解某公司员工的身体肥胖情况,我们该如何根据数据表写一份该公司员工肥胖情况的统计分析报告?该如何分析公司员工的整体情况并提出控制体重的建议?要求:让学生自由发言,教师不做判断。
而是引导学生进一步观察.研探.二、预习课本,引入新课阅读课本218-219页,思考并完成以下问题1.统计报告的组成部分是什么要求:学生独立完成,以小组为单位,组内可商量,最终选出代表回答问题。
三、新知探究1。
统计报告的主要组成部分(1)标题.(2)前言。
简单交代调查的目的、方法、范围等背景情况,使读者了解调查的基本情况。
(3)主题展示数据分析的全过程;首先要明确所关心的问题是什么,说明数据蕴含的信息;根据数据分析的需要,说明如何选择合适的图标描述和表达数据;从样本数据中提取能刻画其特征的量,如均值、方差等,用于比较男、女员工在肥胖状况上的差异;通过样本估计总体的统计规律,分析公司员工胖瘦程度的整体.(4)结尾对主题部分的内容进行概括,结合控制体重的一般方法,提出控制公司员工体重的建议。
四、典例分析、举一反三题型一由统计信息解决实际问题例1 甲、乙两种水稻试验品种连续5年的平均单位面积产量如下(单位:t/hm2),试根据统计学估计哪一种水稻品种的产量比较稳定.【答案】甲种水稻的产量比较稳定【解析】甲品种的样本平均数为10,样本方差为[(9.8-10)2+(9.9-10)2+(10.1-10)2+(10-10)2+(10.2-10)2]÷5=0.02。
统计一.简单随机抽样:抽签法和随机数法1.一般地,设一个总体含有N个个体(有限),从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等(n/N),就把这种抽样方法叫做简单随机抽样。
2.一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本,这种抽样方法叫做抽签法。
抽签法的一般步骤:a、将总体的个体编号。
b、连续抽签获取样本号码。
3. 利用随机数表、随机数骰子或计算机产生的随机数进行抽样,叫随机数表法。
随机数表法的步骤:a、将总体的个体编号。
b、在随机数表中选择开始数字。
c、读数获取样本号码。
4. 抽签法的优点是简单易行,缺点是当总体的容量非常大时,费时、费力,又不方便,如果标号的签搅拌得不均匀,会导致抽样不公平,随机数表法的优点与抽签法相同,缺点上当总体容量较大时,仍然不是很方便,但是比抽签法公平,因此这两种方法只适合总体容量较少的抽样类型。
二.系统抽样:1.一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样。
系统抽样的一般步骤:(1)采用随机抽样的方法将总体中的N个个编号。
(2)将整体按编号进行分段,确定分段间隔k=N/n。
(k∈N,L≤k).(3)在第一段用简单随机抽样确定起始个体的编号L(L∈N,L≤k)。
(4)按照一定的规则抽取样本,通常是将起始编号L加上间隔k得到第2个个体编号L+K,再加上K得到第3个个体编号L+2K,这样继续下去,直到获取整个样本。
在确定分段间隔k时应注意:分段间隔k为整数,当N/n不是整数时,应采用等可能剔除的方剔除部分个体,以获得整数间隔k。
三.分层抽样:1.一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫分层抽样。
9.3变量间的相关关系与统计案例[知识梳理]1.相关关系与回归方程(1)相关关系的分类①正相关:从散点图上看,点散布在从左下角到右上角的区域内,如图1;②负相关:从散点图上看,点散布在从左上角到右下角的区域内,如图2。
(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归方程①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n),其回归方程为错误!=错误!x+错误!,则错误!=错误!=错误!,错误!=错误!-错误!错误!.其中,错误!是回归方程的斜率,错误!是在y轴上的截距,错误!=错误!错误!x i,错误!=错误!错误!y i,(错误!,错误!)称为样本点的中心.说明:回归直线错误!=错误!x+错误!必过样本点的中心(错误!,错误!),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数r=错误!,用它来衡量两个变量间的线性相关关系.①当r>0时,表明两个变量正相关;②当r<0时,表明两个变量负相关;③r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|〉0.75时,认为两个变量有很强的线性相关关系.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K=错误!,其中n=a+b+c+d为样本容量.(3)独立性检验利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.[诊断自测]1.概念思辨(1)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.()(2)通过回归方程错误!=错误!x+错误!可以估计和观测变量的取值和变化趋势.()(3)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()(4)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.()答案(1)√(2)√(3)√(4)×2.教材衍化(1)(必修A3P94A组T3)某种产品的广告费用支出x(单位:万元)与销售额y(单位:万元)之间有如下的对应数据:错误!错误!错误!,则此直线一定经过点( )A .(5,60)B .(5,50)C .(6,50)D .(8,70) 答案 B解析 回归直线样本点的中心为(x -,错误!),而错误!=错误!×(2+4+5+6+8)=5,错误!=错误!×(30+40+60+50+70)=50,所以回归直线一定经过点(5,50).故选B.(2)(选修A1-2P 96T 2)通过随机询问72名不同性别的大学生在购买食物时是否看生产日期,得到如下列联表:则有________的把握认为性别与是否读生产日期有关. 答案 99.5%解析 由表中数据得k =错误!≈8。
第十三章统计案例高考导航难度属于基础的思想解决一些简知识网络13.1 抽样方法与用样本估计总体典例精析题型一 抽样方法【例1】某校有教师200人,男学生1 200人,女学生1 000人,用分层抽样的方法从所有师生中抽取一个容量为n 的样本,已知女学生抽取的人数为80人,则n 的值为 .【解析】根据分层抽样的意义, n 200+1 200+1 000=801 000,解得n =192.【点拨】现实中正确的分层抽样一般有三个步骤:首先,辨明突出的统计特征和分类.其次,确定每个分层在总体上的比例.利用这个比例,可计算出样本中每组(层)应抽取的人数.最后,必须从每层中抽取独立简单随机样本.【变式训练1】从某厂生产的802辆轿车中随机抽取80辆测试某项性能.请合理选择抽样方法进行抽样,并写出抽样过程.【解析】第一步,将802辆轿车用随机方式编号.第二步,从总体中剔除2辆(剔除方法可用随机数表法),将剩余的800辆轿车重新编号(分别为001,002,003,…,800),并分成80段.第三步,在第一段001,002,…,010这十个编号中用简单随机抽样抽出一个(如005)作为起始号码. 第四步,将编号为005,015,025,…,795的个体抽出,组成样本. 题型二 频率分布直方图【例2】(2010湖南)如图是某城市通过抽样得到的居民某年的月均用水量(单位:吨)的频率分布直方图.(1)求直方图中x的值;(2)若将频率视为概率,从这个城市随机抽取3位居民(看作有放回的抽样),求月均用水量在3至4吨的居民数X的分布列和数学期望.【解析】(1)依题意及频率分布直方图知0.02+0.1+x+0.37+0.39=1,解得x=0.12.(2)由题意知X~B(3,0.1),因此P(X=0)=C03×0.93=0.729,P(X=1)=C13×0.1×0.92=0.243,P(X=2)=C23×0.12×0.9=0.027,P(X=3)=C33×0.13=0.001,故随机变量X的分布列为0.X的数学期望为E(X)(或E(X)=1×0.243+2×0.027+3×0.001=0.3)【点拨】从频率分布直方图读取数据时,要特别重视组距,纵坐标是频率除以组距,故长方形的面积之和为1.【变式训练2】如图是容量为100的样本的频率分布直方图,试根据数据填空:(1)样本数据落在[10,14)内的频数为;(2)样本数据落在[6,10)内的频率为;(3)总体落在[2,6)内的频率为.【解析】(1)样本落在[10,14)内的频数为0.09×4×100=36.(2)样本落在[6,10)内的频率为0.08×4=0.32.(3)样本落在[2,6)内的频率为0.02×4=0.08,所以总体落在[2,6)内的频率约为0.08.题型三 平均数、方差的计算【例3】甲、乙两人在相同条件下各射靶10次,每次命中环数如下: 甲 4 7 10 9 5 6 8 6 8 8 乙 7 8 6 8 6 7 8 7 5 9 试问谁10次射靶的情况较稳定?【解析】本题要计算两样本的方差,当样本平均数不是整数,且样本数据不大时,可用简化公式计算方差.甲x =110(4+7+…+8)=7.1, 乙x =110(7+8+…+9)=7.1,s 2甲=110(42+72+…+82-10×7.12)=3.09, s 2乙=110(72+82+…+92-10×7.12)=1.29, 因为s 2甲>s 2乙,所以乙10次射靶比甲10次射靶情况稳定.【点拨】平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小,标准差、方差越大,数据的离散程度就越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.【变式训练3】(2010北京市东城区)在一次数学统考后,某班随机抽取10名同学的成绩进行样本分析,获得成绩数据的茎叶图如右图.(1)计算此样本的平均成绩及方差;(2)现从此样本中随机抽出2名学生的成绩,设抽出分数为90分以上的人数为X ,求随机变量X 的分布列和均值.【解析】(1)样本的平均成绩x =80; 方差为s 2=110[(92-80)2+(98-80)2+(98-80)2+(85-80)2+(85-80)2+(74-80)2+(74-80)2+(74-80)2+(60-80)2+(60-80)2]=175.(2)由题意,随机变量X =0,1,2.P (X =0)=C 27C 210=715,P (X =1)=C 13C 17C 210=715,P (X =2)=115.随机变量X 的分布列为E (X )=0×715+1×715+2×115=35.总结提高1.统计的基本思想是用样本估计总体.这就要求样本具有很好的代表性,而样本良好客观的代表性,则完全依赖抽样方法.2.三种抽样方法中简单随机抽样是最基本的抽样方法,是其他两种方法的基础,它们的共同点都是等概率抽样.适用范围不同,要根据总体的具体情况选用不同的方法.3.对于总体分布,总是用样本的频率分布对它进行估计.4.用样本估计总体,一般分成以下几个步骤:先求样本数据中的最大值和最小值(称为极值),再确定合适的组数和组距,确定分点(每个分点只属于一组,故一般采用半开半闭区间),然后列出频率分布表(准确,查数据容易),画频率分布直方图.13.2 两变量间的相关性、回归分析和独立性检验典例精析题型一 求回归直线方程【例1】下表是关于某设备的使用年限(年)和所需要的维修费用(万元)的几组统计数据:(1)若y 对x 呈线性相关关系,求出y 关于x 的线性回归方程y =bx +a ˆ; (2)估计使用年限为10年时,维修费用为多少?【解析】(1)因为51=∑i x i y i =112.3,51=∑i x 2i =4+9+16+25+36=90,且x =4,y =5,n =5,所以b ˆ=112.3-5×4×590-5×16=12.310=1.23,a ˆ=5-1.23×4=0.08,所以回归直线方程为y =1.23x +0.08. (2)当x =10时,y =1.23×10+0.08=12.38, 所以估计当使用10年时,维修费用约为12.38万元.【点拨】当x 与y 呈线性相关关系时,可直接求出回归直线方程,再利用回归直线方程进行计算和预测.【变式训练1】某工厂经过技术改造后,生产某种产品的产量(吨)与相应的生产能耗(吨标准煤)有如下几组样本数据.据相关性检验,y 与x 0.7,那么y 关于x 的回归直线方程是 .【解析】先求得x =4.5,y =3.5,由yˆ=0.7x +a 过点(x ,y ),则a =0.35,所以回归直线方程是y ˆ=0.7x +0.35.题型二 独立性检验【例2】研究小麦种子经灭菌与否跟发生黑穗病的关系,经试验观察,得到数据如下表所示:【解析】由列联表得:a =26,b =184,c =50,d =200,a +b =210,c +d =250,a +c =76,b +d =384,n =460. 所以K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=460×(26×200-184×50)2210×250×76×384≈4.804,由于K 2≈4.804>3.841,所以有95%的把握认为种子灭菌与否与小麦发生黑穗病是有关系的.【变式训练2】(2010东北三省三校模拟)某研究小组为了研究中学生的身体发育情况,在某学校随机抽出20名15至16周岁的男生,将他们的身高和体重制成2×2的列联表,根据列联表的数据,可以有 %的把握认为该学校15至16周岁的男生的身高和体重之间有关系.(独立性检验随机变量K 2值的计算公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ))【解析】由表可得a +b =5,c +d =15,a +c =7,b +d =13,ad =48,bc =3,n =20,运用独立性检验随机变量K 2值的计算公式得K 2=20×(48-3)25×15×7×13=54091≈5.934,由于K 2≈5.934>5.024,所以有97.5%的把握认为该学校15至16周岁的男生的身高和体重之间有关系.总结提高1.在研究两个变量之间是否存在某种关系时,必须从散点图入手.2.样本的随机性导致由线性回归方程所作出的预报也具有随机性.。
高中数学统计统计案例知识点总结和典例
标准化管理处编码[BBX968T-XBB8968-NNJ668-MM9N]
统计
一.简单随机抽样:抽签法和随机数法
1.一般地,设一个总体含有N个个体(有限),从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等(n/N),就把这种抽样方法叫做简单随机抽样。
2.一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本,这种抽样方法叫做抽签法。
抽签法的一般步骤:a、将总体的个体编号。
b、连续抽签获取样本号码。
3. 利用随机数表、随机数骰子或计算机产生的随机数进行抽样,叫随机数表法。
随机数表法的步骤:a、将总体的个体编号。
b、在随机数表中选择开始数字。
c、读数获取样本号码。
4. 抽签法的优点是简单易行,缺点是当总体的容量非常大时,费时、费力,又不方便,如果标号的签搅拌得不均匀,会导致抽样不公平,随机数表法的优点与抽签法相同,缺点上当总体容量较大时,仍然不是很方便,但是比抽签法公平,因此这两种方法只适合总体容量较少的抽样类型。
二.系统抽样:
1.一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样。
系统抽样的一般步骤:
(1)采用随机抽样的方法将总体中的N个个编号。
(2)将整体按编号进行分段,确定分段间隔k=N/n。
(k∈N,L≤k).
(3)在第一段用简单随机抽样确定起始个体的编号L(L∈N,L≤k)。
(4)按照一定的规则抽取样本,通常是将起始编号L加上间隔k得到第2个个体编号L+K,再加上K得到第3个个体编号L+2K,这样继续下去,直到获取整个样本。
在确定分段间隔k时应注意:分段间隔k为整数,当N/n不是整数时,应采用等可能剔除的方剔除部分个体,以获得整数间隔k。
三.分层抽样:
1.一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫分层抽样。
分层抽样的步骤:
(1)分层:按某种特征将总体分成若干部分。
(2)按比例确定每层抽取个体的个数。
(3)各层分别按简单随机抽样的方法抽取。
(4)综合每层抽样,组成样本。
2.分层抽样是当总体由差异明显的几部分组成时采用的抽样方法,进行分层抽样时应注意以下几点:
(1)分层抽样中分多少层、如何分层要视具体情况而定,总的原则是,层内样本的差异要小,面层之间的样本差异要大,且互不重叠。
(2)为了保证每个个体等可能入样,所有层应采用同一抽样比等可能抽样。
(3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样。
四.用样本的频率分布估计总体分布:
1.频率分布是指一个样本数据在各个小范围内所占比例的大小。
一般用频率分布直方图反映样本的频率分布。
其一般步骤为:(1)计算一组数据中最大值与最小值的差,即求极差(2)决定组距与组数
(3)将数据分组(4)列频率分布表(5)画频率分布直方图2.频率分布折线图、总体密度曲线
频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图。
总体密度曲线:在样本频率分布直方图中,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线。
它能够精确地反映了总体在各个范围内取值的百分比,给我们提供更加精细的信息。
3. 当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图。
茎叶图的特征:
(1)用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示。
(2)茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰。
五. 用样本的数字特征估计总体的数字特征:
1. 众数、中位数、平均数、方差、标准差的求法。
六.变量之间的相关关系:
1.相关关系:两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系。
当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系。
相关关系是一种非确定性关系。
2.散点图的概念:将各数据在平面直角坐标中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫做散点图。
(1.如果所有的样本点都落在某一函数曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系.2.如果所有的样本点都落在某一函数曲线附近,变量之间就有相关关系。
3. 如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系)。
3.正相关与负相关概念:如果散点图中的点散布在从左下角到右上角的区域内,称为正相关。
如果散点图中的点散布在从左上角到右下角的区域内,称为负相关。
(注:散点图的点如果几乎没有什么规则,则这两个变量之间不具有相关关系)
4. 从散点图上可以看出,这些点大致分布在通过散点图中心的一条直线。
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这这两个变量之间具有线形相关关系,直线叫回归直线。
5.教学最小二乘法:
(1)求回归方程的关键是如何用数学的方法刻画"从整体上看,各点与此直线的距离最小".
(2)最小二乘法公式:求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法。
题型一 抽样方法
例1(1)某高校甲、乙、丙、丁四个专业分别有150、150、400、300名学生,为了解
学生的就业倾向,用分层抽样的方法从该校这四个专业共抽取40名学生进行调查,应在丙专业抽取的学生人数为 .
(2)利用简单随机抽样的方法,从n 个个体(n >13)中抽取13个个体,依次抽取,若第二次抽取后,余下的每个个体被抽取的概率为
36
1,则在整个抽样过程中,每个个体被抽取的概率为 变式1:某公司生产三种型号的轿车,产量分别为1200辆,6000辆和2000辆.为检验该公司的产品质量,现用分层抽样的方法抽取46辆进行检验,这三种型号的轿车依次应抽取 ____,
____, ____辆.
变式2:经问卷调查,某班学生对摄影分别执“喜欢”、“不喜欢”和“一般”三种态度,其中执“一般”态度的比“不喜欢”态度的多12人,按分层抽样方法从全班选出部分学生座谈摄影,如果选出的5位“喜欢”摄影的同学、1位“不喜欢”摄影的同学和3位执“一般”态度的同学,那么全班学生中“喜欢”摄影的比全班人数的一半还多 人.
题型二 统计图表问题
例2 从一条生产线上每隔30分钟取一件产品,共取了n 件,测得其产品尺寸后,画得其频率直方图如下.尺寸在[15,45)内的频数为46.
(1)求n 的值;
(2)求尺寸在[20,25)内产品的个数.
变式3: ⑴有一个容量为100的样本,数据的分组及各组的频数如下:
[,],6;[,],16;[,],18;[,],22;
[,),20;[,),10;[,),8.
①列出样本的频率分布表;②画出频率分布直方图;③估计数据小于的概率
题型三 平均数、标准差(方差)的计算问题
例3一次歌手大奖赛上,七位评委为歌手打出的分数如下:
9. 9
去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为( )
A .,
B .,
C .,
D .,
变式4: x 是12100,,x x x 的平均数,a 是1240,,x x x 的平均数,b 是4142100,,x x x 的平均数,则x ,a ,b 之间的关系为 .
变式5:某人5次上班途中所花时间(单位:分钟)分别为x、y、10、11、9.已知
x-的值为()
这组数据的平均数为10,方差为2,则y
A.1 B.2 C.3 D.4
题型四线性回归分析
例4下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性
回归方程y bx a
=+;
(3)已知该厂技术改造前100吨甲产品能耗为90吨标准煤;试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤
变式6: 为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现
对他前7次考试的数学成绩x、物理成绩y进行分析.下面是该生7次考试的成绩.
(1)他的数学成绩与物理成绩哪个更稳定请给出你的证明;
(2)已知该生的物理成绩y与数学成绩x是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.。