高一数学简单随机抽样1
- 格式:pdf
- 大小:1.22 MB
- 文档页数:10
高一数学随机抽样试题1.某校高三年级有男生500人,女生400人.为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查.这种抽样方法是()A.系统抽样法B.抽签法C.随机数法D.分层抽样法【答案】D【解析】=,根据定义知为分层抽样,故选D.2.已知某单位有职工120人,男职工有90人,现采用分层抽样(按男、女分层)抽取一个样本,若已知样本中有27名男职工,则样本容量为()A.30B.36C.40D.没法确定【答案】B【解析】抽取比例为=,故样本容量为:×120=36.3.某校高一年级有x名学生,高二年级有y名学生,高三年级有z名学生,采用分层抽样抽取一个容量为45的样本,高一年级被抽取20人,高二年级被抽取10人,高三年级共有学生300人,则此学校共有学生________人.【答案】900【解析】高三年级被抽取了45-20-10=15(人),设此学校共有学生N人,则=,解得N=900.4.总体容量为203,若采用系统抽样法抽样,当抽样间距为多少时不需要剔除个体()A.4B.5C.6D.7【答案】D【解析】因为203=7×29,即203能被7整除,所以间隔为7时,不需要剔除个体.5.下列抽样问题中,最适合用系统抽样的是()A.从全班48名学生中随机抽取8人参加一项活动B.一个城市有210家百货商店,其中有大型商店20家,中型商店40家,小型商店150家,为了掌握各商店的营业情况,要从中抽取一个容量为21的样本C.从参加考试的1200名考生中随机抽取100人分析试题作答情况D.从参加模拟考试的1200名高中生中随机抽取10人了解情况【答案】C【解析】A中总体、样本容量都较小,可用抽签法或随机数法;B中总体不均匀,不易用系统抽样;D中样本容量较小,可用随机数法;只有C中总体与样本容量都较大6.某学校有学生4022人.为调查学生对2010年上海世博会的了解情况,现用系统抽样的方法抽取一个容量为30的样本,则分段间隔是________.【答案】134【解析】由于不是整数,所以从4022名学生中随机剔除2名,则分段间隔是=134,故填134.7.下面给出某村委会调查本村各户收入情况所作的抽样,阅读并回答问题.本村人口:1200人,户数300,每户平均人口数4人.应抽户数:30户.抽样间隔=40.确定随机数字:取一张人民币,编码的后两位数为12.确定第一样本户:编码为12的户为第一样本户.确定第二样本户:12+40=52,52号为第二样本户.……(1)该村委会采用了何种抽样方法?(2)抽样过程中存在哪些问题,并修改.(3)何处是用简单随机抽样?【答案】(1)系统抽样【解析】(1)系统抽样.(2) (3)见解析(2)本题是对某村各户收入情况进行抽样,而不是对某村人口抽样,抽样间隔为=10,其他步骤相应改为:确定随机数字:取一张人民币,编码的最后一位为2.确定第一样本户:编号为002的户为第一样本户.确定第二样本户:2+10=12,012号为第二样本户.……(3)确定随机数字用的是简单随机抽样.取一张人民币,编码的最后一位为2.8.下列调查的方式合适的是()A.为了了解炮弹的杀伤力,采用普查的方式B.为了了解全国中学生的睡眠状况,采用普查的方式C.为了了解人们保护水资源的意识,采用抽样调查的方式D.对载人航天飞船“神舟七号”零部件的检查,采取抽样调查的方式【答案】C【解析】普查工作量大,有时受客观条件限制,无法对所有个体进行普查,有时调查还具有破坏性,不允许普查;抽样调查范围小,节约时间、人力、物力、财力,但保证抽样具有代表性,广泛性.航天器不同于一般事情,必须普查.9.已知总体容量为106,若用随机数表法抽取一个容量为10的样本,下面对总体的编号正确的是()A.1,2,…,106B.01,…,105C.00,01,…,105D.000,001,…,105【答案】D【解析】因总数大于100,所以编号应为3位数10.某校有40个班,每班50人,每班选派3人参加“学代会”,在这个问题中,样本容量是() A.40B.50C.120D.150【答案】C【解析】40×3=120。
高中数学统计抽样方法精选题目(附答案)一、抽样方法1.简单随机抽样(1)特征:①一个一个不放回的抽取;②每个个体被抽到可能性相等.(2)常用方法:①抽签法;②随机数表法.2.系统抽样(1)适用环境:当总体中个数较多时,可用系统抽样.(2)操作步骤:将总体平均分成几个部分,再按照一定方法从每个部分抽取一个个体作为样本.3.分层抽样(1)适用范围:当总体由差异明显的几个部分组成时可用分层抽样.(2)操作步骤:将总体中的个体按不同特点分成层次比较分明的几部分,然后按各部分在总体中所占的比实施抽样.1.(1)采用系统抽样方法从960人中抽取32人做问卷调查.为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为()A.7B.9C.10 D.15(2)某地区有小学150所,中学75所,大学25所.现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校.[解析](1)从960人中用系统抽样方法抽取32人,则每30人抽取一人,因为第一组抽到的号码为9,则第二组抽到的号码为39,第n组抽到的号码为a n=9+30(n-1)=30n-21,由451≤30n-21≤750,得23615≤n≤25710,所以n=16,17,…,25,共有25-16+1=10人.(2)小学中抽取30×150150+75+25=18所学校;从中学中抽取30×75150+75+25=9所学校.[答案](1)C(2)189注:1.系统抽样的特点(1)适用于元素个数很多且均衡的总体. (2)各个个体被抽到的机会均等.(3)总体分组后,在起始部分抽样时采用的是简单随机抽样. (4)如果总体容量N 能被样本容量n 整除,则抽样间隔为k =Nn . 2.与分层抽样有关问题的常见类型及解题策略(1)确定抽样比.可依据各层总数与样本数之比,确定抽样比.(2)求某一层的样本数或总体个数.可依据题意求出抽样比,再由某层总体个数(或样本数)确定该层的样本(或总体)数.(3)求各层的样本数.可依据题意,求出各层的抽样比,再求出各层样本数. 2.某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是( )A .抽签法B .系统抽样法C .分层抽样法D .随机数法解析:选C 根据年级不同产生差异及按人数比例抽取易知应为分层抽样法. 3.某学校高一、高二、高三3个年级共有430名学生,其中高一年级学生160名,高二年级学生180名,为了解学生身体状况,现采用分层抽样方法进行调查,在抽取的样本中高二学生有32人,则该样本中高三学生人数为________.解析:高三年级学生人数为430-160-180=90,设高三年级抽取x 人,由分层抽样可得32180=x90,解得x =16. 答案:164.某单位有职工960人,其中青年职工420人,中年职工300人,老年职工240人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本,若样本中的青年职工为14人,则样本容量为________.解析:因为分层抽样的抽样比应相等,所以420960=14样本容量,样本容量=960×14420=32.答案:32二、用样本的频率分布估计总体的频率分布1.频率分布直方图2.茎叶图5.(1)如图是根据部分城市某年6月份的平均气温(单位:℃)数据得到的样本频率分布直方图,其中平均气温的范围是[20.5,26.5].样本数据的分组为[20.5,21.5),[21.5,22.5),[22.5,23.5),[23.5,24.5),[24.5,25.5),[25.5,26.5].已知样本中平均气温低于22.5 ℃的城市个数为11,则样本中平均气温不低于25.5 ℃的城市个数为________.(2)某校100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100].①求图中a的值;②根据频率分布直方图,估计这100名学生语文成绩的平均分;③若这100名学生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比如下表所示,求数学成绩在[50,90)之外的人数.分数段[50,60)[60,70)[70,80)[80,90)x∶y 1∶12∶13∶44∶5 [为50×0.18=9.答案:9(2)解:①由频率分布直方图可知(0.04+0.03+0.02+2a)×10=1.所以a=0.005.②该100名学生的语文成绩的平均分约为x=0.05×55+0.4×65+0.3×75+0.2×85+0.05×95=73.③由频率分布直方图及已知的语文成绩、数学成绩分布在各分数段的人数比,可得下表:分数段[50,60)[60,70)[70,80)[80,90)x 5403020x∶y 1∶12∶13∶44∶5y 5204025100-(5+20+40+25)=10.注:与频率分布直方图有关问题的常见类型及解题策略(1)已知频率分布直方图中的部分数据,求其他数据,可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于1就可求出其他数据.(2)已知频率分布直方图,求某种范围内的数据,可利用图形及某范围结合求解.6.如图是某公司10个销售店某月销售某产品数量(单位:台)的茎叶图,则数据落在区间[22,30)内的频率为()A.0.2 B.0.4C.0.5 D.0.6解析:选B由茎叶图可知数据落在区间[22,30)内的频数为4,所以数据落在区间[22,30)内的频率为410=0.4,故选B.7.为了了解某学校学生的身体发育情况,抽查了该校100名高中男生的体重情况,根据所得数据画出样本的频率分布直方图如图所示.根据此图,估计该校2 000名高中男生中体重大于70.5公斤的人数为()A .300B .360C .420D .450解析:选B 样本中体重大于70.5公斤的频率为: (0.04+0.034+0.016)×2=0.090×2=0.18.故可估计该校2 000名高中男生中体重大于70.5公斤的人数为:2 000×0.18=360(人). 8.某商场在庆元宵节促销活动中,对元宵节9时至14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时至12时的销售额为________万元.解析:总销售额为2.50.1=25(万元),故11时至12时的销售额为0.4×25=10(万元).答案:10三、用样本的数字特征估计总体的数字特征有关数据的数字特征9.(1)对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是( )A .46,45,56B .46,45,53C .47,45,56D .45,47,53(2)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )A .甲的成绩的平均数小于乙的成绩的平均数B .甲的成绩的中位数等于乙的成绩的中位数C .甲的成绩的方差小于乙的成绩的方差D .甲的成绩的极差小于乙的成绩的极差(3)由正整数组成的一组数据x 1,x 2,x 3,x 4,其平均数和中位数都是2,且标准差等于1,则这组数据为________.(从小到大排列)[解析] (1)从茎叶图中可以看出样本数据的中位数为中间两个数的平均数,即45+472=46,众数为45,极差为68-12=56,故选择A.(2)由题意可知,甲的成绩为4,5,6,7,8,乙的成绩为5,5,5,6,9.所以甲、乙的成绩的平均数均为6,A 错;甲、乙的成绩的中位数分别为6,5,B 错;甲、乙的成绩的方差分别为15×[(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2]=2,15×[(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2]=125,C 对;甲、乙的成绩的极差均为4,D 错.故选C.(3)假设这组数据按从小到大的顺序排列为x 1,x 2,x 3,x 4,则⎩⎨⎧x 1+x 2+x 3+x44=2,x 2+x32=2,∴⎩⎪⎨⎪⎧x 1+x 4=4,x 2+x 3=4, 又s = 14[(x 1-2)2+(x 2-2)2+(x 3-2)2+(x 4-2)2] =12(x 1-2)2+(x 2-2)2+(x 3-2)2+(x 4-2)2=122[(x 1-2)2+(x 2-2)2]=1, ∴(x 1-2)2+(x 2-2)2=2. 同理可求得(x 3-2)2+(x 4-2)2=2.由x 1,x 2,x 3,x 4均为正整数,且(x 1,x 2),(x 3,x 4)均为圆(x -2)2+(y -2)2=2上的点,分析知x 1,x 2,x 3,x 4应为1,1,3,3.[答案] (1)A (2)C (3)1,1,3,3 注:平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.10.为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温; ②甲地该月14时的平均气温高于乙地该月14时的平均气温; ③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差; ④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差. 其中根据茎叶图能得到的统计结论的编号为( ) A .①③ B .①④ C .②③D .②④解析:选B 法一:∵x 甲=26+28+29+31+315=29,x 乙=28+29+30+31+325=30,∴x 甲<x 乙,又s 2甲=9+1+0+4+45=185,s 2乙=4+1+0+1+45=2,∴s 甲>s 乙.故可判断结论①④正确.法二:甲地该月14时的气温数据分布在26和31之间,且数据波动较大,而乙地该月14时的气温数据分布在28和32之间,且数据波动较小,可以判断结论①④正确,故选B.11.甲和乙两个城市去年上半年每月的平均气温(单位:℃)用茎叶图记录如图所示,根据茎叶图可知,两城市中平均温度较高的城市是__________,气温波动较大的城市是__________.解析:根据题中所给的茎叶图可知,甲城市上半年的平均温度为9+13+17×2+18+226=16,乙城市上半年的平均温度为12+14+17+20+24+276=19,故两城市中平均温度较高的是乙城市,观察茎叶图可知,甲城市的温度更加集中在峰值附近,故乙城市的温度波动较大.答案:乙 乙12.甲、乙两台机床同时加工直径为100 mm 的零件,为了检验产品的质量,从产品中各随机抽取6件进行测量,测得数据如下(单位:mm):甲:99,100,98,100,100,103; 乙:99,100,102,99,100,100.(1)分别计算上述两组数据的平均数和方差;(2)根据(1)的计算结果,说明哪一台机床加工的这种零件更符合要求. 解:(1)x 甲=99+100+98+100+100+1036=100(mm),x 乙=99+100+102+99+100+1006=100(mm),s 2甲=16[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=73(mm 2), s 2乙=16[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1(mm 2).(2)因为s 2甲>s 2乙,说明甲机床加工零件波动比较大,因此乙机床加工零件更符合要求.四、线性回归1.两个变量的线性相关(1)散点图:将样本中n 个数据点(x i ,y i )(i =1,2,…,n )描在平面直角坐标系中得到的图形.(2)正相关与负相关:①正相关:散点图中的点散布在从左下角到右上角的区域. ②负相关:散点图中的点散布在从左上角到右下角的区域. 2.回归直线的方程(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)线性回归方程:方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的线性回归方程,其中a ,b 是待定参数.⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x )(y i-y )∑i =1n(x i-x )2=∑i =1nx i y i-n x y ∑i =1nx 2i-n x 2,a ^=y -b x .13.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)[解] (1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80.所以a ^=y -b ^x =80+20×8.5=250,从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得 L =x (-20x +250)-4(-20x +250) =-20x 2+330x -1 000 =-20(x -8.25)2+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润. 注:(1)线性回归分析就是研究两组变量间线性相关关系的一种方法,通过对统计数据的分析,可以预测可能的结果,这就是线性回归方程的基本应用,因此利用最小二乘法求线性回归方程是关键,必须熟练掌握线性回归方程中两个重要估计量的计算.(2)回归直线方程恒过点(x ,y ).14.某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10日的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月的概率;(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?解:(1)将6组数据按月份顺序编号为1,2,3,4,5,6,从中任取两组数据,基本事件构成的集合为Ω={(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)}共15个基本事件,设抽到相邻两个月的事件为A ,则A ={(1,2),(2,3),(3,4),(4,5),(5,6)}共5个基本事件,∴P (A )=515=13.(2)由表中数据求得x =11,y =24,∑i =14x i y i =1 092,∑i =14x 2i =498.代入公式可得b ^=187.再由a ^=y -b ^x ,求得a ^=-307,所以y 关于x 的线性回归方程为 y ^=187x -307.(3)当x =10时,y ^=1507,⎪⎪⎪⎪1507-22=47<2; 同样,当x =6时,y ^=787,⎪⎪⎪⎪787-12=67<2. 所以该小组所得线性回归方程是理想的.。
高一数学《随机抽样》练习题一、选择题1。
对于简单随机抽样,个体被抽到的机会 A.相等B .不相等 C.不确定 D.与抽取的次数有关2. 抽签法中确保样本代表性的关键是A.制签 B 。
搅拌均匀 C .逐一抽取 D.抽取不放回3。
用随机数表法从100名学生(男生25人)中20人进行评教,某男学生被抽到的机率是A.1001 B .251C.51D.414。
某校有40个班,每班50人,每班选派3人参加“学代会”,在这个问题中样本容量是 A.40 B 。
50 C .120 D.1505。
从某批零件中抽取50个,然后再从50个中抽出40个进行合格检查,发现合格品有36个,则该批产品的合格率为A。
36%B .72% C .90%D .25%6。
为了解1200名学生对学校教改试验,打算从中抽取一个容量为30的样本,考虑采用系统抽样,则分段的间隔k为A 。
40B .30 C.20 D.127。
从N 个编号中要抽取n 个号码入样,若采用系统抽样方法抽取,则分段间隔应为 A。
n N C.[n N ] D.[nN]1 8.下列说法正确的个数是①总体的个体数不多时宜用简单随机抽样法②在总体均分后的每一部分进行抽样时,采用的是简单随机抽样 ③百货商场的抓奖活动是抽签法④整个抽样过程中,每个个体被抽取的机率相等(有剔除时例外) A.1 B.2 C .3 D 。
49。
某单位有职工160人,其中业务员有104人,管理人员32人,后勤服务人员24人,现用分层抽样法从中抽取一容量为20的样本,则抽取管理人员 A 。
3人 B。
4人 C 。
7人 D.12人 10. 问题:①有1000个乒乓球分别装在3个箱子内,其中箱子内有500个,蓝色箱子内有200个,箱子内有300个,现从中抽取一个容量为100的样本;②从20名学生中选出3名参加座谈会.方法:Ⅰ。
随机抽样法Ⅱ。
系统抽样法Ⅲ。
分层抽样法。
其中问题与方法能配对的是A.①Ⅰ,②ⅡB。
数学高一知识点总结有质量的知识才是名校的真实力,每一所这样的大学,至少都有十种左右高质知识储备在教授门手中,储备在这些学校与世界的多重联系中,正是这高质量知识的储备。
下面小编给大家分享一些数学高一知识点,希望能够帮助大家,欢迎阅读!数学高一知识点1统计2.1.1简单随机抽样1.总体和样本在统计学中,把研究对象的全体叫做总体.把每个研究对象叫做个体.把总体中个体的总数叫做总体容量.为了研究总体的有关性质,一般从总体中随机抽取一部分:研究,我们称它为样本.其中个体的个数称为样本容量.2.简单随机抽样,也叫纯随机抽样。
就是从总体中不加任何分组、划类、排队等,完全随机地抽取调查单位。
特点是:每个样本单位被抽中的可能性相同(概率相等),样本的每个单位完全独立,彼此间无一定的关联性和排斥性。
简单随机抽样是其它各种抽样形式的基础。
通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。
3.简单随机抽样常用的方法:(1)抽签法;⑵随机数表法;⑶计算机模拟法;⑷使用统计软件直接抽取。
在简单随机抽样的样本容量设计中,主要考虑:①总体变异情况;②允许误差范围;③概率保证程度。
4.抽签法:(1)给调查对象群体中的每一个对象编号;(2)准备抽签的工具,实施抽签(3)对样本中的每一个个体进行测量或调查例:请调查你所在的学校的学生做喜欢的体育活动情况。
5.随机数表法:例:利用随机数表在所在的班级中抽取10位同学参加某项活动。
2.1.2系统抽样1.系统抽样(等距抽样或机械抽样):把总体的单位进行排序,再计算出抽样距离,然后按照这一固定的抽样距离抽取样本。
第一个样本采用简单随机抽样的办法抽取。
K(抽样距离)=N(总体规模)/n(样本规模)前提条件:总体中个体的排列对于研究的变量来说,应是随机的,即不存在某种与研究变量相关的规则分布。
可以在调查允许的条件下,从不同的样本开始抽样,对比几次样本的特点。
如果有明显差别,说明样本在总体中的分布承某种循环性规律,且这种循环和抽样距离重合。
考点1:抽样方法一.随机抽样随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法:1.简单随机抽样:从元素个数为N 的总体中不放回地抽取容量为n 的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.简单随机抽样是最简单、最基本的抽样方法.⑴抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法.②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同.随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.⑵简单随机抽样必须具备下列特点:①简单随机抽样要求被抽取的样本的总体个数N 是有限的. ②简单随机样本数n 小于等于样本总体的个数N . ③简单随机样本是从总体中逐个抽取的. ④简单随机抽样是一种不放回的抽样.⑤简单随机抽样的每个个体被抽取的可能性均为nN.<教师备案>样本获取分为两种,一种是全面统计,一种是样本统计.全面统计的例子非常多,比如美国大选,每个州的选民都是通过投票选出每个州的负责人.也就是每个人都表达了自己的意见.再比如我们调查学生是海淀还是非海淀,我们也是给每个学生打了电话,访谈出结果,每个同学也都表达了自己的意见.再比如一些小事,像一群人中午的时候讨论去哪吃饭,每个人都可以说自己喜欢的地方.全面统计的好处在于无遗漏,数据准确无偏差,但是缺点也很明显,那就是非常的繁琐、麻烦.对于大数据的处理很无力,所以我们需要有样本统计. 样本统计的意义就是从一个大数据中抽取数据样本分析,通过对样本的分析来估计原数据的性质.于是首要的问题就是如何抽样.一个合理的抽样方法的基本要求是“平等”,也就是每个个体被抽取的可能性是相同的.比如我们发现,老师选出的学生代表很可能不能真正代表全体同学的意见,因为老师选取的一定是自己比较熟悉的学生,这类学生平时一定非常活跃.而对于一些比较内向,“存在感”比较低的同学来说,老师可能就不会关注,被选中的可能性就会降低.由此可以推知,人为的抽样一般是不靠谱的.再比如,现在很多的新闻都有网上的调查,有的媒体通过网上调查的数据来分析广大人民对新闻的反馈.这样的调查也是不靠谱的,因为网上调查反映出来的大多是经常上网的人的意见,而对于平时不上网的人就没有调查,所以这样的抽样也是不合理的.最常见的合理抽样方式是“抓阄”,这可以保证每个个体都能“等可能”的被选中.当然抓阄的方式有很多,比如很多时候我们不需要每个人都去抓一次,我们可以把每个人编一个号,然后由一个人来抽号就可以了.比如我们常见的彩票大致就是这个原理.不过需要注意的是彩票里面的等可能是对彩票是等可能的,对人不一样,因为一个人可以买很多彩票.6.1随机抽样知识点睛第6讲概率默统计类<教师备案>老师在讲完简单随机抽样后可以让学生做例1的【铺垫】⑴,本小题主要是让学生理解什么是总体,什么是个体,什么是样本容量,因为简单随机抽样比较简单,而且在后边要讲的系统抽样和分层抽样中都要用到,所以这里就不再详细讲解了.2.系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,由于抽样间隔相等,又被称为等距抽样.⑴抽出办法:从元素个数为N的总体中抽取容量为n的样本,如果总体容量能被样本容量整除,设Nkn=,先对总体进行编号,号码从1到N,再从数字1到k中随机抽取一个数s作为2(1)s k s k s n k+++-,,,个数,这样就得到容量为n的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.⑵系统抽样时,当总体个数N恰好是样本容量n的整数倍时,取Nkn=;若Nn不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量n的机会相等,因而整个抽样过程中每个个体被抽取的机会仍然相等为nN.<教师备案>随着数量的增大,抓阄的方式效率会比较低.当然,随着现在计算机的发展,数据量很大的时候也是可以通过“选号”的方式进行随机抽样.课本上提到的系统抽样其实现在已经不怎么使用了.不过作为传统意义下的抽样方法,我们还是有必要介绍一下.系统抽样的核心是“选出代表”,每个代表会直接代表一个群体的意见.系统抽样的方式分为两种,一种是横向抽样,也就是我们教科书上的抽样方式,这种例子非常多,比如军训的时候,可能我们出现过“一到三”报数,这样就把我们分成了“一”“二”“三”三个组,然后就可以随机选一个数“一”,然后所有的“一”就被选中了.同样的道理,我们对1000人,选取一个100人的样本,那么我们就需要把总数分成100组,每组10个人,然后让第一组的人抓阄(为的是随机抽样),比如“4”抓到,那么每一组的“4”就被选中了.另一种系统抽样的方式是“纵向抽样”,它出现的原理是这样的:原始的系统抽样方法会造成直观上的不公平.比如我们1000人里面选100人去叙利亚旅游,大家肯定都不愿意去,第一组的人抓阄之后,由于第一组的4号被选中,那么每一组的4号就都被选中了,其他组的4号会认为被第一组的4号连累,因为他们是“被”选中的.虽然从可能性上说,这没有道理,不过直观上确实有点“躺枪”的意思.于是人们改变了方式,也就是纵向系统抽样.比如现在我们还是1000人里面选100人去叙利亚,我们把所有人分成10组,每组100人,然后每组自行推举一个代表上台抓阄,被选中的人所在的组,整组都被选中.这样我们每个组都有人去抓阄,也就实现了直观上的公平.但是在可能性的角度,横向和纵向抽样都是“等可能”的,没有本质区别.<教师备案>老师在讲完系统抽样后就可以让学生做例1的铺垫⑵,例1⑵以及尖子班拓展⑵,这几个题都是系统抽样,老师可以选择几个让学生做做,不一定都让学生做,老师自己选择.3.分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.<教师备案>简单随机抽样(抓阄)和系统抽样都是绝对意义上的公平,但是分层抽样就是相对意义上的公平,因为我们人为的干扰了抽样的过程.不过现实意义之下我们统计数据必须进行分层,否则统计数据会闹出笑话.常见的一个就是我家房子10平米,后来搬过来一个邻居,房子面积是100平米,那么我家的生活状况有没有改变.实际上没有,但是统计数字可能告诉你,你们的平均面积增加了.现实生活中,很多的统计需要分层,比如统计收入水平的时候需要分不同的城市,统计生育问题的时候要分城市和农村,统计化妆品消费水平的时候要分性别等等.所以分层抽样就是为了保证每个层面上的公平性,我们按照每个层次占到总体的多少来分配选取的比例.这里老师可以开发更多的统计实例,一定要讲出现实意义来.<教师备案>老师在讲完分层抽样后可以让学生做例1的铺垫⑶,例1⑶以及目标班专用⑷,让学生熟练掌握分层抽样,因为在以后考试和北京高考中,三个抽样重点考察分层抽样.老师在讲完三个抽样后一定要让学生明白什么情况下用什么抽样,这个时候就可以让学生做例1⑴,尖子班拓展⑴.【铺垫】⑴为了了解参加运动会的2000名运动员的年龄情况,从中抽取100名运动员;就这个问题,下列说法中正确的有()个①2000名运动员是总体;②每个运动员是个体;③所抽取的100名运动员是一个样本;④样本容量为100;⑤每个运动员被抽到的概率相等A.1B.2C.3D.4⑵从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是()A.510152025,,,,B.313233343,,,,C.12345,,,,D.2461632,,,,⑶某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测.若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是()A.4B.5C.6D.7【解析】⑴ B;④⑤正确,①②③错误⑵ B;⑶ C;20(1020)640103020+⨯=+++.【例1】三种抽样⑴现有以下两项调查:①某装订厂装订图书36000册,要求检验员从中抽取500册图书,检查其装订质量状况;②某市有大型、中型与小型的商店共1500家,三者数量之比为1:5:9.为了调查全市商店每日零售额情况,抽取其中15家进行调查.完成①、②这两项调查宜采用的抽样方法依次是()A.简单随机抽样法,分层抽样法B.分层抽样法,简单随机抽样法C.分层抽样法,系统抽样法D.系统抽样法,分层抽样法⑵用系统抽样法要从160名学生中抽取容量为20的样本,将160名学生随机地从1~160编号,按编号顺序平均分成20组(1~8号,9~16号,…,153~160号),若第16组抽出的号码为126,则第1组中用抽签的方法确定的号码是.⑶某工厂生产A、B、C三种不同型号的产品,产品数量之比依次为235∶∶.现用分层抽样方法抽出一个容量为n的样本,样本中A种型号产品有16件.那么此样本的容量n=.⑷(目标班专用)某校有500名学生,A型血的有125人,B型血的有125人,AB型血的有50人,为了研究血型与色弱有没有关系,要从中抽取一个20人的样本,按分层抽样,O型血应抽取的人数为人.【解析】⑴ D;①是系统抽样;②明显是分层抽样;⑵6;不妨设第1组抽出的号码为x,则第16组应抽出的号码是815126x⨯+=,∴6x=.⑶80;A种型号的产品占总体的比例是210,则样本容量1016802n=⨯=.⑷该学校O型血的人数为50012512550200---=,按照分层抽样的抽样比相等得:500:20200:x=,解得8x=,即O型血应抽取的人数为8人.经典精讲<教师备案>学习了抽样后,需要对收集的这些有代表性的样本数据进行研究,找出有用的信息,然后用这些样本来估计总体.这种估计一般分成两种,一种是用样本的频率分布估计总体的分布,另一种是用样本的数字特征估计总体的数字特征.用来估计的图表和方法有很多种,本版块在初中的基础上来学习频率分布直方图、茎叶图和方差.考点2:频率分布直方图1.列出样本数据的频率分布表和频率分布直方图的步骤: ①计算极差:找出数据的最大值与最小值,计算它们的差;②决定组距与组数:取组距,用极差组距决定组数;③决定分点:决定起点,进行分组;④列频率分布表:对落入各小组的数据累计,算出各小组的频数,除以样本容量,得到各小组的频率.⑤绘制频率分布直方图:以数据的值为横坐标,以频率组距的值为纵坐标绘制直方图,知小长方形的面积=组距×频率组距=频率.2.频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.3.总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线()y f x =来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.<教师备案>这里主要介绍的就是样本分析方法,直方图就是很重要的一种.其实直方图的形成过程就是把数据按大小排序,然后分段截取数据.实际生活中最常见的方法就是“画正字”,比如我们收到了一组数据是学生的跳绳次数,我们就可以把次数分成若干组,然后一个一个数据看落在了哪个组里,利用“画正字”的方式看出每组里有几个数,最后画出直方图.直方图的主要作用是看出数据的分布变化趋势,很容易表示大量数据,缺点是原始数据不能在图上表示出来.通过例2的学习,让学生可以由给出的频率分布直方图算出各组数据的频率和频数,理解横纵坐标代表的意义.频率分布折线图和总体密度曲线不需要深究,在频率分布直方图的基础上,简单介绍即可.【例2】 频率分布直方图⑴某棉纺厂为了了解一批棉花的质量,从中随机抽取了100根棉花纤维的长度(棉花纤维的长度是棉花质量的重要指标),所得数据都在区间[]540,中,其频率分布直方图如图所示,则其抽样的100根中,长度在[)3035,内的频率为______,有______根棉花纤维的长度小于20mm .经典精讲知识点睛6.2用样本估计总体y 510152025303540长度(mm)0.010.020.030.040.050.06频率组距⑵(目标班专用)某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间, 将测试结果按如下方式分成六组:第一组,成绩大于等于13秒且小于14秒;第二组,成绩大于等于14秒且小于15秒;……第六组,成绩大于等于18秒且小于等于19秒.右图是按上述分组方法得到的频率分布直方图,设成绩小于17秒的学生人数占全班总人数的百分比为x ,成绩大于等于15秒且小于17秒的学生人数为y ,则从频率分布直方图中可分析出x 和y 分别为( )秒频率/组距1918171615141300.360.340.180.060.040.02A .0.9,35B .0.9,45C .0.1,35D .0.1,45【解析】 ⑴ 0.1,30;由频率分布直方图可得,长度在[)3035,内的频率为0.0250.1⨯=. 棉花纤维长度小于20mm 的频率为()0.010.010.0450.3++⨯=,则棉花纤维长度小于20mm 的频数为1000.330⨯=根.⑵ (目标班专用)A .考点3:茎叶图<教师备案>当样本数据较少时,可以用样本分析的另一个常用图表方法――茎叶图,这个图主要作用是两组数据的对比.一左一右很容易估计出两组数据的对比状况,而且茎叶图是把所有的数据都列出来,精确性上比直方图要好一点,但是对于数据特征的分析不如直方图直观.可以结合铺垫讲解知识点,并简单复习一下初中学过的中位数、平均数的概念.1.制作茎叶图的步骤:①将数据分为“茎”、“叶”两部分;②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线; ③将各个数据的“叶”在分界线的一侧对应茎处按一定次序同行列出.<教师备案>“按一定次序”一般是按大小顺序,也可以按统计数据的顺序.2.平均数:平均数是指在一组数据中所有数据之和再除以数据的个数.中位数:是指将统计总体当中的各个数据值按大小顺序排列起来,形成一个数列,处于数列中间位置的数据值就称为中位数.当数列的项数为奇数时,处于最中间位置的数据值即为中位数;当项数为偶数时,中位数则为处于中间位置的两个数据值的平均数.知识点睛8964553819261846172852乙甲54535251【铺垫】某班甲、乙两学生的高考备考成绩如下:甲:512554528549536556534541522538 乙:515558521543532559536548527531①用茎叶图表示两学生的成绩;②分别求两学生成绩的中位数和平均分. 【解析】 ①两学生成绩的茎叶图如图所示 ②将甲、乙两学生的成绩从小到大排列为: 甲:512522528534536538541549554556, 乙:515521527531532536543548558559. 从以上排列可知甲学生成绩的中位数为5365385372+=,乙学生成绩的中位数为5325365342+=.甲学生成绩的平均数为1222283436384149545650053710++++++++++=,乙学生成绩的平均数为1521273132364348585950053710++++++++++=.【例3】 茎叶图随机抽取某中学甲,乙两班各10名同学,测量他们的身高(单位:cm ),获得身高数据的茎叶图如图,则下列关于甲,乙两班这10名同学身高的结论正确的是( ) A .甲班同学身高在175以上的人数较多 B .甲班同学身高的中位数较大C .甲班同学身高的平均值较小D .甲、乙班同学身高的平均值一样大 【解析】 C ;甲班同学身高175以上的有3人,乙班有4人,故而A 错误.甲班同学身高的中位数为169,乙班同学身高的中位数为171.5.故而B 错误. 容易计算得知,=170x 甲,=171.1x 乙,故C 对.考点4:统计数据的数字特征<教师备案>分析样本数据时,我们已经学过了众数、中位数和平均数这些概念,它们都可以用来表示统计数据的特征信息,各有利弊.平均数是统计数据一个非常好的特征,它可以利用所有的样本数据,而且比较好算.也正因为平均数利用了所有的数据,所以它容易受到一些极端数据的影响.比如歌唱比赛时,去掉一个最高分和一个最低分,然后再平均,就是为了避免出现个别评委的极端喜恶,尽量体现评分的准确和公正性.再比如公布一个地区的家庭平均收入时,平均数也掩盖了一些极端情况的存在,而这些是不容忽视的.怎么样能反映这些极端情况呢,也就是数据的离散程度呢,从运算方便等各方面考虑,引入了方差或标准差来进行衡量.统计数据的数字特征1.用样本平均数估计总体平均数;用样本标准差估计总体标准差:经典精讲知识点睛乙班甲班98822388900191716159865311822.数据的离散程度可以用极差、方差或标准差来描述:⑴极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度;⑵样本方差描述了一组数据围绕平均数波动的大小,样本的标准差是方差的算术平方根. 一般地,设样本的元素为12n x x x ,,,,样本的平均数为x , 定义样本方差为222212()()()n x x x x x x s n-+-++-=,样本标准差22212()()()n x x x x x x s n-+-++-=,简化公式:22222121()n s x x x nx n ⎡⎤=+++-⎣⎦.<教师备案>这部分其实没有真正的考察,现在最多也就是通过样本的特征直接套用在整体数据上.寒假班对方差只需要初步理解它存在的意义即可,对方差的直观理解放在春季同步班讲解.【例4】 方差甲、乙、丙三名射箭运动员在某次测试中各射箭20次,三人的测试成绩如下表1s ,2s ,3s 分别表示甲、乙、丙三名运动员这次测试成绩的标准差,则有( )甲的成绩乙的成绩 丙的成绩 环数 7 8 9 10 环数 7 8 9 10 环数 7 8 9 10 频数5555频数6446频数4664A .312s s s >>B .213s s s >>C .123s s s >>D .231s s s >>【解析】 B ;根据题中数据计算()()12117585951058.57684941068.52020x x =⨯+⨯+⨯+⨯==⨯+⨯+⨯+⨯=,,()317486961048.520x =⨯+⨯+⨯+⨯=,∴123x x x ==;()()()()22221178.5588.5598.55108.55 1.2520s ⎡⎤=-⨯+-⨯+-⨯+-⨯=⎣⎦, 同理得231.45 1.05s s ==, ∴213s s s >>.<教师备案>概率的定义是一个漫长的过程,最开始就是根据经验,对统计事实的认识.历史上对概率的理解可以分为三个阶段: 第一阶段:大量统计中发生的几率有 多大.比如很多数学家都玩过“扔硬币”这个游戏,而且还统计了结果,如图.大家发现,扔了很多很多次之后,结 果都差不多是正反面各占一半,所以大家认为硬币出正面的概率是50%.可能有人觉得这个做法很无聊,但是这只是概率的现象,是一个经典精讲6.3随机事件概率结果层面的东西,并不是概率的本质.不过现在计算机在估计概率的时候也是用这样的方法进行多次的实验,最终估计出一个结果.第二阶段:人们开始想一些复杂的问题.这里面著名的问题有两个,一个是赌徒分金问题(注:两个赌徒玩掷硬币,规定正面则甲加一分,反面则乙加一分,谁先得到16分谁就可以赢得一袋金币,现在进行到甲:乙=15:12,警察来了,说不让赌了,那么这些金币该怎么分.(【解析】按照15:1的比例分;假设警察没有来,则乙赢的概率为:11111222216⨯⨯⨯=,甲赢的概率为:111111111115222222222216+⨯+⨯⨯+⨯⨯⨯=,∴应该按照15:1的比例分金币),另一个问题是掷两个骰子,至少有一个6的概率(【解析】:1136).这些问题基本上是很难通过实验来得出结论,毕竟情景比较复杂,这就促使人们要从概率的理论角度入手解决.费马在概率的定义方面做出了杰出的贡献,因为他引入了“等可能”这个概念.就是我们需要先认同一些基本的“等可能”的条件,然后再由此出发考虑复杂情况.第三阶段:古典概型有弊端,因为古典概型的必然要求是要把一个事件分解成若干等可能的基本事件,不过有些问题中这件事是做不到的.比如打靶问题.所以才有了几何概型这个概念.之后随着函数论的发展,我们用函数基础定义概率的时候我们就有了新的概率理论.后续的离散型随机变量说的就是这个阶段的问题.建议老师在一开始教学的时候强化概率的直观解释.比如:掷硬币模型,再比如:猜黑白(俗称手心手背).其实这就是利用了概率均等的原理进行的.我们可以想一想,手心手背其实是很有效的一个等概率选取方式.另外,猜拳也是一个非常有效的等概率选取方式.这些概率其实挺难算的,不过我们可以让学生直观的理解概率的意义.同样的问题还有: 【趣题】1.甲乙两个人去公园,公园有10个景点,在这10个景点中两个人各自独立的选取5个,假定甲和乙同时出发,游览每一个景点的时间都是相同的,那么他们在最后一个景点相遇的概率是多少?【解析】下面有三种方法,老师在给学生讲本讲的时候可以讲法一,法二和法三供老师参考:法一:从概率意义的直观理解,考虑甲最后在的一个景点,乙最后在任何一个景点的可能性相同,恰好在甲所在的景点的概率为110.法二:甲最后一个景点为i 号景点的概率都为110,乙最后一个景点为i 号景点的概率也为110()12310i =,,,,故他们最后一个景点为同一个景点的概率为11110101010⨯⨯=.法三:他们参观景点的所有顺序有551010A A 种,每种参观景点的顺序出现的可能性相同,故在最后一个景点相遇的情况有1441099C A A ,故所求概率为1441099551010C A A 1A A 10=. 2.华约的自招考题:4个人传球,每个人都等概率的传给其他人,由甲开始第一次传球,设n 为传球次数,n 次传球后球在甲手里的概率记为n p ,问当n 趋向于无穷的时候,n p 趋向于多少?【解析】下面有两种方法,老师在给学生讲本题的时候可以讲法一,法二供老师参考:法一:从概率意义的直观理解,因为每个人都等可能的传给其他人,所以球在甲手里的概率为14,传n 次球后球在甲手里的概率依然为14.法二:记n A 表示事件“经过n 次传球后,球在甲手中”,12n =⋅⋅⋅,,则有()10P A =,()()()111n n n n n P A P A A P A A +++=+()()1113n n n P A A p +==-. 所以1n p +与n p 的关系式为()1113n n p p +=-,12n =⋅⋅⋅,,① 设11()3n n p p λλ++=-+,对比得14λ=-.于是①式可以变形为1111434n n p p +⎛⎫-=-- ⎪⎝⎭,从而14n p ⎧⎫-⎨⎬⎩⎭是公比为13-的等比数列,其首项为11144p -=-.故有1111443n n p -⎛⎫⎛⎫-=-⨯- ⎪ ⎪⎝⎭⎝⎭,111143n n p -⎡⎤⎛⎫=--⎢⎥ ⎪⎝⎭⎢⎥⎣⎦,12n =⋅⋅⋅,, ② 由②可得1111lim lim 1434n n n n p -→∞→∞⎡⎤⎛⎫=--=⎢⎥ ⎪⎝⎭⎢⎥⎣⎦. 另外还可以介绍一些概率不能直观解释的例子:比如生日悖论:世界上任取50个人,他们至少有两个人生日在同一天的概率是多少?请见下图(转自维基百科)由此可见,当取到23个人的时候,概率已经超过了50%,选取50人的时候,概率应该在95%左右.还有一个例子:乒乓球体育比赛中规定:如果双方得分是10:10,那么一方至少要得12分才能获胜,也就是至少比对方多两分.那么这种“延球”制相对于没有延球制度,到底是对强者更有利,还是帮助弱者有更大的机会翻身呢?(【解析】延球制度对强者更有利;假设强者很强,则再比赛一局有可能强者胜也有可能弱者胜,但是再比赛两局或者比赛无穷多局,肯定是强者赢的概率更大),这些其实都是通过直观解释概率比较复杂的问题. 接下来我们可以定义事件:考点5:随机事件的概率一.事件1.必然现象与随机现象必然现象是在一定条件下必然发生某种结果的现象;随机现象是在相同条件下,很难预料哪一种结果会出现的现象.例子:判断以下现象是否为随机现象知识点睛。