高考数学考点专题:统计与统计案例:随机抽样
- 格式:doc
- 大小:141.50 KB
- 文档页数:5
第五节 统计、统计案例高考试题考点一 抽样的方法1.(2013年新课标全国卷Ⅰ,理3)为了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是( ) (A)简单随机抽样(B)按性别分层抽样(C)按学段分层抽样 (D)系统抽样解析:由于小学、初中、高中三个学段学生的视力情况差异较大,而男女视力情况差异不大,因此可以按学段分层抽样.故选C. 答案:C2.(2013年安徽卷,理5)某班级有50名学生,其中有30名男生和20名女生,随机询问了该班五名男生和五名女生在某次数学测验中的成绩,五名男生的成绩分别为86,94,88,92,90,五名女生的成绩分别为88,93,93,88,93.下列说法一定正确的是( ) (A)这种抽样方法是一种分层抽样 (B)这种抽样方法是一种系统抽样(C)这五名男生成绩的方差大于这五名女生成绩的方差 (D)该班男生成绩的平均数小于该班女生成绩的平均数解析:本题采用简单随机抽样方法抽取样本,故选项A 、B 错误.因为5名男生成绩和5名女生成绩的平均数,与该班男生成绩的平均数与女生成绩的平均数不一定存在准确的对应关系,所以选项D 的说法不一定成立.对于C 项,男生成绩的平均数1x =90,女生成绩的平均数2x =91,故5名男生成绩的方差21s =15[(86-90)2+(94-90)2+(88-90)2+(92-90)2+(90-90)2]=8,5名女生成绩的方差22s =15[(88-91)2+(93-91)2+(93-91)2+(88-91)2+(93-91)2]=6,故选C. 答案:C3.(2013年江西卷,理4)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )(A)08 (B)07 (C)02(D)01解析:从左到右第1行的第5列和第6列数字是65,依次选取符合条件的数字分别是08,02,14,07,01,故选出来的第5个个体的编号为01. 答案:D考点二 统计图表1.(2013年福建卷,理4)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为( )(A)588 (B)480(C)450 (D)120解析:由题频率分布直方图得,该模块测试成绩不少于60分的学生人数为600×(0.030+0.025+0.015+0.010)×10=480.故选B.答案:B2.(2012年陕西卷,理6)从甲、乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图所示).设甲、乙两组数据的平均数分别为x甲,x乙,中位数分别为m甲,m乙,则( )(A) x甲<x乙,m甲>m乙 (B) x甲<x乙,m甲<m乙(C) x甲>x乙,m甲>m乙 (D) x甲>x乙,m甲<m乙解析:把数据从茎叶图中整理出来,甲的数据为:5,6,8,10,10,14,18,18,22,25,27,30,30,38,41,43;乙的数据为:10,12,18,20,22,23,23,27,31,32,34,34,38,42,43,48,所以x甲=116(5+6+8+10+10+14+18+18+22+25+27+30+30+38+41+43)=34516,x乙=116(10+12+18+20+22+23+23+27+31+32+34+34+38+42+43+48)=45716,显然x甲<x乙.又∵m甲=18222+=20,m乙=27312+=29,所以m甲<m乙.答案:B3.(2013年新课标全国卷Ⅱ,理19)经销商经销某种农产品,在一个销售季度内,每售出1 t该产品获利润500元,未售出的产品,每1 t亏损300元.根据历史资料,得到销售季度内市场需求量的频率分布直方图,如图所示.经销商为下一个销售季度购进了130 t该农产品.以X(单位:t,100≤X≤150)表示下一个销售季度内的市场需求量,T(单位:元)表示下一个销售季度内经销该农产品的利润.(1)将T表示为X的函数;(2)根据直方图估计利润T不少于57000元的概率;(3)在直方图的需求量分组中,以各组的区间中点值代表该组的各个值,并以需求量落入该区间的频率作为需求量取该区间中点值的概率(例如:若需求量X∈[100,110),则取X=105,且X=105的概率等于需求量落入[100,110)的频率),求T的数学期望.解:(1)当X∈[100,130)时,T=500X-300(130-X)=800X-39000,当X∈[130,150]时,T=500×130=65000,所以T=80039000,100130, 65000,130150.X XX-⎧⎨⎩≤<≤≤(2)由(1)知利润T不少于57000元当且仅当120≤X≤150.由直方图知需求量X∈[120,150]的频率为0.7,所以下一个销售季度内的利润T不少于57000元的概率的估计值为0.7.(3)依题意可得T的分布列为T45000530006100065000P0.10.20.30.4所以ET=45000×0.1+53000×0.2+61000×0.3+65000×0.4=59400.考点三样本的数字特征1.(2013年重庆卷,理4)如图所示茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为( )(A)2,5 (B)5,5(C)5,8 (D)8,8解析:由甲组数据的中位数为15,得x=5.由乙组数据的平均数为16.8,得9+30+5+y+8+24=16.8×5,即76+y=84,解得y=8.故选C.答案:C2.(2012年安徽卷,理5)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )(A)甲的成绩的平均数小于乙的成绩的平均数(B)甲的成绩的中位数等于乙的成绩的中位数(C)甲的成绩的方差小于乙的成绩的方差(D)甲的成绩的极差小于乙的成绩的极差解析:甲射击比赛中靶4,5,6,7,8环各1次,则甲成绩的中位数为6环,平均数为6环,极差为4环,方差为2平方环;乙射击比赛中靶5环3次,6环1次,9环1次,则乙成绩的中位数为5环,平均数为6环,极差为4环,方差为2.4平方环.所以甲成绩的方差比乙成绩的方差小.故选C.答案:C3.(2012年江西卷,理9)样本(x1,x2,…,x n)的平均数为x,样本(y1,y2,…,y m)的平均数为y(x≠y).若样本(x1,x2,…,x n,y1,y2,…,y m)的平均数z=αx+(1-α)y,其中0<α<12,则n,m的大小关系为( )(A)n<m (B)n>m(C)n=m (D)不能确定解析:依题意得x1+x2+…+x n=n x,y1+y2+…+y m=m y,x1+x2+…+x n+y1+y2+…+y m=(m+n)z=(m+n)αx+(m+n)(1-α) y,所以n x+m y=(m+n)αx+(m+n)(1-α)y,所以()()(),1, n m n am m n a ⎧=+⎪⎨=+-⎪⎩于是有n-m=(m+n)[α-(1-α)]=(m+n)(2α-1).因为0<α<1 2 ,所以2α-1<0.又m+n>0,所以n-m<0.即n<m.故选A.答案:A4.(2011年江苏卷,6)某老师从星期一到星期五收到的信件数分别为10,6,8,5,6,则该组数据的方差s2= .解析:由于这5个数的平均数x=15×(10+6+8+5+6)=7,因此该组数据的方差s2=15[(10-7)2+(6-7)2+(8-7)2+(5-7)2+(6-7)2]=3.2.答案:3.2考点四变量的相关性1.(2012年湖南卷,理4)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为ˆy=0.85x-85.71,则下列结论中不正确的是( )(A)y与x具有正的线性相关关系(B)回归直线过样本点的中心(x,y)(C)若该大学某女生身高增加1 cm,则其体重约增加0.85 kg(D)若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg解析:根据线性回归方程相关知识可知选项A、B、C是正确的.而由回归方程得到的是预报变量的可能取值的平均值,不是预报变量的精确值,故选D.答案:D2.(2011年陕西卷,理9)设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图所示),以下结论中正确的是( )(A)x和y的相关系数为直线l的斜率(B)x和y的相关系数在0到1之间(C)当n为偶数时,分布在l两侧的样本点的个数一定相同(D)直线l过点(x,y)解析:相关系数是表示两个变量是否具有线性相关关系的量,可正可负也可为0,它的绝对值越接近1两变量相关性越强.因此A、B错,线性回归直线两侧样本点个数不一定相同,故C错.回归直线恒过样本中心(x,y).选项D正确.答案:D3.(2011年江西卷,理6)变量X和Y对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )(A)r2<r1<0 (B)0<r2<r1(C)r2<0<r1(D)r2=r1解析:对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0.所以有r2<0<r1.故选C.答案:C4.(2011年山东卷,理7)某产品的广告费用x与销售额y的统计数据如下表:广告费用x/万元4235销售额y/万元49263954根据上表可得回归方程ˆy=b x+ˆa中的b为9.4,据此模型预报广告费用为6万元时销售额为( )(A)63.6万元(B)65.5万元(C)67.7万元(D)72.0万元解析:线性回归直线过定点(x,y),y=492639544+++=42, x=3.5,代入ˆa=y-ˆb x得ˆa=42-9.4×3.5=9.1,所以ˆy=6×9.4+9.1=65.5(万元).答案:B5.(2011年辽宁卷,理14)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:ˆy=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加万元. 解析:由回归直线方程可知,x每增加1,ˆy增加0.254,从而家庭年收入每增加1万元,年饮食支出平均增加0.254万元.答案:0.2546.(2011年广东卷,理13)某数学老师的身高为176 cm,他爷爷、父亲和儿子的身高分别是173 cm,170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为cm.解析:儿子和父亲的身高可列表如下:(单位:cm)父亲身高x173170176儿子身高y170176182设回归直线方程为ˆy=ˆa+ˆb x,由表中数据可求得x=173, y=176,∴ˆb=()()()31321i iiiix x y yx x==---∑∑=()223633⨯+-=1,ˆa=y-ˆb x=3,故回归直线方程为ˆy=x+3.当x=182时, ˆy=182+3=185.故预测他孙子的身高为185 cm.答案:185考点五独立性检验(2012年辽宁卷,理19)电视传媒公司为了解某地区某类体育节目的收视情况,随机抽取了100名观众进行调查.如图所示的是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图.将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.(1)根据已知条件完成下面的2×2列联表,据此资料,你是否认为“体育迷”与性别有关?非体育迷体育迷总计男女1055总计(2)将上述调查得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中“体育迷”的人数为X.若每次抽取的结果是相互独立的,求X的分布列、期望E(X)和方差D(X).附:χ2=()211221221n n n n nn n n n-++.P(χ2≥k)0.050.01 k 3.841 6.635解:(1)由频率分布直方图可知在抽取的100人中,“体育迷”有25人,从而2×2列联表补充如下:非体育迷体育迷总计男301545女451055总计7525100将2×2列联表中的数据代入公式计算,得χ2=()2 1003010451575254555⨯-⨯⨯⨯⨯=10033≈3.030.因为3.030<3.841,所以没有足够的把握认为“体育迷”与性别有关.(2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为14.由题意知X ~B(3, 14),从而X 的分布列为: X 0123P27642764964164所以E(X)=np=3×14=34,D(X)=np(1-p)=3×14×34=916. 模拟试题考点一 抽样方法1.(2013北京市丰台区期末)某高中共有学生900人,其中高一年级240人,高二年级260人,为做某项调查,拟采用分层抽样法抽取容量为45的样本,则在高三年级抽取的人数是 .解析:高三的人数为400, 所以在高三抽取的人数为45900×400=20. 答案:202.(2013青岛一中调研)某班级有50名学生,现要采取系统抽样的方法在这50名学生中抽出10名学生,将这50名学生随机编号1~50号,并分组,第一组1~5号,第二组6~10号,……,第十组46~50号,若在第三组中抽得号码为12的学生,则在第八组中抽得号码为 的学生.解析:因为12=5×2+2,即第三组抽出的是第二个同学, 所以每一组都相应抽出第二个同学. 所以第8组中抽出的号码为5×7+2=37号. 答案:37考点二 统计图表1.(2013云南师大附中检测)甲、乙两名运动员在某项测试中的6次成绩的茎叶图如图所示,,分别表示甲乙两名运动员这项测试成绩的平均数,s 1,s 2分别表示甲乙两名运动员这项测试成绩的标准差,则有( )(A)1x >2x ,s 1<s 2 (B)1x =2x ,s 1=s 2 (C)1x =2x ,s 1<s 2(D)1x =2x ,s 1>s 2解析:由样本中数据可知1x =15, 2x =15, 由茎叶图得s 1<s 2, 所以选C. 答案:C2.(2013贵州省六校联考)某同学学业水平考试的9科成绩如茎叶图所示,则根据茎叶图可知该同学的平均分为 .解析:19(68+72+73+78×2+81+89×2+92)=7209=80.答案:803.(2013北京市西城区期末)为了解学生的身体状况,某校随机抽取了一批学生测量体重.经统计,这批学生的体重数据(单位:千克)全部介于45至70之间.将数据分成以下5组:第1组[45,50),第2组[50,55),第3组[55,60),第4组[60,65),第5组[65,70],得到如图所示的频率分布直方图.现采用分层抽样的方法,从第3,4,5组中随机抽取6名学生做初检.(1)求每组抽取的学生人数;(2)若从6名学生中再次随机抽取2名学生进行复检,求这2名学生不在同一组的概率.解:(1)由频率分布直方图知,第3,4,5组的学生人数之比为3∶2∶1.所以,每组抽取的人数分别为:第3组:36×6=3;第4组:26×6=2;第5组:16×6=1.所以从第3,4,5组应依次抽取3名学生,2名学生,1名学生.(2)记“从6名学生中抽取2名学生不在同一组”为事件A,则P(A)=11111131213226C C C C C CC+⋅+⋅=1115.考点三样本的数字特征1.(2012西安五校模拟)已知一组正数x1,x2,x3,x4的方差s2=14(22221234x x x x+++-16),则数据x1+2,x2+2,x3+2,x4+2的平均数为( ) (A)2 (B)3 (C)4 (D)6解析:设x1,x2,x3,x4的平均值为x,则s2=14[(x1-x)2+(x2-x)2+(x3-x)2+(x4-x)2]=14(22221234x x x x+++-42x),∴42x=16,∴x =2,∴x 1+2,x 2+2,x 3+2,x 4+2的平均数为4. 答案:C2.(2013昆明一中检测)某学校想要调查全校同学是否知道迄今为止获得过诺贝尔物理奖的6位华人的姓名,为此出了一份考卷.该卷共有6个单选题,每题答对得20分,答错、不答得零分,满分120分.阅卷完毕后,校方公布每题答对率如下:则此次调查全体同学的平均分数是 分.解析:假设全校人数有x 人,则每道试题答对人数及总分分别为所以六个题的总分为66x,所以平均分为66xx=66. 答案:66考点四 线性回归方程1.(2013青岛一中调研)某学生四次模拟考试中,其英语作文的减分情况如下表:显然所减分数y 与模拟考试次数x 之间有较好的线性相关关系,则其线性回归方程为( )(A)y=0.7x+5.25 (B)y=-0.6x+5.25 (C)y=-0.7x+6.25(D)y=-0.7x+5.25解析:由题意可知,所减分数y 与模拟考试次数x之间为负相关,所以排除A. 考试次数的平均数为x =14(1+2+3+4)=2.5, 所减分数的平均数为y =14(4.5+4+3+2.5)=3.5, 即直线应该过点(2.5,3.5),代入验证可知直线y=-0.7x+5.25成立,故选D. 答案:D2.(2012湘潭三模)某种产品的广告支出x 与销售额y(单位:百万元)之间有如下的对应关系:(1)假定x 与y 之间具有线性相关关系,求回归方程;(2)若实际销售额不少于60百万元,则广告支出应该不少于多少?参考公式: ˆb=1221ni ii nii x ynx y xnx==--∑∑,ˆa=y -ˆb x . 解:(1)∵x =15×(2+4+5+6+8)=5, y =15×(30+40+60+50+70)=50,521ii x=∑=22+42+52+62+82=145,51i ii x y=∑=2×30+4×40+5×60+6×50+8×70=1380,∴ˆb=51522155i ii ii x yx y xx==--∑∑=21380555014555-⨯⨯-⨯=6.5,ˆa=y -ˆb x =50-6.5×5=17.5. ∴回归方程为ˆy=6.5x+17.5. (2)由回归方程得ˆy ≥60,即6.5x+17.5≥60, 解得x ≥8513≈6.54. 故广告支出应该不少于6.54百万元.考点五 独立检验1.(2012枣庄模拟)下面是2×2列联表:则表中a,b 的值分别为( )(A)94,72 (B)52,50 (C)52,74 (D)74,52 解析:∵a+21=73,∴a=52, 又a+22=b,∴b=74. 答案:C2.(2012汕头期末)下列命题中假命题是( )(A)对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的可信程度越大(B)用相关指数R 2来刻画回归的效果时,R 2的值越大,说明模型拟合的效果越好(C)两个随机变量的相关性越强,相关系数的绝对值越接近1 (D)等高条形图可以展示2×2列联表数据的频率特征解析:K 2的观测值k 越大,“X 与Y 有关系”的可信程度越大.答案:A综合检测1.(2011汕头期末)下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据:如果根据上表提供的数据求出y 关于x 的线性回归方程为y =0.7x+0.35,那么表中t 的值为( )(A)3 (B)3.15 (C)3.5(D)4.5解析:由y=0.7x+0.35得2.54 4.54t+++=0.7×34564++++0.35,即114t+=3.5,解得t=3.答案:A2.(2011佛山联考)一个总体分为A,B两层,用分层抽样方法从总体中抽取一个容量为30的样本,已知B层中每个个体被抽到的概率都是112,则总体中的个体数为.解析:因为分层抽样为等可能抽样,故每个个体被抽到的可能性都是相等的.设总体中的个体数为n,则30n=112,∴n=360.答案:3603.(2012广州期末)在一次调研中,随机调查了某社区若干居民的年龄,将调查数据绘制成如图所示的扇形和条形统计图,则a-b= .(60以上含60)解析:设共调查了x名居民的年龄,由x·46%=230,得x=500,于是得a=100500×100%=20%,b=1-(20%+46%+22%)=12%.故a-b=8%.答案:8%。
高中数学知识点:简单的随机抽样
高中数学知识点:简单的随机抽样
导语:下面是小编为大家整理的高中数学知识点:简单的随机抽样,希望对大家有所帮助,欢迎阅读,仅供参考,更多相关的知识,请关注CNFLA学习网!
高中数学知识点:简单的随机抽样
1:简单随机抽样
(1)总体和样本
①在统计学中, 把研究对象的全体叫做总体.②把每个研究对象叫做个体.③把总体中个体的总数叫做总体容量.
④为了研究总体的有关性质,一般从总体中随机抽取一部分: x1,x2 , ....,xx 研究,我们称它为样本.其中个体的个数称为样本容量.
(2)简单随机抽样,也叫纯随机抽样。
就是从总体中不加任何分组、划类、排队等,完全随
机地抽取调查单位。
特点是:每个样本单位被抽中的`可能性相同(概率相等),样本的每个单位完全独立,彼此间无一定的关联性和排斥性。
简单随机抽样是其它各种抽样形式的基础。
通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。
(3)简单随机抽样常用的方法:
①抽签法②随机数表法③计算机模拟法③使用统计软件直接抽取。
在简单随机抽样的样本容量设计中,主要考虑:①总体变异情况;②允许误差范围;③概率保证程度。
(4)抽签法:
①给调查对象群体中的每一个对象编号;②准备抽签的工具,实施抽签;
③对样本中的每一个个体进行测量或调查
(5)随机数表法。
高考总复习:统计与统计案例【考纲要求】1.随机抽样(1)理解随机抽样的必要性和重要性;(2)会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法. 2.用样本估计总体(1)了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点.(2)理解样本数据标准差的意义和作用,会计算数据标准差.(3)能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释.(4)会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.(5)会用随机抽样的基本方法和样本估计总体的思想,解决一些简单的实际问题. 3.变量的相关性(1)会作两个有关联变量数据的散点图,会利用散点图认识变量间的相关关系;(2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆). 【知识网络】【考点梳理】考点一、随机抽样从调查的对象中按照一定的方法抽取一部分,进行调查或观测,获取数据,并以此对调查对象的某项统计图表用样本估计总体统计简单随机抽样数据的整 理分析数据的数字特征 分层抽样系统抽样变量的相关性指标做出推断,这就是抽样调查.调查对象的全体称为总体,被抽取的一部分称为样本.1.简单的随机抽样 简单随机抽样的概念:设一个总体的个体数为N .如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.① 用简单随机抽样从含有N 个个体的总体中抽取一个容量为n 的样本时,每次抽取一个个体时,任一个体被抽到的概率为1N;在整个抽样过程中各个个体被抽到的概率为n N;②简单随机抽样的特点是:不放回抽样,逐个地进行抽取,各个个体被抽到的概率相等; ③简单随机抽样方法体现了抽样的客观性与公平性,是其他更复杂抽样方法的基础. 简单抽样常用方法:①抽签法:先将总体中的所有个体(共有N 个)编号(号码可从1到N),并把号码写在形状、大小相同的号签上(号签可用小球、卡片、纸条等制作),然后将这些号签放在同一个箱子里,进行均匀搅拌,抽签时每次从中抽一个号签,连续抽取n 次,就得到一个容量为n 的样本.适用范围:总体的个体数不多.优点:抽签法简便易行,当总体的个体数不太多时适宜采用抽签法.②随机数表法:随机数表抽样“三步曲”:第一步,将总体中的个体编号;第二步,选定开始的数字;第三步,获取样本号码.2.系统抽样:当总体中的个体数较多时,可将总体分成均衡的几个部分,然后按预先制定出的规则,从每一部分抽取一个个体,得到需要的样本,这种抽样叫做系统抽样.系统抽样的步骤:①采用随机的方式将总体中的个体编号,为简便起见,有时可直接采用个体所带有的号码,如考生的准考证号、街道上各户的门牌号等等.②为将整个的编号分段 (即分成几个部分),要确定分段的间隔k .当Nn是整数时(N 为总体中的个体的个数,n 为样本容量),N k n =;当Nn 不是整数时,通过从总体中剔除一些个体使剩下的总体中个体的个数'N 能被n 整除,这时'N k n=.③在第一段用简单随机抽样确定起始的个体编号l .④按照事先确定的规则抽取样本(通常是将l 加上间隔k ,得到第2个编号l k +,第3个编号2l k +,这样继续下去,直到获取整个样本).要点诠释:①系统抽样适用于总体中的个体数较多的情况,它与简单随机抽样的联系在于:将总体均分后的每一部分进行抽样时,采用的是简单随机抽样;②与简单随机抽样一样,系统抽样是等概率抽样,它是客观的、公平的③总体中的个体数恰好能被样本容量整除时,可用它们的比值作为系统抽样的间隔;当总体中的个体数不能被样本容量整除时,可用简单随机抽样先从总体中剔除少量个体,使剩下的个体数能被样本容量整除再进行系统抽样.3.分层抽样:当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的情况,常将总体分成几部分,然后按照各部分所占的比例进行抽样,这种抽样叫做分层抽样,所分成的部分叫做层.4.常用的三种抽样方法的比较:要点诠释:(1)各种抽样的个体被抽到的概率相等;(2)抽样过程中个体被抽到的概率相等.5.不放回抽样和放回抽样:在抽样中,如果每次抽出个体后不再将它放回总体,称这样的抽样为不放回抽样;如果每次抽出个体后再将它放回总体,称这样的抽样为放回抽样随机抽样、系统抽样、分层抽样都是不放回抽样考点二、用样本估计总体1. 统计图表包括条形图、折线图、饼图、茎叶图.2.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差)(2)决定组距与组数(3)将数据分组(4)列频率分布表(5)画频率分布表3.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得频率分布折线图(2)总体密度曲线:随着样本容量的增加,作图所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线4.标准差和方差(1)标准差是样本数据到平均数的一种平均距离,s = (2)方差: 2222121[()()...()]n s x x x x x x n=-+-++- (n x 是样本数据,n 是样本容量,x 是样本平均数)要点诠释:现实中的总体所包含个体数往往是很多的,如何求得总体的平均数和标准差呢?(通常的做法是用样本的平均数和标准差去估计总体的平均数与标准差,这与有样本的频率分布近似代替总体分布是类似的,只要样本的代表性好,这样做就是合理的,也是可以接受的.)5.利用频率分布直方图估计样本的数字特征(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值(2)平均数:平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和(3)众数:在频率分布直方图中,众数是最高的矩形的中点的横坐标 6. 频率分布直方图反映样本的频率分布 (1)频率分布直方图中横坐标表示组距,纵坐标表示组距频率,频率=组距×组距频率(2)频率分布直方图中各小长方形的面积之和为1,因此在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比.(3)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观. (4)众数为最高矩形中点的横坐标.(5)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标. 考点三、变量的相关性 1. 散点图将两个变量所对应的点描在直角坐标系中,这些点组成了变量之间的一个图,称为变量之间的散点图.散点图形象地反映了各对数据的密切程度.粗略地看,散点分布具有一定的规律.如果变量之间存在某种关系,这些点会有一个集中趋势,这种趋势通常可以用一条光滑的曲线来近似表示,这样近似的过程称为曲线拟合.2.两个变量的线性相关(1)相关关系:当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系.(2)正相关在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(3)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (4)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.3.回归方程 (1)最小二乘法求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程$y bx a =+是两个具有线性相关关系的变量的一组数据1122(,),(,),(,),n n x y x y x y L 的回归方程,期中,a b 是待定参数.$1122211()()()n ni i i ii i n ni ii i x x y y x ynxy b x x xnx a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑$要点诠释:相关关系与函数关系的异同点: 相同点:两者均是指两个变量的关系.不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系; ②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系. 考点四、统计案例 1.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法;(2)随机误差:线性回归模型用y bx a e =++表示,其中a,b 为模型的未知数,e 称为随机误差. (3)样本点的中心在具有线性相关关系的数据1122(,),(,),(,),n n x y x y x y L 中回归方程的截距和斜率的最小二乘估计公式分别为:$$121()(),=-()nii i nii xx y y ba y bxxx ==--=-∑∑$$ 其中111,=,(,,)nni i i i x x y x x y n ===∑∑称为样本点的中心.(4)相关系数①()()nii xx y y r --=∑②当>0r 时,表明两个变量正相关; 当<0r 时,表明两个变量负相关.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常r 大于0.75时,认为两个变量有很强的线性相关性.2.残差分析 (1)总偏差平方和把每个效应(观测值减去总的平均值)的平方加起来即:21()nii yy =-∑(2)残差数据点和它回归直线上相应位置的差异µ2()i i y y -是随机误差的效应,称µµ=i ii e y y -为残差. (3)残差平方和µ21()nii i yy =-∑.(4)相关指数µ22121()()nii i n ii yy R yy ==-=-∑∑2R 的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中, 2R 表示解释变量对预报变量变化的贡献率, 2R 越接近于1,表示回归的效果越好.3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y,它们的可能取值分别为1122{,}{,}x y x y 和,其样本频数列联表(称为2×2列联表)为2×2列联表1y 2y总计1x a b a b + 2xcd c d + 总计a c +b d +a b c d +++构造一个随机变量22()()()()()n ad bc K a b c d a c b d -=++++,其中a b c d +++为样本容量.(3)独立性检验利用随机变量2K 来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.注: 在独立性检验中经常由2K 得到观测值k ,则k =2K 是否成立?(2K 与k 的关系并不是k =2K ,k 是2K 的观测值,或者说2K 是一个随机变量,它在a ,b ,c ,d )取不同值时,2K 可能不同,而k 是取定一组数a ,b ,c ,d 后的一个确定的值. 【典型例题】类型一、简单随机抽样【例1】某车间工人加工一种轴100件,为了了解这种轴的直径,要从中抽取10件轴在同一条件下测量,如何采用简单随机抽样的方法抽取样本?【思路点拨】简单随机抽样一般采用两种方法:抽签法和随机数表法.【解析】解法1:(抽签法)将100件轴编号为1,2,…,100,并做好大小、形状相同的号签,分别写上这100个数,将这些号签放在一起,进行均匀搅拌,接着连续抽取10个号签,然后测量这个10个号签对应的轴的直径.解法2:(随机数表法)将100件轴编号为00,01,…99,在随机数表中选定一个起始位置,如取第21行第1个数开始,选取10个为68,34,30,13,70,55,74,77,40,44,这10件即为所要抽取的样本.【总结升华】从以上两种方法可以看出,当总体个数较少时用两种方法都可以,当样本总数较多时,方法2优于方法1.举一反三:【变式】某大学为了支持奥运会,从报名的24名大三的学生中选6人组成志愿小组,请用抽签法和随机数表法设计抽样方案.【思路点拨】(1)总体的个体数较少,利用抽签法或随机数表法可容易获取样本;(2)抽签法的操作要点:编号、制签、搅匀、抽取;(3)随机数表法的操作要点:编号、选起始数、读数、获取样本.【解析】抽签法第一步:将24名志愿者编号,编号为1,2,3, (24)第二步:将24个号码分别写在24张外形完全相同的纸条上,并揉成团,制成号签;第三步:将24个号签放入一个不透明的盒子中,充分搅匀;[来源:]第四步:从盒子中逐个抽取6个号签,并记录上面的编号;第五步:所得号码对应的志愿者,就是志愿小组的成员.随机数表法第一步:将24名学生编号,编号为01,02,03,……24;第二步:在随机数表中任选一数开始,按某一确定方向读数;第三步:凡不在01~24中的数或已读过的数,都跳过去不作记录,依次记录下得数;第四步:找出号码与记录的数相同的学生组成志愿小组.类型二、系统抽样【例2】某校高中三年级的295名学生已经编号为1,2,……,295,为了了解学生的学习情况,要按1:5的比例抽取一个样本,用系统抽样的方法进行抽取,并写出过程.【思路点拨】按1:5分段,每段5人,共分59段,每段抽取一人,关键是确定第1段的编号.【解析】按照1:5的比例,应该抽取的样本容量为295÷5=59,我们把259名同学分成59组,每组5人,第一组是编号为1~5的5名学生,第2组是编号为6~10的5名学生,依次下去,59组是编号为291~295的5名学生.采用简单随机抽样的方法,从第一组5名学生中抽出一名学生,不妨设编号为k(1≤k≤5),那么抽取的学生编号为k+5L(L=0,1,2,……,58),得到59个个体作为样本,如当k=3时的样本编号为3,8,13,……,288,293.【总结升华】系统抽样可按事先规定的规则抽取样本. 本题采用的规则是第一组随机抽取的学生编号为k,那么第m组抽取的学生编号为k+5(m-1).举一反三:【变式】一个总体中有100个个体,随机编号为0,1,2,…,99,依编号顺序平均分成10个小组,组号依次为l ,2,3,…,10.现用系统抽样方法抽取一个容量为10的样本,规定如果在第1组随机抽取的号码为m ,那么在第最小组中抽取的号码个位数字与m+k 的个位数字相同.若m=6,则在第7组中抽取的号码是 .【答案】∵6m =,7k =,∴13m k += ∴在第7小组中抽取的号码是63. 类型三、分层抽样【例3】某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点.公司为了调查产品销售的情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区中有20个特大型销售点,要从中抽取7个调查其销售收入和售后服务情况,记这项调查为②.则完成①、②这两项调查宜采用的抽样方法依次是( )A .分层抽样法,系统抽样法B .分层抽样法,简单随机抽样法C .系统抽样法,分层抽样法D .简单随机抽样法,分层抽样法【思路点拨】此题为抽样方法的选取问题.当总体中个体较多而且差异又不大时宜采用系统抽样,采用系统抽样在每小组内抽取时应按规则进行;当总体中的个体差异较大时,宜采用分层抽样;当总体中个体较少时,宜采用随机抽样.【解析】依据题意,第①项调查应采用分层抽样l 法、第②项调查应采用简单随机抽样法.故选B . 【总结升华】采用什么样的抽样方法要依据研究的总体中的个体情况来定. 举一反三:【变式】甲校有3600名学生,乙校有5400名学生,丙校有1800名学生,为统计三校学生某方面的情况,计划采用分层抽样法,抽取一个样本容量为90人的样本,应在这三校分别抽取学生( )A.30人,30人,30人B.30人,45人,15人C.20人,30人,10人D.30人,50人,10人【答案】B ;根据样本容量和总体容量确定抽样比,最终得到每层中学生人数.【例4】一个地区共有5个乡镇,人口3万人,其中人口比例为3:2:5:2:3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程.【思路点拨】采用分层抽样的方法.【解析】因为疾病与地理位置和水土均有关系,所以不同乡镇的发病情况差异明显,因而采用分层抽样的方法,具体过程如下:(1)将3万人分为5层,其中一个乡镇为一层.(2)按照样本容量的比例随机抽取各乡镇应抽取的样本.300×3/15=60(人),300×2/15=40(人),300×5/15=100(人),300×2/15=40(人),300×3/15=60(人),因此各乡镇抽取人数分别为60人、40人、100人、40人、60 人.(3)将300人组到一起,即得到一个样本.【总结升华】分层抽样在日常生活中应用广泛,其抽取样本的步骤尤为重要,应牢记按照相应的比例去抽取.举一反三:【变式】某单位最近组织了一次健身活动,活动分为登山组和游泳组,且每个职工至多参加了其中一组.在参加活动的职工中,青年人占42.5%,中年人占47.5%,老年人占10%.登山组的职工占参加活动总人数的41,且该组中,青年人占50%,中年人占40%,老年人占10%.为了了解各组不同的年龄层次的职工对本次活动的满意程度,现用分层抽样的方法从参加活动的全体职工中抽取一个容量为200的样本.试确定(Ⅰ)游泳组中,青年人、中年人、老年人分别所占的比例; (Ⅱ)游泳组中,青年人、中年人、老年人分别应抽取的人数. 【答案】(Ⅰ)设登山组人数为x ,游泳组中,青年人、中年人、老年人各占比例分别为a 、b 、c ,则有40%347.5%410%310%4x xbxx xc x ⋅+⎧=⎪⎪⎨⋅+⎪=⎪⎩,解得50%10%b c =⎧⎨=⎩故a=100%-50%-10%=40%,即游泳组中,青年人、中年人、老年人各占比例分别为40%、50%、10%. (Ⅱ)游泳组中,抽取的青年人数为320040%604⨯⨯=(人);抽取的中年人数为32004⨯⨯50%=75(人); 抽取的老年人数为32004⨯⨯10%=15(人).类型四、用样本估计总体【例4】甲、乙两小组各10名学生的英语口语测试成绩如下:(单位:分) 甲组 76 90 84 86 81 87 86 82 85 83 乙组 82 84 85 89 79 80 91 89 79 74 用茎叶图表示两小组的成绩,并判断哪个小组的成绩更整齐一些?【思路点拨】学会用茎叶图表示数据的方法;并会进行统计推断.【解析】用茎叶图表示两小组的成绩如图:甲茎乙6 7 4 9 97 6 6 5 4 3 2 1 8 0 2 4 5 9 90 9 1由图可知甲组成绩较集中,即甲组成绩更整齐一些.【总结升华】对各数据是二、三位数,且数据量不是很大时,用用茎叶图表示较为方便,也便于进行统计推断,否则,应改用其他方法.举一反三:【变式1】甲、乙两个学习小组各有10名同学,他们在一次数学测验中成绩的茎叶图如图所示,则他们在这次测验中成绩较好的是组.【答案】甲小组【变式2】甲、乙两名运动员的5次测试成绩如下图所示,设12,s s分别表示甲、乙两名运动员测试成绩的标准差,12,x x分别表示甲、乙两名运动员测试成绩的平均数,则有()A.12x x=,12s s<B.12x x=,12s s>C.12x x>,12s s> D.12x x=,12s s=【答案】B【例5】以下茎叶图记录了甲、乙两组各四名同学在某次数学测验中的成绩,甲组记录中有一个数据模糊,无法确认,在图中以X表示.甲组乙组6 X8 74 1 9 0 0 3甲茎乙5 7 16 88 8 2 2 3 6 7(Ⅰ)如果甲组同学与乙组同学的平均成绩一样,求X 及甲组同学数学成绩的方差;(Ⅱ)如果X=7,分别从甲、乙两组同学中各随机选取一名,求这两名同学的数学成绩之和大于180的概率.(注:方差2222121=[()()...()],n s x x x x x x n-+-++-其中12,,...,.n x x x x 为的平均数)【思路点拨】(Ⅰ)利用平均数的基本概念加以求解。
随机抽样【考点梳理】1.简单随机抽样(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法. 2.系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本. (1)先将总体的N 个个体编号.(2)确定分段间隔K ,对编号进行分段,当N n 是整数时,取k =N n ,当Nn 不是整数时,随机从总体中剔除余数,再取k =N ′n (N ′为从总体中剔除余数后的总数).(3)在第1段用简单随机抽样确定第一个个体编号l (l ≤k ).(4)按照一定的规则抽取样本,通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本.3.分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.(2)分层抽样的应用范围:当总体由差异明显的几个部分组成时,往往选用分层抽样. 【教材改编】1.(必修3 P 100A 组T 3(2)改编)某中学有高中生3 500人,初中生1 500人,为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为( )A .100B .150C.200 D.250 [答案] A[解析] 由题意可得70n-70=3 5001 500,解得n=100,故选A.2.(必修3 P62练习T2改编)为了了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是()A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样[答案] C[解析] 不同的学段在视力状况上有所差异,所以应该按照学段分层抽样.故选C.3.(必修3 P59练习T3改编)一个总体中有90个个体,随机编号0,1,2, (89)依从小到大编号顺序平均分成9个小组,组号依次为1,2,3,…,9.现用系统抽样方法抽取一个容量为9的样本,规定如果在第1组随机抽取的号码为m,那么在第k 组中抽取的号码个位数字与m+k的个位数字相同,若m=8,则在第8组中抽取的号码是()A.72 B.74C.76 D.78[答案] C[解析] 由题意知:m=8,k=8,则m+k=16,也就是第8组抽取的号码个位数字为6,十位数字为8-1=7,故抽取的号码为76.故选C.4.(必修3 P56内文改编)利用简单随机抽样从含有8个个体的总体中抽取一个容量为4的样本,则总体中每个个体被抽到的概率是()A .12B .13C .16D .14[答案] A[解析] 总体个数为4N =,样本容量为4M =,则每一个个体被抽 到的概率为4182M P ===N ,故选A. 5.(必修3 P 58内文改编)某校高三年级共有800名学生,学号从1800号,现用系统抽样抽出样本容量为n 的样本;从小号到大号抽出的第1个数为8号,第6个数为168,则抽取的第3个数是多少号( )A .64B .72C .80D .88[答案] B[解析] 由系统抽样的特点得()861168k +-⨯=,32k =.∴抽取的第3个数为()8313272+-⨯=(号),故选B.6.(必修3 P 100A 组T 1改编)为了了解某地参加计算机水平测试的5000名学生的成绩,从中抽取了200名学生的成绩进行统计分析.在这个问题中,这200名学生成绩的全体是( )A .总体B .个体C .从总体中抽取的一个样本D .样本的容量[答案] C[解析] 根据随机抽样的概念可知选C.7.(必修3 P 60-61内文改编)某学校有男、女学生各1000名,为了解男、女学生在学习兴趣与业余爱好方面是否存在显著差异,拟从全体学生中抽取200名学生进行调查,则宜采用的抽样方法是( )A.抽签法B.随机数法C.系统抽样法D.分层抽样法[答案] D[解析] 由于是调查男、女学生在学习兴趣与业余爱好方面是否存在差异,因此宜采用分层抽样法.8.(必修3 P61内文改编)某地区高中分三类,A类学校共有学生2000人,B类学校共有学生3000人,C类学校共有学生4000人,若采取分层抽样的方法抽取900人,则A类学校中的学生甲被抽到的概率为()A.110B.920C.12000D.12[答案] A[解析] 利用分层抽样,每个学生被抽到的概率是相同的,故所求的概率为9001 20003000400010=++.9.(必修3 P59练习T2改编)为了调查某产品的销售情况,销售部门从下属的92家销售连锁店中抽取30家了解情况.若用系统抽样法,则抽样间隔和随机剔除的个体数分别为________.[答案] 3和2[解析] 92被30除余数为2,故需剔除2个数,90÷30=3,所以间隔为3.10.(必修3 P64A组T5改编)一支田径队有男运动员56人,女运动员m人,用分层抽样抽出一个容量为n的样本,在这个样本中随机取一个当队长的概率为1 28,且样本中的男队员比女队员多4人,则m=________.[答案] 42[解析] 由题意知n=28,设其中有男队员x人,女队员有y人.则⎩⎪⎨⎪⎧x +y =28,x -y =4,56m =x y .解得x =16,y =12,m =42.11. (必修3 P 64B 组T 1改编)下表是某公司专业技术人员的年龄和学历统计表.(1)用分层抽样的方法在35~50岁年龄段的专业技术人员中抽取一个容量为5的样本,将该样本看成一个总体,从中任取2人,求至少有1人学历为研究生的概率;(2)在这所学校中,按年龄状况用分层抽样的方法抽取N 个人,其中35岁以下48人,50岁以上10人,再从这N 个人中随机抽取1人,此人的年龄为50岁以上的概率为539,求x ,y 的值.[解析] (1)用分层抽样的方法在35~50岁中抽取一个容量为5的样本,设抽取学历为本科的人数为m ,∴3050=m5,解得m =3.抽取的样本中有研究生2人,本科生3人,分别记作S 1,S 2;B 1,B 2,B 3. 从中任取2人的所有等可能基本事件共有10个:{S 1,B 1},{S 1,B 2}, {S 1,B 3},{S 2,B 1},{S 2,B 2},{S 2,B 3},{S 1,S 2},{B 1,B 2},{B 1,B 3},{B 2,B 3}.其中至少有1人的学历为研究生的基本事件有7个:{S 1,B 1},{S 1,B 2},{S 1,B 3},{S 2,B 1},{S 2,B 2},{S 2,B 3},{S 1,S 2}.∴从中任取2人,至少有1人学历为研究生的概率为710. (2)由题意,得10N =539,解得N =78.∴35~50岁中被抽取的人数为78-48-10=20, ∴4880+x =2050=1020+y ,解得x =40,y =5. 即x ,y 的值分别为40,5.。
高中数学统计学中的抽样及相关问题在高中数学的统计学中,抽样是一个非常重要的概念。
它是指从总体中选取一部分个体进行观察和研究,以便推断总体的特征。
抽样的方法有很多种,每种方法都有其适用的场景和特点。
本文将介绍几种常见的抽样方法,并且通过具体的例题来说明其考点和解题技巧。
一、简单随机抽样简单随机抽样是指从总体中随机地选取n个个体作为样本,使得每个个体被选中的概率相等。
这种抽样方法适用于总体中个体之间没有明显差异的情况。
下面我们通过一个例题来说明简单随机抽样的应用。
例题:某班级有50名学生,现在要从中抽取10名学生进行调查。
请问,抽取的过程中,每个学生被选中的概率是多少?解析:根据简单随机抽样的定义,每个学生被选中的概率应该相等。
因此,每个学生被选中的概率为1/50。
二、系统抽样系统抽样是指从总体中按照一定的规则选取个体作为样本。
这种抽样方法适用于总体中个体之间存在某种规律的情况。
下面我们通过一个例题来说明系统抽样的应用。
例题:某超市有200个员工,现在要从中抽取20个员工进行调查。
请问,应该按照怎样的规则进行抽样?解析:根据系统抽样的定义,我们可以按照一定的规则选取员工。
例如,我们可以每隔10个员工选取一个,这样就能够保证抽样的均匀性。
三、整群抽样整群抽样是指将总体分成若干个互不相交的子群,然后从每个子群中进行抽样。
这种抽样方法适用于总体中个体之间存在明显差异的情况。
下面我们通过一个例题来说明整群抽样的应用。
例题:某城市有10个区,现在要对每个区的居民进行调查。
请问,应该如何进行抽样?解析:根据整群抽样的定义,我们可以将每个区作为一个子群,然后从每个子群中抽取一定数量的居民进行调查。
这样可以保证每个区的特征得到充分的反映。
通过以上的例题,我们可以看到不同的抽样方法适用于不同的情况。
在实际应用中,我们需要根据具体的问题来选择合适的抽样方法。
同时,我们还需要注意抽样误差的控制,以保证抽样结果的准确性。
除了抽样方法,我们还需要关注抽样中的一些相关问题,例如样本容量的确定、样本均值的估计等。
统计一.简单随机抽样:抽签法和随机数法1.一般地,设一个总体含有N个个体(有限),从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等(n/N),就把这种抽样方法叫做简单随机抽样。
2.一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本,这种抽样方法叫做抽签法。
抽签法的一般步骤:a、将总体的个体编号。
b、连续抽签获取样本号码。
3. 利用随机数表、随机数骰子或计算机产生的随机数进行抽样,叫随机数表法。
随机数表法的步骤:a、将总体的个体编号。
b、在随机数表中选择开始数字。
c、读数获取样本号码。
4. 抽签法的优点是简单易行,缺点是当总体的容量非常大时,费时、费力,又不方便,如果标号的签搅拌得不均匀,会导致抽样不公平,随机数表法的优点与抽签法相同,缺点上当总体容量较大时,仍然不是很方便,但是比抽签法公平,因此这两种方法只适合总体容量较少的抽样类型。
二.系统抽样:1.一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样。
系统抽样的一般步骤:(1)采用随机抽样的方法将总体中的N个个编号。
(2)将整体按编号进行分段,确定分段间隔k=N/n。
(k∈N,L≤k).(3)在第一段用简单随机抽样确定起始个体的编号L(L∈N,L≤k)。
(4)按照一定的规则抽取样本,通常是将起始编号L加上间隔k得到第2个个体编号L+K,再加上K得到第3个个体编号L+2K,这样继续下去,直到获取整个样本。
在确定分段间隔k时应注意:分段间隔k为整数,当N/n不是整数时,应采用等可能剔除的方剔除部分个体,以获得整数间隔k。
三.分层抽样:1.一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫分层抽样。
随机抽样
【考点梳理】
1.简单随机抽样
(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
(2)最常用的简单随机抽样的方法:抽签法和随机数法. 2.系统抽样的步骤
假设要从容量为N 的总体中抽取容量为n 的样本. (1)先将总体的N 个个体编号.
(2)确定分段间隔K ,对编号进行分段,当N n 是整数时,取k =N n ,当N
n 不是整数时,随机从总体中剔除余数,再取k =N ′
n (N ′为从总体中剔除余数后的总数).
(3)在第1段用简单随机抽样确定第一个个体编号l (l ≤k ).
(4)按照一定的规则抽取样本,通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本.
3.分层抽样
(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
(2)分层抽样的应用范围:
当总体由差异明显的几个部分组成时,往往选用分层抽样. 【教材改编】
1.(必修3 P 100A 组T 3(2)改编)某中学有高中生3 500人,初中生1 500人,为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为( )
A .100
B .150
C.200 D.250 [答案] A
[解析] 由题意可得70
n-70=
3 500
1 500,解得n=100,故选A.
2.(必修3 P62练习T2改编)为了了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是()
A.简单随机抽样B.按性别分层抽样
C.按学段分层抽样D.系统抽样
[答案] C
[解析] 不同的学段在视力状况上有所差异,所以应该按照学段分层抽样.故选C.
3.(必修3 P59练习T3改编)一个总体中有90个个体,随机编号0,1,2, (89)
依从小到大编号顺序平均分成9个小组,组号依次为1,2,3,…,9.现用系统抽样方法抽取一个容量为9的样本,规定如果在第1组随机抽取的号码为m,那么在第k 组中抽取的号码个位数字与m+k的个位数字相同,若m=8,则在第8组中抽取的号码是()
A.72 B.74
C.76 D.78
[答案] C
[解析] 由题意知:m=8,k=8,则m+k=16,也就是第8组抽取的号码个位数字为6,十位数字为8-1=7,故抽取的号码为76.故选C.
4.(必修3 P56内文改编)利用简单随机抽样从含有8个个体的总体中抽取一个容量为4的样本,则总体中每个个体被抽到的概率是()
A .12
B .13
C .16
D .14
[答案] A
[解析] 总体个数为4N =,样本容量为4M =,则每一个个体被抽 到的概率为41
82
M P =
==N ,故选A. 5.(必修3 P 58内文改编)某校高三年级共有800名学生,学号从1800号,现用系统抽样抽出样本容量为n 的样本;从小号到大号抽出的第1个数为8号,第6个数为168,则抽取的第3个数是多少号( )
A .64
B .72
C .80
D .88
[答案] B
[解析] 由系统抽样的特点得
()861168k +-⨯=,32k =.
∴抽取的第3个数为()8313272+-⨯=(号),故选B.
6.(必修3 P 100A 组T 1改编)为了了解某地参加计算机水平测试的5000名学生的成绩,从中抽取了200名学生的成绩进行统计分析.在这个问题中,这200名学生成绩的全体是( )
A .总体
B .个体
C .从总体中抽取的一个样本
D .样本的容量
[答案] C
[解析] 根据随机抽样的概念可知选C.
7.(必修3 P 60-61内文改编)某学校有男、女学生各1000名,为了解男、女学生在学习兴趣与业余爱好方面是否存在显著差异,拟从全体学生中抽取200名学生进行调查,则宜采用的抽样方法是( )
A.抽签法B.随机数法
C.系统抽样法D.分层抽样法
[答案] D
[解析] 由于是调查男、女学生在学习兴趣与业余爱好方面是否存在
差异,因此宜采用分层抽样法.
8.(必修3 P61内文改编)某地区高中分三类,A类学校共有学生2000人,B类学校共有学生3000人,C类学校共有学生4000人,若采取分层抽样的方法抽取900人,则A类学校中的学生甲被抽到的概率为()
A.
1
10
B.
9
20
C.
1
2000
D.
1
2
[答案] A
[解析] 利用分层抽样,每个学生被抽到的概率是相同的,故所求
的概率为
9001 20003000400010
=
++
.
9.(必修3 P59练习T2改编)为了调查某产品的销售情况,销售部门从下属的92家销售连锁店中抽取30家了解情况.若用系统抽样法,则抽样间隔和随机剔除的个体数分别为________.
[答案] 3和2
[解析] 92被30除余数为2,故需剔除2个数,90÷30=3,所以间隔为3.
10.(必修3 P64A组T5改编)一支田径队有男运动员56人,女运动员m人,用
分层抽样抽出一个容量为n的样本,在这个样本中随机取一个当队长的概率为1 28,
且样本中的男队员比女队员多4人,则m=________.
[答案] 42
[解析] 由题意知n=28,设其中有男队员x人,女队员有y人.
则⎩⎪⎨⎪⎧
x +y =28,
x -y =4,56m =x y .
解得x =16,y =12,m =42.
11. (必修3 P 64B 组T 1改编)下表是某公司专业技术人员的年龄和学历统计表.
(1)用分层抽样的方法在35~50岁年龄段的专业技术人员中抽取一个容量为5的样本,将该样本看成一个总体,从中任取2人,求至少有1人学历为研究生的概率;
(2)在这所学校中,按年龄状况用分层抽样的方法抽取N 个人,其中35岁以下48人,50岁以上10人,再从这N 个人中随机抽取1人,此人的年龄为50岁以上的概率为5
39,求x ,y 的值.
[解析] (1)用分层抽样的方法在35~50岁中抽取一个容量为5的样本,设抽取学历为本科的人数为m ,∴3050=m
5,解得m =3.
抽取的样本中有研究生2人,本科生3人,分别记作S 1,S 2;B 1,B 2,B 3. 从中任取2人的所有等可能基本事件共有10个:{S 1,B 1},{S 1,B 2}, {S 1,B 3},{S 2,B 1},{S 2,B 2},{S 2,B 3},{S 1,S 2},{B 1,B 2},{B 1,B 3},{B 2,B 3}.
其中至少有1人的学历为研究生的基本事件有7个:{S 1,B 1},{S 1,B 2},{S 1,B 3},{S 2,B 1},{S 2,B 2},{S 2,B 3},{S 1,S 2}.
∴从中任取2人,至少有1人学历为研究生的概率为7
10. (2)由题意,得10N =5
39,解得N =78.。