- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
C.93,2
D.93,2.8
解析:去掉一个最高分95分与一个最低分89分后,所得的5个 数分别为90、90、93、94、93,
所以
x 90 90 93 94 93 460 92,
5
5
s2 2 (90 92)2 2 (93 92)2 (94 92)2 14 2.8,
n
2
x
n
yi2
n
2
y
பைடு நூலகம்
i1
i1
用相关系数来描述线性相关关系的强弱.当r>0时,两个变量正 相关;当r<0时,两个变量负相关,r的绝对值越接近1,表明两 个变量的线性相关性越强,r的绝对值接近于0,表明两个变 量之间几乎不存在线性相关关系.通常当|r|大于r0.05时,认 为两个变量有很强的线性相关关系,因而求回归直线方程 才有意义.
5
5
故选B.
答案:B
4.(2010·福建)若某校高一年级8个班参加合唱比赛的得分 如茎叶图所示,则这组数据的中位数和平均数分别是( )
A.91.5和91.5 C.91和91.5
B.91.5和92 D.92和92
解析:中位数为
1(91+92)=91.5;平均数为
2
1 8
(87+89+90+91+92+93+94+96)=91.5.
[分析] 本题主要考查基本概念和三种抽样方法的联系与区 别,准确把握三种抽样方法的概念与特点是解此题的关键; 另外要注意叙述的完整性和条理性.
[解] (1)这三种抽取方式的总体都是指该校高三全体学生本 年度的考试成绩,个体都是指高三年级每个学生本年度的 考试成绩.其中第一种抽取方式的样本为所抽取的20名学 生本年度的考试成绩,样本容量为20;第二种抽取方式的样 本为所抽取的20名学生本年度的考试成绩,样本容量为20; 第三种抽取方式的样本为所抽取的100名学生本年度的考 试成绩,样本容量为100.
第二种方式抽样的步骤如下:第一步,用简单随机抽样法从第 一个班中任意抽取一名学生,记其学号为a;第二步,在其余 的19个班中,选取学号为a的学生,加上第一个班的一名学 生,共计20人.
第三种方式抽样的步骤如下:第一步,分层.因为若按成绩分,其
中优秀生共150人,良好生共600人,普通生共250人,所以在
(2)系统抽样:系统抽样被称为等距抽样或机械抽样.它按照时 间或空间的等距间隔抽取样本,即将总体分成几个部分,然 后按照预先定出的规则,从每一部分抽取一个个体,得到所 需要的样本,这种抽样称为系统抽样.系统抽样与简单随机 抽样的联系在于:将总体均分后的每一部分进行抽样时,采 用的是简单随机抽样.
(3)分层抽样:当总体中一部分个体与另一部分个体有明显的 差异且易于区别时,常将相近的个体归成一组,然后按照各 部分所占的比例进行抽样,这种抽样称为分层抽样.其中所 分成的各部分称为层.分层抽样时,每一个个体被抽到的概 率都是相等的.
第十模块 概率与统计 第四十八讲 随机抽样、用样本估计 总体、变量间的相互关系、统计案例
回归课本
1.样本及抽样的定义
(1)在数理统计中称研究对象的全体为总体,组成总体的每一 个基本单元为个体,从总体中抽取若干个个体x1,x2,…,xn, 这样的n个个体x1,x2,…,xn称为大小为n(容量为n)的一个样 本.
数据点和它在回归直线上相应位置的差异(y1- y i)是随机误 差效应,称 e i=yi- y i为残差,将所得值平方后加起来,用数
n
学符号表示为 (yi- y i)2称为残差平方和,它代表了随
机误差的效应. i1
8.独立性检验 (1)分类变量的定义 如果某种变量的不同“值”表示个体所属的不同类别,像这
6.回归直线方程
(1)一般地,设x和y是具有相关关系的两个变量,且对应于n个 观测值的n个点大致分布在一条直线的附近,若所求的直线
方程为 yˆ a bx,则
我们将这个方程叫做回归直线方程,a,b叫做回归系数,相应的 直线叫做回归直线.
(2)最小二乘法
使离差平方和Q=(y1-bx1-a)2+(y2-bx2-a)2+…+(yn-bxn-a)2为 最小的方法,叫做最小二乘法.
350×n=7,n=15,选B. 750
2.(2010·湖北)将参加夏令营的600名学生编号为 :001,002,…,600.采用系统抽样方法抽取一个容量为50的 样本,且随机抽得的号码为003.这600名学生分住在三个营 区,从001到300的第Ⅰ营区,从301到495在第Ⅱ营区,从496 到600在第Ⅲ营区,三个营区被抽中的人数依次为( )
平均数为x , 定义s2
1 n
[( x1
x )2
( x2
x )2
(xn x )2 ],
s
1 n
[(
x1
x
)2
( x2
x
)2
方差, s表示样本标准差.
(xn x )2 ], 其中s2表示样本
5.两个变量的相关关系 (1)当自变量的取值一定时,因变量的取值带有随机性,这两个
抽样方法的综合应用
解题准备:1.简单随机抽样:抽签法:搅拌均匀后逐一抽取.
随机数表法:注意编号的灵活性,如对100个个体可用 00,01,01,02,…,99来编号.
2.系统抽样:对多余个体的剔除不影响总体中每个个体被抽到 的等可能性,仍然能保证抽样的公平性.例如从1002个体中 利用系统抽样抽取容量为20的样本,剔除2个个体后,每个 个体被抽到的可能性仍为 20 10 . 1002 501
3.分层抽样:当总体中个体差异较大时,往往采用分层抽样的 方法,若有某些层面应抽取的个体数目不是整数时,可作适 当的细微调整.
【典例1】 为了考察某校的教学水平,将抽查这个学校高三 年级的部分学生本年度的考试成绩.为了全面反映实际情 况,采取以下三种方式进行抽查(已知该校高三年级共有20 个班,并且每个班内的学生已经按随机方式编好了学号,假 定该校每班学生的人数相同):①从高三年级20个班中任意 抽取一个班,再从该班中任意抽取20名学生,考察他们的学 习成绩;②每个班抽取1人,共计20人,考察这20名学生的成 绩;
4.用样本的数字特征估计总体的数字特征 (1)众数,中位数,平均数 在一组数据中,出现次数最多的数据叫做这组数据的众数. 将一组数据按大小依次排列,把处在中间位置的一个数据(或
中间两个数据的平均数)叫做这组数据的中位数.
如果n个数,x1,x2,…,xn,那么 n个数的平均数.
x
1 n
(x1+x2+…+xn)叫做这
变量之间的关系叫做相关关系. 如果一个变量的值由小变大时,另一个变量的值也在由小到
大,这种相关称为正相关;反之,如果一个变量的值由小变大 时,另一个变量的值在由大到小,这种关系称为负相关.变量 间的这种关系与函数关系不同,它是一种非确定关系.
(2)散点图:表示具有相关关系的两个变量的一组数据的图形 叫做散点图.
3.频率分布表、频率分布直方图与茎叶图 (1)频率分布 样本中所有数据(或者数据组)的频数和样本容量的比,就是该
数据的频率.所有数据(或者数据组)的频率的分布变化规律 叫做频率分布,可以用频率分布表、频率分布直方图、频率 分布折线图、茎叶图等来表示. (2)频率分布折线图:连接频率分布直方图中各小长方形上端 的中点,就得到频率分布折线图.
A.26,16,8
B.25,17,8
C.25,16,9
D.24,17,9
解析:依题意及系统抽样的意义可知,将这600名学生按编号
依次分成50组,每一组各有12名学生,第k(k∈N*)组抽中的
号码是3+12(k-1).令3+12(k-1)≤300,得k≤ 10,3因此第Ⅰ营
4
区被抽中的人数是25;令300<3+12(k-1)≤495得
答案:A
5.(2010·湖南)某商品销售量y(件)与销售价格x(元/件)负相
关,则其回归方程可能是( )
A. yˆ =-10x+200
B. yˆ =10x+200
C. yˆ =-10x-200
D. yˆ =10x-200
解析:由图象知选项B、D为正相关,选项C不符合实际意义,故
选A.
答案:A
类型一
样的变量称为分类变量.
(2)2×2列联表
一般地,假设有两个分类变量X和Y,它们的值域分别为{x1,x2} 和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计 a+c
b+d
a+b+c+d
n(ad bc)2
K2= (a b)(c d )(a c)(b d )用它的大小可以决定是否拒绝原 来的统计假设H0,如果K2值较大,就拒绝H0,即拒绝事件A与
③把学生按成绩分成优秀、良好、普通三个级别,从其中共 抽取100名学生进行考察(已知该校高三学生共1000人,若 按成绩分,其中优秀生共150人,良好生共600人,普通生共 250人).根据上面的叙述,试回答下列问题:(1)上面三种抽取 方式的总体、个体、样本分别是什么?每一种抽取方式抽 取的样本中,样本容量分别是多少?(2)上面三种抽取方式各 自采用的是何种抽取样本的方法?(3)试分别写出上面三种 抽取方式各自抽取样本的步骤.
B无关.
考点陪练
1.(2010·重庆)某单位有职工750人,其中青年职工350人,中 年职工250人,老年职工150人,为了了解该单位职工的健康 情况,用分层抽样的方法从中抽取样本.若样本中的青年职 工为7人,则样本容量为( )