当前位置:文档之家› 变量间的相关关系与统计案例W

变量间的相关关系与统计案例W

变量间的相关关系与统计案例W
变量间的相关关系与统计案例W

变量间的相关关系与统计案例

基础梳理

1 ?相关关系的分类 从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它 称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关.

2 ?线性相关

从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性 相关关系,这条直线叫回归直线. 3 ?回归方程

(1) 最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法. (2) 回归方程:两个具有线性相关关系的变量的一组数据:

(X 1, y)(X 2, y 2),…,(xn ,yn),其回归方程为 y = bx +a ,则

n

n

(X i x)(y i y) xy 1

nxy

i 1

i 1

4 ?样本相关系数

n

xy i nx y

1 2

,用它来衡量两个变量间的线性相关关系. n

n

(x x )\ (y i y)2

i 1 - i 1

(1) 当r >0时,表明两个变量正相关; (2) 当r v 0时,表明两个变量负相关;

(3) r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量 之间几乎不存在线性相关关系?通常当| r| >0.75时,认为两个变量有很强的线性相关关系. 5 .线性回归模型

(1)y = bx + a + e 中,a 、b 称为模型的未知参数;e 称为随机误差.

b —n

(X i x)2

x 2

2 1

i 1

———,a y bx

n x

其中,b 是回归方程的斜率, a 是在y 轴上的截距.

n

(x x)(y i y)

i 1

n n

i1(y i y)

2

平方和越小,也就是说模型的拟合效果越好?在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好.

6 .独立性检验

(1)用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,宗教信仰,国籍等.

(2)列出的两个分类变量的频数表,称为列联表.

(3)—般地,假设有两个分类变量X和丫,它们的值域分别为{xi,X2}和{y i,y2},其样本频数列联表(称为2 X 2列联表)为: 2 X 2列联表

y1y2总计

X1a b a + b

X2c d c+ d

a +

b +

c + d

总计 a + c b + d

n ad —be 2

o

K二kb―aT^—CZd—bZ^(其中n=a+ b+ e+ d为样本容量),可利用独立性检

验判断表来判断“ x与y的关系”.

这种利用随机变量K2来确定在多大程度上可以认为“两个类

分变量有关系”的方法称为两个分类变量的独立性检验.

练习:

1 .对变量x,y有观测数据(X i,y)(i= 1,2,…,10),得散点图(1);对变量u,v有观测数据(山、

W)(i = 1,2,…,10),得散点图⑵.由这两个散点图可以判断().

A .变量x与y正相关,u与v正相关

B .变量x与y正相关,u与v负相关

C .变量x与y负相关,u 与v正相关

D .变量x与y负相关,u与v负相关

2 .(2012 ?南昌模拟)某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是().

A.y = - 10 x + 200

B.y = 10 x + 200

C.y = - 10x - 200

D.y = 10x - 200

3 . (2012 ?枣庄模拟)下面是2 X 2列联表: 则表中a , b 的值分别为(). A . 94,72

B . 52,50

C . 52,74

4. 根据两个变量x , y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系 ________ 填“是”与“否”).

5. 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落 在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了 500件,量其内径尺寸,

得结果如下表: 甲厂:

乙厂:

(1) (2) 由以上统计数据填下面2 X 2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质

D . 74,52

量有差异”

130 ? ¥ ?

9U ? ■

*

■ ■

60 ? W *

?

解析几何复习

P(K2>k)0.100

0.050

0.0100.001

k 2. "06 3.841 6.63519.828

ad一br)"

(fl-h +c)(&+rf)

2

x

1、若双曲线—

a b2

1的一条渐近线经过点 3 , -4 ),则此双曲线的离心率为()

A、C、

Q是直线PF与C的一个交点,若

PF3QF,则QF=()

58

(A) 「(B)-(C) 3(D) 6

23

22

3、已知双曲线C:—— = 1的左、右焦点分别为F「F2, P为双曲线C的右支上一点,且PF2 = | F1F2 |,

9 16

则PF1F2的面积等于()

A. 24

B. 36

C. 48

4、椭圆

2

卞1(a b 0)上一点关于原点的对称点为,为其左焦点,若,设

2、已知抛物线C28x的焦点为F ,准线为I , P是I上一点,

2

ABF 一,则该椭圆的离心率为

6

2

2 2

5、已知点B 为双曲线C:爲 爲 1 (a 0 , b 0)的左顶点,A(O,b),线段AB 交双曲线一条渐近线于 C 点,

a b

且满足cos OCB 3

,?则该双曲线的离心率为

5

6、已知双曲线与椭圆

2 2

X

y

1有相同的焦点,且以 x 、2y 0为其一条渐近线,则双曲线方程为

9 3

_ —,过其中一个焦点且长为 4的弦有______条

7、已知椭圆C: x 2 3y 2 3,过点D 1,0且不过点 2,1的直线与椭圆C 交于 , 两点,直线 与直

线x 3交于点

(I )求椭圆C 的离心率;

(II )若 垂直于x 轴,求直线 的斜率;

(III )试判断直线

与直线D 的位置关系,并说明理由.

解答题训练三

1、某学校高三年级 800名学生在一次百米测试中,成绩全部介于

13秒与18秒之间.抽取其中50个样

本,将测试结果按如下方式分成五组:第一组 [13 , 14);第二组[14 , 15)……第五组[17 ,18],下图是按上述 分组方法得到的频率分布直方图.

(I)若成绩小于14秒被认为优秀,求该样本在这次百米测试中优秀的人数; (H)请估计本年级这 800人中第三组的人数;

(川)若样本第一组只有一名女生,第五组只有一名男生,现从第一 实验组,求在被抽出的

2名学生中恰好为一名男生和一名女生的概率

Q.OS

4 ?

32

2、等差数列{a n}中,a2 a3 a415,a59.

(I )求数列a n}的通项公式;(n )设

a-1

3 2,求数列{a n b

n}的前n项和S n

统计与统计案例真题与解析

统计与统计案例 A 级 基础 一、选择题 1.某校为了解学生学习的情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n 人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n =( ) A .860 B .720 C .1 020 D .1 040 2.为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是( ) A .13 B .19 C .20 D .51 3.“关注夕阳、爱老敬老”——某爱心协会从2013年开始每年向敬老院捐赠物资和现金,下表记录了第x 年(2013年是第一年)与捐赠的现金y (单位:万元)的对应数据,由此表中的数据得到了y 关于x 的线性回归方程y ^ =mx +0.35,则预测2019年捐赠的现金大约是( ) A.5万元 C .5.25万元 D .5.5万元 4.如图所示的茎叶图记录了甲乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( )

A.3,5 B.5,5 C.3,7 D.5,7 5.(2019·衡水中学检测)某超市从2019年甲、乙两种酸奶的日销售量(单位:箱)的数据中分别随机抽取100个,并按(0,10],(10,20],(20,30],(30,40],(40,50]分组,得到频率分布直方图如下: 记甲种酸奶与乙种酸奶的日销售量(单位:箱)的方差分别为s21,s22,则频率分布直方图(甲)中的a的值及s21与s22的大小关系分别是() A.a=0.015,s21s22 C.a=0.015,s21>s22D.a=0.15,s21

2019年高考数学统计案例(文科) 含解析

统计案例 一、选择题 1.(2018·长春一模)完成下列两项调查:①从某社区125户高收入家庭、280户中等收入家庭、95户低收入家庭中选出100户,调查社会购买能力的某项指标;②从某中学的15名艺术特长生中选出3名调查学习负担情况.宜采用的抽样方法依次是( ) A .①简单随机抽样,②系统抽样 B .①分层抽样,②简单随机抽样 C .①系统抽样,②分层抽样 D .①②都用分层抽样 答案:B 解析:因为社会购买能力的某项指标受到家庭收入的影响,而社区中各个家庭收入差别明显,所以①用分层抽样法;从某中学的15名艺术特长生中选出3名调查学习负担情况,个体之间差别不大,且总体和样本容量较小,所以②用简单随机抽样法,故选B. 2.(2018·贵州遵义联考)某校高三年级有1 000名学生,随机编号为0001,0002,…,1 000.现按系统抽样方法,从中抽出200人,若0122号被抽到了,则下列编号也被抽到的是( ) A .0927 B .0834 C .0726 D .0116 答案:A 解析:系统抽样就是等距抽样,被抽到的编号满足0122+5k ,k ∈Z .因为0927=0122+5×161,故选A. 3.(2018·江西九校联考(一))一组数据共有7个数,其中有10,2,5,2,4,2,还有一个数没记清,但知道这组数据的平均数、中位数、众数依次成等差数列,则这个数的所有可能值的和为( ) A .3 B .17 C .-11 D .9 答案:D 解析:设这个数是x ,则平均数为25+x 7,众数为2,若x ≤2,则

中位数为2,此时x =-11,若2

案例统计公式(绝对精华)

统计案例 一、回归分析 1. 线性回归方程???y bx a =+的求法 (1)求变量x 的平均值,即1231 ()n x x x x x n =+++???+ (2)求变量y 的平均值,即1231 ()n y y y y y n = +++???+ (3)求变量x 的系数?b ,即1 2 1 ()() ?() n i i i n i i x x y y b x x ==--=-∑∑(题目给出,不用记忆) 1 2 1()() ?() n i i i n i i x x y y b x x ==--=-∑∑ 1 1 1 1 2 2 1 1 1 2n n n n i i i i i i i i n n n i i i i i x y x y xy x y x xx x =======--+= -+∑∑∑∑∑∑∑1 22 21 2n i i i n i i x y nx y nx y nx y x nx nx ==--+= -+∑∑12 21 n i i i n i i x y nx y x nx ==-= -∑∑(理解记忆) (其中1 1 n n i i i x x nx ====∑∑,1 1 n n i i i y y ny ====∑∑,() ,x y 称为样本点中心) (4)求常数?a ,即??a y bx =- (5)写出回归方程???y bx a =+(?a ,?b 的意义:以?a 为基数,x 每增加1个单位,y 相应地平均增加?b 个单位) 注意:若?0b >则正相关,若?0b <则负相关. 2. 相关系数 假设两个随机变量的取值分别是()11,x y ,()22,x y ,……,(),n n x y ,则变量间线性相关系数的计算公式如下: ()() n n i i i i x x y y x y nx y r ---= = ∑∑ 相关系数r 的性质: (1)当0r >时,表明两个变量正相关;当0r <时,表明两个变量负相关;当0r =时,表明

高中数学 专题 统计与统计案例

一、选择题 1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( ) A .73 B .78 C .77 D .76 解析:样本的分段间隔为80 16=5,所以13号在第三组,则最大的编号为13+(16-3)×5 =78.故选B. 答案:B 2.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量如下表所示: 则这20A .180,170 B .160,180 C .160,170 D .180,160 解析:用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B ,C ;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A. 答案:A 3.(2017·高考全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图,根据该折线图,下列结论错误的是( ) A .月接待游客量逐月增加 B .年接待游客量逐年增加 C .各年的月接待游客量高峰期大致在7,8月 D .各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳

解析:根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A 错误.由图可知,B 、C 、D 正确. 答案:A 4.(2018·宝鸡质检)对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为( ) A .5 B .7 C .10 D .50 解析:根据题中的频率分布直方图可知,三等品的频率为1-(0.050 0+0.062 5+0.037 5)×5=0.25,因此该样本中三等品的件数为200×0.25=50. 答案:D 5.(2018·兰州模拟)已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据: 根据表中提供的全部数据,用最小二乘法得出y 与x 的线性回归方程为y ^ =6.5x +17.5,则表中m 的值为( ) A .45 B .50 C .55 D .60 解析:∵x =2+4+5+6+8 5=5, y = 30+40+50+m +705=190+m 5 , ∴当x =5时,y =6.5×5+17.5=50, ∴190+m 5=50,解得m =60. 答案:D

(新人教A版)2020版高考数学大一轮复习第九章统计第3节变量间的相关关系与统计案例讲义理

考试要求 1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系,会通过相关系数比较多组成对数据的相关性;2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件,会用一元线性回归模型进行预测;3.理解2×2列联表的统计意义,了解2×2列联表独立性检验及其应用. 知 识 梳 理 1.相关关系与回归分析 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数. (1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程 (1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^ =b ^ x +a ^ ,则b ^ =∑n i =1 (x i -x - )(y i -y - )∑n i =1 (x i -x - )2=∑n i =1 x i y i -nx - y - ∑n i =1 x 2 i -nx -2,a ^=y --b ^x -.其中,b ^是回归方程的斜率,a ^ 是在y 轴上的截距. 回归直线一定过样本点的中心(x - ,y - ). 3.回归分析 (1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x - ,y - )称为样本点的中心. (3)相关系数 当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关. r 的绝对值越接近于1,表明两个变量的线性相关性越强. r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.

高中数学统计与统计案例概率知识点上课讲义

高中数学统计与统计案例概率知识点

统计与统计案例概率(文科) 知识点 1.抽样调查 (1)抽样调查 通常情况下,从调查对象中按照一定的方法抽取一部分,进行______,获取数据,并以此对调查对象的某项指标作出______,这就是抽样调查. (2)总体和样本 调查对象的称为总______体,被抽取的称为样______本. (3)抽样调查与普查相比有很多优点,最突出的有两点: ①______ ②节约人力、物力和财力. 2.简单随机抽样 (1)简单随机抽样时,要保证每个个体被抽到的概率. (2)通常采用的简单随机抽样的方法:_____ 3.分层抽样 (1)定义:将总体按其属性特征分成若干类型(有时称作层),然后在每个类型中按照所占比例随机抽取一定的样本.这种抽样方法通常叫作分层抽样,有时也称为类型抽样. (2)分层抽样的应用范围: 当总体是由差异明显的几个部分组成时,往往选用分层抽样. 4.系统抽样 系统抽样是将总体中的个体进行编号,等距分组,在第一组中按照简单随机抽样抽取第一个样本,然后按______(称为抽样距)抽取其他样本.这种抽样方法有时也叫等距抽样或机

械抽样. 5.统计图表 统计图表是______数据的重要工具,常用的统计图表有______ 6.数据的数字特征 (1)众数、中位数、平均数 众数:在一组数据中,出现次数最多的数据叫作这组数据的众数. 中位数:将一组数据按大小依次排列,把处在______位置的一个数据(或最中间两个数据的平均数)叫作这组数据的中位数. 平均数:样本数据的算术平均数,即x =1n (x 1+x 2+…+x n ). 在频率分布直方图中,中位数左边和右边的直方图的面积应该______ (2)样本方差 标准差s = 1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2], 其中x n 是样本数据的第n 项,n 是,______x 是______ 标准差是刻画数据的离散程度的特征数,样本方差是标准差的______.通常用样本方差估计总体方差,当______时,样本方差很接近总体方差. 7.用样本估计总体 (1)通常我们对总体作出的估计一般分成两种,一种是______,另一种______. (2)在频率分布直方图中,纵轴表示,______数据落在各小组内的频率用______表示,各小长方形的面积总和等于.______ (3)在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间.从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线,称之为频率折线图. (4)当样本数据较少时,用茎叶图表示数据的效果较好,它没有信息的缺失,而且______,方便表示与比较.

【免费下载】概率论与数理统计案例

实例1 发行彩票的创收利润某一彩票中心发行彩票 10万张, 每张2元. 设头等奖1个, 奖金 1万元, 二等奖2个,奖金各 5 千元;三等奖 10个, 奖金各1千元; 四等奖100个, 奖金各100元; 五等奖1000个, 奖金各10 元.每张彩票的成本费为 0.3 元, 请计算彩票发行单位的创收利润.解:设每张彩票中奖的数额为随机变量X , 则X 10000 5000 1000 100 10 0p 51/1052/10510/105100/1051000/100p 每张彩票平均能得到奖金 05512()10000500001010E X p =? +?++? 0.5(),=元每张彩票平均可赚20.50.3 1.2(), --=元因此彩票发行单位发行 10 万张彩票的创收利润为:100000 1.2120000().?=元实例2 如何确定投资决策方向?某人有10万元现金,想投资于某项目,预估成功的机会为 30%,可得利润8万元 , 失败的机会为70%,将损失 2 万元.若存入银行,同期间的利率为5% ,问是否作此项投资?解:设 X 为投资利润,则 X 8 -2p 0.3 0.7()80.320.71(),E X =?-?=万元存入银行的利息:故应选择投资.1050.5(),%?=万元实例3 商店的销售策略某商店对某种家用电器的销售采用先使用后付款的方式,记使用寿命为X (以年计),规定1,1500;12,2000;23,2500; 3,3000.X X X X ≤<≤<≤>一台付款元一台付款元一台付款元一台付款元10,1e ,0,()100, 0.x X x f x x Y -?>?=??≤? 设寿命服从指数分布概率密度为试求该商店一台家用电器收费的数学期望定盒位置保护层防腐跨接地线弯曲半径标高等,要求技术交底。管线敷设技术、电气课校对图纸,编写复杂设备与装置高中资料试卷调试方案,编写重要设备高中资料、电气设备调试高中中资料试卷工况进行自动处理,尤其要避免错误高中资料试卷保护装置动作,并

专题突破练20 统计与统计案例

专题突破练20 统计与统计案例 1. (2020吉林辽源高三检测,18)某城市在进行创建文明城市的活动中,为了解居民对“创建文明城市”的满意程度,组织居民给活动打分(分数为整数.满分为100分).从中随机抽取一个容量为120的样本.发现所有数据均在[40,100]内.现将这些分数分成以下6组并画出了样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形,回答下列问题: (1)算出第三组[60,70)的频数,并补全频率分布直方图; (2)请根据频率分布直方图,估计样本的众数、中位数和平均数.(每组数据以区间的中点值为代表) 2.下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图. 为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①;y ^ =-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^ =99+17.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.

3.(2020河南郑州高三检测,19)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图: (1)根据茎叶图判断哪种生产方式的效率更高?并说明理由; (2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m 的工人数填入下面的列联表: (3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K2=n(ad-bc)2 (a+b)(c+d)(a+c)(b+d) ,其中n=a+b+c+d.

统计与统计案例(文科)

统计与统计案例 第一节随机抽样 1.下面的抽样方法是简单随机抽样的是( ) A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖 B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格 C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见 D.用抽签方法从10件产品中选取3件进行质量检验 答案:D 2.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( ) 答案:D 3.为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( ) A.50 B.40 C.25 D.20 答案:C 4.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A.11 B.12 C.13 D.14 答案:B 5.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示. 若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________. 答案:4 6.某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在

抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( ) A.90 B.100 C.180 D.300 答案:C 7.某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________. 答案:5 8.某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n=() A.54 B.90 C.45 D.126 答案:B 9.某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人). 从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________. 答案:30 10.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件. 答案:1800 11.某市有A、B、C三所学校,共有高三文科学生1 500人,且A、B、C三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B校学生中抽取________人. 答案:40

计数原理、概率、随机变量及其分布、统计、统计案例

计数原理、概率、随机变量及其分布、统计、统计案例 第Ⅰ卷(选择题 共60分) 一、选择题(本大题共12小题,每小题5分,共60分,在每小题给出的四个选项中,只有一项是符合题目要求的) 1.已知随机变量ξ服从正态分布N (1,σ2),P (ξ≤4)=,则P (ξ≤-2)=( ) A . B . C . D . 2.以下茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分) 已知甲组数据的平均数为17,乙组数据的中位数为17,则x ,y 的值分别为( ) A .2,6 B .2,7 C .3,6 D .3,7 3.将4个颜色互不相同的球全部收入编号为1和2的两个盒 子里,使得放入每个盒子里的球的个数不小于该盒子的编号,则不同的放球方法有( ) A .10种 B .20种 C .36种 D .52种 4.已知f (x )、g (x )都是定义在R 上的函数,g (x )≠0,f ′(x )g (x )-f (x )g ′(x )<0,fx gx =a x ,f 1g 1+ f -1 g -1=52,则关于x 的方程abx 2+2x +5 2=0(b ∈(0,1))有两个不同实根的概率为( ) 5.用0,1,…,9十个数字,可以组成有重复数字的三位数的个数为( ) A .243 B .252 C .261 D .279 6.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论: ①y 与x 负相关且y ^ =-; ② y 与x 负相关且y ^ =-+; ③y 与x 正相关且y ^ =+; ④y 与x 正相关且y ^ =--. 其中一定不正确的结论的序号是( ) A .①② B .②③

高考一轮复习变量间的相关关系与统计案例

第3讲 变量间的相关关系与统计案例 【2015年高考会这样考】 以选择题或填空题的形式考查回归分析及独立性检验中的基本思想方法及其简单应用. 【复习指导】 高考在该部分的主要命题点就是回归分析和独立性检验的基础知识和简单应用.复习时要掌握好回归分析和独立性检验的基本思想、方法和基本公式. 基础梳理 1.相关关系的分类 从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关. 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线. 3.回归方程 (1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据: (x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则 ?? ??? b ^=∑i =1n (x i -x )(y i -y )∑i =1n (x i -x )2 = ∑i =1n x i y i -n x y ∑i =1 n x 2i -n x 2 , a ^=y -b ^ x . 其中,b 是回归方程的斜率,a 是在y 轴上的截距. 4.样本相关系数

r= ∑ i=1 n (x i-x)(y i-y) ∑ i=1 n (x i-x)2∑ i=1 n (y i-y)2 ,用它来衡量两个变量间的线性相关关系. (1)当r>0时,表明两个变量正相关; (2)当r<0时,表明两个变量负相关; (3)r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系. 5.线性回归模型 (1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误差. (2)相关指数 用相关指数R2来刻画回归的效果,其计算公式是:R2=,R2的值越大,说明残差 平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好. 6.独立性检验 (1)用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,宗教信仰,国籍等. (2)列出的两个分类变量的频数表,称为列联表. (3)一般地,假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: 2×2列联表 y1y2总计 x1 a b a+b x2 c d c+d 总计a+c b+d a+b+c+d K2=n(ad-bc)2 (a+b)(a+c)(c+d)(b+d) (其中n=a+b+c+d为样本容量),可利用独立性检验

统计与统计案例(文科)教程文件

统计与统计案例(文科)

统计与统计案例 第一节随机抽样 1.下面的抽样方法是简单随机抽样的是( ) A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖 B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格 C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见 D.用抽签方法从10件产品中选取3件进行质量检验 答案:D 2.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( ) 答案:D 3.为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( ) A.50 B.40 C.25 D.20 答案: C 4.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A.11 B.12 C.13 D.14 答案:B 5.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示. 若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________. 答案:4 6.某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,

在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( ) A.90 B.100 C.180 D.300 答案:C 7.某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________. 答案:5 8.某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n=() A.54 B.90 C.45 D.126 答案:B 9.某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人). 个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________. 答案:30 10.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件. 答案:1800 11.某市有A、B、C三所学校,共有高三文科学生1 500人,且A、B、C三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B校学生中抽取________人. 答案:40

随机变量、统计案例

随机变量的分布列及统计案例复习学案参考答案 例1、解析 ∵P (A )=C 22+C 23 C 25=25,P (AB )=C 22C 25 =110, ∴P (B |A )=P (AB )P (A )=1 4 . 答案 B 例2、解析 该题为几何概型,圆的半径为1,正方形的边长为2,∴圆的面积为 π,正方形面积为2,扇形面积为π4.故P (A )=2π,P (B |A )=P (A ∩B )P (A )=1 4. 答案 (1)2π (2)1 4 例3、 专题三 离散型随机变量的分布列、均值与方差 例4、 解 设A 、B 、C 分别为甲、乙、丙三台机床各自独立加工同一种零件是一等品的事件,依题意得 ?????????P (A ·B -)=14,P (B ·C -)=112,P (A ·C )=29,即???? ??? ??P (A )·(1-P (B ))=14,P (B )·(1-P (C ))=112,P (A )·P (C )=29, 得27[P (C )]2-51P (C )+22=0, 解得P (C )=23或P (C )=119 (舍). ∴P (A )=13,P (B )=14,P (C )=2 3 . 即甲、乙、丙三台机床各自独立加工的零件是一等品的概率分别为13,14,2 3. (2)记D 为从甲、乙、丙加工的零件中各取一个检验,至少有一个一等品的事件. P (D )=1-P (D -)=1-(1-P (A ))·(1-P (B ))·(1-P (C ))=1-23× 34×13=56,即从甲、乙、丙加工的零件中各取一个检验,至少有一个一等品的概率为56.

2021届高三新题数学9月(适用新高考)专题二十 统计与统计案例(原卷版)

专题二十 统计与统计案例 一、单选题 1.(2020·河南宛城·南阳华龙高级中学月考(文))在一组样本数据()11,x y ,()22,x y ,…,(),n n x y (2n ≥, 1x ,2x ,……,n x 不全相等)的散点图中,若所有样本点()(),1,2,,i i x y i n =???都在直线2 15 y x = +上,则这组样本数据的样本相关系数为( ) A .-1 B .0 C . 12 D .1 二、多选题 2.(2020·江苏省丰县中学期末)某俱乐部为了解会员对运动场所的满意程度,随机调查了50名会员,每位会员对俱乐部提供的场所给出满意或不满意的评价,得到如图所示的列联表,经计算2K 的观测值 5.059k ≈,则可以推断出( ) 附: A .该俱乐部的男性会员对运动场所满意的概率的估计值为 2 3 ; B .调查结果显示,该俱乐部的男性会员比女性会员对俱乐部的场所更满意; C .有97.5%的把握认为男性会员、女性会员对运动场所的评价有差异; D .有99%的把握认为男性会员、女性会员对运动场所的评价有差异. 第II 卷(非选择题)

三、解答题 3.(2020·河南宛城·南阳华龙高级中学月考(文))微信是现代生活中进行信息交流的重要工具.据统计,某公司200名员工中0090的人使用微信,其中每天使用微信时间少于一小时的有60人,其余的员工每天使用微信时间不少于一小时,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中0075是青年人.若规定:每天使用微信时间不少于一小时为经常使用微信,那么经常使用微信的员工中 2 3 都是青年人. (1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,完成22?列联表: (2)由列联表中所得数据判断,能否在犯错误的概率不超过0.001的前提下认为“经常使用微信与年龄有关”? 2 2 ()()()()() n ad bc k a b c d a c b d -=++++ 4.(2020·江苏泰州·期末)某企业的甲、乙两种产品在东部地区三个城市以及西部地区两个城市的销售量x , y 的数据如下:

2019版高考数学总复习第十章算法初步统计统计案例58变量间的相关关系与统计案例课时作业文20180

课时作业 58 变量间的相关关系与统计案例 一、选择题 1.(2018·石家庄模拟(一))下列说法错误的是( ) A .回归直线过样本点的中心(x -,y - ) B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1 C .对分类变量X 与Y ,随机变量K 2 的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小 D .在回归直线方程x ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^ 平均增加0.2个单位 解析:本题考查命题真假的判断.根据相关定义分析知A ,B ,D 正确;C 中对分类变量 X 与Y 的随机变量K 2的观测值k 来说,k 越大,判断“X 与Y 有关系”的把握程度越大,故 C 错误,故选C. 答案:C 2.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表: 收入x (万元) 8.2 8.6 10.0 11.3 11.9 支出y (万元) 6.2 7.5 8.0 8.5 9.8 根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y --b ^x - .据此估计,该社区一户年收入为15万元家庭的年支出为( ) A .11.4万元 B .11.8万元 C .12.0万元 D .12.2万元 解析:∵x -=10.0,y -=8.0,b ^=0.76,∴a ^=8-0.76×10=0.4,∴回归方程为y ^ =0.76x +0.4,把x =15代入上式得,y ^ =0.76×15+0.4=11.8(万元). 答案:B 3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表: 男 女 合计 爱好 40 20 60 不爱好 20 30 50 合计 60 50 110 由K 2 = n ad -bc 2a +b c + d a +c b +d ,

3 第3讲 变量间的相关关系、统计案例

第3讲 变量间的相关关系、统计案例 1.变量间的相关关系 常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. 2.两个变量的线性相关 (1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线. (2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关. (3)回归方程为y ^=b ^x +a ^,其中b ^ =,a ^=y --b ^x -. (4)相关系数 当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关. r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |大于0.75时,认为两个变量有很强的线性相关性. 3.独立性检验 (1)2×2列联表:假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称2×2列联表)为: y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计 a +c b +d a + b + c +d (2)K 2K 2= n (ad -bc )2 (a +b )(c +d )(a +c )(b +d ) (其中n =a +b +c +d 为样本容量). 判断正误(正确的打“√”,错误的打“×”) (1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( )

高考文科数学二轮复习统计与统计案例

第2讲统计与统计案例 [做小题——激活思维]s 1.采用系统抽样的方法从800人中抽取40人参加某种测试,为此将800人随机编号为1,2,…,800,分组后在第一组采用简单随机抽样的方法抽到的号码为18,在抽到的40人中,编号落入区间[1,200]的人做试卷A,编号落入区间[201,560]的人做试卷B,其余的人做试卷C,则做试卷C的人数为() A.10B.12C.18D.28 [答案]B 2.某校有高级教师26人,中级教师104人,其他教师若干人,现按分层抽样的方法从该校的所有教师中抽取56人进行某项调查,已知从其他教师中共抽取了16人,则该校共有教师人数为() A.81 B.152 C.182 D.202 [答案]C 3.为了参加端午节龙舟赛,某龙舟队进行了6次测试,测得最 大速度(单位:m/s)的茎叶图如图所示,则6次测试的最大速度的平 均数为________m/s,方差为________. [答案]3347 3

4.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据,第i 次试验零件个数x i (单位:个)与加工零件所花费时间 y i (单位:小时)的数据资料,算得∑10i =1 x i =80,∑10i =1 y i =20,∑10i =1 x i y i =184,∑10i =1 x 2i =720,那么加工零件所花费时间y 对零件个数x 的线性回归方程为________. y ^ =0.3x -0.4 [由题意知 n =10,x =1n ∑n i =1 x i =8010=8,y =1n ∑n i =1 y i =20 10=2, 又∑n i =1x 2i -n x 2=720-10×82=80, ∑n i =1 x i y i -n x y =184-10×8×2=24, 由此得b ^=2480=0.3,a ^=y -b ^ x =2-0.3×8=-0.4, 故所求回归方程为y ^ =0.3x -0.4.] 5.在西非“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表: 感染与服用疫苗有关”. 0.05 [由题意算得, K 2 =100×(10×30-20×40)250×50×30×70 ≈4.762>3.841,

高考数学统计与统计案例.doc

高考数学统计与统计案例1.小吴一星期的总开支分布如图 1 所示,一星期的食品开支如图 2 所示,则小吴一星期的鸡蛋开支占总开支的百分比为() A.1%B.2%C.3%D.5% C[ 由图 1 所示,食品开支占总开支的 30%,由图 2 所示,鸡蛋开支占食 品开支的30 = 1 , 30+40+100+80+ 50 10 1 ∴鸡蛋开支占总开支的百分比为30%×10=3%.故选 C.] 2.(2019 德·州模拟 )某人到甲、乙两市各7 个小区调查空置房情况,调查得到的小区空置房的套数绘成了如图所示的茎叶图,则调查中甲市空置房套数的中位数与乙市空置房套数的中位数之差为() A.4B. 3C.2D.1 B[ 由茎叶图可以看出甲、乙两市的空置房的套数的中位数分别是79,76,因此其差是 79- 76=3,故选 B.] 3.某工厂对一批新产品的长度(单位: mm)进行检测,如图是检测结果的频

率分布直方,据此估批品的中位数() A.20B. 25C.22.5D.22.75 C[ 品的中位数出在概率是 0.5 的地方 . 自左至右各小矩形面依次 0.1,0.2,0.4,??,中位数是 x,由 0.1+0.2+0.08 ·(x-20)=0.5,得 x= 22.5, 故 C.] 4.(2019 ·三明模 )在某次高中数学中,随机抽取 90 名考生,其分数如所示,若所得分数的平均数,众数,中位数分 a, b, c, a,b,c 的大 小关系 () A.b

通用版2020版高考数学大二轮复习专题突破练20统计与统计案例理

专题突破练20 统计与统计案例 1.(2019四川成都二模,理18)为了让税收政策更好地为社会发展服务,国家在修订《中华人民共和国个人所得税法》之后,发布了《个人所得税专项附加扣除暂行办法》,明确“专项附加扣除”就 是子女教育、继续教育、大病医疗、住房贷款利息、住房租金、赡养老人等费用,并公布了相应的定额扣除标准,决定自2019年1月1日起施行.某企业为了调查内部职员对新个税方案的满意程度与年龄的关系,通过问卷调查,整理数据得如下2×2列联表: (1)根据列联表,能否有99%的把握认为满意程度与年龄有关? (2)为了帮助年龄在40岁以下的未购房的8名员工解决实际困难,该企业拟按员工贡献积分x(单位:分)给予相应的住房补贴y(单位:元),现有两种补贴方案,方案甲:y=1 000+700x;方案 乙:y=已知这8名员工的贡献积分为2分,3分,6分,7分,7分,11分,12分,12分,将采用方案甲比采用方案乙获得更多补贴的员工记为“A类员工”.为了解员工对补贴方案的认可度,现从这8名员工中随机抽取4名进行面谈,求恰好抽到3名“A类员工”的概率. 附:K2=-,其中n=a+b+c+d. 参考数据:

2.下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图. 为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为 … 7 建立模型①;=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为 … 7 建立模型②:=99+17.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.

相关主题
文本预览
相关文档 最新文档