统计 独立性检验

  • 格式:doc
  • 大小:1.05 MB
  • 文档页数:14

下载文档原格式

  / 14
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
散点图可以判断两个变量之间有没有相关关系.
4.统计假设:如果事件 与 独立,这时应该有 ,用字母 表示此式,即 ,称之为统计假设.
5. (读作“卡方”)统计量:
统计学中有一个非常有用的统计量,它的表达式为 ,用它的大小可以用来决定是否拒绝原来的统计假设 .如果 的值较大,就拒绝 ,即认为 与 是有关的.
2.几个临界值: .
联表的独立性检验:
如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张 的表,如下:
状态
状态
合计
状态
状态
如果有调查得来的四个数据 ,并希望根据这样的 个数据来检验上述的两种状态 与 是否有关,就称之为 联表的独立性检验.
六.回归分析
1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性.
女生
16
122
138
总计
93
526
619
【例9】在一次恶劣气候的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有 人,不晕机的有 人;女乘客晕机的有 人,不晕机的有 人.请你根据所给数据判断是否在恶劣气候飞行中,男人比女人更容易晕机.
【例10】为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?
③将各个数据的“叶”在分界线的一侧对应茎处同行列出.
四.统计数据的数字特征
用样本平均数估计总体平均数;用样本标准差估计总体标准差.
数据的离散程序可以用极差、方差或标准差来描述.
极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度;
样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根.
D. 越大,“ 与 无关”程度越大.
【例2】若由一个 列联表中的数据计算得 ,那么有把握认为两个变量有关系.
【例3】若由一个 列联表中的数据计算得 ,那么确认两个变量有关系的把握性有()
A. B. C. D.
【例4】提出统计假设 ,计算出 的值,则拒绝 的是()
A. B. C. D.
【例5】给出假设 ,下列结论中不能接受 的是()
有效
无效
合计
口服
58
40
98
注射
64
31
95
合计
122
71
193
【例11】考察棉花种子经过处理跟生病之间的关系得到如下表数据:
种子处理
种子未处理
合计
得病
32
101
133
不得病
61
213
274
合计
93
314
407
根据以上数据,请问种子经过处理跟是否生病有关?
【例12】气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?
③计算样本相关系数 ;
④作出统计推断:若 ,则否定 ,表明有 的把握认为变量 与 之间具有线性相关关系;若 ,则没有理由拒绝 ,即就目前数据而言,没有充分理由认为变量 与 之间具有线性相关关系.
说明:
⑴对相关系数 进行显著性检验,一般取检验水平 ,即可靠程度为 .
⑵这里的 指的是线性相关系数, 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.
有效
无效
合计
复方江剪刀草
184
61
245
胆黄片
91
9
100
合计
275
70Βιβλιοθήκη Baidu
345
【例13】在对人们的休闲方式的一次调查中,共调查了 人,其中女性 人,男性 人.女性中有 人主要的休闲方式是看电视,另外 人主要的休闲方式是运动;男性中有 人主要的休闲方式是看电视,另外 人主要的休闲方式是运动.
⑴根据以上数据建立一个 的联表;⑵判断性别与休闲方式是否有关系.
③由于测量工具等原因,存在观测误差.
4.线性回归系数的最佳估计值:
利用最小二乘法可以得到 的计算公式为
, ,其中 ,
由此得到的直线 就称为回归直线,此直线方程即为线性回归方程.其中 , 分别为 , 的估计值, 称为回归截距, 称为回归系数, 称为回归值.
5.相关系数:
6.相关系数 的性质:
⑴ ;
⑵ 越接近于1, 的线性相关程度越强;
, ,其中 上方加“ ”,表示是由观察值按最小二乘法求得的回归系数.
3.线性回归模型:将用于估计 值的线性函数 作为确定性函数; 的实际值与估计值之间的误差记为 ,称之为随机误差;将 称为线性回归模型.
产生随机误差的主要原因有:
①所用的确定性函数不恰当即模型近似引起的误差;
②忽略了某些因素的影响,通常这些影响都比较小;
A. B. C. D.
【例6】某高校食堂随机调查了一些学生是否因距离远近而选择食堂就餐的情况,经计算得到 .所以判定距离远近与选择食堂有关系,那么这种判断出错的可能性为多少?
【例7】某班主任对全班50名学生进行了作业量的调查,数据如下表:
认为作业量大
认为作业量不大
总计
男生
18
9
27
女生
8
15
23
总计
2.简单随机抽样必须具备下列特点:
⑴简单随机抽样要求被抽取的样本的总体个数 是有限的.
⑵简单随机样本数 小于等于样本总体的个数 .
⑶简单随机样本是从总体中逐个抽取的.
⑷简单随机抽样是一种不放回的抽样.
⑸简单随机抽样的每个个体入样的可能性均为 .
3.系统抽样时,当总体个数 恰好是样本容量 的整数倍时,取 ;
③决定分点:决定起点,进行分组;
④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.
⑤绘制频率分布直方图:以数据的值为横坐标,以 的值为纵坐标绘制直方图,
知小长方形的面积=组距× =频率.
频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.
2.散点图:将样本中的 个数据点 描在平面直角坐标系中,就得到了散点图.
散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.
3.如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.
反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.
26
24
50
则学生的性别与作业量的大小有关系的把握大约为()
A.99% B.95% C.90% D.无充分根据
【例8】下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?
喝过酒
没喝过酒
总计
男生
77
404
481
总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线 来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.
三.茎叶图
制作茎叶图的步骤:
①将数据分为“茎”、“叶”两部分;
②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线;
统计量的两个临界值: 、 ;当 时,有 的把握说事件 与 有关;当 时,有 的把握说事件 与 有关;当 时,认为事件 与 是无关的.
独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的.
1.独立性检验的步骤:统计假设: ;列出 联表;计算 统计量;查对临界值表,作出判断.
若 不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量 整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍然相等,为 .
二.频率直方图
列出样本数据的频率分布表和频率分布直方图的步骤:
①计算极差:找出数据的最大值与最小值,计算它们的差;
②决定组距与组数:取组距,用 决定组数;
系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样.
⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.
分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.
⑶ 越接近于0, 的线性相关程度越弱.
可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关.
7.转化思想:
根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.
8.一些备案
①回归(regression)一词的来历:“回归”这个词英国统计学家Francils Galton提出来的.1889年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高.Galton把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.
②回归系数的推导过程:

把上式看成 的二次函数, 的系数 ,
因此当 时取最小值.
同理,把 的展开式按 的降幂排列,看成 的二次函数,当 时取最小值.
解得: , ,
其中 , 是样本平均数.
9.对相关系数 进行相关性检验的步骤:
①提出统计假设 :变量 不具有线性相关关系;
②如果以 的把握作出推断,那么可以根据 与 ( 是样本容量)在相关性检验的临界值表中查出一个 的临界值 (其中 称为检验水平);
抽出办法:从元素个数为 的总体中抽取容量为 的样本,如果总体容量能被样本容量整除,设 ,先对总体进行编号,号码从 到 ,再从数字 到 中随机抽取一个数 作为起始数,然后顺次抽取第 个数,这样就得到容量为 的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.
当 取值 时, 的相应观察值为 ,差 刻画了实际观察值 与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.
我们希望这 个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点.
记 ,回归直线就是所有直线中 取最小值的那条.
这种使“离差平方和为最小”的方法,叫做最小二乘法.
用最小二乘法求回归系数 有如下的公式:
一.随机抽样
1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法:
⑴简单随机抽样:从元素个数为 的总体中不放回地抽取容量为 的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.
抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法.
②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同.
随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.
简单随机抽样是最简单、最基本的抽样方法.
⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.
一般地,设样本的元素为 样本的平均数为 ,
定义样本方差为 ,
样本标准差
简化公式: .
五.独立性检验
1.两个变量之间的关系;
常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.
⑶这里的 是对抽样数据而言的.有时即使 ,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.
题型一 独立性检验
【例1】对变量 与 的卡方统计量 的值,说法正确的是()
A. 越大,“ 与 有关系”可信程度越小;
B. 越小,“ 与 有关系”可信程度越小;
C. 越接近0,“ 与 无关”程度越小;
回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2.最小二乘法:
记回归直线方程为: ,称为变量 对变量 的回归直线方程,其中 叫做回归系数.
是为了区分 的实际值 ,当 取值 时,变量 的相应观察值为 ,而直线上对应于 的纵坐标是 .
设 的一组观察值为 , ,且回归直线方程为 ,