当前位置:文档之家› 第五章第一次课 卡方检验 第一节检验原理 第二及节 适合性检验

第五章第一次课 卡方检验 第一节检验原理 第二及节 适合性检验

第五章第一次课 卡方检验  第一节检验原理 第二及节 适合性检验
第五章第一次课 卡方检验  第一节检验原理 第二及节 适合性检验

第五章 x 2检验

教学要求1.了解卡方分布的特点,掌握适合性检验的原理和适用范围 2. 掌握独立性检验的原理和适用范围

一、χ2检验的定义

χ2 检验(Chi-square test) 对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验,即根据样本的频数分布来推断总体的分布。

χ2检验与测量数据假设检验的区别:

(1)测量数据的假设检验,其数据属于连续变量,而χ2检验的数据属于点计而来的间断变量。

(2) 测量数据所来自的总体要求呈正态分布,而χ2检验的数据所来自的总体分布是未知的。

(3)

测量数据的假设检验是对总体参数或几个总体参数之差所进行的假设检验,而χ2 检验在多数情况下不是对总体参数的检验,而是对总体分布的假设检验。

二、χ2检验与连续型资料假设检验的区别

三、χ2检验的用途

适合性检验(吻合度检验):是指对样本的理论数先通过一定的理论分布推算出来,然后用实际观测值与理论数相比较,从而得出实际观测值与理论数之间是否吻合。因此又叫吻合度检验。

独立性检验:

是指研究两个或两个以上的计数资料或属性资料之间是相互独立的或者是相互联系的假设检验,通过假设所观测的各属性之间没有关联,然后证明这种无关联的假设是否成立。

同质性检验:

在连续型资料的假设检验中,对一个样本方差的同质性检验,也需进行χ2 检验。

连续型资料假设检验

χ2

检验

第一节:χ2检验的原理与方法

χ2检验的基本原理:χ2检验就是统计样本的实际观测值与理论推算值之间的偏离程度。

实际观测值与理论推算值之间的偏离程度就决定其χ2值的大小。理论值与实际值之间偏差越大,χ2值就越大,越不符合;偏差越小,χ2值就越小,越趋于符合;若两值完全相等时,χ2值就为0,表明理论值完全符合。

χ2检验统计量的基本形式:

(Oi-Ei)2

χ2=∑

Ei

O--实际观察的频数(observational frequency)

E--无效假设下的期望频数(expectation frequency)

要回答这个问题,首先需要确定一个统计量,将其用来表示实际观测值与理论值偏离的程度;然后判断这一偏离程度是否属于抽样误差,即进行显著性检验。

判断实际观测值与理论值偏离的程度,最简单的办法是求出实际观测值与理论值的差数。

为了避免正、负相抵消的问题,可将实际观测值与理论值的差数平方后再相加,也就是计算:

∑(O-E)2

O--实际观察的频数

E--无效假设下的期望频数

羔羊性别观测值与理论值

数的平方除以相应的理论值,将之化为相对数,从而来反映(O-E)2 的比重,最后将各组求和,这个总和就是χ2。

羔羊性别观测值与理论值

χ2值就等于各组观测值和理论值差的平方与理论值之比,再求其和。

χ2值的特点

可加性

非负值

随O 和E 而变化

χ2值与概率P 成反比, χ2值越小,P 值越大,说明实际值与理论值之差越小,样本分布与假设的理论分布越相一致;

χ2越大,P 值越小,说明两者之差越大,样本分布与假设理论分布越不一致。

χ2检验的基本步骤

1.

提出无效假设H 0:观测值与理论值的差异由抽样误差引起,即观测值=理论值。同时给出相就的备择假设HA :观测值与理论值的差值不等于0,即观测值≠理论值

2. 确定显著水平α:一般确定为0.05或0.01

3.

计算样本的χ2值

χ2

= ∑

(O i -E i )2

E i

i

4. 进行统计推断

χ2检验的注意事项

1、 任何一组的理论次数Ei 都必须大于5,如果Ei ≤5,则需要合并理论组或增大样本容量以满足Ei >5

2、

2、在自由度=1时,需进行连续性矫正,其矫正的χ2c 为:

χ2

分布是连续型变量的分布,每个不同的自由度都有一个相应的χ2

分布曲线,所以其分布是一组曲线。

由于检验的对象-次数资料是间断性的,而χ2分布是连续型的,检验计算所得的χ2值只是近似地服从χ2分布,所以应用连续型的χ2分布的概率检验间断性资料所得的χ2值就有一定的偏差。

χ2 < χ2

α

P > α χ2 > χ

2

α

P < α

H 0 H 0

χ2

= ∑

( O i -E i - 0.5 )2

E i

由次数资料算得的χ2均有偏大的趋势,即概率偏低。当df=1,尤其是小样本时,必须作连续性矫正。

第五章 第二节 适合性检验

适合性检验定义:比较观测数与理论数是否符合的假设检验。

用 途

(1) H0:鲤鱼体色F2分离符合3:1比率; HA :鲤鱼体色F2分离不符合3:1比率; (2)取显著水平α=0.05 (3)计算统计数χ2 :

遗传学中用以检验实际结果是否符合遗传规律

样本的分布与理论分布是否相等

适合性检验的df 由于受理论值的总和等于观测值总和这一条件的约束,故df =n-1

χ

2c

( O i -E i - 0.5 )2

E i

df= k-1 = 2-1 =1 需要连续性校正

在无效假设H0正确的前提下,青灰色的理论数为:Ei =1602×3/4=1201.5 红色理论数为: Ei =1602×1/4=400.5

=75.41+226.22=301.63

(4)查χ2值表,当df=1时,χ20.05 =3.84。现实得χ2c =301.63>χ20.05 ,故应否

定H0 ,接受HA ,即认为鲤鱼体色F2分离不符合3:1比率。

在遗传学中,有许多显、隐性比率可以划分为两组的资料,如欲测其与某种理论比率的适合性,则χ2值可用下表中的简式进行计算:

检验两组资料与某种理论比率符合度的χ2值公式

例:大豆花色遗传试验F2观测结果

χ2

= ∑

( O i -E i - 0.5 )2

E i

i=1

2

=

(1503-1201.5 - 0.5 )2 1201.5 (99-400.5 - 0.5 )2 400.5

(1) H0 :大豆花色F2分离符合3:1比率;

HA :大豆花色F2分离不符合3:1比率;

(2)取显著水平α=0.05

(3)计算统计数χ2值:

接受H0 ,即大豆花色F2分离符合3:1比率

对于资料组数多于两组的值,还可以通过下面简式进行计算:

Oi -第i 组的实际观测数

pi -第i 组的理论比率

n-总次数

根据自由组合规律,理论分离比为:

HA :豌豆F2分离不符合9:3:3:1的自由组合规律; (2)取显著水平α =0.05 (3)计算统计数χ2值:

χ2 =0.016+0.101+0.135+0.218=0.470 (4)查值表,进行推断:

F2代,共556粒

315 101 108 32

豌豆

此结果是否符合自由组合规律

接受H0 ,即豌豆F2分离符合9:3:3:1的自由组合规律。

χ2

=0.016+0.101+0.135+0.218=0.470

P >0.05

315 101 108

32

第五章:异方差性(作业)教学文案

第五章:异方差性(作 业)

5.3 为了研究中国出口商品总额EXPORT对国内生产总值GDP的影响,搜集了1990~2015年相关的指标数据,如表5.3所示。 表3 中国出口商品总额与国内生产总值(单位:亿元) 资料来源:《国家统计局网站》 (1) 根据以上数据,建立适当线性回归模型。 (2) 试分别用White检验法与ARCH检验法检验模型是否存在异方差? (3) 如果存在异方差,用适当方法加以修正。 解:(1) 仅供学习与交流,如有侵权请联系网站删除谢谢2

仅供学习与交流,如有侵权请联系网站删除 谢谢3 100,000 200,000300,000400,000500,000600,000700,000 X Y Dependent Variable: Y Method: Least Squares Date: 04/18/20 Time: 15:38 Sample: 1991 2015 Included observations: 25 Variable Coefficient Std. Error t-Statistic Prob. C -673.0863 15354.24 -0.043837 0.9654 X 4.061131 0.201677 20.13684 0.0000 R-squared 0.946323 Mean dependent var 234690.8 Adjusted R-squared 0.943990 S.D. dependent var 210356.7 S.E. of regression 49784.06 Akaike info criterion 24.54540 Sum squared resid 5.70E+10 Schwarz criterion 24.64291 Log likelihood -304.8174 Hannan-Quinn criter. 24.57244 F-statistic 405.4924 Durbin-Watson stat 0.366228 Prob(F-statistic) 0.000000 模型回归的结果: ^ 673.0863 4.0611i X i Y =-+ ()(0.043820.1368)t =- 20.9463,25R n == (2)white: 该模型存在异方差 Heteroskedasticity Test: White F-statistic 4.493068 Prob. F(2,22) 0.0231

异方差性的white检验及处理方法

实验二异方差模型的white检验与处理 【实验目的】 掌握异方差性的white检验及处理方法 【实验原理】 1. 定性分析异方差 (1) 经济变量规模差别很大时容易出现异方差。如个人收入与支出关系,投入与产出 关系。 (2) 利用散点图做初步判断。 (3) 利用残差图做初步判断。 2、异方差表现与来源异方差通常有三种表现形式 (1)递增型 (2)递减型 (3)条件自回归型。 3、White检验 (1)不需要对观测值排序,也不依赖于随机误差项服从正态分布,它是通过一个辅助回归式构造 2 统计量进行异方差检验。White检验的零假设和备择假设是 H0: (4-1)式中的ut不存在异方差, H1: (4-2)式中的ut存在异方差。 (2)在不存在异方差假设条件下,统计量 T R 2 2(5) 其中T表示样本容量,R2是辅助回归式(4-3)的OLS估计式的可决系数。自由度5表示辅助回归式(4-3)中解释变量项数(注意,不计算常数项)。T R 2属于LM统计量。 (3)判别规则是 若T R 2 2 (5), 接受H0(ut 具有同方差) 若T R 2 > 2 (5), 拒绝H0(ut 具有异方差) 【实验软件】 Eview6 【实验要求】 熟练掌握异方差white检验方法 【实验内容】 建立并检验我国部分城市国民收入y和对外直接投资FDI异方差模型 【实验方案设计】 下表列出了我国各地区农村居民家庭人均纯收入与家庭人均生活消费支出的数据,并利用统计软件Eviews建立异方差模型

表1 各地区农村居民家庭人均纯收入与家庭人均生活消费支出的数据(单位:元) 【实验过程】 1、启动Eviews6软件,建立新的workfile. 在主菜单中选择【File 】--【New 】--【Workfile 】,弹出 Workfile Create 对话框,在Workfile structure typ 中选择unstructured/undted.然后在observations 中输入31.在WF 中输入Work1,点击OK 按钮。如图: 2、数据导入且将要分析的数据复制黏贴. 在主菜单的空白处输入data x y 按下enter 。将家庭人均纯收入X 和家庭生活消 地区 家庭人均 纯收入 家庭生活消费支出 地区 家庭人均 纯收入 家庭生活消费支出 北京 湖北 3090 天津 湖南 河北 广东 山西 广西 内蒙古 海南 辽宁 重庆 吉林 四川 黑龙江 贵州 上海 云南 江苏 西藏 浙江 陕西 安徽 甘肃 福建 青海 江西 宁夏 山东 新疆 河南

1.1《独立性检验》习题

1-1《 统计案例》习题 1.1 独立性检验 双基达标 限时15分钟 1.下面是一个2×2的列联表 则表中a ,b 解析 由a +21=73,得a =52, 由a +5=b ,得b =57. 答案 52,57 2.为了检验两个事件A 与B 是否相关,经计算得χ2=3.850,我们有________ 的把握认为事件A 与B 相关. 答案 95% 3.为了考查高中生的性别与是否喜欢数学课程之间的关系,某市在该辖区内 的高中学生中随机地抽取300名学生进行调查,得到表中数据: 解析 由χ2 =300 47×123-35×95 2142×158×82×218≈4.512. 答案 4.512 4.下列关于独立性检验的4个叙述,说法正确的是________. ①χ2 的值越大,说明两事件相关程度越大; ②χ2 的值越小,说明两事件相关程度越小; ③χ2 ≤3.841时,有95%的把握说事件A 与B 无关; ④χ2 >6.635时,有99%的把握说事件A 与B 有关. 解析 在独立性检验中,随机变量χ2 的取值大小只能说明“两分类变量有关”,这一结论 的可靠程度,即可信度,而不表示两事件相关的程度,故①②不正确.χ2 >6.635说明有99%的把握认为二者有关系,χ2≤3.841时,若x 2 >2.706则有90%的把握认为事件A 与B 有关系.因

此可知③中说法是不正确的. 答案 ④ 5.想要检验是否喜欢参加体育活动是不是与性别有关,应该假 设________________. 解析 独立性检验假设有反证法的意味,应假设两类变量(而非变量的属性)无关,这时 的χ2应该很小,如果χ2很大,则可以否定假设;如果χ2 很小,则不能够肯定或者否定假设. 答案 H 0:喜欢参加体育活动与性别无关 6.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行 了3年的跟踪研究,调查他们是否发作过心脏病,调查结果如下表所示: 解 提出假设H 0:两种手术对病人又发作心脏病没有影响.由列联表,得 χ2=392× 39×167-157×29 2196×196×68×324 ≈1.780<2.706. 因为当H 0成立时,χ2 ≥1.780的概率大于10%,这个概率比较大,所以根据目前的调查数 据,不能否定假设H 0,故我们没有理由说这两种手术与“又发作过心脏病”有关,故可以认为病人是否发作心脏病跟他做过何种手术无关. 综合提高 限时30分钟 7. 2008年10月8日为我国第十一个高血压日,主题是“在家测量您的 血压”.某社区医疗服务部门为了考察该社区患高血压病是否与食盐摄入 量有关,对该社区的1 633人进行了跟踪调查,得出以下数据: 计算χ2有关系.

异方差性检验

金融122班 23号钟萌 异方差性检验 引入滞后变量X-1、X-2、Y-1 。可建立如下中国居民消费函数: Y=β0+β1X+β2X(-1)+β3X(-2)+β4Y(-1) 用OLS法进行估计,结果如下: 对应的表达式为 Y=429.3512+0.143X-0.104X(-1)+0.063X(-2)+0.838Y(-1) 2.18 2.09 -0.73 0.63 7.66 R2=0.9988 F=4503.94 估计结果显示,在5%的显著性水平下,自由度为25的临界值为2.060,若存在异方差性,则可能是由X、Y(-1)引起的。

做OLS回归得到的残差平方项分别与X、Y(-1)的散点图

从散点图可以看出,两者存在异方差性。下面进行统计检验。 采用White异方差检验: 所以辅助回归结果为: e2=-194156.4-249.491X+0.003X2+265.306X(-1)-0.004X(-1)2+4.187X(-2)- 0.001X(-2)2 +51.377Y(-1)+0.001Y(-1)2 -1.566 -4.604 2.863 2.648 -1.604 0.055 -0.301 0.579 0.410 X与X的平方项的参数的t检验是显著的,且White统计量为

16.999>5%显著性水平下,自由度为8的卡方分布值15.51,(从nR2 统计量的对应值的伴随概率值容易看出)所以在5%的显著性水平下,拒绝同方差性这一原假设,方程确实存在异方差性。 用加权最小二乘法对异方差性进行修正,重新进行回归估计, 得到加权后消除异方差性的估计结果: 回归表达式为: Y=275.0278-0.0192X+0.1617X(-1)-0.0732X(-2)+0.9165Y(-1) 3.5753 -0.3139 1.3190 -1.0469 16.5504

独立性检验教案

3.2独立性检验的基本思想及初步应用教案 一、教学目标 1.知识与技能: 通过典型案例的探究,了解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能利用独立性检验的基本思想来解决实际问题. 2.过程与方法: 通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题。通过列联表、等高条形图,使学生直观感觉到吸烟和患肺癌可能有关系.这一直觉来自于观测数据,即样本.问题是这种来自于样本的印象能够在多大程度上代表总体?这节课就是为了解决这个问题,让学生亲身体验直观感受的基础上,提高学生的数据分析能力. 3.情感态度价值观: 通过本节课的学习,加强数学与现实生活的联系。以科学的态度评价两个分类变量有关系的可能性。培养学生运用所学知识,解决实际问题的能力。对问题的自主探究,提高学生独立思考问题的能力;让学生对统计方法有更深刻的认识,体会统计方法应用的广泛性,进一步体会科学的严谨性。教学中适当地利用学生合作与交流,使学生在学习的同时,体会与他人合作的重要性。 二、教学重点 理解独立性检验的基本思想及实施步骤 三、教学难点 1.独立性检验基本思想的理解 2.2k的含义;2k的观测值越大,就认为两个分类变量是有关系的 四、教学方法 以“问题串”的形式,层层设疑,诱思探究。用“讲授法”,循序渐进,引导学生,步步为营,螺蜁上升探究本节课的知识内容. 五、教学过程 (一)问题引入 1.“吸烟”与“患肺癌”有关 3.“秃顶”与“患心脏病”有关 2.“性别”与“是否喜欢数学”有关 4.“性别”与“选择文\理科”有关 5.“星座”与“爱好”有关 6.“血型”与“性格”有关 日常生活中,常听到这样的言论,可信吗?可信度是多少?带着这样的问题来研究本节课。(二)阅读教材91页回答:(自主学习内容) 1.分类变量的概念是什么?前面提到的问题关心的是什么?

人教版高中数学选修(1-2)-1.2典型例题:一道独立性检验考题及变式

一道独立性检验考题及变式 独立性检验是通过K2统计量,运用假设检验的方法,研究了两个“变量”的关系问题.独立性检验在医学、社会经济、生活、科学技术等方面的应用十分广泛,在处理社会问题时得到得数据中,也常常用到独立性检验. 例.(2010年高考辽宁理)为了比较注射A, B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B。 (Ⅰ)甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率; (Ⅱ)下表1和表2分别是注射药物A和B后的试验结果.(疱疹面积单位:mm2) 表1:注射药物A后皮肤疱疹面积的频数分布表 (ⅰ)完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小; (ⅱ)完成下面2×2列联表,并回答能否有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”. 表3:

分析 (1)根据各组的频数分布表计算出各组的频率,再除以组距5,此即频率分布直方图中各组的小矩形的高,据此画出频率分布直方图;(2)根据给出的频数分布表和列联表的要求,即可写出列联表,然后根据给出的公式进行计算,再与临界值表进行比较.作出结论. 解:(Ⅰ)甲、乙两只家兔分在不同组的概率为 991981002002100199 C P C == (Ⅱ)(i ) 图Ⅰ注射药物A 后皮肤疱疹面积的频率分布直方图 图Ⅱ注射药物B 后皮肤疱疹面积的频率分布直方图 可以看出注射药物A 后的疱疹面积的中位数在65至70之间,而注射药物B 后的疱疹面积的中位数在70至75之间,所以注射药物A 后疱疹面积的中位数小于注射药物B 后疱疹面积的中位 数。 ……8分 (ii )表3:

计量经济学课后答案第五章 异方差性汇总

第五章课后答案 5.1 (1)因为22()i i f X X =,所以取221i i W X =,用2i W 乘给定模型两端,得 31232222 1i i i i i i i Y X u X X X X βββ=+++ 上述模型的随机误差项的方差为一固定常数,即 2 2221 ()()i i i i u Var Var u X X σ== (2)根据加权最小二乘法,可得修正异方差后的参数估计式为 ***12233???Y X X βββ=-- ()()()() ()()() ***2*** *22232322 322*2*2** 2223223?i i i i i i i i i i i i i i i i i i W y x W x W y x W x x W x W x W x x β-= -∑∑∑∑∑∑∑ ()()( )()()( )( )** *2 ** ** 232222223 3 2 *2 *2** 2223223?i i i i i i i i i i i i i i i i i i W y x W x W y x W x x W x W x W x x β-= -∑∑ ∑ ∑ ∑∑∑ 其中 2223 2***23222, , i i i i i i i i i W X W X W Y X X Y W W W = = = ∑∑∑∑∑∑ ***** *222333 i i i i i x X X x X X y Y Y =-=-=- 5.2 (1) 22222 11111 ln()ln()ln(1)1 u ln()1 Y X Y X Y u u X X X u ββββββββββ--==+≈=-∴=+ [ln()]0 ()[ln()1][ln()]11 E u E E u E u μ=∴=+=+=又 (2) [ln()]ln ln 0 1 ()11 i i i i P P i i i i P P i i E P E μμμμμμμ===?====∑∏∏∑∏∏不能推导出 所以E 1μ()=时,不一定有E 0μ(ln )= (3) 对方程进行差分得: 1)i i βμμ--i i-12i i-1lnY -lnY =(lnX -X )+(ln ln 则有:1)]0i i μμ--=E[(ln ln

异方差性的检验及处理方法

实验四异方差性 【实验目的】 掌握异方差性的检验及处理方法 【实验内容】 建立并检验我国制造业利润函数模型 【实验步骤】 【例1】表1列出了1998年我国主要制造工业销售收入与销售利润的统计资料,请利用统计软件Eviews建立我国制造业利润函数模型。 一、检验异方差性 ⒈图形分析检验 ⑴观察销售利润(Y)与销售收入(X)的相关图(图1):SCAT X Y 图1 我国制造工业销售利润与销售收入相关图 从图中可以看出,随着销售收入的增加,销售利润的平均水平不断提高,但离散程度也逐步扩大。这说明变量之间可能存在递增的异方差性。

⑵残差分析 首先将数据排序(命令格式为:SORT 解释变量),然后建立回归方程。在方程窗口中点击Resids按钮就可以得到模型的残差分布图(或建立方程后在Eviews工作文件窗口中点击resid对象来观察)。 图2 我国制造业销售利润回归模型残差分布 图2显示回归方程的残差分布有明显的扩大趋势,即表明存在异方差性。 ⒉Goldfeld-Quant检验 ⑴将样本按解释变量排序(SORT X)并分成两部分(分别有1到10共11个样本合19到28共10个样本) ⑵利用样本1建立回归模型1(回归结果如图3),其残差平方和为2579.587。 SMPL 1 10 LS Y C X 图3 样本1回归结果 ⑶利用样本2建立回归模型2(回归结果如图4),其残差平方和为63769.67。 SMPL 19 28 LS Y C X

图4 样本2回归结果 ⑷计算F 统计量:12/RSS RSS F ==63769.67/2579.59=24.72,21RSS RSS 和分别是模型1和模型2的残差平方和。 取 05 .0=α时,查F 分布表得 44.3)1110,1110(05.0=----F ,而 44.372.2405.0=>=F F ,所以存在异方差性 ⒊White 检验 ⑴建立回归模型:LS Y C X ,回归结果如图5。 图5 我国制造业销售利润回归模型 ⑵在方程窗口上点击View\Residual\Test\White Heteroskedastcity,检验结果如图6。 图6 White 检验结果

独立性检验的基本思想及其初步应用习题及答案

数学·选修1-2(人教A版) 独立性检验的基本思想及其初步应用 ?达标训练 1.在研究两个分类变量之间是否有关时,可以粗略地判断两个分类变量是否有关的是( ) A.散点图B.等高条形图 C.2×2列联表 D.以上均不对 答案:B 2.在等高条形图形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大( ) 与 d c+d 与 a c+d 与 c c+d 与 c b+c 答案:C 3.对分类变量X与Y的随机变量K2的观测值k,说法正确的是( ) A.k越大,“ X与Y有关系”可信程度越小 B.k越小,“ X与Y有关系”可信程度越小 C.k越接近于0,“X与Y无关”程度越小 D.k越大,“X与Y无关”程度越大 答案:B 4.下面是一个2×2列联表:

则表中a、b的值分别为( ) A.94、96 B.52、50 C.52、54 D.54、52 答案:C 5.性别与身高列联表如下: 那么,检验随机变量K2的值约等于 ( ) A. B. C.22 D. 答案:C 6.给出列联表如下: 根据表格提供的数据,估计“成绩与班级有关系”犯错误的概率约是( ) A.B.0.5 C.D. 答案:B

?素能提高 1.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲,下列说法中正确的是( ) A .男人、女人中患有色盲的频率分别为、 B .男人、女人患色盲的概率分别为19240、3 260 C .男人中患色盲的比例比女人中患色盲的比例大,患色盲是与性别有关的 D .调查人数太少,不能说明色盲与性别有关 解析:男人患色盲的比例为38480,比女人中患色盲的比例6 520 大, 其差值为?? ???? 38480-6520≈ 6,差值较大. 答案:C 2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表: 由K 2=算得, K 2=≈. 附表: 参照附表,得到的正确结论是( ) A .有99%以上的把握认为“爱好该项运动与性别有关” B .有99%以上的把握认为“爱好该项运动与性别无关” C .在犯错误的概率不超过%的前提下,认为“爱好该项运动与性别有关” D .在犯错误的概率不超过%的前提下,认为“爱好该项运动与性

第五章:异方差性(作业)

5.3 为了研究中国出口商品总额EXPORT 对国内生产总值GDP 的影响,搜集了1990~2015年相关的指标数据,如表5.3所示。 资料来源:《国家统计局网站》 (1) 根据以上数据,建立适当线性回归模型。 (2) 试分别用White 检验法与ARCH 检验法检验模型是否存在异方差? (3) 如果存在异方差,用适当方法加以修正。 解:(1) 100,000 200,000300,000400,000500,000600,000700,000X Y Dependent Variable: Y Method: Least Squares Date: 04/18/20 Time: 15:38

Sample: 1991 2015 Included observations: 25 Variable Coefficient Std. Error t-Statistic Prob. C -673.0863 15354.24 -0.043837 0.9654 X 4.061131 0.201677 20.13684 0.0000 R-squared 0.946323 Mean dependent var 234690.8 Adjusted R-squared 0.943990 S.D. dependent var 210356.7 S.E. of regression 49784.06 Akaike info criterion 24.54540 Sum squared resid 5.70E+10 Schwarz criterion 24.64291 Log likelihood -304.8174 Hannan-Quinn criter. 24.57244 F-statistic 405.4924 Durbin-Watson stat 0.366228 Prob(F-statistic) 0.000000 模型回归的结果: ^ 673.0863 4.0611i X i Y =-+ ()(0.043820.1368)t =- 20.9463,25R n == (2)white: 该模型存在异方差 Heteroskedasticity Test: White F-statistic 4.493068 Prob. F(2,22) 0.0231 Obs*R-squared 7.250127 Prob. Chi-Square(2) 0.0266 Scaled explained SS 8.361541 Prob. Chi-Square(2) 0.0153 Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: 04/18/20 Time: 17:45 Sample: 1991 2015 Included observations: 25 Variable Coefficient Std. Error t-Statistic Prob. C -1.00E+09 1.43E+09 -0.700378 0.4910 X^2 -0.455420 0.420966 -1.081847 0.2910 X 102226.2 60664.19 1.685117 0.1061 R-squared 0.290005 Mean dependent var 2.28E+09

异方差检验

七、 异方差与自相关 一、背景 我们讨论如果古典假定中的同方差和无自相关假定不能得到满足,会引起什么样的估计问题呢?另一方面,如何发现问题,也就是发现和检验异方差以及自相关的存在性也是一个重要的方面,这个部分就是就这个问题进行讨论。 二、知识要点 1、引起异方差的原因及其对参数估计的影响 2、异方差的检验(发现异方差) 3、异方差问题的解决办法 4、引起自相关的原因及其对参数估计的影响 5、自相关的检验(发现自相关) 6、自相关问题的解决办法 (时间序列部分讲解) 三、要点细纲 1、引起异方差的原因及其对参数估计的影响 原因:引起异方差的众多原因中,我们讨论两个主要的原因,一是模型的设定偏误,主要指的是遗漏变量的影响。这样,遗漏的变量就进入了模型的残差项中。当省略的变量与回归方程中的变量有相关关系的时候,不仅会引起内生性问题,还会引起异方差。二是截面数据中总体各单位的差异。 后果:异方差对参数估计的影响主要是对参数估计有效性的影响。在存在异方差的情况下,OLS 方法得到的参数估计仍然是无偏的,但是已经不具备最小方差性质。一般而言,异方差会引起真实方差的低估,从而夸大参数估计的显著性,即是参数估计的t 统计量偏大,使得本应该被接受的原假设被错误的拒绝。 2、异方差的检验 (1)图示检验法 由于异方差通常被认为是由于残差的大小随自变量的大小而变化,因此,可以通过散点图的方式来简单的判断是否存在异方差。具体的做法是,以回归的残差的平方2i e 为纵坐标,回归式中的某个解释变量i x 为横坐标,画散点图。如果散点图表现出一定的趋势,则可以判断存在异方差。 (2)Goldfeld-Quandt 检验

第五章:异方差性(作业)

为了研究中国出口商品总额EXPORT 对国内生产总值GDP 的影响,搜集了1990~2015年相关的指标数据,如表所示。 资料来源:《国家统计局网站》 (1) 根据以上数据,建立适当线性回归模型。 (2) 试分别用White 检验法与ARCH 检验法检验模型是否存在异方差 (3) 如果存在异方差,用适当方法加以修正。 解:(1) 100,000 200,000300,000400,000500,000600,000700,000X Y Dependent Variable: Y Method: Least Squares Date: 04/18/20 Time: 15:38

Sample: 1991 2015 Included observations: 25 Variable Coefficient Std. Error t-Statistic Prob. C X R-squared Mean dependent var Adjusted R-squared . dependent var . of regression Akaike info criterion Sum squared resid +10 Schwarz criterion Log likelihood Hannan-Quinn criter. F-statistic Durbin-Watson stat Prob(F-statistic) 模型回归的结果: ^ 673.0863 4.0611i X i Y =-+ ()(0.043820.1368)t =- 20.9463,25R n == (2)white: 该模型存在异方差 Heteroskedasticity Test: White F-statistic Prob. F(2,22) Obs*R-squared Prob. Chi-Square(2) Scaled explained SS Prob. Chi-Square(2) Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: 04/18/20 Time: 17:45 Sample: 1991 2015 Included observations: 25 Variable Coefficient Std. Error t-Statistic Prob. C +09 +09 X^2

高中数学 独立性检验和回归直线复习课说课稿 新人教A版选修2-3

独立性检验和回归直线 一、教材分析和处理 1.本节内容在教材中的地位和作用 本节是新课标人教版高中数学课本选修2-3第三章《统计案例》中P79-P91的内容,是在学习了用样本估记总体、线性回归等基本知识的基础上,进一步讨论线性回归方法及其应用,并初步了解独立性检验的基本思想,认识统计方法在决策中的作用。本节内容在近几年的高考试题中是屡见不鲜的,如2020年陕西选9,湖南选4,安徽解20等等,因而是高考中的热点之一。 2.教学目标 知识目标:(1)理解线性回归分析方法及应用; (2)理解独立性检验的基本思想及应用。 能力目标:(3)培养学生分析问题、解决问题的能力;相互探讨、合作交流、共同提高、团结协作的能力。 3.学情分析 这节课是在学生对回归分析、独立性检验的基本思想有了初步的了解,对课本基础概念有了感性认识的基础上进行巩固加深的。要想深刻理解,灵活运用,需要进行全面复习。根据《新课标》的要求,以学生为主体,充分调动学生在课堂上的积极性,运用多媒体,加大直观性和容量,提高学习效率。 二、教法 本课教法以启发式教学法和合作探究法为主,因为在教学中要突出学生的主体地位,培养学生的自主意识和合作意识为根本,整个过程师生互动,学生为主体,教师为主导,共同参与;教师启发、引导、巡查、点拔,充分调动学生的积极性,教学过程采用多媒体展示、多黑板演示,多学生讲解,将教师提供的习题分组完成,重点强化,难点突破,营造活跃的课堂气氛,使课堂成为学生展示的舞台,成功表现自我;各小组成员分工协作,积极动手实践,学习热情高涨,合作探究意识明显增强,打造高效课堂。 三、学法 新课程理念是“以学生的发展为核心”,在学习过程中始终让他们自主学习,成为学习的主人,将全班学生分成六个小组各自下达学习任务,既明确分工,又互相合作;完成任务,积

第五章 异方差性参考答案

第五章 异方差性课后题参考答案 5.1 (1)因为22()i i f X X =,所以取221i i W X =,用2i W 乘给定模型两端,得 31232222 1i i i i i i i Y X u X X X X βββ=+++ 上述模型的随机误差项的方差为一固定常数,即 2 2221 ()()i i i i u Var Var u X X σ== (2)根据加权最小二乘法,可得修正异方差后的参数估计式为 ***12233???Y X X βββ=-- ()()()() ()()() ***2*** *22232322 322*2*2** 2223223?i i i i i i i i i i i i i i i i i i W y x W x W y x W x x W x W x W x x β-= -∑∑∑∑∑∑∑ ()()( )()()( )()***2 ** * *232222 22 33 2 *2*2** 2223223?i i i i i i i i i i i i i i i i i i W y x W x W y x W x x W x W x W x x β-= -∑∑ ∑ ∑∑∑∑ 其中 2223 2***23222, , i i i i i i i i i W X W X W Y X X Y W W W = = = ∑∑∑∑∑∑ ***** *222333 i i i i i x X X x X X y Y Y =-=-=- 5.2 (1) 22222 11111 ln()ln()ln(1)1 u ln()1 Y X Y X Y u u X X X u ββββββββββ--==+≈=-∴=+ [ln()]0 ()[ln()1][ln()]11 E u E E u E u μ=∴=+=+= 又 (2) [ln()]ln ln 0 1 ()11 i i i i P P i i i i P P i i E P E μμμμμμμ===?====∑∏∏∑∏∏不能推导出 所以E 1μ()=时,不一定有E 0μ(ln )= (3)对方程进行差分得: 1)i i βμμ--i i-12i i-1lnY -lnY =(lnX -X )+(ln ln

Eviews 进行异方差性检验及估计模型

异方差性检验及存在异方差模型估计 检验使用方法:(1)G-Q检验(2)White 检验 模型估计方法:加权最小二乘法(WLS) 下表为2000年中国部分省市城镇居民每个家庭平均年可支配收入(X)与消费性支出(Y)的统计数据: 1

一、利用Eviews求出线性模型 可得模型: ?272.2250.755 i i Y X =+ 2

(1.705) (32.394) R2=0.9832 二、异方差检验 (1)G-Q检验:首先将可支配收入X升序进行排列,然后去掉中间4个样本,将余下的样本分为容量各为8的两个子样本,并分别进行回归。 大样本小样本 3

样本取值较小的Eviews输出结果如下 残差平方和:RSS1=126528.3 4

样本取值较大的Eviews输出结果如下: 残差平方和:RSS2=615073.7 因此统计量为:2 14.8611 RSS F RSS == 在5%的显著性水平下,0.05(6,6) 4.28 F=,4.86>4.28,因此拒绝原假设,存在异方差性。 5

(2)White检验:在原模型的最小二乘估计窗口上选择“View\Residual Tests\Heteroskedasticity Tests\White”得到如下结果: x ,因此12.6478>5.99,因而拒绝原假设,检验统计量值为12.64768,查询20.05(2) 5.99 模型存在异方差。 三、估计存在异方差的经济模型 利用加权最小二乘法(WLS)进行估计:首先在对原模型进行估计后,保存残差,步骤如下:①Quick\Generate Series 再输入“e1=resid”,得到e1 ②Quick\Estimte Equation 再输入“Y C X” ③选择Options,在“Weighted LS/TLS”输入“1/abs(e1)”(备注:abs表示绝对值) 得到如下结果; 6

第五章-异方差性-答案说课讲解

第五章-异方差性-答 案

第五章 异方差性 一、判断题 1. 在异方差的情况下,通常预测失效。( T ) 2. 当模型存在异方差时,普通最小二乘法是有偏的。( F ) 3. 存在异方差时,可以用广义差分法进行补救。(F ) 4. 存在异方差时,普通最小二乘法会低估参数估计量的方差。(F ) 5. 如果回归模型遗漏一个重要变量,则OLS 残差必定表现出明显的趋势。 ( T ) 二、单项选择题 1.Goldfeld-Quandt 方法用于检验( A ) A.异方差性 B.自相关性 C.随机解释变量 D.多重共线性 2.在异方差性情况下,常用的估计方法是( D ) A.一阶差分法 B.广义差分法 C.工具变量法 D.加权最小二乘法 3.White 检验方法主要用于检验( A ) A.异方差性 B.自相关性 C.随机解释变量 D.多重共线性 4.下列哪种方法不是检验异方差的方法( D ) A.戈德菲尔特——匡特检验 B.怀特检验 C.戈里瑟检验 D.方差膨胀因子检验 5.加权最小二乘法克服异方差的主要原理是通过赋予不同观测点以不同的权数,从而提高估计精度,即( B ) A.重视大误差的作用,轻视小误差的作用 B.重视小误差的作用,轻视大误差的作用 C.重视小误差和大误差的作用 D.轻视小误差和大误差的作用 6.如果戈里瑟检验表明,普通最小二乘估计结果的残差与有显著的形式的相关关系(满足线性模型的全部经典假设),则用加权最小二乘法估计模型参数时,权数应为( B ) A. B. C. D. 7.设回归模型为,其中()2i 2i x u Var σ=,则b 的最有效估计量为 ( D ) i e i x i i i v x e +=28715.0i v i x 21i x i x 1i x 1i i i u bx y +=

异方差性及其检验

异方差性及其检验 I 概念 对于多元线性回归模型 同方差性假设为 如果出现 即对于不同的样本点,随机干扰项的方差不再是常数,而是互不相同,不具有等同的分散程度,则认为出现了异方差(Heteroskedasticity ) II 类型 同方差性假定是指,回归模型中不可观察的随机误差项i u 以解释变量X 为条件的方差是一个常数,因此每个i u 的条件方差不随X 的变化而变化,即有 2()i i f X σ=≠常数 在异方差的情况下,总体中的随机误差项i u 的方差 2 i σ不再是常数, 通常它随解释变量值的变化而变化,即 异方差一般可归结为三种类型: 01122 1,2, ,i i i k ki i Y X X X i n ββββμ=+++ ++=2(), 1,2,...,i Var i n μσ==2(), 1,2,...,i i Var i n μσ==2() i i f X σ=

异方差类型图: III来源 (1)截面数据(不同样本点除解释变量外其他影响差异大) (2)时间序列(规模差异) (3)分组数据、异常值等 (4)模型函数形式设置不正确和数据变形不正确 (5)边错边改学习模型 IV影响 计量经济学模型一旦出现异方差,如果仍然用普通最小二乘法估计模型参数,会产生一系列不良后果。 (1)参数估计量非有效 (2)OLS估计的随机干扰项的方差不再是无偏的

(3)基于OLS估计的各种统计检验非有效 (4)模型的预测失效 V检验 异方差性,即相对于不同的样本点,也就是相对于不同的解释变量观测值,随机干扰项具有不同的方差,那么检验异方差性,也就是检验随机干扰项的方差与解释变量观测值之间的相关性。 一般检验方法如下: (1)图示检验法 (2)帕克(Park)检验与戈里瑟(Gleiser)检验 (3)G-Q(Goldfeld-Quandt)检验 (4)F检验 (5)拉格朗日乘子检验 (6)怀特检验 (具体步骤随后介绍) VI修正方法 加权最小二乘法 定义:加权最小二乘法是对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用OLS法估计其参数。 基本思想:在采用OLS方法时,对较小的残差平方2? e赋予较大的权 i 重,对较大的2? e赋予较小的权重,以对残差提供的信息的重要程度 i 作一番修正,提高参数估计的精确程度。 不同形式的异方差要求用不同的加权方法来处理:

独立性检验练习题

独立性检验练习题 1. 为了解某班学生喜爱打篮球是否与性别有关,对本班60人进行了问卷调查得到了如下的2×2列联表: (I)用分层抽样的方法在喜爱打篮球的学生中抽6人,其中男生抽多少人? (II)在上述抽取的人中选2人,求恰有一名女生的概率; (III)你是否有95%的把握认为喜爱打篮球与性别有关?说明你的理由。 下面的临界值表供参考:

2. 2014年山东省第二十三届运动会将在济宁召开,为调查我市某校高中生是否愿意提供志愿者服务,用简单随机抽样方法从该校调查了50人,结果如下: (I )用分层抽样的方法在愿意提供志愿者服务的学生中抽取6人,其中男生抽取多少人? (II )在(I )中抽取的6人中任选2人,求恰有一名女生的概率; (III )你能否有99%的把握认为该校高中生是否愿意提供志愿者服务与性别有关? 下面的临界值表供参考: 独立性检验统计量()()()()(),2 2 d b c a d c b a bc ad n K ++++-=其中.d c b a n +++=

3. 第一次联考后,某校对甲、乙两个文科班的数学考试成绩 进行分析,规定:大于或等于120分为优秀,120分以下为非优秀,统 计成绩后,得到如下的2×2列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为 3 11 . (Ⅰ) 请完成右面的列 联表; (Ⅱ)根据列联表的数 据,若按99. 9%的 可靠 性要求,能否认 为“成绩与班级有关系”; (Ⅲ)若按下面的方法从甲班优秀的学生中抽取一人:把甲班优秀的10名学生从2到 11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号.试求抽到9号或10号的概率.参考公式与临界值表: 2 2 ()()()()()n ad bc K a b c d a c b d -++++.

异方差性习题与答案

第五章 异方差性习题与答案 1、产生异方差的后果是什么? 2、下列哪种情况是异方差性造成的结果? (1)OLS 估计量是有偏的 (2)通常的t 检验不再服从t 分布。 (3)OLS 估计量不再具有最佳线性无偏性。 3、已知模型:i i i i u X X Y +++=22110βββ 式中,i Y 为某公司在第i 个地区的销售额;i X 1为该地区的总收入;i X 2为该公司在该地区投入的广告费用(i=0,1,2……,50)。 (1)由于不同地区人口规模i P 可能影响着该公司在该地区的销售,因此有理由怀疑随机误差项u i 是异方差的。假设i σ依赖于总体i P 的容量,逐步描述你如何对此进行检验。需说明:A 、零假设和备择假设;B 、要进行的回归;C 、要计算的检验统计值及它的分布(包括自由度);D 、接受或拒绝零假设的标准。 (2)假设i i P σσ=。逐步描述如何求得BLUE 并给出理论依据。 4、下表数据给出按学位和年龄划分的经济学家的中位数工薪: 表1 经济学家的工资表 年 龄 中位数工薪(以千美元计算) 硕士 博士 25-29 8.0 8.8 30-34 9.2 9.6 35-39 11.0 11.0 40-44 12.8 12.5 45-49 14.2 13.6 50-54 14.7 14.3 55-59 14.5 15.0 60-64 13.5 15.0 65-69 12.0 15.0 (1)有硕士学位和有博士学位经济学家的中位数工薪的方差相等么? (2)如果相等,你会怎样检验两组平均中位数工薪相等的假设? (3)在年龄35至5岁之间的经济学家,有硕士学位的比有博士学位的赚更多的钱,那么你会怎样解释这一发现? 5、为了解美国工作妇女是否受到歧视,可以用美国统计局的“当前人口调查”中的截面数据,研究男女工资有没有差别。这项多元回归分析研究所用到的变量有: W —雇员的工资率(美元/小时) 1表示雇员为女性, 0表示女性意外的雇员。ED :受教育的年数。AGE :年龄

卡方独立性检验

第八章记数数据统计法—卡方检验法 知识引入 在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。例如,性别分男女,职业分为公务员、教师、工人、……,教师职称又分为教授、副教授、……。有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。 卡方检验是专用于解决计数数据统计分析的假设检验法。本章主要介绍卡方检验的两个应用:拟合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。 在计数数据进行统计分析时要特别注意取样的代表性。我们知道,统计分析就是依据样本所提供的信息,正确推论总体的情况。在这一过程中,最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中,所搜集到的有些数据属于定性资料,它们常常是通过调查、访问或问卷获得,除了少数实验可以事先计划外,大部分收集数据的过程是难于控制的。例如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项措施存有意见,或对问卷本身有偏见,根本就不填写问卷。这样该研究所能收回的问卷只能代表一部分观点,所以它是一个有偏样本,若据此对总体进行推论,就会产生一定的偏差,势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时,要特别小心谨慎,防止样本的偏倚性,只有具有代表性的样本才能作出正确的推论。 第一节卡方拟合性检验 一、卡方检验的一般问题 卡方检验应用于计数数据的分析,对于总体的分布不作任何假设,因此它又是非参数检验法中的一种。它由统计学家皮尔逊推导。理论证明,实际观察次数(f o)与理论次数(f e),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,可表示为: 这是卡方检验的原始公式,其中当f e越大(f e≥5),近似得越好。显然f o与f e相差越大,卡方值就越大;f o与f e相差越小,卡方值就越小;因此它能够用来表示f o与f e相差的程度。根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。它主要应用于两种情况: 卡方检验能检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题,这里的观测次数是根据样本数据得多的实计数,理论次数则是根据理论或经验得到的期望次数。这一类检验称为拟合性检验。

相关主题
文本预览
相关文档 最新文档