统计学贾俊平第10章 方差分析
- 格式:pptx
- 大小:844.13 KB
- 文档页数:85
第10章方差分析适用:多个均值是否相等的检验(分类数据与数值型数据)10.1 方差分析引论例消费者与产品生产者、销售者或服务的提供者之间经常发生纠纷。
当纠纷发生后,消费者通常会向消费者协会投诉。
为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了一些企业作为样本。
其中零售业7家、旅游业6家、航空公司5家、家电制造业5家。
每个行业所抽取的这些企业,假定他们在服务对象、服务内容、企业规模等方面基本相同。
然后统计最近一年中消费者对这23家企业的投诉次数,结果如下表:消费者协会想了解这几个行业之间的服务质量是否有显著性差异。
10.1.1 分析服务质量 显著性差异 ↓ ↓ 投诉次数 均值不相等转化为数学表达:01234:H μμμμ=== 没有显著性差异 1:H 上面的等式不全相等 有显著性差异一般假设检验的解决方法:121314232434,,,,,μμμμμμμμμμμμ====== 更好的方法:方差分析没有显著性差异↔不同的行业服务质量一样,行业对服务质量没有显著影响有显著性差异 不同的行业服务质量不一样,行业对服务质量有显著影响从行业对服务质量影响的角度来分析平均服务质量的差异问题术语:因素:一个独立的随机变量,是方差分析研究的对象————企业所属行业类型水平:因素的内容————各个行业: 零售业、旅游业、航空公司、家电制造10.1.3 方差分析的原理:1 观察值之间差异的原因A 由于选取样本的随机性引起的差异B 由于因素中的不同水平形成的差异——系统性差异(行业不同,服务质量不同)2 水平内部与水平之间差异的类型A 水平内部的差异只包含随机性差异(同行业企业服务质量的差异)B 水平之间的差异既包含随机性差异又包含系统性差异(不同行业企业服务质量的差异)3 原理如不同的水平对结果没有影响则水平之间的差异应只包含随机性差异与水平内部的差异应该非常接近反之如不同的水平对结果产生影响则水平之间的差异应既包含随机性差异又包含系统性差异应该大于水平内部的差异所以,可以通过比较这两个差异的大小当比较的结果大于某个临界值时,就可以判定水平之间包含系统性差异,即水平对结果有显著影响——均值不全相等10.1.4 技术问题选择什么样的指标来衡量这两个差异与比较的结果差异:离散——离差平方和差异的比较:差、商——考虑统计量的分布与临界值方差分析的基本假定① 每个总体都服从正态分布,即对于因素的每一个水平,其观测值都是来自正态总体的简单随机样本; ② 各个总体的方差相等 ③ 观测值是独立的——独立等方差的正态总体实际应用中近似满足即可10.2 单因素方差分析单因素方差分析:分析只针对一个因素进行 企业类型 双因素方差分析:分析针对两个因素进行企业类型 企业文化10.2.1分析步骤1 提出假设012:k H μμμ=== 因素(自变量)对结果(因变量)没有显著性差异1:(1,2)iH i k μ=不全相等 自变量对因变量有显著性差异上例:01234:H μμμμ=== 不同行业对服务质量没有显著性差异 1:H 上面的等式不全相等 不同行业对服务质量有显著性差异2 计算均值① 计算各样本的均值设从第i 个总体中抽取一个样本容量为i n 的简单随机样本, 令i x 为其均值,则11(1,2,)in i ijj ix xi k n ===∑其中,ij x 为第i 个总体的第j 个观察值k 为因素水平的个数(总体的个数)上例:11111576644497n ij j x x n =+++===∑,248x =,335x =,459x =②计算全部观测值的总均值11112,in k kiji ii j i k xn xx n n n n nn======+++∑∑∑上例:576649775847.86956523x ++++==3计算各误差平方和 A 组内平方和SSE是每个水平或组的各样本数据与其组均值误差的平方和 反映了各个样本观测值的离散状况11()in kij i i j SSE x x ===-∑∑2上例:11()()()()()()()()()()()()()in kij i i j SSE x x ===-=-+-+-=-+-+-=-+-+-=-+-+-=∑∑22222222222225749664944496848394851483135493540354459515958592708B 组间平方和SSA是各组均值与总平均的误差平方和 反映各组的差异()21ki i i SSA n x x ==-∑上例:()21(.)(.)(.)(.).ki i i SSA n x x ==-=⨯-+⨯-+⨯-+⨯-=∑2222749478695656484786956553547869565559478695651456608696C 总平方和SST是全部观测值与总平均的误差平方和211()in k ij i j SST x x ===-∑∑上例:211()(.)(.)(.).in kij i j SST x x ===-=-+-++-=∑∑2225747869565664786956558478695654164608696SST SSE SSA =+4计算统计量 定理:当各总体满足方差分析的三个基本假设时,有1,k X X ,SSE 相互独立且22()SSEn k χσ~-当012:k H μμμ===成立时,22(1)SSAk χσ~-所以,为了检验012:k H μμμ===取检验统计量为()()/-1(-1,-)/-SSA k MSA F F k n k MSE SSE n k ==上例:()/-1./().MSA SSA k ==-=145660869641485536232 ()/-/().MSE SSE n k ==-=2708234142526316 ...MSA F MSE ===48553623234066431425263165统计决策:大于 拒绝原假设 —————— 右单侧检验 所以当 (1,)F F k n k α>--,拒绝原假设当 (1,)F F k n k α<--,不能拒绝原假设 上例:临界值0.050.05(41,234)(3,19) 3.13F F --== 因为3.41>3.13,所以拒绝原假设,即认为服务质量均值有显著性差异,行业类型对服务质量有显著性影响。
第10章方差分析一、思考题1.什么是方差分析?它研究的是什么?答:方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
方差分析是检验多个总体均值是否相等的统计方法,但本质上它所研究的是分类型自变量对数值型因变量的影响,例如,变量之间有没有关系、关系的强度如何等。
2.要检验多个总体均值是否相等时,为什么不作两两比较,而用方差分析方法?答:方差分析不仅可以提高检验的效率,同时由于它是将所有的样本信息结合在一起,也增加了分析的可靠性。
检验多个总体均值是否相等时,如果作两两比较,则需要进行多次的t检验。
随着增加个体显著性检验的次数,偶然因素导致差别的可能性也会增加(并非均值真的存在差别)。
而方差分析方法则是同时考虑所有的样本,因此排除了错误累积的概率,从而避免拒绝一个真实的原假设。
3.方差分析包括哪些类型?它们有何区别?答:(1)根据所分析的分类自变量的多少,方差分析可分为单因素方差分析和双因素方差分析。
(2)区别:①单因素方差分析研究的是一个分类型自变量对一个数值型因变量的影响;②双因素方差分析研究的是两个分类变量对数值型因变量的影响。
4.方差分析中有哪些基本假定?答:方差分析中有三个基本假定:(1)每个总体都应服从正态分布。
也就是说,对于因素的每一个水平,其观测值是来自正态分布总体的简单随机样本。
(2)各个总体的方差σ2必须相同。
也就是说,对于各组观察数据,是从具有相同方差的正态总体中抽取的。
(3)观测值是独立的。
5.简述方差分析的基本思想。
答:方差分析的基本思想:通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。
6.解释因子和处理的含义。
答:在方差分析中,所要检验的对象称为因素或因子;因素的不同表现称为水平或处理。
例如:要分析行业(零售业、旅游业、航空公司、家电制造业)对投诉次数是否有显著影响,则这里的“行业”是要检验的对象,称其为“因素”或“因子”;零售业、旅游业、航空公司、家电制造业是“行业”这一因素的不同表现,称其为“水平”或“处理”。
第1章绪论5.简要说明抽样误差和非抽样误差。
答:统计调查误差可分为非抽样误差和抽样误差。
非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。
抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。
6.一家大型油漆零售商收到了客户关于油漆罐分量不足的许多抱怨。
因此,他们开始检查供货商的集装箱,有问题的将其退回。
最近的一个集装箱装的是2 440加仑的油漆罐。
这家零售商抽查了50罐油漆,每一罐的质量精确到4位小数。
装满的油漆罐应为4.536 kg。
要求:(1)描述总体;(2)描述研究变量;(3)描述样本;(4)描述推断。
答:(1)总体:最近的一个集装箱内的全部油漆;(2)研究变量:装满的油漆罐的质量;(3)样本:最近的一个集装箱内的50罐油漆;(4)推断:50罐油漆的质量应为4.536×50=226.8 kg。
7.“可乐战”是描述市场上“可口可乐”与“百事可乐”激烈竞争的一个流行术语。
这场战役因影视明星、运动员的参与以及消费者对品尝试验优先权的抱怨而颇具特色。
假定作为百事可乐营销战役的一部分,选择了1000名消费者进行匿名性质的品尝试验(即在品尝试验中,两个品牌不做外观标记),请每一名被测试者说出A品牌或B品牌中哪个口味更好。
要求:(1)描述总体;(2)描述研究变量;(3)描述样本;(4)描述推断。
答:(1)总体:市场上的“可口可乐”与“百事可乐”(2)研究变量:更好口味的品牌名称;(3)样本:1000名消费者品尝的两个品牌(4)推断:两个品牌中哪个口味更好。
第2章统计数据的描述思考题4. 一组数据的分布特征可以从哪几个方面进行测度?答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。
常用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数。
5. 怎样理解均值在统计中的地位?答:均值是对所有数据平均后计算的一般水平的代表值,数据信息提取得最充分,具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特征的一种反映,在统计推断中显示出优良特性,由此均值在统计中起到非常重要的基础地位。
统计学(贾俊平版)第十章答案第十章习题H0:三个总体均值之间没有显著差异。
H1: 三个总体均值之间有显著差异。
方差分析:单因素方差分析SUMMARY组123观测数543求和平均方差方差分析差异源SS组间组内总计答:方差分析可以看到,于P=>,所以接受原假设H0。
说明了三个总体均值之间没有显著差异。
H0:五个个总体均值之间相等。
H1: 五个总体均值之间不相等。
方差分析:单因素方差分析SUMMARY组12345观测数35456求和3750488078平均方差方差分析差异源SS组间组内总计答:方差分析可以看到,于P=H0:四台机器的装填量相等。
H1: 四台机器的装填量不相等方差分析:单因素方差分析SUMMARY 组1234观测数4654求和平均方差方差分析差异源SS组间组内总计答:方差分析可以看到,于P=H0:不同层次管理者的满意度没有差异。
H1: 不同层次管理者的满意度有差异. 方差分析:单因素方差分析SUMMARY 组列1列2列3观测数576求和平均方差方差分析差异源SS组间组内总计答:方差分析可以看到,于P= H0:3个企业生产的电池平均寿命之间没有显著差异。
H1: 3个企业生产的电池平均寿命之间有显著差异单因素方差分析V AR00002 组间组内总数多重比较因变量: V AR00002 LSD (I) V AR00001 (J) V AR00001均值差(I-J)- - -****平方和df 均方 F 显著性.000 212 14标准误显著性.000 95% 置信区间下限上限.515 - .000 - - .001 - - .515 - .001*. 均值差的显著性水平为。
答:方差分析可以看到,于P=通过SPSS分析,通过显著性对比可知道A和B以及B和C公司有差异。
H0:不同培训方式对产品组装的时间没有显著影响。
H1: 不同培训方式对产品组装的时间没有显著影响。
方差分析:单因素方差分析SUMMARY组abc观测数998求和平均方差方差分析差异源SS 组间组内总计答:方差分析可以看到,于P=行因素H0:u1=u2=u3=u4=u5H1:ui(i=1,2,3,4,5)不全相等列因素H0:u1=u2=u3 H1:ui(i=1,2,3)不全相等方差分析:无重复双因素分析SUMMARY观测数1323334353dzg555求和平均方差方差分析差异源SS行列误差总计答:根据方差分析,对于行因素,P=对于列因素,p=行因素H0:不同品种对收获量没有显著影响。
第10章单因素方差分析单因素方差分析(0ne-Way ANOV A),又称一维方差分析,它能够对单因素多个独立样本的均数进行比较,可以用10种检验方法对变量间的均数进行两两比较(即多重比较检验)并给出方差分析表,还可以作出5种类型图形(Type of plots)和2种均数图形(Means plot options)10.1 单因素方差分析的计量资料[例10—1] 某社区随机抽取了30名糖尿病患者、IGT异常人和正常人进行载脂蛋白(mg/dL)测定,结果示于表10—1。
试问3组人群的载脂蛋白测定结果含量是否相同?(倪宗瓒.卫生统计学.第4版,北京:人民卫生出版社,2001.50)本例是一个完全随机设计的单因素方差分析。
已建立SAS数据集文件并保存Sasuser.onewav4。
(1)进入SAS/Win(v8)系统,单击Solutions-Analysis-Analyst,得到分析家窗口。
(2)单击File-open By SAS Name—Sasuser-0neway4—0K,调入数据文件。
(3)在“分析家”窗口单击Statistics-ANOV A-One way ANOV A,得到图10—1所示对话框。
本例因变量(Dependent)为A(载脂蛋白),单击A—Dependent。
自变量(1ndependent):B(3种人的组别),单击B—Independent 。
图10.1 0ne—way ANOV A:0neway4(单因素方差分析)对话框(4)单击Tests按钮,得到图10—2所示对话框。
在此对话框的ANOV A(F—检验)选项中可进行如下设置。
Analysis of variance,方差分析。
Welch’s variance-weighted ANOV A,威尔奇方差—权重方差分析。
Tests for equal variance,相等方差检验,即方差齐性检验。
Barlett’s test,巴特尼特检验。
第十章方差分析一、单项选择题:1.在方差分析中,( )反映的是样本数据与其组平均值的差异。
A.总离差平方和B.组间离差平方和C.抽样误差D.组内离差平方和2.∑∑=⎪⎪⎭⎫⎝⎛k1i 21-j ij n i i x x ——是( )。
A.组内平方和 B.组间平方和C.总离差平方和D.因素B 的离差平方和3.∑∑=⎪⎪⎭⎫⎝⎛k1i 21-j ij n i i x x ——是( )。
A.组内平方和 B.组间平方和 C.总离差平方和D.总方差4.单因素方差分析中,计算F 统计量,其分子与分母的自由度各位( )。
A.k ,nB.k ,n-kC.k-1,n-kD.n-k ,k-15.方差分析基本原理是( )首先提出的。
A.费雪B.皮尔逊C.泰勒D.凯特勒6.组间离差平方和反映的是( )。
A.抽样误差B.系统误差C.随机误差D.总误差7.组内离差平方和反映的是( )。
A.抽样误差B.系统误差C.随机误差D.总误差8.单因素方差分析的对立和假设是( )。
A.μμμk 21===B.差距不显著,,,μμμk 21C.不是全部相等,,,μμμk 21D.全部不相等,,,μμμk 219.单因素方差分析的零假设是( )。
A.μμμk 21===B.差距不显著,,,μμμk 21C.不是全部相等,,,μμμk 21D.全部不相等,,,μμμk 2110.在方差分析中,若F k -n 1,-k 05.0F )(>,则统计推论是( )。
A.各组间的总体均数不全相等B.各组间的总体均数都不相等C.各组间的样本均数都不相等D.各组间的总体方差不全相等11.为研究温度对菌种生产率的影响,将温度控制在三个水平上,则应该使用( )。
A.单因素方差分析B.双因素方差分析C.独立样本t 检验D.三因素方差分析12.为分析学历对收入的影响,调查了50个职工,按学历高低分成四组,使用单因素方差分析,则F 检验临界值为( )。
《统计学》课后答案(第二版,贾俊平版)附录答案第6章-9章方差分析第6章方差分析6.1 0215.86574.401.0=<=F F (或01.00409.0=>=-αvalue P ),不能拒绝原假设。
6.2 579.48234.1501.0=>=F F (或01.000001.0=<=-αvalue P ),拒绝原假设。
6.3 4170.50984.1001.0=>=F F (或01.0000685.0=<=-αvalue P ),拒绝原假设。
6.4 6823.37557.1105.0=>=F F (或05.0000849.0=<=-αvalue P ),拒绝原假设。
6.5 8853.30684.1705.0=>=F F (或05.00003.0=<=-αvalue P ),拒绝原假设。
85.54.14304.44=>=-=-LSD x x B A ,拒绝原假设;85.58.16.424.44=<=-=-LSD x x C A ,不能拒绝原假设;85.56.126.4230=>=-=-LSD x x C B ,拒绝原假设。
6.6554131.3478.105.0=<=F F (或05.0245946.0=>=-αvalue P ),不能拒绝原假设。
第7章相关与回归分析7.1 (1)散点图(略),产量与生产费用之间正的线性相关关系。
(2)920232.0=r 。
(3)检验统计量2281.24222.142=>=αt t ,拒绝原假设,相关系数显著。
7.2 (1)散点图(略)。
(2)8621.0=r 。
7.3 (1)0?β表示当0=x 时y 的期望值。
(2)1?β表示x 每变动一个单位y 平均下降0.5个单位。
(3)7)(=y E 。
7.4 (1)%902=R 。
(2)1=e s 。
7.5 (1)散点图(略)。