第9章列联分析
- 格式:doc
- 大小:128.00 KB
- 文档页数:5
统计学各章计算题公式及解题方法第四章数据的概括性度量1.组距式数值型数据众数的计算:确定众数组后代入公式计算:下限公式:;上限公式:,其中,L为众数所在组下限,U为众数所在组上限,为众数所在组次数与前一组次数之差,为众数所在组次数与后一组次数之差,d为众数所在组组距2.中位数位置的确定:未分组数据为;组距分组数据为3.未分组数据中位数计算公式:4.单变量数列的中位数:先计算各组的累积次数(或累积频率)—根据位置公式确定中位数所在的组-对照累积次数(或累积频率)确定中位数(该公式假定中位数组的频数在该组内均匀分布)5.组距式数列的中位数计算公式:下限公式:;上限公式:,其中,为中位数所在组的频数,为中位数所在组前一组的累积频数,为中位数所在组后一组的累积频数6.四分位数位置的确定:未分组数据:;组距分组数据:7.简单均值:8.加权均值:,其中,为各组组中值统计学各章计算题公式及解题方法9.几何均值(用于计算平均发展速度):10.四分位差(用于衡量中位数的代表性):11.异众比率(用于衡量众数的代表性):12.极差:未分组数据:;组距分组数据:13.平均差(离散程度):未分组数据:;组距分组数据:14.总体方差:未分组数据:;分组数据:15.总体标准差:未分组数据:;分组数据:16.样本方差:未分组数据:;分组数据:17.样本标准差:未分组数据:;分组数据:18.标准分数:19.离散系数:第七章参数估计1.的估计值:置信水平α90%0.1 0。
05 1.65495% 0。
05 0.025 1.9699% 0.01 0。
005 2。
58统计学各章计算题公式及解题方法2.不同情况下总体均值的区间估计:总体分布样本量σ已知σ未知大样本(n≥30)正态分布小样本(n<30)非正态分布大样本(n≥30)其中,查p448 ,查找时需查n—1的数值3.大样本总体比例的区间估计:4.总体方差在置信水平下的置信区间为:5.估计总体均值的样本量:,其中,E为估计误差6.重复抽样或无限总体抽样条件下的样本量:,其中π为总体比例第八章假设检验1.总体均值的检验(已知或未知的大样本)[总体服从正态分布,不服从正态分布的用正态分布近似]假设双侧检验左侧检验右侧检验假设形式已知统计量未知拒绝域值决策,拒绝2.总体均值检验(未知,小样本,总体正态分布)假设双侧检验左侧检验右侧检验统计学各章计算题公式及解题方法假设形式已知统计量未知拒绝域值决策,拒绝注:已知的拒绝域同大样本3.一个总体比例的检验(两类结果,总体服从二项分布,可用正态分布近似)(其中为假设的总体比例)假设双侧检验左侧检验右侧检验假设形式统计量拒绝域值决策,拒绝4.总体方差的检验(检验)假设双侧检验左侧检验右侧检验假设形式统计量拒绝域值决策,拒绝5.统计量的参考数值0.1 0。
第9章 分类数据分析一、思考题1.简述列联表的构造与列联表的分布。
答:列联表是由两个以上的变量进行交叉分类的频数分布表。
列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。
2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。
答:对三个生产厂甲、乙、丙提供的学习机的A、B、C三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。
抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。
表9-2根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。
建立假设:H0:次品类型与厂家生产是独立的,H1:次品类型与厂家生产不是独立的。
可以计算各组的期望值,如表9-3所示(表中括号内的数值为期望值)。
表9-3 各组的期望值计算表所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。
而自由度等于(R -1)(C -1)=(3-1)×(3-1)=4,若以0.01的显著性水平进行检验,查χ2分布表得20.01(4)13.277χ=。
由于220.019.821(4)13.277χχ=<=,故接受原假设H 0,即次品类型与厂家生产是独立的。
3.说明计算2χ统计量的步骤。
答:计算2χ统计量的步骤:(1)用观察值o f 减去期望值e f ;(2)将(o f -e f )之差平方;(3)将平方结果2)(e o f f -除以e f ;(4)将步骤(3)的结果加总,即得:22()o e ef f f χ-=∑。
4.简述ϕ系数、c 系数、V 系数的各自特点。
答:(1)ϕ相关系数是描述2×2列联表数据相关程度最常用的一种相关系数。
它的计算公式为:ϕ,式中,∑-=ee of f f 22)(χ;n 为列联表中的总频数,也即样本量。
第9章分类数据分析9.1复习笔记一、分类数据与χ2统计量1.分类数据按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
分类数据和顺序数据都是只能归于某一类别的非数字型数据,它们是对事物进行分类的结果,其结果均表现为类别,用文字来表述,不过顺序数据的类别是有序的;数值型数据是按数字尺度测量的观测值,其结果表现为具体的数值。
分类数据是对事物进行分类的结果,其特征是,调查结果虽然用数值表示,但不同数值描述了调查对象的不同特征。
数值型数据可以转化为分类数据。
分类数据的结果是频数,χ2检验是对分类数据的频数进行分析的统计方法。
2.χ2统计量χ2统计量可以对分类数据做拟合优度检验和独立性检验,可以用于测定两个分类变量之间的相关程度。
若用f o 表示观察值频数,用f e 表示期望值频数,则χ2统计量可以写为:22()o e e f f f χ-=∑χ2检验:χ2检验是利用随机样本对总体分布与某种特定分布拟合程度的检验,也就是检验观察值与理论值之间的紧密程度。
χ2检验主要用于拟合优度检验和独立性检验。
(1)χ2统计量的特征①χ2≥0,因为它是对平方值结果的汇总;②χ2统计量的分布与自由度有关;③χ2统计量描述了观察值与期望值的接近程度。
两者越接近,即f o-f e的绝对值越小,计算出的χ2值越小;反之,f o-f e的绝对值越大,计算出的χ2值也越大。
χ2检验正是通过对χ2的计算结果与χ2分布中的临界值进行比较,做出是否拒绝原假设的统计决策。
(2)χ2分布与自由度的密切关系自由度越小,χ2的分布就越向左边倾斜;随着自由度的增加,χ2分布的偏斜程度趋于缓解,逐渐显露出对称性,随着自由度的继续增大,χ2分布将趋近于对称的正态分布。
(3)应用χ2检验统计量的注意事项①各组的理论频数f e不得小于总频数n;②总频数应较大,至少大于50;③如果某组理论频数小于5,可将相邻的若干组合并,直至理论频数大于5为止;④倘若有两个以上的单元,如果20%的单元期望频数f e小于5,则不能应用χ2检验。
第9章列联分析
选择题:
1.列联分析是利用列联表来研究()。
A.两个分类变量的关系
B.两个数值型变量的关系
C.一个分类变量和一个数值型变量的关系
D.两个数值型变量的分布
分布的自由度为()。
2.设R为列联表的行数,C为列联表的列数,则2
A. RB. C
C. R×CD. (R-1)×(C-1)
3.列联表中的每个变量()。
A.只能有一个类别B.只能有两个类别
C.可以有两个或两个以上的类别D.只能有三个类别
4.一所大学准备采取一项学生在宿舍上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名男学生和120名女学生进行调查,得到的结果如下:
男学生女学生合计赞成454287
反对10578183
合计150120270
这个表格是()。
A. 4×4列联表B. 2×2列联表
C. 2×3列联表D. 2×4列联表
5.一所大学准备采取一项学生在宿舍上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名男学生和120名女学生进行调查,得到的结果如下:
男学生女学生合计赞成454287
反对10578183
合计150120270
这个列联表的最右边一列称为()。
A.列边缘频数B.行边缘频数
C.条件频数D.总频数
6.一所大学准备采取一项学生在宿舍上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名男学生和120名女学生进行调查,得到的结果如下:
男学生女学生合计赞成454287
反对10578183
合计150120270
这个列联表的最下边一行称为()。
A.列边缘频数B.行边缘频数
C.条件频数D.总频数
7.一所大学准备采取一项学生在宿舍上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名男学生和120名女学生进行调查,得到的结果如下:
男学生女学生合计
赞成454287
反对10578183
合计150120270
根据这个列联表计算的赞成上网收费的行百分比分别为()。
A. %和%B. %和%
C. 30%和70%D. 35%和65%
8.一所大学准备采取一项学生在宿舍上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名男学生和120名女学生进行调查,得到的结果如下:
男学生女学生合计赞成454287
反对10578183
合计150120270
根据这个列联表计算的男学生的列百分比分别为()。
A. %和%B. %和%
C. 30%和70%D. 35%和65%
9.一所大学准备采取一项学生在宿舍上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名男学生和120名女学生进行调查,得到的结果如下:
男学生女学生合计赞成454287
反对10578183
合计150120270
根据这个列联表计算的男女学生赞成上网收费的期望频数分别为()。
A. 48和和39 B. 102和81
C. 15和14 D. 25和19
10.一所大学准备采取一项学生在宿舍上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名男学生和120名女学生进行调查,得到的结果如下:
男学生女学生合计赞成454287
反对10578183
合计150120270
根据这个列联表计算的男女学生反对上网收费的期望频数分别为()。
A. 48和和39 B. 102和81
C. 15和14 D. 25和19
11.一所大学准备采取一项学生在宿舍上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名男学生和120名女学生进行调查,得到的结果如下:
男学生女学生
赞成
观察值4542
期望值4839
反对
观察值10578
期望值10281
根据这个列联表计算的
2
统计量为()。
A. B. C. D.
12.一所大学准备采取一项学生在宿舍上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名男学生和120名女学生进行调查,得到的结果如下:
男学生 女学生 合计 赞成 45 42 87 反对 105 78 183 合计
150
120
270
如果要检验男女学生对上网收费的看法是否相同,提出的原假设为( )。
A. 270:210==H ππ
B. 87:210==H ππ C. 150:210==H ππ
D. 3222.0:210==H ππ 13.一所大学准备采取一项学生在宿舍上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名男学生和120名女学生进行调查,得到的结果如下:
男学生 女学生 合计 赞成 45 42 87 反对 105 78 183 合计
150
120
270
如果要检验男女学生对上网收费的看法是否相同,即检验假设 3222.0:210==H ππ
,2
χ检验统计量的自由度是( )。
A. 1 B. 2 C. 3 D. 4
14.一所大学准备采取一项学生在宿舍上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名男学生和120名女学生进行调查,得到的结果如下:
男学生 女学生 合计 赞成 45 42 87 反对 105 78 183 合计
150
120
270
如果根据显著性水平α=,检验男女学生对上网收费的看法是否相同,即检验假设
3222.0:210==H ππ ,得出的结论是( )。
A.拒绝原假设 B.不拒绝原假设
C.可以拒绝也可以不拒绝原假设 D.可能拒绝也可能不拒绝原假设
15.ϕ相关系数是描述两个分类变量之间相关程度的一个统计量,它主要用于( )。
A. 2×2列联表数据 B. 2×3列联表数据
C. 3×3列联表数据 D. 3×4列联表数据
16. ϕ相关系数的取值范围是( )。
A. [0,1] B. [-1,0]
C. [-1,1] D. 大于1
17.如果两个分类变量之间存在完全相关,则ϕ相关系数的取值为( )。
A.0 B.小于1 C.大于1 D.|ϕ|=1
18.当|ϕ|=1时,2×2列联表中某个方向对角线上的值必须( )。
A. 全等于0 B. 全大于0 C. 全等于1 D. 全小于1
19.一所大学准备采取一项学生在宿舍上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名男学生和120名女学生进行调查,得到的结果如下:
男学生 女学生 合计 赞成
45 42 87 反对
105 78 183 合计
150 120 270 如果学生的性别与对上网收费的看法没有任何关系,则ϕ相关系数( )。
A. 等于0 B. 大于0 C. 等于1 D. 小于1 20.一所大学准备采取一项学生在宿舍上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名男学生和120名女学生进行调查,得到的结果如下:
男学生
女学生
合计 赞成
45 42 87 反对
105 78 183 合计
150 120 270
如果根据上述列联表计算的相关系数|ϕ|=1,则表明( )。
A. 男学生全部赞成,女学生全部反对
B. 男学生和女学生全部赞成 C. 男学生和女学生全部反对
D. 男学生全部赞成,女学生全部反对;或者男学生全部反对,女学生全部赞成
21.一所大学准备采取一项学生在宿舍上网收费的措施,为了解男女学生对这一措施的看法是否相同,分别抽取了150名男学生和120名女学生进行调查,得到的结果如下:
男学生 女学生
合计 赞成
45 42 87 反对
105 78 183 合计
150 120
270
根据上述列联表计算的ϕ相关系数为( )。
A. B. - C. D. -
22.当列联表中的两个变量相互独立时,计算的列联相关系数C( )。
A. 等于1 B. 大于1 C. 等于0 D. 小于0
23.对于同一个列联表计算的C系数和ϕ系数,其结果是( )。
A. C值必然大于ϕ值 B. C值必然等于ϕ值 C. C值必然小于ϕ值 D. C值可能小于ϕ值 24.利用2
χ分布进行独立性检验,要求样本容量必须足够大,特别是每个单元中的期望频数
e f 不能过小。
如果只有两个单元,每个单元的期望频数必须( )。
A. 等于或大于1 B. 等于或大于2
C. 等于或大于5 D. 等于或大于10
25.如果列联有两个以上的单元,不能应用2
χ检验的条件是( )。
A. 20%的单元期望频数e f 大于5 B. 20%的单元期望频数e f 小于5 C. 10%的单元期望频数e f 大于5 D. 10%的单元期望频数e f 小于5
选择题答案
1. A
2. D
3. C
4. B
5. B
6. A
7. A8. C9. A10.B11.A12.D
13.A14.B15.A16.A17.D18.A
19.A20.D21.D22.C23.C24.C
25.B。