贾俊平《统计学》复习笔记课后习题详解及典型题详解(数据的搜集)【圣才出品】
- 格式:pdf
- 大小:734.79 KB
- 文档页数:36
第9章分类数据分析一、思考题1.简述列联表的构造与列联表的分布。
答:列联表是由两个以上的变量进行交叉分类的频数分布表。
列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。
2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。
答:对三个生产厂甲、乙、丙提供的学习机的A、B、C 三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。
抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。
表9-2A B C 总计甲乙丙204015459065357070100200150总计75200175450根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。
建立假设:H 0:次品类型与厂家生产是独立的,H 1:次品类型与厂家生产不是独立的。
次品类型生产厂可以计算各组的期望值,如表9-3所示(表中括号内的数值为期望值)。
表9-3各组的期望值计算表A B C 总计甲乙丙20(17)40(33)15(25)45(44)90(89)65(67)35(39)70(78)70(58)100200150总计75200175450所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。
而自由度等于(R -1)(C -1)=(3-1)×(3-1)=4,若以0.01的显著性水平进行检验,查χ2分布表得20.01(4)13.277χ=。
由于220.019.821(4)13.277χχ=<=,故接受原假设H 0,即次品类型与厂家生产是独立的。
3.说明计算2χ统计量的步骤。
答:计算2χ统计量的步骤:(1)用观察值o f 减去期望值e f ;(2)将(o f -e f )之差平方;(3)将平方结果2)(e o f f -除以e f ;(4)将步骤(3)的结果加总,即得:22()o e ef f f χ-=∑。
第6章 统计量及其抽样分布一、思考题1.什么是统计量?为什么要引进统计量?统计量中为什么不含任何未知参数? 答:(1)设是从总体中抽取的容量为的一个样本,如果由此样本构造一个函数,不依赖于任何未知参数,则称函数是一个统计量。
(2)在实际应用中,当从某总体中抽取一个样本后,并不能直接应用它去对总体的有关性质和特征进行推断,这是因为样本虽然是从总体中获取的代表,含有总体性质的信息,但仍较分散。
为了使统计推断成为可能,首先必须把分散在样本中关心的信息集中起来,针对不同的研究目的,构造不同的样本函数。
(3)统计量是样本的一个函数。
由样本构造具体的统计量,实际上是对样本所含的总体信息按某种要求进行加工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统计量,所以统计量不包含未知参数。
2.判断下列样本函数哪些是统计量?哪些不是统计量?12n X X X ,,…,X n 12()n T X X X ,,…,12()n T X X X ,,…,1121021210310410()/10min()T X X X T X X X T X T X μμσ=+++==-=-…,,…,()/答:统计量中不能含有未知参数,故、是统计量,、不是统计量。
3.什么是次序统计量?答:设是从总体中抽取的一个样本,称为第个次序统计量,它是样本满足如下条件的函数:每当样本得到一组观测值…,时,其由小到大的排序中,第个值就作为次序统计量的观测值,而称为次序统计量,其中和分别为最小和最大次序统计量。
4.什么是充分统计量?答:在统计学中,假如一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,那对保证后边的统计推断质量具有重要意义。
统计量加工过程中一点信息都不损失的统计量通常称为充分统计量。
5.什么是自由度?答:统计学上的自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的变量的个数。
第9章 分类数据分析一、思考题1.简述列联表的构造与列联表的分布。
答:列联表是由两个以上的变量进行交叉分类的频数分布表。
列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。
2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。
答:对三个生产厂甲、乙、丙提供的学习机的A、B、C三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。
抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。
表9-2根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。
建立假设:H0:次品类型与厂家生产是独立的,H1:次品类型与厂家生产不是独立的。
可以计算各组的期望值,如表9-3所示(表中括号内的数值为期望值)。
表9-3 各组的期望值计算表所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。
而自由度等于(R -1)(C -1)=(3-1)×(3-1)=4,若以0.01的显著性水平进行检验,查χ2分布表得20.01(4)13.277χ=。
由于220.019.821(4)13.277χχ=<=,故接受原假设H 0,即次品类型与厂家生产是独立的。
3.说明计算2χ统计量的步骤。
答:计算2χ统计量的步骤:(1)用观察值o f 减去期望值e f ;(2)将(o f -e f )之差平方;(3)将平方结果2)(e o f f -除以e f ;(4)将步骤(3)的结果加总,即得:22()o e ef f f χ-=∑。
4.简述ϕ系数、c 系数、V 系数的各自特点。
答:(1)ϕ相关系数是描述2×2列联表数据相关程度最常用的一种相关系数。
它的计算公式为:ϕ,式中,∑-=ee of f f 22)(χ;n 为列联表中的总频数,也即样本量。
第2章 数据的搜集一、单项选择题1.二手数据的特点是( )。
A.采集数据的成本低,但搜集比较困难B.采集数据的成本低,搜集比较容易C.数据缺乏可靠性D.不适合自己研究的需要【答案】B【解析】二手数据是指与研究相关的原信息已经存在,只是对原信息重新加工、整理,使之成为进行统计分析可以使用的数据。
二手数据具有搜集方便、数据采集快、采集成本低等优点,但是得到的数据往往缺乏相关性。
2.从含有N个元素的总体中,抽取n个元素作为样本,使得总体中的每一个元素都有相同的机会(概率)被抽中,这样的抽样方式称为( )。
A.简单随机抽样B.分层抽样C.系统抽样D.整群抽样【答案】A【解析】分层抽样也称分类抽样,它是在抽样之前先将总体的元素划分为若干层(类),然后从各个层中抽取一定数量的元素组成一个样本。
系统抽样也称等距抽样,先将总体各素,直至抽取n个元素组成一个样本。
整群抽样是指先将总体划分成若干群,然后以群作为抽样单元从中抽取部分群组成一个样本,再对抽中的每个群总包含的所有元素进行观察。
3.从总体中抽取一个元素后,把这个元素放回到总体中再抽取第二个元素,直至抽取n个元素为止,这样的抽样方法称为( )。
A.重复抽样B.不重复抽样C.分层抽样D.整群抽样【答案】A【解析】重复抽样又称放回式抽样,是指每次从总体中抽取的样本单位,经检验之后又重新放回总体,参加下次抽样,这种抽样的特点是总体中每个样本单位被抽中的概率是相等的。
4.一个元素被抽中后不再放回总体,然后再从剩下的元素中抽取第二个元素,直到抽取”个元素为止,这样的抽样方法称为( )。
A.重复抽样B.不重复抽样C.分层抽样D.整群抽样【解析】不重复抽样亦称不放回抽样,是指每次从总体中抽取的样本单位,经检验之后不再放回总体,在下次抽样时不会再次抽到前面已抽中过的样品单位。
总体每经一次抽样,其样本单位数就减少一个,因此每个样品单位在各次抽样中被抽中的概率是不同的。
5.在抽样之前先将总体的元素划分为若干类,然后从各个类中抽取一定数量的元素组成一个样本,这样的抽样方式称为( )。
第9章分类数据分析9.1复习笔记一、分类数据与χ2统计量1.分类数据按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
分类数据和顺序数据都是只能归于某一类别的非数字型数据,它们是对事物进行分类的结果,其结果均表现为类别,用文字来表述,不过顺序数据的类别是有序的;数值型数据是按数字尺度测量的观测值,其结果表现为具体的数值。
分类数据是对事物进行分类的结果,其特征是,调查结果虽然用数值表示,但不同数值描述了调查对象的不同特征。
数值型数据可以转化为分类数据。
分类数据的结果是频数,χ2检验是对分类数据的频数进行分析的统计方法。
2.χ2统计量χ2统计量可以对分类数据做拟合优度检验和独立性检验,可以用于测定两个分类变量之间的相关程度。
若用f o 表示观察值频数,用f e 表示期望值频数,则χ2统计量可以写为:22()o e e f f f χ-=∑χ2检验:χ2检验是利用随机样本对总体分布与某种特定分布拟合程度的检验,也就是检验观察值与理论值之间的紧密程度。
χ2检验主要用于拟合优度检验和独立性检验。
(1)χ2统计量的特征①χ2≥0,因为它是对平方值结果的汇总;②χ2统计量的分布与自由度有关;③χ2统计量描述了观察值与期望值的接近程度。
两者越接近,即f o-f e的绝对值越小,计算出的χ2值越小;反之,f o-f e的绝对值越大,计算出的χ2值也越大。
χ2检验正是通过对χ2的计算结果与χ2分布中的临界值进行比较,做出是否拒绝原假设的统计决策。
(2)χ2分布与自由度的密切关系自由度越小,χ2的分布就越向左边倾斜;随着自由度的增加,χ2分布的偏斜程度趋于缓解,逐渐显露出对称性,随着自由度的继续增大,χ2分布将趋近于对称的正态分布。
(3)应用χ2检验统计量的注意事项①各组的理论频数f e不得小于总频数n;②总频数应较大,至少大于50;③如果某组理论频数小于5,可将相邻的若干组合并,直至理论频数大于5为止;④倘若有两个以上的单元,如果20%的单元期望频数f e小于5,则不能应用χ2检验。
统计学(第七版贾俊平)第七章期末复习笔记(详细附例题详解及公式)第七章7.1估计量与估计值估计⽅法:(1)点估计:据估计、最⼤似然法、最⼩⼆乘法(2)区间估计置信⽔平:(1- α),α为总体参数未在区间内的⽐例;常⽤的置信⽔平:99%(α=0.01),95%(α=0.05),90%(α=0.10)评价估计量的标准:⽆偏性 有效性 ⼀致性7.2 ⼀个总体参数的区间估计7.2.1总体均值的区间估计:题型:(1)总体服从正态分布,⽅差已知 (⼤、⼩样本) ;(2)总体服从正态分布,⽅差未知 (⼤样本);(3)⾮正态分布,⼤样本例⼀:(1)总体服从正态分布,且⽅差已知(⼤、⼩样本)例⼆:(3)⾮正态分布,⼤样本(n>=30)题型:(4)总体服从正态分布 ,但⽅差未知,⼩样本(n<30)例三:(4)总体服从正态分布 ,但⽅差未知,⼩样本(n<30)总结:7.2.2 总体⽐例的区间估计题型:总体服从⼆项分布,可由正态分布来近似(只讨论⼤样本)例四:7.2.3 总体⽅差的区间估计题型:估计⼀个总体的⽅差或标准差(只讨论正态总体)例五:⼩结:7.3 两个总体参数的区间估计7.3.1 两个总体均值之差的区间估计(2)⾮正态分布,但两个总体都是⼤样本;例⼀:(3)例⼀:(1)例⼆: (2)题型:(1)两个匹配的⼤样本;(2)两个匹配的⼩样本例⼀:(2)7.3.2 两个总体⽐例之差的区间估计题型:两个总体服从⼆项分布,样本独⽴例⼀:7.3.3 两个总体⽅差⽐的区间估计题型:求两个总体的⽅差⽐例⼀:7.4 样本量的确定7.4.1 估计总体均值时的样本量的确定例⼀:7.4.2 估计总体⽐例时的样本量的确定例⼀:。
第4章数据的概括性度量4.1考点归纳【知识框架】【考点提示】(1)集中趋势、离散趋势的度量指标,包括每个指标的含义、计算公式、特点、意义、适用范围(选择题、简答题、计算题考点);(2)众数、中位数和平均数三个指标的特点和应用场合,偏态分布下三个指标的关系(选择题、简答题、计算题考点);(3)分布形状的测度指标:偏态系数和峰态系数的数值含义(选择题、简答题考点)。
(4)标准分数的计算公式及应用(选择题、简答题、计算题考点);(5)经验法则、切比雪夫不等式的具体应用(选择题考点)。
【核心考点】考点一:集中趋势的度量表4-1集中趋势度量指标【注意】不同偏态程度的分布中集中趋势度量指标的关系:①对称分布中,众数、中位数和平均数相等;②左偏分布中,数据存在极小值,拉动平均数向极小值一方靠,而众数和中位数不受极值的影响,有_x<M e<M o;③右偏分布中,数据存在极大值,必然拉动平均数向极大值一方靠,因此M o<M e<_x。
【知识拓展】不同的教材分位数的计算公式不同,除了表中的计算公式,一种比较精确的计算公式:下四分位数Q L的位置=(n+1)/4,上四分位数Q U的位置=(3n+1)/4。
【真题精选】假定标志值所对应的权数都缩小1/10,则算术平均数()。
[浙江财经大学2019研]A.不变B.无法判断C.缩小百分之一D.扩大十倍【答案】A【解析】假设标志值为x,其对应的权数为f,则算术平均数为_x=∑xf/∑f;若各权数都缩小1/10,则新的算术平均数为110110xf xf x x f f '===∑∑∑∑考点二:离散程度的度量数据的离散程度反映了各变量值远离其中心值的程度,离散程度越小,代表性就越好。
表4-2离散程度的度量指标【注意】①表中方差和标准差的计算公式均为样本数据的方差和标准差。
若为总体数据,则分母应为n。
②标准差系数,也称变异系数或离散系数。
③表中平均差、样本方差、样本标准差仅给出了未分组数据的计算公式,分组数据的计算公式实质是等于未分组数据的计算公式,会运用即可。
第9章分类数据分析9.1考点归纳【知识框架】【考点提示】(1)χ2统计量的计算公式及应用(计算题考点);(2)拟合优度检验(一个分类变量)和独立性检验(两个分类变量)(简答题、计算题考点);(3)列联表中的相关测量:三个系数的计算公式、特点及应用(选择题、简答题、计算题考点)。
【核心考点】考点一:χ2统计量(1)χ2统计量计算公式22()o e ef f f χ-=∑f o 表示观察值频数,用f e 表示期望值频数。
(2)χ2统计量的特征①χ2≥0;②χ2统计量的分布与自由度有关;③χ2统计量描述了观察值与期望值的接近程度。
(3)χ2分布与自由度的关系χ2分布随着自由度的增加而向右倾斜,且逐渐趋近于对称的正态分布。
考点二:列联表中的相关测量表9-1列联表的测量指标【真题精选】当列联表中的两个变量相互独立时,计算的相关系数c()。
[中国海洋大学2018研]A.等于1B.大于1C.等于0D.小于0【答案】C【解析】两个随机变量独立,则这两个随机变量不相关,反之不成立。
9.2课后习题详解一、思考题1.简述列联表的构造与列联表的分布。
答:(1)列联表的构造:列联表是将两个以上的变量进行交叉分类的频数分布表。
(2)列联表的分布:列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。
2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。
答:(1)构造列联表:对三个生产厂甲、乙、丙提供的学习机的A、B、C三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。
抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。
表9-2(2)提出检验问题根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。
(3)进行检验建立假设:H0:次品类型与厂家生产是独立的;H1:次品类型与厂家生产不是独立的。
第13章时间序列分析和预测13.1 复习笔记一、时间序列及其分解1.时间序列(1)概念:时间序列是同一现象在不同时间上的相继观察值排列而成的序列,也称动态数列或时间数列。
(2)时间序列的两要素任何一个时间序列都具有两个基本要素:一是统计指标所属的时间,也称为时间变量;二是统计指标在特定时间的具体指标值。
(3)研究时间序列的目的①在编制时间序列的基础上,可以计算平均发展水平,进行动态水平分析;②可以计算各种速度指标,进行速度分析;③利用相关的数学模型,对现象的变动进行趋势分析。
2.时间序列的类型(1)平稳序列它是基本上不存在趋势的序列。
这类序列中的各观察值基本上都在某个固定的水平上波动,虽然在不同的时间段波动的程度不同,但并不存在某种规律,其波动可以看成是随机的。
(2)非平稳序列它是包含趋势、季节性或周期性的序列,它可能只含有其中的一种成分,也可能含有几种成分,因此非平稳序列可以分为有趋势的序列、有趋势和季节性的序列、几种成分混合而成的复合型序列。
3.时间序列的4种成分(1)趋势(T)也称长期趋势,它是时间序列在长时期内呈现出来的某种持续上升或持续下降的变动。
时间序列中的趋势可以是线性的,也可以是非线性的。
(2)季节性(S)也称季节变动,它是时间序列在一年内重复出现的周期性波动。
季节性中的“季节”一词是广义的,它不仅仅是指一年中的四季,其实是指任何一种周期性的变化。
(3)周期性(C)也称循环波动,它是时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡式变动。
(4)随机性(I)也称不规则波动,它是时间序列中除去趋势、周期性和季节性之后的偶然性波动。
4.时间序列的分解模型将时间序列分解成长期趋势、季节变动、周期变动和随机变动四个因素后,可以认为时间序列Y t是这四个因素的函数,即Y t=f(T t,S t,C t,I t),其中较常用的是加法模型和乘法模型,其表现形式为:加法模型:Y t=T t+S t+C t+I t乘法模型:Y t=T t×S t×C t×I t注意:时间序列组合模型中包含了四种因素,这是时间序列的完备模式,但是并不是在每个时间序列中这四种因素都同时存在。
第2章 数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?答:(1)如果与研究内容有关的原信息已经存在,只是对这些原信息重新加工、整理,使之成为进行统计分析可以使用的数据,则称为间接来源的数据,即二手资料。
(2)在使用二手资料前,对二手资料进行评估是必要的。
对二手资料进行评估应考虑如下一些内容:①资料是谁搜集的?这主要是考察数据搜集者的实力和社会信誉度。
②为什么目的而搜集?为了某个集团的利益而搜集的数据是值得怀疑的。
③数据是怎样搜集的?搜集数据可以有多种方法,不同方法所采集到的数据,其解释力和说服力都是不同的。
如果不了解搜集数据所用的方法,很难对数据的质量做出客观的评价。
数据的质量来源于数据的生产过程。
④什么时候搜集的?对于过时的数据,其说服力自然受到质疑。
另外,使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。
在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。
2.比较概率抽样和非概率抽样的特点。
举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
答:(1)由于非概率抽样不是依据随机原则抽选样本,样本统计量的分布是不确切的,因而无法使用样本的结果对总体相应的参数进行推断。
非概率样本的特点是操作简便、时效快、成本低,而且对于抽样中的统计学专业技术要求不是很高。
概率抽样是依据随机原则抽选样本,这时样本统计量的理论分布是存在的,因此可以根据调查的结果对总体的有关参数进行估计,计算估计误差,得到总体参数的置信区间,并且在进行抽样设计时,对估计的精度提出要求,计算为满足特定精度要求所需要的样本量。
当然,概率抽样的技术含量更高,无论抽选样本和对调查数据进行分析,都要求有较高的统计学专业知识,调查的成本也比非概率抽样的调查成本高。
(2)非概率抽样适合探索性的研究,调查的结果用于发现问题,为更深入的数量分析提供准备。
非概率抽样也适合市场调查中的概念测试,如产品包装测试、广告测试等,这时不需要将调查结果投影到总体的情况。
第2章数据的搜集一、单项选择题1.为了解大学生的消费状况,一学生社团通过微信朋友圈投放调查问卷,并邀请收到问卷的同学在自己的朋友圈内分享问卷。
关于这种调查方式,以下说法正确的是()。
[中央财经大学2018研]A.使用的抽样方式是简单随机抽样B.使用的抽样方式是配额抽样C.使用的抽样方式是非概率抽样D.这种调查不是抽样调查【答案】C【解析】非概率抽样是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
题中的调查方式属于非概率抽样中的滚雪球抽样。
2.为了快速了解北京居民对空气污染问题的态度,最适合的数据收集方式是()。
[中央财经大学2018研]A.面访B.电话调查C.邮寄问卷D.座谈会【答案】B【解析】电话调查是指调查人员通过打电话的方式向被调查者实施调查。
电话调查的最大特点是速度快,能够在很短的时间内完成调查。
而面访、邮寄问卷、座谈会的调查周期都比较长。
3.某居民小区为了解住户对物业服务的看法,准备采取抽样调查方式搜集数据。
物业管理部门利用最初的居民户登记名单进行抽样,但现在的小区中,原有的一些居民户已经搬走,同时有些是新入住的居民户。
由此造成的误差属于()。
[中央财经大学2018研] A.随机误差B.抽样框误差C.计量误差D.无回答误差【答案】B【解析】抽样框误差是指由于抽样框的不完善性造成的统计推断错误。
在概率抽样中需要根据抽样框抽取样本。
一个好的抽样框应该是:抽样框中的单位和研究总体中的单位有一一对应的关系。
现在的小区中,原有的一些居民户已经搬走,同时有些是新入住的居民户,这时,抽样框中的单位与研究总体的单位就不存在一一对应的关系,使用这样的抽样框抽取样本就会出现抽样框误差。
4.为了调查某校学生的购书费用支出,将全校学生的名单按拼音顺序排列后,每隔50名学生抽取一名学生进行调查,这种调查方法是()。
[山东大学2017研;对外经济贸易大学2017研]A.简单随机抽样B.整群抽样C.系统抽样D.分层抽样【答案】C【解析】系统抽样是将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。
贾俊平《统计学》(第7版)考点归纳和课后习题详解(含考研真题)(第12章多元线性回归)【圣才出品】第12章多元线性回归12.1 考点归纳【知识框架】【考点提⽰】(1)多元线性回归模型,包括回归模型的基本假定(简答题考点),最⼩⼆乘估计(选择题、计算题考点);(2)回归模型的拟合优度评价(简答题、计算题考点);(3)显著性检验(计算题考点);(4)多重共线性的含义、产⽣的问题、判别及处理⽅式(简答题考点)。
【核⼼考点】考点⼀:多元线性回归模型1.回归模型假定(1)E (ε)=0;(2)D (ε)=σ2;(3)()2cov ,0i j i j i j σεε?==?≠?2.参数的最⼩⼆乘估计使残差平⽅和Q =∑(y i -y ∧i )2=∑(y ∧i =β∧0-β∧1x 1-β∧2x 2-…-β∧k x k )2达到最⼩的β∧0,β∧1,β∧2,…,β∧k 。
由此可以得到求解β∧0,β∧1,β∧2,…,β∧k 的标准⽅程组为:00?0?00,1,2,,i i ββi ββQ βQ i k β==??===???多元线性回归的最⼩⼆乘估计是最优线性⽆偏估计。
考点⼆:回归⽅程的拟合优度表12-1 多元线性回归⽅程的评价【提⽰】实际应⽤中,采⽤调整的判定系数来评价多元回归⽅程的拟合优度。
【真题精选】多元线性回归模型的调整的多重判定系数取值范围在0⾄1之间。
[对外经济贸易⼤学2018研]【答案】√【解析】多重判定系数R2=SSR/SST是多元回归中的回归平⽅和占总平⽅和的⽐例,它是度量多元回归⽅程拟合程度的⼀个统计量,反映了在因变量y的变差中被估计的回归⽅程所解释的⽐例,取值为0~1。
调整的多重判定系数R a2与多重判定系数R2不同之处在于:R a2同时考虑了样本量n和模型中⾃变量的个数k的影响,这就使得R a2的值永远⼩于R2,⽽且R a2的值不会由于模型中⾃变量个数的增加⽽越来越接近1,因此R a2的取值也为0~1。
第2章数据的搜集一、单项选择题1.为了调查某校学生的购书费用支出,从各年级的学生中分别抽取100名学生,组成样本进行调查,这种抽样方法属于()。
[浙江工商大学2011研]A.简单随机抽样B.分层抽样C.系统抽样D.整群抽样【答案】B【解析】简单随机抽样就是即使从包括N个单位的抽样框中随机地、一个个地抽取n个单位作为样本,每个单位的入样概率是相等的;分层抽样是将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计;系统随机抽样也称为机械随机抽样或等距离随机抽样。
它是先将总体中各单位按一定的顺序排列,然后每隔一定的距离抽取一个单位构成样本;整群抽样又称聚类抽样,是将总体中若干个单位合并为组,这样的组称为群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。
2.为调查在中国的省会城市和4个直辖市的居民年收入,需要从这些城市的居民中抽取一个样本,你认为以下四种抽样方式哪一种会得到更有代表性的样本?( )。
[中山大学2011研]A.简单随机抽样B.整群抽样C.系统随机抽样D.分层随机抽样【答案】D【解析】在规模较大的调查中,很少直接采用简单随机抽样,一般是把这种方法和其他抽样方法结合在一起使用;整群抽样又称聚类抽样,是将总体中若干个单位合并为组,这样的组称为群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查;系统随机抽样也称为机械随机抽样或等距离随机抽样。
它是先将总体中各单位按一定的顺序排列,然后每隔一定的距离抽取一个单位构成样本;分层抽样是将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,分层抽样在实践中得到了广泛的应用。
3.某政府机构想尽快了解社会公众对其出台的一项政策的态度,最恰当的数据搜集方式是( )。
[中央财经大学2011研]A.面访B.深度访谈C.计算机辅助电话调查D.邮寄调查【答案】C【解析】面访即调查者直接走访被调查者,当面听取被调查者的意见。
第2章数据的搜集
2.1 复习笔记
一、数据的来源
1.数据的直接来源
数据的直接来源是指通过直接调查或实验活动直接获得一手数据,直接来源的数据又分为调查数据和实验数据。
它们的不同之处在于:
(1)调查数据为通过调查方法得到的数据,而实验数据为通过实验方法得到的数据。
(2)调查数据通常是针对社会现象而获取的,而实验数据大多是针对自然现象而获取的;
(3)调查数据通常取自有限总体,即总体所包含的个体单位是有限的;而实验数据是指在实验中通过控制实验对象所搜集到的变量的数据。
2.数据的间接来源
(1)间接来源的数据(二手资料)
如果与研究内容有关的原信息已经客观存在,只是对这些原信息重新加工、整理,使之成为进行统计分析可以使用的数据,则称为间接来源的数据。
(2)二手资料的优点
搜集方便;数据采集快;采集成本低。
(3)二手资料的作用
分析所要研究的问题;提供研究问题的背景,帮助研究者更好地定义问题,检验和回答某些假设和疑问,寻找研究问题的思路和途径。
(4)二手资料的局限性
针对性不够;资料的相关性不够;口径可能不一致;数据也许不准确,也许过时等。
(5)对二手资料进行评估的内容
①资料是谁搜集的?数据搜集者的实力和社会信誉度会在一定程度上影响数据说服力;
②搜集的目的是什么?为了某种特殊的利益而搜集的数据是值得怀疑的;
③数据是怎样搜集的?搜集数据的方法有很多,不同方法所采集到的数据,其解释力和说服力都是不同的。
如果不了解搜集数据所用的方法,很难对数据的质量做出客观的评价。
数据的质量来源于数据的产生过程;
④什么时候搜集的?过时的数据的说服力会受到质疑。
(6)使用二手数据的注意事项
使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。
在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。
二、调查方法
1.概率抽样和非概率抽样
(1)概率抽样
概率抽样(随机抽样):指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。
①概率抽样的特点
a.抽样时是按一定的概率以随机原则抽取样本,随机原则就是在抽取样本时排除主观
上有意识地抽取调查单位,使每个单位都有一定的机会被抽中;
b.每个单位被抽中的概率是已知的,或是可以计算出来的;
c.当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。
②概率抽样的优点
概率抽样最主要的优点是可以依据调查结果,计算估计量误差,从而得到对总体目标量进行推断的可靠程度。
还可以按照要求的精确度,计算必要的样本单位数目。
这些为统计估计结果的评估提供了有力的依据。
③概率抽样与等概率抽样的区别
概率抽样是指总体中的每个单位都有一定的非零概率被抽中,单位之间被抽中的概率可以相等,也可以不等。
等概率抽样是指总体中的每个单位都以相等的非零概率被抽中,如果单位之间被抽中的概率不等,则称为不等概率抽样。
④概率抽样的方式
a.简单随机抽样
抽样框:抽样框通常包括所有总体单位的信息,它不仅提供了备选单位的名单以供抽选,还是计算各个单位入样概率的依据。
简单随机抽样:也称为纯随机抽样,指从包括总体N个单位的抽样框中随机地、一个一个地抽取n个单位作为样本,每个单位的入样概率是相等的。
简单随机抽样是一种最基本的抽样方法,是其他抽样方法的基础。
特点:简单、直观,在抽样框完整时,可以直接从中抽取样本,由于每个单位被选中概率相同,能比较方便的用样本统计量对目标量进行估计及计算估计量误差。
局限性:第一,它要求将包含所有总体单位的名单作为抽样框,当总体单位个数N很
大时,很难构造这样的抽样框;第二,根据这种方法抽出的单位很分散,给实施调查增加了困难;第三,没有利用其他辅助信息以提高估计的效率。
b.分层抽样
概念:分层抽样是将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计。
优点:第一,保证样本中含有总体各种特征的抽样单位,样本的结构与总体的结构相近,有效地提高估计的精度;第二,在一定条件下使组织实施调查更加方便(当层的划分是按行业或行政区划进行时);第三,在对总体参数进行估计的同时,也可以对各层的目标量进行估计等等。
缺点:整体差异不明显时不适用,在使用时需要与其他抽样方法综合使用。
c.整群抽样
概念:将总体中若干个单位合并为组,这样的组称为群。
抽样时直接抽取群,然后对中选群中的所有单位全部实施调查,这样的抽样方法称为整群抽样。
优点:与简单随机抽样相比,整群抽样的优点在于简化了编制抽样框的工作量,并且调查的地点相对集中,减少调查费用,易于调查实施。
缺点:整群抽样的主要缺点是估计的精度较差。
在样本量相同的情况下,整群抽样的抽样误差通常比较大,所以要得到与简单随机抽样相同的精度,需要增加基本调查单位。
d.系统抽样
概念:将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先制定好的规则确定其他样本单位,这种抽样方法称为系统抽样。
优点:操作简便,如果有辅助信息,对总体内的单位进行有组织的排列,可以有效地提
高估计的精度。
缺点:对估计量方差的估计比较困难。
e.多阶段抽样
概念:采用类似整群抽样的方法,首先抽取群,但并不是调查群内的所有单位,而是再进一步抽样,从选中的群中抽取出若干个单位进行调查。
因为取得这些接受调查的单位需要两个步骤,所以将这种抽样方式称为二阶段抽样,将这种方法推广,使抽样的阶段数增多,就称为多阶段抽样。
优点:具有整群抽样的优点。
第一,样本相对集中,减少调查费用;第二,不需要包含所有低阶段抽样单位的抽样框;第三,由于实行了再抽样,使调查单位在更广泛的范围内展开。
适用范围:在较大规模的抽样调查中,多阶段抽样是经常被采用的方法。
(2)非概率抽样
非概率抽样是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
表2-1 非概率抽样的方式
抽样方式
(3)概率抽样与非概率抽样的比较
①概率抽样是依据随机原则抽选样本,样本统计量的理论分布存在,而非概率抽样不是依据随机原则抽选样本,样本统计量的分布是不确切的。
②概率抽样可以根据调查的结果对总体的有关参数进行估计,计算估计误差,得到总体参数的置信区间,而非概率抽样无法做到这些。
③概率抽样适合调查目的在于掌握研究对象总体的数量特征的调查,而非概率抽样适合探索性的研究,调查的结果用于发现问题,为更深入的数量分析做准备。
④概率抽样的技术含量高,要求有较高的统计学专业知识,调查的成本比较高,而非概率抽样操作简便,时效快,成本低,对抽样中的统计专业技术要求不是很高。
2.搜集数据的基本方法
样本单位确定之后,对这些单位实施调查,即从样本单位那里得到所需要的数据,可以采用不同的方法,搜集数据的基本方法有以下几种。