贾俊平《统计学》考研真题(含复试)与典型习题详解(数据的概括性度量)【圣才出品】
- 格式:pdf
- 大小:1.49 MB
- 文档页数:43
第2章数据的搜集2.1 复习笔记一、数据的来源1.数据的直接来源数据的直接来源是指通过直接调查或实验活动直接获得一手数据,直接来源的数据又分为调查数据和实验数据。
它们的不同之处在于:(1)调查数据为通过调查方法得到的数据,而实验数据为通过实验方法得到的数据。
(2)调查数据通常是针对社会现象而获取的,而实验数据大多是针对自然现象而获取的;(3)调查数据通常取自有限总体,即总体所包含的个体单位是有限的;而实验数据是指在实验中通过控制实验对象所搜集到的变量的数据。
2.数据的间接来源(1)间接来源的数据(二手资料)如果与研究内容有关的原信息已经客观存在,只是对这些原信息重新加工、整理,使之成为进行统计分析可以使用的数据,则称为间接来源的数据。
(2)二手资料的优点搜集方便;数据采集快;采集成本低。
(3)二手资料的作用分析所要研究的问题;提供研究问题的背景,帮助研究者更好地定义问题,检验和回答某些假设和疑问,寻找研究问题的思路和途径。
(4)二手资料的局限性针对性不够;资料的相关性不够;口径可能不一致;数据也许不准确,也许过时等。
(5)对二手资料进行评估的内容①资料是谁搜集的?数据搜集者的实力和社会信誉度会在一定程度上影响数据说服力;②搜集的目的是什么?为了某种特殊的利益而搜集的数据是值得怀疑的;③数据是怎样搜集的?搜集数据的方法有很多,不同方法所采集到的数据,其解释力和说服力都是不同的。
如果不了解搜集数据所用的方法,很难对数据的质量做出客观的评价。
数据的质量来源于数据的产生过程;④什么时候搜集的?过时的数据的说服力会受到质疑。
(6)使用二手数据的注意事项使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。
在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。
二、调查方法1.概率抽样和非概率抽样(1)概率抽样概率抽样(随机抽样):指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。
第4章数据的概括性度量4.1考点归纳【知识框架】【考点提示】(1)集中趋势、离散趋势的度量指标,包括每个指标的含义、计算公式、特点、意义、适用范围(选择题、简答题、计算题考点);(2)众数、中位数和平均数三个指标的特点和应用场合,偏态分布下三个指标的关系(选择题、简答题、计算题考点);(3)分布形状的测度指标:偏态系数和峰态系数的数值含义(选择题、简答题考点)。
(4)标准分数的计算公式及应用(选择题、简答题、计算题考点);(5)经验法则、切比雪夫不等式的具体应用(选择题考点)。
【核心考点】考点一:集中趋势的度量表4-1集中趋势度量指标【注意】不同偏态程度的分布中集中趋势度量指标的关系:①对称分布中,众数、中位数和平均数相等;②左偏分布中,数据存在极小值,拉动平均数向极小值一方靠,而众数和中位数不受极值的影响,有_x<M e<M o;③右偏分布中,数据存在极大值,必然拉动平均数向极大值一方靠,因此M o<M e<_x。
【知识拓展】不同的教材分位数的计算公式不同,除了表中的计算公式,一种比较精确的计算公式:下四分位数Q L的位置=(n+1)/4,上四分位数Q U的位置=(3n+1)/4。
【真题精选】假定标志值所对应的权数都缩小1/10,则算术平均数()。
[浙江财经大学2019研]A.不变B.无法判断C.缩小百分之一D.扩大十倍【答案】A【解析】假设标志值为x,其对应的权数为f,则算术平均数为_x=∑xf/∑f;若各权数都缩小1/10,则新的算术平均数为110110xf xf x x f f '===∑∑∑∑考点二:离散程度的度量数据的离散程度反映了各变量值远离其中心值的程度,离散程度越小,代表性就越好。
表4-2离散程度的度量指标【注意】①表中方差和标准差的计算公式均为样本数据的方差和标准差。
若为总体数据,则分母应为n。
②标准差系数,也称变异系数或离散系数。
③表中平均差、样本方差、样本标准差仅给出了未分组数据的计算公式,分组数据的计算公式实质是等于未分组数据的计算公式,会运用即可。
第4章数据的概括性度量一、单项选择题1.一组数据的峰度系数为3.5,则该数据的统计分布应具有的特征是()。
[中央财经大学2018研]A.扁平分布B.尖峰分布C.左偏分布D.右偏分布【答案】B【解析】峰度系数用来度量数据在中心的聚集程度。
在正态分布情况下,峰度系数值是3。
大于3的峰度系数说明观察量更集中,有比正态分布更短的尾部;小于3的峰度系数说明观测量不那么集中,有比正态分布更长的尾部,类似于矩形的均匀分布。
2.某企业男性职工占80%,月平均工资为450元,女性职工占20%,月平均工资为400元,该企业全部职工的平均工资为()。
[中央财经大学2015研] A.425元B.430元C.435元D.440元【答案】D【解析】企业全部职工的平均工资=男性职工比例×男性月平均工资+女性职工比例×女性月平均工资=80%×450+20%×400=440(元)。
3.15位同学的某门课程考试成绩中,70分出现3次,80分出现4次,85分出现6次,90分出现2次,则他们成绩的众数为()。
[华中农业大学2015研] A.80B.85C.81.3D.90【答案】B【解析】众数是一组数据中出现次数最多的变量值。
题中,85分出现次数最多,故成绩的众数为85分。
4.一组样本的变异系数(CV)等于10,样本均值为5,则样本方差为()。
[厦门大学2014研]A.2B.4C.0.5D.2500【答案】D【解析】变异系数是一组数据的标准差与其相应的平均数之比,因而样本标准差=样本均值×变异系数=5×10=50,样本方差=50×50=2500。
5.现抽取了10个同学,每个同学的月生活费数据排序后为:660,750,780,850,960,1080,1250,1500,1630,2000。
则中位数的位置为()。
[重庆大学2013研]A.5.5B.5C.4D.6【答案】A【解析】中位数是将样本排序后处于中间位置的数据,总共有10个样本,因此中位数的位次=(1+10)/2=5.5。
第2章数据的搜集一、单项选择题1.为了解大学生的消费状况,一学生社团通过微信朋友圈投放调查问卷,并邀请收到问卷的同学在自己的朋友圈内分享问卷。
关于这种调查方式,以下说法正确的是()。
[中央财经大学2018研]A.使用的抽样方式是简单随机抽样B.使用的抽样方式是配额抽样C.使用的抽样方式是非概率抽样D.这种调查不是抽样调查【答案】C【解析】非概率抽样是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
题中的调查方式属于非概率抽样中的滚雪球抽样。
2.为了快速了解北京居民对空气污染问题的态度,最适合的数据收集方式是()。
[中央财经大学2018研]A.面访B.电话调查C.邮寄问卷D.座谈会【答案】B【解析】电话调查是指调查人员通过打电话的方式向被调查者实施调查。
电话调查的最大特点是速度快,能够在很短的时间内完成调查。
而面访、邮寄问卷、座谈会的调查周期都比较长。
3.某居民小区为了解住户对物业服务的看法,准备采取抽样调查方式搜集数据。
物业管理部门利用最初的居民户登记名单进行抽样,但现在的小区中,原有的一些居民户已经搬走,同时有些是新入住的居民户。
由此造成的误差属于()。
[中央财经大学2018研] A.随机误差B.抽样框误差C.计量误差D.无回答误差【答案】B【解析】抽样框误差是指由于抽样框的不完善性造成的统计推断错误。
在概率抽样中需要根据抽样框抽取样本。
一个好的抽样框应该是:抽样框中的单位和研究总体中的单位有一一对应的关系。
现在的小区中,原有的一些居民户已经搬走,同时有些是新入住的居民户,这时,抽样框中的单位与研究总体的单位就不存在一一对应的关系,使用这样的抽样框抽取样本就会出现抽样框误差。
4.为了调查某校学生的购书费用支出,将全校学生的名单按拼音顺序排列后,每隔50名学生抽取一名学生进行调查,这种调查方法是()。
[山东大学2017研;对外经济贸易大学2017研]A.简单随机抽样B.整群抽样C.系统抽样D.分层抽样【答案】C【解析】系统抽样是将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。
第4章数据的概括性度量一、单项选择题1.某企业男性职工占80%,月平均工资为450元,女性职工占20%,月平均工资为400元,该企业全部职工的平均工资为()。
[中央财经大学2015研] A.425元B.430元C.435元D.440元【答案】D【解析】企业全部职工的平均工资=男性职工比例×男性月平均工资+女性职工比例×女性月平均工资=80%×450+20%×400=440(元)。
2.15位同学的某门课程考试成绩中,70分出现3次,80分出现4次,85分出现6次,90分出现2次,则他们成绩的众数为()。
[华中农业大学2015研] A.80B.85C.81.3D.90【答案】B【解析】众数是一组数据中出现次数最多的变量值。
题中,85分出现次数最多,故成绩的众数为85分。
3.一组样本的变异系数(CV)等于10,样本均值为5,则样本方差为()。
[厦门大学2014研]A.2B.4C.0.5D.2500【答案】D【解析】变异系数是一组数据的标准差与其相应的平均数之比,因而样本标准差=样本均值×变异系数=5×10=50,样本方差=50×50=2500。
4.现抽取了10个同学,每个同学的月生活费数据排序后为:660,750,780,850,960,1080,1250,1500,1630,2000。
则中位数的位置为()。
[重庆大学2013研]A.5.5B.5C.4D.6【答案】A【解析】中位数是将样本排序后处于中间位置的数据,总共有10个样本,因此1 5.5102+==中位数的位次5.哪种频数分布状态下平均数、众数和中位数是相等的?( )[东北财经大学2011研]A .对称的钟形分布B .左偏的钟形分布C .右偏的钟形分布D .U 形分布【答案】A【解析】在频数对称且单峰分布的状态下,平均数、众数、中位数相等。
6.统计学期中考试非常简单,为了评估简单程度,教师记录了9名学生交上考试试卷的时间如下(分钟)[东北财经大学2012研]33,29,45,60,42,19,52,38,36(1)这些数据的极差为( )。
第1章导论一、单项选择题1.在抽样推断中,总体参数是一个()。
[中央财经大学2018研]A.随机变量B.已知的量C.统计量D.确定的量【答案】D【解析】参数是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。
由于总体数据通常是不知道的,所以参数是一个未知的确定的常数。
2.统计年鉴中2016年全国各大城市的人均家庭收入数据属于()。
[中央财经大学2018研]A.定类数据B.定序数据C.截面数据D.时间序列数据【答案】C【解析】按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据。
截面数据是在相同或近似相同的时间点上收集的数据,这类数据通常是在不同的空间获得的,用于描述现象在某一时刻的变化情况。
比如,2010年我国各地区的国内生产总值就是截面数据。
时间序列数据是在不同时间收集到的数据,这类数据是按时间顺序收集到的,用于描述现象随时间变化的情况。
比如2010~2012年我国的国内生产总值就是时间序列数据。
3.在教学评估中,某省三所高校的等级分别是优秀、良好、及格,则“等级”是()。
[浙江工商大学2017研]A.品质标志B.数量标志C.标志值D.数量指标【答案】A【解析】“等级”属于顺序数据,只能用文字来描述,因此是品质标志,其标志值为“优秀”“良好”“及格”。
4.下面不属于描述统计问题的是()。
[山东大学2015研]A.根据样本信息对总体进行的推断B.了解数据分布的特征顺序数据C.分析感兴趣的总体特征D.利用图、表或其他数据汇总工具分析数据【答案】A【解析】描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。
BCD三项都是描述统计问题。
A项中根据样本信息对总体进行推断则是推断统计内容。
5.一项民意调查的目的是想确定年轻人愿意与其父母讨论的话题。
调查结果表明:45%的年轻人愿意与其父母讨论家庭财务状况,38%的年轻人愿意与其父母讨论有关教育的话题,15%的年轻人愿意与其父母讨论爱情问题。
贾俊平《统计学》(第7版)考点归纳和课后习题详解(含考研真题)(第12章多元线性回归)【圣才出品】第12章多元线性回归12.1 考点归纳【知识框架】【考点提⽰】(1)多元线性回归模型,包括回归模型的基本假定(简答题考点),最⼩⼆乘估计(选择题、计算题考点);(2)回归模型的拟合优度评价(简答题、计算题考点);(3)显著性检验(计算题考点);(4)多重共线性的含义、产⽣的问题、判别及处理⽅式(简答题考点)。
【核⼼考点】考点⼀:多元线性回归模型1.回归模型假定(1)E (ε)=0;(2)D (ε)=σ2;(3)()2cov ,0i j i j i j σεε?==?≠?2.参数的最⼩⼆乘估计使残差平⽅和Q =∑(y i -y ∧i )2=∑(y ∧i =β∧0-β∧1x 1-β∧2x 2-…-β∧k x k )2达到最⼩的β∧0,β∧1,β∧2,…,β∧k 。
由此可以得到求解β∧0,β∧1,β∧2,…,β∧k 的标准⽅程组为:00?0?00,1,2,,i i ββi ββQ βQ i k β==??===???多元线性回归的最⼩⼆乘估计是最优线性⽆偏估计。
考点⼆:回归⽅程的拟合优度表12-1 多元线性回归⽅程的评价【提⽰】实际应⽤中,采⽤调整的判定系数来评价多元回归⽅程的拟合优度。
【真题精选】多元线性回归模型的调整的多重判定系数取值范围在0⾄1之间。
[对外经济贸易⼤学2018研]【答案】√【解析】多重判定系数R2=SSR/SST是多元回归中的回归平⽅和占总平⽅和的⽐例,它是度量多元回归⽅程拟合程度的⼀个统计量,反映了在因变量y的变差中被估计的回归⽅程所解释的⽐例,取值为0~1。
调整的多重判定系数R a2与多重判定系数R2不同之处在于:R a2同时考虑了样本量n和模型中⾃变量的个数k的影响,这就使得R a2的值永远⼩于R2,⽽且R a2的值不会由于模型中⾃变量个数的增加⽽越来越接近1,因此R a2的取值也为0~1。
目 录第1章 导 论1.1 复习笔记1.2 课后习题详解1.3 典型习题详解第2章 数据的搜集2.1 复习笔记2.2 课后习题详解2.3 典型习题详解第3章 数据的图表展示3.1 复习笔记3.2 课后习题详解3.3 典型习题详解第4章 数据的概括性度量4.1 复习笔记4.2 课后习题详解4.3 典型习题详解第5章 概率与概率分布5.1 复习笔记5.2 课后习题详解5.3 典型习题详解第6章 统计量及其抽样分布6.1 复习笔记6.2 课后习题详解6.3 典型习题详解第7章 参数估计7.1 复习笔记7.2 课后习题详解7.3 典型习题详解第8章 假设检验8.1 复习笔记8.2 课后习题详解8.3 典型习题详解第9章 分类数据分析9.1 复习笔记9.2 课后习题详解9.3 典型习题详解第10章 方差分析10.1 复习笔记10.2 课后习题详解10.3 典型习题详解第11章 一元线性回归11.1 复习笔记11.2 课后习题详解11.3 典型习题详解第12章 多元线性回归12.1 复习笔记12.2 课后习题详解12.3 典型习题详解第13章 时间序列分析和预测13.1 复习笔记13.2 课后习题详解13.3 典型习题详解第14章 指 数14.1 复习笔记14.2 课后习题详解14.3 典型习题详解第1章 导 论1.1 复习笔记一、统计学1统计学统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。
数据收集也就是取得统计数据;数据处理是将数据用图表等形式展示出来;数据分析则是选择适当的统计方法研究数据,并从数据中提取有用信息进而得出结论。
2.数据分析所用的方法(1)描述统计:研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法;(2)推断统计:研究如何利用样本数据来推断总体特征的统计方法。
二、统计数据的类型1分类数据、顺序数据、数值型数据(按计量尺度不同分类)(1)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的;(2)顺序数据:只能归于某一有序类别的非数字型数据。
第2章数据的搜集一、单项选择题1.为了调查某校学生的购书费用支出,从各年级的学生中分别抽取100名学生,组成样本进行调查,这种抽样方法属于()。
[浙江工商大学2011研]A.简单随机抽样B.分层抽样C.系统抽样D.整群抽样【答案】B【解析】简单随机抽样就是即使从包括N个单位的抽样框中随机地、一个个地抽取n个单位作为样本,每个单位的入样概率是相等的;分层抽样是将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计;系统随机抽样也称为机械随机抽样或等距离随机抽样。
它是先将总体中各单位按一定的顺序排列,然后每隔一定的距离抽取一个单位构成样本;整群抽样又称聚类抽样,是将总体中若干个单位合并为组,这样的组称为群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。
2.为调查在中国的省会城市和4个直辖市的居民年收入,需要从这些城市的居民中抽取一个样本,你认为以下四种抽样方式哪一种会得到更有代表性的样本?( )。
[中山大学2011研]A.简单随机抽样B.整群抽样C.系统随机抽样D.分层随机抽样【答案】D【解析】在规模较大的调查中,很少直接采用简单随机抽样,一般是把这种方法和其他抽样方法结合在一起使用;整群抽样又称聚类抽样,是将总体中若干个单位合并为组,这样的组称为群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查;系统随机抽样也称为机械随机抽样或等距离随机抽样。
它是先将总体中各单位按一定的顺序排列,然后每隔一定的距离抽取一个单位构成样本;分层抽样是将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,分层抽样在实践中得到了广泛的应用。
3.某政府机构想尽快了解社会公众对其出台的一项政策的态度,最恰当的数据搜集方式是( )。
[中央财经大学2011研]A.面访B.深度访谈C.计算机辅助电话调查D.邮寄调查【答案】C【解析】面访即调查者直接走访被调查者,当面听取被调查者的意见。
第1章导论1.1考点归纳【知识框架】【考点提示】(1)统计学的目的(选择题考点);(2)描述统计和推断统计的区分、参数估计和假设检验的区分(选择题考点);(3)统计数据类型、分类、各自特点及其具体应用(选择题、简答题考点)(非常重要);(4)统计学中的基本概念(选择题、简答题考点)。
【核心考点】考点一:统计数据的类型(见表1-1)表1-1统计数据的类型【注意】①分类数据和顺序数据说明的是事物的品质特征,其结果均表现为类别,因而也统称为定性数据或称品质数据;数值型数据说明的是现象的数量特征,因此也称为定量数据或数量数据。
②对不同类型的数据采用不同的统计方法来处理和分析。
对分类数据可以计算出各类别的频率,而数值型数据则可以进行数学运算。
【真题精选】1.在对数据进行汇总时,往往将男性用“1”来表示,女性用“0”来表示,所以将性别视为数值型变量。
[对外经济贸易大学2018研]【答案】×【解析】数值型变量是说明事物数字特征的一个名称,其取值是数值型数据,数值型数据是按数字尺度测量的观察值,其结果表现为具体的数值;分类变量是说明事物类别的一个名称,其取值是分类数据,分类数据是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。
性别是分类变量,为便于统计处理,对于分类变量可以用数字代码来表示各个类别。
2.下列数据不属于时间序列数据的是()。
[四川大学2016研]A.1990~2014年我国每年进出口总额B.2014年某品牌手机在中国各个省市的销售量C.成都市2014年每个月的PM2.5月平均浓度D.某股票在2015年1月的日收盘价【答案】B【解析】时间序列数据是在不同时间收集到的数据,这类数据是按时间顺序收集到的,用于描述现象随时间变化的情况。
本题中B项是在相同的时间点、不同的空间上获得的数据,属于截面数据。
考点二:统计中的基本概念1.总体和样本(1)总体、个体(2)样本、样本量2.参数和统计量(1)参数:用于描述总体特征,是未知的常数。