统计学的基本问题
- 格式:doc
- 大小:828.50 KB
- 文档页数:15
统计学学生常见提问
1. 什么是统计学?
2. 统计学有哪些主要领域?
3. 统计学主要用于解决什么样的问题?
4. 统计学的基本概念有哪些?
5. 统计学的常见数据类型有哪些?
6. 统计学中的参数估计是什么意思?
7. 统计学中的假设检验是什么意思?
8. 如何选择适当的统计分析方法?
9. 统计学中的概率是什么意思?
10. 如何理解统计学中的抽样方法?
11. 统计学中常用的描述统计方法有哪些?
12. 推断统计学中常用的方法有哪些?
13. 如何解读统计学中的置信区间?
14. 统计学中常见的数据可视化方法有哪些?
15. 统计学中的回归分析是什么意思?
16. 统计学中如何处理缺失数据?
17. 如何评估统计分析结果的准确性?
18. 统计学中的样本大小和效应大小有什么关系?
19. 统计学中如何设计有效的实验?
20. 统计学是否适用于所有类型的数据?。
统计学简答题1、统计的含义与本质是什么?(1)“统计"一词可以有三种含义:统计活动、统计数据、统计学统计活动是对各种统计数据进行收集、整理并做出相应的推断、分析的活动,通常被划分为统计调查、统计整理、和统计分析三个阶段;统计数据是通过统计活动获得的,用以表现研究现象特征的各种形式的数据;统计学则是指导统计活动的理论和方法,是关于如何收集、整理和分析数据的科学.(2)统计的本质是关于为何统计,统计什么,和如何统计的思想.2、统计学的学科性质:1、统计学就其研究对象而言,具有数量性、总体性和差异性的特点。
统计学的研究对象是各种现象的数量方面.2、统计学就其学科范畴而言,具有方法性、层次性和通用性的特点。
3、统计学就其研究方式而言,具有描述性和推断性的特点。
3、总体、样本、个体三者关系如何?试举例说明。
总体:就是统计研究的客观对象的全体,是由所有具有某种共同性质的事物所组成的集合体,有时也称为母体;样本:就是从总体中抽区的一部分个体所组成集合,也称为子样;组成总体的每个个别事物就称为个体,也称为总体单位。
(1)总体与个体的关系(可变性)总体容量随着个体数的增减可变大或变小;随着研究目的的不同,总体中的个体可发生变化;随着研究范围的变化,总体与个体的角色可以转换/(2)样本与总体的关系样本是所要研究的对,而样本则是所要观测的对象,样本是总体的代表和缩影。
样本是用来推断总体的.总体和样体的角色是可以改变的.4、理解标志、指标、变量三者的含义?标志与指标的联系与区别?标志是用以描述或体现个性特征的名称;统计指标简称指标,是反映现象总体数量特征的概念及其数值;从狭义上看,变量是指可变的数量标志;从广义上来看,变量不仅指可变的数量标志,也包括可变品质标志,因此,可变标志就是变量.(1)标志与指标的区别:指标和标志说明的对象不同,指标说明总体的特征,标志则说明个体的特征;指标与标志的表现形式不同,指标是用数值来表现的,而标志则既能用文字来表现品质标志,也能用数字来表现数量标志。
《统计学基础》复习题一、单项选择题(只有1个选项是正确答案)1.统计学的基本方法包括有( )A.调查方法、整理方法、分析方法、预测方法B.调查方法、汇总方法、预测方法、实验设计C.相对数法、平均数法、指数法、汇总法D.统计模型、大量观察、统计描述、统计推断2.变量是( )A.可变的质量指标 B.可变的数量指标和标志C.可变的品质标志 D.可变的数量标志3.下列分组中属于按品质标志分组的是()。
A.学生按考试分数分组B.产品按品种分组C.企业按计划完成程度分组D.家庭按年收入分组4.要了解某市国有工业企业生产设备情况,则统计总体是( )A.该市国有的全部工业企业B.该市国有的每一个工业企业C.该市国有的某一台设备D.该市国有制工业企业的全部生产设备5.构成统计总体的个别事物称为()A.调查单位 B.标志值 C.品质标志 D.总体单位6.有意识地选择三个农村点调查农民收入情况,这种调查方式属于()A.典型调查 B.重点调查 C.抽样调查 D.普查7.抽样调查和重点调查的主要区别是()A.选取调查单位的方式不同 B.调查的目的不同C.调查的单位不同 D.两种调查没有本质区别8.调查大庆、胜利等几个主要油田来了解我国石油生产的基本情况,这种调查方式属于()A.普查 B.典型调查 C.重点调查 D.抽样调查9.对一批商品进行质量检验,最适宜采用的方法是( ) 。
A.全面调查 B.抽样调查 C.典型调查 D.重点调查10.某市工业企业2005年生产经营成果年报呈报时间规定在2006年1月31日,则调查期限为()。
A.一日 B.一个月 C.一年 D.一年零一个月11.统计分组的核心问题是()A.划分各组界限 B.选择分组标志 C.确定组数 D.确定组距12.直接反映总体规模大小的指标是()。
A.平均指标 B.相对指标 C.总量指标 D.变异指标13、计算结构相对指标时,总体各部分数值与总体数值对比求得的比重之和()。
统计学问答题1。
什么是统计学?怎样理解统计学与统计数据的关系?答:统计学是一门收集、整理、显示和分析统计数据的科学,其目的是探索数据内在的数量规律性。
统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法乃至统计学就失去了其存在意义。
3.简要说明抽样误差和非抽样误差答:统计调查误差可分为非抽样误差和抽样误差.非抽样误差是由于调查过程中各有关环节工作失误造成的,从理论上看,这类误差是可以避免的。
抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以计量和控制的。
4(先分为集中趋势与分散程度,再继续细分,即综述7、8)一组数据的分布特征可以从哪几个方面进行测度?答:数据分布特征一般可从集中趋势、离散程度、分布形状(偏态和峰度)几方面来测度。
分布集中趋势的测度有众数、中位数、分位数、均值、几何平均数、切尾均值;分布离散程度的测度有极差、内距、方差和标准差、离散系数。
7.简述众数、中位数和均值的特点和应用场合.答:众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度来考虑的,而均值是对所有数据计算后得到的。
众数一组数据分布的峰值,容易计算,但不是总是存在,众数只有在数据量较多时才有意义,数据量较少时不宜使用。
主要适合作为分类数据的集中趋势测度值,应用场合较少;中位数是一组数据中间位置上的代表值,直观,不受极端数据的影响,但数据信息利用不够充分,当数据的分布偏斜较大时,使用中位数也许不错。
主要适合作为顺序数据的集中趋势测度值。
;均值数据对数值型数据计算的,而且利用了全部数据信息,提取的信息最充分,当数据呈对称分布或近似对称分布时,三个代表值相等或相近,此时应选择平均数。
但受极端数据的影响,对于偏态分布的数据,平均数的代表性较差,此时应考虑中位数或众数.8.标准差和方差反映数据的什么特征反映数据离散程度的特征. 标准差反应数据的变化幅度,即上下左右波动的剧烈程度。
(1)怎样理解统计的含义?它们之间有什么关系答:统计有三种含义:统计活动,统计数据,统计学。
统计活动是对统计数据进行收集,整理,分析和推断的活动。
通常划分为调查,整理,分析,统计数据是通过统计活动获得的。
统计学是指导统计活动的理论和方法,是关于如何收集、整理和分析统计数据的科学;三种含义以统计数据为核心紧密联系:统计数据与统计活动是统计成果和统计过程的关系,统计活动与统计学则是统计实践与统计理论的关系。
统计的本质:关于如何收集、整理和分析统计数据的科学。
(2)统计研究对象是什么?它有哪些特点?统计学的研究对象是指统计研究所要认识的客体。
一般来说,统计学的研究对象是客观现象总体的数量特征和数量关系,以及通过这些数量方面反映出来的客观现象发展变化的规律性。
特点:数量性,具体性,社会性,总体性。
(3)统计研究过程分为哪几个阶段?(一)设计整理方案整理方案与调查方案应紧密衔接。
整理方案中的指标体系与调查项目要一致,或者是其中的一部分,绝不能矛盾、脱节或超越调查项目的范围。
整理方案是否科学,对于统计整理乃至统计分析的质量都是至关重要的。
(二)对调查资料进行审核、订正在汇总前,要对调查得来的原始资料进行审核,审核它们是否准确、及时、完整,发现问题,加以纠正。
统计资料的审核也包括对整理后次级资料的审核。
(三)进行科学的统计分组用一定的组织形式和方法,对原始资料进行科学的分组,是统计整理的前提和基础。
(四)统计汇总对分组后的资料,进行汇总和必要的计算,就使得反映总体单位特征的资料转化为反映总体数量特征的资料。
(五)编制统计表统计表是统计资料整理的结果,也是表达统计资料的重要形式之一。
根据研究的目的可编制各种统计表。
(4)统计研究的基本方法包括哪些?(1)大量观察法;(2)统计分组法;(3)综合指标法;(4)时间数列分析法;(5)指数分析法;(6)相关分析法;(7)抽样推断法。
(5)什么是总体和总体单位?试举实际例子说明构成总体的每一个事物或基本单位称为总体单位。
《统计学原理》简答题1、环形图与饼图的区别饼图是用圆形及圆内扇形的面积来表示数值大小的圆形,它主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用。
环形图与饼图类似,但它们之间也有区别。
环形图中间有一个“空洞”,总体或样本中的每一部分数据用环中的一段表示。
而饼图只能显示一个样本(或总体)中各组成部分的数据占全部数据的比例,而环形图则可以同时绘制多个样本(或总体)的数据系列,每一个总体或样本数据系列为一个环。
因此,环形图可显示多个样本各部分所占的相应比例,从而有利于比较研究。
2、直方图与条形图的区别①条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距;②直方图各矩形连续排列,条形图分开排列;③条形图主要展示分类数据,直方图主要展示数值型数据。
3、什么是统计分组?其作用是什么?⑴定义:根据统计研究的目的与任务,将社会经济现象总体按照可变的标志划分为若干组份部分的一种统计方法。
⑵作用:①研究总体的内部结构 ②划分社会经济类型 ③揭示现象之间的依存关系4、什么是统计总体,其基本特征是什么?⑴统计总体:是由客观存在的、在同一性质的基础上结合起来的,许多独立的个别事务的整体。
⑵基本特征:大量性 同质性 差异性5、统计标志及标志的具体表现⑴统计标志:用来说明总体单位特征的名称⑵具体表现:跟在总体单位特征后面的文字描述或数值表示。
6、统计调查方案的内容包括哪些?①调查目的②调查对象和调查单位③调查项目④调查表⑤调查方式和方法⑥调查地点和调查时间⑦组织计划7、假设检验的步骤①提出假设 ②确定适当的检验统计量 ③规定显著性水平α ④计算检验统计量的值 ⑤做出统计决策8、方差分析中的多重比较——最小显著差异法(LSD )的具体步骤:第1步:提出假设:H 0:j i μμ=;H 1:j i μμ≠第2步:计算检验统计量:j i x x -。
统计学基础期末考试复习题及答案1.指标是说明总体特征的,标志是说明总体单位特征的,所以()。
(分值:A.标志和指标之间的关系是固定不变的B.标志和指标之间的关系是可以变化的(正确答案)C.标志和指标都是可以用数值表示的D.只有指标才可以用数值表示2.统计最基本的职能是()。
(分值:A.信息职能(正确答案)B.咨询职能C.反映职能D.监督职能3.“统计” 一词的三种涵义是()。
(分值:A.统计活动.统计资料和统计学(正确答案)B.统计调查.统计整理和统计分析C.统计设计.统计分析和统计预测D.统计方法.统计分析和统计预测4.统计活动过程一般由四个环节构成,即()。
(分值:A.统计调查.统计整理.统计分析和统计决策B.统计调查.统计整理.统汁分析和统计预测C.统计设计.统计调查.统计审核和统计分析D.统计设计.统计调查.统计整理和统计分析(正确答案)5.调查某市职工家庭的生活状况时,统计总体是()0 (分值:A.该市全部职工家庭(正确答案)B.该市每个职工家庭C.该市全部职工D.该市职工家庭户数7.由于电子计算机的广泛使用,手工汇总已没有必要使用了。
对错(正确答案)8.对某市工程技术人员进行普查,该市工程技术人员的工资收入水平是数量标©对(正确答案)错9.对我国主要粮食作物产区进行调查,以掌握全国主要粮食作物生长的基本情况,这种调查是重点调查。
对(正确答案)错10.我国人口普查的总体单位和调查单位都是每一个人,而填报单位是户。
对(正确答案)错11.调查单位和填报单位在任何情况下都不可能一致。
对错(正确答案)12.社会经济统计工作的研究对象是社会经济现象总体的数量方面。
对(正确答案)错13.全面调查包拈普查和统计报表。
对错(正确答案)14.由《中国统计年鉴》获得的数据属于直接的统计数据。
对错(正确答案)15.普查具有调查费用低,时效性高,适应面广,准确性高等特点。
对错(正确答案)16.普查一般要规定统一的标准调查时间,以避免调查数据的重复和遗漏。
统计学简答题汇总1、标准正态分布(u分布)与t分布有何异同?相同点:集中位置都为0,都是单峰分布,是对称分布,标准正态分布是t分布的特例(⾃由度是⽆限⼤时)不同点:t分布是⼀簇分布曲线,t 分布的曲线的形状是随⾃由度的变化⽽变化,标准正态分布的曲线的形状不变,是固定不变的,因为它的形状参数为1。
3、简述直线回归与直线相关的区别。
1资料要求上不同:直线回归分析适⽤于应变量是服从正态分布的随机变量,⾃变量是选定变量;直线相关分析适⽤于服从双变量正态分布的资料。
2 两种系数的意义不同:回归系数是表明两个变量之间数量上的依存关系,回归系数越⼤回归直线越陡峭,表⽰应变量随⾃变量变化越快;相关系数是表明两个变量之间相关的⽅向和紧密程度的,相关系数越⼤,两个变量的关联程度越⼤。
第⼀章医学统计中的基本概念2、抽样中要求每⼀个样本应该具有哪三性?从总体中抽取样本,其样本应具有“代表性”、“随机性”和“可靠性”。
(1)代表性: 就是要求样本中的每⼀个个体必须符合总体的规定。
(2)随机性: 就是要保证总体中的每个个体均有相同的⼏率被抽作样本。
(3)可靠性: 即实验的结果要具有可重复性,即由科研课题的样本得出的结果所推测总体的结论有较⼤的可信度。
由于个体之间存在差异, 只有观察⼀定数量的个体⽅能体现出其客观规律性。
每个样本的含量越多,可靠性会越⼤,但是例数增加,⼈⼒、物⼒都会发⽣困难,所以应以“⾜够”为准。
需要作“样本例数估计”。
3、什么是两个样本之间的可⽐性?可⽐性是指处理组(临床设计中称为治疗组)与对照组之间,除处理因素不同外,其他可能影响实验结果的因素要求基本齐同,也称为齐同对⽐原则。
实习⼀统计研究⼯作的基本步骤1、什么叫医学统计学?医学统计学与统计学、卫⽣统计学、⽣物统计学有何联系与区别?医学统计学:是运⽤统计学原理和⽅法研究⽣物医学资料的搜索、整理、分析和推断的⼀门学科统计学:是研究数据的收集、整理、分析与推断的科学。
目录第二章统计学的基本问题 __________________________________________________________________ 3第一节四个数据集及数据类型 ____________________________________________________________ 3一、四个常用数据集 ___________________________________________________________________ 3二、数据类型Ⅰ _______________________________________________________________________ 5三、数据类型Ⅱ _______________________________________________________________________ 6第二节统计总体、个体与样本 ____________________________________________________________ 6一、统计总体和个体 ___________________________________________________________________ 6二、总体的特点 _______________________________________________________________________ 7三、样本 _____________________________________________________________________________ 7第三节标志、指标与变量 ________________________________________________________________ 8一、统计标志 _________________________________________________________________________ 8二、统计指标 _________________________________________________________________________ 8三、变量 ____________________________________________________________________________ 10第四节指标体系 _______________________________________________________________________ 10一、统计指标体系 ____________________________________________________________________ 10二、举例:工业企业统计指标体系—企业管理与信息处理指标子体系 _________________________11三、举例:宏观统计指标体系—国民经济核算体系 ________________________________________ 12第五节统计计算工具 ___________________________________________________________________ 13一、概述 ____________________________________________________________________________ 13二、Excel实现数据处理的主要途径 _____________________________________________________ 13习题 _________________________________________________________________________________ 15第二章统计学的基本问题第一节四个数据集及数据类型一、四个常用数据集1. 中国历年主要宏观经济指标数据集(数据集01)中国历年主要宏观经济指标数据集记载了中国从1952年至2003年各主要宏观经济指标(资料来源:根据历年《中国统计年鉴》整理)。
指标包括:国民总收入、国内生产总值、各个产业的增加值、财政总收支、进出口总额等总量指标,它们都是按人民币计价,单位为:亿元;人均GDP,单位为:元/人;商品零售价格指数、居民消费价格指数都按上年=100计算;外汇储备以亿美元计价。
图2.1是该数据集的部分截图。
图2.1 中国历年主要宏观经济指标数据集2. 1995年世界各国基本情况数据集(数据集02)1995年世界各国基本情况数据集记载了1995年109个国家主要社会经济指标(资料来源:根据SPSS 自带演示数据库整理)。
指标包括:国家名称、人口(千人)、人口密度(人/每平方公里)、城市人口比重(%)、宗教信仰、期望寿命(分男、女)、识字率(分男、女)、人口增长率(%)、婴儿死亡率(‰)、人口出生率(‰)、死亡率(‰)、人均GDP(美元/人)、地区类型分六类(1-OECD国家、2-东欧、3-太平洋、亚洲、4-非洲、5-中东、6-拉丁美洲)等等。
图2.2是该数据集的部分截图。
图2.2 1995年世界各国基本情况数据集3. 公司人力资源部数据集(数据集03)公司人力资源部数据集记载了该公司工作年限在5年以上的470名员工受教育、考评与薪金的相关信息。
有关信息说明如下:性别中“m”表示男性员工,“f”表示女性员工;出生日期中的“******”表示该数据没有收集到;按工作岗位将员工分为“基本生产员工、服务与辅助生产员工、技术与管理员工”分别用“1、2、3”表示;2002-2004年三年的考评按“优、良、中、合格、不合格”五个等级进行;员工中少数民族用“1”表示,非少数民族用“0”表示;初薪是指员工到公司的第一年薪水;教育程度是指员工接受教育的年数;“工作时间”和“工作前的经验”都以月为单位。
图2.3是该数据集的部分截图。
图2.3 公司人力资源部数据集4. 企业流水线上的抽样数据集(数据集04)工厂流水线上的抽样数据集记载了一个车间2005年一月份每天在9:00、11:00、14:00、16:00四次采样的测量数据(单位:克)以及对产品包装合格情况的检验数据,图2.4是该数据集的部分截图。
图2.4 工厂流水线上的抽样数据集二、数据类型Ⅰ我们从一个例子来认识数据。
南京是一个著名的“火炉”城市,为避夏季的酷热,金陵旅行社推出了这张调查表中包含了数据的所有类型:1. 分类数据(categorical data)分类数据是对事物进行分类的结果,数据的主要特征是采用文字、数字的代码和其他符号对事物进行简单的分类和分组。
比如,对人口按性别、民族、行政区划和婚姻状况等做归类统计,对企业按照经济性质进行分类。
使用分类数据时,各个类别的叫法只表明类别的名称,至于类别之间的关系,不作任何的假定。
在实际中,为便于计算机识别和信息传输,对于分类性质的统计数据,人们往往给每一个类别赋予数字代码。
例如,男性用1表示,女性用0表示,但这就好像给商品贴上标签一样,仅是示意性的,数字代码不可以直接进行数字的运算。
调查表中问题一所提供的数据就属这类。
分类数据以定类尺度(nominal scale)来衡量。
数据集02中的“国家”、“信仰宗教”和“地区类型”都是这类数据。
2. 顺序数据(rank data)顺序数据,也可称为等级数据,也是对事物进行分类的结果,只是这些分类在语义上表现出明显的等级或顺序关系,例如,学生的成绩可以分为优秀、良好、中等、及格和不及格;产品的质量可以分为优等品、合格品和不合格品;用户的满意程度可以分为很满意、满意、不满意和很不满意。
顺序数据和分类数据一样都属于定性数据,但顺序数据比分类数据含有的信息量更多,能够进行差别和好坏的比较,但差别和好坏的程度,仍然无法给出一个具体的评价尺度。
调查表中问题二所提供的数据就属这类。
顺序数据以定序尺度(ordinal scale)来衡量。
数据集03中的三年的考评情况就是这类数据。
由于分类数据和顺序数据都说明的是事物的品质特征,通常用文字来表述,其结果均表现为类别,因此也把它们统称为定性数据或品质数据。
3. 数值型数据(metric data)数值型数据是使用自然或度量衡单位对事物进行测量的结果,其结果表现为具体数值。
它说明的是现象的数量特征,通常是用数值来表现,因此也称为定量数据或数量数据,例如考试成绩用百分制来表示;人的年龄用周岁来表示;产品的产量用件、箱和吨等来表示;各个数据之间不仅可以对比大小反映差别,还可以计算各种平均数。
调查表中问题三、四所提供的数据就属这类。
数值型数据有两种衡量尺度:一是定距尺度(interval scale),这种尺度的每一间隔是相等的,只要给出一个度量单位,就可以准确地指出两个计数之间的差值,如南京的最高温度是40℃,溧阳天目湖的最高温度是33℃,二者相差7℃,这类数据可以进行有意义的加减运算;二是定比尺度(ratio scale),这种尺度可以准确地计量两个数值之间的倍数,如旅客甲这次旅游花费了200元,旅客乙花费了100元,则旅客甲比旅客乙多化了一倍的钱,显然这类数据可以进行有意义的乘除运算。
很多经济变量都属于这种类型,如产品产量、销售额、固定资产投资、居民收入、消费支出、银行贷款余额等。
区别这两类数据的显著特征是:用定比尺度测定的数值型数据有一个绝对固定的“零点”,“0”表示的是数值,即“没有”如花费是“0”,则表示没有花费;而定距尺度测定的数据的“0”,表示的是一种水平,比如温度为“0”,不是说没有温度,而是温度在“0”这样的一个水平上。
数据集01中的所有数据、数据集02中的“人口”、“人口密度”、“男、女期望寿命”等就是这类数据。
三、数据类型Ⅱ观察数据集01与数据集02,前者以时间为序列示被描述的对象;后者是按国名顺序列示被描述的对象,而时间都固定在1995年。
我们把以时间为序排列的数据称为时间序列数据,而在同一时间层面上显示的数据称为截面数据。
这两类数据在计算描述统计量和构建评价模型时都有所区别。
1. 时间序列数据(time series data)是在不同时间上收集到的数据,它所描述的是现象随时间而变化的情况,如1952—2003年我国各年的人口总数、1952—2003年我国历年国内生产总值数据都属时间序列数据。
2. 截面数据(cross-sectional data)是在相同或近似相同的时间点上收集的数据,它所描述的是现象在某一时刻或某一时间段的变化情况,如2003年我国各地区的人口数、2003年我国各地区的国内生产总第二节统计总体、个体与样本一、统计总体和个体统计总体,简称总体(Population),就是统计所要研究的事物或现象的全体,即由客观存在的,具有某种共同特征的许多个别事物构成的整体。