描述统计与推断统计
- 格式:doc
- 大小:84.00 KB
- 文档页数:20
描述统计与推断统计统计学是一门研究如何从收集的数据中获得信息和研究结论的学科。
在统计学中,有两个重要的分支:描述统计和推断统计。
本文将详细介绍这两个分支的概念、应用和区别。
一、描述统计描述统计是通过对已知的数据进行总结、整理和解释,来描述和展示数据的特征和分布情况。
描述统计的方法主要包括中心趋势度量、离散度量和数据可视化。
下面将对这些方法进行详细介绍。
1. 中心趋势度量中心趋势度量是用来描述一组数据集中趋向于聚集的程度的度量方式。
常见的中心趋势度量有平均值、中位数和众数。
平均值是将所有数据相加后再除以数据的个数。
中位数是将数据按从小到大的顺序排列,找出中间的数值。
众数是数据集中出现次数最多的数值。
2. 离散度量离散度量是衡量数据集中数据分散程度的度量方式。
常见的离散度量有极差、方差和标准差。
极差是数据集中最大值和最小值之间的差值。
方差是每个数据与平均值之差的平方值的平均数。
标准差是方差的平方根。
3. 数据可视化数据可视化是使用图表、图形等形式将数据直观地展示出来。
常用的数据可视化方法有条形图、饼图、折线图和散点图等。
这些图表可以帮助我们更清晰地了解数据的分布、关系和趋势。
二、推断统计推断统计是通过对取样数据的分析,从而推断总体的特征和未来可能的情况。
它利用概率理论和统计推断方法,通过对样本数据的处理得出对总体的推断。
推断统计主要包括参数估计和假设检验。
1. 参数估计参数估计是使用样本数据对总体参数进行估计的方法。
常用的参数估计方法有点估计和区间估计。
点估计是通过样本数据得到总体参数的一个具体值。
区间估计是通过样本数据得到总体参数的一个区间范围。
2. 假设检验假设检验是根据样本数据对总体假设进行检验的方法。
它包括建立原假设和备择假设、选择合适的检验统计量、计算检验统计量的值以及根据统计量的值判断是否拒绝原假设。
三、描述统计与推断统计的比较描述统计和推断统计在数据分析的目的和方法上存在一些不同。
描述统计主要用于描述和展示已有数据的特征和分布情况,不涉及对总体做出推断。
统计描述与统计推断统计的主要工作就是对统计数据进行统计描述和统计推断。
统计描述是统计分析的最基本内容,是指应用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行测定和描述;而统计推断是指通过抽样等方式进行样本估计总体特征的过程,包括参数估计和假设检验两项内容。
(一)统计描述1.计量资料的统计描述计量资料的统计描述主要通过编制频数分布表、计算集中趋势指标和离散趁势指标以及统计图表来进行。
(1)集中趋势。
指频数表中频数分布表现为频数向某一位置集中的趋势。
集中趋势的描述指标:1)算术平均数。
直接法:x为观察值,n为个数加权法又称频数表法,适用于频数表资料,当观察例数较多时用。
f为各组段的频数。
2)几何平均数(geometric mean)。
几何平均数用符号G表示。
用于反映一组经对数转换后呈对称分布的变量值在数学上的平均水平。
直接法:加权法又称频数表法,当观察例数n较大时,可先编制频数分布表,用此法算几何平均数:3)百分位数(percentile )与中位数(median )。
百分位数是一种位置坐标,用符号x P 表示常用的百分位数有 2.5P 、5P 、50P 、75P 、95P 、97.5P 等,其中25P 、50P 、75P 又称为四分位数。
百分位数常用于描述一组观察值在某百分位置上的水平,多个百分位结合使用,可更全面地描述资料的分布特征。
中位数是一个特定的百分位数即50P ,用符号M 表示。
把一组观察值按从小到大(或从大到小)的次序排列,位置居于最中央的那个数据就是中位数。
中位数也是反映频数分布集中位置的统计指标,但它只由所处中间位置的部分变量值计算所得,不能反映所有数值的变化,故中位数缺乏敏感性。
中位数理论上可以用于任何分布类型的资料,但实践中常用于偏态分布资料和分布两端无确定值的资料。
其计算方法有直接法和频数表法两种。
直接法:当观察例数n 不大时,此法常用,先将观察值按大小次序排列,选用下列公式求M 。
描述统计与推断统计的区别描述统计和推断统计是统计学中两个重要的概念。
它们分别指的是通过观察和总结数据来进行数据分析,并通过数据中的样本进行推断和假设验证的方法。
下面将详细介绍描述统计和推断统计的区别。
描述统计是统计学中最基本的方法之一,它主要是通过对数据进行收集、整理、分类和总结,来描述和概括数据的基本特征和情况。
描述统计主要包括以下几个方面:1. 集中趋势度量:通过计算数据的均值、中位数和众数等指标,来反映数据的集中趋势。
均值是数据的算术平均数,中位数是将数据按大小排序后中间的那个数,众数是数据中出现次数最多的数。
2. 离散程度度量:通过计算数据的范围、方差和标准差等指标,来反映数据的离散程度。
范围是数据的最大值与最小值的差异,方差是各数据与均值的差的平方的平均数,标准差是方差的平方根。
3. 分布形态描述:通过绘制直方图、频率多边形和累积频率曲线等图表,来反映数据的分布情况。
直方图将数据按照一定的区间划分,统计每个区间内的频数或频率,以展示数据的分布规律。
4. 相关性分析:通过计算数据的相关系数,来反映两个变量之间的相关程度。
相关系数可以衡量两个变量之间的线性关系强度和方向,常用的相关系数有皮尔逊相关系数和斯皮尔曼相关系数等。
而推断统计是在描述统计的基础上,利用采集到的样本数据对总体进行推断,进一步分析总体的特征和性质。
推断统计主要包括以下几个方面:1. 参数估计:通过样本数据来估计总体参数的取值范围。
参数是总体的某个特性的度量,如总体均值、总体比例等。
参数估计根据样本数据计算样本均值、样本比例等作为总体参数的估计值,同时给出置信区间。
2. 假设检验:通过比较样本数据与总体假设进行检验,来推断总体是否存在某种特征或差异。
假设检验通常包括设置原假设和备择假设、计算检验统计量、确定显著性水平以及给出结论等步骤。
3. 方差分析:通过比较不同样本的均值差异,来推断总体均值是否存在显著差异。
方差分析通常用于比较两个或多个样本均值是否具有统计学上的显著性差异。
描述统计与推断统计-心理学统计与测量经典习题1第一章描述统计名词解释1、描述统计(吉林大学2002研)答:描述统计主要研究如何整理心理与教育科学实验或调查得来得大量数据,描述一组数据得全貌,表达一件事物得性质。
具体内容有:数据如何分组,如何使用各种统计表与统计图得方法去描述一组数据得分组及分布情况,如何通过一组数据计算一些特征数,减缩数据,进一步显示与描述一组数据得全貌。
2、相关系数(吉林大学2002研)答:相关系数就是两列变量间相关程度得数字表现形式,或者说就是表示相关程度得指标。
作为样本得统计量用r表示,作为总体参数一般用ρ表示。
相关系数不就是等距得度量值,因此在比较相关程度时,只能说绝对值大者比绝对值小者相关更密切一些,而不能进行加减乘除。
3、差异系数(浙大2003研)答:差异系数,又称变异系数、相对标准差等,它就是一种相对差异量,为标准差对平均数得百分比。
其公式如下:常用于:①同一团体不同观测值离散程度得比较;②对于水平相差较大,但进行得就是同一种观测得各种团体,进行观测值离散程度得比较。
4、二列相关(中科院2004研)答:如果两列变量均属于正态分布,其中一列变量为等距或等比得测量数据,另一列变量虽然也就是正态分布,但被人为地划分为两类。
求这样两列变量得相关用二列相关。
5、集中量数与差异量数(浙大2000研,苏州大学2002研)答:集中趋势与离中趋势就是次数分布得两个基本特征。
数据得集中趋势就就是指数据分布中大量数据向某方向集中得程度,离中趋势就是指数据分布中数据彼此分散得程度。
用来描述一组数据这两种特点得统计量分别称为集中量数与差异量数。
6、中位数(南开大学2004研)答:中位数,又称中点数,中数,就是指位于一组数据中较大一半与较小一半中间位置得那个数,用Md或Mdn来表示。
7、品质相关(师大2002研)答:品质相关就是指R×C表得两个因素之间得关联程度。
两个因素只被划为了不同得品质类别,其数据一般都就是计数得数据,而非测量得数据。
描述性统计与推断性统计统计学是一门研究数据收集、分析和解释的学科。
在统计学中,描述性统计和推断性统计是两个重要的概念。
描述性统计是对数据进行总结和描述的过程,而推断性统计则是通过对样本数据进行分析来推断总体特征的过程。
一、描述性统计描述性统计是对数据进行总结和描述的过程。
它主要通过计算和图表来展示数据的特征,包括中心趋势、离散程度和数据分布等。
常用的描述性统计方法包括平均数、中位数、众数、标准差、方差和百分位数等。
1. 中心趋势中心趋势是描述数据集中程度的统计指标。
常用的中心趋势指标有平均数、中位数和众数。
平均数是将所有数据相加后除以数据个数得到的结果,它可以反映数据的总体水平。
中位数是将数据按照大小排序后,位于中间位置的数值,它可以反映数据的中间位置。
众数是数据集中出现次数最多的数值,它可以反映数据的集中程度。
2. 离散程度离散程度是描述数据分散程度的统计指标。
常用的离散程度指标有标准差和方差。
标准差是数据偏离平均数的平均程度,它可以反映数据的离散程度。
方差是标准差的平方,它可以反映数据的离散程度。
3. 数据分布数据分布是描述数据在不同取值上的分布情况。
常用的数据分布指标有百分位数和频数分布表。
百分位数是将数据按照大小排序后,位于某个百分比位置的数值,它可以反映数据的分布情况。
频数分布表是将数据按照不同取值进行分类,并统计每个取值的频数,它可以反映数据的分布情况。
二、推断性统计推断性统计是通过对样本数据进行分析来推断总体特征的过程。
它主要通过假设检验和置信区间来进行推断。
假设检验是通过对样本数据进行统计推断,判断总体参数是否满足某个假设。
置信区间是通过对样本数据进行统计推断,估计总体参数的范围。
1. 假设检验假设检验是通过对样本数据进行统计推断,判断总体参数是否满足某个假设。
它包括设置原假设和备择假设、选择适当的检验统计量、计算检验统计量的值、确定拒绝域和做出推断等步骤。
常用的假设检验方法有单样本检验、双样本检验和方差分析等。
毕业论文数据分析如何运用统计学方法对研究数据进行分析在毕业论文中,数据分析是一个重要的部分,它可以帮助研究者对所收集到的数据进行深入的研究和解读。
而统计学方法是进行数据分析的核心工具,通过运用统计学方法,可以有效地对研究数据进行分析,得出客观准确的结论,并为论文提供坚实的支持。
本文将介绍统计学中常用的几种数据分析方法,并探讨如何运用这些方法对研究数据进行分析。
一、描述统计分析描述统计分析是对研究数据进行总结、整理、描述和解读的方法。
它可以通过计算一些基本统计量,如均值、中位数、众数、标准差等来揭示数据的分布规律和变异程度。
此外,描述统计分析还可以通过制作表格、图表等形式来直观地展示数据,使得读者更加容易理解和对比不同数据之间的差异。
在毕业论文中,描述统计分析通常在研究数据的背景和特征描述部分进行应用,可以帮助读者对研究对象有一个整体的认识。
二、推断统计分析推断统计分析是通过从样本中得出结论来推断总体的一种方法。
它通过建立合适的假设、进行参数估计和假设检验来对研究数据进行分析。
在毕业论文中,推断统计分析常用于研究结果的验证和论证。
例如,研究者可以通过抽样调查的方式获得一个样本,并通过统计学方法对样本数据进行分析,从而得到关于总体的结论,并推断这一结论是否可以应用于整个总体。
通过推断统计分析,研究者可以对所研究的问题进行更深入的分析,并为研究结果的可靠性提供科学依据。
三、回归分析回归分析是通过建立数学模型,研究自变量和因变量之间的关系,从而进行预测、解释和控制的一种方法。
在毕业论文中,回归分析常用于研究数据的预测和影响因素的分析。
例如,在市场营销研究中,研究者可以通过回归分析来分析影响顾客购买决策的因素,并根据分析结果提出相应的营销策略。
回归分析可以帮助研究者深入理解数据背后的规律和影响因素,并为研究提供定量的预测和判断。
四、方差分析方差分析是一种用于比较两个或多个总体的均值差异是否显著的方法。
它通过将总体的差异分解成组内变异和组间变异来判断差异的显著性。
描述统计和推断统计的含义描述统计和推断统计,这两个名字听起来有点高深,但其实它们在我们的生活中无处不在,就像那每天都要喝的水。
描述统计,就是用来给我们一个概括,让我们大概知道某个现象的情况。
就好比你参加了一场派对,看到大家都在聊天,音乐也很嗨,这时候你心里就会想,“哎呀,这派对真热闹!”描述统计就像给你提供了一个派对的概述,数据的平均值、中位数、众数这些就是你在派对上看到的热闹程度。
比如,假如有100个人参加,平均年龄是25岁,那你就能想象这派对上年轻的气息扑面而来,仿佛大家都是朝气蓬勃的小伙子和姑娘。
说到这里,推断统计就更有意思了。
它可不是随便说说的,而是有点像一个侦探,深入调查背后的秘密。
它帮助我们从一个小样本推断出整个大局,简直就像从一颗苹果推测整棵苹果树的产量。
想象一下,你在超市里买了个苹果,结果咬了一口,味道超赞。
你就开始想,这一整箱的苹果是不是都那么好吃?这时候,推断统计就上场了。
通过对这一个苹果的调查,你可以推测箱里其他苹果的质量,前提是这些苹果都是同一批的,不然就得小心“东边不亮西边亮”的情况了。
再说了,描述统计是一个直观的朋友,它能把复杂的数据用简单的方式呈现出来,让你一目了然。
比如,统计班里同学的考试成绩,画个柱状图,大家的成绩分布清清楚楚。
你看,图一出来,谁高谁低立刻就知道了。
这样一来,班里的气氛也变得活跃了,大家围着图表讨论,甚至有人开玩笑:“我这成绩真是惨不忍睹,跟个红灯笼似的。
”这就是描述统计的魅力,让大家轻松愉快地面对数据。
而推断统计的神秘感则在于它的不确定性和可能性。
它要告诉你,这种从小样本得出的推测,可能会有偏差。
想象一下,你在一个小镇上做了个民意调查,问大家喜欢吃的冰淇淋口味,结果发现巧克力最受欢迎。
然后你心里美滋滋地想着:“这全国人民肯定都爱巧克力!”但等你去大城市调查时,发现草莓才是大家心中的王者。
这时候你就意识到,推断统计并不是绝对的,它让你明白,任何结论都有可能因为样本的选择而改变。
统计学有哪些统计方法
统计学有以下几种常用的统计方法:
1. 描述统计:包括均值、中位数、众数、方差、标准差等,用于描述样本或总体的特征和变异程度。
2. 推断统计:通过样本推断总体的参数或进行假设检验,常用方法包括置信区间估计、假设检验、相关分析、回归分析等。
3. 抽样技术:用于从总体中选取样本的方法,如简单随机抽样、分层抽样、整群抽样等。
4. 因子分析:用于研究多个变量之间的相关关系,通过将变量进行综合,得到相对独立的因子。
5. 非参数统计:不依赖于总体分布的假设,常用方法包括秩和检验、符号检验、K-S检验等。
6. 时间序列分析:研究时间序列数据的分析方法,包括平稳时间序列建模、ARIMA模型、指数平滑法等。
7. 生存分析:用于分析生物、医学等领域中的事件发生时间或生存时间,包括
生存曲线、危险比、Kaplan-Meier估计等。
8. 实验设计:研究如何设计并进行实验以获取有效的数据,例如完全随机设计、随机区组设计、拉丁方设计等。
9. 多元分析:用于研究多个变量之间的关系,常用方法有主成分分析、聚类分析、判别分析等。
10. 电脑模拟:利用计算机进行随机事件模拟,通过模拟大量的随机事件来估计概率、评估决策等。
统计学重点笔记第一章导论一、比较描述统计和推断统计:数据分析是通过统计方法研究数据,其所用的方法可分为描述统计和推断统计。
(1)描述性统计:研究一组数据的组织、整理和描述的统计学分支,是社会科学实证研究中最常用的方法,也是统计分析中必不可少的一步。
内容包括取得研究所需要的数据、用图表形式对数据进行加工处理和显示,进而通过综合、概括与分析,得出反映所研究现象的一般性特征。
(2)推断统计学:是研究如何利用样本数据对总体的数量特征进行推断的统计学分支。
研究者所关心的是总体的某些特征,但许多总体太大,无法对每个个体进行测量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行测量,然后根据样本数据对所研究的总体特征进行推断,这就是推断统计所要解决的问题。
其内容包括抽样分布理论,参数估计,假设检验,方差分析,回归分析,时间序列分析等等。
(3)两者的关系:描述统计是基础,推断统计是主体二、比较分类数据、顺序数据和数值型数据:根据所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
(1)分类数据是只能归于某一类别的非数字型数据。
它是对事物进行分类的结果,数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的。
(2)顺序数量是只能归于某一有序类别的非数字型数据。
也是对事物进行分类的结果,但这些类别是有顺序的,它是由顺序尺度计量形成的。
(3)数值型数据是按数字尺度测量的观察值。
其结果表现为具体的数值,现实中我们所处理的大多数都是数值型数据。
总之,分类数据和顺序数据说明的是事物的本质特征,通常是用文字来表达的,其结果均表现为类别,因而也统称为定型数据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此可称为定量数据或数量数据。
三、比较总体、样本、参数、统计量和变量:(1)总体是包含所研究的全部个体的集合。
通常是我们所关心的一些个体组成,如由多个企业所构成的集合,多个居民户所构成的集合。
描述统计与推断统计-心理学统计与测量经典习题1第一章描述统计名词解释1.描述统计(吉林大学2002研)答:描述统计主要研究如何整理心理与教育科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质。
具体内容有:数据如何分组,如何使用各种统计表与统计图的方法去描述一组数据的分组及分布情况,如何通过一组数据计算一些特征数,减缩数据,进一步显示与描述一组数据的全貌。
2.相关系数(吉林大学2002研)答:相关系数是两列变量间相关程度的数字表现形式,或者说是表示相关程度的指标。
作为样本的统计量用r表示,作为总体参数一般用ρ表示。
相关系数不是等距的度量值,因此在比较相关程度时,只能说绝对值大者比绝对值小者相关更密切一些,而不能进行加减乘除。
3.差异系数(浙大2003研)答:差异系数,又称变异系数、相对标准差等,它是一种相对差异量,为标准差对平均数的百分比。
其公式如下:常用于:①同一团体不同观测值离散程度的比较;②对于水平相差较大,但进行的是同一种观测的各种团体,进行观测值离散程度的比较。
4.二列相关(中科院2004研)答:如果两列变量均属于正态分布,其中一列变量为等距或等比的测量数据,另一列变量虽然也是正态分布,但被人为地划分为两类。
求这样两列变量的相关用二列相关。
5.集中量数与差异量数(浙大2000研,苏州大学2002研)答:集中趋势和离中趋势是次数分布的两个基本特征。
数据的集中趋势就是指数据分布中大量数据向某方向集中的程度,离中趋势是指数据分布中数据彼此分散的程度。
用来描述一组数据这两种特点的统计量分别称为集中量数和差异量数。
6.中位数(南开大学2004研)答:中位数,又称中点数,中数,是指位于一组数据中较大一半和较小一半中间位置的那个数,用Md 或Mdn来表示。
7.品质相关(师大2002研)答:品质相关是指R×C表的两个因素之间的关联程度。
两个因素只被划为了不同的品质类别,其数据一般都是计数的数据,而非测量的数据。
品质相关可依二因素的性质及分类项目的不同,而有不同的名称和计算方法,较常见的有四分相关和Ф相关。
8.标准分数(华南师大2004研)答:标准分数,又称基分数或Z分数,是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。
其计算公式为:简答题1.简述使用积差相关系数的条件。
(首师大2004研)答:一般来说,用于计算积差相关系数的数据资料,需要满足下面几个条件:①要求成对的数据,即若干个体中每个个体都有两种不同的观测值。
②两列变量各自总体的分布都是正态,即正态双变量,至少两个变量服从的分布应是接近正态的单峰分布。
③两个相关的变量是连续变量,也即两列数据都是测量数据。
④两列变量之间的关系应是直线性的,如果是非直线性的双列变量,不能计算线性相关。
2.简述算术平均数的使用特点。
(浙大2003研,苏州大学2002研)答:算术平均数的优点有反应灵敏;计算严密;计算简单;简明易解;适合于进一步用代数方法演算;较少受抽样变动的影响。
缺点有易受极端数据的影响;如果出现模糊不清的数据时,无法计算平均数,因为平均数的计算需要每个数据的加入。
勤*思老师期待您的好消息。
从算术平均数的这些特点可以看出,如果一组数据是比较准确,可靠又同质,而且需要每一个数据都加入计算,同时还要作进一步代数运算时,用算术平均数表示其集中趋势最佳。
3.如果你不知道两个变量概念之间的关系,只知道两个变量的相关系数很高,请问你可能做出什么样的解释?(武汉大学2004研)答:相关系数是两列变量间相关程度的数字表现形式,或者说是表示相关程度的指标。
两个变量的相关系数很高,只能说明两变量间具有较高的共变关系,即一个变量的变化会引起另一个变量朝相同或相反方向发生变化。
至于二者有无因果关系,或谁是因谁是果则无法确定。
所以在解释时只能说两变量间存在较高的相关关系。
4.一组大学生的智力水平和性别之间求相关,设男为1,女为2。
如果两变量的相关为负,请问说明了什么情况?请举例说明。
(武汉大学2004研)答:根据题意,如果两变量的相关为负,则说明大学生的智力水平与性别存在负相关,即男生智力水平低,女生智力水平高。
举例提示:本题所求的相关是点二列相关,一列变量为等距变量(智力水平),另一列变量为名义变量(性别)。
根据点列相关的数据特点,列出两组数据,运用相应公式计算即可。
要注意的是,男生的智力水平平均分数应小于女生的。
5.某省进行了一次小学五年级的数学统考。
已知不同小学教学水平相差较大,但同一个小学的五年级的不同班级教学水平很相近。
以学生的考试成绩为原始数据,问:①如何处理这些原始数据,使得数据处理的结果能够比较不同小学学生的数学学习潜能?答:提示:使用标准分数。
由于要考察的是不同学生的数学学习潜能,而非已有的数学水平,所以应该以每个学校的五年级学生为总体,求每个学生的标准分数,然后比较不同学校学生间的标准分数。
②如何处理这些原始数据,使得数据处理的结果能够反映一个学校的教学水平?(南开大学2004研)答:提示:一个学校的教学水平主要体现在学生的学习成绩上,而学生成绩的好坏有两个标准:一是平均水平的高低,二是整体水平的差异。
一般来说,平均水平越高,同时整体水平差异越小,表明该学校的教学水平高,反之则低。
而同时反映了这两个指标的只有差异系数(CV)。
其公式为:6.举例说明相关程度很高的两个变量之间并不存在因果关系。
(北师大2001研)答:变量之间的因果关系必须符合以下几个条件:①二者之间必须有可解释的相关关系;②二者必须有一定的时间先后顺序,也就是说“因”的变化在前,“果”的变化在后,二者顺序不能变;③二者不能是虚假关系(即一种关系被另一种关系被另一种关系取代后,原来的关系被证明不成立);④因果决定的方向不能改变。
而变量之间的相关关系是一种共变关系,即一种变量发生变化,另一种变量也相应地朝相同或相反方向发生变化。
但有高相关的两个变量之间并不一定存在因果关系,如一般情况下,数学成绩好的学生,物理成绩也会比较好,即两者存在很高的正相关。
但是,数学成绩和物理成绩之间没有一定的时间先后顺序,而且无法确定二者谁决定了谁,即不能满足因果关系的②④两个条件,所以不是因果关系。
7.度量离中趋势的差异量数有哪些?为什么要度量差异量数?(西北师大2002研)答:对于数据变异性即离中趋势进行度量的一组统计量,称作差异量数。
这些差异量数有标准差或方差,全距,平均差,四分差及各种百分差等。
一组数据集中量数的代表性如何,可由表示差异情况的量数来说明。
差异量数越小,则集中量数的代表性越大;若差异量数越大,则集中量数的代表性越小。
如差异量数为零,则说明该组数据彼此相等,其值都与集中量数相同。
集中量数是指量尺上的一点,是点值,而差异量数是量尺上的一段距离,只有将二者很好地结合,才能对一组数据的全貌进行清晰的描述。
所以需要度量差异量数。
8.用算术平均数度量集中趋势存在哪些缺点?试举例说明。
(重大2004研)答:其缺点有:易受极端数据的影响;如果出现模糊不清的数据时,无法计算平均数,因为平均数的计算需要每个数据的加入。
如:有两组物理成绩:第一组:25,37,32,60,100,99,96第二组:63,72,60,68,63,62,61尽管两组成绩的平均分相等都约为64,但由于极端数据的存在,64不能很好地代表第一组数据的平均水平,却较好地代表了第二组数据。
计算题1.五位教师对甲乙丙三篇作文分别排定名次如下表;名次教师序号甲乙丙131 2232 1331 2413 2513 2请对上述数据进行相应的统计分析。
(师大2003研)答题提示:题目目的是让考生对5位教师的一致性做出评价。
该题是让5个被试(教师)对3篇作文进行等级评定,每个被试都根据自己的标准对三篇作文排出了一个等级顺序。
所以应该计算肯德尔W系数。
将题中原始数据代入公式即可。
2.计算未分组数据:18,18,20,21,19,25,24,27,22,25,26的平均数、中数和标准差。
(首师大2003研)答题提示:平均数与标准差的计算直接将原始数据代入相应公式即可。
中位数的计算稍复杂一些。
将数据从小到大进行排序,可知数组中虽有重复数据,但位于中间的数非重复数据,加之数据数为偶数,所以取第N/2和第N/2+1两个数的平均数作为中数即可。
3.4名教师各自评阅相同的5篇作文,表2为每位教师给每篇作文的等级,试计算肯德尔W系数。
(首师大2003研)表2教师对学生作文的评分答题提示:将数据代入肯德尔W系数即可。
4.把下列分数转换成标准分数。
11.0,11.3,10.0,9.0,11.5,12.2,13.1,9.7,10.5(华南师大2003研)答题提示:先根据相应公式计算平均数和标准差,然后根据标准分数公式依次计算每个分数的标准分数。
5.假定学生的成绩呈正态分布,某班五名学生的数学和物理成绩如下,求相关系数。
(重大2004研)答题提示:两列数据均为测量数据,而且呈正态分布,因此应该求积差相关。
将数据代入积差相关公式即可。
第二章推断统计单选题1.什么情况下样本均值分布是正态分布?A 总体分布是正态分布B 样本容量在30以上C A和B同时满足D A或B之中任意一个条件满足(北京大学2000)参考答案D2.以下关于假设检验的命题,哪一个是正确的?A如果H0在=.05的单侧检验中被接受,那么H0在=.05的双侧检验中一定会被接受B如果t的观测值大于t的临界值,一定可以拒绝H0C如果H0在=.05的水平上被拒绝,那么H0在=.01的水平上一定会被拒绝D在某一次实验中,如果实验者甲用=.05的标准,实验者乙用=.01的标准。
实验者甲犯II类错误的概率一定会大于实验者乙。
(北京大学2000)参考答案D3.让64位大学生品尝A B两种品牌的可乐并选择一种自己比较喜欢的。
如果这两种品牌的可乐味道实际没有任何区别,有39人或39人以上选择品牌B的概率是(不查表):A 2.28%B 4.01%C 5.21%D 39.06%(北京大学2000)参考答案C4.在多元回归的方法中,除哪种方法外,各预测源进入回归方程的次序是单纯由统计数据决定的:A逐步回归B层次回归C向前法D后退法(北京大学2000)参考答案B5.以下关于假设检验的命题哪一个是正确的A、实验者甲用=0.05的标准,实验者乙用=0.01的标准,甲犯II类错误的概率一定会大于乙:B、统计效力总不会比水平小C、扩大样本容量犯II类错误的概率增加D、两个总体间差异小,正确拒绝虚无假设的机会增加。
(北京大学2002)参考答案 D6.已知X和Y的相关系数r1是0.38,在0.05的水平上显著,A与B的相关系数r2是0.18,在0.05的水平上不显著A、r1与r2在0.05水平上差异显著B、r1与r2在统计上肯定有显著差异C、无法推知r1与r2在统计上差异是否显著D、r1与r2在统计上不存在显著差异(北京大学2002)参考答案C7.在回归方程中,假设其他因素保持不变,当X与Y相关趋近于0时,估计的标准误是怎样变化?A、不变B、提高C、降低D、也趋近于0(北京大学2002)参考答案 C简答题1.非参数检验方法的特点有哪些?(浙江大学2005)参考答案:①一般不需要有严格的前提假设②非参数检验特别适用于顺序资料(等级变量)③很适用于小样本,且方法简单④最大的不足是未能充分利用资料的全部信息;⑤非参数方法目前还不能处理“交互作用”。