统计名词解释
- 格式:doc
- 大小:337.37 KB
- 文档页数:39
统计学名词解释第一章绪论1.随机变量:在统计学上,把取值之间不能预料到什么值的变量。
2.总体:又称母全体、全域,指具有某种特征的一类事物的全体。
3.个体:构成总体的每个基本单元称为个体。
4.样本:从总体中抽取的一部分个体,称为总体的一个样本。
5.次数:指某一事件在某一类别中出现的数目,又称为频数。
6.频率:又称相对次数,即某一事件发生的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据总个数去除。
7.概率:某一事物或某一情在某一总体中出现的比率。
8.观测值:一旦确定了某个值。
就称这个值为某一变量的观测值。
9.参数:又称为总体参数,是描述一个总体情况的统计指标。
10.统计量:样本的那些特征值叫做统计量,又称特征值。
第二章统计图表1.统计表:是由纵横交叉的线条绘制,并将数据按照一定的要求整理、归类、排列、填写在内的一种表格形式。
一般由表号、名称、标目、数字、表注组成。
2.统计图:一般采用直角坐标系,通常横轴表示事物的组别或自变量x,称为分类轴。
纵轴表示事物出现的次数或因变量,称为数值轴。
一般由图号及图题、图目、图尺、图形、图例、图组成。
3.简单次数分布表:依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表,适合数据个数和分布范围比较小的时候用。
4.分组次数分布表:数据量很大时,应该把所有的数据先划分在若干区间,然后将数据按其数值大小划归到相应区域的组别内,分别统计各个组别中包括的数据个数,再用列表的形式呈现出来,适合数据个数和分布范围比较大的时候用。
5.分组次数分布表的编制步骤:(1)求全距(2)定组距和组数(3)列出分组组距(4)登记次数(5)计算次数6.分组次数分布的意义:(1)优点:A.可将杂乱无章数据排列成序,以发现各数据的出现次数及分布状况。
B.可显示一组数据的集中情况和差异情况等。
(2)缺点:原始数据不见了,从而依据这样的统计表算出的平均值会与用原始数据算出的值有出入,出现误差,即归组效应。
统计学名词解释(超全)统计学:是一门搜集、整理、显示和分析统计数据的方法论科学。
总体:就是统计所要研究的事物或现象的全体,即由客观存在的,具有某种共同特征的许多个别事物构成的整体。
参数:是描述总体数量特征的指标,又称总体指标。
样本:是指从统计总体中抽取出来作为代表这一总体的、由部分个体组成的集合体。
变量:指给所要研究的事物起的名字,包括可变的标志和所有的统计指标。
总体参数:描述总体数量特征的指标,又称总体指标。
样本统计量:是根据样本数据计算出来的样本指标,用来描述样本的数量特征。
普查:为某一特定目的而专门组织的一次性全面调查。
抽样调查:是按随机原则,从总体中抽选部分单位进行观察,并根据部分单位(样本)的调查数据,从数量方面推断总体参数的一种非全面调查。
统计分组:根据被研究现象总体的内在特点以及统计研究的目的,将总体按照一定的标志分为若干个性质不同的组成部分的一种统计方法。
统计表:指显示统计整理结果的表格,就是把通过整理的调查数据,使其成为得以说明现象总体数量特征的分组数据,并按一定顺序排列而形成的表格。
时期数据:反映现象总体在一段时期内发展变化总结果的总量指标。
时点指标:反应现象整体在某一的点(瞬间)上所处状况的总量指标。
众数:是一组数据中出现次数最多的变量值。
时间序列:将反映某种现象的统计指标在不同时间上的数值,按时间顺序排列而成的序列。
发展水平:时间序列中的每一项指标数值,都称为发展水平,它反映了某种现象在一定时期或时点所达到的规模和水平。
均匀发展水平:将不同时间的发展水平加以均匀而得到的均匀数。
发展速度:是反映现象发展变化快慢程度的动态相对指标,是根据两个不同时期的发展水平对比求得的。
环比发展速度:是时间序列中敷陈期发展水平与前期发展水平之比,表明现象逐期发展变化的方向和程度。
定基发展速度:是报告期发展水平与某一固定时期发展水平(最初发展水平)之比,说明现象在较长时期内总的发展变动方向与程度。
1、统计包括三方面的涵义:统计活动、统计资料、统计学;2、统计活动:是在一定的理论指导下,采用适宜的科学方法搜集、处理统计资料的一系列调查研究过程。
3、统计资料:即统计信息,它集中、全面、综合地反应国民经济和社会发展的现象和过程4、统计学:即统计理论,是一门独立的方法论科学,它根据自己的研究对象,系统的阐述统计理论的方法5、统计总体:是根据一定的目的和要求所确定的研究事物的全体,它是由客观存在的,具有某种共同性质的许多个别单位构成的整体。
6、总体单位:是指构成总体的个体单位,它是总体的基本单位。
(又称个体)7、同质性:指总体各单位在某一标志上的共同性8、变异性:指总体所有单位至少有一个以上的可变品质标志或数量标志9、大量性:指统计总体中的单位应有足够的数量,如果总体单位应有足够的数量,如果总体单位数量很少,就难以揭示总体的规律性10、标志:是指统计总体中各单位所具同具有的属性和特征11、品质标志:表明总体单位属性方面的特征,用文字表示12、数量标志:数量方面的特征13、指标:是反映社会经济现象总体数量特征的概念和数值。
14、变异:统计中的标志和指标都是可变的15、变量:可以取不同值得量,在社会经济统计学中,各种数量标志和全部统计指标都是变量16、连续变量:数值是连续不断的,相邻两值之间可作无限分割,即可去无限数值17、离散变量:数值都是以整数位断开的,其数值要用计算的方法取得18、确定性变量:变量值的变动受制于某种决定性因素,致使其沿着一定的方向变动19、随机变量:影响变量值变动的因素有很多,作用不同,因而变量值变动无确定方向20、统计法:国家制定和认可的调整参与统计活动的各方面——统计主体、客体、宿体在统计活动中形成的社会关系的法律规范的总称21、统计设计:对一个完整的统计工作涉及各个方面和各个环节的通盘考虑和适当安排22、统计指标体系:将反映社会经济现象数量特征的一系列相互依存、相互联系的统计指标有机结合所组成的整体;23、指标名称:指标质的规定,它反映一定的社会经济范畴24、指标数值:根据指标的内容所计算出来的具体数值25、数量指标:反映总体总规模、总水平或总工作量的统计指标,又称总量指标26、质量指标:反映总体内部数量关系、单位一般水平、工作质量的统计指标27、描述指标:对总体及其组成部分的规模水平和数量关系进行客观描述的统计指标28、评价指标:反映社会经济总体的结构、比例、速度以及利用状况和效益、效果的统计指标29、监测指标:对社会经济总体运行进行跟踪监测,看其是否偏离既定目标,是否保持平衡的统计指标30、预警指标:可以对总体运行中出现的偏离进行及时的调控31、统计调查:是按照统计的任务和调查的目的要求,运用科学的方法搜集或者收集被研究对象的各个标志值的过程。
名词解释1.备择假设(alternative hypothesis):与原假设逻辑上反面的假设。
2.标准分数(standard score):也称标准化值或分数,它是变量值与其平均数的离差除以标准差后的值。
3.残值(residual):因变量的观测值y i与根据估计的回归方程求出的预测值y i之差,用e表示。
对于第i个观测值,残差为e i=y i-y i。
4.α错误(αerror):原假设为真却在检验中将原假设被拒绝,又称弃真错误或者第一类错误(type I error),用α表示其概率。
5.β错误(βerror)原假设为伪却在检验中未拒绝的原假设,又称取伪错误或者第二类错误(type II error),用β表示其概率。
6.对照组(control group):随记选取的实验对象的子集。
在这个子集中,每个单元不接受实验组成员所接受的某种特别的处理。
7.多重共线性(multicollinearity)回归模型中两个或两个以上的自变量彼此相关。
8.多重判定系数(multiple coefficient of determination)回归平方和占总平方和的比例,反映因变量y取值的变差中,能被估计的多元回归方程所解释的比例。
9.峰态(kurtosis)对数据分布平峰或尖峰的程度的测度。
10.假设检验(hypothesis testing)根据样本信息,对提出的命题进行检验的一套程序和方法。
11.离散系数(coefficient variation)也称变异系数,一组数据的标准差与其相对应的平均数之比,是测度数据离散程度的相对值。
12.拟合优度实验(goodness of fit test)对多个总体比例是否等于其期望概率的检验。
当期望概率相同时,表现为对多个总体的比例是否相等的检验。
13.偏态(skewness)对数据分布对称性的测度。
14.异众比率(variation ratio)非众数组的频数占总频数的比例。
一、名词解释总体:指在同一组条件下所有成员的某种状态变量的集合;或者说是某一变数的全部可能值的集合;或性质相同的个体组成的整个集团。
样本:从总体中取出来用作分析、研究的个体称样本。
随机样本:总体中的每个总体单位都有同等的机会被抽取为样本单位,由这种方法抽得的样本叫随机样本。
(用随机抽样的方法,从总体中抽出一个部分;等概率抽取的样本。
)随机抽样:保证总体中的每一个体在每一次抽样中都有同等的机会被取为样本。
复置抽样:保证总体中的每个个体在每次抽样中都有同等的概率被取为样本。
样本容量:样本中包含的单位数称为样本容量。
(样本中变量的个数。
)观察值:每一个体的某一性状测定值叫做观察值。
变数:若干有变异的观察值叫随机变数,简称变数。
连续性变数:指在任意两个变量之间都有可能存在只有微量差异的第三个变量存在,这样一类变数称为连续性变数。
间断性变数:只能取整数的一类变数。
参数:由总体获得的代表总体的特征数。
(描述总体的特征数,如μσ 。
)统计数:由样本获得的代表样本的特征数。
(描述样本的特征数。
)数量资料(数量性状资料):以测量或称重的方式获取的试验资料称为数量资料。
计量资料、质量性状资料次数资料:凡是试验结果以次数表示的资料称为次数资料。
算术平均数、众数 几何平均数:变量对数的算术平均数的反对数,(lg )lg Y G n=∑ 调和平均数:变量倒数的算术平均数的反倒数,1()n H Y =∑中位数:将变量顺序排列,处在中间的变量称中位数,计作M d 。
极差:一组资料中最大值与最小值的差值为极差。
方差:变数变异程度的度量,对于总体()22i Y N μσ-=∑,对于样本22()1Y y s n -=-∑。
(描述变量平均变异程度的统计量。
定义为212()1n j j Y y s n =-=-∑。
) EMS :期望均方,是对均方MS 的期望值。
标准差:变数变异程度的度量,总体标准差:()N Y ∑-=2μσ,样本标准差:()12--=∑n y Y s 。
统筹学统计学:是一门搜集、整理、显示和分析统计数据的方法论科学。
总体:就是统计所要研究的事物或现象的全体,即由客观存在的,具有某种共同特征的许多个别事物构成的整体。
参数:是描述总体数量特征的指标,又称总体指标。
样本:是指从统计总体中抽取出来作为代表这一总体的、由部分个体组成的集合体。
变量:指给所要研究的事物起的名字,包括可变的标志和所有的统计指标。
总体参数:描述总体数量特征的指标,又称总体指标。
样本统计量:是根据样本数据计算出来的样本指标,用来描述样本的数量特征。
普查:为某一特定目的而专门组织的一次性全面调查。
抽样调查:是按随机原则,从总体中抽选部分单位进行观察,并根据部分单位(样本)的调查数据,从数量方面推断总体参数的一种非全面调查。
统计分组:根据被研究现象总体的内在特点以及统计研究的目的,将总体按照一定的标志分为若干个性质不同的组成部分的一种统计方法。
统计表:指显示统计整理结果的表格,就是把通过整理的调查数据,使其成为得以说明现象总体数量特征的分组数据,并按一定顺序排列而形成的表格。
时期数据:反映现象总体在一段时期内发展变化总结果的总量指标。
时点指标:反映现象总体在某一的点(瞬间)上所处状况的总量指标。
众数:是一组数据中出现次数最多的变量值。
时间序列:将反映某种现象的统计指标在不同时间上的数值,按时间顺序排列而成的序列。
发展水平:时间序列中的每一项指标数值,都称为发展水平,它反映了某种现象在一定时期或时点所达到的规模和水平。
平均发展水平:将不同时间的发展水平加以平均而得到的平均数。
发展速度:是反映现象发展变化快慢程度的动态相对指标,是根据两个不同时期的发展水平对比求得的。
环比发展速度:是时间序列中报告期发展水平与前期发展水平之比,表明现象逐期发展变化的方向和程度。
定基发展速度:是报告期发展水平与某一固定时期发展水平(最初发展水平)之比,说明现象在较长时期内总的发展变动方向与程度。
年距发展速度:反映报告期发展水平对于上年同期发展水平的变化方向与程度。
名词解释:1、分类数据:是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表示的。
(P5)2、四分位数:也称四分位点,它是一组数据排序后处于25%和75%位置上的值。
(P89)3、方差分析:是通过检验个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
(P264)4、相关系数:是根据样本数据计算的度量两个变量之间线性关系强度的统计量。
(P304)5、居民消费价格指数:是度量居民消费品和服务项目价格随时间变动的相对数,反映居民家庭购买的消费品和服务价格水平的变动情况。
(420)6、顺序数据:是只能归于某一有序类别的非数字型数据。
(P6)7、抽样误差:是由于抽样的随机性引起的样本结果与总体真值之间的误差。
(P33)8、离散系数:也称变异系数,它是一组数据的标准差与其相应的平均数之比。
计算公式为:(P103)1.v s= s/⎺x9、置信区间:在区间估计中,由样本统计量所构成的总体参数的估计区间。
(P177)10、点估计:用样本统计量^θ的某个取值直接作为总体参数θ的估计值。
(P176)11、系统抽样:将总体中的所有单位(抽样单位)按一定的顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按后按事先规定好的规则确定其他样本单位。
(P19)12、中心极限定理:设从均值为μ、方差为σ2(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值⎺X的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。
(P165)13、回归模型:描述因变量y如何依赖于自变量x和误差项的方程。
对于只涉及一个自变量的一元线性回归模型可表示为y=β0+β1x+ε。
(P308)14、指数平滑法:是通过对过去的观察值加权平均进行预测的一种方法,该方法是t+1期的预测值等于t期的实际观察值与t期的预测值的加权平均值。
(P378)15、非概率抽样:是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
总体:总体是指客观存在的,在同一性质基础上结合起来的许多个别事务的整体,亦称统计总体。
总体单位:总体单位是指构成统计总体的个别事物的总称。
指标:指标是反映总体现象数量特征的概念。
标志:标志是说明总体单位特征的名称。
统计调查:是按照预定的目的和任务,运用科学的统计调查方法,有计划有组织地向客观实际搜集统计资料的过程。
调查对象:是根据调查目的、任务确定的调查的范围,即所要调查的总体,它是由某些性质上相同的许多调查单位所组成的。
调查单位:是所要调查的现象总体中的个体,即调查对象中的一个一个具体单位,它是调查中要调查登记的各个调查项目的承担者。
报告单位:是负责向统计调查机关提交调查资料的单位。
普查:是专门组织的一次性的全面调查,用来调查属于一定时点上或时期内的现象的总量。
复合分组:对同一总体选择两个或两个以上的标志重叠起来进行分组。
复合分组体系:多个复合分组组成的分组体系。
频数:是指分配数列中各组的单位数,也称次数。
频率:是将跟组的单位数(频数)与总体单位数相比,求得的用百分比表示的相对数,也称比率或比重。
统计指标:是反映总体现象数量特征的基本概念及其具体数值的总称。
总量指标:是反映总体规模的统计指标,表明现象总体发展的结果。
平均指标:是总体各单位某一数量标志一般水平的统计指标。
是将一个总体内各个单位在某个数量标志上的差异抽象化,以反映总体的一般水平的综合指标。
标志变异指标:是表明总体各个单位标志值的差异程度(离散程度)的指标。
强度相对指标:是不属于同一总体的两个性质不同但相互间有联系的总量指标对比的比值,是用来反映现象的强度、密度和普遍程度、利用程度的综合指标。
加权算数平均数:是在总体经过分组形成变量数列(包括单项数列和组距数列),有变量值和次数的情况下,将各组变量值分别与其次数相乘后加总求得标志总量,再除以总体单位数(即次数总和)而求得的数值。
标准差:是总体各单位变量值与其平均数的离差平方的算术平均数的平方根。
名词解释:1,总体(population):总体指根据研究目的所确定的同质的观察单位的全体。
更确切的说,它是同质的所有观察单位某种观察值的集合。
可分为有限总体和无限总体。
总体中只包含有限个观察单位者为有限总体,反之为无限总体。
2,样本(sample):从总体中随机抽取部分观察单位的测量结果集合称为样本。
样本应具有可靠性和代表性。
样本的可靠性是指样本的确是来自同一总体,具有同质性;代表性是必须采用随机抽样方法从总体中获得的足够多的观察单位。
3,参数(parameter):参数是用来表示总体分布特征的统计数字。
统计中常用的总体参数有描述总体分布中心位置或集中趋势的总体平均数指标;有描述总体离散度的总体变异指标。
4,统计量(statistic):统计量是依据样本观察值推算出的反映样本分布特征(如样本平均数、样本变异等)的一些量。
5,误差(error):观察值与真值之差称为误差。
误差分为过失误差、系统误差和随机误差三类。
6,抽样误差(sampling error):抽样误差是随机误差中的一种,它是由抽样所至的样本统计量与总体参数间的差异。
抽样误差愈小,用样本推算总体的精确度就愈高,反之亦然。
7,正态分布(normal distribution)和标准正态分布():由密度曲线f(x) = (1/√2π)×(1/σ)×EXP[(-1/2)×(x-x0)^2/σ^2]确定的中间高、两边低、左右对称的连续随机变量的分布称为正态分布。
记为N(μ,σ2) ,其中μ为总体均数σ为总体标准差;把总体均数为0,把总体标准差为1的正态分布N(0,1)称为标准正态分布。
一般正态分布可以通过μ=(x-μ)/σ转化为标准正态分布。
8,抽样误差(sampling error):在抽样研究中,由抽样所至的样本与总体参数间的差异称为抽样误差。
9,标准误(standard error):标准误就是样本统计量的标准差,它反映了统计量间的变异程度,也间接的反映抽样误差的大小。
统计第一章一、心理与教育统计的定义与性质定义:在心理与教育研究中,通过调查、实验、测量等手段有意地获取一些数据,并将得到的数据按照统计学的原理和步骤加以整理、计算、绘制图表、分析、判断、推理,最后得到结论的一种研究方法。
性质:应用统计学。
二、心理与教育科学研究数据的特点(1)数据与结果多用数字呈现(2)数据具有一定的随机性和变异性(3)数据具有一定的规律性(4)通过部分数据来推测总体的特征三、心理与教育统计学的内容1、描述统计(descriptive stastics)主要研究如何整理心理与教育科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质。
包括:A、数据如何分组、使用统计图表描述一组数据的分布情况;B、计算一组数据的特征值(集中量数和差异量数),进而描述一组数据的全貌;C、表示一事物两种或两种以上属性间的相互关系(相关分析)。
2、推论统计(inferential statistics)主要研究如何通过局部数据所提供的信息,推论总体的情形。
包括:A、如何进行假设检验,如z检验、t检验、卡方检验、F检验、回归分析等;B、总体参数特征值的估计方法;C、各种非参数检验的统计方法。
3、实验设计(experimental design)主要目的在于研究如何科学地、经济地以及有效地进行实验,它是统计学近几十年发展起来的一部分内容。
四、心理与教育的基础概念数据类型1、从数据的观测方法和来源来划分计数数据(count data)是指计算个数的数据,如人口数、学校数、男女数等等。
一般取整数形式;测量数据(measurement data)是指借用一定的测量工具或具有一定的测量标准而获得的数据,如身高、考试成绩、金钱数额、智力测验等。
2、根据数据的测量水平划分:称名数据(nominal data)顺序数据(ordinal data)等距数据(interval data)比率数据(ratio data)3、根据数据是否具有连续性划分:离散数据(discrete data)连续数据(continuous data)五、变量、观测值、随机变量变量(variables)是指实验、观察、调查中想要获得的数据;而一旦确定某个值,就称这个值为某一变量的观测值(observation),即为具体的数据;在统计学中,把取值之前不能预料取到什么值的变量,称之为随机变量。
与变量相反的是常量,它在一定范围内其数值不会随意改变。
六、总体、样本与个体总体(population)又称母全体、全域,指具体有某种特征的一类事物的全体;构成总体的每个基本单元称为个体(individual);从总体中抽取一部分个体,称之为总体的一个样本(sample)。
七、次数、比率、频率与概率在一项研究中,我们对随机现象进行观察试验,在一定条件下,本质不同的事物可能出现,也可能不出现,这种事情称为随机事件;次数是指某一事件在某一类别中出现的数目,又称为频数(frequency),用f表示;两个数的比例称为比率;频率又称相对次数,即某一事件发生的次数被总的事件数目除,通常用比例或百分数表示;概率又称机率、或然率(probability)用p表示,表示一事件在无限的观测中所能预料的相对出现的次数,也就是某一事件在总体中出现的比率,通常用比例表示。
八、参数与统计量在科学研究中,我们探寻的是关于所有事物的说明和解释。
能说明和解释总体特征的那些特性称之为参数(parameter),又称为总体参数;与之相对的是,样本的那些特征值称为统计量(statistics)。
参数是从总体中计算得到;一般是个常量;一般用希腊字母表示;统计量是从样本中得到;一般随样本的变化而变化,是个变量;一般用英文字母(斜体)表示。
第二章一、统计图表统计表和统计图是对数据进行初步整理,以简化的形式加以表现的两种最简单的方式。
统计表具有简明、清晰、准确的特点,数据易于比较分析;统计图具有简明、直观、可视化等特点。
在制定统计图表时首先要完成最基本的两步:a、数据排序(sort or order)是指按照某种标准,对收集到的杂乱无章的数据按照一定的顺序标准进行排序。
升序(ascending)降序(descending)b、统计分组是指根据被研究对象的特征,将所得的数据划分到各个组别中去。
步骤:1)统计分组前的准备(进一步地核对和校检数据、删除受过失影响数据、删除3个标准差之外的数据)2)统计分组应注意事项(分组要以被研究对象的本质特性为基础;分类标志要明确,既要包含数据的所有范围,同时分类不能重合)3)分组的标志(性质类别和数量类别)二、次数分布表次数分布(frequency distribution)显示初步整理后一组数据的分布情况。
它主要表示数据在各个分组区间内的散布情况。
简单次数分布表(适用于计数数据)(simple frequency table)就是依据每一个分值在一列数据中出现的次数或总计数资料编制成的统计表。
分组次数分布表(重点)(适用于测量数据)当数据量很大时,应该把所有的数据划分若干区间,然后再按数据按其值大小划分到相应的区组内,分别统计各个组别中的个数,再用列表形式呈现出来,就构成了分组次数分布表(grouped frequency table)。
具体步骤如下:A、求全距全距(range)是指最大值和最小值两个数据之间的差距。
B、决定组距和组数组距(interval)是指任意一组的起点和终点之间的举例,用符号i 表示。
全距除以组距即为组数。
C、列出分组区间分组区间即一个组的起点值和终点值之间的距离,又叫组限。
起点值称为组下限,终点值称为组上限,组限又可以分为表述组限和精确组限。
D、登记次数E、计算次数相对次数分布表累加次数分布表双列次数分布表(难点)双列次数分布表又称相关次数分布表,是对有联系的两列变量用同一个表表示其次数分布。
编制双列次数分布表的步骤:首先按照分组次数分布表的编制方法,分布列出各变量的分组区间,将一列变量的分组区间竖列,将另一列变量为横列;然后再登记、计数。
三、次数分布图在次数分布表的基础上,若对分布进行粗略分析、动态趋势、差异细节,获得更为直观印象就要绘制次数分布图。
通常使用的主要有:1、直方图(histogram)也叫等距直方图,是以矩形的面积表示连续性随机变量次数分布的图形。
一般用纵轴表示数据的频数,横轴表示数据的等距分组点。
2、次数多边形图(frequency polygon)是一种连续性随机变量次数分布的线形图。
绘制图时,横坐标是用各分组区间组中值表示的连续变量,纵坐标是数据的频数,连接各点,就成为一条折线。
3、累加次数分布图累加次数分布图可以分为累加直方图和累加曲线。
四、其他常用的统计图表类型表:A、简单表B、分组表C、复合表图:A、条形图(bar charts)也叫直条图,主要用于表示离散型数据资料,即计数资料。
B、圆形图(circle graph)又叫饼图(pie),主要用于描述间断性的资料,目的是为了显示各部分在整体中所占有的比重大小,以及各部分之间的比较。
C、线形图(line graph)更多用于连续性资料,凡欲研究两个变量之间的函数关系,或描述某种现象在时间上的发展趋势,或一种现象随着另一种现象的变化情形,用线性图表示是最后的方法。
同时还可以在图表中画两条线或多条线,用于比较两组或多组数据资料。
D、散点图(scatter plots),它是用相同大小圆点的多少或疏密表示统计资料数量大小以及变化趋势的图。
第三章一、集中趋势(central tendency)和离中趋势(divergence tendency)是次数分布的两个基本特性。
数据的集中趋势是指数据分布中大量数据向某方向集中的程度;离中趋势是指数据分布中的数据彼此分散的程度。
这两种趋势分别用集中量数(measures of central tendency)和离中量数(measures of divergence tendency)来表示。
一)、算术平均数(arithmetic average),一般简称平均数或均值(mean)。
1、平均数的计算方法(1)未分组数据的计算平均数的方法(2)用估计平均数技术平均数(3)计算次数分布表中的平均数2、平均数的特点1)一组数据中每个变量与平均数之差(离均差)的总和等于0;2)在一组数据中,每个数据都加上C,则所得的平均数为原来的平均数加上C;3)在一组数据中,每一个数都乘以一个常数C,所得的平均数为原来的平均数乘以C.3、平均数的优缺点优点:1、反应灵敏;2、计算严密;3、计算简单;4、简明易解;5、适合做进一步的代数运算;6、较少受抽样的影响;缺点:1、易受极端数据的影响;2、若出现模糊不清的数据时,无法计算平均数。
4、计算和应用平均数的原则同质性原则平均数与个体数值相结合的原则平均数与标准差、方差相结合的原则二)、中数(median),又称中点数,符合Md或Mdn,它是指按顺序排列在一起的一族数据中居于中间位置上的数,即在这组数据中,有一半的数据比它大,一半的数据比它小。
中数的优缺点优点:计算简单快捷,容易理解,概念简单明白,不受极端值的影响;缺点:没有充分利用数据,反应不够灵敏;容易受抽样的影响,不如平均数稳定;不能做进一步的代数运算;三)、众数(mode)又称范数,密集数,通常数等,用符号Mo表示,它是指在次数分布中出现次数最多的那个数的数值。
1、计算方法直接观察法利用公式求2、意义众数的概念简单明了,容易理解,但它不稳定,受样本变动的影响,不能进一步做代数运算。
四)、平均数、中数、众数三者之间的关系在一个正态分布中,平均数、中数、众数三者相等:M=Md=Mo;在正偏态数据中,三者之间的关系为:M>Md>Mo;在负偏态数据中,三者之间的关系为:M<Md<Mo。
在偏态分布中,平均数用于位于尾端,中数位于中间,众数位于首端,三者之间的关系为:M<Md<Mo第四章差异量数(measures of divergence tendency)就是对一组数据的变异性(离中趋势)特点进行度量和描述的统计量。
它反映了次数分布中数据彼此分散的程度。
一、全距全距(range)又称两极差,用符号R表示,它是说明数据离散程度最简单的统计量。
优点:计算简便缺点:是最粗糙、最不可靠的值,这种差异量数只利用了数据中的极端值,其他数据均未参与运算,因而这种差异量数不可靠、不稳定、也不灵敏,极易受到抽样变动的影响。
二、百分位数与百分位差百分位数(percentile)又叫百分位点。
它是指量尺上的一个点,在此点以下,包括数据分布中全部数据个数的一定百分比。
由于全距容易受极端数值的影响,因此有人提出取消数据两端10%的数据,即用P10与P90之间的差距作为差异量数,即为百分位差。