统计名词解释
- 格式:doc
- 大小:28.50 KB
- 文档页数:3
统计学名词解释第一章绪论1.随机变量:在统计学上,把取值之间不能预料到什么值的变量。
2.总体:又称母全体、全域,指具有某种特征的一类事物的全体。
3.个体:构成总体的每个基本单元称为个体。
4.样本:从总体中抽取的一部分个体,称为总体的一个样本。
5.次数:指某一事件在某一类别中出现的数目,又称为频数。
6.频率:又称相对次数,即某一事件发生的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据总个数去除。
7.概率:某一事物或某一情在某一总体中出现的比率。
8.观测值:一旦确定了某个值。
就称这个值为某一变量的观测值。
9.参数:又称为总体参数,是描述一个总体情况的统计指标。
10.统计量:样本的那些特征值叫做统计量,又称特征值。
第二章统计图表1.统计表:是由纵横交叉的线条绘制,并将数据按照一定的要求整理、归类、排列、填写在内的一种表格形式。
一般由表号、名称、标目、数字、表注组成。
2.统计图:一般采用直角坐标系,通常横轴表示事物的组别或自变量x,称为分类轴。
纵轴表示事物出现的次数或因变量,称为数值轴。
一般由图号及图题、图目、图尺、图形、图例、图组成。
3.简单次数分布表:依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表,适合数据个数和分布范围比较小的时候用。
4.分组次数分布表:数据量很大时,应该把所有的数据先划分在若干区间,然后将数据按其数值大小划归到相应区域的组别内,分别统计各个组别中包括的数据个数,再用列表的形式呈现出来,适合数据个数和分布范围比较大的时候用。
5.分组次数分布表的编制步骤:(1)求全距(2)定组距和组数(3)列出分组组距(4)登记次数(5)计算次数6.分组次数分布的意义:(1)优点:A.可将杂乱无章数据排列成序,以发现各数据的出现次数及分布状况。
B.可显示一组数据的集中情况和差异情况等。
(2)缺点:原始数据不见了,从而依据这样的统计表算出的平均值会与用原始数据算出的值有出入,出现误差,即归组效应。
统计学名词解释(超全)统计学:是一门搜集、整理、显示和分析统计数据的方法论科学。
总体:就是统计所要研究的事物或现象的全体,即由客观存在的,具有某种共同特征的许多个别事物构成的整体。
参数:是描述总体数量特征的指标,又称总体指标。
样本:是指从统计总体中抽取出来作为代表这一总体的、由部分个体组成的集合体。
变量:指给所要研究的事物起的名字,包括可变的标志和所有的统计指标。
总体参数:描述总体数量特征的指标,又称总体指标。
样本统计量:是根据样本数据计算出来的样本指标,用来描述样本的数量特征。
普查:为某一特定目的而专门组织的一次性全面调查。
抽样调查:是按随机原则,从总体中抽选部分单位进行观察,并根据部分单位(样本)的调查数据,从数量方面推断总体参数的一种非全面调查。
统计分组:根据被研究现象总体的内在特点以及统计研究的目的,将总体按照一定的标志分为若干个性质不同的组成部分的一种统计方法。
统计表:指显示统计整理结果的表格,就是把通过整理的调查数据,使其成为得以说明现象总体数量特征的分组数据,并按一定顺序排列而形成的表格。
时期数据:反映现象总体在一段时期内发展变化总结果的总量指标。
时点指标:反应现象整体在某一的点(瞬间)上所处状况的总量指标。
众数:是一组数据中出现次数最多的变量值。
时间序列:将反映某种现象的统计指标在不同时间上的数值,按时间顺序排列而成的序列。
发展水平:时间序列中的每一项指标数值,都称为发展水平,它反映了某种现象在一定时期或时点所达到的规模和水平。
均匀发展水平:将不同时间的发展水平加以均匀而得到的均匀数。
发展速度:是反映现象发展变化快慢程度的动态相对指标,是根据两个不同时期的发展水平对比求得的。
环比发展速度:是时间序列中敷陈期发展水平与前期发展水平之比,表明现象逐期发展变化的方向和程度。
定基发展速度:是报告期发展水平与某一固定时期发展水平(最初发展水平)之比,说明现象在较长时期内总的发展变动方向与程度。
1、统计包括三方面的涵义:统计活动、统计资料、统计学;2、统计活动:是在一定的理论指导下,采用适宜的科学方法搜集、处理统计资料的一系列调查研究过程。
3、统计资料:即统计信息,它集中、全面、综合地反应国民经济和社会发展的现象和过程4、统计学:即统计理论,是一门独立的方法论科学,它根据自己的研究对象,系统的阐述统计理论的方法5、统计总体:是根据一定的目的和要求所确定的研究事物的全体,它是由客观存在的,具有某种共同性质的许多个别单位构成的整体。
6、总体单位:是指构成总体的个体单位,它是总体的基本单位。
(又称个体)7、同质性:指总体各单位在某一标志上的共同性8、变异性:指总体所有单位至少有一个以上的可变品质标志或数量标志9、大量性:指统计总体中的单位应有足够的数量,如果总体单位应有足够的数量,如果总体单位数量很少,就难以揭示总体的规律性10、标志:是指统计总体中各单位所具同具有的属性和特征11、品质标志:表明总体单位属性方面的特征,用文字表示12、数量标志:数量方面的特征13、指标:是反映社会经济现象总体数量特征的概念和数值。
14、变异:统计中的标志和指标都是可变的15、变量:可以取不同值得量,在社会经济统计学中,各种数量标志和全部统计指标都是变量16、连续变量:数值是连续不断的,相邻两值之间可作无限分割,即可去无限数值17、离散变量:数值都是以整数位断开的,其数值要用计算的方法取得18、确定性变量:变量值的变动受制于某种决定性因素,致使其沿着一定的方向变动19、随机变量:影响变量值变动的因素有很多,作用不同,因而变量值变动无确定方向20、统计法:国家制定和认可的调整参与统计活动的各方面——统计主体、客体、宿体在统计活动中形成的社会关系的法律规范的总称21、统计设计:对一个完整的统计工作涉及各个方面和各个环节的通盘考虑和适当安排22、统计指标体系:将反映社会经济现象数量特征的一系列相互依存、相互联系的统计指标有机结合所组成的整体;23、指标名称:指标质的规定,它反映一定的社会经济范畴24、指标数值:根据指标的内容所计算出来的具体数值25、数量指标:反映总体总规模、总水平或总工作量的统计指标,又称总量指标26、质量指标:反映总体内部数量关系、单位一般水平、工作质量的统计指标27、描述指标:对总体及其组成部分的规模水平和数量关系进行客观描述的统计指标28、评价指标:反映社会经济总体的结构、比例、速度以及利用状况和效益、效果的统计指标29、监测指标:对社会经济总体运行进行跟踪监测,看其是否偏离既定目标,是否保持平衡的统计指标30、预警指标:可以对总体运行中出现的偏离进行及时的调控31、统计调查:是按照统计的任务和调查的目的要求,运用科学的方法搜集或者收集被研究对象的各个标志值的过程。
名词解释1.备择假设(alternative hypothesis):与原假设逻辑上反面的假设。
2.标准分数(standard score):也称标准化值或分数,它是变量值与其平均数的离差除以标准差后的值。
3.残值(residual):因变量的观测值y i与根据估计的回归方程求出的预测值y i之差,用e表示。
对于第i个观测值,残差为e i=y i-y i。
4.α错误(αerror):原假设为真却在检验中将原假设被拒绝,又称弃真错误或者第一类错误(type I error),用α表示其概率。
5.β错误(βerror)原假设为伪却在检验中未拒绝的原假设,又称取伪错误或者第二类错误(type II error),用β表示其概率。
6.对照组(control group):随记选取的实验对象的子集。
在这个子集中,每个单元不接受实验组成员所接受的某种特别的处理。
7.多重共线性(multicollinearity)回归模型中两个或两个以上的自变量彼此相关。
8.多重判定系数(multiple coefficient of determination)回归平方和占总平方和的比例,反映因变量y取值的变差中,能被估计的多元回归方程所解释的比例。
9.峰态(kurtosis)对数据分布平峰或尖峰的程度的测度。
10.假设检验(hypothesis testing)根据样本信息,对提出的命题进行检验的一套程序和方法。
11.离散系数(coefficient variation)也称变异系数,一组数据的标准差与其相对应的平均数之比,是测度数据离散程度的相对值。
12.拟合优度实验(goodness of fit test)对多个总体比例是否等于其期望概率的检验。
当期望概率相同时,表现为对多个总体的比例是否相等的检验。
13.偏态(skewness)对数据分布对称性的测度。
14.异众比率(variation ratio)非众数组的频数占总频数的比例。
一、名词解释总体:指在同一组条件下所有成员的某种状态变量的集合;或者说是某一变数的全部可能值的集合;或性质相同的个体组成的整个集团。
样本:从总体中取出来用作分析、研究的个体称样本。
随机样本:总体中的每个总体单位都有同等的机会被抽取为样本单位,由这种方法抽得的样本叫随机样本。
(用随机抽样的方法,从总体中抽出一个部分;等概率抽取的样本。
)随机抽样:保证总体中的每一个体在每一次抽样中都有同等的机会被取为样本。
复置抽样:保证总体中的每个个体在每次抽样中都有同等的概率被取为样本。
样本容量:样本中包含的单位数称为样本容量。
(样本中变量的个数。
)观察值:每一个体的某一性状测定值叫做观察值。
变数:若干有变异的观察值叫随机变数,简称变数。
连续性变数:指在任意两个变量之间都有可能存在只有微量差异的第三个变量存在,这样一类变数称为连续性变数。
间断性变数:只能取整数的一类变数。
参数:由总体获得的代表总体的特征数。
(描述总体的特征数,如μσ 。
)统计数:由样本获得的代表样本的特征数。
(描述样本的特征数。
)数量资料(数量性状资料):以测量或称重的方式获取的试验资料称为数量资料。
计量资料、质量性状资料次数资料:凡是试验结果以次数表示的资料称为次数资料。
算术平均数、众数 几何平均数:变量对数的算术平均数的反对数,(lg )lg Y G n=∑ 调和平均数:变量倒数的算术平均数的反倒数,1()n H Y =∑中位数:将变量顺序排列,处在中间的变量称中位数,计作M d 。
极差:一组资料中最大值与最小值的差值为极差。
方差:变数变异程度的度量,对于总体()22i Y N μσ-=∑,对于样本22()1Y y s n -=-∑。
(描述变量平均变异程度的统计量。
定义为212()1n j j Y y s n =-=-∑。
) EMS :期望均方,是对均方MS 的期望值。
标准差:变数变异程度的度量,总体标准差:()N Y ∑-=2μσ,样本标准差:()12--=∑n y Y s 。
统筹学统计学:是一门搜集、整理、显示和分析统计数据的方法论科学。
总体:就是统计所要研究的事物或现象的全体,即由客观存在的,具有某种共同特征的许多个别事物构成的整体。
参数:是描述总体数量特征的指标,又称总体指标。
样本:是指从统计总体中抽取出来作为代表这一总体的、由部分个体组成的集合体。
变量:指给所要研究的事物起的名字,包括可变的标志和所有的统计指标。
总体参数:描述总体数量特征的指标,又称总体指标。
样本统计量:是根据样本数据计算出来的样本指标,用来描述样本的数量特征。
普查:为某一特定目的而专门组织的一次性全面调查。
抽样调查:是按随机原则,从总体中抽选部分单位进行观察,并根据部分单位(样本)的调查数据,从数量方面推断总体参数的一种非全面调查。
统计分组:根据被研究现象总体的内在特点以及统计研究的目的,将总体按照一定的标志分为若干个性质不同的组成部分的一种统计方法。
统计表:指显示统计整理结果的表格,就是把通过整理的调查数据,使其成为得以说明现象总体数量特征的分组数据,并按一定顺序排列而形成的表格。
时期数据:反映现象总体在一段时期内发展变化总结果的总量指标。
时点指标:反映现象总体在某一的点(瞬间)上所处状况的总量指标。
众数:是一组数据中出现次数最多的变量值。
时间序列:将反映某种现象的统计指标在不同时间上的数值,按时间顺序排列而成的序列。
发展水平:时间序列中的每一项指标数值,都称为发展水平,它反映了某种现象在一定时期或时点所达到的规模和水平。
平均发展水平:将不同时间的发展水平加以平均而得到的平均数。
发展速度:是反映现象发展变化快慢程度的动态相对指标,是根据两个不同时期的发展水平对比求得的。
环比发展速度:是时间序列中报告期发展水平与前期发展水平之比,表明现象逐期发展变化的方向和程度。
定基发展速度:是报告期发展水平与某一固定时期发展水平(最初发展水平)之比,说明现象在较长时期内总的发展变动方向与程度。
年距发展速度:反映报告期发展水平对于上年同期发展水平的变化方向与程度。
名词解释:1、分类数据:是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表示的。
(P5)2、四分位数:也称四分位点,它是一组数据排序后处于25%和75%位置上的值。
(P89)3、方差分析:是通过检验个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
(P264)4、相关系数:是根据样本数据计算的度量两个变量之间线性关系强度的统计量。
(P304)5、居民消费价格指数:是度量居民消费品和服务项目价格随时间变动的相对数,反映居民家庭购买的消费品和服务价格水平的变动情况。
(420)6、顺序数据:是只能归于某一有序类别的非数字型数据。
(P6)7、抽样误差:是由于抽样的随机性引起的样本结果与总体真值之间的误差。
(P33)8、离散系数:也称变异系数,它是一组数据的标准差与其相应的平均数之比。
计算公式为:(P103)1.v s= s/⎺x9、置信区间:在区间估计中,由样本统计量所构成的总体参数的估计区间。
(P177)10、点估计:用样本统计量^θ的某个取值直接作为总体参数θ的估计值。
(P176)11、系统抽样:将总体中的所有单位(抽样单位)按一定的顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按后按事先规定好的规则确定其他样本单位。
(P19)12、中心极限定理:设从均值为μ、方差为σ2(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值⎺X的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。
(P165)13、回归模型:描述因变量y如何依赖于自变量x和误差项的方程。
对于只涉及一个自变量的一元线性回归模型可表示为y=β0+β1x+ε。
(P308)14、指数平滑法:是通过对过去的观察值加权平均进行预测的一种方法,该方法是t+1期的预测值等于t期的实际观察值与t期的预测值的加权平均值。
(P378)15、非概率抽样:是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
总体:总体是指客观存在的,在同一性质基础上结合起来的许多个别事务的整体,亦称统计总体。
总体单位:总体单位是指构成统计总体的个别事物的总称。
指标:指标是反映总体现象数量特征的概念。
标志:标志是说明总体单位特征的名称。
统计调查:是按照预定的目的和任务,运用科学的统计调查方法,有计划有组织地向客观实际搜集统计资料的过程。
调查对象:是根据调查目的、任务确定的调查的范围,即所要调查的总体,它是由某些性质上相同的许多调查单位所组成的。
调查单位:是所要调查的现象总体中的个体,即调查对象中的一个一个具体单位,它是调查中要调查登记的各个调查项目的承担者。
报告单位:是负责向统计调查机关提交调查资料的单位。
普查:是专门组织的一次性的全面调查,用来调查属于一定时点上或时期内的现象的总量。
复合分组:对同一总体选择两个或两个以上的标志重叠起来进行分组。
复合分组体系:多个复合分组组成的分组体系。
频数:是指分配数列中各组的单位数,也称次数。
频率:是将跟组的单位数(频数)与总体单位数相比,求得的用百分比表示的相对数,也称比率或比重。
统计指标:是反映总体现象数量特征的基本概念及其具体数值的总称。
总量指标:是反映总体规模的统计指标,表明现象总体发展的结果。
平均指标:是总体各单位某一数量标志一般水平的统计指标。
是将一个总体内各个单位在某个数量标志上的差异抽象化,以反映总体的一般水平的综合指标。
标志变异指标:是表明总体各个单位标志值的差异程度(离散程度)的指标。
强度相对指标:是不属于同一总体的两个性质不同但相互间有联系的总量指标对比的比值,是用来反映现象的强度、密度和普遍程度、利用程度的综合指标。
加权算数平均数:是在总体经过分组形成变量数列(包括单项数列和组距数列),有变量值和次数的情况下,将各组变量值分别与其次数相乘后加总求得标志总量,再除以总体单位数(即次数总和)而求得的数值。
标准差:是总体各单位变量值与其平均数的离差平方的算术平均数的平方根。
名词解释:1,总体(population):总体指根据研究目的所确定的同质的观察单位的全体。
更确切的说,它是同质的所有观察单位某种观察值的集合。
可分为有限总体和无限总体。
总体中只包含有限个观察单位者为有限总体,反之为无限总体。
2,样本(sample):从总体中随机抽取部分观察单位的测量结果集合称为样本。
样本应具有可靠性和代表性。
样本的可靠性是指样本的确是来自同一总体,具有同质性;代表性是必须采用随机抽样方法从总体中获得的足够多的观察单位。
3,参数(parameter):参数是用来表示总体分布特征的统计数字。
统计中常用的总体参数有描述总体分布中心位置或集中趋势的总体平均数指标;有描述总体离散度的总体变异指标。
4,统计量(statistic):统计量是依据样本观察值推算出的反映样本分布特征(如样本平均数、样本变异等)的一些量。
5,误差(error):观察值与真值之差称为误差。
误差分为过失误差、系统误差和随机误差三类。
6,抽样误差(sampling error):抽样误差是随机误差中的一种,它是由抽样所至的样本统计量与总体参数间的差异。
抽样误差愈小,用样本推算总体的精确度就愈高,反之亦然。
7,正态分布(normal distribution)和标准正态分布():由密度曲线f(x) = (1/√2π)×(1/σ)×EXP[(-1/2)×(x-x0)^2/σ^2]确定的中间高、两边低、左右对称的连续随机变量的分布称为正态分布。
记为N(μ,σ2) ,其中μ为总体均数σ为总体标准差;把总体均数为0,把总体标准差为1的正态分布N(0,1)称为标准正态分布。
一般正态分布可以通过μ=(x-μ)/σ转化为标准正态分布。
8,抽样误差(sampling error):在抽样研究中,由抽样所至的样本与总体参数间的差异称为抽样误差。
9,标准误(standard error):标准误就是样本统计量的标准差,它反映了统计量间的变异程度,也间接的反映抽样误差的大小。
统计学名词解释
①Ⅰ类错误:当拒绝H0时,可能犯错误;拒绝一个正确的H0所犯的
错误,称为Ⅰ类错误,其概率为α。
(拒真错误)
②Ⅱ类错误:当接受H0时,可能犯错误;接受一个错误的H0所犯的错
误,称为Ⅱ类错误,其概率为β。
(存伪错误)
③独立事件:一个事件是否发生不影响另一事件的发生。
④概率:是描述随机事件出现可能性的大小的统计指标。
⑤小概率事件:概率小于或等于5%的随机事件;通常情况下,在一
次随机抽样中不可能出现。
⑥随机样本:按照概率的规律抽取的样本。
(不由个人意志所决定的,)
⑦抽样误差:样本统计量与总体参数之间总会存在一定差距,而这种
差距是由于抽样的随机性所引起的。
⑧标准误:是样本统计量分布的标准差,用来衡量抽样误差的大小。
⑨参数检验:根据样本统计量去估计对应总体的参数
⑩假设检验:又称显著性检验,是用样本差异大小去估计总体之间是否存在差异。
区间估计:根据估计量以一定可靠程度推断总体参数所在的区间范围。
四分位差:
完全随机化设计:被试通过随机抽取并被随机分配到各个实验条件下进行实验的设计形式。
随机区组设计:将特征相似的被试分为一组,称为区组。
随机让每个区组接受一种实验的设计形式。
相关系数:表示两列量数之间的线性相互关系(程度)
决定系数:回归分析中衡量回归方程有效性高低指标,是回归平方和在离差平方和所占的比例。
1.总体:根据研究的目的确定的同质观察单位的全体,更确切的说,它是同质的所有观察单位某种观察值的集合2.参数:描述总体数量特征的统计指标3.样本:从总体中随帆抽取部分观察单位,其测量结果的集合称为样本。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本,该样本中所包含的观察单位数称该样样本的样本含量。
4.误差:泛指实测值与真值之差。
按其产生的原因的性质可粗分为随机误处和非随机误差,后者又可分为系统误差和非系统误差。
5.标准误:将样本统计量的标准差称为标准误,样本均数的标准差也称为均数的标准误(反应样本均数间的离散程度,也反应样本均数与相应总体均数间的差异,从而说明均数抽样误差的大小)6.医学参考值:指包括绝大多数的正常人的人体形态、功能和代谢产物等各种生理级生化指标常数,也叫正常值。
由于存在个体差异,生物医学数据并非常数,而是在一定的范围内波动,故又采用医学参考值范围作为判定正常或者异常的标准。
7.医学参考值范围:7:I类错误:指拒绝了实际上成立的HO,这类“弃真”的错误称为I型错误,其架率大小用a表示。
8.II类错误:指接受了实际上不成立的HO,这类“存伪”的误称为II 型错误,其频率大小用β。
9.系统误差:在实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生的原因往往是克制的或可以掌握地。
10.医学参考值:指包括绝大多数正常人的人体形态、功能和代谢产物等各种的生理及生化指标常数,也成正常值。
11.随机误差:是一类不恒定、陆机变化的误差,由多种尚无法控制的因素引起。
在抽样过程中由于抽样的偶然性而出现的抽样误差。
脸机误差是不可避免的,在大量的重复测量中,或在抽样过程中,它可出现或大或小或正或负,呈一定规律的变化。
12.抽样误差:这种由个体变异产生,随机抽样造成的样本统计量与总体参数的差异。
13.P 值:概率又叫几率,是度量某一随机事件A发生可能性的大小的一个数值,(Λ),P(A)越大,说明此时入事件发生的概率越大。
统计学名词解释1. 啥是总体呀?比如说咱全校学生就是一个总体呀!总体就是包含所研究的全部个体的集合。
就像一片森林,所有的树木加起来就是总体。
2. 样本呢,就是从总体里抽出来的一部分呀!比如从全校学生里随机选出来的 100 个学生就是样本呀。
这不就像从那片森林里砍几棵树出来研究一样嘛!3. 平均数大家都懂吧?就是一组数据的平均值呀!像咱班这次考试成绩的平均数,能反映出咱班的整体水平呢!这不就像大家一起走路,平均数就是大家走的平均速度嘛。
4. 中位数呢,就是按顺序排好中间的那个数呀!比如 1、2、3、4、5,那 3 就是中位数呀。
这就好比排队,站在中间的那个人的位置就是中位数呀!5. 众数可有意思啦!就是一组数据中出现次数最多的那个数呀!比如咱班同学最喜欢的颜色,出现最多的那个颜色就是众数呀。
这就好像一堆糖果里,数量最多的那种糖果嘛!6. 方差呀,就是用来衡量数据波动大小的呀!方差大,说明数据波动大;方差小,说明数据稳定呀。
就像天气,有时晴天有时雨天,波动大;一直晴天,波动就小呀!7. 标准差呢,和方差有关系,其实就是方差的平方根呀!它也能看出数据的离散程度呢。
就好像跑步的步幅,步幅变化大,标准差就大嘛!8. 概率,哇,这个可重要啦!就是某件事发生的可能性大小呀!比如抛硬币正面朝上的概率是二分之一呀。
这不就像抽奖,中不中奖都有个概率在那嘛!9. 相关系数呢,就是衡量两个变量之间关系的呀!要是相关系数大,说明关系紧密;要是小,说明关系不那么密切呀。
就像两个好朋友,关系好的相关系数就大嘛!10. 回归分析呢,就是找变量之间的关系呀!通过一些数据,找出它们之间的规律呀。
这就像找宝藏,通过一些线索找到宝藏的位置嘛!我的观点结论:统计学的这些名词都好有意思呀,能帮助我们更好地理解和分析数据呢!。
统计学名词解释汇总概述本文档收集了一些常见的统计学名词解释,旨在帮助读者更好地理解统计学领域中的相关概念和术语。
名词解释1. 总体(Population): 指研究对象的全体,包括对研究感兴趣的所有个体或单位。
总体(Population): 指研究对象的全体,包括对研究感兴趣的所有个体或单位。
2. 样本(Sample): 从总体中选取的一部分个体或单位,用来代表整个总体进行研究。
样本(Sample): 从总体中选取的一部分个体或单位,用来代表整个总体进行研究。
3. 抽样(Sampling): 从总体中选取样本的过程,可以通过随机抽样、分层抽样等方法进行。
抽样(Sampling): 从总体中选取样本的过程,可以通过随机抽样、分层抽样等方法进行。
4. 参数(Parameter): 描述总体特征的数值,例如总体均值、总体方差等。
参数(Parameter): 描述总体特征的数值,例如总体均值、总体方差等。
5. 统计量(Statistic): 根据样本数据计算得出的数值,用来代表总体参数的估计。
统计量(Statistic): 根据样本数据计算得出的数值,用来代表总体参数的估计。
6. 标准差(Standard Deviation): 描述数据集合离散程度或波动性的度量,是方差的平方根。
标准差(Standard Deviation): 描述数据集合离散程度或波动性的度量,是方差的平方根。
7. 假设检验(Hypothesis Testing): 根据样本数据来统计推断总体参数的过程,包括设定原假设和备择假设、计算统计量、确定显著性水平等步骤。
假设检验(Hypothesis Testing): 根据样本数据来统计推断总体参数的过程,包括设定原假设和备择假设、计算统计量、确定显著性水平等步骤。
8. 置信区间(Confidence Interval): 用于对总体参数的估计范围进行区间估计,根据样本数据计算得出。
置信区间(Confidence Interval): 用于对总体参数的估计范围进行区间估计,根据样本数据计算得出。
1.总体:总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。
总体可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
2.随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。
随机抽样是样本具有代表性的保证。
3.变异:在自然状态下,个体间测量结果的差异称为变异(variation)。
变异是生物医学研究领域普遍存在的现象。
严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。
4.计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。
计量资料亦称定量资料、测量资料。
.其变量值是定量的,表现为数值大小,一般有度量衡单位。
如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。
计数资料亦称定性资料或分类资料。
其观察值是定性的,表现为互不相容的类别或属性。
如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O 四种血型的人数等。
等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。
等级资料又称有序变量。
如患者的治疗结果可分为治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为+、++、+++等。
名词解释1.备择假设(alternative hypothesis):与原假设逻辑上反面的假设。
2.标准分数(standard score):也称标准化值或分数,它是变量值与其平均数的离差除以标准差后的值。
3.残值(residual):因变量的观测值y i与根据估计的回归方程求出的预测值y i之差,用e表示。
对于第i个观测值,残差为e i=y i-y i。
4.α错误(αerror):原假设为真却在检验中将原假设被拒绝,又称弃真错误或者第一类错误(type I error),用α表示其概率。
5.β错误(βerror)原假设为伪却在检验中未拒绝的原假设,又称取伪错误或者第二类错误(type II error),用β表示其概率。
6.对照组(control group):随记选取的实验对象的子集。
在这个子集中,每个单元不接受实验组成员所接受的某种特别的处理。
7.多重共线性(multicollinearity)回归模型中两个或两个以上的自变量彼此相关。
8.多重判定系数(multiple coefficient of determination)回归平方和占总平方和的比例,反映因变量y取值的变差中,能被估计的多元回归方程所解释的比例。
9.峰态(kurtosis)对数据分布平峰或尖峰的程度的测度。
10.假设检验(hypothesis testing)根据样本信息,对提出的命题进行检验的一套程序和方法。
11.离散系数(coefficient variation)也称变异系数,一组数据的标准差与其相对应的平均数之比,是测度数据离散程度的相对值。
12.拟合优度实验(goodness of fit test)对多个总体比例是否等于其期望概率的检验。
当期望概率相同时,表现为对多个总体的比例是否相等的检验。
13.偏态(skewness)对数据分布对称性的测度。
14.异众比率(variation ratio)非众数组的频数占总频数的比例。
1.参数(parameter):总体的统计指标或特征值。
总体参数是事物本身固有的、不变的。
统计量(statistic):由样本所算出的统计指标或特征值。
2.正态分布:以均数u为中心左右完全对称的分布,记为X~N(u, )
标准正态分布:以均数为0,标准差为1的正态分布,记为u~N(0,1)
3.平均数:也叫平均值,是一组(群)数据典型或有代表性的值。
这个值趋向于落在根据数据大小排列的数据的中心,包括算术平均数、几何平均数、中位数等。
标准差S:将方差开方,得到标准差,它是最常用的变异指标,标准差越大,说明数据的变异程度越大。
标准误S X:在统计理论上将样本统计量的标准差称为标准误,用来衡量均数抽样误差的大小。
据此,样本均数的标准差称为标准误。
S p(样本率的标准差):率的标准误,用来描述样本率的抽样误差。
4.参数检验:总体分布已知,对其中一些未知参数进行估计或检验。
这类统计推断的方法叫参数统计或参数检验。
参数检验:假定比较数据服从某分布,通过参数的估计量( , s)对比较总体的参数(μ)作检验,统计上称为参数法检验(parametric test)。
如t、u检验、方差分析。
非参数检验:是指在统计检验中不需要假定总体分布形式和用参数估计量,直接对比较数据的分布进行统计检验的方法,称为非参数检验(nonparametric test).
5.率(rate):强度相对数,用以说明某现象发生的频率或强度。
是某事物或现象发生的实际数与可能数的比例关系。
构成比(proportion):结构相对数,它说明一种事物内部各组成部分所占的比重或分布,常以百分数表示,其计算公式为:
比(ratio):又称相对比,是A、B两个有关指标之比,说明A为B的若干倍或百分之几,它是对比的最简单形式。
其计算公式为:比=A/B。
6.相关系数:用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数,又称为积差相关系数。
复相关系数:是决定系数的平方根,相对系数的绝对值,用来度量应变量与多个自变量间的线性相关程度。
决定系数:是反映回归贡献相对程度的指标,是回归平方和与总体平方和之比。
无单位,取值在0到1之间。
回归系数:直线回归方程= a+bX的系数b称为回归系数,也就是回归直线的斜率(slope),表示X 每增加一个单位,Y平均改变 b 个单位。
偏回归系数:是多元线性回归方程中的各个自变量的回归系数。
标准偏回归系数:将原始数据实施标准化变换后的直线回归方程中的偏回归系数,反映各变量对因变量的贡献大小。
零相关:指两个变量间没有直线相关的关系。
7. 统计描述:指选用恰当的统计指标,选用合适的统计表和统计图,对资料的数量特征及其分布规律进行测定和描述。
统计推断:从总体中随机抽取一定含量的样本进行研究,目的是通过样本的信息判断总体的特征,这一过程称为统计推断。
8.X检验:以卡方分布为理论依据,用途颇广的假设检验方法。
秩和检验:推断一个总体表达分布位置的中位数M和已知M0,两个或多个总体的分布是否有差别。
9.生存率:是指接受某种治疗的病人或患某病的病人中,经若干年的随访后,尚存活的病人数所占的比例。
生存概率:表示活过某时间段的可能性的大小。
10.可信区间:按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间,又称置信区间。
参考值范围:也称为正常值范围(normal range),医学上常把绝大多数正常人的某指标值范围称为该指标的正常值范围。
13.点估计:直接用样本统计量作为对应的总体参数的估计值。
区间估计:按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间,又称置信区间。
这种估计方法称为区间估计。
14. 频率:在n次随机试验中,事件A发生了m次,其比值称为事件A在n次试验中出现的频率。
m称为出现的频数。
在实际工作中,当观察单位的例数足够多时,可以用频率来代替概率。
频率是概率的估计值。
概率:在重复试验中,事件A的频率,随着试验次数的不断增加将愈来愈接近一个常数p,这个常数p就称为事件A出现的概率,记作P(A)或P。
描述随机事件发生的可能性大小的数值,常用P来表示。
4. 变量(variable):观察对象个体的特征或测量的结果。
由于个体的特征或指标存在个体差异,观察结果在测量前不能准确预测,故称为随机变量,简称变量。
变量的取值称为变量值或观察值。
根据变量的取值特性,分为数值变量和分类变量。
5. 数值变量:又称为计量资料、定量资料,指构成其的变量值是定量的,其表现为数值大小,有单位。
对每个观察单位用定量的方法测定某项指标的数值,组成的资料。
8. 抽样:从总体中抽取部分观察单位的过程称为抽样。
9. 抽样误差:由于抽样造成的统计量与参数之间的差别,特点是不能避免的,可用标准误描述其大小。
10. 误差:统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。
主要有以下二种:系统误差和随机误差。
13. 变异:同质事物间的差别。
由于观察单位通常即为观察个体,故变异亦称为个体变异。
14. 组间变异:用各组均数与总均数的离均差平方和表示
ν组间=k-1,k为实验分组数,组间均方为MS组间=SS组间/( k-1)
15. 组内变异:用各组均数与总均数的离均差平方和表示
,各组自由度为ni-1,则组内自由度为ν组内=N-k,组内均方为MS组内=SS组内/( N-k) 17. 中位数(median):将一组观察值按升序或降序排列,位次居中的数,常用M表示。
适用于偏态分布资料或不规则分布资料和开口资料。
所谓“开口”资料,是指数据的一端或两端有不确定值。
当n为奇数时,M=X(n+1)/2;当n为偶数时,M=[Xn/2+ Xn/2+1]/2。
18. 百分位数:是一种位置指标,以Px表示,一个百分位数Px将全部观察值分为两个部分,理论上有x%的观察值小于Px小,有(1-x%)的观察值大于Px。
19. 变异系数:亦称离散系数(coefficient of dispersion),为标准差与均数之比,常用百分数表示。
, 变异系数没有度量衡单位,常用于比较度量单位不同或均数相差悬殊的两组或多组资料的离散程度。
20. 统计表:统计表就是以表格的形式,表达被研究对象的特征、内部构成及研究项目分组之间的数量关系。
34.Ⅰ类错误:统计学上规定,拒绝了实际上成立的H0,这类“弃真”的错误称为Ⅰ型错误或第一类错误,Ⅰ型错误的概率用α表示。
35.Ⅱ类错误:统计学上规定,不拒绝实际上不成立的H0,这类“存伪”的错误称为Ⅱ型错误或第二类错误,Ⅱ型错误的概率用β表示。
36. 检验效能:又称把握度,即两总体确有差别,按α水准能发现它们有差别的能力。