医学统计学复习提纲
- 格式:doc
- 大小:277.04 KB
- 文档页数:8
医学统计学第一章绪论第一节医学统计学的定义和内容1.医学统计学的主要内容 :统计推断、统计描述第二节统计工作的基本步骤1.医学统计工作可分为四个步骤:统计设计搜集资料整理资料分析资料第三节统计资料的类型医学统计资料按研究指标的性质一般分为:定量资料、定性资料、等级资料一、定量资料(计量资料)定量资料(quantitative data)是用定量的方法测定观察单位(个体)某项指标数值的大小,所得的资料称定量资料。
如身高(㎝)、体重(㎏)、脉搏(次/分)、血压(kPa,mmHg)等为数值变量,其组成的资料为定量资料。
二、定性资料(计数资料)定性资料(qualitative data)是将观察单位按某种属性或类别分组,清点各组的观察单位数,所得的资料。
亦称无序分类资料。
如:男-女分组;中医的虚、实,阴、阳等分组;按生存-死亡分组;A、B、O、AB分组。
三、等级资料等级资料(ranked data)是将观察单位按属性的等级分组,清点各组的观察单位数,所得的资料为等级资料。
亦称有序分类资料。
如治疗结果分为治愈、显效、好转、无效四个等级。
:疾病的严重程度可以分为,轻、中、重;中医辨证中舌象的颜色有,淡、红、暗、紫。
♦根据需要,各类变量可以互相转化。
♦若按贫血的诊断标准将血红蛋白分为四个等级:重度贫血、中度贫血、轻度贫血、正常,可按等级资料处理。
有时亦可将定性资料或等级资料数量化,如将等级资料的治疗结果赋以分值,分别用0、1、2…等表示,则可按定量资料处理。
第四节统计学中的几个基本概念一、同质与变异同质(homogeneity)是指观察单位或研究个体间被研究指标的主要影响因素相同或基本相同。
如研究儿童的生长发育,同性别、同年龄、同地区、同民族、健康的儿童即为同质儿童。
变异(variation)由于生物个体的各种指标所受影响因素极为复杂,同质的个体间各种指标存在差异,这种差异称为变异。
如同质的儿童身高、体重、血压、脉搏等指标会有一定的差别。
医学统计学复习大纲(一)绪论1)总体与样本总体:根据研究目的确定的同质研究对象的全体。
分为有限总体与无限总体。
样本:从总体中随机抽取的部分观察单位。
2)参数与统计量参数:总体的统计指标,用希腊字母表示。
如总体均数、标准差,分别记为μ、σ。
固定的常数。
统计量:样本的统计指标,用拉丁字母表示。
如样本均数、标准差,为X(拔)、S。
在参数附近波动的随机变量。
3)抽样误差误差:实际观察值与客观真实值之差a.系统误差在实际观测过程中,由研究者、仪器设备、研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。
特点:观察值有方向性、周期性。
可以通过严格的实验设计和技术措施消除b.非系统误差由研究者的偶然失误而造成。
c.随机误差排除上述误差后尚存的误差,受多种无法控制的因素的影响。
特点:大小和方向不固定。
随机测量误差——提高操作者熟练程度可以减少这种误差。
随机抽样误差(由抽样造成的样本统计量和总体参数间的差异。
)——不可避免,但有一定的分布规律,可估计。
4)四种随机抽样方法a.单纯随机抽样——将观察单位逐一编号,然后用随机数字表、抽签或电脑等方法随机抽取部分观察单位组成样本。
为最基本的抽样方法。
b.系统抽样——按一定顺序机械地每隔若干个观察单位抽取一个观察单位以组成样本。
又称间隔抽样、机械抽样、等距抽样。
c.整群抽样——从总体中随机抽取若干个“群体”以组成样本。
这个群体可以是班级、街道社区等。
d.分层抽样——先按影响观察值变异较大的某种特征,将总体分为若干类型或组别(统计上叫“层”),再从每一层内随机抽取一定数量的观察单位,以组成样本。
也即分类抽样。
误差大小排序:整群抽样>单纯随机抽样>系统抽样>分层抽样5)P ≤ 0.05(5%)或P ≤ 0.01(1%)称为:小概率事件,即某事件发生的可能性很小。
6)变量的分类a.数值变量——其变量值是定量的,表现为数值的大小,一般有度量衡单位。
——计量(定量)资料b.分类变量——其变量值是定性的,表现为互不相容的类别或属性。
第1章绪论医学统计学是一门“运用统计学的原理和方法,研究医学科研中有关数据的收集、整理和分析的应用科学。
1.个体:又称观察单位,是统计研究的最基本单位,也是构成总体的最基本的观察单位。
2.总体:根据研究目的确定的同质观察单位某项指标测量值(观察值)的集合。
分为有限总体(明确规定了空间、时间、人群范围内有限个观察单位)和无限总体(无时间和空间范围的限制)。
反映总体特征的指标为参数,常用小写希腊字母表示。
3.样本:从总体中随机抽取的一部分有代表性的观察单位组成的整体。
(抽样,随机化原则,样本含量)根据样本资料计算出来的相应指标为统计量,常用大写英文字母表示。
4.抽样研究:从总体中随机抽取样本,根据样本信息推断总体特征的方法。
抽样误差是由随机抽样(样本的偶然性)造成的样本指标与总体指标之间、样本指标与样本指标之间的差异。
其根源在于总体中的个体存在变异性。
只要是抽样研究,就一定存在抽样误差,不能用样本的指标直接下结论。
统计分析主要是针对抽样误差而言。
5.变量(一个个体的任意“特征”);资料(变量值的集合),资料类型:①计量资料/定量资料/数值变量资料:表现为数值大小,一般有度量衡单位,又可分为连续型和离散型两类;②计数资料/定性资料/无序分类变量资料/名义变量资料:表现为互补相容的属性或类别,一般无度量衡单位,可分为二分类和多分类;③等级资料/半定量资料/有序分类变量资料:表现为等级大小或属性程度。
各类资料间可相互转化。
①可选分析方法有:t检验、方差分析、相关回归分析等;②可选分析方法有:χ2检验、z检验等;③可选分析方法有:秩和检验、Ridit分析等。
6.误差:实测值与真实值之差。
可分为随机误差(随机测量误差+抽样误差)与非随机误差(系统误差与非系统误差)。
①随机误差:是一类不恒定、随机变化的误差,由多种尚无法控制的因素引起,它是不可避免的;②系统误差:是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生原因往往是可知的或可以掌握的,它是可以消除或控制的;③非系统误差:又称过失误差,是指在实验过程中由于研究者偶然失误而造成的误差,可以消除。
医学统计学复习资料导言医学统计学是医学领域中非常重要的一门学科,它的作用是帮助医生和研究人员通过收集、分析和解释数据来评估医学检验和治疗的效果。
本文将提供一份医学统计学的复习资料,帮助读者回顾和巩固相关的知识。
一、基本概念1.1 总体和样本在医学统计学中,总体是指我们研究的整体对象,而样本则是总体的一个子集。
例如,我们对某种疾病的患者进行研究时,患者总体就是所有患该病的人群,而样本则是我们实际观察到的一部分患者。
1.2 参数和统计量在医学统计学中,参数是用来描述总体特征的统计量,例如总体均值、总体方差等。
而统计量是通过样本数据来估计总体参数的量,例如样本均值、样本方差等。
假设检验是医学统计学中常用的一种方法,它用于判断总体参数的假设是否成立。
在假设检验中,我们先假设总体参数的某个值是正确的(称为零假设),然后通过收集样本数据来判断该假设是否成立。
二、数据的分布2.1 正态分布正态分布在医学统计学中非常重要,因为许多统计方法都假设数据服从正态分布。
正态分布具有钟形曲线的特点,均值、中位数和众数都重合在一起。
常见的正态分布检验有Shapiro-Wilk检验和Kolmogorov-Smirnov检验。
2.2 t分布t分布是一种在样本量较小的情况下使用的概率分布,它比正态分布的尾部更加厚重。
t分布的形状取决于样本量,当样本量增加时,t分布逐渐趋近于正态分布。
在医学研究中,常用t分布来进行样本均值的假设检验。
非参数检验是一种不依赖于数据分布的统计方法,它对数据的要求相对较低。
与参数检验不同,非参数检验适用于无法确定数据分布或偏离正态分布的情况。
常见的非参数检验方法有Wilcoxon秩和检验和Mann-Whitney U检验。
三、统计推断3.1 置信区间置信区间是一种用来估计总体参数的范围,它是一个区间,表示我们对总体参数的估计在一定置信水平下的可信程度。
通常,置信区间的宽度与置信水平相关,越高的置信水平意味着更宽的置信区间。
医学统计学考前复习提纲第1章绪论⼀、名解1、Statistic统计量:由样本观测值获得的统计指标称为统计量。
2、Statistics统计学:收集、分析、解释与呈现数据资料同时处理数据中变异的⼀门学科。
3、Medical statistics医学统计学:运⽤概率论和数理统计学的原理和⽅法,研究医学数据的收集、整理、分析和推断,从⽽发现医学现象的内在规律,⽤以指导医学理论和实践的学科。
4、Individual个体(观察单位observation unit):是医学研究获得数据的基本单位,也是研究者所直接⾯对的研究对象。
5、Population总体:根据研究⽬的,所有的同质的观察单位(个体)某项观测值的全体称为总体。
6、Sample样本:来⾃总体的部分观察单位的观测值称为样本。
7、Descriptive statistics统计描述:⽤统计指标、统计图表等描述资料的数量特征及其分布规律。
8、Statistics inference统计推断:指⽤样本信息推断总体特征的统计学问题,包括参数估计parameter estimation和假设检验hypothesis test两部分内容。
9、Homogeneity同质:同⼀总体中个体的性质,影响条件或背景相同或⾮常相近。
个体的同质性是构成研究总体的必备条件。
10、Variation变异:对于同质的研究对象,其变量值之间的差异称为变异。
11、Variable变量:可以测量的任何特征或属性(不同个体结果可能不同),能表现观察单位变异的某种特征。
12、Variance⽅差/均⽅mean square:13、random variable随机变量:随机实验结果的所有取值称为随机变量。
14、概率与频率:在相同的条件下,独⽴地重复n次实验(如采⽤某种药物治疗多名患者),随机实验地某⼀结果A(如有效)出现f次,则称f/n为结果A出现地频率(frequency)。
当n逐渐增⼤时,频率f/n始终在⼀个常数左右微⼩摆动,称该常数为结果A出现的概率(probability),记为P。
统计学概述一、统计学的意义统计学是研究数据的收集、整理、分析的一门科学,是认识社会和自然现象客观规律数量特征的重要工具。
统计学方法就是帮助人们透过偶然现象认识其内在的规律性,揭示疾病或现象发生、发展规律,为预防疾病、促进健康提供客观依据。
二、统计学的基本概念(一)同质与变异同质是指被研究指标的影响因素相同。
变异是同质基础上的观察单位(亦称为个体)之间的差异。
(二)总体与样本总体是指根据研究目的确定的同质观察单位的全体。
样本从总体中随机抽取的部分观察单位,其测量值(或变量值)的集合。
(三)变量与变量值变量:确定总体后,研究者应对每个观察单位的某些特征进行测量或观察,这种特征称为变量,如:身高、体重等。
变量值:变量的测得值。
如身高150cm,体重50Kg等。
(四)参数与统计量参数是指总体特征的统计指标。
如某地健康成年男性的平均血红蛋白值。
统计量是指样本特征的统计指标。
如从某地健康成年男性中抽取一部分人的平均血红蛋白值。
(五)误差误差泛指测量值与真实值之差。
根据误差的性质和来源,统计工作中产生的误差主要有三种类型,即系统误差、随机测量误差、抽样误差。
1.系统误差:测量结果有倾向性。
查明原因,可以避免。
特点:①测量结果有倾向性。
如仪器、试剂、判定标准等。
②查明原因,可以避免。
2.随机测量误差:收集资料的过程中,即使避免了系统误差,但由于各种偶然因素造成的测量值与真实值不完全一致,这种误差称为随机测量误差。
特点:①随机误差没有大小和方向。
②不可避免。
3.抽样误差:由于随机抽样所引起的样本统计量与总体参数之间的差异以及各样本统计量之间的差异称为抽样误差。
特点:变异是绝对的,抽样误差不可避免。
原因:个体之间的差异;抽样时只能抽取总体中的一部分作为样本。
(六)概率(P)概率是描述某随机事件发生可能性大小的量值,常用符号P表示。
随机事件的概率在0~1之间,即0≤P≤1。
小概率事件:P≤0.05或P≤0.01的事件。
医学统计学总复习1、几种集中趋势指标的适用条件均数—正态分布或近似正态分布;几何均数—呈正偏态分布,但数据经过对数变换后呈正态分布的资料,也可用于观察值之间呈倍数或近似倍数变化(等比关系)的资料;中位数—偏态分布资料以及频数分布的一端或两端无确切数据资料。
几种离散程度指标的适用条件:极差(全距)—常用于描述单峰对称分布小样本资料的变异程度或用于初步了解资料。
四分位数间距—常用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。
方差和标准差—正态分布和近似正态分布。
变异系数—比较计量单位不同以及均数相差悬殊的几组资料。
21.标准正态分布(u分布)与t分布的异同:相同点;集中位置都是0,都是单峰分布,是对称分布,标准正态分布是t分布的特例(自由度是无限大时)。
不同点:t分布是一簇分布曲线,t分布的曲线形态是随自由度的变化而变化,标准正态分布的曲线的形态不变,是固定不变的,因为它的形状参数为1。
3.为什么不可以说“总体均数有95%的概率落在这个区间里”?样调查的成本会更高5.t检验的应用条件为:▪①在单样本检验中,总体标准差未知且样本含量较小(n<50)时,要求样本来自正态分布总体;▪②成组检验要求两组资料相应的总体分别服从正态分布且方差齐。
当不满足这些条件时可使用变量变换将数据转换成正态或者近似正态分布,或使用秩和检验。
两小样本均数比较时,若两总体方差不相等,还可使用t’检验。
6.假设检验中的注意事项▪要保证组间的可比性▪要根据研究目的、设计类型和资料类型选用适当的检验方法▪正确理解假设检验中概率P值的含义▪结论不能绝对化▪单、双侧检验应事先确定7.方差分析的基本思想把全部观察值间的变异按设计类型的不同,分解成两个或多个组成部分,然后将各部分的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义。
8.方差分析的应用条件▪ 1. 各样本是相互独立的随机样本,均服从正态分布▪ 2. 各样本的总体方差相等,即方差齐性独立、正态、方差齐性如果方差不齐时,可采用F’检验或秩和检验。
《医学统计学》复习提纲第二章 统计描述公式:几何均数(1)直接法:nn X X X G ...21= 或 )lg (lg )lg ...lg lg (lg 1211nX n X X X G n ∑--=+++= (2)加权法:)lg (lg ....lg ...lg lg (lg 12122111∑∑--=++++++=f X f f f f X f X f X f G k k k中位数(median ) (1) 直接法:n 为奇数 , 2)1(+=n X M n 为偶数,)(21122++=n n X X M(2)频数表法:用于频数表资料。
∑-+=)2(L Mf nf i L M 标准差(standard deviation ): nX ∑-=2)(μσ 1)(2--=∑n X X S离均差平方和2)(∑-X X 常用SS 或l XX 表示。
∑∑∑-=-==NX X X X l SS XX 222)()(直接法: 1)(22--=∑∑n n X X S 加权法:1)(22--=∑∑∑∑f f fX fX S 1. 常用的相对数指标有哪些?它们的意义和计算上有何不同? 2. 为什么不能以构成比代率?请联系实际加以说明。
率和构成比所说明的问题不同,绝不能以构成比代率。
构成比只能说明各组成部分的比重或分布,而不能说明某现象发生的频率或强度。
例如:以男性各年龄组高血压分布为例,50~60岁年龄组的高血压病例占52.24%,所占比重最大,60~岁组则只占到6.74%。
这是因为60~岁以上受检人数少,造成患病数低于50~60岁组,因而构成比相对较低。
但不能认为年龄在50~60岁组的高血压患病率最严重,而60岁以上反而有所减轻。
若要比较高血压的患病率,应该计算患病率指标。
3. 应用相对数时应注意哪些问题?4.简述医学中参考值范围的涵义及制定参考值范围的一般步骤。
医学中常把绝大多数正常人的某指标范围称为该指标的参考值范围,也叫正常值范围。
绪论一、卫生统计学的定义根据统计学的原理和方法,研究医学数据的收集、表达和分析的一门应用学科。
二、统计工作的步骤1、设计2、搜集资料3、整理资料4、分析资料三、统计资料的类型1、定量资料:可通过对观察单位测量取得数值,一般有度量衡单位。
如身长(cm)、血压(kPa)、脉搏( 次/ 分)。
虽然如脉搏、白细胞计数等测量值只能是正整数(不连续),但为研究方便习惯上也视为连续变量。
2、分类资料:分类变量的可能取值是离散的。
表现为互不相容的类别。
如性别、血型、民族、职业等。
(1)无序分类unordered categories(或名义变量nominal variable)表现为变量的不同取值间没有大小、强弱、优劣等程度之别。
如性别、血型等。
无序分类资料称为计数资料。
A.二项分类:如性别分为男、女;虫卵化验结果分为阴性、阳性等。
B.多项分类:如人群血型的A、B、O、AB等。
(2)有序分类:表现为变量的不同取值间有大小、强弱、优劣等程度之别。
如疗效可分为治愈、显效、好转、无效,尿蛋白化验结果分为一、±、++、+++等。
各类之间有程度上的差别。
有序分类变量资料称为等级资料(ranked data)。
(3)各类变量间的互相转化根据研究分析的需要,各类资料可相互转化。
分类变量转化为数值是将具有属性的事物,按其顺序、轻重、大小、主次标以数码。
A.对于有序分类变量有时可通过给各类别赋值,如治愈为3、显效为2、好转为l、无效为0,作为数值变量处理。
B.数值变量也可转化为分类变量:如按血压测量值大小将血压分为低血压、正常、高血压,从而按分类变量处理。
四、基本概念1、总体:根据研究目的确定的同质观察单位的全体。
有限总体?无限总体?2、样本:从总体中随机抽取部分观察单位实测值的集合。
3、同质:是指具有某些相同因素的个体,而这些因素会对研究指标产生影响(如同一地区、同一年份、同一性别等)。
4、变异是指在同质的基础上各观察值之间的差异。
《医学统计学》复习提纲第二章 统计描述公式:几何均数(1)直接法: nn X X X G ...21=或 )lg (lg)lg ...lg lg (lg1211nXnX X X G n∑--=+++=(2)加权法: )lg (lg....lg ...lg lg (lg12122111∑∑--=++++++=fXf f f f X f X f X f G kkk中位数(median ) (1) 直接法:n 为奇数 , 2)1(+=n X M n 为偶数,)(21122++=n n XXM(2)频数表法:用于频数表资料。
∑-+=)2(L Mf n f i L M标准差(standard deviation ): nX∑-=2)(μσ 1)(2--=∑n X XS离均差平方和2)(∑-X X 常用SS 或l XX 表示。
∑∑∑-=-==NX XX Xl SS XX 222)()(直接法:1)(22--=∑∑n nX XS 加权法:1)(22--=∑∑∑∑f ffX fXS1. 常用的相对数指标有哪些?它们的意义和计算上有何不同?2. 为什么不能以构成比代率?请联系实际加以说明。
率和构成比所说明的问题不同,绝不能以构成比代率。
构成比只能说明各组成部分的比重或分布,而不能说明某现象发生的频率或强度。
例如:以男性各年龄组高血压分布为例,50~60岁年龄组的高血压病例占52.24%,所占比重最大,60~岁组则只占到6.74%。
这是因为60~岁以上受检人数少,造成患病数低于50~60岁组,因而构成比相对较低。
但不能认为年龄在50~60岁组的高血压患病率最严重,而60岁以上反而有所减轻。
若要比较高血压的患病率,应该计算患病率指标。
3. 应用相对数时应注意哪些问题?4.简述医学中参考值范围的涵义及制定参考值范围的一般步骤。
医学中常把绝大多数正常人的某指标范围称为该指标的参考值范围,也叫正常值范围。
所谓“正常人”不是指完全健康的人,而是指排除了所研究指标的疾病和有关因素的同质人群。
制定参考值范围的一般步骤: (1)定义“正常人”,不同的指标“正常人”的定义也不同。
(2)选定足够数量的正常人作为研究对象。
(3)用统一和准确的方法测定相应的指标。
(4)根据不同的用途选定适当的百分界限,常用95%。
(5)根据此指标的实际意义,决定用单侧范围还是双侧范围。
(6)根据此指标的分布决定计算方法,常用的计算方法:正态分布法、百分位数法。
5.正态分布、标准正态分布与对数正态分布的联系与区别。
三种分布均为连续型随机变量的分布。
正态分布、标准正态分布均为对称分布,对数正态分布是不对称的,其峰值偏在左边。
标准正态分布是一种特殊的正态分布(均数为0,标准差为1)。
一般正态分布变量经标准化转换后的新变量服从标准正态分布。
对数正态分布不属于正态分布的范畴,对数正态分布变量经对数转换后的新变量服从正态分布。
6.对称分布在“X ± 1.96S 标准差”的范围内,也包括95%的观察值吗?不一定。
均数±1.96标准差范围内包含95%的变量值是正态分布的分布规律,不是对称分布的规律。
对称分布不一定是正态分布。
7.集中趋势的描述有哪些指标?各指标的具体应用条件? 8.离散程度的描述有哪些指标?各指标的具体应用条件/ 9.正态分布的特征有哪些?10.正态分布下面积有哪些分布规律?11.正态分布有哪些应用?12.简述标准化的目的和基本思想;标准化率有哪些计算方法/ 13.简述频数分布表的编制方法及其主要应用。
14.中位数与百分位数在符号,意义,计算和应用有何区别和联系? 15.试比较标准差和变异系数在描述变异程度时的优势。
第三章 抽样分布与参数估计 公式1.均数标准误的计算公式:n x/σσ= 均数标准误的估计值(x s )n s s x /=2. t =xs x μ-3.总体均数的估计1.σ已知时 总体均数μ的95%可信区间为(x x x x σσ96.1,96.1+-) 2.σ未知,但n 足够大(如n >100)时 总体均数μ的95%可信区间为(x s x 96.1-,x s x 96.1+)3.σ未知且n 小时 某自由度的t 曲线下有95%的t 值在±υ,05.0t 之间, 总体均数μ的95%可信区间为 (x s t x υ,05.0-,x s t x υ,05.0+)4. 二项分布概率公式:Xn XX n X P --⎪⎪⎭⎫⎝⎛=)1()(ππ在二项分布资料中,当π和n 已知时, 均数μ: μ=nπ μp =π, 标准差σ: σ=)1(ππ-n σp =n)1(ππ-当π未知时,常用样本率p 作为π的估计值,式σp =n)1(ππ-变为: s p =np p )1(-总体率的区间估计(一)查表法当样本含量n 较小,如n ≤50,特别是p 很接近于0或1时 (二)正态近似法当样本含量n 足够大,且样本率p 或1-p 均不太小,如np 与n (1-p )均大于5时, p s u p 2(α-,)2p s u p α+。
5. Poisson 分布的概率函数!)(X eX P Xμμ-= X=1,2,3…μ-=e P )0( 1)()1(+=+X X P X P μ问答题:1.服从二项分布及Poisson 分布的条件分别是什么?二者有哪些性质?二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。
Poisson 分布成立的条件:①平稳性:X 的取值与观察单位的位置无关,只与观察单位的大小有关;②独立增量性:在某个观察单位上X 的取值与前面各观察单位上X 的取值无关;③普通性:在充分小的观察单位上X 的取值最多为1。
2.二项分布、Poisson 分布分别在何种条件下近似正态分布?二项分布的正态近似:当n 较大,π不接近0也不接近1时,二项分布B (n ,π)近似正态分布N (n π, )1(ππ-n )。
Poisson 分布的正态近似:Poisson 分布P (μ),当μ相当大时(≥20),其分布近似于正态分布。
3.在何种情况下,可以用率的标准误S p 描述率的抽样误差?当率P 所来自的样本近似服从正态分布时,即n 较大,P 不接近0也不接近1时,可以用率的标准误S p描述率的抽样误差。
4. 中心极限定理的内容?(样本均数的抽样分布有哪些特点?)5.t 分布的特征?如何进行总体均数的估计?6.标准差和标准误的区别?7.总体均数的可信区间与医学参考值范围的区别? 第四章 数值变量资料的假设检验 公式:1.单样本检验nsx t 0μ-=1-=n ν如果样本含量足够大时,可将样本均数转化为u 值nsx u 0μ-=2.配对t 检验 ns d t d= 1-=n ν3.两样本检验 2121x x s x x t --=221-+=n n v21x x s -为两样本均数差值的标准误,可用下式计算⎪⎪⎭⎫⎝⎛+-+-+-=-2121222211112)1()1(21n n n n s n s n s x x如果样本含量足够大时,可计算u 统计量22212121n sn sx x u +-=如果方差不齐,可以考虑用t '检验。
两样本的方差是否齐同,可对样本的方差做方差齐性检验 22小大s s F =111-=n v , 122-=n v问答题; 1. t 检验适用于?t 检验的应用条件?t 检验有哪几种类型?各自的意义和目的及应用条件? 2. u 检验的应用条件?分哪几种类型? 3. Ⅰ型错误和Ⅱ型错误的区别和联系? 4. 假设检验应注意哪些事项? 5. 简述假设检验的原理及基本步骤? 6. 两样本均数比较t 检验,P 值的意义? 7. 简述假设检验与区间估计的联系?8.假设检验时,当P ≤α, 则拒绝0H ,其理论依据是什么?(假设检验时,当P ≤0.05,则拒绝H 0,理论依据是什么?)答:P 值系由H 0所规定的总体做随机抽样,获得等于及大于(或等于及小于)依据现有样本信息所计算得的检验统计量的概率。
当P ≤0.05时,说明在H 0成立的条件下,得到现有检验结果的概率小于α,因为小概率事件几乎不可能在一次试验中发生,所以拒绝H 0。
同时,下“有差别”的结论的同时,我们能够知道可能犯错误的概率不会大于α,也就是说,有了概率保证。
9. 如何合理设置检验水准?设置检验水准应根据研究目的,结合专业知识和研究设计要求,在末获得样本信息之前决定,而不应受到样本结果的影响。
10. 以t 检验为例,说明检验水准α和P 的区别?以t 检验为例,α和P 都是用t 分布尾部面积大小表示,所不同的是:α表示I 型错误的概率,即H 0为真而被错误地拒绝的概率值。
α是在统计分析时,根据I 型错误危害的大小,预先规定的,即规定统计结果为“接受 H 1” 时的误判率的界限值为α(即检验水准)。
P 值是由实际样本得出的统计结果为“接受 H 1” 时误判率。
根据P 与α的大小关系作出“不拒绝H 0”或“拒绝H 0”的统计推断。
11. 配对资料有哪几种情形?请举例说明。
12.简述可信区间在假设检验问题中的作用。
[评析]可信区间不仅能回答差别有无统计学意义,而且还能提示差别有无实际意义。
可信区间只能在预先规定的概率即检验水准α的前提下进行计算,而假设检验能够获得一较为确切的概率P 值。
故将二者结合起来,才是对假设检验问题的完整分析。
第五章 方差分析公式:1.方差分析的计算方法1)总离均差平方和(sum of squares,SS )及自由度(freedom,ν)∑∑==∑-∑=-=ki n j ijiNx x x xSS 11222)()(总 总ν=N -12)组间离均差平方和、自由度和均方∑=-=ki i ix x nSS 12)(组间 Nx n x SS ki in j ij i2121)()(∑-=∑∑==组间 1-=k 组间ν组间组间组间νSS MS=3)组内离均差平方和、自由度和均方组间总组内SS SS SS -= k N -=组内ν 组内组内组内νSS MS =4)三种变异的关系:211112)]()[()(x x x xx xSS i i ki n j ijki n j ijii-+-=-=∑∑∑∑====总组内组间ss ss x xx x ni ki n j iji k i ii+=-+-=∑∑∑===21121)()(总ν= N -1= (k -1)+(N -k ) =组内组间+νν2. Newman-Keuls 检验(q 检验)BA x xB A s x x q --=nMSs B A x x 组内=- (n A =n B =n )否则)11(2BAx xn n MS s BA+=-组内1. t 检验和方差分析的应用条件与用途?t 检验和方差分析均要求各样本来自相互独立的正态总体且各总体方差齐。