医学统计学符号-公式-重点
- 格式:doc
- 大小:1.01 MB
- 文档页数:48
集中趋势的描述算术均数: 频数表资料(X0为各组段组中值)n fXffX x OO∑∑∑==几何均数:n nX X X G ...21= 或)log (log 1nX G ∑-=频数表资料:⎥⎦⎤⎢⎣⎡=⎥⎥⎦⎤⎢⎢⎣⎡=∑∑∑--n X f f X f G log lg log log 11 中位数:(1)*21+=n X M (2))(21*12*2++=n n X X M百分位数⎪⎭⎫⎝⎛-⋅+=L X X f n X f i L P 100其中:L 为欲求的百分位数所在组段的下限 , i 为该组段的组距 , n 为总频数 , X f 为该组段的的频数 ,L f 为该组段之前的累计频数方差: 总体方差为:式(1); 样本方差为 式(2)(1)N X 22)(μσ-∑=(2)1)(22--∑=n X X S标准差:1)(2--∑=n X X S或 1/)(22-∑-∑=n nX X S频数表资料计算标准差的公式为1/)(22-∑∑∑-∑=f ffx fx S变异系数:当两组资料单位不同或均数相差较大时,对变异大小进行比较,应计算变异系数 %100⨯=X SCV常用的相对数指标 (一)率 (二)相对比(三)构成比 1.直接法标准化NpN p ii∑='∑=i i p N N p )(' 2.间接法标准化预期人数实际人数=SMR ∑=ii P n rSMR SMR P P ⨯='正态分布:密度函数:)2/()(2221)(σμπσ--=X e X f分布函数: 小于X 值的概率,即该点正态曲线下左侧面积)()(x X P x F <=特征:(1)关于x=μ对称。
(2)在x=μ处取得该概率密度函数的最大值,在σμ±=x 处有拐点,表现为钟形曲线。
(3)曲线下面积为1。
(4)μ决定曲线在横轴上的位置,σ决定曲线的形状 。
(5)曲线下面积分布有一定规律标准正态分布:对任意一个服从正态分布的随机变量,作如下标准化变换σμ-=X u ,u 服从总体均数为0、总体标准差为1的正态分布。
一、基本概念1.总体与样本总体:所有同质观察单位某种观察值(即变量值)的全体样本:是总体中抽取部分观察单位的观察值的集合2.普查与抽样调查普查:就是全面调查,即调查目标总体中全部观察对象抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查3.参数与统计量参数:总体的某些数值特征统计量:根据样本算得的某些数值特征4.Ⅰ型与Ⅱ型错误假设检验的结论真实情况拒绝H0不拒绝H0H0正确Ⅰ型错误(ɑ)推断正确(1−ɑ)H0不正确推断正确(1−β) Ⅱ型错误(β)Ⅰ型错误(ɑ错误):H0为真时却被拒绝,弃真错误Ⅱ型错误(β错误): H0为假时却被接受,取伪错误5.随机化原则与安慰剂对照随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。
(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上)安慰剂对照:是一种常用的对照方法。
安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。
(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。
安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应)6.误差与标准误(区分率与均数)㈠均数抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。
标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n㈡样本率率的抽样误差:样本率p和总体率π的差异率的标准误:样本率的标准差,公式为σp=√π(1-π)/n7。
方差分析方差分析:又称F检验,是通过对数据变异按设计类型的不同,分解成两个或多个样本均数所代表总体均数是否有差别的一种统计学方法。
集中趋势的描述算术均数: 频数表资料(X0为各组段组中值)n fXffX x OO∑∑∑==几何均数:n nX X X G ...21= 或)log (log1nX G ∑-=频数表资料:⎥⎦⎤⎢⎣⎡=⎥⎥⎦⎤⎢⎢⎣⎡=∑∑∑--n X f f X f G log lg log log 11 中位数:(1)*21+=n X M (2))(21*12*2++=n n X X M百分位数⎪⎭⎫⎝⎛-⋅+=L X X f n X f i L P 100其中:L 为欲求的百分位数所在组段的下限 , i 为该组段的组距 , n 为总频数 , X f 为该组段的的频数 ,L f 为该组段之前的累计频数方差: 总体方差为:式(1); 样本方差为 式(2)(1)N X 22)(μσ-∑=(2)1)(22--∑=n X X S标准差:1)(2--∑=n X X S 或 1/)(22-∑-∑=n nX X S 频数表资料计算标准差的公式为1/)(22-∑∑∑-∑=f ffx fx S变异系数:当两组资料单位不同或均数相差较大时,对变异大小进行比较,应计算变异系数%100⨯=X SCV常用的相对数指标 (一)率 (二)相对比(三)构成比 1.直接法标准化NpN pii∑='∑=ii p NN p )('2.间接法标准化预期人数实际人数=SMR ∑=ii P n rSMRS M R P P ⨯='正态分布:密度函数:)2/()(2221)(σμπσ--=X e X f分布函数: 小于X 值的概率,即该点正态曲线下左侧面积)()(x X P x F <=特征:(1)关于x=μ对称。
(2)在x=μ处取得该概率密度函数的最大值,在σμ±=x 处有拐点,表现为钟形曲线。
(3)曲线下面积为1。
(4)μ决定曲线在横轴上的位置,σ决定曲线的形状 。
(5)曲线下面积分布有一定规律标准正态分布:对任意一个服从正态分布的随机变量,作如下标准化变换σμ-=X u ,u 服从总体均数为0、总体标准差为1的正态分布。
医学统计学考试重点_(1)P值:概率,反映某⼀事件发⽣的可能性⼤⼩。
统计学根据显著性检验⽅法所得到的P 值反应结果真实程度,⼀般以P ≤ 0.05认为有统计学意义, P ≤0.01 认为有⾼度统计学意义,其含义是样本间的差异由抽样误差所致的概率等于或⼩于0.05 或0.01。
⼩概率原理:⼀个事件如果发⽣的概率很⼩的话,那么可认为它在⼀次实际实验中是不会发⽣的,数学上称之⼩概率原理,也称为⼩概率的实际不可能性原理。
统计学中,⼀般认为等于或⼩于0.05或0.01的概率为⼩概率。
设计:收集资料:整理资料:分析资料实验设计的基本原则:随机化原则、对照的原则、重复的原则。
频数表制作步骤以及频数分布表的⽤途1、找出观察值中的最⼤值,最⼩值,求极差(range)。
2、确定分组数和组距。
组距=极差/组数。
3、确定组段。
第⼀组段包括要最⼩值。
最后组段包括最⼤值并写出其上限值。
4、划记。
5、统计各组段的频数。
算术均数、⼏何均数、中位数。
极差、四分位数间距、⽅差、标准差、变异系数。
正态分布的特征:服从正态分布的变量的频数分布由υ、σ完全决定。
(1) υ是正态分布的位置参数,描述正态分布的集中趋势位置。
正态分布以 x =υ为对称轴,左右完全对称。
正态分布的均数、中位数、众数相同,均等于υ。
(2) σ描述正态分布资料数据分布的离散程度,σ越⼤,数据分布越分散,σ越⼩,数据分布越集中。
σ也称为是正态分布的形状参数,σ越⼤,曲线越扁平,反之,σ越⼩,曲线越瘦⾼。
医学参考值范围的制定确定参考值范围的单双侧:⼀般⽣理物质指标多为双侧、毒物指标则多为单侧。
95%=±1.96 S 。
99%= ±2.58 S t分布的图形特征1.以0为中⼼,左右对称的单峰分布;2.t分布是⼀簇曲线,其形态变化与n(确切地说与⾃由度ν)⼤⼩有关。
⾃由度ν越⼩,t分布曲线越低平;⾃由度ν越⼤,t分布曲线越接近标准正态分布(u分布)曲线。
(完整word版)医学统计学符号,公式,重点第⼀章医学统计中的基本概念1、医学统计学是研究医学数据的收集、整理、分析、解释和呈现其结果的⼀门学科。
2、个体:研究的基本观察单位。
3、变量:⽤于观察研究对象的指标。
4、观察值:个体变量的数值。
5、资料:⼜称为数据,由变量的观察值构成。
变异:个体观察值之间具有的差异。
变异和同质是对统计学数据的要求!变异是统计学研究的真正对象!统计学是研究变异规律的科学!同质:个体观察值之间的变异在允许范围内。
异质:个体观察值之间的变异超出允许范围。
⼀、总体、抽样、样本、参数、统计量总体:同质的个体所构成的全体研究对象。
总体同时具有同质和变异两个特点。
有限总体:总体中的个体数量是有限的。
⽆限总体:总体中的个体数量是⽆限的。
样本:从总体中随机抽取的部分个体。
样本量:样本所包含的个体数⽬。
参数:刻画总体特征的指标。
统计量:刻画样本特征的指标。
抽样:从总体中随机抽取部分个体的过程。
抽样具有代表性、随机性、可靠性、可⽐性;原则:代表性:样本能充分反映总体特征。
随机性:保证总体中每个个体都有相同的⼏率被抽样。
随机性是代表性的保证;⽣活中随机性的例⼦(思考题);计量资料:由连续变量的观察值构成的资料。
对每个观察对象的观察指标⽤定量⽅法测定其数值⼤⼩所得的资料,⼀般有度量衡单位,例如年龄、⾝⾼、⾎糖。
计数资料:由离散变量的观察值构成的资料。
先将观察对象的观测指标按性质或类别进⾏分组,然后计数各组的数⽬所得的资料,例如性别、患病、⾎型。
等级分组资料:由等级变量的观测值构成的资料。
具有计数资料的特征,同时⼜具有半定量性质的资料,例如细菌培养阳性结果。
⼆、3种设计类型:完全随机设计;配对设计;配伍组设计。
三、抽样误差、概率和⼩概率事件抽样误差:由抽样引起的样本统计量与总体参数之间的差异。
抽样误差的原因;抽样误差是不可避免的。
概率P :表⽰某事件发⽣的可能性⼤⼩的度量。
⼩概率事件:统计学上习惯将P ≤0.05或P ≤0.01的事件称为⼩概率事件,表⽰该事件发⽣的可能性很⼩。
医学统计学重点选择1.几何均数:平均血清抗体滴度(如P9例2.4)2.正态分布:横轴为μ(界值、面积)2.5% I1.962.5%单侧双侧90%: 1.6495%: 1.64 1.9699%: 2.583.P值与α的关系,α是人为规定的,它们之间没有关系;P值f,Qt(X)4.方差分析自由度V的计算,V总=nT;V组间=组数(k)-1;V组间=V总-V组间5.理论秩和(n(n+1)∕2),实际秩和(通过平均秩次算)6.可信区间的正确应用:总体参数有95%的可能落在该区间内(X);有95%的总体参数在该区间内(X);该区间包含95%的总体参数(X);该区间有95%的可能包含总体参数。
(X);这个区间的可信度为95%(√);总体参数只有一个,要么在区间内,要么不在7.相关系数与回归系数:相关系数为0,两个变量之间没有相关关系(X);回归系数t,相关系数t(X);(要做假设检验)二、名解1.参考值范围:根据正常人的数据估计绝大多数的正常人所在的范围2.区间估计(可信区间):按一定的概率或可信度(bα)用一个区间估计总体参数所在范围。
这个范围称作可信度为1-a的可信区间,又称置信区间。
3.P值:拒绝HO时所冒的风险(或“作出拒绝HO而接受H1”结论时冒了P风险)4.a(第一类错误):HO真实时被拒绝(或HO真实时,拒绝H0,接受H1)5.β(第二类错误):HO不真实时不拒绝(或HO不真实时,不拒绝HO)1-β检验效能:对真实的H1做肯定结论之概率6.秩次:是指全部观察值按某种顺序排列的位序;7.秩和:同组秩次之和8.剩余标准差:扣除了X的影响后,Y方面的变异;引进回归方程后,Y方面的变异。
三、简答1.假设检验与可信区间的联系与区别分辨多个样本是否分别属于不同的总体,并对总体作出适当的结论。
分辨一个样本是否属于某特定总体等。
区间估计(可信区间):按一定的概率或可信度(1-a)用一个区间估计总体参数所在范围。
医学统计学之1--平均数与标准差(在医科院皮研所统计培训班编写的讲义)2008年05月06日星期二 06:51 平均数是分析测量资料常用的一种统计指标。
它说明一组观察值的平均水平或集中趋势。
在麻风病统计中常用的有算术均数、几何均数和中位数。
标准差也是分析测量资料常用的统计指标,它说明一组观察值的离散程度。
在应用中,常常把平均数和标准差结合运用,综合表达一组观察值的集中和离散特性。
(一)小样本均数、标准差直接计算法1、公式_ ∑XX =──── (1.1) N┌─────│ _│∑(X-X)2S =│────── (1.2)√ N - 1┌────────│ (∑X)2│∑X2 -───│ NS =│────── (1.3)√ N - 1_X: 观察值X: 算术均数N: 观察值个数S: 标准差∑X: 观察值总和∑X2: 观察值平方的总和_∑(X-X)2: 观察值的离均差平方和2、应用范围及注意事项(1). 观察值必须是同质的。
(2). 观察值资料必须大体符合正态分布才能计算均数,而偏态分布的资料不宜用均数描述其集中趋势。
(3). 标准差越大,表示观察值的分布越分散、标准差越小,说明观察值分布越集中。
(4). 常以“均数±标准差”的写法综合表达一组观察值的集中和离散特征。
3、实例[例1.1]10例麻风病人空腹测定转氨酶GPT的结果为43、50、36、32、40、38、47、41、45、40单位,求GPT的平均值和标准差。
计算步骤:∑X=43+50+36+32+……+40=412∑X2=432+502+362+322+……+402=17228代入公式(1.1)求均数得_ 412X =───= 41.210代入公式(3.2)求标准差得┌─────────│ 4122│17228 -────│ 10S =│───────────= 5.308√ 10-1故可用均数与标准差综合表示10名麻风病人转氨酶测定结果为: 41.2±5.308。
医学统计学重点第一章绪论1.基本概念:总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。
样本:从总体中随机抽取部分个体的某个变量值的集合.总体参数:刻画总体特征的指标,简称参数。
是固定不变的常数,一般未知。
统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。
抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。
频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。
称m/n为事件A在n次试验中出现的频率或相对频率。
概率:频率所稳定的常数称为概率。
统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。
统计推断:包括参数估计和假设检验。
用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计.用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验。
2.样本特点:足够的样本含量、可靠性、代表性。
3。
资料类型:(1)定量资料:又称计量资料、数值变量或尺度资料.是对观察对象测量指标的数值大小所得的资料,观察指标是定量的,表现为数值大小。
每个个体都能观察到一个观察指标的数值,有度量衡单位.(2)分类资料:包括无序分类资料(计数资料)和有序分类资料(等级资料)①计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由各分组标志及其频数构成。
包括二分类资料和多分类资料。
二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容.多分类:将观察对象按多种互斥的属性分类②等级资料:将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单位的个数所得的资料。
4.统计工作基本步骤:统计设计、资料收集、资料整理、统计分析.第二章实验研究的三要素1.实验设计三要素:被试因素、受试对象、实验效应2。
误差分类:随机误差(抽样误差、随机测量误差)、系统误差、过失误差。
3。
实验设计的三个基本原则:对照原则、随机化分组原则、重复原则.4。
医师资格考试xx-预防医学医学统计学方法第一节基本概念和基本步骤(非常重要)一、统计工作的基本步骤设计(最关键、决定成败)、搜集资料、整理资料、分析资料。
总体:根据研究目的决定的同质研究对象的全体,确切地说,是性质相同的所有观察单位某一变量值的集合。
总体的指标为参数。
实际工作中,经常是从总体中随机抽取一定数量的个体,作为样本,用样本信息来推断总体特征。
样本的指标为统计量。
由于总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,这种由抽样引起的差异称为抽样误差。
抽样误差愈小,用样本推断总体的精确度愈高;反之,其精确度愈低。
某事件发生的可能性大小称为概率,用P表示,在0~1之间,0和1为肯定不发生和肯定发生,介于之间为偶然事件,<0.05或0.01为小概率事件。
二、变量的分类变量:观察单位的特征,分数值变量和分类变量。
第二节数值变量数据的统计描述(重要考点)一、描述计量资料的集中趋势的指标有1.均数均数是算术均数的简称,适用于正态或近似正态分布。
2.几何均数适用于等比资料,尤其是对数正态分布的计量资料。
对数正态分布即原始数据呈偏态分布,经对数变换后(用原始数据的对数值lgX代替X)服从正态分布,观察值不能为0,同时有正和负。
3.中位数一组按大小顺序排列的观察值中位次居中的数值。
可用于描述任何分布,特别是偏态分布资料的集中位置,以及分布不明或分布末端无确定数据资料的中心位置。
不能求均数和几何均数,但可求中位数。
百分位数是个界值,将全部观察值分为两部分,有X%比小,剩下的比大,可用于计算正常值范围。
二、描述计量资料的离散趋势的指标1.全距和四分位数间距。
2.方差和标准差最为常用,适于正态分布,既考虑了离均差(观察值和总体均数之差),又考虑了观察值个数,方差使原来的单位变成了平方,所以开方为标准差。
均为数值越小,观察值的变异度越小。
3.变异系数多组间单位不同或均数相差较大的情况。
变异系数计算公式为:CV=s/×100%,公式中s为样本标准差,为样本均数。
第一章统计学的基本概念:统计学是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结果。
统计学的研究对象:有变化的事物或现象。
总体:是根据研究目的的确定的同质研究对象的全体,统计学家用总体这个术语来表示大同小异的对象全体。
样本:是指从研究总体中抽取少量有代表性的个体。
同质:一些个体处于同一总体,就是指它们大同小异,具有同质性。
变异:同一总体内的个体间存在差异又是绝对的,这种现象就是Fisher强调的变异。
没有同质性就构不成一个总体供人们研究,总体内没有变异性就无需统计学。
变量:可分为定性变量、定量变量。
定性变量:常见的是分类变量或名义变量,还有一种是有序变量。
定量变量(quantitative variable):也称为数值变量,其变量值是定量的,所获资料为计量资料。
即对每一个观察对象用定量的方法测定某项指标量的大小。
有度量衡单位。
分为离散型变量(只能取整数值)和连续型变量(任何数值)。
统计量:由观察资料计算出来的量称为统计量。
参数(固定常数):也叫参变量,是一个变量,是总体的统计指标。
频率:样本的实际发生率。
误差分类(泛指测量值与真值之差):(1)系统误差(特点:一边倒,偏大偏小,人为原因造成)(2)随机测量误差,偶然因素造成(特点:不可避免,有规律的)(3)抽样误差:从某一总体中随机抽取一个样本,所的样本统计量与相应的总体参数往往是不同的。
其中包括改变抽样方法、增加样本量n、选择变异程度小的研究指标(特点:有规律性)概率:描述随机事件发生可能大小的量。
小概率原理:小概率事件在一次试验中几乎不可能发生,利用该原理对科研资料进行假设检验。
P≤0.05或P≤0.01称为小概率事件。
统计步骤:统计设计、收集资料、整理资料、分析资料。
常用的抽样方法:单纯随机抽样、系统抽样、分层抽样、整群抽样。
第二章频数分布表的编制方法:(1)求全距:(极差)(2)定组段数与组距:8~15个组段,组距i=全距/组段数(3)划组段:以一个稍小于或等于最小值的整数作为第一个组段的起点数据。
标准正态分布与正态分布的关系:对正态分布的(X-μ)/σ进行u 的变换,u=(X-μ)/σ,则正态分布变换为μ=0,σ=1的标准正态分布,亦称u 分布。
正态分布的特征:(1)正态曲线在横轴上方均数处最高。
(2)正态分布以均数为中心,左右对称。
(3)正态分布有2个参数,即均数μ和标准差σ。
μ是位置参数,当σ固定不变时,μ越大,曲线沿横轴越向右移动;反之,μ越小,则曲线沿横轴越向左移动。
σ是形状参数(亦称变异度参数),当μ固定不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭。
通常用N(μ,σ2)表示均数为μ,方差为σ的正态分布。
(4)正态分布在μ±σ处各有一个拐点。
(5)正态曲线下面积的分布有一定规律。
t 分布:将x 看成变量值,那么可将正态变量进行u 变换(u=x -μ/σ)后,也可将N (μ,σ2x)变换成标准正态分布N (0,1)。
常用s 作为σ的估计值,统计量为t ,此分布为t 分布。
统计量: t=xs x μ-t 分布特征为:1.以0为中心,左右对称的单峰分布。
2.t 分布曲线形态变化与自由度的大小有关。
自由度越小, t 值越分散,曲线越低平;自由度逐渐增大时,则 t 分布逐渐逼近 标准正态分布。
t 分布即为u 分布。
二项分布:对于二项分类变量,若某结果发生的概率为π,其对立结果发生的概率为(1-π),且各次试验相互独立时,这种试验在统计学上称为贝努里试验,二项分布概率函数的公式:P (x )=C n xπx(1-π)n-x性质:μ=n πσ=π)π(-1n若用相对数表示,即样本率的均数和标准差分别为,则 μp=πσp=n /1π)π(-π未知时,用样本率P 作为π的估计值,则 Sp=n p p /)1(-二项分布的特点1、当 π=0.5时,无论n 大小,其图形均呈对称分布;2、当π≠0.5,且n 小时呈偏态分布;随n 不断增大,逐渐趋于对称分布;当n →∞时,逼近正态分布。