3.1 统计量 3.2 统计推断的常用分布
- 格式:ppt
- 大小:715.00 KB
- 文档页数:26
第三节 常用的重要统计量及其分布在使用统计量进行统计推断时常需要知道它的分布。
当总体的分布函数已知时,抽样分布是确定的,然而要求出统计量的精确分布,一般是比较困难的。
本节介绍三个常用的重要统计量,它们是以标准正态变量为基石而构造的,加上正态分布本身它们就构成了数理统计中的“四大抽样分布”,这四大分布在实际中有着广泛的应用,这是因为这四个统计量不仅有明确背景,而且其抽样分布的密度函数有明显表达式。
一. 2χ分布(卡方分布)定义1 设是来自正态总体的样本,则称统计量12,,,n X X X L (0,1)N 22212n X X X χ=+++L 2 为服从自由度为的n 2χ分布,记为:22()n χχ∼定义1中的自由度指的是2χ中所包含的独立变量的个数。
2χ分布的概率密度函数为:122210(;)2(2)00n x n x e x f x n n x −−⎧≥⎪=Γ⎨⎪<⎩其中伽玛函数,10(),0t x x e t dt x Γ+∞−−=∫>2χ分布的密度函数的图形是一个只取非负值的偏态分布,如图1所示。
图12χ分布的密度函数在第三章第五节的例2中我们已经知道,2χ分布是伽玛分布的特例,于是由伽玛分布的可加性得出2χ分布的可加性: 若,并且2222112(),()n n χχχχ∼∼22212,χχ相互独立,则有: 222121()n n χχχ+∼+22χ分布的数学期望与方差:x若则有:22(),n χχ∼22(),()2E n D χχ==n事实上,因为 (0,1),i X N ∼ 所以:,2()()i i E X D X ==12422()()[()]312,1,2,i i i D X E X E X i =−=−==L于是 22211()()()n ni i i i E E X E X χ=====∑∑n ,22211()()()2nnii i i D D XD X χ=====∑∑n类似于正态分布的分位点,我们可以得出2χ分布的分位点:()222()(())n 对于给定的(01)αα<<,称满足条件:P n f x dx αχχχα∞>==∫点为2()n αχ2χ分布的上α分位点。
医学统计学方法1. 引言医学统计学是医学研究中不可或缺的一门学科,它通过应用统计学的原理和方法,对医学数据进行收集、整理、分析和解释,从而为医学研究提供可靠的依据。
本文将介绍医学统计学的基本概念、常用方法以及在医学研究中的应用。
2. 医学统计学的基本概念2.1 总体与样本在医学研究中,我们通常关注的是一个特定人群或物体的某种特征。
这个人群或物体称为总体,而从总体中选取出来的一部分个体则称为样本。
通过对样本进行观察和测量,我们可以对总体进行推断。
2.2 参数与统计量参数是描述总体特征的数值,例如总体均值、方差等。
由于很难获得总体所有个体的数据,我们通常通过样本来估计参数。
样本所得到的数值称为统计量,例如样本均值、样本方差等。
2.3 假设检验与置信区间在医学研究中,我们经常需要判断某种治疗方法是否有效、某种因素是否与疾病有关等。
假设检验是一种常用的统计方法,它通过对样本数据进行分析,判断总体参数是否符合某种假设。
置信区间则是对总体参数的估计范围。
3. 常用的医学统计学方法3.1 描述统计学描述统计学是对数据进行整理、总结和展示的方法。
常用的描述统计学方法包括:频数分布表、直方图、散点图等。
这些方法可以帮助我们了解数据的分布特征、集中趋势和离散程度。
3.2 推断统计学推断统计学是根据样本数据对总体进行推断的方法。
常用的推断统计学方法包括:参数估计和假设检验。
参数估计可以帮助我们估计总体参数,并给出其置信区间;假设检验可以帮助我们判断某个假设是否成立。
3.3 生存分析生存分析是研究个体发生某个事件(如死亡、复发)所需时间的方法。
常用的生存分析方法包括:生存函数曲线、危险比(hazard ratio)等。
生存分析可以帮助我们评估治疗效果、预测疾病进展等。
3.4 回归分析回归分析是研究因变量与自变量之间关系的方法。
常用的回归分析方法包括:线性回归、 logistic回归等。
回归分析可以帮助我们探索影响因素、预测结果等。
§1.4 常用的分布及其分位数1. 卡平方分布卡平方分布、t 分布及F 分布都是由正态分布所导出的分布,它们与正态分布一起,是试验统计中常用的分布。
当X 1、X 2、…、Xn 相互独立且都服从N(0,1)时,Z=∑ii X 2 的等于n 的t 分布,记作Z ~ t (n ),它的分布密度P(z)=)()(221n nn ΓΓ+2121+-⎪⎪⎭⎫ ⎝⎛+n n z 。
请注意:t 分布的分布密度也是偶函数,且当n>30时,t分布与标准正态分布N(0,1)的密度曲线几乎重叠为一。
这时, t 分布的分布函数值查N(0,1)的分布函数值表便可以得到。
3. F 分布 若X 与Y 相互独立,且X ~2χ(n ),Y ~2χ(m ), 则Z=mY n X的分布称为第一自由度等于n 、第二自由度等于y -0 Y=X 2的分布密度p Y (y )=21)(121221212n y n y n n n n ++-⎪⎭⎫ ⎝⎛Γ⎪⎭⎫ ⎝⎛Γ⎪⎭⎫ ⎝⎛+Γ,与第一自由度等于1、第二自由度等于n的F分布的分布密度相同,因此Y=X2~F(1,n)。
为应用方便起见,以上三个分布的分布函数值都可以从各自的函数值表中查出。
但是,解应用问题时,通常是查分位数表。
有关分位数的概念如下:当X~N(0,1)时,P{X< u}=(u)=α,故根据标准正态分布密度曲线的对称性,uα=-u1-α。
例如,u 0.10=-u 0.90=-1.282,u 0.05=-u 0.95=-1.645,u 0.01=-u 0.99=-2.326,u 0.025=-u 0.975=-1.960,u 0.005=-u 0.995=-2.576。
又因为P{|X|< u1-0.5α}=1-α,所以标准正态分布的双侧α分位数分别是u1-0.5α和-u1-0.5α。
标准正态分布常用的上侧α分位数有:α=0.10,u 0.90=1.282;uα作为tα(n)的近似值。
附录一常见分布汇总一、二项分布二项分布Binomial Distribution,即重复n次的伯努利试验Bernoulli Experiment,用ξ表示随机试验的结果, 如果事件发生的概率是P,则不发生的概率q=1-p,N次独立重复试验中发生K次的概率是;二、泊松poisson分布1、概念当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np;通常当n≧10,p≦时,就可以用泊松公式近似得计算;2、特点——期望和方差均为λ;3、应用固定速率出现的事物;——在实际事例中,当一个随机事件,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客,以固定的平均瞬时速率λ或称密度随机且独立地出现时,那么这个事件在单位时间面积或体积内出现的次数或个数就近似地服从泊松分布三、均匀分布uniform设连续型随机变量X的分布函数Fx=x-a/b-a,a≤x≤b则称随机变量X服从a,b上的均匀分布,记为X~Ua,b;四、指数分布Exponential Distribution1、概念2、特点——无记忆性1这种分布表现为均值越小,分布偏斜的越厉害;2无记忆性当s,t≥0时有PT>s+t|T>t=PT>s 即,如果T是某一元件的寿命,已知元件使用了t小时,它总共使用至少s+t小时的条件概率,与从开始使用时算起它使用至少s 小时的概率相等;3、应用在电子元器件的可靠性研究中,通常用于描述对发生的缺陷数或系统故障数的测量结果五、正态分布Normal distribution1、概念2、中心极限定理与正态分布说明了正态分布的广泛存在,是统计分析的基础中心极限定理:设从均值为μ、方差为σ^2;有限的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的正态分布;3、特点——在总体的随机抽样中广泛存在;4、应用——正态分布是假设检验以及极大似然估计法ML的理论基础定理一:设X1,X2,X3.;;Xn是来自正态总体Nμ,δ2的样本,则有样本均值X~Nμ,δ2/n——总体方差常常未知,用t分布较多六、χ2卡方分布与方差有关chi-square distribution1、概念若n个相互独立的随机变量ξ、ξ、……、ξn ,均服从标准正态分布也称独立同分布于标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布chi-squaredistribution,其中参数n称为注意假设随机干扰项呈正态分布;因此,卡方分布可以和RSS残差平方和联系起来;用RSS/δ2,所得的变量就是标准正态分布,就服从卡方分布;2、卡方分布的特点1分布的为自由度 n,记为 E = n;这个容易证明2分布的为2倍的自由度2n,记为 D = 2n;3如果互相独立,则:独立可加减服从分布,自由度;服从分布,自由度为3、图形特点4、应用定理二,设X1,X2,X3.;;Xn是来自正态总体Nμ,δ2的样本,则有样本均值X~Nμ,δ2/n1正态分布以及卡方分布是F检验的基础;大量的检验用到了F检验:F检验、三大检验;七、t学生分布用样本方差s来标准化——Student'st-distribution1、概念适用于δ2未知理解把样本标准正态化的U变换前提是方差已知,但总体方差是未知的,所以用样本方差来代替总体方差;根据中心极限定理,抽样服从方差为总体方差除以n 的正态分布;由于在实际工作中,往往σ是未知的,常用s作为σ的估计值,为了与u变换区别,称为t变换,统计量t 值的分布称为t分布u变换指把变量转换为标准正态分布思考为什么样本方差比总体方差要小因为一个是总体方差,一个是样本均值的方差;不同2、特点1与标准正态分布曲线相比,自由度v 越小,t 分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度v 愈大,t 分布曲线愈接近正态分布曲线,当自由度v=∞时,t 分布曲线为标准正态分布曲线;定理三:设X1,X2,X3.;;Xn 是来自正态总体N μ,δ2的样本,则有样本均值X~N μ,δ2/n,S 为样本方差 )(μ1-n t ~n /S X 注意S 是样本方差;中心极限定理说的是样本均值的方差;八、F 分布F-distribution1、概念F 分布定义为:设X 、Y 为两个独立的随机变量,X 服从自由度为k1的卡方分布,Y 服从自由度为k2的卡方分布,这2 个独立的卡方分布被各自的自由度除以后的比率这一统计量的分布2、特点1它是一种非对称分布;2它有两个自由度,即n1 -1和n2-1,相应的分布记为F n1 –1, n2-1, n1 –1通常称为分子自由度, n2-1通常称为分母自由度;3F 分布是一个以自由度和为参数的分布族,不同的自由度决定了F 分布的形状;4F 分布的性质:5残差平方和之比通常与F分布有关;九、逻辑分布logistic分类评定模型——最早应用最广的离散选择模型1、概念2、特点用作增长曲线并为二进制响应建模;在生物统计和经济领域使用;Logistic 分布由尺度和位置参数描述;Logistic 分布没有形状参数,也就是说其概率密度函数只有一个形状;下列图形显示了不同参数值对 Logistic 分布的效应;尺度参数的效应位置参数的效应Logistic 分布的形状与正态分布的形状相似,但 Logistic 分布的尾部更长;十、伽马分布1、概念——伽玛分布Gamma Distribution是统计学的一种连续概率函数;Gamma分布中的参数α称为形状参数shape parameter,β称为scale parameter;假设随机变量X为等到第α件事发生所需之等候时间, 密度函数为特征函数为伽马分布的可加性当两随机变量服从Gamma分布,且单位时间内频率相同时,Gamma数学表达式若随机变量X具有概率密度其中α>0,β>0,则称随机变量X服从参数α,β的伽马分布,记作Gα,β.九、extreme value distribution 极值分布十、DF分布与ADF分布——用于时间序列平稳性的单位根检验;八、pareto分布十、weibull分布。
统计学中的数学知识点总结1. 概率概率是统计学中非常重要的一个概念,它用来描述事件发生的可能性。
概率论是数学的一个分支,它主要研究随机事件的发生规律以及这些规律的数量程度。
概率的基本概念包括样本空间、事件、随机变量、概率分布等。
而在实际应用中,概率经常被用来描述事件的发生概率,比如在掷骰子的实验中,1到6出现的概率均为1/6。
在统计学中,概率还常常用来描述随机变量的分布,比如正态分布、泊松分布等。
这些分布函数的特性对于统计推断和回归分析等问题都有重要意义。
2. 统计推断统计推断是统计学的一个重要分支,它用来从样本数据中做出总体的推断。
统计推断的核心是利用样本数据来估计总体参数,并据此对总体做出推断。
统计推断的方法包括点估计、区间估计和假设检验。
点估计是用来估计总体参数的具体数值,比如平均值、方差等。
区间估计则是用来估计总体参数的区间范围,以反映估计的不确定性。
假设检验则是用来检验总体参数的假设,以确定总体参数是否符合某种分布或者是否满足某种假设。
在统计推断中,常用的分布包括正态分布、t分布、F分布和卡方分布等。
这些分布函数对于统计推断方法的选择和应用都有重要意义。
3. 回归分析回归分析是统计学的一个重要方法,它用来研究变量之间的关系。
回归分析主要包括线性回归、非线性回归、多元回归等方法,它们用来描述和预测变量之间的函数关系。
在回归分析中,常用的模型包括简单线性回归模型和多元线性回归模型。
简单线性回归模型主要用来描述一个因变量和一个自变量之间的线性关系,而多元线性回归模型则用来描述多个自变量和一个因变量之间的关系。
回归分析的核心是对模型的参数进行估计和检验,从而得到对变量之间关系的描述和预测。
4. 时间序列分析时间序列分析是统计学的一个重要领域,它用来研究时间序列数据的规律和特性。
时间序列数据是按时间顺序排列的一系列数据,比如股票价格、气温、指数等。
时间序列分析的方法包括时间序列建模、时间序列平稳性检验、时间序列预测等。