数理统计中的几种统计推断方法
- 格式:doc
- 大小:203.50 KB
- 文档页数:5
统计学中的统计模型统计学是一门研究数据的收集、整理、分析和解释的学科,而统计模型则是统计学中的重要工具之一。
统计模型是根据一定规律对数据进行预测、分析和解释的数学表达。
本文将介绍统计学中的统计模型以及其在实际应用中的重要性。
一、什么是统计模型统计模型是一种表示数据间关系的数学模型。
它通过对数据进行假设和参数估计来推断出数据的结构、规律和趋势。
统计模型基于概率论和数理统计的理论基础,可以帮助我们理解和预测数据的变化趋势,发现变量之间的相互关系。
二、统计模型的种类在统计学中,有许多种不同类型的统计模型,常见的包括线性回归模型、逻辑回归模型、时间序列模型等。
这些模型在不同场景下有不同的应用,例如线性回归模型可用于探究变量之间的线性关系,逻辑回归模型可用于预测二元变量的概率,时间序列模型可用于研究时间相关数据。
三、线性回归模型线性回归模型是最常见的统计模型之一,它用于研究变量间的线性关系。
线性回归模型的数学表达为:Y = α + βX + ε,其中Y是被解释变量,X是解释变量,α和β是模型的参数,ε是随机误差项。
通过最小二乘估计方法,我们可以估计出模型的参数值,并通过模型进行预测和假设检验。
四、逻辑回归模型逻辑回归模型是用于预测二元变量的概率的统计模型。
它基于逻辑函数来建立变量与概率之间的关系。
逻辑回归模型的数学表达为:P(Y=1) = e^(β0 + β1X) / (1 + e^(β0 + β1X)),其中Y是二元变量,X是解释变量,β0和β1是模型的参数。
通过最大似然估计方法,我们可以估计出模型的参数值,并通过模型预测新的数据。
五、时间序列模型时间序列模型是用于分析时间相关数据的统计模型。
时间序列模型可帮助我们了解数据在时间上的变化规律,预测未来的趋势。
常见的时间序列模型包括自回归模型(AR)、移动平均模型(MA)、自回归移动平均模型(ARMA)和自回归积分滑动平均模型(ARIMA)等。
这些模型可以通过数据的自相关和偏自相关图来选择合适的阶数,进而进行参数估计和预测。
数理统计中的非参数估计方法数理统计是应用数学原理和统计学方法来研究和解释现象、收集和分析数据的科学。
在统计学中,参数估计是一个重要的主题,它涉及根据样本数据推断总体参数的值。
而非参数估计方法则是一种不依赖于总体分布假设的参数估计方法,它在某些情况下比参数估计更加灵活和实用。
本文将介绍数理统计中的几种主要的非参数估计方法。
1. 核密度估计法核密度估计法用于估计未知概率密度函数。
它基于样本数据,通过在每个观测点周围放置一个核函数,来估计该点处的密度。
核函数通常是一个非负函数,且满足积分为1。
核密度估计法的优点是不需要对总体分布做出假设,而且可以适用于各种类型的数据。
然而,它对于样本数据的选择和参数的选择较为敏感。
2. 经验分布函数法经验分布函数法是一种常用的非参数估计方法,用于估计未知总体分布函数。
它通过对每个观测值赋予等概率的权重,构建一个经验分布函数。
经验分布函数在每个观测点处的取值是样本数据中小于等于该观测点的观测值的比例。
经验分布函数的优点是简单易懂,而且在大样本下收敛性较好。
然而,它对于极端值和离群点较为敏感。
3. 重抽样法重抽样法是一种基于重新选择样本数据的非参数估计方法。
它通过从样本中有放回地重新选择出新的样本,然后利用这些新的样本数据进行参数推断。
重抽样法的优点是可以直接利用原始样本数据进行估计,避免了对总体分布的假设,而且可以通过重复抽样来估计参数的分布。
然而,它需要大量的计算,适用于小样本数据。
4. 秩和秩差法秩和秩差法是一种用于估计总体位置参数的非参数方法。
它将样本数据转化为排序后的秩次,然后利用秩次来进行参数估计。
秩和秩差法的优点是对于总体分布的假设要求较低,而且对于离群值和稳健性较好。
然而,它可能对于分布偏态较大的数据不适用。
5. 分位数回归法分位数回归法是一种用于估计条件分布的非参数方法。
它基于分位数的概念,通过对分位数进行建模来估计条件分布。
分位数回归法的优点是可以灵活地处理不同分位数,适用于各种类型的数据。
统计方法总结统计方法是指有关收集、整理、分析和解释统计数据,并对其所反映的问题作出一定结论的方法。
一、统计方法的选择统计资料丰富且错综复杂,要想做到合理选用统计分析方法并非易事。
对于同一个资料,若选择不同的统计分析方法处理,有时其结论是截然不同的。
正确选择统计方法的依据是:①根据研究的目的,明确研究试验设计类型、研究因素与水平数;②确定数据特征(是否正态分布等)和样本量大小;③正确判断统计资料所对应的类型(计量、计数和等级资料),同时应根据统计方法的适宜条件进行正确的统计量值计算;最后,还要根据专业知识与资料的实际情况,结合统计学原则,灵活地选择统计分析方法。
二、统计分析的步骤(一)收集数据收集数据是进行统计分析的前提和基础。
收集数据的途径众多,可通过实验、观察、测量、调查等获得直接资料,也可通过文献检索、阅读等来获得间接资料。
收集数据的过程中除了要注意资料的真实性和可靠性外,还要特别注意区分两类不同性质的资料:一是连续数据,也叫计量资料,指通过实际测量得到的数据;二是间断数据,也叫计数资料,指通过对(二)整理数据整理数据就是按一定的标准对收集到的数据进行归类汇总的过程。
由于收集到的数据大多是无序的、零散的、不系统的,在进入统计运算之前,需要按照研究的目的和要求对数据进行核实,剔除其中不真实的部分,再分组汇总或列表,从而使原始资料简单化、形象化、系统化,并能初步反映数据的分布特征。
(三)分析数据分析数据指在整理数据的基础上,通过统计运算,得出结论的过程,它是统计分析的核心和关键。
数据分析通常可分为两个层次:第一个层次是用描述统计的方法计算出反映数据集中趋势、离散程度和相关强度的具有外在代表性的指标;第二个层次是在描述统计基础上,用推断统计的方法对数据进行处理,以样本信息推断总体情况,并分析和推测总体的特征和规律。
三、统计数据的搜集获取方法统计数据或称统计资料,它是统计分析的基础,是进行经济研究和制定发展计划,作出各种投资、管理决策的依据。
假设检验假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。
具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。
常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法,秩和检验等。
中文名假设检验外文名 hypothesis test提出者 K.Pearson 提出时间 20世纪初1、简介假设检验又称统计假设检验(注:显著性检验只是假设检验中最常用的一种方法),是一种基本的统计推断形式,也是数理统计学的一个重要的分支,用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。
其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。
[1]2、基本思想假设检验的基本思想是小概率反证法思想。
小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。
反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设成立。
[2] 假设是否正确,要用从总体中抽出的样本进行检验,与此有关的理论和方法,构成假设检验的内容。
设A是关于总体分布的一项命题,所有使命题A成立的总体分布构成一个集合h0,称为原假设(常简称假设)。
使命题A不成立的所有总体分布构成另一个集合h1,称为备择假设。
如果h0可以通过有限个实参数来描述,则称为参数假设,否则称为非参数假设(见非参数统计)。
如果h0(或h1)只包含一个分布,则称原假设(或备择假设)为简单假设,否则为复合假设。
对一个假设h0进行检验,就是要制定一个规则,使得有了样本以后,根据这规则可以决定是接受它(承认命题A正确),还是拒绝它(否认命题A正确)。
概率论与数理统计知识点总结一、概率论1.随机试验和样本空间:随机试验是具有不确定性的试验,其结果有多个可能的取值。
样本空间是随机试验所有可能结果的集合。
2.事件及其运算:事件是样本空间中满足一定条件的结果的集合。
事件之间可以进行并、交、补等运算。
3.概率的定义和性质:概率是描述随机事件发生可能性的数值。
概率具有非负性、规范性和可列可加性等性质。
4.条件概率和独立性:条件概率是在已知一事件发生的条件下,另一事件发生的概率。
事件独立表示两个事件之间的发生没有相互关系。
5.全概率公式和贝叶斯公式:全概率公式是一种计算事件概率的方法,将事件分解成互斥的多个事件的概率之和。
贝叶斯公式是一种用于更新事件概率的方法。
6.随机变量和分布函数:随机变量是样本空间到实数集的映射,用来描述试验结果的数值特征。
分布函数是随机变量取值在一点及其左侧的概率。
7.常用概率分布:常见的概率分布包括离散型分布(如二项分布、泊松分布)和连续型分布(如正态分布、指数分布)。
8.数学期望和方差:数学期望是随机变量的平均值,用于描述随机变量的中心位置。
方差是随机变量离均值的平均距离,用于描述随机变量的分散程度。
二、数理统计1.统计量和抽样分布:统计量是对样本数据进行总结和分析的函数。
抽样分布是统计量的概率分布,用于推断总体参数。
2.估计和点估计:估计是利用样本数据对总体参数进行推断。
点估计是利用样本数据得到总体参数的一个具体数值。
3.估计量的性质和评估方法:估计量的性质包括无偏性、有效性和一致性等。
评估方法包括最大似然估计、矩估计等。
4.区间估计:区间估计是对总体参数进行估计的区间范围。
置信区间是对总体参数真值的一个区间估计。
5.假设检验和检验方法:假设检验是在已知总体参数的条件下,对总体分布做出的统计推断。
检验方法包括参数检验和非参数检验。
6.正态总体的推断:当总体近似服从正态分布时,可以利用正态分布的性质进行推断。
7.方差分析和回归分析:方差分析用于比较两个或多个总体均值是否相等。
医学统计学计量资料的统计推断主要内容:标准误t 分布总体均数的估计假设检验均数的 t检验、u 检验、方差分析几个重要概念的回顾:计量资料:总体:样本:统计量:参数:统计推断:参数估计、假设检验第一节均数的抽样误差与总体均数的估计欲了解某地2000年正常成年男性血清总胆固醇的平均水平,随机抽取该地200名正常成年男性作为样本。
由于存在个体差异,抽得的样本均数不太可能恰好等于总体均数。
一、均数的抽样误差与标准误一、均数的抽样误差与标准误抽样误差:由于抽样引起的样本统计量与总体参数之间的差异X数理统计推理和中心极限定理表明:1、从正态总体N(??,??2)中,随机抽取例数为n的样本,样本均数??X 也服从正态分布;即使从偏态总体抽样,当n足够大时??X也近似正态分布。
2、从均数为??,标准差为??的正态或偏态总体中抽取例数为n的样本,样本均数??X的总体均数也为??,标准差为X标准误含义:样本均数的标准差计算:(标准误的估计值)注意: X 、S??X均为样本均数的标准误标准误意义:反映抽样误差的大小。
标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越大。
标准误用途:衡量抽样误差大小估计总体均数可信区间用于假设检验二 t 分布对正态变量样本均数??X做正态变换(u变换):X 常未知而用S??X估计,则为t变换:二、 t 分布t值的分布即为t分布t 分布的曲线:与??有关t分布与标准正态分布的比较1、二者都是单峰分布,以0为中心左右对称2、t分布的峰部较矮而尾部翘得较高说明远侧的t值个数相对较多即尾部面积(概率P值)较大。
当ν逐渐增大时,t分布逐渐逼近标准正态分布,当ν→??时,t分布完全成为标准正态分布t 界值表(附表9-1 )t??/2,??:表示自由度为??,双侧概率P为??时t的界值t分布曲线下面积的规律:中间95%的t值:- t0.05/2,?? ?? t0.05/2,??中间99%的t值:- t0.01/2,?? ?? t0.01/2,??单尾概率:一侧尾部面积双尾概率:双侧尾部面积(1) 自由度(ν)一定时,p与t成反比;(2) 概率(p)一定时,ν与t成反比;三总体均数的估计统计推断:用样本信息推论总体特征。
参数估量(温习)通过对样本的处置,对整体的未知参数(如:数学期望、方差等)作出较好的估量.一. 点估量量的求法:1. 矩法:① 参数:设)(~θξ;x F 或)(~θξ;x p Θ∈θ称为参数② 点估量: 设 n ξξξξ,,,21 → 参数θ未知则构造统计量),,,(21n T ξξξ 去估量θ称),,,(21n T ξξξ 为θ的估量量,),,,(21n x x x T 为θ的估量值, 估量量、估量值统称估量。
这种对未知参数的定值估量称为点估量θˆ 。
③ 矩法:用样本矩),,,(),,,(ˆ22llE E E f Q f Qξξξξξξ =→=总体矩 一般步骤是:设),,,(~21l x F θθθξ ;,其中 参数l θθθ,,,21 待估.(i )n ξξξξ,,,21 →,计算 lξξξ,,,2;(ii )由 kE ξ=),,,(),,,(2121l k l k f x F d x θθθθθθ =⎰+∞∞-;或∑=ii k i kp x E ξ),,,(21l k f θθθ = l k ,,2,1 =即:⎪⎪⎩⎪⎪⎨⎧===k l k l l E f E f E f ξθθθξθθθξθθθ),,,(),,,(),,,(212212211 ⎪⎪⎩⎪⎪⎨⎧===−−→−),,,(),,,(),,,(2222211l l ll l E E E E E E E E E iξξξθθξξξθθξξξθθθ 解出⎪⎪⎩⎪⎪⎨⎧∆=∆=∆=−−−→−),,,(),,,(ˆ),,,(),,,(ˆ),,,(),,,(ˆ212212222211211n l l l ln lnl E h h h k k ξξξξξξθθξξξξξξθθξξξξξξθθξξ 得换用即:有l 个估量量 ),,,(ˆ21n k kh ξξξθ = l k ,,2,1 =例:(P110)设 )(~θξ;x p =θθxe -21 )(+∞<<-∞x 0>θ,求 θˆ 。
统计推断的内容包括参数估计和假设检验。
统计推断是通过样本推断总体的统计方法。
总体是通过总体分布的数量特征即参数(如期望和方差) 来反映的。
因此,统计推断包括:对总体的未知参数进行估计;对关于参数的假设进行检查; 对总体进行预测预报等。
科学的统计推断所使用的样本,通常通过随机抽样方法得到。
统计推断的理论和方法论基础,是概率论和数理统计学。
一、基本介绍统计推断(statistical inference),是指根据带随机性的观测数据(样本)以及问题的条件和假定(模型),而对未知事物作出的,以概率形式表述的推断。
它是数理统计学的主要任务,其理论和方法构成数理统计学的主要内容。
统计推断是从总体中抽取部分样本,通过对抽取部分所得到的带有随机性的数据进行合理的分析,进而对总体作出科学的判断,它是伴随着一定概率的推测。
统计推断的基本问题可以分为两大类:一类是参数估计问题;另一类是假设检验问题。
在质量活动和管理实践中,人们关心的是特定产品的质量水平,如产品质量特性的平均值、不合格品率等。
这些都需要从总体中抽取样本,通过对样本观察值分析来估计和推断,即根据样本来推断总体分布的未知参数,称为参数估计。
参数估计有两种基本形式:点估计和区间估计。
统计推断的一个基本特点是:其所依据的条件中包含有带随机性的观测数据。
以随机现象为研究对象的概率论,是统计推断的理论基础。
二、表述形式在数理统计学中,统计推断问题常表述为如下形式:所研究的问题有一个确定的总体,其总体分布未知或部分未知,通过从该总体中抽取的样本(观测数据)作出与未知分布有关的某种结论。
例如,某一群人的身高构成一个总体,通常认为身高是服从正态分布的,但不知道这个总体的均值,随机抽部分人,测得身高的值,用这些数据来估计这群人的平均身高,这就是一种统计推断形式,即参数估计。
若感兴趣的问题是“平均身高是否超过 1.7(米)”,就需要通过样本检验此命题是否成立,这也是一种推断形式,即假设检验。
数学统计分析概述数学统计分析是一种通过收集、整理、分析和解释数据来推断和预测现象的方法。
它在各个领域中都得到了广泛应用,包括商业、科学、工程、社会科学等。
本文将介绍数学统计分析的基本概念、方法和应用。
一、基本概念1. 总体和样本在统计学中,总体是指研究对象的全体,而样本是从总体中选取出来的部分。
通过分析样本,我们可以对总体作出推断。
2. 统计量和参数统计量是通过对样本进行测量和计算得到的数值,代表了总体的某个特征。
参数是指总体的某个特征的真实值,我们通常通过样本统计量来估计参数。
3. 频数和概率频数是指某个事件或特征在样本中出现的次数,而概率是指某个事件或特征在总体中出现的可能性。
我们可以通过频数和概率来对总体的特征进行推断。
二、基本方法1. 描述统计描述统计是对数据进行整理、总结和呈现的过程。
包括计算数据的中心趋势(如均值、中位数)、离散程度(如标准差、方差)和分布形状(如直方图、箱线图)等。
2. 推论统计推论统计是通过样本对总体进行推断和预测的过程。
常用的推论方法包括假设检验和置信区间估计。
假设检验用于判断某个假设是否成立,而置信区间估计用于估计某个参数的范围。
三、应用领域1. 商业和经济在商业和经济领域,数学统计分析可以帮助企业进行市场调研、产品定价、销售预测等。
通过对历史数据的分析,可以揭示潜在的商业机会和风险。
2. 科学研究在科学研究中,数学统计分析被广泛应用于实验设计和数据分析。
研究人员可以通过对实验结果进行统计分析,验证科学假设并得出科学结论。
3. 社会科学在社会科学领域,数学统计分析可以帮助社会学家和心理学家研究社会行为和心理过程。
通过对调查数据的统计分析,可以揭示社会现象和个体行为之间的关系。
四、案例分析以一个案例来说明数学统计分析的应用。
假设一家电商公司想要提高客户的购买率,他们收集了一批客户的购买记录,并对数据进行了统计分析。
通过计算平均购买金额、购买频率等统计量,他们发现购买金额在特定的时间段和促销活动下呈现显著增长的趋势。
统计学中的推断如何通过样本推断总体特征统计学是一门关于数据收集、分析和解释的学科,它的目标是通过清晰的推断来揭示总体的特征。
在统计学中,通过样本数据对总体特征进行推断是一种常见的方法。
本文将介绍统计学中的推断方法,并解释如何使用样本数据来推断总体特征。
一、总体和样本的概念在了解如何通过样本推断总体特征之前,我们需要了解总体和样本的概念。
总体是指我们想要研究的全部个体或事物的集合。
例如,如果我们想了解某个国家的人口特征,那么这个国家的所有居民就构成了总体。
样本是从总体中选取的一部分个体。
样本应该具备代表性,能够准确反映总体的特征。
在进行样本研究时,我们通常通过抽样方法从总体中选择样本。
二、推断统计学的基本原理推断统计学的基本原理是通过样本数据推断总体特征。
它依赖于概率理论和数理统计学的方法,通过对样本数据进行分析和推断,从而对总体的未知特征做出估计或推断。
推断统计学的基本思想是,通过样本数据研究总体特征,然后通过对样本数据的分析,利用统计模型和推断方法来得出关于总体特征的结论。
推断的目标是使样本数据的结果能够在一定程度上推广到整个总体。
三、样本统计量的计算在推断统计学中,我们使用样本统计量来估计总体特征。
样本统计量是从样本数据中计算得出的数值,它可以反映总体的某个特征。
常用的样本统计量包括均值、方差、标准差等。
例如,如果我们想要推断某个国家的平均收入,我们可以通过抽取一部分居民的收入数据计算出样本均值,然后将其作为总体均值的估计。
四、点估计和区间估计通过样本统计量来估计总体特征有两种常见的方法:点估计和区间估计。
点估计是通过统计量的单个数值来估计总体特征。
例如,通过样本的均值来估计总体的均值。
区间估计是通过给出一个置信区间来估计总体特征,该置信区间包含了样本统计量的范围。
例如,通过给出一个均值的置信区间来估计总体的均值,我们可以得出样本均值的估计范围。
五、假设检验假设检验是推断统计学中的重要方法,它用于检验关于总体特征的假设。
应用数理统计基础第四版课程设计
一、课程目标
本课程旨在使学生掌握应用数理统计的基本理论和方法,能够运用数理统计方法进行实际问题的分析和求解。
二、教学内容
1.概率论和数理统计基础知识
–概率空间、随机变量、概率分布、数学期望、方差等
–大数定理、中心极限定理等
2.统计推断
–点估计和区间估计
–假设检验
–方差分析
3.回归分析和方差分析
–简单线性回归分析
–多元回归分析
–方差分析方法和应用
4.非参数统计方法
–秩和检验
–Kruskal-Wallis H检验
–二项分布检验
5.贝叶斯统计方法
–贝叶斯公式
–贝叶斯定理及其应用
三、教学方法
本课程采用一定的理论讲述和实践体验相结合的教学方法,主要包括:
1.理论授课
2.实例分析
3.计算机模拟
4.讨论和演示
四、教学评估
本课程的教学评估主要包括两个方面:
1.期末考试成绩
2.课堂考勤、作业和报告
五、参考书目
1.应用数理统计基础(第四版),作者:朱说安
2.计量经济学及其应用(第四版),作者:崔永元、李兴民、吴凌云
3.统计分析方法(第七版),作者:孙梅君、孙晓华、彭俊杰
4.数据分析与拟合(第三版),作者:陈希孺、李亚非、谢尔丹、李垚。
第六章数理统计的基本知识数理统计的内容主要包括以下两个方面:一、如何收集、整理数据资料;二、如何对所得的数据资料进行分析、研究,从而对所研究的对象的性质、特点作出推断.后者就是我们所说的统计推断问题.本书只讲述统计推断的基本内容,即数理统计的基本知识、参数估计、假设检验、方差分析及回归分析等.在概率论中,我们是在假设随机变量的分布已知的前提下去研究它的性质、特点和规律性,例如介绍常用的各种分布、讨论其随机变量的函数的分布、求出其随机变量的数字特征等.在数理统计中,我们研究的随机变量,其分布是未知的,或者是不完全知道的,人们是通过对所研究的随机变量进行重复独立的观察,得到许多观察值,对这些数据进行分析,从而对所研究的随机变量的分布作出种种推断的.本章我们将介绍总体、随机样本及统计量等基本概念,并着重介绍几个常用统计量及抽样分布.§6.1 随机样本一、总体与总体分布1.总体:将研究对象的某项数量指标的值的全体称为总体.总体中的每个元素称为个体.总体中所包含的个体的个数称为总体的容量.容量为有限的称为有限总体.否则称为无限总体.注:有些有限总体,它的容量很大,我们可以认为它是一个无限总体.例如考察全国正在使用的某种型号灯泡的寿命所形成的总体,由于个体的个数很多,就可以认为是无限总体.在总体中,由于每个个体的出现是随机的,所以研究对象的该项数量指标X的取值就具有随机性,X是一个随机变量.因此,我们所研究的总体,即研究对象的某项数量指标X,它的取值在客观上有一定的分布.我们对总体的研究,就是对相应的随机变量X的分布的研究.X的分布函数和数字特征就称为总体的分布函数和数字特征,今后将不区分总体与相应的随机变量,笼统称为总体X.二、样本与样本分布在实际中,总体的分布一般是未知的,或只知道它具有某种形式,其中包含着未知参数.在数理统计中,人们都是通过从总体中抽取一部分个体,然后根据获得的数据来对总体分布得出推断的,被抽出的部分个体叫做总体的一个样本.从总体抽取一个个体,可以看作是对代表总体的随机变量X 进行一次试验(或观测),得到X 的一个试验数据(或观测值).从总体中抽取一部分个体,就看作是对随机变量X 进行若干次试验(或观测),得到X 的一些试验数据(或观测值).从总体中抽取若干个个体的过程称为抽样.抽样结果得到X 的一组试验数据(或观测值)称为样本.样本中所含个体的数量称为样本容量.为了使样本能很好地反映总体的情况,从总体中抽取样本,必须满足下述两个条件: 1.代表性因抽取样本要反映总体,自然要求每个个体和总体具有相同分布. 2.独立性各次抽取必须是相互独立的,即每次抽样的结果既不影响其他各次抽样的 结果,也不受其他各次抽样结果的影响.这种随机的、独立的抽样方法称为简单随机抽样.由此得到的样本称为简单随机样本.从总体中进行放回抽样,显然是简单随机抽样,得到的是简单随机样本.从 有限总体中进行不放回抽样,显然不是简单随机抽样,但是当总体容量N很大而样本容量n 较小0.1n N ⎛⎫≤ ⎪⎝⎭时,也可以近似地看作是放回抽样,即可以近似地看作是简单随机抽样,得到的样本可以近似地看作是简单随机样本. 注:从总体抽取容量为n 的样本,就是对代表总体的随机变量X在相同条件下随机地、独立地进行n 次试验(或观测),将n 次试验结果按试验的次序记为n X X X ,,,21 .由于n X X X ,,,21 是对随机变量X 试验的结果,且各次试验是在相同条件下独立地进行的,所以可认为n X X X ,,,21 是相互独立的,且与总体X 服从相同的分布.定义1:设总体X 是具有某一分布函数的随机变量,如果随机变量n X X X ,,,21 相互独立,且都与X 具有相同的分布,则称n X X X ,,,21 为来自总体X 的简单随机样本,简称样本.n 称为样本容量.在对总体X 进行一次具体的抽样并做观测之后,得到样本n X X X ,,,21 的确切数值12,,,n x x x ,称为样本观察值(或观测值),简称为样本值.如果总体X 的分布函数为()F X ,则样本n X X X ,,,21 的联合分布函数为*12121(,,,)()()()()nn n i i F x x x F x F x F x F x ===∏如果总体X 是离散型随机变量,且概率分布为{},1,2,i P X x i ==则样本n X X X ,,,21 的联合概率分布为12121{,,,}{}{}{}{}nn n i i i P X x X x X x P X x P X x P X x P X x ∙==========∏如果总体X 是连续型随机变量,且具有概率密度)(x f ,则样本n X X X ,,,21 的联合概率密度为12121(,,,)()()()()nn n i i f x x x f x f x f x f x ∙===∏三、统计推断问题简述总体和样本是数理统计中的两个基本概念. 样本来自总体,自然带有总体的信息,从而可以从这些信息出发去研究总体的某些特征(分布或分布中的参数). 另一方面,由样本研究总体可以省时省力(特别是针对破坏性的抽样试验而言). 我们称通过总体X 的一个样本n X X X ,,,21 对总体X 的分布进行推断的问题为统计推断问题.总体、样本、样本值的关系:总体↙ ↖推断(个体)样本 → 样本值抽样在实际应用中, 总体的分布一般是未知的, 或虽然知道总体分布所属的类型, 但其中包含着未知参数. 统计推断就是利用样本值对总体的分布类型、未知参数进行估计和推断.为对总体进行统计推断, 还需借助样本构造一些合适的统计量, 即样本的函数, 下面将对相关统计量进行深入的讨论.例1:设总体X 服从正态分布),(2σμN ,概率密度为22()2(), x f x x R μσ--=∈则其样本n X X X ,,,21 的联合概率密度为22211()()2212/211(,,,).(2)ni i x nx n n ni f x x x e μμσσπσ=----*=∑==§6.2 抽样分布样本是进行统计推断的依据.在应用时,往往不是直接使用样本本身,而是针对不同的问题构造样本的适当函数,利用这些样本的函数进行统计推断.一、统计量的概念定义1:设12,,,n X X X 是来自总体X 的一个样本,()12,,,n g X X X 是 12,,,n X X X 的函数,若g 中不含未知参数,则称()12,,,n g X X X 是一个统计量.设12,n x x x 是相应于样本12,,,n X X X 的样本值,则12(,)n g x x x 称为()12,,,n g X X X 的观察值.注: 统计量是随机变量.不一定和总体同分布,不同的统计量有不同的分布.二、常用的统计量1. 样本均值 ∑==ni i X n X 11 观测值记为 11nii x xn==∑2. 样本方差 ()2222111111nn i i i i S X X X nX n n ==⎛⎫=-=- ⎪--⎝⎭∑∑ 观测值记为 ()2222111111nn i i i i s x x x nx n n ==⎛⎫=-=- ⎪--⎝⎭∑∑ 3. 样本标准差S ==观测值记为s ==4. 样本(k 阶)原点矩 ,2,1,11==∑=k X n A n i ki k观测值记为 11,1,2,n kk i i a xk n ===∑5. 样本(k 阶)中心矩 ,3,2,)(11=-=∑=k X X n B ni k i k观测值记为 ()11,1,2,knk i i b x x kn ==-=∑注: (1)上述五种统计量可统称为矩统计量,简称为样本矩,它们都是样本的显示函数,它们的观察值仍分别称为样本均值、样本方差、样本标准差、样本(k 阶)原点矩、样本(k 阶)中心矩.(2)样本的一阶原点矩就是样本均值,样本一阶中心矩恒等于零21121,0,n A X B B S n-===, 三、矩估计法的理论根据若总体X 的k 阶矩()k k E X μ=存在,则当n →∞时Pk k A μ−−→ 1,2,k=证:12,,,n X X X 独立且与X 同分布12,,,k k knX X X ∴独立且与k X 同分布.故有 ()()()()12k kkk n k E X E X E X E X μ=====从而由第五章的大数定理知11n P k k i k i A X n μ==−−→∑ 1,2,k=进而由第五章中关于依概率收敛的序列的性质知道()()1212,,,,,,Pk k g A A A g μμμ−−→其中g 为连续函数,这就是下一章所要介绍的矩估计法的理论根据。
数理统计中的几种统计推断方法——导学文章之九数理统计的基本问题是根据样本所提供的信息,对总体的分布以及分布的数字特征作出统计推断。
统计推断的主要内容分为两大类:一是参数估计问题,另一类是假设检验问题。
本篇文章主要讨论总体参数的点估计、区间估计和假设检验。
一、点估计1、矩估计首先讲“矩”的概念,定义:设X 是随机变量,k 是一正整数,若k EX 存在,则称k EX 为随机变量X 的k 阶原点矩,记为k a ;若存在,则称它为X 的k 阶中心矩,记为k b 。
显然,数学期望EX 就是1阶原点矩,方差DX 就是2阶中心矩。
简单的说就是用样本矩去估计相应的总体矩,用样本矩的连续函数去估计相应的总体矩的连续函数。
矩估计法的理论基础是大数定理。
因为大数定理告诉我们样本矩依概率收敛于总体的相应矩,样本矩的连续函数依概率收敛于相应总体矩的连续函数。
我们通常样本的均值X 去估计总体的均值E X :即总体为X 时,我们从中取出n 个样本12,,n X X X ,我们认为总体的均值就是11nii X X n==∑,(当然这只是对总体均值的一种估计,当然会有误差)当2EX 存在的时候,我们通常用211nii X n=∑作为总体X 的2EX 的估计一般地,我们用11nkii X n=∑作为总体X 的kEX 的估计,用11()nkii X X n=-∑作为总体的()kE X EX -的估计。
例:设总体X 在[,]a b 上服从均匀分布,参数,a b 未知,12,,n X X X 是一个样本,求,a b 的矩估计量。
解:由矩估计法知道:2a b EX +=由于22()DX EX EX =-,因此2222()()()124b a a b EX D X EX -+=+=+用矩估计法,也即用11nii X X n==∑作为E X 的估计,用211nii X n=∑作为2EX 的估计,为了计算方便,我们记111nii A X n==∑,记2211nii A X n==∑,即有12a b A +=,2222()()124b a a b EXA -+=+=解得,12a b A b a +=⎧⎪⎨-=⎪⎩再联立解关于,a b 的方程组得,a b 的矩估计量分别为1a A X =-=-1b A X =+=+2、极大似然估计⑴ 对于连续型总体X ,设它的密度函数为12(;,,)m f x θθθ ,其中12,,m θθθ 是需要估计的未知参数。
设12,,n X X X 是来自总体X 的一个样本,则12,,n X X X 的联合密度函数为:121(;,,)ni m i f x θθθ=∏对于给定的一组样本值12,,n x x x ,记联合密度1212121(,,;,,)(;,,)nn m i m i L L x x x f x θθθθθθ===∏则称L 为样本的似然函数⑵ 若X 为离散型总体,它的概率分布为: 12{}(;,,)m P X x p x θθθ==对于给定的一组样本观测值12,,n x x x ,记联合密度1212121(,,;,,)(;,,)nn m i m i L L x x x p x θθθθθθ===∏则称L 为样本的似然函数 ⑶ 具体求法对于已经给定的样本观测值12,,n x x x 来说,似然函数L 是关于待估计的参数12,,m θθθ 的函数,因此我们应该想办法通过似然函数L 求出参数12,,m θθθ 值。
这里我们求法的思想来源于多元函数求极大值:也即,我们把1212(,,;,,)n m L L x x x θθθ= 看作关于12,,m θθθ 的多元函数,我们要求得适当的12,,m θθθ 的值,使得1212(,,;,,)n m L L x x x θθθ= 取最大值。
解释:实际上1212(,,;,,)n m L L x x x θθθ= 表示随机变量12,,n X X X 取得样本值12,,n x x x 时的联合概率,我们在一次试验中事件1212(,,)(,,)n n X X X x x x = 已经发生,我们就有理由认为,参数必须保证此时的概率最大,也即:参数12(,,)m θθθ 的值应该是使得1212(,,;,,)n m L L x x x θθθ= 最大的点。
这样我们的方法就是多元函数求极大值的方法。
极大似然估计的具体步骤为:① 求出似然函数1212(,,;,,)n m L L x x x θθθ= ;② 计算关于12(,,)m θθθ 的函数1212(,,;,,)n m L L x x x θθθ= 的极大值点, 我们由微积分的知识知道,实际问题中的极大值点就是函数的驻点,也就是每个偏导数都为0的点,即12000nLLLθθθ∂⎧=⎪∂⎪∂⎪=⎪∂⎨⎪⎪∂⎪=⎪∂⎩ (一般称该方程组为似然方程组)但是在实际计算中,由于1212(,,;,,)n m L L x x x θθθ= 都是乘积,因此以上方程组求解不太容易,这时候我们由微积分的知识知道到函数1212(,,;,,)n m L L x x x θθθ= 和它的对数函数1212ln ln (,,;,,)n m L L x x x θθθ= 有相同的极大值点,因此我把问题转化为求1212ln ln (,,;,,)n m L L x x x θθθ= 的极大值点,这样把乘积问题转化为了和差问题,在某些复杂问题中可以大大减轻计算!12ln 0ln 0ln 0m L LLθθθ∂⎧=⎪∂⎪∂⎪=⎪∂⎨⎪⎪∂⎪=⎪∂⎩(一般称该方程组为对数似然方程组)求解这个方程组即得到③ 上个步骤求出的 12(,,)mθθθ 就是参数12(,,)m θθθ 的估计值。
二、区间估计由于总体的未知参数θ的估计量 12(,,)nX X X θ 是随机变量,无论这个估计量的性质有多好,通过一个样本值12(,,)n x x x 所得到的估计值,只能是未知参数θ的近似值,而不是θ的真值。
并且样本值不同所得到的估计值也不同。
那么θ的真值在什么范围内呢?能不能通过样本,寻找一个区间,以一定的把握包含总体未知参数θ呢?这就是总体未知参数的区间估计问题。
区间估计严格的定义为: 定义:设总体X 的分布函数(,)F x θ含有一个未知参数θ,对于给定值α(01)α<<,若由样本12(,,)n X X X 确定的两个的两个统计量 112(,,)n X X X θ 和 12(,,)n X X X θ 满足 121212{(,,)(,,)}1n nP X X X X X X θθθα<<=- 则称随机区间 12(,)θθ是参数θ的置信度为1α-的置信区间, 12θθ和分别趁称为置信度为1α-的双侧置信区间的置信下限和置信上限,1α-称为置信度。
单个正态总体的的数学期望和方差的区间估计是我们重点要求掌握的知识点,大家可以好好阅读教材第189—198面,实际上课本把这种区间估计分各种情形的结论总结成了第209面的表格。
大家在理解这些区间估计的实质后,应该把表格的结论和公式记住,往往在实际解题的时候我们只需要套用这些结论就可以了! 三、假设检验所谓假设检验,顾名思义就是先假设再检验,实际上有点类似于反证法,在实际问题中我们往往需要对未知总体提出某中假设或推断,但是我们的假设可能是错的,也可能是正确的,这时候我们就需要利用一个抽样的样本12(,,)n x x x ,通过一定的方法,检验这个假设是否合理,从而作出接受或者拒绝这个假设的结论。
假设检验的基本原理是——小概率事件原理,也即:我们认为小概率事件在一次试验中几乎不可能发生,如果我们在抽取的样本观测值12(,,)n x x x 下,居然使得小概率事件发生了,我们就有理由否定原假设。
在明确一个假设检验问题的性质与基本前提(包括分布类型是否已知,如果类型已知,分布中包含哪些未知参数等等)之后,假设检验的一般步骤如下:⑴ 充分考虑和利用已知的背景知识提出原假设0H 以及对立假设1H ;⑵ 给定样本,确定合适的检验统计量,并在0H 为真下导出统计量的分布(要求此分布不依赖与任何未知参数);⑶ 确定拒绝域:即依直观分析先确定拒绝域的形式,然后根据给定的显著性水平α和以上统计量的分布由条件概率00{|}P H H α=拒绝为真确定拒绝域的临界值,从而确定拒绝域;⑷ 作出判断:由一次具体抽样的样本值计算统计量的值,若统计量的值落入以上拒绝域,则拒绝0H ;否则接受0H 。
我们重点研究单个正态总体数学期望和方差的假设,两个正态总体均值差和方差比的假设检验,教材分别给出了每种不同类型所用的统计量以及基本步骤(见教材第221—250面)。
对不同类型的问题,大家现在应该模仿教材的解法套出一些题目。
在实际解题的时候我们需要注意以下问题: ① 不同类型所用的统计量;② 用到的统计量中的自由度,以便于查表。