第六章数理统计学的基本概念
- 格式:doc
- 大小:614.50 KB
- 文档页数:9
第六章 数理统计的基本概念§6.1基本概念 §6.2样本数字特征一、填空题1. 若12,,n X X X ,为来自总体X 的容量为n 的样本,则样本均值X = ,样本方差2S = ; 2.设总体(4,40)X N , 1210,,X X X ,是X 的简单随机样本,则X 的概率密度()f x = ; .3.某种灯泡的寿命X 服从参数为(0)λλ>的指数分布,12,,n X X X ,是取自总体X 的简单随机样本,则12(,,)n X X X ,的联合密度函数为 ;4.设总体2(,2)X N μ ,12,,n X X X ,为取自总体的一个样本,X 为样本均值,要使2()0.1E X μ-≤成立,则样本容量n 至少应取多大 ;.5.设n X X X ,,21 ,是来自总体2(,)N μσ的随机样本,,a b 为常数,且0a b <<,则随机区间222211()(),n n i i i i X X b a μμ==⎛⎫-- ⎪⎝⎭∑∑的长度的数学期望为 。
.二、选择题1. 设(1,4)X N ,12,,n X X X ,为X 的样本,则(C )(A )1~(01)2X N -,; (B )1~(01)4X N -,; (C~(01)N ,; (D~(01)N ,. 2.设12,,n X X X ,是总体X 的样本,则有(D )(A )()X E X =; (B )()X E X ≈; (C )1()X E X n=; (D )以上三种都不对. 3.设总体(2,9)X N , 1210,,X X X ,是X 的样本,则(B )(A )(20,90)X N ; (B )(2,0.9)X N ; (C )(2,9)X N; (D )(20,9)X N .4.设总体2(,)X N μσ , 其中μ已知, 1234,,X X X X ,是X 的样本,则不是统计量的是(C ) (A )145X X +; (B )41i i X μ=-∑; (C )1X σ-; (D )421i i X =∑.5.设随机变量X 服从正态分布(0,1)N ,对给定的(01)αα<<,数a u 满足{}a P X u α>=,若{||}P X x α<=,则x 等于(C )(A )2a u ; (B )12a u-;(C )12a u -; (D )1a u -.6.设12,,n X X X ,是来自正态总体2(,)N μσ的简单随机样本,X 与2S 分别是样本均值与样本方差,则(C )(A )2222()E X S μσ-=-; (B )2222()D X S μσ+=+; (C )22()E X S μσ-=-; (D )22()D X S μσ+=+.三、 计算题5. 设1234,,,X X X X 是取自正态总体2(,)N μσ中的一个大小为4的样本,其中μ已知,但2σ未知,指出下面随机变量中哪些是统计量? (1)1234X X X X +++;(2)42211()ii Xμσ=-∑; (3)12max{,}X X ;(4)4X μ+; (5)141()2X X +; (6X . 其中4114i i X X ==∑.6. 12,,n X X X ,是取自正态总体2(,)N μσ中的一个样本,12, m U X X X =+++12 m m n V X X X ++=+++ ( )n m >.求,U V 的联合密度函数。
第六章 数理统计的基本概念一.填空题1.若n ξξξ,,,21Λ是取自正态总体),(2σμN 的样本,则∑==ni i n 11ξξ服从分布)n,(N 2σμ.2.样本),,,(n X X X Λ21来自总体),(~2σμN X 则~)(221n S n σ-)(1χ2-n ; ~)(nS n X μ- _)(1-n t __。
其中X 为样本均值,∑=--=n i n X X n S 12211)(。
3.设4321X X X X ,,,是来自正态总体).(220N 的简单随机样本,+-=221)2(X X a X 243)43(X X b -,则当=a 201=a 时,=b 1001=b时,统计量X 服从2X 分布,其自由度为 2.4. 设随机变量ξ与η相互独立, 且都服从正态分布(0,9)N , 而129(,,,)x x x L 和 129(,,,)y y y L 是分别来自总体ξ和η的简单随机样本, 则统计量~U =(9)t .5. 设~(0,16),~(0,9),,X N Y N X Y 相互独立, 129,,,X X X L 与1216,,,Y Y Y L 分别为X 与Y 的一个简单随机样本,则2221292221216X X X Y Y Y ++++++L L 服从的分布为(9,16).F6. 设随机变量~(0,1)X N , 随机变量2~()Y n χ, 且随机变量X 与Y 相互独立,令T =, 则2~T F (1,n )分布.解:由T =, 得22X T Y n =. 因为随机变量~(0,1)X N , 所以22~(1).X χ再由随机变量X 与Y 相互独立, 根据F 分布的构造, 得22~(1,).X T F n Y n= 7. 设12,,,n X X X L 是总体(0,1)N 的样本, 则统计量222111n k k X n X =-∑服从的分布为(1,1)F n -(需写出分布的自由度).解:由~(0,1),1,2,,i X N i n =L 知222212~(1),~(1)nk k X X n χχ=-∑, 于是22122211(1)1~(1,1)./11nkn k k k Xn X F n X n X ==-=--∑∑8. 总体21234~(1,2),,,,X N X X X X 为总体X 的一个样本, 设212234()()X X Z X X -=-服从F (1,1)分布(说明自由度)解:由212~(0,2)X X N σ+,有22~(1)χ, 又 234~(0,2)X X N σ-,故22~(1),χ因为2与2独立,所以21234~(1,1).X X F X X ⎛⎫+ ⎪-⎝⎭9.判断下列命题的正确性:( 在圆括号内填上“ 错” 或“ 对”)(1) 若总体的平均值μ与总体方差σ2 都存在,则样本平均值x 是μ 的一致估计。
数学的数理统计学数理统计学是一门应用数学的分支学科,旨在研究数据的收集、分析和解释。
它是现代科学、工程和社会科学中必不可少的工具之一。
本文将从数学的角度出发,介绍数理统计学的基本概念、方法和应用。
一、基本概念数理统计学的基本概念包括总体、样本、随机变量和概率分布等。
总体是指研究对象的全体,样本则是从总体中选取的一部分个体。
随机变量是描述随机现象的数值特征,概率分布则描述了随机变量的取值规律。
二、数据的收集与描述在数理统计学中,收集和描述数据是关键的一步。
常见的数据收集方法包括抽样调查、实验和观测等。
而对数据进行描述的手段主要有集中趋势度量和离散程度度量。
集中趋势度量包括均值、中位数和众数等,用于反映数据的中心位置;离散程度度量包括方差、标准差和变异系数等,用于反映数据的离散程度。
三、概率与概率分布概率是数理统计学的重要概念之一,用来描述随机现象发生的可能性。
概率分布则用于描述随机变量的取值规律。
常见的概率分布包括正态分布、二项分布和泊松分布等。
正态分布是一种重要的连续型概率分布,其以钟形曲线为特征,广泛应用于自然科学和社会科学领域。
二项分布和泊松分布则常用于描述离散型随机变量的概率分布。
四、参数估计与假设检验参数估计与假设检验是数理统计学中的核心内容。
参数估计是根据样本数据对总体参数进行估计,常用的方法包括点估计和区间估计。
假设检验则是用于判断总体参数是否满足某个假设,常用的方法包括单样本假设检验、双样本假设检验和方差分析等。
五、回归与相关分析回归分析是研究两个或多个变量之间关系的统计方法。
简单线性回归分析用于描述两个变量之间的线性关系,多元线性回归分析则考虑多个自变量对因变量的影响。
相关分析则用于描述两个变量之间的相关程度,常用的是皮尔逊相关系数。
六、应用领域数理统计学在各个领域都有广泛的应用。
在自然科学方面,数理统计学可以帮助分析实验数据,验证理论模型。
在工程领域,数理统计学可以应用于质量控制、可靠性分析等。
第六章数理统计的基本概念一、内容提要数理统计学是数学的一个分支,它的任务是研究怎样用有效的方法去收集和使用带有随机性的数据,建立数学方法,去揭示所研究问题的统计规律性。
它的主要内容是由样本来推断总体。
(一)基本概率1. 总体、个体与样本:研究对象的全体称为总体,用X、Y等表示。
组成总体的每个元素称为个体或单元。
从总体中按一定的规律抽出一些个体就称为抽样,所抽及的个体称为样本,用X1,X2,…,X n表示。
一般样本容量小于50的样本称为小样本,样本容量大于等于50的样本称为大样本,但在样本不易实现时,样本容量大于30的样本可看作大样本。
包含有限个个体的总体称为有限总体,包含无限个个体的总体称为无限总体。
2. 简单随机抽样与简单随机样本:如果总体中各个个体被抽到的机会是均等的,并且在抽取一个个体后总体的成分不变,那么,抽得的一些个体就能很好地反映总体的情况,基于这种想法抽取个体的方法称为简单随机抽样。
抽得的这些个体构成一个样本,用(X1,X2,…,X n)表示,n为样本容量,X1,X2,…,X n应是n个相互独立的且与总体X同分布的随机变量,并将这种样本称为简单随机样本,简称样本。
本书所讨论的样本,如无特别声明,均指简单随机样本。
样本(X1,X2,…,X n)是n个相互独立的且与总体同分布的随机变量,而一次抽取之后,12(X 1,X 2,…,X n )又是n 个具体的数据x 1,x 2…,x n ,即样本的一组观测值,在不致引起混淆的情况下,样本和样本值都用(X 1,X 2,…,X n )表示,这就是样本的二重性。
3. 样本分布函数(或经验分布函数):设样本(X 1,X 2,…,X n )的观测值按由小到大次序排列后为:**2*1n x x x ≤≤≤Λ定义()()*1**1*0,,,,1,2,,11,.n k k n x x kF x x x x k n n x x +⎧⎪⎪=≤<=-⎨⎪⎪≥⎩p L ,为样本分布函数对于样本的不同观测值(x 1,x 2…,x n ),我们将得到不同的F n (x ),所以F n (x )是一个随机变量。
Ch 6 数理统计的基本概念§6.1 基本概念 一、总体与样本1、总体——研究对象的全体,记为X 。
2、个体——构成总体的每一个对象,记为i X 。
3、总体容量——总体中包含的个体的个数。
有限总体——容量有限;无限总体——容量无限。
为推断总体X 的分布,从总体中抽取n 个个体,则对应n 个r.v.n X X X .....2,1——来自于总体X 的一个样本。
n X X X ......,21的取值((n x x x ,.....,21)--观测结果)称为样本的观测值,简称为样本值,整个抽取过程称之为抽样。
抽取的目的是根据样本的取值情况推断总体情况,因此应尽可能的使抽取的样本能反映总体的状况,故要求抽取的样本具有以下性质:文档收集自网络,仅用于个人学习⑴ 代表性:样本中每个r.v.i X 与总体X 具有相同的分布。
文档收集自网络,仅用于个人学习⑵ 独立性:n X X X ......,21相互独立。
——简单的随机抽样所得的样本称为简单的随机样本;若总体X 的分布函数为F (x ),则样本n X X X .....2,1的联合分布函数)().....,(121*i ni n x F x x x F =∏=。
文档收集自网络,仅用于个人学习若X 为连续型,且d.f 为f(x),且联合p.d.f 为:)()....,(121*i ni n x f x x x f =∏= 若X 为离散型,且分布律为:....2,1,)(===k p x X P k k 则联合分布律:in i i in n i i p p p x X x X x X P ....).....,(212211⋅⋅====。
...2,1.....3,2,1=in i i i 二、统计量Def:不含有任何未知数的关于样本空本空间的函数称为统计量。
e.g.1 设总体X~),(2σμN ,其中2,σμ未知,(n X X X .....2,1)为取自总体X 的一个样本,则:∑∑==--==n i i n i i X X n S X n X 1221)(11,1均为统计量。
第六章数理统计的基本概念一、教学要求1.理解总体、个体、简单随机样本和统计量的概念,掌握样本均值、样本方差及样本矩的计算。
2.了解分布、t分布和F分布的定义和性质,了解分位数的概念并会查表计算。
3.掌握正态总体的某些常用统计量的分布。
4.了解最大次序统计量和最小次序统计量的分布。
本章重点:统计量的概念及其分布。
二、主要内容1.总体与个体我们把研究对象的全体称为总体(或母体),把组成总体的每个成员称为个体。
在实际问题中,通常研究对象的某个或某几个数值指标,因而常把总体的数值指标称为总体。
设x为总体的某个数值指标,常称这个总体为总体X。
X的分布函数称为总体分布函数。
当X为离散型随机变量时,称X的概率函数为总体概率函数。
当X为连续型随机变量时,称X的密度函数为总体密度函数。
当X服从正态分布时,称总体X为正态总体。
正态总体有以下三种类型:(1)未知,但已知;(2)未知,但已知;(3)和均未知。
2.简单随机样本数理统计方法实质上是由局部来推断整体的方法,即通过一些个体的特征来推断总体的特征。
要作统计推断,首先要依照一定的规则抽取n个个体,然后对这些个体进行测试或观察得到一组数据,这一过程称为抽样。
由于抽样前无法知道得到的数据值,因而站在抽样前的立场上,设有可能得到的值为,n维随机向量()称为样本。
n称为样本容量。
()称为样本观测值。
如果样本()满足(1)相互独立;(2) 服从相同的分布,即总体分布;则称()为简单随机样本。
简称样本。
设总体X的概率函数(密度函数)为,则样本()的联合概率函数(联合密度函数为)3. 统计量完全由样本确定的量,是样本的函数。
即:设是来自总体X 的一个样本,是一个n元函数,如果中不含任何总体的未知参数,则称为一个统计量,经过抽样后得到一组样本观测值,则称为统计量观测值或统计量值。
4. 常用统计量(1)样本均值:(2)样本方差:(3)样本标准差:它们的观察值分别为:这些观察值仍分别称为样本均值、样本方差和样本标准差。
(4)样本(k阶)原点矩11,1,2,nkk iiA X kn===∑L(5)样本(k阶)中心矩11(),2,3,nkk iiB X X kn==-=∑L其中样本二阶中心矩211(),nk iiB X Xn==-∑又称为未修正样本方差。
(6)顺序统计量将样本中的各个分量由小到大的重排成(1)(2)()nX X X≤≤≤L则称(1)(2)(),,nX X XL为样本顺序统计量,()(1)nX X-为样本的极差。
(7)样本相关系数:112211()()()()11()()n ni i i ii ixy n nx yi ii ix x y y x x y yrS Sx x y yn n====----==--∑∑∑∑其中:,x y分别为数据,i ix y的样本均值,,x yS S分别为样本a标准差。
5、直方图与箱线图(1)直方图先将所有采集的数据进行整理,得到顺序统计量,找出其中的最小值(1)x,最大值()nx,即所有的数据都落在区间(1)(),nx x⎡⎤⎣⎦上,现取区间(1)(),nx k x k⎡⎤-+⎣⎦(其中k 可取0.5,1.5等),该区间能覆盖区间(1)(),n x x ⎡⎤⎣⎦,将区间(1)(),n x k x k ⎡⎤-+⎣⎦等分为m 个小区间(先取一个区间,其下限比最小的数据稍小,其上限比最大的数据稍大,然后将这一区间等分为m 个小区间,通常n 较大时m 取1020:,当50n <时则m 取56:。
若m 取得过大,则会出现某些区间内频数为零,分点通常取比数据精度高一位,以避免数据落在分点上),小区间的长度记为∆,(1)()()()n x k x k l m+--∆==,∆称为组距,小区间的端点称为组限,数出数据落在每个小区间内的数据的频数i f ,算出频率(1,2,)i fi l n=L ,然后自左至右依次在各个小区间上做以(1,2,)if n i l =∆L 为高的小矩形,这样的图形就称其为频率直方图。
显然这种小矩形的面积就等于数据落在该小区间的频率(1,2,)i fi l n=L ,直方图的外廓曲线接近于总体X 的概率密度曲线。
(2)p 分位数定义 设有容量为n 的样本观察值12,,,n x x x L ,样本(01)p p <<分为数记为p x ,它具有以下性质:(1)至少有np 个观察值小于或等于p x ;(2)至少有(1)n p -个观察值大于或等于p x样本p 分位数可按以下法则求得:将12,,,n x x x L 按从小到大的顺序排成(1)(2)()n x x x ≤≤≤L01,若np 不是整数,则只有一个数据满足定义中的两点要求,这一数据位于大于np 的最小整数处,即为位于[]1np +处的数。
02,若np 是整数,则1,np np x x +都符合性质要求,故p x 取1,np np x x +的平均值。
综上可得:[](1)()(1)12np p np np x x x x ++⎧⎪=⎨⎡⎤+⎪⎣⎦⎩ np np 不是整是整特别的:1()20.51()()2212n n n x x med x x ++⎧⎪⎪==⎨⎡⎤⎪+⎢⎥⎪⎣⎦⎩ n n 奇偶0.25分位数又称为第一四分位数,又记为1Q ;0.75分位数又称为第三四分位数,又记为3Q(3)箱线图:数据集的箱线图是由箱子和直线组成的图形,它是在基于以下5个数据的图形概括:最小值13,,,,Min Q M Q 最大值Max ,做法如下:(1)画一水平数轴,在轴上标记最小值13,,,,Min Q M Q 最大值Max ,在数轴上方画一个上下侧平行于数轴的矩形箱子,箱子的左右两侧分别位于13,Q Q 的上方,在M 点的上方画一条垂直线段,线段位于箱子的内部;(2)自箱子的左侧中点引一条水平线直至最小值上方;在同一水平高度自箱子右侧引一条水平线直至最大值上方。
箱线图完成。
在数据集中某一个观察值不寻常的大于或小于该数集中的其他数据,称为疑似异常值。
第一四分位数1Q 与第三四分位数3Q 之间的距离:31IQR Q Q =-称为四分位数间距,若数据小于131.5 1.5Q IQR Q IQR -+或大于,就认为他是疑似异常值。
将上述箱线图的做法修改如下: (1’)同(1)(2’)计算31IQR Q Q =-,若一个数据小于131.5 1.5Q IQR Q IQR -+或大于,则认为它是一个异常值,并以*表示; (3’) 自箱子的左侧中点引一条水平线直至数据中除去疑似异常值之后的最小值上方,再自箱子的右侧中点引一条水平线直至数据中除去疑似异常值之后的最大值上方;这样做出的箱线图称为修正箱线图。
6关于Γ分布(1)Γ(Gamma )函数 10(),(0)x x e dx s αΓα+∞--=>⎰它具有以下运算性质:(1)();()(1)!,;n n n N ΓααΓαΓ+==-∈ 特别地:(1)1Γ=1()2Γ= 1201()2x x e dx Γ+∞--=⎰2,2t x t dx tdt =⇒==2221200011()222xt t t x e dx e tdt e dt e dt t Γ+∞+∞+∞+∞------∞====⎰⎰⎰⎰g g 令222222()()()t t s t I e dt I e dt eds e dt +∞+∞+∞+∞-----∞-∞-∞-∞=⇒==⎰⎰⎰⎰220r d erdr I πθπ+∞-==⇒=⎰⎰ 所以1()2Γ=(2)设随机变量X 服从Γ分布,即:(,)X Γαθ:,其密度函数为:11()()0x x e f x αθαθΓα--⎧⎪=⎨⎪⎩0x qita > 0,0αθ>>定理:设随机变量X ,Y 都服从Γ分布且相互独立,即:(,)X Γαθ:,(,)X Γβθ:其密度函数分别为:11()()0x X x e f x αθαθΓα--⎧⎪=⎨⎪⎩0x qita > 0,0αθ>>11()()0y Y y e f y αθαθΓα--⎧⎪=⎨⎪⎩0y qita > 0,0βθ>>则Z X Y =+服从参数为,αβθΓ+的分布,即:(,)X Y Γαβθ++: 7、经验分布函数设12,,n X X X L 是总体F 的一个样本,用(),()S x x -∞<<+∞表示12,,n X X X L 中不大于x 的随机变量的个数,定义经验分布函数为:1()(),()n F x S x x n=-∞<<+∞例题1:设总体F 有一个样本值1,2,3,则经验分布函数为:30,11,123()2,2331,3x x F x x x <⎧⎪≤<⎪=⎨≤<⎪⎪≥⎩例题2:设总体F 有一个样本值1,1,2,则经验分布函数为:30,12(),1231,2x F x x x <⎧⎪=≤<⎨⎪≥⎩格里汶科定理:(1933年)对于任意一实数x ,当n →∞时,()n F x 以概率1收敛于分布函数()F x {}lim sup ()()01n n x P F x F x →∞-∞<<+∞-==8. 三个重要分布 (1)分布设为独立标准正态变量,称随机变量的分布为自由度为n 的分布,记为。
其密度函数为:112221()2()20n x n x e n f x Γ--⎧⎪⎪=⎨⎪⎪⎩00x x >≤性质:(1)若22(),n χχ:则22(),()2E n D n χχ==因为(0,1)i X N :所以:()0,()1i i E X D X == 2()()1i i E X D X == 221()()n i i E E X n χ===∑又 24224()()(())()1312,(1,2,)i ii i D X E X E X E X i n =-=-=-==L其中:22224433222 111()()2222t t t itE X t e dt t e d t deπππ+∞+∞+∞----∞-∞-∞==--=-⎰⎰⎰g g g2222 33322222 113()222t t t t t de t de e dt t e dt πππ+∞+∞+∞----+∞-∞-∞-∞-∞⎡⎤=--==⎢⎥⎢⎥⎣⎦⎰⎰⎰g g22222222 333()3 222t t t ttde te e dt e dt πππ+∞+∞+∞----+∞-∞-∞-∞-∞⎡⎤=-=--==⎢⎥⎢⎥⎣⎦⎰⎰⎰(2)2χ分布的可加性设22221122(),()n nχχχχ::,并且相互独立,则有:2221212()n nχχχ++:(3)2χ分布的分位点对于给定的正数(01)αα<<,称满足条件222()(())()nP n f x dxααχχχα+∞>==⎰的点2()nαχ为2()nχ分布的上α分位点。