数理统计 样本及抽样分布.
- 格式:ppt
- 大小:358.00 KB
- 文档页数:26
数理统计基础公式详解样本统计量与抽样分布数理统计作为一门重要的学科,为我们分析和理解数据提供了基础和方法。
在数理统计中,样本统计量和抽样分布是两个关键概念。
本文将详细解释这些概念,并介绍相关的公式和定理。
一、样本统计量样本统计量是从数据样本中计算得到的数值,用于描述总体的特征。
常用的样本统计量有平均值、方差、标准差、相关系数等。
下面我们将详细介绍这些统计量以及它们的计算公式。
1. 平均值平均值是一组数据的总和除以观测数量,用于衡量数据的集中趋势。
样本平均值的计算公式如下:\[ \overline{x} = \frac{\sum_{i=1}^{n} x_i}{n} \]其中,\( \overline{x} \) 表示样本平均值,\( x_i \) 表示第 i 个观测值,n 表示观测数量。
2. 方差方差衡量了一组数据的离散程度,它表示各观测值与平均值之差的平方和的平均值。
样本方差的计算公式如下:\[ S^2 = \frac{\sum_{i=1}^{n} (x_i - \overline{x})^2}{n-1} \]其中,\( S^2 \) 表示样本方差,\( x_i \) 表示第 i 个观测值,\( \overline{x} \) 表示样本平均值,n 表示观测数量。
3. 标准差标准差是方差的平方根,用于衡量数据的离散程度。
样本标准差的计算公式如下:\[ S = \sqrt{S^2} \]其中,S 表示样本标准差,\( S^2 \) 表示样本方差。
4. 相关系数相关系数衡量了两个变量之间的线性关系的强弱和方向。
样本相关系数的计算公式如下:\[ r = \frac{\sum_{i=1}^{n} (x_i - \overline{x})(y_i -\overline{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \overline{x})^2 \sum_{i=1}^{n} (y_i - \overline{y})^2}} \]其中,r 表示样本相关系数,\( x_i \) 和 \( y_i \) 分别表示第 i 个观测值的两个变量,\( \overline{x} \) 和 \( \overline{y} \) 分别表示两个变量的样本平均值,n 表示观测数量。
概率论与数理统计-ch6-样本与抽样分布概率论中,所研究的随机变量是假定其分布是已知的,在此前提下研究它的性质、数字特征等。
在数理统计中,所研究的随机变量的分布是未知或不完全知道的,通过重复独⽴的试验得到许多观察值去推断随机变量的种种可能分布。
1、随机样本总体:试验的全部可能的观察值。
=样本空间个体:每⼀个可能观察值。
=样本点容量:总体中所包含的个体的个数。
有限总体⽆限总体⼀个总体对应⼀个随机变量X,对总体的研究就是对随机变量X的研究。
所以将不区分总体与相应的随机变量,统称为总体X。
样本:在数理统计中,⼈们都是通过从总体中抽取⼀部分个体,根据获得的数据来对总体分布得出推断的,被抽出的部分个体叫做总体的⼀个样本。
对总体进⾏⼀次观察,就会得到⼀个随机变量X1,对总体进⾏n次重复的、独⽴的观察,就会得到n个随机变量X1,X2,...,Xn,这n个随机变量X1,X2,...,Xn是对总体随机变量X观察的结果。
则X1,X2,...,Xn是相关独⽴且与X具有相同分布,称为来⾃总体X的⼀个简单随机样本。
n称为样本的容量。
进⾏n次观察得到的⼀组实数x1,x2,...,xn是随机变量X1,X2,...,Xn的观察值,称为样本值,也称为X的n个独⽴的观测值。
2、抽样分布样本是统计推断的依据,但往往不直接使⽤样本本⾝,⽽是由样本构造的函数。
统计量:设X1,X2,...,Xn是来⾃总体X的⼀个样本,g(X1,X2,...,Xn)是其函数,且g中不含任何未知参数,则称g(X1,X2,...,Xn)是⼀统计量。
统计量也是⼀个随机变量。
g(x1,x2,...,xn)是统计量的观测值。
常⽤的统计量:经验分布函数:经验分布函数(empirical distribution function)是根据样本得到的分布函数.如设,是总体的样本值,将它们按⼤⼩顺序排列为,则称分布函数为经验分布函数是与总体分布函数相对应的统计量。
总体的分布函数是F(x),统计量的经验分布函数是F n(x),⽤F n(x)去推断F(x),当n⾜够⼤时,F n(x)以概率1收敛于F(x)。
生物数学—-数理统计习题(前半部分)一、抽样与抽样分布1.设X 1,X 2,···,X n 为样本,¯X n =1n n i =1X i ,S 2n =1n n i =1(X i −¯X )2,X n +1为第n +1次的观测样本,试证:¯X n +1=¯X n +1n +1(X n +1−¯X n )2.设x 1,x 2,···,x n 及u 1,u 2,···,u n 为两个样本观测值,它们有如下关系:u i =x i −a b,b =0,a 都为常数,求样本平均值¯u 与¯x ,样本方差S 2u 与S 2x 之间的关系。
3.证明如下等式:(1)n i =1(X i −¯X )=0;(2)n i =1(X i −C )2=n i =1(X i −¯X )2+n (¯X −C )2;(3)n i =1(X i −¯X )2=n i =1X 2i −n ¯X,进而有S 2n =¯X 2−¯X 2,其中¯X 2=1n n i =1X 2i 。
4.若从总体中抽取容量为13的一个样本:−2.1,3.2,0,−0.1,1.2,−4,2.22,2.01,1.2,−0.1,3.21,−2.1,0试写出这个样本的次序统计量,中位数和极差。
5.设X ∼N (µ,σ2),求样本均值¯X与总体期望µ的偏差不超过1.96σ2n的概率。
6.在总体N (52,633)中随机抽一容量为36的样本,求样本均值¯X 落在50.8和53.8之间的概率。
7.求总体N (20,3)的容量分别为10,15的两个独立样本均值差的绝对值大于0.3的概率。
8.设X 1,X 2,···,X 10为N (0,0.09)的一个样本,求P (10i =1X 2i >1.44)。
第六章 样本及抽样分布1.[一] 在总体N (52,6.32)中随机抽一容量为36的样本,求样本均值X 落在50.8到53.8之间的概率。
解:8293.0)78()712(}63.68.163.65263.62.1{}8.538.50{),363.6,52(~2=-Φ-Φ=<-<-=<<X P X P N X2.[二] 在总体N (12,4)中随机抽一容量为5的样本X 1,X 2,X 3,X 4,X 5. (1)求样本均值与总体平均值之差的绝对值大于1的概率。
(2)求概率P {max (X 1,X 2,X 3,X 4,X 5)>15}. (3)求概率P {min (X 1,X 2,X 3,X 4,X 5)>10}.解:(1)⎪⎪⎭⎪⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧>-=⎪⎪⎭⎪⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧>-=>-25541225415412}112{|X P X P X P=2628.0)]25(1[2=Φ- (2)P {max (X 1,X 2,X 3,X 4,X 5)>15}=1-P {max (X 1,X 2,X 3,X 4,X 5)≤15} =.2923.0)]21215([1}15{1551=-Φ-=≤-∏=i i X P (3)P {min (X 1,X 2,X 3,X 4,X 5)<10}=1- P {min (X 1,X 2,X 3,X 4,X 5)≥10} =.5785.0)]1([1)]21210(1[1}10{15551=Φ-=-Φ--=≥-∏=i iXP 4.[四] 设X 1,X 2…,X 10为N (0,0.32)的一个样本,求}.44.1{1012>∑=i iXP解:)5(1.0}163.0{}44.1{),10(~3.0101221012221012查表=>=>∑∑∑===i i i i i i X P X P χX7.设X 1,X 2,…,X n 是来自泊松分布π (λ )的一个样本,X ,S 2分别为样本均值和样本方差,求E (X ), D (X ), E (S 2 ).解:由X ~π (λ )知E (X )= λ ,λ=)(X D∴E (X )=E (X )= λ, D (X )=.)()(,)(2λX D S E nλn X D === [六] 设总体X~b (1,p),X 1,X 2,…,X n 是来自X 的样本。
第五章 样本及抽样分布从本章开始, 我们将讲述数理统计的基本内容. 数理统计作为一门学科诞生于19世纪末20世纪初, 是具有广泛应用的一个数学分支, 它以概率论为基础, 根据试验或观察得到的数据, 来研究随机现象, 以便对研究对象的客观规律性作出合理的估计和判断.由于大量随机现象必然呈现出它的规律性, 故理论上只要对随机现象进行足够多次观察, 则研究对象的规律性就一定能清楚地呈现出来, 但实际上人们常常无法对所研究的对象的全体(或总体) 进行观察, 而只能抽取其中的部分(或样本) 进行观察或试验以获得有限的数据.数理统计的任务包括: 怎样有效地收集、整理有限的数据资料; 怎样对所得的数据资料进行分析、研究, 从而对研究对象的性质、特点, 作出合理的推断, 此即所谓的统计推断问题, 本课程主要讲述统计推断的基本内容.第一节 数理统计的基本概念内容分布图示★ 引言 ★ 总体与总体分布 ★ 样本与样本分布 ★ 例1★ 例2 ★ 例3 ★ 例4★ 统计推断问题简述★ 分组数据统计表和频率直方图 ★ 例5 ★ 经验分布函数 ★ 例6★ 统计量 ★ 样本的数字特征★ 例7 ★ 例8 ★ 例9 ★ 内容小结 ★ 课堂练习 ★ 习题5-1 ★ 返回内容要点:一、总体与总体分布总体是具有一定共性的研究对象的全体, 其大小与范围随具体研究与考察的目的而确定. 例如, 考察某大学一年级新生的体重情况, 则该校一年级全体新生就构成了待研究的总体. 总体确定后, 我们称总体的每一个可观察值为个体. 如前述总体(一年级新生) 中的每一个个体即为每个新生的体重. 总体中所包含的个体的个数称为总体的容量. 容量为有限的称为有限总体, 容量为无限的称为无限总体.数理统计中所关心的并非每个个体的所有性质, 而仅仅是它的某一项或某几项数量指标. 如前述总体(一年级新生)中, 我们关心的是个体的体重, 进而也可考察该总体中每个个体的身高和数学高考成绩等数量指标.总体中的每一个个体是随机试验的一个观察值, 故它是某一随机变量X 的值,于是, 一个总体对应于一个随机变量X , 对总体的研究就相当于对一个随机变量X 的研究, X 的分布就称为总体的分布函数, 今后将不区分总体与相应的随机变量, 并引入如下定义:定义 统计学中称随机变量(或向量)X 为总体, 并把随机变量(或向量)的分布称为总体分布.注(i) 有时个体的特性很难用数量指标直接描述, 但总可以将其数量化,如检验某学校全体学生的血型, 试验的结果有O 型、A 型、B 型、AB 型4种, 若分别以1,2,3,4依次记这4种血型,则试验的结果就可以用数量来表示了;(ii) 总体的分布一般来说是未知的, 有时即使知道其分布的类型(如正态分布、二项分布等),但不知这些分布中所含的参数等(如p ,,2σμ等).数理统计的任务就是根据总体中部分个体的数据资料对总体的未知分布进行统计推断.二、样本与样本分布由于作为统计研究对象的总体分布一般来说是未知的,为推断总体分布及其各种特征,一般方法是按一定规则从总体中抽取若干个体进行观察,通过观察可得到关于总体X 的一组数值),,,(21n x x x Λ,其中每一i x 是从总体中抽取的某一个体的数量指标i X 的观察值.上述抽取过程为抽样,所抽取的部分个体称为样本.样本中所含个体数目称为样本的容量.为对总体进行合理的统计推断,我们还需在相同的条件下进行多次重复的、独立的抽样观察,故样本是一个随机变量(或向量).容量为n 的样本可视为n 维随机向量),,,(21n X X X Λ,一旦具体取定一组样本,便得到样本的一次具体的观察值),,,(21n x x x Λ,称其为样本值.全体样本值组成的集合称为样本空间.为了使抽取的样本能很好地反映总体的信息, 必须考虑抽样方法,最常用的一种抽样方法称为简单随机抽样, 它要求抽取的样本满足下面两个条件:1. 代表性: n X X X ,,,21Λ与所考察的总体具有相同的分布;2. 独立性: n X X X ,,,21Λ是相互独立的随机变量.由简单随机抽样得到的样本称为简单随机样本, 它可用与总体独立同分布的n 个相互独立的随机变量n X X X ,,,21Λ表示. 显然, 简单随机样本是一种非常理想化的样本, 在实际应用中要获得严格意义下的简单随机样本并不容易.对有限总体, 若采用有放回抽样就能得到简单随机样本,但有放回抽样使用起来不方便, 故实际操作中通常采用的是无放回抽样, 当所考察的总体很大时, 无放回抽样与有放回抽样的区别很小, 此时可近似把无放回抽所得到的样本看成是一个简单随机样本. 对无限总体, 因抽取一个个体不影响它的分布, 故采用无放回抽样即可得到的一个简单随机样本.注: 今后假定所考虑的样本均为简单随机样本, 简称为样本.设总体X 的分布函数为)(x F ,则简单随机样本),,,(21n X X X Λ的联合分布函数为∏==ni i n x F x x x F 121)(),,,(Λ并称其为样本分布.特别地, 若总体X 为连续型随机变量,其概率密度为)(x f ,则样本的概率密度为∏==ni i n x f x x x f 121)(),,,(Λ分别称)(x f 与),,,(21n x x x f Λ为总体密度与样本密度.若总体X 为离散型随机变量,其概率分布为}{)(i i x X P x p ==, x 取遍X 所有可能取值, 则样本的概率分布为,)(},,,{),,,(12121∏======ni i n n x p x X x X x X p x x x p ΛΛ分别称)(i x p 与),,,(21n x x x p Λ为离散总体密度与离散样本密度.三、统计推断问题简述总体和样本是数理统计中的两个基本概念. 样本来自总体,自然带有总体的信息,从而可以从这些信息出发去研究总体的某些特征(分布或分布中的参数). 另一方面,由样本研究总体可以省时省力(特别是针对破坏性的抽样试验而言). 我们称通过总体X 的一个样本n X X X ,,,21Λ对总体X 的分布进行推断的问题为统计推断问题.总体、样本、样本值的关系:总体↙ ↖推断(个体)样本 → 样本值抽样在实际应用中, 总体的分布一般是未知的, 或虽然知道总体分布所属的类型, 但其中包含着未知参数. 统计推断就是利用样本值对总体的分布类型、未知参数进行估计和推断.为对总体进行统计推断, 还需借助样本构造一些合适的统计量, 即样本的函数, 下面将对相关统计量进行深入的讨论.四、分组数据统计表和频数直方图 通过观察或试验得到的样本值,一般是杂乱无章的,需要进行整理才能从总体上呈现其统计规律性. 分组数据统计表或频率直方图是两种常用整理方法. 1. 分组数据表:若样本值较多时,可将其分成若干组,分组的区间长度一般取成相等, 称区间的长度为组距. 分组的组数应与样本容量相适应. 分组太少,则难以反映出分布的特征,若分组太多,则由于样本取值的随机性而使分布显得杂乱. 因此,分组时,确定分组数(或组距)应以突出分布的特征并冲淡样本的随机波动性为原则. 区间所含的样本值个数陈为该区间的组频数. 组频数与总的样本容量之比称为组频率.2. 频数直方图:频率直方图能直观地表示出频数的分布,其步骤如下: 设n x x x ,,,21Λ是样本的n 个观察值.(i) 求出n x x x ,,,21Λ中的最小者)1(x 和最大者)(n x ;(ii) 选取常数a (略小于)1(x )和b (略大于)(n x ),并将区间],[b a 等分成m 个小区间(一般取m 使nm 在101左右): mab t m i t t t i i -=∆=∆+,,,2,1),,[Λ, 一般情况下,小区间不包括右端点.(iii) 求出组频数i n ,组频率i i f nn ∆=,以及),,2,1(,n i tfh i i Λ=∆=(iv) 在),[t t t i i ∆+上以i h 为高,t ∆为宽作小矩形,其面积恰为i f ,所有小矩形合在一起就构成了频率直方图五、经验分布函数样本的直方图可以形象地描述总体的概率分布的大致形态,而经验分布函数则可以用来描述总体分布函数的大致形状。
第六章 样本及抽样分布 总体与个体:我们将试验的全部可能的观察值称为总体,这些值不一定都不相同,数目上也不一定是有限的,每一个可能观察值称为个体 总体中所包含的个体的个数称为总体的容量 容量为有限的称为有限总体 容量为无限的称为无限总体设X 是具有分布函数F 的随机变量,若,,21X X …n X ,是具有同一分布函数F 的、相互独立的随机变量,则称,,21X X …n X ,为从分布函数F (或总体F 、或总体X )得到的容量为n 的简单随机样本,简称样本,它们的观察值,,21x x …n x ,称为样本值,又称为X 的n 个独立的观察值由定义得:若,,21X X …n X ,为F 的一个样本,则,,21X X …n X ,相互独立,且它们的分布函数都是F ,所以(,,21X X …n X ,)的分布函数为,,(21*x x F …)(),1∏==ni i n x F x又若X 具有概率密度f ,则(,,21X X …n X ,)的概率密度为,,(21*x x f …).(),1∏==ni i n x f x设,,21X X …n X ,是来自总体X 的一个样本,g(,,21X X …n X ,)是,,21X X …n X ,的函数,若g 中不含未知参数,则称g(,,21X X …n X ,)是一统计量设,,21X X …n X ,是来自总体X 的一个样本,n x x x ,^,,21是这一样本的观察值,定义:样本平均值∑==ni i X n X 11样本方差⎪⎭⎫ ⎝⎛--=--=∑∑==n i i n i i X n X n X X n S 12221211)(11样本标准差∑=--==ni i X X n S S 122)(11 样本k 阶(原点)矩,2,1,11==∑=k X n A n i ki k …样本k 阶中心矩,3,2,)(11=-=∑=k X X n B k ni i k …经验分布函数设,,21X X …n X ,是总体F 的一个样本,用∞<<-∞x x S ),(表示,,21X X …n X ,中不大于x 的随机变量的个数。