数理统计与随机过程讲义
- 格式:doc
- 大小:1.15 MB
- 文档页数:26
数理统计与随机过程1. 介绍2. 数理统计概述2.1 统计学的定义统计学是一门研究如何收集、整理、分析和解释数据的学科。
它利用数理统计方法和技巧来从已有数据中获取有关现象和问题的信息。
2.2 数理统计的重要性•数理统计可以帮助我们理解和解释现象和问题,从数据中提取有用信息。
•数理统计可以帮助我们做出合理的决策,并评估决策的风险和效果。
•数理统计是其他学科研究的重要工具,如经济学、社会学、医学等。
3. 数理统计的基本概念3.1 总体与样本•总体:研究对象的全体。
•样本:从总体中抽取出的一部分数据。
3.2 参数与统计量•参数:用于描述总体特征的数值。
•统计量:用于描述样本特征的数值。
3.3 随机变量与概率分布•随机变量:取值不确定的变量。
•概率分布:描述随机变量取值的概率情况。
4. 数理统计的基本方法4.1 描述统计描述统计是通过对数据进行整理、分类、计算和统计来描述和总结数据的基本特征。
•频数分布表:将数据按照不同取值分组统计出现次数。
•频数分布直方图:用柱状图表示不同频数的分布情况。
•平均数:描述数据的集中趋势。
•方差:描述数据的离散程度。
4.2 推断统计推断统计是通过样本对总体进行推断和估计。
•置信区间:估计总体参数的区间范围。
•假设检验:对总体参数的假设进行检验。
5. 随机过程概述5.1 随机过程的定义随机过程是一组随机变量的集合,这些随机变量依赖于一个或多个参数,并且随着参数变化而改变。
5.2 随机过程的分类•马尔可夫过程:未来状态只与当前状态有关。
•广义马尔可夫过程:未来状态与当前状态及历史状态有关。
•马尔可夫链:具有马尔可夫性质的离散时间的随机过程。
6. 数理统计与随机过程的应用6.1 金融领域在金融领域,数理统计和随机过程被广泛应用于风险评估、资产定价和投资组合管理等。
6.2 生物医学领域在生物医学领域,数理统计和随机过程被用于疾病诊断、药物研发和生物信息学等。
6.3 工程领域在工程领域,数理统计和随机过程被应用于质量控制、可靠性分析和网络通信等。
=q(t) r e ,为非平凡(非零)有界解,这里•为状态转移概率 那么我们有分布函数F (t) = P(x 乞 t) = 1 _ P(x t) = 1 _ q(t) = 1 _ e —'t因此得到指数分布 Ye 」t_00 other两个指数分布之和的分布?f(t) dF(t) dt 《数理统计与随机过程讲义》段法兵复杂性科学研究所第一章概率论回顾F 面是数理统计部分需要的掌握的,许多推导的基础知识§1.1几种分布的由来指数分布:服务台电话呼叫时间,公交车到达一个车站时间,这些时间分布的符合指数分布。
设q(t)为区间t 上没有事件发生的概率,x 为第一次事件发生等待 的时间,那么q(t)二P(x .t),假设不同时间区间t i ,t 2相互不重叠且独立,那么 P(x tJP(x t 2) = P(x t 1 t 2)=q(t i )q(t 2)=q(t i t ?)在x-y的空间内,满足x • y乞z的区域如上,那么z的累计分布f z (z)二 f x (x) * f y (y)= F(z) = P& + y wz}= (dy(」f xy (x,y)dx那么f z (zH-d FjZ Z^ " 0f x (x )f y (^x)dx 例如x 与y 为相互独立的指数分布,f x (x)二(厂和f y (y)二,e_y 分别为其概率分 布函数,那么z = x+y 的分布为,2e —'X e-'(z 」)dx = z ・2e 」z , 0Gamma 分布:N 个指数分布的随机变量之和的分布为 Gamma 分布。
例如x 与y 为相互独立的指数分布,f x (x)二’e"和f y (y)二分别为其概率分 布函数,那么z 二x+y 的分布为z n - n f z (z) = f x (x) * f y (y)=[扎eF/Jdx = zfb如此卷积下去,N 个相互独立的指数分布相加的概率分布为 Gamma 分布,其概 率密度函数这里参数〉,■:':0。
数理统计与随机过程一、数理统计的基本概念和方法1.1 数理统计的定义数理统计是应用数学和统计学的原理与方法,对各种现象进行观察、收集、整理、分析和解释,从而得出有关这些现象的规律性和特征性的科学。
1.2 数理统计的基本方法数理统计的基本方法包括:数据收集、数据整理、数据分析和结论推断等。
1.3 数据收集数据收集是指通过各种手段获取有关某一现象或问题的信息。
常见的数据收集方式包括问卷调查、实验观测、抽样调查等。
1.4 数据整理数据整理是指对收集到的原始数据进行加工处理,使其变成可分析和可比较的形式。
常见的数据整理方式包括分类汇总、编码标记等。
1.5 数据分析数据分析是指通过各种统计方法对已经整理好的数据进行描述性分析和推断性分析。
常见的数据分析方法包括频率分布、中心位置测度、离散程度测度等。
1.6 结论推断结论推断是指根据已经得出的结果,对所研究问题作出科学合理判断。
常见的结论推断方式包括假设检验、置信区间估计等。
二、随机变量及其分布2.1 随机变量的定义随机变量是指在一次试验中可能取到不同值的变量,其取值不仅受试验本身的性质决定,还受到随机因素的影响。
2.2 随机变量的分类随机变量可以分为离散型和连续型两种。
离散型随机变量只能取有限个或可数个值,而连续型随机变量可以取任意实数值。
2.3 随机变量的分布函数随机变量的分布函数是指对于任何实数x,求出X≤x的概率。
对于离散型随机变量,其分布函数为累积分布函数;对于连续型随机变量,其分布函数为概率密度函数。
2.4 常见离散型随机分布常见离散型随机分布包括:伯努利分布、二项式分布、泊松分布等。
2.5 常见连续型随机分布常见连续型随机分布包括:均匀分布、正态分布、指数分布等。
三、参数估计和假设检验3.1 参数估计的基本概念参数估计是指通过样本数据对总体分布的某些未知参数进行估计。
常见的参数估计方法包括点估计和区间估计。
3.2 点估计点估计是指用样本数据直接求出总体分布的某个未知参数的值。
第一章 随机事件和概率 第一节 基本概念1、排列组合初步(1)排列组合公式)!(!n m m P n m -= 从m 个人中挑出n 个人进行排列的可能数。
)!(!!n m n m C n m -=从m 个人中挑出n 个人进行组合的可能数。
例1.1:方程xx x C C C 76510711=-的解是 A . 4 B . 3 C . 2 D . 1例1.2:有5个队伍参加了甲A 联赛,两两之间进行循环赛两场,试问总共的场次是多少?(2)加法原理(两种方法均能完成此事):m+n某件事由两种方法来完成,第一种方法可由m 种方法完成,第二种方法可由n 种方法来完成,则这件事可由m+n 种方法来完成。
(3)乘法原理(两个步骤分别不能完成这件事):m ×n某件事由两个步骤来完成,第一个步骤可由m 种方法完成,第二个步骤可由n 种方法来完成,则这件事可由m ×n 种方法来完成。
例1.3:从5位男同学和4位女同学中选出4位参加一个座谈会,要求与会成员中既有男同学又有女同学,有几种不同的选法?例1.4:6张同排连号的电影票,分给3名男生和3名女生,如欲男女相间而坐,则不同的分法数为多少?例1.5:用五种不同的颜色涂在右图中四个区域里,每一区域涂上一种颜色,且相邻区域的颜色必须不同,则共有不同的涂法A.120种B.140种 C.160种D.180种(4)一些常见排列①特殊排列②相邻③彼此隔开④顺序一定和不可分辨例1.6:晚会上有5个不同的唱歌节目和3个不同的舞蹈节目,问:分别按以下要求各可排出几种不同的节目单?①3个舞蹈节目排在一起;②3个舞蹈节目彼此隔开;③3个舞蹈节目先后顺序一定。
例1.7:4幅大小不同的画,要求两幅最大的排在一起,问有多少种排法?例1.8:5辆车排成1排,1辆黄色,1辆蓝色,3辆红色,且3辆红车不可分辨,问有多少种排法?①重复排列和非重复排列(有序)例1.9:5封不同的信,有6个信箱可供投递,共有多少种投信的方法?②对立事件例1.10:七人并坐,甲不坐首位,乙不坐末位,有几种不同的坐法?例1.11:15人中取5人,有3个不能都取,有多少种取法?例1.12:有4对人,组成一个3人小组,不能从任意一对中取2个,问有多少种可能性?③ 顺序问题例1.13:3白球,2黑球,先后取2球,放回,2白的种数?(有序) 例1.14:3白球,2黑球,先后取2球,不放回,2白的种数?(有序) 例1.15:3白球,2黑球,任取2球,2白的种数?(无序)2、随机试验、随机事件及其运算(1)随机试验和随机事件如果一个试验在相同条件下可以重复进行,而每次试验的可能结果不止一个,但在进行一次试验之前却不能断言它出现哪个结果,则称这种试验为随机试验。
数理统计与随机过程数理统计与随机过程1. 引言数理统计与随机过程是两个密切相关的概念,既有相似之处又有一些区别之处。
数理统计是一种研究数据收集、分析和解释的方法,而随机过程则是研究时间上的随机变化的数学模型。
本文将深入探讨数理统计与随机过程的基本概念、应用以及相互关系,以期帮助读者更全面地理解这两个领域。
2. 数理统计数理统计是一种通过收集、处理和解释数据来进行推断和决策的学科。
它包括描述统计和推断统计两个方面。
描述统计主要包括对数据的总结、图形展示和基本统计指标的计算,通过这些方法可以揭示数据的特征和分布。
推断统计则是基于样本数据对总体特征进行估计和推断的方法,其中包括参数估计和假设检验。
数理统计在各个领域都有广泛的应用,如市场调研、医学研究和金融风险评估等。
3. 随机过程随机过程是一种描述随机现象演变的数学模型,它涉及到时间上不确定性的变化。
随机过程可以看作是一系列随机变量的集合,这些随机变量在时间上有关联,并且它们的取值取决于某个随机事件的结果。
随机过程可以分为离散时间和连续时间两种类型。
离散时间下的随机过程通常用更简单的概率论工具进行描述,如马尔可夫链和随机游走。
而连续时间下的随机过程则需要用到更为复杂的数学方法,如随机微分方程和布朗运动。
随机过程在物理学、通信系统和金融工程等领域有着广泛的应用。
4. 数理统计与随机过程的联系数理统计和随机过程有着密切的联系,两者既有相互支持的关系,也有独立发展的特点。
数理统计可以用来对随机过程进行建模和推断。
通过收集随机过程的样本数据,可以应用数理统计中的方法来估计空间分布、预测未来变化趋势等。
而随机过程则为数理统计提供了数据来源,将现实世界的随机现象进行数学描述,为数理统计的分析提供了基础。
随机过程的理论和方法也常常被运用到数理统计中。
在时间序列分析中,随机过程的模型可以用来描述数据随时间变化的规律,从而可以对未来的观测结果进行预测和分析。
数理统计和随机过程的融合使得对数据的分析更加全面和准确。
第四章 假设检验假设检验是一种重要应用价值的统计推断形式,是数理统计的分支。
从发展历史上有重要的节点为1 :Pearson 的拟合优度的2χ检验 19002:Fisher 的显著性检验 19203:Neyman-Pearson 一致最优检验 1928 4:Wald 的判决理论 19505:Bayes 方法 (二战之后发展的学派) §4.1 基本术语关于随机变量的分布、数字特征等,每一种论断都称为统计假设,分为参数假设和非参数假设,例如),(~2σu N X ,假设1,1:==σu H 就称为参数假设;给定一组样本值,假设:H ~X 正态分布,对于分布进行论断,为非参数假设。
无论上面那种假设,都是给出一个对立的假设,比如),(~2σu N X ,那么假设1,1:0==σu H 的对立假设就是1,1:1≠≠σu H ,我们就把0H 称为基本假设,或者原假设,而1H 就称为对立(备选)假设。
为了分别那个假设是对的,需要判断假设真伪,就是对假设做出“否”还是“是”的程序就是检验,这个检验常用否定域形式给出,按照一定规则把样本值集合分成两个部分V V ⋃,当样本值落入子集V 认为0H 不真,那么V 是0H 的否定域,V 为0H 的接受域。
那么这样就产生了两种错误:第一类错误α :本来0H 是真,但是却否定了,弃真; 第二类错误β :本来0H 不真,但是却接受为真,叫取伪。
选定一种检验方法,我们希望上述两种错误概率都小。
但是给定样本容量,使得两种错误任意小是不可能的,我们主要研究两大类检验方法:1:样本容量给定,控制第一类错误,使得错误概率有一个上界α,叫做检验的显著性水平,根据这种原则建立的检验就是α水平显著性检验;2:样本容量给定,控制第一类错误α水平固定,还使得第二类错误最小,就是接受不真实假设的概率最小,否定不真实假设的概率就称为检验功效1-β,使得功效最大,,根据这种原则建立的检验就是α水平最大功效检验,或者最佳检验。
§4.2参数假设检验设X 符合分布),(θx F ,未知参数θΘ∈参数空间,空间分成两部分0Θ和Θ-0Θ,二者交集为空。
主要对于正态分布参数的统计假设的显著性检验方法。
1)针对不同问题,提出基本假设与备选假设0H :θ0Θ∈ 1H :θ0Θ-Θ∈如果参数空间仅仅是由0θθ=和1θθ=两个点组成的,那么我们称简单假设,否则是复合假设。
2)给定检验的显著性水平α,其大小依据不同问题不同,比如火箭、飞机等可靠性问题,α要越小越好,对于一般生产问题,太小了则意味着生产时间和成本的增加;3)建立对于基本假设的统计量和否定域;4)取样,计算统计量值,落入否定域则判读0H 为假,否则为真。
例子:某种药片制剂中国家规定成分A 的含量X 必须为10%,现在抽取5个片剂试样,测得A 的含量为10.9% 9.45% 10.38% 9.61% 9.92%假设)%,10(~20σ=u N X ,按照显著性水平α=0.05进行检验是否与规定10%相符?解:建立基本假设0H :0u u =,这里显著性水平α=0.05,样本容量为5,样本值如上。
如何确定统计量呢?样本均值X 可以求出,但是这里方差未知,用无偏估计量*2n S 来代替2σ,那么统计量=t )1(~/*20--n t nS u X n这是我们以前推导过的,因此可以建立否定域为αα=⎭⎬⎫⎩⎨⎧≥2||t t P即落入区域2||αt t ≥则认为假,此区域之外就是真。
t-检验法。
回到我们的问题,X =1005.0,*2nS =25120059.0)(151=--∑=i i X x ,那么6949.1/*20=-=nS u X t n为统计量的值,由显著性水平α=0.05,我们查得7764.2)4(205.0=t 。
由于6949.1=t <7764.2)4(205.0=t ,这个统计量值落在否定域之外,就是说基本假设是真的,因此判断显著性水平α=0.05下规定成分A 的含量与规定10%相符的。
两样本t 检验法:有时为了比较两种方法、仪器、产品等的差异性,我们在相同条件下做对比试验,然后得到成对的数据,分析这些数据作出推断。
再次回顾第二章中定理定理:设121,,,n x x x 子样来自母体),(211σu N ,221,,,n y y y 子样来自母体),(222σu N ,各自的子样均值∑==1111n i i x n X ),(~1211n u N σ,∑==2121n i i y n Y ),(~2222n u N σ,那么),(~22212121n n u u N Y X σσ+--,那么一个新的变量)1,0(~)()(22212121N n n u u Y X U σσ+---=,若21μμ=,)1,0(~)(222121N n n Y X U σσ+-=*22222*2121111S n S n V σσ-+-=符合)1(12-n χ+ )1(22-n χ,即)2(212-+n n χ,加和性质 且上述两个变量相互独立。
那么依据定义)2(~)2/(2121-+-+n n t n n V U例子:设两种橡胶轮胎进行耐磨性试验对比,从中各自随机取8个,各取一个随机配对装在8架飞机上,经过一段时间测量磨损量如下(单位毫克)这里显著性水平α=0.05。
方法一:假设两个母体),(21σu N , ),(22σu N 方差一样 原假设 0H :21u u =, 对立假设为1H :21u u ≠ 独立那么按照上述定理得到6145=X 1867312*1=S ;5825=Y 1204422*1=S 代入得到)14(~516.014/t V U= 查表145.2)2/(14=αt ,可见大于计算的统计量值,那么就不否定(接受)假设0H ,认为二者磨损量无显著差异。
方法二:我们采用配对实验Z=X-Y -30 320 360 320 -140 230 780 720 由于 d y x E z E i i i =-=-=21][][μμ,2][][][D i i i y D x D z D σ=+=那么,i z 是来自母体),(D d N σ的正态母体,此时假设0H :21u u =等价于 0=d 的假设,设∑==n i i z n Z 11=320,∑=--=n i i n Z z n S 12*2)(11=102200,那么我们也可以构造 72*~83.2/t nS Z n=查表,显著性水平α=0.05下,365.2)2/(14=αt ,我们发现365.283.2>,说明落在了否定域,即否定原假设0H ,两种轮胎的耐磨性是有差异的。
讨论:同一显著性水平α=0.05下,相同的数据,为何两种方法得到完全不同的推断结论呢?这是因为,配对分析时,自由度下降了n=8-1,从而临界值提高了,即365.2)2/(14=αt ,增加了否定原假设的可能性,每架飞机突出两种轮胎之间差异,消除了飞机之间的数据影响,只要两个轮子耐磨性有一定差异,就可能否定假设0H ;而不做配对,自由度增加为8+8-2=14,临界值降低,减小了否定原假设的可能性。
什么时候用方法一还是方法二,还是得靠具体情况定。
其他不同的问题,构造不同的统计量,利用不同的分布进行检验,书上有基本的统计量表格,无非就是查表计算问题。
§4.3 非参数假设的2χ检验所谓非参数假设,就是不确切知道母体分布的数学形式的情况下,对于母体分布的各种论断,比如服从什么什么分布,相互独立,等等。
其特点是:A 不依赖与母体分布的具体形式,什么形式都适用的检验;B 由于缺乏母体分布的完全知识,所以使用的统计量精确分布难以求出,只能求出极限分布,一般需要大样本容量。
Pearson 提出了2χ检验法,步骤为:1):将所有观测值X 进行分割不同子集 rk k A X 1==, j i A A j i ≠=,φ,子集的数目为r ;2):统计观测值在每个子集k A 中出现的频数k n (出现的次数),当然满足n nrk k=∑=1;3):在基本假设0H 真实的情况下,就是按照我们设定的分布概率密度函数,计算每个子集k A 中的理论期望频数,设落入概率为}|{0H A x P P k k ∈==dx H x f kA ⎰)|(0,r k ,,2,1 =,11=∑=rk k P 注意这是概率那么我们得到期望频数为 k n nP E k =,就是总共抽取n 个样本,那么每个子集k A 内理论上应该抽取了几个。
4)建立统计量∑∑==-=-=rk k k k rk n n k nP nP n E E n kk 12122)()(χ~)1(2-r χ符合)1(2-r χ分布,且表示了实际观察和理论结果之间相对差异的总和,当这个值大于某个临界值,则否定此假设。
否则接受假设。
Pearson 证明 为何上述统计量符合)1(2-r χ分布: 证明:1)当r=2两个子集,n n n =+21,121=+P P那么2112112122)1()()(ηχ=--=-=∑=P nP nP n nP nP n k k k k这里注意211211222)())1(()(nP n P n n n nP n -=---=-,代入即可那么由De Moirre-Laplace (隶莫弗)定理,二项分布)1(1111P nP nP n --=η的极限分布为标准正态分布,即)1,0(~N η,那么)12(~22-χη分布。
这是r=2时是符合的。
2)当2>r 的一般情况我们知道频数有n n rk k =∑=1,上面为二项分布,这里符合多项分布rn r n r r P P n n n n P P f 11211!*!*!*!),,(=同样由中心极限定理)1(j j j j P nP nP n --)1,0(~N ,那么jjj j nP nP n Y -=)1,0(~j P N -∑∑==-=-=rk k k k rk n n k nP nP n E E n kk 12122)()(χ就是r 个正态随机变量的平方和,但是由于这些变量之间有一个制约关系。
就像前面我们证明正态母体均值和方差的分布时一样证明方法,构造的正交矩阵⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=ija P P P A 321使得AY Z =,我们会发现=-∑=jjj rj jnP nP n P 1∑∑∑====-=-rj j r j j rj jj P n n n n nP n 1110)(1∑∑∑=====-==rk k r k k rk k k k Z Y nP nP n 21122)(χ,只是1-r 正态变量的平方和,所以自由度为1-r 。