数理统计实验
- 格式:pptx
- 大小:111.49 KB
- 文档页数:31
《概率论与数理统计》MATLAB上机实验实验报告一、实验目的1、熟悉matlab的操作。
了解用matlab解决概率相关问题的方法。
2、增强动手能力,通过完成实验内容增强自己动手能力。
二、实验内容1、列出常见分布的概率密度及分布函数的命令,并操作。
概率密度函数分布函数(累积分布函数) 正态分布normpdf(x,mu,sigma) cd f(‘Normal’,x, mu,sigma);均匀分布(连续)unifpdf(x,a,b) cdf(‘Uniform’,x,a,b);均匀分布(离散)unidpdf(x,n) cdf(‘Discrete Uniform’,x,n);指数分布exppdf(x,a) cdf(‘Exponential’,x,a);几何分布geopdf(x,p) cdf(‘Geometric’,x,p);二项分布binopdf(x,n,p) cdf(‘Binomial’,x,n,p);泊松分布poisspdf(x,n) cdf(‘Poisson’,x,n);2、掷硬币150次,其中正面出现的概率为0.5,这150次中正面出现的次数记为X(1) 试计算X=45的概率和X≤45 的概率;(2) 绘制分布函数图形和概率分布律图形。
答:(1)P(x=45)=pd =3.0945e-07P(x<=45)=cd =5.2943e-07(2)3、用Matlab软件生成服从二项分布的随机数,并验证泊松定理。
用matlab依次生成(n=300,p=0.5),(n=3000,p=0.05),(n=30000,p=0.005)的二项分布随机数,以及参数λ=150的泊松分布,并作出图线如下。
由此可以见得,随着n的增大,二项分布与泊松分布的概率密度函数几乎重合。
因此当n足够大时,可以认为泊松分布与二项分布一致。
4、 设22221),(y x e y x f +−=π是一个二维随机变量的联合概率密度函数,画出这一函数的联合概率密度图像。
用Excel 软件解决数理统计问题一 实验目的学习、掌握用Excel 中求置信区间,作假设检验,作方差分析和回归分析.二 实验的准备在微软Office 的Excel 中有许多函数用于数据处理, 其中有些涉及数理统计, 使用非常方便.Excel 在原安装中可能没有“数据分析”菜单,建立“数据分析”的步骤是:由“工具”菜单中选择“加载宏”,在弹出的加载宏对话框中选定“分析工具库”和“分析数据库-VBA 函数”,确定后“工具”菜单中增加了“数据分析”子菜单. 其中有“描述统计”,“协方差”,“相关系数”,“回归”,“方差分析”,“Z -检验”,“T -检验”,“F -检验”等工具.三 实验内容1. 一般统计a) 平均数Excel 计算平均数用AVERAGE 函数,其格式如下:=AVERAGE(数据1,数据2,…,数据30)例如输入=A VERAGE(1,2,3,4,5)则得到平均数3. 若要得到位于工作表中E3至E12这组数据的平均数,则输入=A VERAGE(E3:E12)b) 样本标准差样本标准差的定义是1)(2--=∑n x xs iExcel 计算样本标准差的函数是STDEV ,其格式如下=STDEV(数据1,数据2,…,数据30)例如输入=STDEV(3,5,6,4,6,7,5)则得到这组数据的样本标准差1.35. 输入=STDEV(E3:E12)则得到位于E3至E12的这组数据的样本标准差.c) 样本方差样本方差的定义是1)(22--=∑n x x s iExcel 计算样本方差使用VAR 函数,格式为=VAR(数据1,数据2,…,数据30)例如输入=V AR(3,5,6,4,6,7,5)则得到这组数据的样本方差1.81. 输入=V AR(E3:E12)则得到位于E3至E12的这组数据的样本方差.2. 区间估计a) 估计均值已知方差, 估计均值时, 使用函数CONFIDENCE, 它的格式是:CONFIDENCE (显著性水平α, 总体标准差, 样本容量) 计算结果是nz σα2/. 再用样本均值加减这个值, 即得总体均值的置信区间.如果已知方差, 则先用函数SQRT 计算平方根, 得标准差, 再代入.如果已知一组样本值, 则还要用函数AVERAGE 计算样本均值, 然后才能计算置信区间. 例1 已知样本容量25=n , 总体的标准差100=σ, 样本均值950=X .取05.0=α. 求均值的置信区间.解 在Excel 的一个单元 (例如A1) 内输入=CONFIDENCE(0.05, 100, 25) 用鼠标点击其它任意单元, 则公式所在单元显示39.19922. 这就是nz σα2/的值. 然后,在另一个单元格中输入=950-A1则显示910.8008. 这是置信区间的左端点. 同样方法可计算置信区间的右端点, 即得均值的置信区间.例2 对某种钢材的抗剪强度进行了10次测试,测得结果如下(单位: MPa)578, 572, 570, 568, 572, 570, 570, 596, 584, 572. 若已知抗剪强度服从正态分布),(2σμN ,且252=σ,求μ的95%的置信区间.解 打开Excel 的一个新工作表. 在单元格B2,C2,…,K2内分别输入数据:578,572,570,…,572. 在单元格B3内输入=A VERAGE(B2: K2) 得到输出2.575=X . 在单元格B4内输入=STDEV(B2: K2)得到输出702.8=S . 在单元格B5内输入=CONFIDENCE(0.05, 5, 10)得到输出nz σα2/=5.394. 在单元格B6内输入=B3-B5得到置信下限为572.101,在单元格B7内输入=B3+B5得到置信上限为578.299. 因此置信区间为(572.101, 578.299)未知方差, 估计均值时, 没有这样的可以直接计算的函数, 需要一步一步计算. 例3 设总体服从正态分布. 已知样本容量16=n , 样本均值75.503=X ,样本标准差2022.6=S . 取05.0=α. 求均值μ的区间估计.解 打开Excel 的一个新工作表. 先用函数TINV 求T 分布的分位点, 它的格式是=TINV(显著性水平α,自由度1-n )在单元格B2内输入=TINV(0.05, 15)则这个单元将显示2.131451. 这就是)15()1(025.02/t n t =-α的值. 在单元格B3内输入 =B2*6.2022/SQRT(16) 显示3.304921. 这是nSn t )1(2/-α的值.在单元格B4内输入=503.75-B3得到置信下限为500.4451, 在单元格B3内输入=503.75+B3得到置信上限为507.0549.因此置信区间为(500.4451, 507.0549)例4 在例2中,设方差未知,求μ的95%的置信区间.解 在例2中已经算得2.575=x , 702.8=S .而样本容量为10. 沿用例2中的工作表. 在单元格E4中输入=TINV(0.05, 9)得到)9()1(025.02/t n t =-α=2.26216, 在单元格E5中输入=E4*B4/SQRT(10)得到nS n t )1(2/-α=6.22539, 在单元格E6中输入=B3-E5得到置信下限为568.975,在单元格E7中输入=B3+E5得到置信上限为581.425.因此置信区间为(568.975, 581.425).注意: TINV(n ,α)给出的是T 分布的上2/α分位点.b) 估计方差估计方差时,要用到2χ分布或F 分布 求2χ分布的上α分位点的函数为CHIINV, 它的格式为=CHIINV(2/α或者2/1α-,自由度1-n )例5 设总体服从正态分布. 已知样本容量9=n . 样本标准差007.0=S . 取05.0=α. 求总体方差的区间估计.解 打开Excel 的一个新工作表,在单元格B2中输入=CHIINV(0.025,8) 显示17.53454()8(2025.0χ=). 在单元格C2中输入=CHIINV(0.975,8)显示 2.179725()8(2975.0χ=). 然后用公式⎪⎪⎭⎫ ⎝⎛-----)1()1(,)1()1(22/1222/2n S n n S n ααχχ计算置信区间. 在单元格B3中输入=8*0.007^2/B2显示0.00002236,在单元格C3中输入=8*0.007^2/C2显示0.0001798,因此总体方差的置信区间为(0.00002236,0.0001798).此外, 函数FINV 可以计算F 分布的上α分位点, 从而求方差比的置信区间.3. 假设检验a) 单个正态总体方差未知时均值的t 检验由于没有一个函数一次完成单个正态总体方差未知时均值的检验,需要分几步计算.所用的检验统计量为nS/X T 0μ-=可以用一般统计中介绍的方法计算检验统计量T 的观察值,再用区间估计中介绍的方法得到T 分布的上2/α分位点(双边检验时),比较统计量T 的观察值t 和T 分布的上2/α分位点(拒绝域为:2/||αt t >),便可得到检验结果.例 6 设某一引擎制造商新生产某一种引擎,将生产的引擎装入汽车内进行速度测试,得到行使速度如下:250 238 265 242 248 258 255 236 245 261 254 256 246 242 247 256 258 259 262 263该引擎制造商宣称引擎的平均速度每小时高于250km ,请问样本数据在显著性水平为0.025时是否和他的声明相抵触?解 (1) 打开Excel 的一个新工作表. 在单元格B3:F6输入样本数据,如下表(2)计算样本平均速度,在单元格D8中输入公式:=A VERAGE(B3:F6)得到平均速度252.05.(3)计算标准差,在单元格D9中输入公式:=STDEV(B3:F6)得到标准差8.64185.(4)在单元格D10中输入样本数20.(5)在单元格D12中输入T 检验值的计算公式:=(D8-250)/(D9/SQRT(D10))得到t 的值为1.06087.(6)在单元格D13中输入公式=TINV(0.05,19)得到025.0t 的值为2.093.现在的检验问题是:250:0=μH ; 250:1>μH .拒绝域为025.0t t >,由上面的计算得到093.206087.1025.0=<=t t ,因此检验的结果是不拒绝原假设. 即无充分证据显示支持引擎制造商声明.b) 两个正态总体方差相等时均值差的t 检验为检验两个正态总体方差相等(但未知)时均值之差的假设:0210:d H =-μμ021:d H a ≠-μμ所用的检验统计量为2102111)(n n S d x x t w +--=(自由度为21n n +-2的t 分布)Excel 在计算时,使用“工具”,“数据分析”,“t-检验:双样本等方差假设”,就得到输出结果.例7 某化工试验中要考虑温度对产品断裂韧度的影响,在C 070,C 080条件下分别作了8次重复试验,侧得断裂韧度的数据如下:(单位:Mpa/m 2)C 070时 20.5 18.8 19.8 20.9 21.5 19.5 21.0 21.2 C 080时 17.7 2.03 20.0 18.8 19.0 20.1 20.2 19.1断裂韧度可以认为服从正态分布. 若已知两种温度的方差相等,1. 问数学期望是否可以认为相等(05.0=α)?2. 求两种温度时的数学期望差的置信区间(05.0=α).解 1.(1) 打开Excel 的一个新工作表. 在单元格A1中输入标记“70oC ”,在单元格B1中输入标记“80o C ”. 从A2到A9输入70o C 时的数据,从B2到B9输入80oC 时的数据.(2) 选定“工具”、“数据分析…”.(3) 选定“t-检验:双样本等方差假设”. (4) 选择“确定”,显示一个对话框. (5) 在“变量1区域”输入A1:A9. (6) 在“变量2区域”输入B1:B9. (7) 选中“输出区域”,并在框内输入D2,表示输出结果将放置于D2右下方的单元格中.(8) 打开“标志”复选框. 如果在“变量1区域”输入A2:A9,在“变量2区域”输入B2:B9,则不打开“标志”复选框. (9) 在“)(A α”内填临界值α为0.05.(10) 在“假设平均差”内填0. (11) 选择“确定”,得到结果如下表所示:在单元格E11中,显示统计量t 的值为2.160247,而在单元格E15中显示了临界值为2.14479,由于2.160247>2.14479,表示拒绝原假设: 认为两种温度下的数学期望不相等.2.利用上图所示的结果,也可以得到两个正态总体方差未知(但相等)时均值差的区间估计.由于检验统计量2111n n S YX T w +-=,现在已知Y X T ,,的值,因此T Y X n n S w -=+2111. 在单元格H5中输入=(E5-F5)/E11显示0.46291(=2111n n S w+),再在单元格H6中输入 =H5*E15显示0.9928442(=)2(11212/21-+⋅+n n t n n S wα),再在单元格H8中输入 =E5-F5-H6显示0.0071558(置信下限),再在单元格H9中输入=E5-F5+H6显示1.9928442(置信上限),因此得到均值差的置信区间为(0.0071558,1.9928442).注解 在本例的Excel 输出表中,单元格E12给出了单边检验时的p 值:0.0242901,单元格E14给出了双边检验时的p 值:0.0485803. P-值的定义是:在原假设成立的条件下,检验统计量取其观察值及比观察值更极端的值(沿着对立假设方向)的概率. P-值也称作“观察”到的显著性水平. P-值越小,反对原假设的证据越强. 通常若P 低于5%,称此结果为统计显著;若P 低于1%,称此结果为高度显著.c) 两个正态总体方差是否相等的F 检验假设两总体服从正态分布,在均值未知时作两样本方差是否相等的检验:22210:σσ=H 22210:σσ≠H 检验统计量为222121)1,1(s s n n F =--(自由度为(1,121--n n )的F 分布)Excel 在计算时,使用“工具”,“数据分析”,“F-检验:双样本方差”,就得到输出结果.例8 由一台自动机床加工某型号零件,现在分别从同一月份上旬和下旬的产品中随意各取若干件,测定其直径,得如下数据(单位:mm)上旬产品:20.5 19.8 19.7 20.4 20.1 20.0 19.0 19.9 下旬产品:19.7 20.8 20.5 19.8 19.4 20.6 19.2假设刀具磨损是引起变化的唯一原因. 问检验结果是否表明加工精度显著降低了(=α0.05)?解 (1) 打开Excel 的一个新工作表. 在单元格A1输入“上旬产品”,在单元格B1输入“下旬产品”. 从单元格A2至A9输入上旬产品的数据,从单元格B2至B8输入下旬产品的数据.(2) 选取“工具”、“数据分析…”(3) 选取“F-检验:双样本方差”,选择“确定”. (4) “在变量1的区域”输入A1:A9. (5) “在变量2的区域”输入B1:B8. (6) 选中“输出区域”,并在框内输入D2,表示输出结果将放置于D2右下方的单元格中.(7) 打开“标志”复选框. 如果在“变量1区域”输入A2:A9,在“变量2区域”输入B2:B8,则不打开“标志”复选框. (8) 在“)(A α”内填临界值α为0.05. (9) 选择“确定”,得到结果如下表:计算出的F 值为0.455618(=2221/S S ),注意单元格E11中给出的“F 单尾临界”值为0.258668,它是)6,7(95.0F 的查表值. 因为0.455618>0.258668,所以不拒绝原假设22210:σσ≥H . 因此检验结果认为下旬产品的加工精度未显著降低.4. 单因素方差分析用Excel 作单因素方差分析的步骤见下例.例9解 (1) 打开Excel 的一个新工作表. 在单元格A1输入标记“同学甲”,在单元格B1输入标记“同学乙”,在单元格C1输入标记“同学丙”. 从单元格A2至A5输入同学甲的100m 成绩,从单元格B2至B5输入同学乙的100m 成绩,从单元格C2至C5输入同学丙的100m 成绩. (2) 选取“工具”、“数据分析…”. (3) 选定“单因素方差分析”. (4) 选择“确定”,显示“单因素方差分析”对话框. (5) 在“输入区域”框输入A1:C5. (6) 在“分组方式”框选定“逐列”. (7) 选中“标志位于第一行(L )”.(8) 显著性水平“α”采用0.05.(9) 在输出选项中选中“输出区域)(O ”,在“输出区域”框中输入A7. (10) 选择“确定”,输出结果如下表所示.单元格A16:G21中显示的是方差分析表. 17行还有一些符号没有汉化. 符号“df ”表示“自由度”,“SS ”表示“偏差平方和”,“MS ”表示“方差”,“F ”为统计量F 的值,“P-value"为统计量F 的P-值. “F crit ”为统计量F 的临界值.从方差分析表知:05.0=α的临界值256.4)9,2(05.0=F . 因计算所得的统计量F 的值<=5263.2F 256.4)9,2(05.0=F ,故接收原假设. 不认为三个同学的100m 成绩有显著不同.5. 无重复双因素方差分析双因素无重复试验是不能区分交互作用的. 双因素无重复试验方差分析的试验数据(1)打开Excel 后在选定的工作表中设定和输入数据阵. (2)选取“工具”、“数据分析…”.(3)选定“方差分析:无重复双因素分析”选项. (4)填写“输入区域”框. (5)打开“标记”复选框(O). (6)填写显著性水平α(A)的值. (7)填写“输出区域”框. (8)选择“确定”,得到输出结果.解 (1)在单元格B1, C1, D1, E1分别输入地区1,地区2,地区3,地区4. 在单元格A2, A3, A4, A5分别输入季度一, 季度二, 季度三, 季度四.(2)在单元格B2, C2, D2, E2分别输入季度一的数据118,200,150,140; 在单元格B3, C3, D3, E3分别输入季度二的数据120,205,148,135; 在单元格B4, C4, D4, E4分别输入季度三的数据115,200,148,138; 在单元格B5, C5, D5, E5分别输入季度四的数据118,202,148,136.(3) 选取“工具”、“数据分析…”.(4) 选定“方差分析:无重复双因素分析”. (5) 在“输入区域”框填写A1:E5. (6) 选中“标记”复选框(有对勾). (7) 选定显著性水平α的值:0.05.(8) 在输出选项中选中输出区域(O):A8. (9) 选择“确定”,得到输出结果:由输出结果行间产生的离差平方和为8.6875(单元格B24), 自由度为3(单元格C24),所以均方和MSR=8.6875/3=2.895833(单元格D24), F 检验的统计量的值为0.675851, 这个检验统计量的P 值为0.588334(单元格E24), 它太大了. 而临界值为3.862539(单元格G24), 因此不否定原假设: 季度这个因素(行间)对结果无显著差异.又由列间产生离差平方和为15504.19(单元格B25), 自由度为3(单元格C25), 均方和MSC=15504.19/3= 5168.063(单元格D25), F 检验的统计量的值为1206.16(单元格E25), 检验统计量的P 值为4.881210-⨯(单元格F25), 而临界值为3.862539(单元格G25), 因此强烈地否定原假设: 地区这个因素(列间)对结果有显著差异.6. 一元线性回归在理解了一元线性回归的概念以后,可以用Excel 直接进行回归分析. 因此避免了复杂的计算过程. 例1较详细地说明了作线性回归的方法和步骤.(1)画出散点图. (2)求线性回归方程x b a y+=. (3)求的方差σ的无偏估计. (4)检验假设0:0=b H ,0:1≠b H . (5)若回归效果显著,求b 的置信水平为0.95的置信区间. 解 (1) 打开Excel 的一个新工作表. 在单元格A1输入标记“碳含量x ”,在单元格B1输入标记“电阻y ”. 从单元格A2至A8输入碳含量的值:0.10,0.30,...,0.95. 从单元格B2至B8输入电阻的值:15,18, (26)(2) 选取“工具”、“数据分析…”. (3) 选定“回归”. (4) 选择“确定”,显示“回归”对话框. (5) 在“Y 值输入区域”输入B1:B8. (6) 在“X 值输入区域”输入A1:A8. (7) 选中“标志L ”,不选中“常数为零”. (8) 选中“置信度F ”,在框内确定置信度为95%. (9) 选中“输出区域O ”,在框内填入A10. (10) 选中“线性拟合图”. (11) 选择“确定”,得到如下的输出表:在上面的输出表中,省略了“残差输出”和“概率输出”的内容.首先单元格A10:B17中的输出为回归分析的摘要表. 单元格A19:F23中的输出为线性回归的方差分析表. 符号“df ”表示“自由度”,“SS ”表示“偏差平方和”,“MS ”表示“方差”,“F ”为统计量F 的值,“Significance F"为统计量F 的P-值.其次,单元格A25:I27中显示的是回归系数的估计与检验. “Coefficient s ”表示“系数”,“Intercept ”表示“截距”,“t Stat ”表示统计量t 的观察值.现在来回答本题中提出的5个问题. (1)在线性回归的方差分析表的右边,可以找到一幅名为“含碳量x Line Fit Plot ”的图形,它就是散点图(图20.1).(2)从“Coefficient s ”的下面两格读出回归直线的截距为13.95839,斜率为12.55034.因此线性回归方程为x y 55034.1295839.13ˆ+=.(3)从方差分析表中的单元格D22读出ε的方差2σ的无偏估计为2ˆσ=0.043195. (4)因为单元格E27中显示出统计量t 的P-值很小(71014.1-⨯),所以回归效果显著.(5)由单元格H27读出b 的置信下限为11.81796,单元格I27读出b 的置信上限为 13.28271,所以b 的置信水平为0.95的置信区间为(11.82,13.28).。
概率论与数理统计实验报告题目1:n个人中至少有两人生日相同的概率是多少?通过计算机模拟此结果。
问题分析:n个人生日的组合为a=n365,n个人中没有生日相同的组合为b=365*364*......*(365-n+1),则n个人中至少有两个人生日相同的概率为1-b/a。
编程:n=input('请输入总人数n=');a=365^n;m=n-1;b=1;for i=0:1:mb=b*(365-i);endf=1-b/a输出结果:(令n=50)结果分析:当人数为50人时,输出结果为0.9704,此即说明50人中至少有两人生日相同的概率为0.9704。
题目2:设x~N(μ,σ2),(1)当μ=1.5,σ=0.5时,求p{1.8<X<2.9};(2)当μ=1.5,σ=0.5时,若p{X<x}=0.95,求x;(3)分别绘制μ=1,2,3,σ=0.5时的概率密度函数图形。
问题分析:(1)、(2)题直接调用相应函数即可,(3)题需要调用绘图的相关函数。
编程:x1=[1.8,2.9];x2=-2.5;x3=[0.1,3.3];p1=cdf('Normal',x1,1.5,0.5);p2=cdf('Normal',x2,1.5,0.5);p3=cdf('Normal',x3,1.5,0.5);f1=p1(2)-p1(1)f2=1-p2f3=1-p3(2)+p3(1) %2(1)x=icdf('Normal',0.95,0,1) %2(2)x=[-4:0.05:10];y1=pdf('Normal',x,1,0.5);y2=pdf('Normal',x,2,0.5);y3=pdf('Normal',x,3,0.5);y4=pdf('Normal',x,4,0.5);plot(x,y1,'K-',x,y2,'K--',x,y3,'*',x,y4,'+')输出结果:f1 = 0.2717f2 = 1.0000f3 = 0.0027x = 1.6449(右图为概率密度函数图像)题目3:已知每百份报纸全部卖出可获利14元,卖不出去将赔8元,设报纸的需求量的分布律为试确定报纸的最佳购进量。