数理统计
第一次课程论文
广州恒大队在2015赛季亚冠的进球数的
多元线性回归模型
学号: SY1527205
姓名:郭谢有
摘要
本赛季亚洲冠军联赛,来自中国的球队广州恒大淘宝队最终在决赛中力克阿联酋的迪拜阿赫利队,三年之内第二次夺得亚冠冠军。为了研究恒大的夺冠过程,本文选取了恒大该赛季亚冠总共15场比赛中的进球数为因变量,对可能影响进球数的射门数、射正数等7个自变量进行统计,并进一步利用统计软件SPSS对以上数据进行了多元逐步线性回归。最终确定了进球数与各因素之间关系的“最优”回归方程。
关键词:多元线性回归,逐步回归法,广州恒大,SPSS
目录
摘要 (1)
1.引言 (3)
2.符号说明 (3)
3.数据的采集和整理 (3)
3.1数据的采集 (3)
3.2建模 (4)
4.数据分析及计算 (4)
4.结论 (9)
参考文献 (10)
致谢 (10)
1.引言
一场足球比赛的进球数说明了一支球队攻击力的强弱,也是决定比赛胜负的至关因素,综合反映出这支球队的实际水平。
而作为竞技体育,足球场上影响进球数的因素很多,为了研究本赛季恒大在亚冠夺冠过程中的14场比赛中进球数与其他一些因素的关系,本论文从搜达足球和新浪体育数据库中查找了进球数和其他7个主要影响因素的数据,包括射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数。并进一步采用多元逐步回归分析方法对以上因素进行了显著性分析,从而确定了关于恒大在本赛季亚冠中进球数的最优多元线型回归方程。
2.符号说明
3.数据的采集和整理
3.1数据的采集
本文统计数据时,查阅了搜达足球数据库,确定恒大在亚冠14场比赛中的进球数为因变量,并初步选取这14场比赛中的射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数7因素为自变量,具体数据见下表1。
3.2建模
本文选取了恒大在亚冠比赛中的进球数作为因变量y,并选取可能对进球数造成影响的因素为自变量,其中对应关系在符号说明中已经列举。这里构建模型如下:
7
⋅X i+ε
y=β0+∑βi
i=1
其中,其中ε为随机误差项,β0为常数项,βi为待估计的参数。
4.数据分析及计算
本文利用逐步回归法对该问题进行分析。该方法是从一个自变量开始,视自变量对y的显著程度,从大到小地依次逐个引入回归方程,但当引入的自变量由于后面的引入而变得不显著时,要将其剔除掉。引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步,对于每一步都要进行F值检验,以确保每次引入新的显著性自变量前回归方程中只包含对作用显著的变量。这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程
时为止。
本文运用统计软件SPSS的有关功能模块根据上述原理精选出一些配合较好和方差贡献大的自变量组建回归方程。为了从挑选因子中筛选出尽可能多的因
子建立模型,本系统可以自己给出F临界值,计算机默认的F
引=0.05,F
剔
=0.1,
如果入选的自变量因子数目不多,可通过人为提高F临界值的水平而筛选出更多的因子。如此时入选的因子太多,可人为提高F临界值的水平而筛选出有代表性因子来组建模型。如最后建立的模型的复相关系数不大,回归模型的拟合精度不太高,可根据这些入选因子来组建多元非线性模型。
该分析在默认的F
引=0.05,F
剔
=0.1时入选的自变量只有两个,因此提高F
值,因此设定F
引=0.45,F
剔
=0.55,进行多元线性回归分析,可得如下分析结果:
表2. 自变量引入和剔除表
上表2显示了自变量的引入和剔除,以及引入或剔除的方法与标准。系统
在进行逐步回归过程中产生了4个模型,模型1是按照F检验的标准概率值,先将与y最密切的射正数(X
2
)引入模型,建立y与X2之间的一元线性回归模
型,然后再将传中数(X
4
)引入模型,建立y与X2,X4之间的二元线性模型,之后分别依次把传球数(X3),抢断数(X6)引入模型,分别建立了他们与y之间的三元、四元线性模型,最后建立的是y与X2,X3,X4,X6之间的四元线性关系。
表3. 模型摘要
表4. 变量数分析
表5.变量系数表
表6. 排除的变量表
图7.直方图和回归标准化残差的标准P-P图
4.结论
通过前面的SPSS逐步多元线性回归分析可以得到最优的回归方程为:
y=4.666+0.271X2−0.005X3−0.069X4−0.079X6
由以上回归方程可知,恒大在上赛季亚冠比赛中的进球数与射正数、传中数、传球数和抢断数呈线性相关性显著。
众多周知,一场足球比赛中的进球数与射正球门的次数有直接关系,并且传中数也能对球门造成很大的威胁,而传球数则代表一支球队在场上是否能控制住局面,抢断则有更多的反击机会,所以以上分析结果与现实情况相符合。当然一场比赛的进球数综合了各方面的因素,甚至还受到一些偶然因素的影响,所以分析结果也存在着一些不足。
此外由于所查阅的数据不够多,只统计了恒大上赛季在亚冠的所有比赛(14场),场次不够多,并且有些变量难以统计和查找,再加之竞技体育的一些不确定性,所以上诉回归模型还有一定的漏洞和不足。但是也从一定程度上反映了进球数这一因变量与自变量的线性关系,并能对因变量(进球数)做出近似的估计,综合来看,上述回归模型基本达到了预期的目的和效果。
--
参考文献
[1]孙海燕,周梦,李卫国,冯伟. 应用数理统计[M]. 北京:北京航空航天大学
数学系, 2015.
[2]搜达足球官方网站亚冠数据库.http://www.sodasoccer.co
m/search/club/3/5829/926EF74E0B9C0989.shtml
[3]新浪网亚冠数据库.
http://match.sports.sina.com.cn/football/schedule_g.php?utype=rnd&l_type=605&dpc=1
致谢
感谢孙海燕老师上课时的严谨和认真,他严谨的教学态度、渊博的数学学识、开创性的思维、使我受益匪浅,这一学期上数理统计课学到的东西将对我今后的学习、科研产生深远的影响。
在此,再次向孙老师表示诚挚的感谢,此外也感谢数理统计各位助教老师平日作业的细心批改!另外,还感谢在撰写本次论文帮助过我的同学和舍友。
--
北京航空航天大学 数值分析大作业一 学院名称自动化 专业方向控制工程 学号 ZY1403140 学生许阳 教师玉泉 日期 2014 年 11月26 日
设有501501?的实对称矩阵A , ??? ???? ?????????=5011A a b c b c c b c b a 其中,064.0,16.0),501,,2,1(64.0)2.0sin()024.064.1(1 .0-==???=--=c b i e i i a i i 。矩阵A 的特征值为)501,,2,1(???=i i λ,并且有 ||min ||,501 150121i i s λλλλλ≤≤=≤???≤≤ 1.求1λ,501λ和s λ的值。 2.求A 的与数40 1 5011λλλμ-+=k k 最接近的特征值)39,,2,1(???=k k i λ。 3.求A 的(谱数)条件数2)A (cond 和行列式detA 。 一 方案设计 1 求1λ,501λ和s λ的值。 s λ为按模最小特征值,||min ||501 1i i s λλ≤≤=。可使用反幂法求得。 1λ,501λ分别为最大特征值及最小特征值。可使用幂法求出按模最大特征值,如结果为正,即为501λ,结果为负,则为1λ。使用位移的方式求得另一特征值即可。 2 求A 的与数40 1 5011λλλμ-+=k k 最接近的特征值)39,...,2,1(=k k i λ。 题目可看成求以k μ为偏移量后,按模最小的特征值。即以k μ为偏移量做位移,使用反幂法求出按模最小特征值后,加上k μ,即为所求。 3 求A 的(谱数)条件数2)(A cond 和行列式detA 。 矩阵A 为非奇异对称矩阵,可知, || )(min max 2λλ=A cond (1-1)
2006级硕士研究生《应用数理统计》试题 一、选择题(每小题3分,共12分) 1.统计量T~t(n)分布,则统计量T2的α(0<α<1)分位点xα(P{T2≤xα}=α)是() A. 2 1 2 () t n α - ?? ?? ?? B. 12 () t n α + C.12 () t n α - D 2 1 2 () t n α + ?? ?? ?? 2.设随机变量X~N(0,1),Y~N(0,1),则() A. t-分布 B.X2+Y2服从2χ-分布 C. X2和Y2都服从2χ-分布 D. X2/Y2服从F-分布 3.某四因素二水平实验,选择正交表L8(27),已填好A,B,C三个因子,分别在第一,第四,第七列,若要避免“混杂”,应安排因子D在第()列.A.5 B.2 C.3 D.6 (1) 3 (2) 2 1 (3) 5 6 7 (4) 4 7 6 1 (5) 7 4 5 2 3 (6) 6 5 4 3 2 1 (7) 4.假设总体X服从两点分布,分布率为P{X=x}=p x(1-p)1-x,其中x=0
或1,p 为未知参数,X1,X2,…,Xn 是来自总体的简单样本,则下面统计量中不是充分统计量的是( ) A. 1i n i X =∑ B. 11i n i X n =∑ C. 111i n i X n =-∑ D. 11i n i X p n =-∑ 二.填空题(每小题3分,共12分) 1. 设X1,X2,…,Xn 是来自总体N(0,2 σ)的简单样本,则常数 c=_________ m i c X ∑服从t-分布(1m n ≤<),其自由度为 ____________ 2. 设X1,X2,…,Xn 是来自总体N(μ,2σ)的简单样本,其中2 σ已知。 则在满足P{X a X b μ-≤≤+}=1-a 的均值μ的置信度为1-α的置信区间类{[,X a X b -+]:a ,b 常数}中区间长度最短的置信区间为( ) 3. 设X1,X2,…,Xn 是来自总体N(μ,2σ)的简单样本, μ已知,则2 σ 的无偏估计2 2 1 1 1()1n k k S X X n ==--∑,22211()n k k S X n μ==-∑中较优的是 ( ) 4.在双因素实验的方差分析中,总方差T S 的分解中包含误差平方和 2 .111()p q r E ijk i j i j k S x x ====-∑∑∑,则E S 的自由度为( ) 三,(12分)设X1,X2,…,Xn 来自指数分布 10()00x e x f x x θθ -?>?=??≤? 的简
“数值分析“计算实习大作业第三题 ——SY1415215 孔维鹏 一、计算说明 1、将x i=0.08i,y j=0.5+0.05j分别代入方程组(A.3)得到关于t,u,v,w的的方程组,调用离散牛顿迭代子函数求出与x i,y j对应的t i,u j。 2、调用分片二次代数插值子函数在点(t i,u j)处插值得到z(x i,y j)=f(x i,y j),得到数表(x i,y j,f(x i,y j))。 3、对于k=1,2,3,4?,分别调用最小二乘拟合子函数计算系数矩阵c rs及误差σ,直到满足精度,即求得最小的k值及系数矩阵c rs。 4、将x i?=0.1i,y j?=0.5+0.2j分别代入方程组(A.3)得到关于t?,u?,v?,w?的的方程组,调用离散牛顿迭代子函数求出与x i?,y j?对应的t i?,u j?,调用分片二次代数插值子函数在点(t i?,u j?)处插值得到z?(x i?,y j?)=f(x i?,y j?);调用步骤3中求得的系数矩阵c rs求得p(x i?,y j?),打印数表(x i?,y j?,f(x i?,y j?),p(x i?,y j?))。 二、源程序(FORTRAN) PROGRAM SY1415215 DIMENSION X(11),Y(21),T(6),U(6),Z(6,6),UX(11,21),TY(11,21),FXY(11,21),C(6,6) DIMENSION X1(8),Y1(5),FXY1(8,5),PXY1(8,5),UX1(8,5),TY1(8,5) REAL(8) X,Y,T,U,Z,FXY,UX,TY,C,E,X1,Y1,FXY1,PXY1,UX1,TY1 OPEN (1,FILE='第三题计算结果.TXT') DO I=1,11 X(I)=0.08*(I-1) ENDDO DO I=1,21 Y(I)=0.5+0.05*(I-1) ENDDO
北京市农业经济总产值的逐步回归分析 姓名:学号: 摘要:农业生产和农村经济是国民经济的基础,影响农村经济总产值的因素有多种,主要包括农林牧渔业。本文以北京市农业生产和农村经济总产值为对象,首先分析了各种因素的线性相关性,建立回归模型,再利用逐步回归法进行回归分析,得到最符合实际情况的回归模型。以SPSS 17.0为分析工具,给出了实验结果,并用预测值验证了结论的正确性。 关键词:农业生产和农村经济,线性回归模型,逐步回归分析,SPSS 1.引言 农林牧渔业统计范围包括辖区内全部农林牧渔业生产单位、非农行业单位附属的农林牧渔业生产活动单位以及农户的农业生产活动。军委系统的农林牧渔业生产(除军马外)也应包括在内,但不包括农业科学试验机构进行的农业生产。 在近几年中国经济快速增长的带动下,各地区农林牧渔业也得到了突飞猛进的发展。以北京地区为例,2005年的农业总产值为1993年的6倍。因此用统计方法研究分析农业总产值对指导国民经济生产,合理有效的进行产业布局,提高生产力等有着重要意义。 表1 北京市农业经济产值及各产品产量统计数据 年份农林牧渔业总产值粮食棉花油料蔬菜干鲜果品猪牛羊肉禽蛋产量水产品(亿元)(万吨)(万吨)(万吨)(万吨)(万吨)(万吨)(万吨)(万吨) 1999180.6580.2 2.8321.360.225.915.87.6 2000188.670.20.2 3.8340.16626.9167.5 2001202.282.30.3 4.3341.271.927.115.67.4 2002213.594.90.3 2.6373.178.730.215.27.4 2003224.7102.10.3 3.3419.884.130.916.27.1 2004234.9104.90.8 2.9444.190.931.715.9 6.7 2005239.3109.20.2 2.5466.393.93316 6.4 2006247.2125.50.2 2.2486.788.73415.2 5.4 2007261.3144.20.2 2.251191.137.215.66 2008273.91610.1 2.2527.489.839.115.2 6.1 本文以北京市农生产为对象,分析了农业经济总产值与粮食产量、棉花产量、油料产量、蔬菜产量、干鲜果品产量、猪牛羊肉产量、禽蛋产量、水产品产量的关系,并建立农业经济总产值的回归模型。表1中列出了1999年至2008年间的统计数据(数据来源于北京统计信息网https://www.doczj.com/doc/1319313760.html,)。 2.线性回归模型的建立 2.1 线性回归模型的假设 为了研究农业经济总产值与各种农生产量的关系,必须要建立二者之间的数学模型。数学模型可以有多种形式,比如线性模型,二次模型,指数模型,对数模型等等。而实际生活中,影响农业经济总产值的因素很多,并且这些因素的影响不能简单的用某一种模型来描述,所以要建立农业经济总产值的数学模型往往是很难的。但是为了便于研究,我们可以先
北航数值分析全部三次大作业 第一次大作业是关于解线性方程组的数值方法。我们被要求实现各种 常用的线性方程组求解算法,例如高斯消元法、LU分解法和迭代法等。 我首先学习了这些算法的原理和实现方法,并借助Python编程语言编写 了这些算法的代码。在实验中,我们使用了不同规模和条件的线性方程组 进行测试,并比较了不同算法的性能和精度。通过这个作业,我深入了解 了线性方程组求解的原理和方法,提高了我的编程和数值计算能力。 第二次大作业是关于数值积分的方法。数值积分是数值分析中的重要 内容,它可以用于计算曲线的长度、函数的面积以及求解微分方程等问题。在这个作业中,我们需要实现不同的数值积分算法,例如矩形法、梯形法 和辛普森法等。我学习了这些算法的原理和实现方法,并使用Python编 写了它们的代码。在实验中,我们计算了不同函数的积分值,并对比了不 同算法的精度和效率。通过这个作业,我深入了解了数值积分的原理和方法,提高了我的编程和数学建模能力。 第三次大作业是关于常微分方程的数值解法。常微分方程是数值分析 中的核心内容之一,它可以用于描述众多物理、化学和生物现象。在这个 作业中,我们需要实现不同的常微分方程求解算法,例如欧拉法、龙格- 库塔法和Adams法等。我学习了这些算法的原理和实现方法,并使用Python编写了它们的代码。在实验中,我们解决了一些具体的常微分方 程问题,并比较了不同算法的精度和效率。通过这个作业,我深入了解了 常微分方程的原理和方法,提高了我的编程和问题求解能力。 总的来说,北航数值分析课程的三次大作业非常有挑战性,但也非常 有意义。通过这些作业,我在数值计算和编程方面得到了很大的提升,也
应用数理统计第一次大作业 学号: 姓名: 班级:B11班 2015年12月
民航客运量的多元线性回归分析 摘要:本文为建立以民航客运量为因变量的多元线性回归模型,选取了1996年至2013年的统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数,城镇居民可支配收入等因素,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,并采用2014年的数据进行检验,得到的结果达到预期,证明该模型建立是较为成功的。 关键词:多元线性回归,逐步回归法,民航客运量
0.符号说明 变量符号 国民生产总值X1 铁路客运量X2 民航航线里程X3 入境过夜旅游人数X4 城镇居民人均可支配收入X5 1.引言 随着社会的进步,人民生活水平的提高,如何获得更快捷方便的交通成为人们日益关注的问题。因为航空的安全性,快速且价格水平越来越倾向大众,越来越多的人们选择航空这种交通方式。近年来,我国的航空客运量已经进入世界前列,为掌握航空客运的动态,合理安排班机数量。科学地对我国民航客运量的影响因素的分析,并得出其回归方程,进而能够估计航空客运量是非常有必要的。本文收集整理了与我国航空客运量相关的历年数据,运用SPSS软件对数据进行分析,研究1996年起至2013年我国民航客运量y(万人)与国民生产总值X1(亿元)、铁路客运量X2(万人)、民航航线里程X3(万公里)、入境过夜旅游人数X4(万人)、城镇居民人均可支配收入X5(元)的关系。采用逐步回归法建立线性模型,选出较优的线性回归模型。
大作业要求 前言 ............................................................ 页码 一、采集样本、数据整理及SPSS 统计软件的实现 ..................... 页码 0、掌握采集样本及数据整理的方法; 1、学会SPSS 统计软件安装与启动; 2、利用SPSS 建立数据文件、并利用数据库导入数据; 3、利用SPSS 对数据进行合并与拆分; 4、利用SPSS 对数据进行描述性统计分析:给出频数、频率分布表及偏度和峰度,并画出直方图和折线图; 5、写出经验分布函数并利用SPSS 画出图形; 6、查找藏于文著里的已知的各种概率分布(力求全),并描述其背景,给出 其期望和方差,利用SPSS 或其他软件画出密度函数的图形; 注:SPSS 软件版本为SPSS19.0 (中文版或英文版均可),从百度可以下载. 二、给出总体分布的参数估计(用SPSS 软件完成) .............................................. 页码 1、矩估计; 2、最大似然估计; 3、若总体是未知分布,应探求其参数的点估计,并写出方案; 4、参数区间估计(假设总体是正态分布); .......................... 页码 1)、方差2σ未知,求数学期望μ的置信区间; ........................ 页码 2)、数学期望μ,2σ均未知,求方差2σ的置信区间; ......................................... 页码 (要求有步骤,有计算结果) 三、 参数的假设检验(用SPSS 完成) .............................. 页码 1、 样本统计数据的t 检验........................................ 页码 2、 样本统计数据的-2χ检验...................................................................................... 页码 注:可先假设总体是正态情况讨论,总体若不是正态的要给出探求方案 四、非参数假设检验(2χ拟合优度检验)(用SPSS 完成) .............. 页码 1、2χ拟合优度检验 2、当上述检验被接受或被拒绝时,请结合实际问题给出说明 五、结论 ........................................................ 页码
数值分析 —计算实习作业一 学院:17系 专业:精密仪器及机械 姓名:张大军 学号:DY1417114 2014-11-11
数值分析计算实现第一题报告一、算法方案 算法方案如图1所示。(此算法设计实现完全由本人独立完成) 图1算法方案流程图
二、全部源程序 全部源程序如下所示 #include 一、问题分析与算法描述 1. 问题的提出: 〔1〕用幂法、反幂法求矩阵的按摸最大和最小特征值,并求出相应的特征向量。其中 要求:迭代精度达到。 〔2〕用带双步位移的QR法求上述的全部特征值,并求出每一个实特征值相应的特征向量。 2. 算法的描述: (1) 幂法 幂法主要用于计算矩阵的按摸为最大的特征值和相应的特征向量。其迭代格式为: 终止迭代的控制选用。 幂法的使用条件为实矩阵A具有n个线性无关的特征向量,其相应的特征值满足不等式 或 幂法收敛速度与比值或有关,比值越小,收敛速度越快。 (2) 反幂法 反幂法用于计算实矩阵A按摸最小的特征值,其迭代格式为: 每迭代一次都要求解一次线性方程组。当k足够大时,,可近似的作 为矩阵A的属于的特征向量。比值越小,收敛的越快。反幂法要求矩阵A非奇异。 (3) 带双步位移的QR分解法 QR方法适用于计算一般实矩阵的全部特征值,尤其适用于计算中小型实矩阵的全部特征值。 本算例中采用带双步位移的QR方法,可加速收敛,其迭代格式为: 二、计算结果与分析 1. 计算结果: (1) 幂法: 初始条件:最大迭代次数L=1000;向量 计算结果: 第1次迭代结果: 最大特征值:0.00000e+000 第2次迭代结果: 最大特征值:2.48910e+000 相对误差:1.00000e+000 第3次迭代结果: 最大特征值:1.67719e+000 相对误差: 第4次迭代结果: 最大特征值:-2.10960e+000 相对误差:1.79503e+000 第5次迭代结果: 最大特征值:-6.13203e-001 相对误差:2.44030e+000 … … 第794次迭代结果: 最大特征值:-1.97638e+000 相对误差: 一、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体2(,)N μσ的样本,令 )x x T -= , 试证明T 服从t -分布t (2) 二、(6分,B 班不做)统计量F-F(n,m)分布,证明 111(,)F F n m αααα-的(0<<1)的分位点x 是。 三、(8分)设总体X 的密度函数为 (1),01(;) 0 , x x p x ααα⎧+<<=⎨⎩ 其他 其中1α>-,是位置参数。x 1,x 2,…,x n 是来自总体X 的简单样本,试求参数α的矩估计和极大似然估计。 四、(12分)设总体X 的密度函数为 1x exp x (;) 0 , p x μμσσσ⎧⎧-⎫-≥⎨⎬⎪ =⎭⎨⎩⎪⎩ ,其它, 其中,0,μμσσ-∞<<+∞>已知,是未知参数。x 1,x 2,…,x n 是来自总体X 的简单样本。 (1)试求参数σ的一致最小方差无偏估计σ∧ ; (2)σ∧ 是否为σ的有效估计?证明你的结论。 五、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体211(,)N μσ的简单样本,y 1,y 2,…,y n 是来自正态总体222(,)N μσ的简单样本,且 两样本相互独立,其中221122,,,μσμσ是未知参数,2212σσ≠。为检验假设012112:, :,H H μμμμ=≠可令12, 1,2,..., , ,i i i z x y i n μμμ=-==-则上述假设检验问题等价于0111:0, :0,H H μμ=≠这样双样本检验问题就变为单检验问题。基于变换后样本z 1,z 2,…,z n ,在显著性水平α下,试构造检验上述问题的t-检验统计量及相应的拒绝域。 六、(6分,B 班不做)设x 1,x 2,…,x n 是来自正态总体20(,)N μσ的简单样本,0μ已知,2σ未知,试求假设检验问题 22220010:, :H H σσσσ≥<的水平为α的UMPT 。 1.统计量T~t (n )分布,则统计量T2的α(0<α<1)分位点x α (P{T2≤x α}=α)是( ) A. 2 12()t n α-⎡⎤ ⎢⎥ ⎣⎦ B. 12()t n α+ C.12()t n α- D 2 12()t n α+⎡⎤ ⎢⎥⎣⎦ 2.设随机变量X ~N(0,1),Y ~N(0,1),则( ) A. t-分布 B.X2+Y2服从2 χ-分布 C. X2和Y2都服从2 χ-分布 D. X2/Y2服从F-分布 4.假设总体X 服从两点分布,分布率为P{X=x}=p x(1-p)1-x ,其中x=0或1,p 为未知参数,X1,X2,…,Xn 是来自总体的简单样本,则下面统计量中不是充分统计量的是( ) A. 1i n i X =∑ B. 11i n i X n =∑ C. 111i n i X n =-∑ D. 11i n i X p n =-∑ 1. 设X1,X2,…,Xn 是来自总体N(0,2 σ)的简单样本,则常数 一、请安排投资计划,使总的利润最大。 写出你所设的状态变量、决策变量、状态转移方程与递推关系式,和手工求解的详细步 骤及结果。 解:设k 表示前k 个项目;状态变量为k x ,表示能投资到前k 个项目中的金额为k x ;决策变量为}0|{ , k k k k k k x u u D D u ≤≤=∈,表示将k u 的金额投入到第k 个项目中;状态转移方程为k k k u x x +=+1,表示能投资到前k+1个项目的金额等于能投资到前k 个项目的金额,加上投资到第k+1个项目的金额;指标函数为)(P k k x ,表示将k x 投入到前k 个项目中所能获得的最大利润;设)(A k k x 为向第k 个项目投资k x 金额所能获得的利润。则递推关系式为: ⎪⎩⎪ ⎨⎧+-====-∈)}(A )({P max )(P 00 , 0)(P 1k k k k k D u k k k k k u u x x x k x k k 或 ① 当k=0或0=k x 时,总利润一定为0 ③ 当k=2时,8万元只投资第一、第二个项目,有 若将0万投资第一个项目,8万投资第二个项目,利润为0+75=75 若将1万投资第一个项目,7万投资第二个项目,利润为5+74=79 若将2万投资第一个项目,6万投资第二个项目,利润为15+73=88 若将3万投资第一个项目,5万投资第二个项目,利润为40+70=110 若将4万投资第一个项目,4万投资第二个项目,利润为80+60=140 若将5万投资第一个项目,3万投资第二个项目,利润为90+40=130 若将6万投资第一个项目,2万投资第二个项目,利润为95+15=110 若将7万投资第一个项目,1万投资第二个项目,利润为98+5=103 若将8万投资第一个项目,0万投资第二个项目,利润为100+0=100 此时将4万元投资第一个项目,将剩余4 万元投资第二个项目可获得最大利润140万元 同时计算出将2x 万元投资到前两个项目的获利情况如下表: ④ 当k=3时,8万元同时投资第一、第二、第三个项目,有 若将0万投资前两个项目,8万投资第三个项目,利润为0+53=53 数值分析大作业 一、算法设计方案 1、矩阵初始化 矩阵[]501501⨯=ij a A 的下半带宽r=2,上半带宽s=2,设置矩阵[][]5011++s r C ,在矩 阵C 中检索矩阵A 中的带内元素ij a 的方法是:j s j i ij c a ,1++-=。这样所需要的存储单元数大大减少,从而极大提高了运算效率。 2、利用幂法求出5011λλ, 幂法迭代格式: 当1210/-≤-k k βββ时,迭代终止。 首先对于矩阵A 利用幂法迭代求出一个λ,然后求出矩阵B,其中I A B λ-= 使用反幂法,直接可以求得矩阵按模最小的特征值s λ。 求与数)39,...,2,1(401 5011=-+=k k k λλλμ最接近的特征值ik λ,对矩阵I A k μ-实 行反幂法,即可求出对应的k k ik k k μλλβλ+==,/1。 4、求出A 的条件数和行列式 根据max 2()s cond A λλ=,其中分子分母分别对应按模最大和最小的特征值。 det()A 的计算:由于A LU =,其中L 为下三角矩阵,且对角线元素为1,故 北航数理统计大作业(逐步回归)(总 14页) --本页仅作为文档封面,使用时请直接删除即可-- --内页可以根据需求调整合适字体及大小-- 应用数理统计第一次大作业 学号: 姓名: 班级: B11班 2015年12月 民航客运量的多元线性回归分析 摘要:本文为建立以民航客运量为因变量的多元线性回归模型,选取了1996年至2013年的统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数,城镇居民可支配收入等因素,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,并采用2014年的数据进行检验,得到的结果达到预期,证明该模型建立是较为成功的。 关键词:多元线性回归,逐步回归法,民航客运量 0.符号说明 1 铁路客运量X2 民航航线里程X3 入境过夜旅游人数X4 城镇居民人均可支配收入X5 1.引言 随着社会的进步,人民生活水平的提高,如何获得更快捷方便的交通成为人们日益关注的问题。因为航空的安全性,快速且价格水平越来越倾向大众,越来越多的人们选择航空这种交通方式。近年来,我国的航空客运量已经进入世界前列,为掌握航空客运的动态,合理安排班机数量。科学地对我国民航客运量的影响因素的分析,并得出其回归方程,进而能够估计航空客运量是非常有必要的。本文收集整理了与我国航空客运量相关的历年数据,运用SPSS软件对数据进行分析,研究1996年起至2013年我国民航客运量y(万人)与国民生产总值X1(亿元)、铁路客运量X2(万人)、民航航线里程X3(万公里)、入境过夜旅游人数X4(万人)、城镇居民人均可支配收入X5(元)的关系。采用逐步回归法建立线性模型,选出较优的线性回归模型。 2.数据的统计与分析 本文在进行统计时,查阅《中国统计摘要》,《中国统计年鉴2014》以及中国知网数据查询中的数据,收集了1996年至2013年各个自变量因素的数据,分析它们之间的联系。整理如表1所示。 北航2010《应用数理统计》考试题及参考解答 09B 一、填空题(每小题3分,共15分) 1,设总体X 服从正态分布(0,4)N ,而12 15(,,)X X X 是来自X 的样本,则22 110 22 11152() X X U X X ++=++服从的分布是_______ . 解:(10,5)F . 2,ˆn θ是总体未知参数θ的相合估计量的一个充分条件是_______ . 解:ˆˆlim (), lim Var()0n n n n E θθθ→∞ →∞ ==. 3,分布拟合检验方法有_______ 与____ ___. 解:2 χ检验、柯尔莫哥洛夫检验. 4,方差分析的目的是_______ . 解:推断各因素对试验结果影响是否显著. 5,多元线性回归模型=+Y βX ε中,β的最小二乘估计ˆβ 的协方差矩阵ˆβCov()=_______ . 解:1ˆσ-'2Cov(β) =()X X . 二、单项选择题(每小题3分,共15分) 1,设总体~(1,9)X N ,129(,, ,)X X X 是X 的样本,则___B___ . (A ) 1~(0,1)3X N -; (B )1 ~(0,1)1X N -; (C ) 1 ~(0,1) 9X N -; (D ~(0,1)N . 2,若总体2(,)X N μσ,其中2σ已知,当样本容量n 保持不变时,如果置信度1α-减小,则μ的 置信区间____B___ . (A )长度变大; (B )长度变小; (C )长度不变; (D )前述都有可能. 3,在假设检验中,就检验结果而言,以下说法正确的是____B___ . (A )拒绝和接受原假设的理由都是充分的; (B )拒绝原假设的理由是充分的,接受原假设的理由是不充分的; (C )拒绝原假设的理由是不充分的,接受原假设的理由是充分的; (D )拒绝和接受原假设的理由都是不充分的. 4,对于单因素试验方差分析的数学模型,设T S 为总离差平方和,e S 为误差平方和,A S 为效应平方和,则总有___A___ . 2015-2016 学年 第一学期期末试卷 参考答案 学号 姓名 成绩 考试日期: 2016年1月15日 考试科目:《数理统计》(B 层) 一、填空题(本题共16分,每小题4分) 1.设12,,n x x x ,是来自正态总体2(0,)N σ的简单样本,则当c = 时,统计量2 21 () n k k x c x x η==-∑服从F -分布,其中1 1n k k x x n ==∑。((1)n n -) 2. 设12,,n x x x ,是来自两点分布(1,)B p 的简单样本,其中01p <<,2n ≥,则 当c = 时,统计量2ˆ(1)cx x σ =-是参数()(1)q p p p =-的无偏估计,其中1 1n k k x x n ==∑。(1n n -) 3.设总体X 的密度函数为22 ,[0,] (;)0,[0,]x x p x x θθθθ⎧∈⎪=⎨⎪∉⎩,其中0θ>,12,,,n x x x 是 来自总体X 简单样本,则θ的充分统计量是 。(()n x ) 4.设12,,n x x x ,是来自正态总体2(,)N μσ的简单样本,已知样本均值 4.25x =, μ的置信度为0.95的双侧置信区间下限为3.1,则μ的置信度为0.95的双侧置信区间为(,)。((3.1,5.4)) 二、(本题12分)设12,,,n x x x 是来自正态总体2(1,2)N σ的简单样本。(1)求2σ的极大似然估计2σ;(2)求2σ的一致最小方差无偏估计;(3)问2σ的一致最小方差无偏估计是否为有效估计?证明你的结论。 解(1)似然函数为 2 2 2 1 1()exp{(1)}4n n i i L x σσ ==- -∑ 对数似然函数为 2 2 221 1ln ()(ln(4)ln )(1)24n i i n L x σπσσ==-+--∑ 求导,有 22 224 1 ln ()1(1)24n i i L n x σσσσ=∂=-+-∂∑ 令22 ln ()0L σσ∂=∂,可得θ的极大似然估计为2 21 1ˆ(1)2n i i x n σ==-∑。 (2)因为 2 2 122 1 1(,,,;)exp{(1)}4n n n i i f x x x x σσ ==- -∑ 令2()n c σ=,()1h x =,22 1()4w σσ =- ,,由于2()w σ的值域(,0)-∞有内 点,由定理2.2.4知21(1)n i i T x ==-∑是完全充分统计量。而 2 221 1 ((1))(1)2n n i i i i E x E x n σ==-=-=∑∑ 因而2 2 11ˆ(1)2n i i x n σ==-∑既是完全充分统计量21 (1)n i i T x ==-∑的函数,又是2σ的无偏估计,由定理2.2.5知2 21 1ˆ(1)2n i i x n σ==-∑是2σ一致最小方差无偏估计。 (3)224112 ˆ()((1))4Var Var x n n σ σ=-=。因为 北航数理统计考试题 2022年12月 2022年-2022年学年第一学期期末试卷 一、(6分,A班不做)设x1,x2,。,xn是来自正态总体N( , 2)的样本,令 T x x), 试证明T服从t-分布t(2) 二、(6分,B班不做)统计量F-F(n,m)分布,证明 1F 的(0 1)的分位点x 是 1F1 (n,m) 。 三、(8分)设总体X的密度函数为 (1 )x ,0 x 1p(x; ) 0 , 其他 其中 1,是位置参数。x1,x2,。,xn是来自总体 X的简单样本, 试求参数的矩估计和极大似然估计。 四、(12分)设总体X的密度函数为 1 x exp ,x p(x; ) , 0 , 其它 其中 , 已知,0, 是未知参数。x1,x2,。,xn是来自总 体X的简单样本。 (1)试求参数的一致最小方差无偏估计;(2)是否为的有效估计?证明你的结论。 五、(6分,A班不做)设x1,x2,。,xn是来自正态总体N( 简单样本,y1,y2,。,yn是来自正态总体N( 两样本相互独立,其中设 H0: 1 2, H1: 1 2, 1 2 2 1 , 1) 2 的 , 2)的简单样本,且 21 , 1, 2, 2 22 是未知参数, 2 2 。为检验假 可令zi xi yi, i 1,2,...,n , 1 2 , 则上述假设检验问题等价于H0: 1 0, H1: 1 0,这样双样本检验问题就变为单检验问题。基于变换后样本z1,z2,。,zn,在显著性水平下,试构造检验上述问题的t-检验统计量及相应的拒绝域。 六、(6分,B班不做)设x1,x2,。,xn是来自正态总体N( 简单样本,0已知,2未知,试求假设检验问题 H0: 2 , )0 2 的 0, H1: 北航数理统计回归分析大作业(总 17页) -CAL-FENGHAI.-(YICAI)-Company One1 -CAL-本页仅作为文档封面,使用请直接删除 数理统计(课程大作业1) 逐步回归分析 学院:机械工程学院 专业:材料加工工程 日期:2014年12月7日 摘要:本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际,以我国1995-2012年的财政收入为因变量,选取了8个可能的影响因素,选用逐步回归法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。 关键字:多元线性回归 逐步回归法 财政收入 SPSS 1 引言 自然界中任何事物都是普遍联系的,客观事物之间往往都存在着某种程度的关联关系。为了研究变量之间的相关关系,人们常用回归分析的方法,而回归分析是数理统计中一种常用方法。数理统计作为一种实用有效的工具,广泛应用于国民经济的各个方面,在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。 财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。 本文将以回归分析为方法,运用数理统计工具探求财政收入与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。 2 多元线性回归 2.1 多元线性回归简介 在实际问题中,某一因素的变化往往受到许多因素的影响,多元回归分析的任务就是要找出这些因素之间的某种联系。由于许多非线性的情形都可以通过变换转化为线性回归来处理,因此,一般的实际问题都是基于多元线性回归问题进行处理的。对多元线性回归模型简要介绍如下: 如果随机变量y 与m )2(≥m 个普通变量m x x x 21,有关,且满足关系式: εββββ++++=m m x x x y 22110 2,0σεε==D E (2.1)北航数值分析报告第一次大作业(幂法反幂法)
北航研究生数理统计试题
北航研究生 算法设计与分析大作业一
北航设计研究生数值分析编程大作业
北航数理统计大作业
北航应用数理统计考试题及参考解答
北航2015级硕士研究生数理统计参考答案(B层)
北航数理统计考试题
北航数理统计回归分析大作业