当前位置：文档之家› 北航数理统计第一次大作业

北航数理统计第一次大作业

数理统计

第一次课程论文

广州恒大队在２0１5赛季亚冠的进球数的

多元线性回归模型

学号： SＹ15272０5

姓名：郭谢有

摘要

本赛季亚洲冠军联赛，来自中国的球队广州恒大淘宝队最终在决赛中力克阿联酋的迪拜阿赫利队，三年之内第二次夺得亚冠冠军。为了研究恒大的夺冠过程，本文选取了恒大该赛季亚冠总共15场比赛中的进球数为因变量,对可能影响进球数的射门数、射正数等7个自变量进行统计,并进一步利用统计软件SPSS对以上数据进行了多元逐步线性回归。最终确定了进球数与各因素之间关系的“最优”回归方程。

关键词：多元线性回归,逐步回归法，广州恒大,SPSS

摘要 (1)

1.引言 (3)

2.符号说明 (3)

3.数据的采集和整理 (3)

3.1数据的采集 (3)

3.2建模 (4)

4.数据分析及计算 (4)

4.结论 (9)

参考文献 (10)

致谢 (10)

1.引言

一场足球比赛的进球数说明了一支球队攻击力的强弱，也是决定比赛胜负的至关因素,综合反映出这支球队的实际水平。

而作为竞技体育,足球场上影响进球数的因素很多,为了研究本赛季恒大在亚冠夺冠过程中的14场比赛中进球数与其他一些因素的关系,本论文从搜达足球和新浪体育数据库中查找了进球数和其他7个主要影响因素的数据,包括射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数。并进一步采用多元逐步回归分析方法对以上因素进行了显著性分析，从而确定了关于恒大在本赛季亚冠中进球数的最优多元线型回归方程。

２.符号说明

3.数据的采集和整理

３.1数据的采集

本文统计数据时，查阅了搜达足球数据库，确定恒大在亚冠1４场比赛中的进球数为因变量,并初步选取这14场比赛中的射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数7因素为自变量，具体数据见下表1。

3.２建模

本文选取了恒大在亚冠比赛中的进球数作为因变量y，并选取可能对进球数造成影响的因素为自变量,其中对应关系在符号说明中已经列举。这里构建模型如下：

⋅X i+ε

y=β0+∑βi

i=1

其中,其中ε为随机误差项，β0为常数项，βi为待估计的参数。

４.数据分析及计算

本文利用逐步回归法对该问题进行分析。该方法是从一个自变量开始，视自变量对y的显著程度,从大到小地依次逐个引入回归方程,但当引入的自变量由于后面的引入而变得不显著时,要将其剔除掉。引入一个自变量或从回归方程中剔除一个自变量，为逐步回归的一步，对于每一步都要进行F值检验，以确保每次引入新的显著性自变量前回归方程中只包含对作用显著的变量。这个过程反复进行，直至既无不显著的变量从回归方程中剔除，又无显著变量可引入回归方程

时为止。

本文运用统计软件ＳPSＳ的有关功能模块根据上述原理精选出一些配合较好和方差贡献大的自变量组建回归方程。为了从挑选因子中筛选出尽可能多的因

子建立模型,本系统可以自己给出F临界值，计算机默认的F

引＝0.05,F

剔

=0.1，

如果入选的自变量因子数目不多,可通过人为提高Ｆ临界值的水平而筛选出更多的因子。如此时入选的因子太多，可人为提高F临界值的水平而筛选出有代表性因子来组建模型。如最后建立的模型的复相关系数不大,回归模型的拟合精度不太高,可根据这些入选因子来组建多元非线性模型。

该分析在默认的Ｆ

引=0．05,F

剔

=0.1时入选的自变量只有两个，因此提高F

值，因此设定F

引=0.45，Ｆ

剔

=0．５5,进行多元线性回归分析,可得如下分析结果：

表２. 自变量引入和剔除表

上表2显示了自变量的引入和剔除，以及引入或剔除的方法与标准。系统

在进行逐步回归过程中产生了4个模型，模型１是按照F检验的标准概率值，先将与y最密切的射正数(Ｘ

）引入模型,建立y与X2之间的一元线性回归模

型，然后再将传中数（X

)引入模型，建立y与X2，X4之间的二元线性模型,之后分别依次把传球数(X3),抢断数（Ｘ6)引入模型，分别建立了他们与ｙ之间的三元、四元线性模型，最后建立的是y与X2,X3，X4，X6之间的四元线性关系。

表３. 模型摘要

表4. 变量数分析

表5．变量系数表

表6. 排除的变量表

图7．直方图和回归标准化残差的标准P-P图

4.结论

通过前面的SPSS逐步多元线性回归分析可以得到最优的回归方程为:

y=4.666+0.271X2−0.005X3−0.069X4−0.079X6

由以上回归方程可知,恒大在上赛季亚冠比赛中的进球数与射正数、传中数、传球数和抢断数呈线性相关性显著。

众多周知,一场足球比赛中的进球数与射正球门的次数有直接关系,并且传中数也能对球门造成很大的威胁，而传球数则代表一支球队在场上是否能控制住局面,抢断则有更多的反击机会，所以以上分析结果与现实情况相符合。当然一场比赛的进球数综合了各方面的因素，甚至还受到一些偶然因素的影响,所以分析结果也存在着一些不足。

此外由于所查阅的数据不够多，只统计了恒大上赛季在亚冠的所有比赛（1４场),场次不够多,并且有些变量难以统计和查找,再加之竞技体育的一些不确定性,所以上诉回归模型还有一定的漏洞和不足。但是也从一定程度上反映了进球数这一因变量与自变量的线性关系，并能对因变量（进球数）做出近似的估计,综合来看，上述回归模型基本达到了预期的目的和效果。

参考文献

[1]孙海燕,周梦,李卫国,冯伟. 应用数理统计［M]. 北京：北京航空航天大学

数学系, 20１5.

[2]搜达足球官方网站亚冠数据库.ｈtｔp://ｗwｗ．ｓｏｄasoｃｃer.ｃｏ

m/searcｈ/ｃlub/3/582９/926EＦ74E０B9C0989.sｈtmｌ

[3]新浪网亚冠数据库.

http://matcｈ.spｏrts.siｎａ.ｃｏm.ｃn/ｆｏotbaｌl／scｈedule_g.ｐhp?utｙｐe＝ｒnd＆l_ｔype=6０5&dpc=1

致谢

感谢孙海燕老师上课时的严谨和认真，他严谨的教学态度、渊博的数学学识、开创性的思维、使我受益匪浅，这一学期上数理统计课学到的东西将对我今后的学习、科研产生深远的影响。

在此,再次向孙老师表示诚挚的感谢，此外也感谢数理统计各位助教老师平日作业的细心批改!另外，还感谢在撰写本次论文帮助过我的同学和舍友。

北航数值分析报告大作业一

北京航空航天大学数值分析大作业一学院名称自动化专业方向控制工程学号 ZY1403140 学生许阳教师玉泉日期 2014 年 11月26 日

设有501501?的实对称矩阵A ， ??? ???? ?????????=5011A a b c b c c b c b a 其中，064.0,16.0),501,,2,1(64.0)2.0sin()024.064.1(1 .0-==???=--=c b i e i i a i i 。矩阵A 的特征值为)501,,2,1(???=i i λ，并且有 ||min ||,501 150121i i s λλλλλ≤≤=≤???≤≤ 1.求1λ，501λ和s λ的值。 2.求A 的与数40 1 5011λλλμ-+=k k 最接近的特征值)39,,2,1(???=k k i λ。 3.求A 的(谱数)条件数2)A (cond 和行列式detA 。一方案设计 1 求1λ，501λ和s λ的值。 s λ为按模最小特征值，||min ||501 1i i s λλ≤≤=。可使用反幂法求得。 1λ，501λ分别为最大特征值及最小特征值。可使用幂法求出按模最大特征值，如结果为正，即为501λ，结果为负，则为1λ。使用位移的方式求得另一特征值即可。 2 求A 的与数40 1 5011λλλμ-+=k k 最接近的特征值)39,...,2,1(=k k i λ。题目可看成求以k μ为偏移量后，按模最小的特征值。即以k μ为偏移量做位移，使用反幂法求出按模最小特征值后，加上k μ，即为所求。 3 求A 的(谱数)条件数2)(A cond 和行列式detA 。矩阵A 为非奇异对称矩阵，可知， || )(min max 2λλ=A cond (1-1)

2006北航应用数理统计期末考试试题及参考答案

2006级硕士研究生《应用数理统计》试题一、选择题（每小题3分，共12分） 1.统计量T~t（n）分布，则统计量T2的α（0<α<1）分位点xα（P{T2≤xα}=α）是（） A. 2 1 2 () t n α - ?? ?? ?? B. 12 () t n α + C.12 () t n α - D 2 1 2 () t n α + ?? ?? ?? 2.设随机变量X～N(0，1)，Y～N(0，1)，则（） A. t-分布 B.X2+Y2服从2χ-分布 C. X2和Y2都服从2χ-分布 D. X2/Y2服从F-分布 3.某四因素二水平实验，选择正交表L8(27)，已填好A，B，C三个因子，分别在第一，第四，第七列，若要避免“混杂”，应安排因子D在第（）列.A.5 B.2 C.3 D.6 （1） 3 （2） 2 1 （3） 5 6 7 （4） 4 7 6 1 （5） 7 4 5 2 3 （6） 6 5 4 3 2 1 （7） 4.假设总体X服从两点分布，分布率为P{X=x}=p x(1-p)1-x，其中x=0

或1，p 为未知参数，X1,X2,…，Xn 是来自总体的简单样本，则下面统计量中不是充分统计量的是（） A. 1i n i X =∑ B. 11i n i X n =∑ C. 111i n i X n =-∑ D. 11i n i X p n =-∑ 二.填空题(每小题3分,共12分) 1. 设X1,X2,…，Xn 是来自总体N(0，2 σ)的简单样本,则常数 c=_________ m i c X ∑服从t-分布（1m n ≤<），其自由度为 ____________ 2. 设X1,X2,…，Xn 是来自总体N(μ，2σ)的简单样本,其中2 σ已知。则在满足P{X a X b μ-≤≤+}=1-a 的均值μ的置信度为1-α的置信区间类{[,X a X b -+]:a ,b 常数}中区间长度最短的置信区间为（） 3. 设X1,X2,…，Xn 是来自总体N(μ，2σ)的简单样本, μ已知，则2 σ 的无偏估计2 2 1 1 1()1n k k S X X n ==--∑，22211()n k k S X n μ==-∑中较优的是（） 4．在双因素实验的方差分析中，总方差T S 的分解中包含误差平方和 2 .111()p q r E ijk i j i j k S x x ====-∑∑∑，则E S 的自由度为（）三，（12分）设X1,X2,…，Xn 来自指数分布 10()00x e x f x x θθ -?>?=??≤? 的简

北航数值分析报告大作业第三题(fortran)

“数值分析“计算实习大作业第三题 ——SY1415215 孔维鹏一、计算说明 1、将x i=0.08i，y j=0.5+0.05j分别代入方程组（A.3）得到关于t，u，v，w的的方程组，调用离散牛顿迭代子函数求出与x i，y j对应的t i，u j。 2、调用分片二次代数插值子函数在点(t i,u j)处插值得到z(x i,y j)=f(x i,y j)，得到数表(x i,y j,f(x i,y j))。 3、对于k=1,2,3,4?，分别调用最小二乘拟合子函数计算系数矩阵c rs及误差σ，直到满足精度，即求得最小的k值及系数矩阵c rs。 4、将x i?=0.1i，y j?=0.5+0.2j分别代入方程组（A.3）得到关于t?，u?，v?，w?的的方程组，调用离散牛顿迭代子函数求出与x i?，y j?对应的t i?，u j?，调用分片二次代数插值子函数在点(t i?,u j?)处插值得到z?(x i?,y j?)=f(x i?,y j?)；调用步骤3中求得的系数矩阵c rs求得p(x i?,y j?)，打印数表(x i?,y j?,f(x i?,y j?),p(x i?,y j?))。二、源程序（FORTRAN） PROGRAM SY1415215 DIMENSION X(11),Y(21),T(6),U(6),Z(6,6),UX(11,21),TY(11,21),FXY(11,21),C(6,6) DIMENSION X1(8),Y1(5),FXY1(8,5),PXY1(8,5),UX1(8,5),TY1(8,5) REAL(8) X,Y,T,U,Z,FXY,UX,TY,C,E,X1,Y1,FXY1,PXY1,UX1,TY1 OPEN (1,FILE='第三题计算结果.TXT') DO I=1,11 X(I)=0.08*(I-1) ENDDO DO I=1,21 Y(I)=0.5+0.05*(I-1) ENDDO

数理统计第一次大作业——回归分析

北京市农业经济总产值的逐步回归分析姓名：学号：摘要：农业生产和农村经济是国民经济的基础，影响农村经济总产值的因素有多种，主要包括农林牧渔业。本文以北京市农业生产和农村经济总产值为对象，首先分析了各种因素的线性相关性，建立回归模型，再利用逐步回归法进行回归分析，得到最符合实际情况的回归模型。以SPSS 17.0为分析工具，给出了实验结果，并用预测值验证了结论的正确性。关键词：农业生产和农村经济，线性回归模型，逐步回归分析，SPSS 1.引言农林牧渔业统计范围包括辖区内全部农林牧渔业生产单位、非农行业单位附属的农林牧渔业生产活动单位以及农户的农业生产活动。军委系统的农林牧渔业生产（除军马外）也应包括在内，但不包括农业科学试验机构进行的农业生产。在近几年中国经济快速增长的带动下，各地区农林牧渔业也得到了突飞猛进的发展。以北京地区为例，2005年的农业总产值为1993年的6倍。因此用统计方法研究分析农业总产值对指导国民经济生产，合理有效的进行产业布局，提高生产力等有着重要意义。表1 北京市农业经济产值及各产品产量统计数据年份农林牧渔业总产值粮食棉花油料蔬菜干鲜果品猪牛羊肉禽蛋产量水产品(亿元)(万吨)(万吨)(万吨)(万吨)(万吨)(万吨)(万吨)(万吨) 1999180.6580.2 2.8321.360.225.915.87.6 2000188.670.20.2 3.8340.16626.9167.5 2001202.282.30.3 4.3341.271.927.115.67.4 2002213.594.90.3 2.6373.178.730.215.27.4 2003224.7102.10.3 3.3419.884.130.916.27.1 2004234.9104.90.8 2.9444.190.931.715.9 6.7 2005239.3109.20.2 2.5466.393.93316 6.4 2006247.2125.50.2 2.2486.788.73415.2 5.4 2007261.3144.20.2 2.251191.137.215.66 2008273.91610.1 2.2527.489.839.115.2 6.1 本文以北京市农生产为对象，分析了农业经济总产值与粮食产量、棉花产量、油料产量、蔬菜产量、干鲜果品产量、猪牛羊肉产量、禽蛋产量、水产品产量的关系，并建立农业经济总产值的回归模型。表1中列出了1999年至2008年间的统计数据（数据来源于北京统计信息网https://www.doczj.com/doc/1319313760.html,）。 2.线性回归模型的建立 2.1 线性回归模型的假设为了研究农业经济总产值与各种农生产量的关系，必须要建立二者之间的数学模型。数学模型可以有多种形式，比如线性模型，二次模型，指数模型，对数模型等等。而实际生活中，影响农业经济总产值的因素很多，并且这些因素的影响不能简单的用某一种模型来描述，所以要建立农业经济总产值的数学模型往往是很难的。但是为了便于研究，我们可以先

北航数值分析全部三次大作业

北航数值分析全部三次大作业第一次大作业是关于解线性方程组的数值方法。我们被要求实现各种常用的线性方程组求解算法，例如高斯消元法、LU分解法和迭代法等。我首先学习了这些算法的原理和实现方法，并借助Python编程语言编写了这些算法的代码。在实验中，我们使用了不同规模和条件的线性方程组进行测试，并比较了不同算法的性能和精度。通过这个作业，我深入了解了线性方程组求解的原理和方法，提高了我的编程和数值计算能力。第二次大作业是关于数值积分的方法。数值积分是数值分析中的重要内容，它可以用于计算曲线的长度、函数的面积以及求解微分方程等问题。在这个作业中，我们需要实现不同的数值积分算法，例如矩形法、梯形法和辛普森法等。我学习了这些算法的原理和实现方法，并使用Python编写了它们的代码。在实验中，我们计算了不同函数的积分值，并对比了不同算法的精度和效率。通过这个作业，我深入了解了数值积分的原理和方法，提高了我的编程和数学建模能力。第三次大作业是关于常微分方程的数值解法。常微分方程是数值分析中的核心内容之一，它可以用于描述众多物理、化学和生物现象。在这个作业中，我们需要实现不同的常微分方程求解算法，例如欧拉法、龙格- 库塔法和Adams法等。我学习了这些算法的原理和实现方法，并使用Python编写了它们的代码。在实验中，我们解决了一些具体的常微分方程问题，并比较了不同算法的精度和效率。通过这个作业，我深入了解了常微分方程的原理和方法，提高了我的编程和问题求解能力。总的来说，北航数值分析课程的三次大作业非常有挑战性，但也非常有意义。通过这些作业，我在数值计算和编程方面得到了很大的提升，也

北航数理统计大作业(逐步回归)

应用数理统计第一次大作业学号：姓名：班级：B11班 2015年12月

民航客运量的多元线性回归分析摘要：本文为建立以民航客运量为因变量的多元线性回归模型，选取了1996年至2013年的统计数据，包含国民生产总值，民航航线里程，过夜入境旅游人数，城镇居民可支配收入等因素，利用统计软件SPSS对各因素进行了筛选分析，采用逐步回归法得到最优多元线性回归模型，并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验，并采用2014年的数据进行检验，得到的结果达到预期，证明该模型建立是较为成功的。关键词：多元线性回归，逐步回归法，民航客运量

0.符号说明变量符号国民生产总值X1 铁路客运量X2 民航航线里程X3 入境过夜旅游人数X4 城镇居民人均可支配收入X5 1.引言随着社会的进步，人民生活水平的提高，如何获得更快捷方便的交通成为人们日益关注的问题。因为航空的安全性，快速且价格水平越来越倾向大众，越来越多的人们选择航空这种交通方式。近年来，我国的航空客运量已经进入世界前列，为掌握航空客运的动态，合理安排班机数量。科学地对我国民航客运量的影响因素的分析，并得出其回归方程，进而能够估计航空客运量是非常有必要的。本文收集整理了与我国航空客运量相关的历年数据，运用SPSS软件对数据进行分析，研究1996年起至2013年我国民航客运量y（万人）与国民生产总值X1（亿元）、铁路客运量X2（万人）、民航航线里程X3（万公里）、入境过夜旅游人数X4（万人）、城镇居民人均可支配收入X5（元）的关系。采用逐步回归法建立线性模型，选出较优的线性回归模型。

数理统计大作业要求

大作业要求前言 ............................................................ 页码一、采集样本、数据整理及SPSS 统计软件的实现 ..................... 页码 0、掌握采集样本及数据整理的方法； 1、学会SPSS 统计软件安装与启动； 2、利用SPSS 建立数据文件、并利用数据库导入数据； 3、利用SPSS 对数据进行合并与拆分； 4、利用SPSS 对数据进行描述性统计分析：给出频数、频率分布表及偏度和峰度，并画出直方图和折线图； 5、写出经验分布函数并利用SPSS 画出图形； 6、查找藏于文著里的已知的各种概率分布（力求全），并描述其背景，给出其期望和方差，利用SPSS 或其他软件画出密度函数的图形；注：SPSS 软件版本为SPSS19.0 (中文版或英文版均可)，从百度可以下载. 二、给出总体分布的参数估计（用SPSS 软件完成） .............................................. 页码 1、矩估计； 2、最大似然估计； 3、若总体是未知分布，应探求其参数的点估计，并写出方案； 4、参数区间估计（假设总体是正态分布）； .......................... 页码 1）、方差2σ未知，求数学期望μ的置信区间； ........................ 页码 2）、数学期望μ，2σ均未知，求方差2σ的置信区间； ......................................... 页码（要求有步骤，有计算结果）三、参数的假设检验（用SPSS 完成） .............................. 页码 1、样本统计数据的t 检验........................................ 页码 2、样本统计数据的-2χ检验...................................................................................... 页码注：可先假设总体是正态情况讨论，总体若不是正态的要给出探求方案四、非参数假设检验（2χ拟合优度检验）（用SPSS 完成） .............. 页码 1、2χ拟合优度检验 2、当上述检验被接受或被拒绝时，请结合实际问题给出说明五、结论 ........................................................ 页码

北航硕士研究生数值分析大作业一

数值分析 —计算实习作业一学院：17系专业：精密仪器及机械姓名：张大军学号：DY1417114 2014-11-11

数值分析计算实现第一题报告一、算法方案算法方案如图1所示。（此算法设计实现完全由本人独立完成）图1算法方案流程图

二、全部源程序全部源程序如下所示 #include #include #include int main() { double a[501]; double vv[5][501]; double d=0; double r[3]; double uu; int i,k; double mifayunsuan(double *a,double weiyi); double fanmifayunsuan(double *a,double weiyi); void yasuo(double *A,double (*C)[501]); void LUfenjie(double (*C)[501]); //赋值语句 for(i=1;i<=501;i++) { a[i-1]=(1.64-0.024*i)*sin(0.2*i)-0.64*exp(0.1/i); } //程序一：使用幂方法求绝对值最大的特征值 r[0]=mifayunsuan(a,d); //程序二：使用幂方法求求平移λ[0]后绝对值最大的λ，得到原矩阵中与最大特征值相距最远的特征值 d=r[0]; r[1]=mifayunsuan(a,d); //比较λ与λ-λ[0]的大小，由已知得 if(r[0]>r[1]) { d=r[0]; r[0]=r[1]; r[1]=d; } //程序三：使用反幂法求λ r[2]=fanmifayunsuan(a,0); cout<

数理统计第一次作业