北航数理统计件
- 格式:pptx
- 大小:561.65 KB
- 文档页数:36
数理统计第一次课程论文广州恒大队在2015赛季亚冠的进球数的多元线性回归模型学号: SY1527205姓名:郭谢有摘要本赛季亚洲冠军联赛,来自中国的球队广州恒大淘宝队最终在决赛中力克阿联酋的迪拜阿赫利队,三年之内第二次夺得亚冠冠军。
为了研究恒大的夺冠过程,本文选取了恒大该赛季亚冠总共15场比赛中的进球数为因变量,对可能影响进球数的射门数、射正数等7个自变量进行统计,并进一步利用统计软件SPSS对以上数据进行了多元逐步线性回归。
最终确定了进球数与各因素之间关系的“最优”回归方程。
关键词:多元线性回归,逐步回归法,广州恒大,SPSS目录摘要 (1)1.引言 (3)2.符号说明 (3)3.数据的采集和整理 (3)3.1数据的采集 (3)3.2建模 (4)4.数据分析及计算 (4)4.结论 (9)参考文献 (10)致谢 (10)1.引言一场足球比赛的进球数说明了一支球队攻击力的强弱,也是决定比赛胜负的至关因素,综合反映出这支球队的实际水平。
而作为竞技体育,足球场上影响进球数的因素很多,为了研究本赛季恒大在亚冠夺冠过程中的14场比赛中进球数与其他一些因素的关系,本论文从搜达足球和新浪体育数据库中查找了进球数和其他7个主要影响因素的数据,包括射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数。
并进一步采用多元逐步回归分析方法对以上因素进行了显著性分析,从而确定了关于恒大在本赛季亚冠中进球数的最优多元线型回归方程。
2.符号说明3.数据的采集和整理3.1数据的采集本文统计数据时,查阅了搜达足球数据库,确定恒大在亚冠14场比赛中的进球数为因变量,并初步选取这14场比赛中的射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数7因素为自变量,具体数据见下表1。
3.2建模本文选取了恒大在亚冠比赛中的进球数作为因变量y,并选取可能对进球数造成影响的因素为自变量,其中对应关系在符号说明中已经列举。
这里构建模型如下:7⋅X i+εy=β0+∑βii=1其中,其中ε为随机误差项,β0为常数项,βi为待估计的参数。
北航数理统计答案【篇一:北航数理统计考试题】术部2011年12月2007-2008学年第一学期期末试卷一、(6分,a班不做)设x1,x2,…,xn是来自正态总体n(?,?2)的样本,令t?x?x),试证明t服从t-分布t(2)二、(6分,b班不做)统计量f-f(n,m)分布,证明1f的?(0?1)的分位点x?是1f1??(n,m)。
三、(8分)设总体x的密度函数为?(1??)x?,0?x?1p(x;?)??0,其他?其中???1,是位置参数。
x1,x2,…,xn是来自总体试求参数?的矩估计和极大似然估计。
四、(12分)设总体x的密度函数为?1?x???exp???,x???p(x;?)??????,??0,其它其中???????,?已知,??0,?是未知参数。
x1,x2,…,xn是来自总?体x的简单样本。
(1)试求参数?的一致最小方差无偏估计?;(2)?是否为?的有效估计?证明你的结论。
五、(6分,a班不做)设x1,x2,…,xn是来自正态总体n(?简单样本,y1,y2,…,yn是来自正态总体n(?两样本相互独立,其中?设h0:?1??2,h1:?1??2,1221?,?1)2的,?2)的简单样本,且21,?1,?2,?222是未知参数,???22。
为检验假可令zi?xi?yi, i?1,2,...,n ,???1??2 ,则上述假设检验问题等价于h0:?1?0,h1:?1?0,这样双样本检验问题就变为单检验问题。
基于变换后样本z1,z2,…,zn,在显著性水平?下,试构造检验上述问题的t-检验统计量及相应的拒绝域。
六、(6分,b班不做)设x1,x2,…,xn是来自正态总体n(?简单样本,?0已知,?2未知,试求假设检验问题h0:?2,?)02的??0,h1:?22??02的水平为?的umpt。
七、(6分)根据大作业情况,试简述你在应用线性回归分析解决实际问题时应该注意哪些方面?八、(6分)设方差分析模型为?xij????i??j??ij?2??ij服从正态总体分布n(0,?)且?ij相互独立??i?1,2,...,p;j?1,...,q?pq??和?满足??i?0,??j?0.j?ii?1j?1?总离差平方和pst?sa?sb?se中sa?q?(xi??x),x?i?1x??pqi?1j?11pqij,xi??1qijx?qj?1,且e(se)=(p-1)(q-1)?.?...??p?0的拒绝2试求e(sa),并根据直观分析给出检验假设h0:?1??2域形式。
材料学院研究生会学术部2011年12月2007-2008学年第一学期期末试卷一、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体2(,)N μσ的样本,令)x x T -=,试证明T 服从t -分布t (2)二、(6分,B 班不做)统计量F-F(n,m)分布,证明111(,)F F n m αααα-的(0<<1)的分位点x 是。
三、(8分)设总体X 的密度函数为其中1α>-,是位置参数。
x 1,x 2,…,x n 是来自总体X 的简单样本,试求参数α的矩估计和极大似然估计。
四、(12分)设总体X 的密度函数为1x exp x (;) 0 , p x μμσσσ⎧⎧-⎫-≥⎨⎬⎪=⎭⎨⎩⎪⎩,其它,其中,0,μμσσ-∞<<+∞>已知,是未知参数。
x 1,x 2,…,x n 是来自总体X 的简单样本。
(1)试求参数σ的一致最小方差无偏估计σ∧; (2)σ∧是否为σ的有效估计?证明你的结论。
五、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体211(,)N μσ的简单样本,y 1,y 2,…,y n 是来自正态总体222(,)N μσ的简单样本,且两样本相互独立,其中221122,,,μσμσ是未知参数,2212σσ≠。
为检验假设012112:, :,H H μμμμ=≠可令12, 1,2,..., , ,i i i z x y i n μμμ=-==-则上述假设检验问题等价于0111:0, :0,H H μμ=≠这样双样本检验问题就变为单检验问题。
基于变换后样本z 1,z 2,…,z n ,在显著性水平α下,试构造检验上述问题的t-检验统计量及相应的拒绝域。
六、(6分,B 班不做)设x 1,x 2,…,x n 是来自正态总体20(,)N μσ的简单样本,0μ已知,2σ未知,试求假设检验问题22220010:, :H H σσσσ≥<的水平为α的UMPT 。
材料学院研究生会学术部2011 年12 月2007-2008学年第一学期期末试卷一、(6 分,A 班不做)设x1,x2,⋯,x n是来自正态总体N( , 2) 的样本,令2(x1 x2)T(x3 x4)2 (x5 x6)2 ,试证明T 服从t-分布t(2)二、( 6 分, B 班不做 ) 统计量F-F(n,m) 分布,证明1的 (0< <1)的分位点x 是1。
F F1 (n,m) 。
三、(8分)设总体X 的密度函数为其中1,是位置参数。
x1,x2,⋯,x n是来自总体X 的简单样本,试求参数的矩估计和极大似然估计。
四、(12分)设总体X 的密度函数为1xexp ,xp(x; )0 , 其它其中, 已知,0, 是未知参数。
x1,x2,⋯,x n 是来自总体X 的简单样本。
1)试求参数的一致最小方差无偏估计;2) 是否为的有效估计?证明你的结论。
五、(6分,A 班不做)设x1,x2,⋯,x n是来自正态总体N( 1, 12) 的简单样本,y1,y2,⋯,y n 是来自正态总体N( 2, 22) 的简单样本,且两样本相互独立,其中1, 12, 2, 22是未知参数,1222。
为检验假设H0 :可令z i x i y i, i 1,2,..., n ,1 2 ,1 2, H1 : 1 2,则上述假设检验问题等价于H0 : 1 0, H1: 1 0,这样双样本检验问题就变为单检验问题。
基于变换后样本z1,z2,⋯,z n,在显著性水平下,试构造检验上述问题的t-检验统计量及相应的拒绝域。
六、(6 分,B 班不做)设x1,x2,⋯,x n是来自正态总体N( 0, 2) 的简单样本,0 已知,2未知,试求假设检验问题H0: 202, H1: 202的水平为的UMPT。
七、(6 分)根据大作业情况,试简述你在应用线性回归分析解决实际问题时应该注意哪些方面?八、(6 分)设方差分析模型为总离差平方和试求E(S A ) ,并根据直观分析给出检验假设H0 : 1 2 ... P 0的拒绝域形式。
北航2010应用数理统计考试题及参考解答09B一、填空题每小题3分;共15分 1;设总体X 服从正态分布(0,4)N ;而1215(,,)X X X 是来自X 的样本;则221102211152()X X U X X ++=++服从的分布是_______. 解:(10,5)F .2;ˆn θ是总体未知参数θ的相合估计量的一个充分条件是_______.解:ˆˆlim (), lim Var()0n nn n E θθθ→∞→∞==. 3;分布拟合检验方法有_______与_______. 解:2χ检验、柯尔莫哥洛夫检验. 4;方差分析的目的是_______.解:推断各因素对试验结果影响是否显着.5;多元线性回归模型=+Y βX ε中;β的最小二乘估计ˆβ的协方差矩阵ˆβCov()=_______. 解:1ˆσ-'2Cov(β)=()X X . 二、单项选择题每小题3分;共15分1;设总体~(1,9)X N ;129(,,,)X X X 是X 的样本;则___B___. A 1~(0,1)3X N -;B 1~(0,1)1X N -; C1~(0,1)9X N -;~(0,1)N . 2;若总体2(,)XN μσ;其中2σ已知;当样本容量n 保持不变时;如果置信度1α-减小;则μ的置信区间____B___.A 长度变大;B 长度变小;C 长度不变;D 前述都有可能.3;在假设检验中;就检验结果而言;以下说法正确的是____B___. A 拒绝和接受原假设的理由都是充分的;B 拒绝原假设的理由是充分的;接受原假设的理由是不充分的;C 拒绝原假设的理由是不充分的;接受原假设的理由是充分的;D 拒绝和接受原假设的理由都是不充分的.4;对于单因素试验方差分析的数学模型;设T S 为总离差平方和;e S 为误差平方和;A S 为效应平方和;则总有___A___.A T e A S S S =+;B 22(1)AS r χσ-;C/(1)(1,)/()A e S r F r n r S n r ----;D A S 与e S 相互独立.5;在多元线性回归分析中;设ˆβ是β的最小二乘估计;ˆˆ=-εY βX 是残差向量;则___B____.A ˆn E ()=0ε;B 1ˆ]σ-''-εX X 2n Cov()=[()I X X; Cˆˆ1n p '--εε是2σ的无偏估计;DA 、B 、C 都对.三、本题10分设总体21(,)XN μσ、22(,)YN μσ;112(,,,)n X X X 和212(,,,)n Y Y Y 分别是来自X 和Y 的样本;且两个样本相互独立;X Y 、和22XY S S 、分别是它们的样本均值和样本方差;证明12)(2)X Y t n n +-;其中2221212(1)(1)2X Yn S n S S n n ω-+-=+-.证明:易知221212(,)X YN n n σσμμ--+;(0,1)X Y U N =.由定理可知22112(1)(1)Xn S n χσ--;22222(1)(1)Yn S n χσ--.由独立性和2χ分布的可加性可得222121222(1)(1)(2)XYn S n S V n n χσσ--=++-.由U 与V 得独立性和t 分布的定义可得12(2)X Y t n n =+-.四、本题10分设总体X 的概率密度为1, 0,21(;), 1,2(1)0, x f x x θθθθθ⎧<<⎪⎪⎪=≤<⎨-⎪⎪⎪⎩其他,其中参数01)θθ<<(未知;12()n X X X ,,,是来自总体的一个样本;X 是样本均值;1求参数;的矩估计量θθˆ2证明24X 不是2θ的无偏估计量.解:1101()(,)22(1)42x x E X xf x dx dx dx θθθθθθ+∞-∞==+=+-⎰⎰⎰; 令()X E X =;代入上式得到θ的矩估计量为1ˆ22X θ=-.2222211141 (4)44[()]4()424E X EX DX EX DX DX n nθθθ⎡⎤==+=++=+++⎢⎥⎣⎦;因为()00D X θ≥>,;所以22 (4)E X θ>.故24X 不是2θ的无偏估计量.五、本题10分设总体X 服从[0,](0)θθ>上的均匀分布;12(,,)n X X X 是来自总体X 的一个样本;试求参数θ的极大似然估计.解:X 的密度函数为 似然函数为显然0θ>时;()L θ是单调减函数;而{}12max ,,,n x x x θ≥;所以{}12ˆmax ,,,nX X X θ=是θ的极大似然估计.六、本题10分设总体X 服从(1,)B p 分布;12(,,)n X X X 为总体的样本;证明X 是参数p 的一个UMVUE .证明:X 的分布律为1(;)(1),0,1x x f x p p p x -=-=.容易验证(;)f x p 满足正则条件;于是21()ln (;)(1)I p E f x p p p p ⎡⎤∂==⎢⎥∂-⎣⎦. 另一方面1(1)1Var()Var()()p p X X n n nI p -===; 即X 得方差达到C-R 下界的无偏估计量;故X 是p 的一个UMVUE .七、本题10分某异常区的磁场强度服从正态分布20(,)N μσ;由以前的观测可知056μ=.现有一台新仪器;用它对该区进行磁测;抽测了16个点;得261, 400x s ==;问此仪器测出的结果与以往相比是否有明显的差异α=0.05.附表如下:t 分布表χ2分布表解:设0H :560==μμ.构造检验统计量)15(~0t ns X t μ-=;确定拒绝域的形式2t t α⎧⎫>⎨⎬⎩⎭.由05.0=α;定出临界值1315.2025.02/==t t α;从而求出拒绝域{}1315.2>t .而60,16==x n ;从而||0.8 2.1315t ===<;接受假设0H ;即认为此仪器测出的结果与以往相比无明显的差异.八、本题10分已知两个总体X 与Y 独立;211~(,)X μσ;222~(,)Y μσ;221212, , , μμσσ未知;112(,,,)n X X X 和212(,,,)n Y Y Y 分别是来自X 和Y 的样本;求2122σσ的置信度为1α-的置信区间.解:设布定理知的样本方差,由抽样分,分别表示总体Y X S S 2221 ,[]/2121/212(1,1)(1,1)1P F n n F F n n ααα---<<--=-;则222221211221/2122/212//1(1,1)(1,1)S S S S P F n n F n n αασασ-⎛⎫<<=- ⎪----⎝⎭; 所求2221σσ的置信度为α-1的置信区间为222212121/212/212//, (1,1)(1,1)S S S S F n n F n n αα-⎛⎫ ⎪----⎝⎭. 九、本题10分试简要论述线性回归分析包括哪些内容或步骤.。
2015-2016 学年 第一学期期末试卷参考答案学号 姓名 成绩 考试日期: 2016年1月15日考试科目:《数理统计》(B 层)一、填空题(本题共16分,每小题4分)1.设12,,n x x x ,是来自正态总体2(0,)N σ的简单样本,则当c = 时,统计量221()nkk x cxx η==-∑服从F -分布,其中11nk k x x n ==∑。
((1)n n -)2. 设12,,n x x x ,是来自两点分布(1,)B p 的简单样本,其中01p <<,2n ≥,则当c = 时,统计量2ˆ(1)cx x σ=-是参数()(1)q p p p =-的无偏估计,其中11nk k x x n ==∑。
(1n n -)3.设总体X 的密度函数为22,[0,](;)0,[0,]x x p x x θθθθ⎧∈⎪=⎨⎪∉⎩,其中0θ>,12,,,n x x x 是来自总体X 简单样本,则θ的充分统计量是 。
(()n x ) 4.设12,,n x x x ,是来自正态总体2(,)N μσ的简单样本,已知样本均值 4.25x =,μ的置信度为0.95的双侧置信区间下限为3.1,则μ的置信度为0.95的双侧置信区间为(,)。
((3.1,5.4))二、(本题12分)设12,,,n x x x 是来自正态总体2(1,2)N σ的简单样本。
(1)求2σ的极大似然估计2σ;(2)求2σ的一致最小方差无偏估计;(3)问2σ的一致最小方差无偏估计是否为有效估计?证明你的结论。
解(1)似然函数为22211()exp{(1)}4nnii L x σσ==--∑对数似然函数为222211ln ()(ln(4)ln )(1)24n i i n L x σπσσ==-+--∑求导,有222241ln ()1(1)24n i i L n x σσσσ=∂=-+-∂∑ 令22ln ()0L σσ∂=∂,可得θ的极大似然估计为2211ˆ(1)2n i i x n σ==-∑。
应用数理统计作业一学号:姓名:电话:二〇一四年十二月国内生产总值的多元线性回归模型摘要:本文首先选取了选取我国自1978至2012年间的国内生产总值为因变量,并选取了7个主要影响因素,进一步利用统计软件SPSS对以上数据进行了多元逐步线性回归。
从而找到了能反映国内生产总值与各因素之间关系的“最优”回归方程.然后利用多重线性的诊断找出存在共线性的自变量,剔除缺失值较多的因子.再次进行主成份线性回归分析,找出最优回归方程。
所得结论与我国当前形势相印证。
关键词:多元线性回归,逐步回归法,多重共线性诊断,主成份分析目录0符号说明 (1)1 介绍 (2)2 统计分析步骤 (3)2。
1 数据的采集和整理 (3)2。
2采用多重逐步回归分析 (7)2.3进行共线性诊断 (17)2。
4进行主成分分析确定所需主成份 (24)2。
5进行主成分逐步回归分析 (27)3 结论 (30)参考文献 (31)致谢 (32)0符号说明1 介绍文中主要应用逐步回归的主成份分析方法,对数据进行分析处理,最终得出能够反映各个因素对国内生产总值影响的最“优”模型及线性回归方程.国内生产总值是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标.它不但可反映一个国家的经济表现,还可以反映一国的国力与财富。
2012年1月,国家统计局公布2011年重要经济数据,其中GDP增长9.2%,基本符合预期。
2012年10月18日,统计显示,2012年前三季度国内生产总值353480亿元,同比增长7.7%;其中,一季度增长8.1%,二季度增长7。
6%,三季度增长7.4%,三季度增幅创下2009年二季度以来14个季度新低。
中国的GDP核算历史不长,上世纪90年代之前通常用“社会总产值”来衡量经济发展情况。
上世纪80年代初中国开始研究联合国国民经济核算体系的国内生产总值(GDP)指标。
对中国各地财政收入情况的聚类分析和判别分析应用数理统计第二次大作业学院名称学号学生姓名摘要我国幅员辽阔,由于人才、地理位置、自然资源等条件的不同,各地区的财政收入类型各自呈现出不一样的发展趋势,通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。
本文以中国各地财政收入情况为研究对象,从《中国统计年鉴》中选取2011年期间中国各地财政收入情况为因变量,选取国内增值税、营业税、企业所得税、个人所得税、城市维护建设税、土地增值税、契税、专项收入、行政事业性收费收入、国有资本经营收入和国有资源(资产)有偿使用收入11个可能影响中国各地财政收入的因素为自变量,利用统计软件SPSS,对27个地区的财政收入进行了聚类分析,并对另外4个地区的财政收入进行了判别分析,并最终确定了中国各地区根据财政收入类型的分类情况。
关键词:聚类分析,判别分析,SPSS,中国各地财政收入类型1、引言财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。
财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。
财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。
通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。
本文利用统计软件SPSS,根据各地区的财政收入情况,对北京、天津、河北等27个地区进行聚类分析,并对青海、重庆、四川、贵州4个省市进行判别分析,判断属于聚类分析结果中的哪种财政收入类型。
1.1 聚类分析聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称,它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。
本文采用的是系统聚类分析,它又称集群分析,是聚类分析中应用最广的一种方法,其基本思想是:首先将每个聚类对象看作一类,然后根据对象间的相似程度,将相似程度最高的两类进行合并,并计算合并后的类与其他类之间的距离,再选择相近者进行合并,每合并一次减少一类,直至所有的对象都并为一类为止。
北航强军计划历年考题北京航空航天大学(简称“北航”)的强军计划,旨在选拔优秀人才投身我国国防科技事业。
以下是对北航强军计划历年考题的分析和总结,希望对考生们有所帮助。
一、数学考题分析北航强军计划的数学考题主要涉及高等数学、线性代数、概率论与数理统计等方面。
历年的考题中,以下知识点经常出现:1.高等数学:极限、导数、积分、级数等基本概念和运算;2.线性代数:矩阵运算、线性方程组、特征值与特征向量等;3.概率论与数理统计:随机事件、随机变量、数学期望、方差等。
二、物理考题分析物理考题主要涉及力学、电磁学、光学等方面。
以下是历年考题中经常出现的一些知识点:1.力学:牛顿运动定律、动量守恒、能量守恒等;2.电磁学:电场、磁场、电磁感应等;3.光学:光的干涉、衍射、偏振等。
三、英语考题分析英语考题主要测试考生的英语基础知识和应用能力。
以下是历年考题中的一些特点:1.阅读理解:涉及科技、军事、政治等方面的文章;2.完形填空:考察词汇、语法和上下文理解;3.翻译:英译汉和汉译英,涉及科技、军事等领域;4.作文:涉及日常生活、科技发展等话题。
四、专业课考题分析北航强军计划的专业课考题因专业而异,以下是一些常见专业的考题特点:1.航空航天类专业:涉及飞行器设计、航空发动机、航天器控制等方面;2.电子信息类专业:涉及电路分析、信号与系统、数字信号处理等方面;3.机械类专业:涉及机械设计、机械原理、制造工艺等方面。
总结:北航强军计划历年考题注重基础知识和应用能力的考查,考生在备考过程中,需扎实掌握各科基础知识,提高解题能力。
此外,关注时事热点,了解国防科技领域的最新发展,有助于提高考试分数。
北京航空航天大学2021 学年概率论与数理统计第一学期期末一、单项选择题〔每题3分,总分值18分〕1、设随机变量),0(~2i i N X σ,2,1=i,则以下说法中正确的选项是〔 〕。
〔A 〕12(,)X X 必服从二维正态分布; 〔B 〕12()0E X X =; 〔C 〕221212()()X X σσ+服从2(2)χ分布; 〔D 〕12()0E X X += 。
2、设随机变量X 存在数学期望EX 和方差0DX ≠,则对任意正数ε,以下不等式成立的是〔 〕。
〔A 〕2{||}DXP X EX εε-≥>; 〔B 〕2{||}1DXP X EX εε-<<-〔C〕21{||P X EX εε-≥≤; 〔D 〕||{||}kkE X EX P X εε-≥≤,(1)k ≥。
3、设1,,n X X 是来自正态总体2(,)N μσ的样本,当c =〔 〕时,222ˆˆX c μσ=+是2μ的无偏估计, 其中∑==n i i X n X 11,2211ˆ()1n i i X X n σ==--∑ 。
〔A 〕11n -- , 〔B 〕11n - , 〔 C 〕 1n - , 〔 D 〕1n。
4、设随机变量),(~2σμN X ,则4||E X μ-=〔 〕.(A) 4σ; (B) 42σ; (C) 46σ; (D) 43σ 。
5、设B A ,为任意两事件,则以下关系成立的有( )(A) A B B A =-+)( ;(B) ()A B B A B +-=- ;(C) A B B A =+-)( ;(D) ()A B B AB -+=.6、从9~0这十个数码中任意取出4个排成一串数码,则数码恰成四位偶数的概率为:〔A 〕4190 ;〔B 〕12;〔C 〕4090;〔D 〕3290。
二、填空题〔每题3分,总分值18分〕1、设有n 个球,每个球都能以同样的概率N1落到N 个格子)(n N ≥的每一个格子中, 则恰有n 个格子中各有一个球的概率为 。