当前位置：文档之家› 数理统计----线性回归

数理统计----线性回归

研究生课程考核试卷

（适用于课程论文、提交报告）

科目：数理统计教师：

姓名：学号：

专业：类别：

上课时间：

考生成绩：

阅卷评语：

阅卷教师(签名)

重庆大学研究生院制

办公楼类建筑采暖锅炉容量与采暖面积的线性关系分析

摘要：我国是能源消耗大国,在燃料消耗领域,燃煤占有相当大的比重,尤其东北及西北地区燃煤消耗尤为严重,主要消耗方式则是冬季的锅炉采暖。如何根据采暖面积，合理选择燃煤锅炉容量，对于节约能源，提高能源利用率，具有重要意义。本文借助于数理统计的知识，在实际的数据的基础上，对两者之间进行一个简单的一元线性回归分析。在建立起模型之后，通过显著性检验方法进行检验，以检查结果的正确性。并通过模型对办公楼类建筑采暖锅炉的容量作出一个大致的预测，同时对相关结论进行分析，以指导实际工作。

关键词：办公楼；建筑面积；锅炉容量

一、问题提出及分析

锅炉是一种能量转换设备，向锅炉输入的能量有燃料中的化学能、电能、高温烟气的热能等形式，而经过锅炉转换，向外输出具有一定热能的蒸汽、高温水或有机热载体。锅炉中产生的热水或蒸汽可直接为工业生产和人民生活提供所需热能。

对于采暖地区的而言，每年漫长的采暖期都要依靠采暖设备供热维持建筑物内环境温度。大部分地区主要以燃煤供热锅炉为热源，这种供热模式在短期内不会改变。随着城市的发展，供热面积不断增加，耗煤量也逐年提高。近年来由于煤炭价格不断攀升，冬季燃煤采暖的经济压力已成为了影响供热质量及供热企业经济效益的主要问题。在积极贯彻落实国家节能减排政策的形势下，如何在保证供热质量的前提下采取行之有效的措施降低采暖煤耗，已成为迫切希望解决的问题。那么，现行燃煤供热锅炉容量与建筑面积的关系如何，能否通过建筑面积对锅炉容量进行预测？

带着这样的问题，利用现行数据，借助统计学与软件的分析，采用散点图的描绘，可以看到办公楼建筑面积与采暖锅炉容量可能存在一定的线性关系，由此借助数理统计知识，通过一元线性回归的相关知识对该问题进行分析。

二、数据描述

为了研究办公楼建筑面积和采暖锅炉容量的关系，选取建设部工程总结的相关数据，如表1所示：

采暖锅炉容量总结表

三、模型建立

（1）提出假设条件，理清概念，引进参数

假设办公楼总面积为自变量X ，锅炉容量为因变量Y 。且(x i ,y i )(i=1，2，…，8)为取得的一组试验数据，满足如下一元线性回归模型：

???=≠===++=....,2,1,,,0),(, (2)

1),,0(~,...2,1,2

10n j i j i Cov n i N n i x y j i i i i i εεσεεββ

由线性回归模型可知，若1β越大，Y 随X 的变化趋势就越明显；反之，若1

β越小，Y 随X 的变化就越不明显。特别是，当β1=0时，则表明无论X 如何变化Y 的值都不受影响，因而Y 与X 之间不存在线性相关关系。当1β≠0时，则认为Y 与X 之间有线性相关关系。于是，问题归结为对统计假设

0H ：0011≠=ββ，

的检验。若拒绝H 0，就认为Y 与X 之间有线性相关关系，所求的样本回归直线有意义；若接受H 0，则认为Y 与X 之间不存在线性相关关系，它们之间可能存在明显的非线性相关关系，也可能根本就不相关，所求的样本回归直线无意义。

(2)模型构建

我们想找的回归方程x y 1

0???ββ+=是要使观测值),...,2,1)(,(n i y x i i =从整体上比较靠近它。用数学的话来说就是要求观测值i

y 与其拟合值i

i x y

10???ββ+=之间的偏差平方和达到最小。

设给定n 个点),...,2,1)(,(n i y x i i =，x y 10ββ+=为一条直线，记

[]∑=+-=n

i i i E

x y S 12

102

)(ββ

S 就是误差平方和，它反映全部的观测值与直线的偏离程度。因此，2E S 越小，观测值与直线拟合得越好。所谓的最小二乘法就是使2E S 达到最小的一种估计

10,ββ的方法。

如果0

?β

?β满足 21

102

)(min 1

0∑=--=n

i i i E

x y S ββββ，

那么称0?β,1?β分别是0β,1β的最小二乘估计。下面来求0β、1β的最小二乘估计。

由于2

E S 是10,ββ的一个非负二元函数，故其极小值一定存在，根据微积分的理

论知道只要求2

E S 对10,ββ的一阶偏导数为0，即

???

????=---=??=---=??∑∑==n

i i i i E n

i i

i E

x x y S x y S 1101

10020

)??(20)??(2ββββββ 整理后得

???????=+=+∑∑∑∑∑=====n

i i i n i i n i i n

i i n i i y x x x y x n 111201

110?)(?)(?

)(?ββββ 解之得

????

?????---=-=∑∑==n i i n i i i x x y y x x x y 12111

0)())((??βββ 其中∑==n

i i x n x 1

1，∑==n i i y n y 11。

在具体计算时，常记

∑∑∑===-=-=-=n

i i i n i i n i i xx x x x x n x x x l 112

)()(

∑∑∑===-=-=-=n

i i i n

i i n

i i yy y y y y n y y y l 1

)()(

∑∑∑===-=-=--=n

i i i n i i i n

i i i xy y x x y x n y x y y x x l 1

)())((

这样，0β,1β的最小二乘估计可以表示为

??=

-=xx xy

l l x y 11

0???βββ 因此，可得到回归方程为

)(????1

x x y x y

-+=+=βββ

（3）模型求解

根据表1数据绘制办公楼面积与锅炉容量的散点图，如图1所示

图1 办公楼总面积与锅炉容量的散点图

图中横坐标为办公楼总面积，纵坐标为锅炉容量，由图可以看出锅炉容量和办公楼总面积可能存在线性相关关系。由样本资料计算所需数据，如表2所示

表2 办公楼总面积与锅炉容量回归计算

由表2得， 6125.28/9.20==x ，75.13288/10630==y ，

125.405875.13286125.2831829810

=??-=?-=

∑=y x y x l i i

i xy

2827

.441960.95648

6514

.156872

?15687.651428875.859.4895.2002487?696.496125.259.48975.1328??59.48928875.8/125.4058/?5

.20024871328.75816127100828875.86125.2889.628222122210122

2==

=?-=-=-==?-=-=====?-=-=

=?-=-=∑∑==n S l l S S S x y l l y

y l x

x l E xx yy R T E xx xy i

i yy i i xx σβ

ββ

所以，锅炉容量Y 对办公楼面积X 的样本回归直线方程是：

x x y 59.489696.49???10+=+=ββ

四、计算方法设计和计算机实现

使用Excel 对数据计算过程如下。

将办公楼总面积记为X (亿元)、锅炉容量记为Y （亿元），将搜集到的数据录入Excel 中，如表3所示：

表3 Excel 表格输入计算表

利用Excel 软件可进行回归分析计算，如下表所示：

五、结果检验

检验，取显著水平α=0.05 用F 检验法：因为

1170.141728875

.899.59564.1960)2,1(?12=?=-=-xx l n F c ασ

拒绝域为

{1170.1417?21>β}

21?β=489.592= 239698.3681>1417.1170，故拒绝H 0，即认为办公楼总面积X 对锅炉容量Y 有显著的影响。用t 检验法：算出临界值

6377.3728875

.8447

.22827.44)2(?2

1=?=

n t

l c xx

ασ

拒绝域为

?β>37.6377} 故应拒绝H 0，也认为办公楼总面积X 对锅炉容量Y 有显著的线性相关关系。用r 检验法：由于

)2(9961.028875

.85.2002487125.4058->=?=

n r l l l r xx

yy xy α

7067

.0)6(05.0=r 所以认为办公楼总面积X 对锅炉容量Y 之间的线性关系显著。

五、结论分析

（1）可用于预测锅炉容量的一元线性回归模型为：

y59

49+

489

696

（2）通过三种检验方法均得出两者之间线性关系显著，说明本项研究采用的这种一元线性回归预测方法具有很好的实际应用价值。

（3）本次研究主要针对办公楼建筑，通过一元线性回归分析得到回归模型，可以根据办公楼总面积，对锅炉容量进行预测。在实际应用中，可以根据预测值，结合相关设计规范，合理选择锅炉设备，以提高能源利用率，达到节约能源的目的。

（4）此一元线性回归模型是否可用于居民建筑采暖锅炉容量的预测有待研究。

参考文献

[1] 杨虎，刘琼荪，钟波. 数理统计[M ].高等教育出版社，2004.10

[2] 田胜元，萧日嵘.实验设计与数据处理.中国建筑工业出版社，1988.11

[3] 吴味隆.锅炉及锅炉房设备.中国建筑工业出版社，2006.5

多元线性回归模型练习题及答案.doc

ESS&i-k)A RSS[(k -1) ESS /(SI)I). TSS/(n-k) 多元线性回归模型练习一、单项选择题 1. 在由〃 =30的一组样本估计的、包含3个解释变量的线性回归模型中，计算得可决系数为0.8500,则调整后的可决系数为（D ） A. 0. 8603 B. 0. 8389 C. 0. 8655 D. 0. 8327 2. 用一组有30个观测值的样本估计模型乂 =如玷气+E +0后,在0. 05的显著性水平上对九的显著性作「检验，则气显著地不等于零的条件是其统计量，大于等于（C ） A. ，O .O 5（3°） B . ‘。025（28） c.，。。25（27） p ^*0.025 （^28） 3?线性回归模型乂 =4+"1也+勾％ +……+ b k x h +u i 中,检验 =0（，= 0,1,2,..人）时，所用的统计量服从（C ） A. t （n _k+l ） B. t （n -k -2） C. t （n -k _l ） D. t （n -k+2） 4. 调整的可决系数与多元样本判定系数R ，之间有如下关系（ D ）局=公—/?2 职=]_qj R2 A. n-k -1 B ? n-k-\ R 2=[—- （1 + R2）斤 2 =]— （I-/?2） C. n-k-\ D. n-k-\ 5. 对模型Y L B 。+ B 伏"B 2X 2i + u 「进行总体显著性F 检验,检验的零假设是（A ） A. P 1= 3 2=0 B. 3 i=0 C. B 2-O D. B 0二0 或 B i=0 6. 设k 为[q 归模型中的参数个数，n 为样本容量。则对多元线性同归方程进行显著性检验时，所用的F 统计量可表示为（B ） R2/ k B (1-R2)/(D b/d) c. (1-R2)/(S1) 7. 多元线性问归分析中（回归模型中的参数个数为k ）,调整后的可决系数与可决系数R2之间的关系（A ）

数理统计课程设计一元线性回归

二氧化碳吸附量与活性炭孔隙结构的线性回归分析摘要：本文搜集了不同孔径下不同孔容的活性炭与ＣＯ２吸附量的实验数据。分别以同一孔径下的不同孔容作为自变量，CO2吸附量作为因变量,作出散点图。选取分布大致呈直线的一组数据为拟合的样本数据.对样本数据利用最小二乘法进行回归分析,参数确定，并对分析结果进行显著性检验。同时利用ma ｔl ａb 的r ｅｇress 函数进行直线拟合。结果表明:孔径在3。 0～３． 5 nm 之间的孔容和CO2吸附量之间存在较好的线性关系。关键字：活性炭孔容ＣＯ２吸附量 m ａtla ｂ一、问题分析 1。1．数据的收集和处理本文主要研究同一孔径的孔容的活性炭和co2吸附量之间的线性关系,有关实验数据是借鉴张双全,罗雪岭等人的研究成果[1]。以太西无烟煤为原料、硝酸钾为添加剂，将煤粉、添加剂和煤焦油经过充分混合后挤压成条状，在600℃下炭化1５ min,然后用水蒸气分别在92０℃和86０℃下活化一定时间得到2组活性炭,测定了CO2吸附等温线,探讨了2组不同工艺制备的活性炭的C Ｏ2吸附量和孔容的关系.数据如下表所示：表1:孔分布与CO2吸附值编号１～12是在不同添加剂量,温度，活化时间处理下的对照组。因为处理方式不同得到不同结果是互不影响的,可以看出C Ｏ2的吸附量的值是互相独立编号孔容／(11 10L g μ--?） CO ２吸附量 1/()mL g -? 0。５~0。8nm 0.8～1.2nm １。2~１。8nm 1．8～2。２nm 2.2~２。2n ｍ 2。５~3。0ｎm 3．０~3。５ nm 1 7.１8 1６.2 2４.4 7５.２ 70 96 1１5 6４ 2 ６.59 1４.４ 18.4 53.7 50 85。6 ９1 5５.1 3 ４.５ 4 11 １8.9 ７1 ６ 5 7８.３ 91 53．７ 4 ５.13 13．4 2９。９１0。3 90 ７ 6 122 53。 7 5 4．16 １0．5 18。９ 83.８ 7８ 80。５ 1１３ 6１。7 6 4。92 12。1 23．４８1．6 7２ 56 9９ 53.6 7 5.0 8 12．6 2３.８９３.５８6 77.８ 12２６５。５ 8 ５.29 13 2５。1 ８８．4 ６9 ６６.４１07 5７。7 9 7.4７ 16.9 ２6.9 46。4 78 93.２ 107 5８．2 １０ 5.4４ 13 21．４ 44．１９1 98．6 137 76。6 １１１。81 64。６ 1８.3 53.1 １１４１１0 142 75 12 1.24 27.７ 39。5 126 114 98。６ 1８3 98.7

概率与数理统计典型例题

《概率与数理统计》第一章随机事件与概率典型例题一、利用概率的性质、事件间的关系和运算律进行求解 1.设,,A B C 为三个事件，且()0.9,()0.97P A B P A B C ==U U U ，则()________.P AB C -= 2.设,A B 为两个任意事件，证明：1|()()()|.4 P AB P A P B -≤ 二、古典概型与几何概型的概率计算 1.袋中有a 个红球，b 个白球，现从袋中每次任取一球，取后不放回，试求第k 次取到红球的概率.（a a b +） 2.从数字1,2,,9L 中可重复地任取n 次，试求所取的n 个数的乘积能被10整除的概率.（58419n n n n +--） 3.50只铆钉随机地取来用在10个部件上，其中有3个铆钉强度太弱，每个部件用3只铆钉，若将3只强度太弱的铆钉都装在一个部件上，则这个部件强度就太弱，从而成为不合格品，试求10个部件都是合格品的概率.（19591960 ） 4.掷n 颗骰子，求出现最大的点数为5的概率. 5.（配对问题）某人写了n 封信给不同的n 个人，并在n 个信封上写好了各人的地址，现在每个信封里随意地塞进一封信，试求至少有一封信放对了信封的概率. （01(1)! n k k k =-∑）

6.在线段AD上任取两点,B C，在,B C处折断而得三条线段，求“这三条线段能构成三角形”的概率.（0.25） 7.从(0,1)中任取两个数，试求这两个数之和小于1，且其积小于 3 16 的概率. （13 ln3 416 +）三、事件独立性 1.设事件A与B独立，且两个事件仅发生一个的概率都是 3 16 ，试求() P A. 2.甲、乙两人轮流投篮，甲先投，且甲每轮只投一次，而乙每轮可投两次，先投中者为胜.已知甲、乙每次投篮的命中率分别为p和1 3 .（1）求甲取胜的概率；（2）p求何值时，甲、乙两人的胜负概率相同？（ 95 ; 5414 p p p = + ）四、条件概率与积事件概率的计算 1.已知10件产品中有2件次品，现从中取产品两次，每次取一件，去后不放回，求下列事件的概率：（1）两次均取到正品；（2）在第一次取到正品的条件下第二次取到正品；（3）第二次取到正品；（4）两次中恰有一次取到正品；（5）两次中至少有一次取到正品.（28741644 ;;;; 45954545 ） 2.某人忘记了电话号码的最后一个数字，因而他随意地拨号，假设拨过了的数字不再重复，试求下列事件的概率：（1）拨号不超过3次而接通电话；（2）第3次拨号才接通电话.（0.3；0.1）五、全概率公式和贝叶斯公式概型 1.假设有两箱同种零件：第一箱内装50件，其中10件为一等品；第二箱内装30件，其中18件为一等品，现从两箱中随意挑选出一箱，然后从该箱中先后随机取出两个零件（取出的零件均不放回），试求：（1）先取出的零件是一等品的概率；（2）在先取出的零件是一等品的条件下，第二次取出的零件仍然是一等品的概率.（2690 ; 51421 ） 2.有100个零件，其中90个一等品，10个二等品，随机地取2个,安装在一台设备上，若2个零件中有i个（0,1,2 i=）二等品，则该设备的使用寿命服从参

excel一元及多元线性回归实例

野外实习资料的数理统计分析一元线性回归分析一元回归处理的是两个变量之间的关系，即两个变量X和Y之间如果存在一定的关系，则通过观测所得数据，找出两者之间的关系式。如果两个变量的关系大致是线性的，那就是一元线性回归问题。对两个现象X和Y进行观察或实验，得到两组数值：X1，X2,…，Xn和Y1，Y2，…，Yn,假如要找出一个函数Y=f(X),使它在 X=X1,X2, …,Xn时的数值f(X1),f(X2), …,f(Xn)与观察值Y1，Y2，…，Yn趋于接近。在一个平面直角坐标XOY中找出（X1，Y1），（X2，Y2），…，（Xn，Yn）各点，将其各点分布状况进行察看，即可以清楚地看出其各点分布状况接近一条直线。对于这种线性关系，可以用数学公式表示： Y = a + bX 这条直线所表示的关系，叫做变量Y对X的回归直线，也叫Y对X 的回归方程。其中a为常数，b为Y对于X的回归系数。对于任何具有线性关系的两组变量Y与X，只要求解出a与b的值，即可以写出回归方程。计算a与b值的公式为：

式中：为变量X的均值，Xi为第i个自变量的样本值，为因变量的均值，Yi为第i个因变量Y的样本值。n为样本数。当前一般计算机的Microsoft Excel中都有现成的回归程序，只要将所获得的数据录入就可自动得到回归方程。得到的回归方程是否有意义，其相关的程度有多大，可以根据相关系数的大小来决定。通常用r来表示两个变量X和Y之间的直线相关程度，r为X和Y的相关系数。r值的绝对值越大，两个变量之间的相关程度就越高。当r为正值时，叫做正相关，r为负值时叫做负相关。r 的计算公式如下：式中各符号的意义同上。在求得了回归方程与两个变量之间的相关系数后，可以利用F检验法、t检验法或r检验法来检验两个变量是否显著相关。具体的检验方法在后面介绍。

北航数理统计回归分析大作业

应用数理统计第一次大作业学号：姓名：班级： 2013年12月

国家财政收入的多元线性回归模型摘要本文以多元线性回归为出发点，选取我国自1990至2008年连续19年的财政收入为因变量，初步选取了7个影响因素,并利用统计软件PASW Statistics 17.0对各影响因素进行了筛选，最终确定了能反映财政收入与各因素之间关系的“最优”回归方程： 46?578.4790.1990.733y x x =++ 从而得出了结论，最后我们用2009年的数据进行了验证，得出的结果在误差范围内，表明这个模型可以正确反映影响财政收入的各因素的情况。关键词：多元线性回归，逐步回归法，财政收入，SPSS 0符号说明变量符号财政收入 Y 工业 X 1 农业 X 2 受灾面积 X 3 建筑业 X 4 人口 X 5 商品销售额 X 6

进出口总额X7

1 引言中国作为世界第一大发展中国家，要实现中华民族的伟大复兴，必须把发展放在第一位。近年来，随着国家经济水平的飞速进步，人民生活水平日益提高，综合国力日渐强大。经济上的飞速发展并带动了国家财政收入的飞速增加，国家财政的状况对整个社会的发展影响巨大。政府有了强有力的财政保证才能够对全局进行把握和调控，对于整个国家和社会的健康快速发展有着重要的意义。所以对国家财政的收入状况进行研究是十分必要的。国家财政收入的增长，宏观上必然与整个国家的经济有着必然的关系，但是具体到各个方面的影响因素又有着十分复杂的相关原因。为了研究影响国家财政收入的因素，我们就很有必要对其财政收入和影响财政收入的因素作必要的认识，如果能对他们之间的关系作一下回归，并利用我们所知道的数据建立起回归模型这对我们很有作用。而影响财政收入的因素有很多，如人口状况、引进的外资总额，第一产业的发展情况，第二产业的发展情况，第三产业的发展情况等等。本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据，包括工业，农业，建筑业，批发和零售贸易餐饮业，人口总数等。文中主要应用逐步回归的统计方法，对数据进行分析处理，最终得出能够反映各个因素对财政收入影响的最“优”模型。 2解决问题的方法和计算结果 2.1 样本数据的选取与整理本文在进行统计时，查阅《中国统计年鉴2010》中收录的1990年至2009年连续20年的全国财政收入为因变量，考虑一些与能源消耗关系密切并且直观上

数理统计复习题第五章

第五章大数定律与中心极限定理一、典型题解例1设随机变量X 的数学期望()(){}2,3E X u D X X u σσ==-≥方差，求P 的大小区间。解令3εσ=，则有切比雪夫不等式有： ()() ()22 221 ,339D X P X E X P X E X σεσεσ????-≥≤ -≥≤=????有例2在n 次独立试验中，设事件A 在第i 次试验中发生的概率为()1,2,....i p i n = 试证明：A 发生的频率稳定于概率的平均值。证设X 表示n 次试验中A 发生的次数，引入新的随机变量0i A X A ?=??1,发生? ，不发生 ()12,...i n =，，则X 服从()01-分布，故 ()()(),1i i i i i i i E X p D X p p p q ==-=，又因为 () ()2 2 4140i i i i i i i i p q p q p q p q -=+-=-≥，所以 ()()1 1,2, (4) i i i D X p q i n =≤ = 由切比雪夫大数定理，对,o ε?>有()11lim 1n i i n i p X E X n ε→∞ =?? -<=???????? ∑ 即 11lim 1n i n i X p p n n ε→∞ =?? -<=???? ∑ 例 3 对于一个学生而言，来参加家长会的家长人数是一个随机变量，设一个学生无家长，1名家长、2名家长来参加会议的概率分别为。若学校共有400名学生，设各学生参加会议的家长数相互独立，且服从同一分布。（1）求参加会议的家长数X 超过450的概率；（2）求有1名家长来参加会议的学生数不多于340的概率。解（1）以()400,,2,1 =k X k 记第k 个学生来参加会议的家长数，则k X 的分布律为 k X 0 1 2 k P 0.05 0.8 0.15

北航数理统计第二次大作业-数据分析模板

数理统计第二次大作业材料行业股票的聚类分析与判别分析 2015年12月26日

材料行业股票的聚类分析与判别分析摘要

1 引言 2 数据采集及标准化处理 2.1 数据采集本文选取的数据来自大智慧软件的股票基本资料分析数据，从材料行业的股票中选取了30支股票2015年1月至9月的7项财务指标作为分类的自变量，分别是每股收益（单位：元）、净资产收益率（单位：%）、每股经营现金流（单位：元）、主营业务收入同比增长率（单位：%）、净利润同比增长率（单位：%）、流通股本（单位：万股）、每股净资产（单位：元）。各变量的符号说明见表2.1，整理后的数据如表2.2。表2.1 各变量的符号说明自变量符号每股收益（单位：元）X1 净资产收益率（单位：%）X2 每股经营现金流（单位：元）X3 主营业务收入同比增长率（单位：%）X4 净利润同比增长率（单位：%）X5 流通股本（单位：万股）X6 每股净资产（单位：元）X7 表2.2 30支股票的财务指标股票代码X1 X2 X3 X4 X5 X6 X7 武钢股份600005-0.0990-2.81-0.0237-35.21-200.231009377.98 3.4444宝钢股份6000190.1400 1.980.9351-14.90-55.011642427.88 6.9197山东钢铁600022-0.11650.060.0938-20.5421.76643629.58 1.8734北方稀土6001110.0830 3.640.652218.33-24.02221920.48 2.2856

杭钢股份600126-0.4900-13.190.4184-36.59-8191.0283893.88 3.4497抚顺特钢6003990.219310.080.1703-14.26714.18112962.28 1.4667盛和资源6003920.0247 1.84-0.2141-5.96-19.3739150.00 1.2796宁夏建材6004490.04000.510.3795-22.15-92.3447818.108.7321宝钛股份600456-0.2090-2.53-0.3313-14.81-6070.2043026.578.1497山东药玻6005290.4404 5.26 1.2013 6.5016.7825738.018.5230国睿科技6005620.410011.53-0.2949 3.3018.9416817.86 3.6765海螺水泥600585 1.15169.05 1.1960-13.06-25.33399970.2612.9100华建集团6006290.224012.75-0.57877.90-6.4034799.98 1.8421福耀玻璃6006600.790014.250.9015 3.6017.27200298.63 6.2419宁波富邦600768-0.2200-35.02-0.5129 3.1217.8813374.720.5188马钢股份600808-0.3344-11.710.3939-21.85-689.22596775.12 2.6854亚泰集团6008810.02000.600.1400-23.63-68.16189473.21 4.5127博闻科技6008830.503516.71-0.1010-10.992612.8023608.80 3.0126新疆众和6008880.0523 1.04-0.910662.64162.0464122.59 5.0385西部黄金6010690.0969 3.940.115115.5125.5712600.00 2.4965中国铝业601600-0.0700-2.920.2066-9.0882.79958052.19 2.3811明泰铝业6016770.2688 4.66-1.09040.8227.8640770.247.4850金隅股份6019920.1989 3.390.3310-10.05-39.01311140.26 6.7772松发股份6032680.35007.00-0.3195-4.43-9.622200.00 6.0244方大集团0000550.0950 5.66-0.480939.2920.6742017.94 1.6961铜陵有色0006300.0200 1.220.6132 3.23-30.74956045.21 1.5443鞍钢股份000898-0.1230-1.870.7067-27.32-196.21614893.17 6.4932中钢国际0009280.572714.45-0.4048-14.33410.2441286.57 4.2449中材科技0020800.684610.27 1.219547.69282.1740000.00 6.8936中南重工0024450.1100 4.300.340518.8445.0950155.00 2.7030 2.2 数据的标准化处理由于不同的变量之间存在着较大的数量级的差别，因此要对数据变量进行标准化处理。本文采用Z得分值法标准化的方法进行标准化，用x的值减去x的均值再除以样本的方差。也就是把个案转换为样本均值为0、标准差为1的样本。如果不同变量的变量值数值相差太大，会导致计算个案间距离时，由于绝对值较小的数值权数较小，个案距离的大小几乎由大数值决定，标准化过程可以解决此类问题，使不同变量的数值具有同等的重要性。经Z标准化输出结果见表 2.2。表2.2 经Z标准化后的数据 ZX1ZX2ZX3ZX4ZX5ZX6ZX7

数理统计复习题第八章

第七章假设检验三、典型题解例1：某车间用一台包装机包装葡萄糖, 包得的袋装糖重是一个随机变量, 它服从正态分布.当机器正常时, 其均值为0.5千克, 标准差为0.015千克.某日开工后为检验包装机是否正常, 随机地抽取它所包装的糖9袋, 称得净重为(千克): 0.498 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512, 问机器是否正常? 解: 根据样本值判断5.05.0≠=μμ还是.提出两个对立假设 0100:5.0:μμμμ≠==H H 和选择统计量：)1,0(~/0 N n X Z σμ-= 取定0.05a =，则/20.025 1.96,z z a ==又已知 9, 0.015, n s ==由样本计算得0.511x =， 2.2 1.96=>，于是拒绝假设 0H , 认为包装机工作不正常. 例2：某工厂生产的固体燃料推进器的燃烧率服从正态分布),(2 σμN ， s cm s cm /2,/40==σμ，现用新方法生产了一批推进器，从中随机取25n =只，测得燃烧率的样本均值为s cm x /25.41=.设在新方法下总体均方差仍为s cm /2，问这批推进器的燃烧率是否较以往生产的推进器的燃烧率有显著的提高？（取显著性水平05.0=α）解：根据题意需要检验假设 00 :40H m m ?（即假设新方法没有提高了燃烧率）, 10 :H m m >（即假设新方法提高了燃烧率）, 这是右边检验问题，拒绝域为 0.05 1.645x z z = ?，由 3.125 1.645 x z = =>可得z 值落到拒绝域中故在显著性水平0.05 a =下拒绝0 H . 即认为这批推进器的燃烧率较以往有显著提高. 例3：某切割机在正常工作时, 切割每段金属棒的平均长度为10.5cm, 标准差是0.15cm, 今

(完整版)多元线性回归模型习题及答案

多元线性回归模型一、单项选择题 1.在由30n =的一组样本估计的、包含3个解释变量的线性回归模型中，计算得多重决定系数为0.8500，则调整后的多重决定系数为（ D ） A. 0.8603 B. 0.8389 C. 0.8655 D.0.8327 2.下列样本模型中，哪一个模型通常是无效的（B ） A. i C （消费）=500+0.8 i I （收入） B. d i Q （商品需求）=10+0.8i I （收入）+0.9i P （价格） C. s i Q （商品供给）=20+0.75i P （价格） D. i Y （产出量）=0.650.6i L （劳动）0.4 i K （资本） 3.用一组有30个观测值的样本估计模型01122t t t t y b b x b x u =+++后，在0.05的显著性水平上对1 b 的显著性作t 检验，则1 b 显著地不等于零的条件是其统计量t 大于等于（ C ） A. )30(05.0t B. ) 28(025.0t C. ) 27(025.0t D. ) 28,1(025.0F 4.模型 t t t u x b b y ++=ln ln ln 10中，1b 的实际含义是（ B ） A.x 关于y 的弹性 B. y 关于x 的弹性 C. x 关于y 的边际倾向 D. y 关于x 的边际倾向 5、在多元线性回归模型中，若某个解释变量对其余解释变量的判定系数接近于１，则表明模型中存在（ C ） A.异方差性 B.序列相关 C.多重共线性 D.高拟合优度 6.线性回归模型01122......t t t k kt t y b b x b x b x u =+++++ 中，检验0:0(0,1,2,...) t H b i k ==时，所用的统计量服从( C ) A.t(n-k+1) B.t(n-k-2) C.t(n-k-1) D.t(n-k+2)

数理统计-回归分析

国家财政收入的逐步回归分析应用数理统计课程论文 2012届材料科学与工程学院学号姓名

2012年11月18日

摘要财政作为一国政府的活动，是政府职能的具体体现，主要有资源配置、收入再分配和宏观经济调控三大职能。财政收入是政府部门公共收入，是国民收入分配中用于保证政府行使其公共职能，实施公共政策以及提供公共服务的资金需求。财政收入的增长状况关系着一个国家经济的发展和社会的进步。本文选取了我国自1979至2010年间的财政收入数据，并选取了7个可能的影响因素，利用SPSS 统计软件，运用多元线性回归的逐步回归方法建立了国家财政收入的回归模型。得出了影响国家财政收入的显著性变量，并将所得到的模型给予了合理的经济解释。关键词：财政收入 SPSS 回归分析

目录 1.引言 (1) 1.1 理论回归方程 (1) 1.2研究意义 (1) 1.3 研究内容及方法 (1) 2.数据统计 (2) 2.1 数据的收集 (2) 2.2 散点图 (3) 2.3 逐步回归分析 (5) 3. 结论和讨论 (8) 3.1 结论 (8) 3.2 讨论 (8) 参考文献 (9)

1.引言 1.1 理论回归方程 Y=β0+β1X1+β2X2+……+βp X p +ε E (ε) =0, Var (ε) =σ2 式中，β0，β1，β2，……βp，σ2是与X1，X2，……X p无关的未知参数 ε是不可观测的随机变量。 1.2研究意义财政收入，是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内（一般为一个财政年度）所取得的货币收入。财政收入是衡量一国政府财力的重要指标，政府在社会经济活动中提供公共物品和服务的范围和数量，在很大程度上决定于财政收入的充裕状况。财政收入对国民经济的运行及社会发展具有重要影响。 1.3 研究内容及方法影响财政收入的因素有很多，如工业总产值、农业总产值、建筑业总产值、社会消费品零售总额等。如何找到影响财政总收入的各个因素，并建立它们与财政收入的数学模型是十分必要的。基于此目的，本文从国家统计信息网上选取了1997-2010年间的年度财政收入及主要影响因素的数据，包括工业总产值、农业总产值、建筑业总产值、社会消费品零售总额等，并进一步采用多元逐步回归分析方法对以上因素进行了显著性分析，从而确定了关于财政收入的最优多元线型回归方程。

北航数理统计聚类分析大作业

应用数理统计大作业（二）部分省市经济类型的聚类和判别分析学院：学号：姓名：班级：机械工程及自动化学院 SY1007??? XXXXX 51班 2011年1月7日

目录摘要 (1) 符号说明 (1) 0 引言 (1) 1 源数据的提取 (1) 2 聚类分析过程 (2) 2.1 基本概念 (2) 2.2 聚类分析过程 (2) 2.3判别分析 (5) 2.4分类结果分析 (7) 3 结论 (7) 参考文献 (8)

部分省市经济类型的聚类和判别分析摘要一个省市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等息息相关，本文利用统计软件SPSS，对北京市等13省市2008年的地区生产总值（亿元）、职工人均工资（元）、第一、二、三产业各自在国民生产总值中占的比重作为判别经济类型的五个因素，进行聚类分析，得出了分类结果，分类结果和我们的直观判断相吻合。本文所进行的分析结果在一定程度上反映了这些省市的经济类型和经济特点。关键词：经济类型，聚类分析，判别分析，SPSS 符号说明符号说明 X1 地区生产总值 X2职工人均工资 X3第一产业在国民生产总值中占的比重 X4第二产业在国民生产总值中占的比重 X5第三产业在国民生产总值中占的比重0 引言随着中国经济迅速发展，各个省市自治区的经济呈现出各自不同的发展态势。通过研究各省市的经济发展状况和经济类型对于正确认识我国的经济发展情况具有重要意义。一个省自治区直辖市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等因素息息相关，本文利用功能强大的统计软件SPSS，对北京市、天津市、河北省、辽宁省、江苏省、浙江省、安徽省、湖北省、湖南省、河南省、广东省、四川省和山东省2008年的地区生产总值（亿元）、职工人均工资（元）、第一、二、三产业各自在国民生产总值中占的比重作为判别经济类型的五个因素，进行聚类分析，结果北京市和天津市属于一类，河北省、浙江省和河南省属于一类，辽宁省、安徽省、湖南省、湖北省、四川省属于一类，江苏省、山东省、广东省属于一类，这个结果和我们的直观判断一致。这个结果也充分说明了本文进行的分析是合理的，具有一定的科学性。 1 源数据的提取本文所用的数据全来自2009年出版的《中国统计年鉴》，从中提取了有关北京市、天津市、河北省、辽宁省、江苏省、浙江省、安徽省、湖北省、湖南省、

多元线性回归模型练习题及答案

多元线性回归模型练习一、单项选择题 1. 在由n =30的一组样本估计的、包含3个解释变量的线性回归模型中，计算得可决系数为0.8500，贝U 调整后的可决系数为（D ） A. 0.8603 B. 0.8389 C. 0.8655 D.0.8327 2. 用一组有30个观测值的样本估计模型 y t =b o ? b i x it b 2 X 2t U t 后，在0.05的显著性水平上对b l 的显著性作t 检验，则b l 显著地不等于零的条件是其统计量 t 大于等于（C ） A t o 』5（3O ） B t o.025 （28） C t o.o25（27） D F 0.025 （1,28） 3. 线性回归模型y t =b ° "旳+6x 21 + ............ +b k X kt +4中，检验 A H o ：b =0（i 二。，1,2 ，.*）时，所用的统计量 / ■■ ■X 服从（C ） A.t (n-k+1) B.t (n-k-2) C.t (n-k-1) D.t( n k+2) 4. 调整的可决系数 :与多元样本判定系数: ‘之间有如下关系（ D) R 2= n " R 2 R 2 =1 - n " R 2 A . n- k-1 B. n -k -1 R 2=1 - n " (1 R 2) R 2 =1 - n " (1-R 2 ) C n —k -1 D. n- k-1 5.对模型Y = B 0+ B 1X i + B 2X 2i + 卩 i 进行总体显著性F 检验，检验的零假设是 A ) A . B 1= B 2=0 B. B 1=0 C .B 2=0 D. B 0=0 或 B 1=0 6?设 k 为回归模型中的参数个数，n 为样本容量。则对多元线性回归方程进行显著性检验时，所用的F 统计量可表示为（ B ） ESS （n-k ）一k A. RSS （k-1） B . （1-R 2 ）/（n —k — 1 ） R 2 (n - k) C. (1 - R 2) '(k-1) 7.多元线性回归分析中（回归模型中的参数个数为 k ），调整后的可决系数 R 2与可决系数R 2之间的关系（ A ） n -1 R 2 =1 _（1 _R 2 ） ESS/(k-1) D. TSS (n-k)

应用数理统计大作业1——逐步回归法分析终

应用数理统计多元线性回归分析（第一次作业）学院：机械工程及自动化学院姓名：学号： 2014年12月

逐步回归法在AMHS物流仿真结果中的应用摘要：本文针对自动化物料搬运系统(Automatic Material Handling System，AMHS)的仿真结果，根据逐步回归法，使用软件IBM SPSS Statistics 20，对仿真数据进行分析处理，得到多元线性回归方程，建立了工件年产量箱数与EMS数量、周转箱交换周期以及AGC物料交换服务水平之间的数学模型，并对影响年产量箱数的显著性因素进行了分析，介绍了基本假设检验的情况。关键词：逐步回归；残差；SPSS；AMHS；物流仿真

目录 1、引言 (1) 2、逐步回归法原理 (4) 3、模型建立 (5) 3.1确定自变量和因变量 (5) 3.2分析数据准备 (6) 3.3逐步回归分析 (7) 4、结果输出及分析 (8) 4.1输入／移去的变量 (8) 4.2模型汇总 (9) 4.3方差分析 (9) 4.4回归系数 (10) 4.5已排除的变量 (11) 4.6残差统计量 (11) 4.7残差分布直方图和观测量累计概率P-P图 (12) 5、异常情况说明 (13) 5.1异方差检验 (13) 5.2残差的独立性检验 (14) 5.3多重共线性检验 (15) 6、结论 (15) 参考文献 (17)

1、引言回归被用于研究可以测量的变量之间的关系，线性回归则被用于研究一类特殊的关系，即可用直线或多维的直线描述的关系。这一技术被用于几乎所有的研究领域，包括社会科学、物理、生物、科技、经济和人文科学。逐步回归是在剔除自变量间相互作用、相互影响的前提下，计算各个自变量x与因变量y之间的相关性，并在此基础上建立对因变量y有最大影响的变量子集的回归方程。 SPSS(Statistical Package for the Social Science社会科学统计软件包)是世界著名的统计软件之一，目前SPSS公司已将它的英文名称更改为Statistical Product and Service Solution，意为“统计产品与服务解决方案”。SPSS软件不仅具有包括数据管理、统计分析、图表分析、输出管理等在内的基本统计功能，而且用它处理正交试验设计中的数据程序简单，分析结果明了。基于以上优点，SPSS已经广泛应用于自然科学、社会科学中，其中涉及的领域包括工程技术、应用数学、经济学、商业、金融等等。本文研究内容主要来源于“庆安集团基于物联网技术的航空柔性精益制造系统”，在庆安集团新建的320厂房建立自动化物料搬运系统（AMHS），使用生产仿真软件EM-Plant对该系统建模并仿真，设计实验因子及各水平如表1-1，则共有3*4*6=72组实验结果，如表所示。为方便描述，将各因子定义为：X1表示AGC物料交换服务水平，X2表示周转箱交换周期，X3表示EMS数量，Y表示因变量年产量箱数。本文目的就是建立年产量箱数与AGC物料交换服务水平、周转箱交换周期和EMS数量之间的关系。表1-1 三因子多水平实验方案

北航数理统计期末考试题

材料学院研究生会学术部 2011年12月 2007-2008学年第一学期期末试卷一、（6分，A 班不做）设x 1，x 2，…，x n 是来自正态总体2(,)N μσ的样本，令 )x x T -= ，试证明T 服从t -分布t （2）二、（6分，B 班不做）统计量F-F(n,m)分布，证明 111(,)F F n m αααα-的（0<<1）的分位点x 是。三、（8分）设总体X 的密度函数为其中1α>-，是位置参数。x 1，x 2，…，x n 是来自总体X 的简单样本，试求参数α的矩估计和极大似然估计。四、（12分）设总体X 的密度函数为 1x exp x (;) 0 , p x μμσσσ??-? -≥??? =????? ，其它，其中,0,μμσσ-∞<<+∞>已知，是未知参数。x 1，x 2，…，x n 是来自总体X 的简单样本。（1）试求参数σ的一致最小方差无偏估计σ∧ ；（2）σ∧ 是否为σ的有效估计？证明你的结论。

五、（6分，A 班不做）设x 1，x 2，…，x n 是来自正态总体211(,)N μσ的简单样本，y 1，y 2，…，y n 是来自正态总体222(,)N μσ的简单样本，且两样本相互独立，其中221122,,,μσμσ是未知参数，2212σσ≠。为检验假设012112:, :,H H μμμμ=≠可令12, 1,2,..., , ,i i i z x y i n μμμ=-==-则上述假设检验问题等价于0111:0, :0,H H μμ=≠这样双样本检验问题就变为单检验问题。基于变换后样本z 1，z 2，…，z n ，在显著性水平α下，试构造检验上述问题的t-检验统计量及相应的拒绝域。六、（6分，B 班不做）设x 1，x 2，…，x n 是来自正态总体20(,)N μσ的简单样本，0μ已知，2σ未知，试求假设检验问题 22220010:, :H H σσσσ≥<的水平为α 的UMPT 。七、（6分）根据大作业情况，试简述你在应用线性回归分析解决实际问题时应该注意哪些方面？八、（6分）设方差分析模型为总离差平方和试求A E(S )，并根据直观分析给出检验假设012:...0P H ααα====的拒绝域形式。九、（8分）某个四因素二水平试验，除考察因子A 、B 、C 、D 外，还需考察A B ?，B C ?。今选用表78(2)L ，表头设计及试验数据如表所示。试用极差分析指出因子的主次顺序和较优工艺条件。

数理统计第二次大作业——聚类与判别分析

地区生产总值及经济发展状况的统计分析学号：姓名：摘要：本文运用统计学方法，基于从2006和2007年度分地区生产总值的各项指标数据对各省市自治区经济发展状况进行了分类研究。研究结果显示了我国各省市的经济优势地区和经济薄弱地区，对更好地进行统筹规划，促进各地区经济健康协调发展有积极意义。对各地区的经济发展状况进行的聚类和判别分析结果显示，北京﹑上海﹑山东﹑广东等东部沿海省份及直辖市在经济发展中处于领先地位，属于经济较发达地区；辽宁﹑湖南﹑河南等中部省份处于中游，属于中等发达地区；而位于我国西部的西藏﹑青海﹑宁夏等省份，经济发展较为缓慢，属于欠发达地区。分析结果与我国目前地区经济发展情况基本相符。关键词：地区生产总值，地区经济发展， SPSS，聚类分析，判别分析 1.引言国内生产总值是某国家领土面积内的经济情况的度量。是指在一定时期内(一个季度或一年)，一个国家或地区的经济中所生产出的全部最终产品和劳务的价值，常被公认为衡量国家经济状况的最佳指标。它不但可反映一个国家的经济表现，更可以反映一国的国力与财富。地区生产总值是指由地方政府组织、支配的生产总值。是地方经济建设、政府机器运行和各方面事业发展的关键因素和物质基础。分地区生产总值可以较为准确反映地区经济发展状况，通过建立地区生产总值模型，对各地区经济发展状况进行分类，具有一定的准确性和合理性。本文应用数理统计软件SPSS对各地区生产总值进行聚类和判别分析，分析和评定各地区经济发展情况，同时对各地区进行分类，确定经济优势地区和经济薄弱地区。 2.地区经济发展的聚类和判别分析分地区生产总值主要包括的内容有: (1)第一产业: 包括农、林、牧、渔业。 (2)第二产业: 包括工业及建筑业。 (3)第三产业: 包括交通运输、仓储和邮政业、批发和零售业、住宿和餐饮业、金融业、房地产业及其他产业。 (一)相关自变量的选择本文从分析各地区生产总值的主要内容出发，展开对地区经济发展的聚类分析。鉴于第一产业的各个元素在地区生产总值中所占比重不大，为了便于分析，我们将农林牧渔等第一产业部分合为一类，与工业、建筑业、交通运输、仓储和邮政业、批发和零售业、住宿和餐

数理统计典型例题分析

典型例题分析例1．分别从方差为20和35的正态总抽取容量为8和10的两个样本，求第一个样本方差是第二个样本方差两倍的概率的范围。解以21 S 和22 S 分别表示两个（修正）样本方差。由22 22 12σσy x S S F =知统计量 22 2 1222175.13520S S S S F == 服从F 分布，自由度为（7，9）。 1）事件{}2 2 212S S =的概率 {}{}05.32035235 20222221222122 2 1 ===??? ????==??????===F P S S P S S P S S P 因为F 是连续型随机变量，而任何连续型随机变量取任一给定值的概率都等于0。 2）现在我们求事件{}二样本方差两倍第一样本方差不小于第=A 的概率： {} {}5.322 221≥=≥=F P S S P p 。由附表可见，自由度9,721==f f 的F 分布水平α上侧分位数),(21f f F α有如下数值： )9,7(20.45.329.3)9,7(025.005.0F F =<<=。由此可见，事件A 的概率p 介于0.025与0.05之间；05.0025.0<

解由随机变量2χ分布知，随机变量σ/12S n ）（-服从2χ分布，自由度 1-=n v ，于是，有 {}{}95.0)1(5.1)1(5.1)1(2,05.0222 2=≤≥-≤=? ?????-≤-=v v v P n P n S n P χχχσ 其中2v χ表示自由度1-=n v 的2χ分布随机变量，2 ,05.0v χ是自由度为1-=n v 的水平05.0=α的2χ分布上侧分位数（见附表）。我们欲求满足 2,05.015.1v n χ≥-）（的最小1+=v n 值，由附表可见 2 26,05.0885.3839)127(5.1χ=>=-， 22505.0652.375.401265.1，）（χ=<=-。于是，所求27=n 。例3．假设随机变量X 在区间[]1,+θθ上有均匀分布，其中θ未知： )(1n X X ，，是来自X 的简单随机样本，X 是样本的均值，{} n X X X ,,min 1)1( =是最小观察值。证明 21?1-=X θ 和 11?12+-=n X ）（θ 都是θ的无偏估计量。解由X 在[]1,+θθ上均匀分布，知2/)12(+==θEX EX i 。 1）由 θθθθ=-+=-+=-=∑∑==2 121212221211?111n i n i i n EX n E ，可见1?θ是θ的无偏估计量。 2）为证明2?θ是θ的无偏估计。我们先求统计量)1(X 的概率分布。

文档之家