数据分析上机实验模拟题
- 格式:doc
- 大小:967.00 KB
- 文档页数:18
数据分析上机实验模拟题
一.第一章 数据的描述性分析
1.建立数据集
设有数据集如下: LIMING 23 56 170 LIUHUA 25 60 174 ZHANGWEI 30 65 165
相应变量分别为NAME ,AGE ,WEIGHT 和HEIGHT ,输入数据以建立一个名为exe_1的SAS 数据集,并打印输出. 2.数据的描述性分析
例1.2 对血清蛋白含量,利用PROC UNIVARITE 过程,求数据的方差、标准差、变异系数、极差、四分位极差、四分位标准差,程序如下: 练习:利用MEANS 过程求上述基本统计量。
二.回归分析
1.线性回归模型及其参数估计(模型及矩阵表示、参数估计及性质);
εββββ+++++=--1122110p p X X X Y
11
22110--∧
∧∧∧∧++++=p p X X X Y ββββ
矩阵表示 εX βY +=
Y X X X βT
T 1)(-∧
= HY βX Y ==∧
∧
2.统计推断(回归方程的显著性检验、回归系数的显著性检验、预测及其置信区间、与回归系数有关的假设检验的一般方法); (1) 回归方程的显著性检验:
SSR SSE y y SST n i i +=-=∑=12
)(, ∑=∧
-=n
i i i y y SSE 12
)(,∑=∧
-=n
i i y y SSR 1
2
)(
检验假设:0:1210====-p H βββ ,
统计量),1(~)
/()1/(0p n p F p n SSE p SSR F H ----=真
,
α<≥=)(00F F P p H 时,拒绝0H
(2)回归系数的统计推断: 检验假设0:0=k k H β,
统计量 )(~)
(0p n t s t H k k
k -=
∧
∧
真
ββ,
α<≥=|)||(|000k k H k t t P p k ,拒绝k H 0
k β的置信区间:)()(2
1k k s p n t
∧
-
∧
-±ββα
(3)预测及统计推断:∧
∧
--∧
∧
∧
=++=ββββT p p x x x y 01,0101100,
0y 的置信区间: ]
)(1[)(01
02
10x X X x --
∧
+-±T T MSE p n t
y α
3.残差分析及处理措施(误差的正态性检验、残差图分析、Box-Cox 变换); (1)误差的正态性检验 1)残差正态性的频率检验 2)残差的正态QQ 图检验
),()()(i i r q ),,2,1(n i =近似一条直线,
∑∑∑===∧
-⋅---=
n
i i n
i i i i i q q r r
q q r r
1
)(1
2
)
(1
)()
()
()()
)((ρ1≈∧
ρ
(2)残差图分析 ),(),,(∧
∧∧∧εεi X y 3)Box-Cox 变换
⎪⎩⎪
⎨⎧=≠-=0,
ln 0,1
)
(λλλλλY Y Y 选择λ,使 )(1)()())()();(λλλλZ X X X(X Z Z T T T I SSE --=最小
4.回归方程的选取 (1)穷举法
评价回归方程优良性的准则:修正的复相关系数准则;p C 准则,预测平方和准则 (2)逐步回归法
例2.3某科学基金会的管理人员欲了解从事研究工作的中、高水平的数学家的年工资额Y 与他们的研究成果的质量指标1X 、从事研究工作的时间2X 以及能获得资助的指标3X .为此按一定的设计方案调查了24位此类型的数学家,得数据如书上表2.3所示.
(1)假设误差服从),0(2σN 分布,建立Y 与321,,X X X 之间的线性回归方程并研究相
应的统计推断问题
.
(2)假设某位数学家的关于321,,X X X 的值为)(2.7,20,1.5),,(030201=x x x ,试预测他的年工资额并给出置信度为95%的置信区间.
三.方差分析----单因素
1.单因素方差分析
(1)统计模型
因变量Y —因素A ,水平a A A A ,,,21 ,i A 上观测值i
in i i y y y 1,,,21
⎪⎩
⎪⎨⎧==+==相互独立且各ij ij i ij i ij N a
i n j y εσεεμ),,0(~,,2,1,,,2,1,2
A E i a
i i a
i n j i ij a
i n j ij T SS SS y y n y y y y SS i
i
+=-+-=-=•===•==∑∑∑∑∑21
11
2
11
2
)()()(
)(~2
2
a n SS E
-χσ,a n SS E
-=
∧2
σ, )1(~220-a SS H A χσ
真 (2) 显著检验
a H μμμ=== 210:
),1(~)/()1/(0a n a F MS MS a n SS a SS F H E
A
E A --=
--=为真
)),1(()(0f a n a F P f F P p H ≥--=≥=α<,拒绝0H .
(3)置信区间 (略)
i n j ij i i n y y i
/1
∑=•∧
==μ ),,2,1(a i =
i μ置信度α-1的置信区间⎪⎪⎭
⎫
⎝
⎛-+---
•-
•i E i i E i n MS a n t
y n MS a n t
y /)(,/)(212
1αα, j i μμ-置信度α-1的置信区间为
⎪⎪⎭
⎫ ⎝
⎛
+-+-+----
••-••E j i E j i MS n n a n t
y y MS n n a n t y y )1
1()(,)11()(2
12
12
121αα m 个j i μμ-的置信度至少α-1的同时置信区间