数据分析上机实验模拟题

  • 格式:doc
  • 大小:967.00 KB
  • 文档页数:18

下载文档原格式

  / 18
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据分析上机实验模拟题

一.第一章 数据的描述性分析

1.建立数据集

设有数据集如下: LIMING 23 56 170 LIUHUA 25 60 174 ZHANGWEI 30 65 165

相应变量分别为NAME ,AGE ,WEIGHT 和HEIGHT ,输入数据以建立一个名为exe_1的SAS 数据集,并打印输出. 2.数据的描述性分析

例1.2 对血清蛋白含量,利用PROC UNIVARITE 过程,求数据的方差、标准差、变异系数、极差、四分位极差、四分位标准差,程序如下: 练习:利用MEANS 过程求上述基本统计量。

二.回归分析

1.线性回归模型及其参数估计(模型及矩阵表示、参数估计及性质);

εββββ+++++=--1122110p p X X X Y

11

22110--∧

∧∧∧∧++++=p p X X X Y ββββ

矩阵表示 εX βY +=

Y X X X βT

T 1)(-∧

= HY βX Y ==∧

2.统计推断(回归方程的显著性检验、回归系数的显著性检验、预测及其置信区间、与回归系数有关的假设检验的一般方法); (1) 回归方程的显著性检验:

SSR SSE y y SST n i i +=-=∑=12

)(, ∑=∧

-=n

i i i y y SSE 12

)(,∑=∧

-=n

i i y y SSR 1

2

)(

检验假设:0:1210====-p H βββ ,

统计量),1(~)

/()1/(0p n p F p n SSE p SSR F H ----=真

α<≥=)(00F F P p H 时,拒绝0H

(2)回归系数的统计推断: 检验假设0:0=k k H β,

统计量 )(~)

(0p n t s t H k k

k -=

ββ,

α<≥=|)||(|000k k H k t t P p k ,拒绝k H 0

k β的置信区间:)()(2

1k k s p n t

-

-±ββα

(3)预测及统计推断:∧

--∧

=++=ββββT p p x x x y 01,0101100,

0y 的置信区间: ]

)(1[)(01

02

10x X X x --

+-±T T MSE p n t

y α

3.残差分析及处理措施(误差的正态性检验、残差图分析、Box-Cox 变换); (1)误差的正态性检验 1)残差正态性的频率检验 2)残差的正态QQ 图检验

),()()(i i r q ),,2,1(n i =近似一条直线,

∑∑∑===∧

-⋅---=

n

i i n

i i i i i q q r r

q q r r

1

)(1

2

)

(1

)()

()

()()

)((ρ1≈∧

ρ

(2)残差图分析 ),(),,(∧

∧∧∧εεi X y 3)Box-Cox 变换

⎪⎩⎪

⎨⎧=≠-=0,

ln 0,1

)

(λλλλλY Y Y 选择λ,使 )(1)()())()();(λλλλZ X X X(X Z Z T T T I SSE --=最小

4.回归方程的选取 (1)穷举法

评价回归方程优良性的准则:修正的复相关系数准则;p C 准则,预测平方和准则 (2)逐步回归法

例2.3某科学基金会的管理人员欲了解从事研究工作的中、高水平的数学家的年工资额Y 与他们的研究成果的质量指标1X 、从事研究工作的时间2X 以及能获得资助的指标3X .为此按一定的设计方案调查了24位此类型的数学家,得数据如书上表2.3所示.

(1)假设误差服从),0(2σN 分布,建立Y 与321,,X X X 之间的线性回归方程并研究相

应的统计推断问题

(2)假设某位数学家的关于321,,X X X 的值为)(2.7,20,1.5),,(030201=x x x ,试预测他的年工资额并给出置信度为95%的置信区间.

三.方差分析----单因素

1.单因素方差分析

(1)统计模型

因变量Y —因素A ,水平a A A A ,,,21 ,i A 上观测值i

in i i y y y 1,,,21

⎪⎩

⎪⎨⎧==+==相互独立且各ij ij i ij i ij N a

i n j y εσεεμ),,0(~,,2,1,,,2,1,2

A E i a

i i a

i n j i ij a

i n j ij T SS SS y y n y y y y SS i

i

+=-+-=-=•===•==∑∑∑∑∑21

11

2

11

2

)()()(

)(~2

2

a n SS E

-χσ,a n SS E

-=

∧2

σ, )1(~220-a SS H A χσ

真 (2) 显著检验

a H μμμ=== 210:

),1(~)/()1/(0a n a F MS MS a n SS a SS F H E

A

E A --=

--=为真

)),1(()(0f a n a F P f F P p H ≥--=≥=α<,拒绝0H .

(3)置信区间 (略)

i n j ij i i n y y i

/1

∑=•∧

==μ ),,2,1(a i =

i μ置信度α-1的置信区间⎪⎪⎭

⎛-+---

•-

•i E i i E i n MS a n t

y n MS a n t

y /)(,/)(212

1αα, j i μμ-置信度α-1的置信区间为

⎪⎪⎭

⎫ ⎝

+-+-+----

••-••E j i E j i MS n n a n t

y y MS n n a n t y y )1

1()(,)11()(2

12

12

121αα m 个j i μμ-的置信度至少α-1的同时置信区间