当前位置:文档之家› 非参数统计学讲义相关与回归

非参数统计学讲义相关与回归

非参数统计学讲义相关与回归
非参数统计学讲义相关与回归

非参数统计学讲义

主讲:统计系 袁靖

第五章 相关和回归

§1 引言

所谓相关,是指两组或两组以上观察结果之间的连带性或联系。换句话说,也就是各组观察结果所反映的特性之间有关系。如几个亲生兄弟间的智商与出生顺序有关系,受教育程度与性别有关系,出生率X 和文盲率Y 之间的关系等等。在实际问题的研究中,人们常常想知道两组或两组以上的观察结果是否有联系,同时也想知道联系的程度如何。前面的统计检验能够在一定的显著性水平上,确定各组观察值的关系是否存在。相关方法被用来度量两个或更多变量之间的线性关系的强度,是回归分析的基础。 在数理统计学中,我们使用相关系数定义变量X 和变量Y 之间的相关性。

)

var()var(),cov(),(Y X Y X Y X corr =

=ρ1

(0.1>对于样本),(11Y X ,),(22Y X ,……,),(n n Y X 来说,Pearson 相关系数为

∑∑∑∑∑∑----=

----=

2

2

2

2

11)

()())(()

()()

)((Y Y X X Y Y X X Y Y X X Y Y X X r i i i i i i n

i i n (0.2>如果在这个样本中的n 个观察值独立,则r 是ρ的渐近无偏估计;如果它又是二元正态分布,则r 是

ρ的ML 估计。

为了检验0:0=ρH ,0:1≠ρH ,可以选取统计量)2(~122

---=n t r n r

t

结论:Pearson 相关系数度量的是一种线性关系,而我们所要介绍的非参数的Spearman 秩相关系数s

r 和Kendall τ相关系数实际上度量的是一种形式的相依联系,或是更广义的单调关系。因此相关的概念被推广,不仅指线性相关,而泛指相依或联系。§2 两个样本的相关分析

一、 等级相关

等级相关(Rank Correlation>也称作级序相关,用于两个至少是定序尺度测量的样本问相关程度的测定

研究背景

1

ρ度量了总体样本点在标准差线周围的聚集程度,详见笔记P38。

1. 基本方法

两个样本X 、Y ,其观察数据可以配对为),(11Y X ,),(22Y X ,……,),(n n Y X 。将n x x x ,,,21 排序后评秩,其秩记作U ,与i x 相对应的秩为),,2,1(n i U i =;同样,n y y y ,,,21 排序后评秩,秩记作V ,与

i y 相对应的秩为),,2,1(n i V i =。这样得到的n 对秩),(11V U ,),(22V U ,…,),(n n V U 可能每一对完全相

等,也可能不等。由于每一样本都是n 个数据评秩,因此i U 与i V 的取值都是从1到n 。X 、Y 的秩可能完全一致,即对于所有的i 来说,有i U =i V ,表5—1是完全一致的评秩结果。X 、Y 的秩可能完全相反,表5—2是完全相反的评秩结果。如果X 、Y 完全相关,应该对于所有的i 有i U =i V ,即i U —i V =0。因此,i U 与i V 之差可以用来度量X 、Y 的相关程度。定义i i i V U D -=

表5-1 完全一致的评秩 X 的秩 Y 的秩 1 1 2 2 …

n -1 n -1 n

n 表5-2 完全相反的评秩 1 n 2 n -1 …

… n -1 2 n 1

i i i D 可正可负,直接用∑=n

i i D 1测度相关,会出现正负i D 抵消,而不能真实反映i U 与i V 差值的大小,所以宜

采用∑=n

i i D 1

2,即∑∑

==-=n

i i i n

i i V U D 1

21

2)((0.3><5.3)式的这个秩差值平方和的大小既受到n 的多少的影响,又受到两组秩不一致程度的影响,因此,采用相对的测量指标有利于说明X 、Y 的相关程度。因为∑2i D 的最大值反映X 、Y 完全不相关的情况,所以,用<5.3)式除以∑2i D 的最大值,可用来评价X 、Y 之间秩的差值是否与完全不相关时接近。若实际计算的∑2i D 与X 、Y 完全不相关情况下的∑-2)(i i V U 接近,那么两个样本的相关程度较低,若实

际计算的∑2i D 与∑2i D 最大值的比越小,则两个样本的相关程度越高。∑2i D 的最大值即X 、Y 间完全不相关情况下的秩差值平方和,可以根据表5—2所列的数据计算。因为这是X 、Y 完全不相关的评秩结果。∑2i D 的最大值为3/)1(])3()1[(2)1()]1(2[]2)1[()1(2222222-=+-+-=-+--++--+-n n n n n n n n (0.4><5.4)式的中括号内最后一项,当n 为奇数时是22;n 为偶数时是12。 <5.3)式除以<5.4)式得到

)

1(33

/)1(2222

-=

-∑∑n n D n n D i i (0.5><5.5)式的取值从0到1。根据表5-1中的数据计算<5.5)式值为0,表5-2中的数据计算的<5.5)式值为1,即X 、Y 的秩完全一致时,<5.5)式的值为0,X 、Y 的秩完全不一致时,<5.5)式的值为1。测度两个样本等级相关程度可以象参数方法一样,定义等级相关系数作为标准。斯皮尔曼的等级相关系数(Spearmancoefficient of rank correlation>是测定两个样本相关强度的重要指标。其计算公式为)

1(6122--

=∑n n D R i (0.6>斯皮尔曼相关系数也写为s r ,在有下标注以s 是为表明这个相关系数r 不是积矩相关的简单相关系数,而是等级相关的Spearman 相关系数。注:①由于<5.6)式与<5.5)式不同,所以,R 的取值从一1到十1,1=R 表明X 、Y 完全相关,R =十l 为完全正相关,R =一1为完全负相关。R 越接近于l ,表明相关程度越高,反之,R 越接近于零,表明相关程度越低,R =0为完全不相关。R >0为正相关,R <0为负相关。通常认为8.0>R 为相关程度较高。②Spearman 秩相关系数检验临界值查表可得,P198。 ③存在打结时,Spearman 统计量要作相应修正。 ④在大样本时,可用正态近似作检验。

)1,0(1N n n r Z s ∞→-=

2. 应用

【例5-1】经济发展水平和卫生水平之间的相关分析

对某地区12个街道进行调查,并对经济发展水平和卫生水平按规定的标准打分,评定结果如表5—4。

表5-4 某地区经济水平与卫生水平得分

街道号 经济水平

卫生水平 街道号 经济水平

卫生水平

1 8

2 86 7 84 80 2 87 78 8 78 77 3

60

65

9

80

75

4 98 88 10 94 96

5 75 64 11 85 85

6 89 90 12 68 70

定序尺度测量的样本进行相关分析,可以采用等级相关系数测定。必要的计算过程如表5—5所列。根据<5—6)式可得8881.01119.01)

112(123261)

1(612

2

2=-=-?-

=--

=∑n n D R i

由于R =0.888l >0.8,所以该地区的经济发展水平和卫生水平存在着正相关关系,相关程度较高,为88.81%。表5-5 某地区经济水平与卫生水平得分

街道号 经济水平

卫生水平

D=U-V D 1 6 9 -3 9 2 9 6 3 9 3 1 2 -1 1 4 12 10 2 4 5 3 1 2 4 6 10 11 -1 1 7 7 7 0 0 8 4 5 -1 1 9 5 4 1 1 10 11 12 -1 1 11 8 8 0 0 12 2 3 -1 1 合 计

32

3. 同分处理

当观察值是评的分数时,可能在同一个样本中出现相同的评分,如成绩都是80等等。同分的秩仍旧是等于几个同分值应有秩的平均值。如果同分的比例不大,它们对秩相关系数及的影响可以忽略。但若同分的比例较大,则计算只时应加入一个校正因子。对于X 的同分校正因子为12)(3∑∑-='i i u u u ,Y 的同分校正因子为12)(3∑∑-='i i v v v 。于是斯皮尔曼秩相关系数的计算公式为:v n n u n n v u D n n R i '

--'--'+'---=

∑12)1(12)1()(66)1(2

2

22(0.7>式中,u 是X 中同分的观察值数目,v 是Y 中同分的观察值数目。 【例5-2】经济发展水平和卫生水平之间的相关分析

某地区对24个区县进行调查,并对经济发展水平和卫生水平按规定标准评分,结果如表5—6。 分析:将表5—6的评分转换为秩次,从高往低排序,同分的秩取平均值,结果见表5—7。根据公式5.6计算

8491.01509.01)

124(2434761)

1(612

2

2=-=-??-

=--

=∑n n D R i

由于经济水平和卫生水平的评分中均有同分,应采用校正因子修正。利用5.7式计算修正的R 为

8490.012

)575(2416)575(24)

1216(2/1)347(6)575(2412)1(12)1()(66)1(2

2

22=-?-?+?-?-?=

'

--'--'+'---=

∑v n n u n n v u D n n R i

对比两个R 值可知,由于同分的观察值数目占观察值总数目的比例不是很大,因而校正后的R 与校正前的R 变化不大。但是,校正前的只略大于校正后的R ,这说明同分对只的影响虽然很小,但同分的影响是夸大R 值。因此。在X 、Y 中至少有一个存在大量同分时,应进行校正。

1 1 14

-13 169 2 2.5 3.5 -1 1 3 2.5 2 0.5 0.25 4 4 1 3 9 5 5 5 0 0 6 6 6 0 0 7 7 11 -4 16 8 8 3.5 4.5 20.25 9

9.5 9 0.5 0.25 10 9.5 10 -0.5 0.25 11 11 16.5 -5.5 30.25 12 12.5 8 4.5 20.25 13 12.5 15 -2.5 6.25 14 14 7 7 49 15 15 12 3 9 16 16 13 3 9 17

17

18

-1

1

1818 16.5 1.5 2.25

1919 20 -1 1

2020 19 1 1

2121 21 0 0

2222 22 0 0

2323 24 -1 1

2424 23 1 1

合计347.00

4.R的显著性检验

利用相关系数及其修正的公式计算的R值,是抽自两个总体的样本数据计算的结果,从这一相关系数的大小,可猜测总体的秩相关系数是否与零有显著差异,但是否为真,应进行假设检验。对R的显著性检验正是为了回答这一问题。检验可以仅研究两个总体是否存在相关,也可以分别研究相关的方向,即是正相关,还是负相关。针对研究问题的不同,可以建立不同的假设组。

双侧检验

H0:不相关

H1:存在相关

单侧检验

H0:不相关 H0:不相关

H+:正相关 H-:负相关

为对假设作出判定,所需数据至少是定序尺度测量的。根据前式计算出R值。当30

n时,在附表中,依据n和R查找相应的概率P。表5—8是判定指导表。

表5-8 R显著性检验判定指导表

H+:正相关R的右尾概率

H-:负相关R的左尾概率

1

若30

n,则按<5—8)式计算Z。Z统计量近似服从正态分布,可在正态分布表中查找相应的P >

值。

=n

Z(0.8>

R

1

-

【例5-3】对例5—3作显著性检验

分析:由于例5—3中未指明相关的方向,只需检验是否相关,因而建立双侧备择:H0:不相关

H1:存在相关

利用提供的数据计算的R 值为0.8491,每个样本数据n 为24。在附表中n =24时;双侧检验608.0=R 的概率为0.002。显然,R =0.849l >608.0=R 。因此,概率P <0.002,数据拒绝H 0,表

明经济水平和卫生水平确实存在相关关系。

二、 Kendall τ相关检验

Kendall 秩相关即肯德尔秩相关,与等级相关一样,也是用于两个样本相关程度的测量,要求数据至少是定序尺度的。它也是利用两组秩次测定两个样本问相关程度的一种非参数统计方法。1. 基本概率

协同--i j i j Y Y X X ,则对子),(i i Y X 与),(j j Y X 协同;如果0))((<--i j i j Y Y X X ,则对子),(i i Y X 与),(j j Y X 不协同。

2. 基本方法

n 个配对数据),(11Y X ,),(22Y X ,……,),(n n Y X 分别抽选自X 、Y ,X 、Y 都至少是可以用定序尺度测量的。将X 的n 个数据的秩按自然顺序排列,则Y 的n 个秩也相应地发生变动。例如,X 、Y 的秩分别为X 2 4 3 5 1 Y

3

4

1

5

2

将x 的秩按自然顺序排列后,X 、Y 的秩则为下面的形式

X 1 2 3 4 5 Y

2

3

1

4

5

由于X 的秩次已经按自然顺序由小到大排列,因此,X 的观察值每两个之间都是一致对。考察Y 的秩次情况,第一个秩为2,第二个为3,因为2小于3,是按自然顺序增加,因此,这是一个一致对。再考察2和1,因为2大于1,不是按自然顺序增加排列,所以这是一个非一致对。依次考察下去,凡一致对记作十l ,非一致对记作一1。考察结果如表5—9所示。表5-9 R 显著性检验判定指导表

2,3 1 8个+ 2,1 -1 2个- 2,4 1 2,5 1 3,1 -1 3,4 1 3,5 1 1,4 1 1,5 1 4,5

1

在X 的秩评定完全按自然顺序排列时,Y 的秩对所能给予的最大的评分,应是也完全按自然顺序排列的秩对的评分,即每一数对的评分均为十1。这样,在X 、Y 的评秩完全一致的情况下,最大可能的评

分总数应是一个组合,如在上例中是102

5=C ,即从5个里选2个的组合数。一般情况,n 个观察值对两两秩对之间评分,最大可能的总分为2n C 。以实际的评分与最大可能总分相比,可以测定两组秩之间的相

关程度。若以U 表示Y 的一致对数目,V 表示Y 的非一致对数目,则一致对评分与最大可能总分之比为

)

1(22

-=

n n U

C U

n

(0.9>非一致对评分与最大可能总分之比为

)

1(22-=

n n V

C V

n

(0.10>当Y 的秩对完全按自然顺序排列时,<5.9)式的值为1,<5.10)式的值为0;而当Y 的秩对全部为非一致对时,<5.10)式的值为1,<5.9)式的值为0。为测定两组秩之间的相关程度,定义的相关系数从一1到十1,因此,Kendall 秩相关系数为1)

1(4--=

n n U

T (0.11>)

1(41--

=n n V

T (0.12>若记S =U 一V ,则Kendall 秩相关系数为

)

1(2-=

n n S

T (0.13>这里的Kendall 秩相关系数T 是Tau 的缩写,也常写作τ。T =l ,表明两组秩次完全正相关;T =一1,表明两组秩次间完全负相关。一般8.0>T ,可以为相关程度较高。NOTE :①该定义式实质为概率,11≤≤-T ;详见笔记P40

②S 和T 等价; ③S 的计算;

④小样本时,可以查表;大样本时,可以作正态近似:)1,0()

52)(1(18

N n n n k Z →++=。

⑤存在打结时,进行同分的处理。

3. 应用

【例5-4】利用例5-2的数据资料分析经济水平和卫生水平的相关程度

分析:根据表5—5的评秩结果进行秩次重新排列,将经济水平的秩次按自然顺序排列,得表5—10的结果。由表可以计算得到2、3、1、5、4、9、7、8、6、11的一致对数目

5613343779910=+++++++++=U

根据<5—11)式计算有

6970.01)

112(1256

41)1(4=--??=--=

n n U T

由表可以计算出非一致对的数目V 为

V =1十1十1十3十1十1十1十1=10

根据<5—12)式计算有

6970.03030.01)

112(1210

41)1(41=-=-??-=--

=n n V T

若根据<5—13)式计算,也可以得到同样的结论。

T =0.6970<0.8,表明经济水平与卫生水平相关程度不够高。

Kendall 秩相关系数也可以用于定距尺度测量的数据,数据不必评秩,而直接比较大小得到一致对或非一致对的数目。表5-10 经济水平和卫生水平秩的排序

注:也可以按照原始资料进行排序,比较大小,从而进行判定。

4. 同分的处理

当两个样本中无论哪一个或者两个均有同分观察值时,仍采用通常的办法,将每一个同分观察值的秩记作其应有秩的平均值。由于同分的影响,也需要对了计算公式中的分母进行校正。在同分情况下,<5.13)式应变为v C u C S

T n

n

'

-'

-=

22

(0.14>式中,∑='2u C u ,u 是X 中同分观察值的数目,∑='2

v C v ,u 是X 中同分观察值的数目。u ,v 仍分

别表示X 、Y 的每一同分组中同分观察值的数目。1,2.5 2,3.5 1 5个加 1,2.5 2,3.5 1 3个减 1,4.5 2,1 -1 1,4.5 2,5 1 2.5,2.5

3.5,3.5

2.5,4.5

3.5,1 -1 2.5,

4.5 3.5,5 1 2.5,4.5 3.5,1 -1 2.5,4.5 3.5,5 1 4.5,4.5 1,5 0

5. T 的显著性检验

与Spearman 秩相关系数R 一样,Kendall 秩相关系数T 的显著性也应进行检验。这一检验实际上是检验两个总体的相关是否真实存在,是正相关或是负相关,从而说明以T 的大小反映相关程度的高低是可信。如果研究关心的是相关是否确实存在,而不考虑相关的方向,则应建立双侧备择,假设组为H 0:不相关 H 1:存在相关

若关心的是相关的方向,则应建立单侧备择,假设组为

H0:不相关 H0:不相关 H+:正相关 H -:负相关

为对假设作出判定,所需数据至少是定序尺度测量的。通过对数据求出一致对或非一致对数目,可以按照计算公式算出Kendall 秩相关系数T 。<1)小样本时)30(≤n ,可以查表给出尾概率,T 的抽样分布中附表中给出。

表5-12 T 显著性检验判定指导表 H+:正相关 T 的右尾概率 H -:负相关 T 的左尾概率 1<2)大样本时18

/)52)(1()

52(2)1(3+-=

+-=

n n n S

n n n T Z (0.15>由于Z 近似正态分布,故可以查标准正态分布表找到相应的尾概率。

三、 等级相关系数R 和Kendall 秩相关系数T 的比较

1.相同点

①两个相关系数的检验都要求数据至少是在定序尺度上测量; ②都是计算秩相关系数,用以测度两个相关样本之间的相关程度; ③它们的取值都是在-1到+1之间; 2.不同点

①R 和T 的数值即使对于同一组数据也是不同的,多数情况下,R 的绝对值大于T 的绝对值; ②虽然R 和T 都使用了资料中同量的信息,但由于两者具有不同的基础尺度,R 利用的是秩差,而T 利用的是秩的顺序,即一致对和非一致对,因此,不能将它们的数值加以比较,以说明相关程度的高

低。③T 的解释比起R 来更容易。两个观察的数对),(i i y x ,),(j j y x ,当j i x x <时,总有j i y y <,称为顺序一致对,若对于每个j i x x <,都有j i y y >,则为不一致对。T 的准确意义是:一致对数目与非一致对数目之差占全部可能数对的比重。

四、 偏秩相关

详见易丹辉教材

§3 k 个样本的相关分析

前面一章研究的是n 个对象或个体的两组秩之间相关的度量,在实际问题中,往往还涉及n 个对象或个体的几组秩评定之间的相关。对于至少是定序尺度测量的k 个配对样本的数据,或k 次实验得到的数据,其秩评定间的相关,可以采用Kendall 秩评定协同系数度量。本章主要介绍两种Kendall 秩评定协同系数:完全秩评定协同系数和不完全秩评定协同系数。一、 完全秩评定的Kendall 协同系数

完全秩评定的Kendall 协同系数(KendallCoefficient of Concordancefor ComPlete Rankings>用于是组秩评定间相关程度的测定,即多组秩之间关联程度的测定。1. 基本方法

若被分析的数据是定序尺度测量的,那么n 个数据,即n 个对象或个体,可以分别给予某一个秩,在这一组数据内所有的秩次和即等级和为12(1)/2n n n +++=+

如果有k 组秩,那么这k 组秩的秩次总和就是(1)/2kn n +。

例如3个消费者分别给6种牌号电冰箱的质量评等级,结果如表5—14。表中最后一行j R 是每一种牌号电冰箱的秩和,总的秩和为6

1

(1)/23(6)(61)/263j j kn n R =+=+==

∑。这也就是最大可能的秩次

和。这时,对于每一个观察对象或个体来说,平均的秩次和应为[(1)/2]/kn n n +表5-14 消费者给冰箱质量评定的秩

即为k(n 十1>/2。如果j (j =l ,2,…,n>表示每一观察对象或个体的实际秩和,那么,j 与k(n 十1>/2越接近,表明对第j 个观察对象或个体的秩评定越接近平均秩;二者相差越远,远离平均秩。由于j R 与k(22十1>/2的差值可正可负,因此,在分析时应采用差值的平方和。定义差值的平方和为S ,即21

((1)/2)n

j j S R k n ==-+∑(0.16>在k 组秩评定完全一致时,各个观察对象或个体的秩和与平均秩和的离差平方和,是最大可能的离差平方和。由于k 组秩评定完全一致时,各观察对象或个体的秩和分别为k ,2k ,…,nk ,如表5—14,如果3位消费者对6种牌号电冰箱的质量看法一致,那么他们会给出相同的秩。这时,被认为质量最好的电冰箱将得到3个秩1,它们的秩和Rj =1十1十1=3=k 。被认为质量第二的,秩和Rj =2十2十2=6=2k 。最差的电冰箱秩和将是Rj =6十6十6=18=nk 。也就是说,当k 组秩评定之间完全一致的时候,Rj 应是k ,2k ,…,nk 。因此,最大可能的离差平方和为2

2

2

221

1

[(1)/2]

((1)/2)

(1)/12n

n

j j jk k n k

j n k n n ==-+=-+=-∑∑(0.17>实际偏差平方和与最大可能偏差平方和之比,在一定程度上能反映k 组秩评定间的一致性,即协调程度。<5.16)式除以<5.17)式得到Kendall 完全秩评定协同系数W 。2

2222

1

[(1)/2]1212(1)(1)n j

j R k n S W k n n k n n =-+==--∑(0.18>W 的取值在0到1之间。若W=0,表明k 组秩之间不相关;若W=1,表明k 组秩之间完全相关,即完全一致。由于k>2时,k 组秩评定不可能完全不一致,也就是说,只有当k =2时,秩评定一致和非一致是对称相反的,而k >2,对称性不再存在,因此,W 取值不可能为负。为方便实际计算,<5.18)式还可以写成下面的形式

2221

22

123(1)(1)

n

j j R k n n W k n n =-+=

-∑(0.19>NOTE :①在m 组秩的评定完全一致时,该离差平方和是最大可能的离差平方和,实际上,个体的秩和分别为:k,2k,…,nk 。②最大可能的离差平方和为:2

2

(1)/12k n n -

③完全评秩的协同系数W ,实际表达了实际偏差平方和和最大可能偏差平方和之比,在一定程度上反映了k 组评秩之间的一致性,即协同程度。

④01W ≤≤。当W=0时,表明k 组秩之间不相关;若W=1,表明k 组秩之间完全相关,即完全一致。 ⑤在作检验时,W 统计量和

S 统计量都有表可查;当大样本时,有

212(1)(1)(1)

S

Q k n W n kn n χ=-=

→-+

2. 应用

【例5-8】裁判组整体评分效果的相关分析

在某次业余歌手大赛上,6名裁判员组成的裁判组,对10名参赛歌手的评分等级如表5—15。

表5-15 裁判员对歌手评定的等级

分析:裁判组由6名裁判组成,要评价6名裁判整体评分效果,实际上是评价裁判组整体评分的一致程度。由于这是6个配对样本,且每一个观察对象即参赛歌手全部都有秩,所以是6个样本完全秩评定协调程度的考察,应采用完全秩评定的Kendall 协同系数。表5-16 裁判员对歌手评定的等级 歌手编号 j

j R

1 10 100

2 28 784

3 32 102

4 4 41 1681

5 31 961

6 32 1024

7 30 900

8 35 1225

9 45 2025 10 46 2116 表5—16是R j 计算表。由于k =6,n =10,按<5.19)式有

222

2

1

222123(1)12(11840)3(36)(101)(101)0.6865(1)

10(36)(101)

n

j j R k n n W k n n =-+--+=

==--∑

一般来说,W 的值越接近于l ,表明k 组秩评定之间的一致程度越高;W 值越接近于0,则k 组秩评

定之间的一致程度就越低。这里,W =0.6865,不算很大,表明裁判组6名裁判员对10名参赛歌手水平的意见一致程度不是很高。3. 同分的处理

详见易丹辉编《非参数统计—方法与应用》P134。

4. W 的显著性检验

对W 显著性的检验,是为了对总体间是否存在真实的相关关系作出判定。由于是k 个样本,只能建立双侧备择,假设组为H 0:不相关 H 1:存在相关

为了对假设作出判定,需要容量均为n 的k 个样本数据至少是在定序尺度上测量的,每一观察值都能有相应的秩。

检验统计量因样本的大小而有所不同。当样本的观察值n 较小时,采用的检验统计量为S 。

2

2221

1

((1)/2)3(1)n n

j i j j S R k n R k n n ===-+=-+∑∑(0.20>当样本观察值数目n 较大时,采用Q 统计量。

212(1)(1)(1)

S

Q k n W n kn n χ=-=

→-+(0.21>小样本时,检验统计量S 在H 0为真时的抽样分布,可以参见附表。大样本时,可以查卡方分布表得到其相应的尾概率的值。【例5-9】对上例的W 值进行显著性检验

分析:因为在这个问题中,n =l0,k =6,所以应利用W 值计算统计量Q ,根据<5.21)式计算得到

(1)6(101)(0.2444)13.1976Q k n W =-=-=

根据自由度df =n 一l =9,显著性水平0.05α=,在方分布中查找得到2

αχ=16.92。由于

Q =13.1976<2

αχ=l6.92

所以数据在5%的水平上不能拒绝H 0,表明6名裁判员所作的秩评定彼此不相关。

二、 不完全秩评定的Kendall 协同系数

在实际问题中,往往会遇到这样的情况,如在参赛的10名歌手中,只评出6名排等级;在对几种消费品质量评级时,消费者只评出其中最满意的3种等等。这时,不是所有配对样本的每个观察值都被分配等级,也就是秩的评定不完全。研究这种情况下,裁判员评分效果的一致程度,消费者对产品质量满意的一致程度等,不能采用上节所述的Kendall 协同系数,而应采用本节介绍的不完全秩评定的Kendall

协同系数。1. 基本方法

若被分析的数据是k 个组,即k 个样本,每组均含有n 个观察值,对每组观察值评定的秩不是n 个而是m 个,且m <n ,则构成不完全秩评定的情况,可以考虑采用不完全秩评定的Kendall 协同系数,但在使用时,通常有这样的限制,即对于m ,n ,k 以及λ来说,应该是匹配的,即满足下式。(1)(1)n n km m λ-=-(0.22>式中,λ是配对样本被比较的次数。例如,3个消费者对3种牌号的彩电质量评等级,若3种脾号的彩电仅一次被比较,则λ=1。<5.22)式是不完全秩评定的Kendall 协同系数运用的一个假设,称作平衡假设。m 、n 、k 之间不是能够完全任意的。如对于4个观察对象的一个配对比较,n =4,m =2,当λ=l 时,要求k =6;若λ=2,则k =12,也就是说,当有4名参赛歌手比赛时,按不完全秩评定的设计,从中评出2名给予等级,那么一次比较时,需要6名裁判员,若两次被比较,则需要12名裁判员。一般情况下,λ、m 、n 、k 的取值如表5—17。表5-17 λ、m 、n 、k 的取值表 1 3 3 2 1 6 4 2 1 7 7 3 1 10 5 2 2 4 4 3 2 6 3 2

当分析的数据符合上述条件时,可以得到一个k 行和n 列的表。在每一行中,只有m 个秩,在每一列中,有km/n 个秩。对于每一行来说,秩和为l 十2十…十m =m(m 十1>/2,由于有k 行,因此,所有的秩和为km(m 十1>/2。对于n 列来说,平均每列的秩和为km(m 十1>/2n 。若每列的实际秩和记作R j (j =1,2,…,n>那么,实际秩和与平均秩和的差值大小也可以用作判定协调性程度。由于实际秩和与平均秩和之差可正可负,因而,仍采用差值平方和。定义S 为2

1

(1)[]2n

j j km m S R n

=+=-

∑(0.23>当k 组秩的评定完全一致时,S 就是

22(1)

12

n n λ-(0.24>这也就是实际秩和与平均秩和差值平方和的最大可能值。因此,将<5.23)式与<5.24)式相比,可以

用来度量k 组秩评定之间的协调性或一致性。这就是不完全秩评定的Kendall 协同系数,也记作S 。其计算公式如<5.25)式和<5.26)式。2212(1)

S

W n n λ=

-(0.25>2

221

[(1)/2]12(1)

n

j j R km m n W n n λ=-+=-∑

(0.26>如果m =m 和λ=k ,那么<5.25)式和<5.26)式就是<5.18)式。W 值在0到1之间。W 为0,表明k 组秩评定之间不相关;W 为1,表明k 组秩评定之间完全相关,即完全一致。由于k >2时,秩评定的一致和非一致不是对称的,因而,W 取值不可能负。为实际计算的方便,<5.25)式和<5.26)式可以写成<5.27)式的形式。222

23(1)1212j

k m m S R n

+=-∑

2222

1

22

123(1)/(1)

n

j j R k m m n

W n n λ=-+=

-∑(0.27>2.

应用

【例5-10】消费者对彩电质量评价的一致性分析

7种不同牌号的彩电质量检验,不要求消费者对每一种牌号的彩电都给出秩,只要求不大于3个。因而,m =3,n =7。如果每对彩电仅一次被比较,因而有λ=1。需要的消费者数目,可以从(5—21>式中计算得到(1)1(7)(71)

7(1)

3(31)

n n k m m λ--=

==--

表5-18 消费者对彩电质量可能的评秩

表5-19 消费者对彩电的秩评定结果

即需要有7名消费者来评定。表5—18是一种满足要求的设计表格。表中的*号表示那种牌号的彩电被消费者评秩。由于m =3,n =7,k =7,所以表中每一行有m =3个秩,表中每一列有km /n =7(3>/7=3个秩。经过消费者评秩,结果如表5—19。分析:由于这是不完全的秩评定,设计要求符合(5—21>式的平衡假定,可以采用不完全秩评定的Kendall 协同系数,分析消费者对彩电质量评价的一致性。根据<5.27)式有

22222222221212(3597846)3(7)(3)(31)/712(280)3024336S =++++++-+=-=

2336

17(71)

W =

=-

这是W 的最大值,表明7个消费者对彩电质量的看法完全一致。

在不完全的秩评定中,同分也是可能出现的,因为数据可以由定距尺度的评分转换为定序尺度的秩。但是,目前没有比较简单的校正公式,因此,计算Kendall 协同系数时,仍旧采用<5—24)式,<5—25)式或<5.27)式。3. 显著性检验

对于不完全秩评定的Kendall 协同系数,也可以进行显著性检验。建立的假设组为

H 0:不相关 H 1:存在相关

为对假设作出判定,需要k 个样本的数据至少是定序尺度测量的,并能够根据前面的公式分别计算出S 、W 。利用S 、W 按照<5.28)式、<5.29)式计算得到检验统计量Q 。统计量Q 近以于自由度df =n —l 的卡方分布。因此,可以根据卡方分布对原假设作出相应的判断。2(1)1

n W

Q m λ-=+(0.28>12(1)

S

n m λ=

+(0.29>【例5-11】利用例5-10的数据作显著性检验

分析:在例5-10中,λ=1,m =3,n =7,W =1,将各个数值代入<5.28)式得到

22(1)1(71)112131

n W

Q m λ--=

==++

自由度df =n 一1=6,在卡方分布表中,H 0为真时,Q 是12出现的概率P 略大于0.05,因为当概

率为0.05时,2

αχ=12.59。由于这个P 是近似的值,因而,可以在显著性水平0.05α=上拒绝H 0。

况且,W 的值为最大可能值l ,拒绝H 0是合乎逻辑的。4. 多重比较

若P 值很小,以至于H 0被拒绝,也就是k 组不完全的秩评定之间存在相关,那么,有必要比较这k 组秩之间是否有重大的不同,可以运用多重比较技术来研究这一问题。第j 列的秩和R j 除以该列的秩数目km /n ,是第j 个对象的平均秩,比较n 个对象的k 个不完全组的秩之间有无明显不同,可以利用各个对象的平均秩比较,也可以利用各列秩和的差值比较。对于任意两个列等级和(,)1i j R R i j n ≤≠≤,它们的差值在1一α水平下,满足<5.30)式或<5.31)式

i j R R -≤(0.30>

i j R R -≤表明n 个对象间秩评定没有重大的不同;而若大于<5.30)式或<5.31)式的右侧,表明这是有重大不同的数对。<5.30)式、<5.31)式中的Z ,可以查找相应的正态分布表求得。 【例5-12】对例5-10的各组秩进行比较

分析:在例5-11中,由于P 值不够大,拒绝了H 0,即各组不完全秩评定间没有差别的零假设被拒绝。在这个前提下,可以进行多重比较。由表5—19所得到的各列秩和可知,消费者对7种牌号彩电质量的评价最好的为A ,最差的为C 。根据秩和由少到多排列,消费者对7种彩电质量满意程度依次为:A 、F 、B 、G 、D 、E 、C 。取显著性水平α=0.10,由于n =7,可得P =n(n 一1>/2=21,查多重比较的临界值Z 表,得到2.823,代入<5—30)式,得到

6.0984i j R R -≤=

将表5—19中各列秩和两俩比较差值,可知,最大差值为A 与C 列,即396-=。这一差值仍小于6.0984。因此,可以得出结论:在7种牌号彩毫的不完全秩评定中,各列之间没有什么重大不同,若取

α=0.30,由<5—30)式得到

5.2926i j R R -≤=

根据表5—19中提供的各列秩和可知,除了A 与C 秩和的差值较大外,其它各列秩和之间没有什么

重大的不同。A与C的差异,说明对于消费者来说,对彩电A质量的评价大大高于对彩电C的评价,因为A的秩次和低于C的秩次和较多。

三、Friedman检验和多重比较

详见易丹辉教材

§4 回归分析

一、Theil回归和最小中位数二乘回归<笔记P44)

1.OLS估计

2.Theil回归

%非参数统计学中计算Theil回归系数的程序

S=load('bbb.txt','-ASCII'>。

x=S(:,1>。

y=S(:,2>。

number=0。

% B=zeros(300>。

for i=1:25

for j=1:25

if x(i>~=x(j>

s(i,j>=(y(j>-y(i>>/(x(j>-x(i>>。

number=number+1。

end

end

end

B=reshape(s,1,625>。

beta=median(B>。

for j=1:25

A(j>=y(j>-beta*x(j>。

end

alpha=median(A>。

3.最小中位数二乘回归

%非参数统计学计算最小中位数二乘回归

S=load('bbb.txt','-ASCII'>。

x=S(:,1>。

y=S(:,2>。

alpha=6。

beta=-1。

numberi=0。

numberj=0。 for i=1:300 for j=1:300 for k=1:25

s(i,j,k>=(y(k>-alpha-x(k>*beta>^2。 end

med(i,j>=median(s(i,j,:>>。 beta=beta+0.001。 end

alpha=alpha+0.001。 end

M=reshape(med,1,90000>。 minvalue=min(M>。 for i=1:300 for j=1:300

if med(i,j>==minvalue numberi=i 。 numberj=j 。 end end end

alpha=6。

for i=1:numberi

alpha=alpha+0.001。 end

beta=-1。

for j=1:numberj

beta=beta+0.001。 end

结论:在这三种估计中,OLS 最灵敏,受数据的影响较大,适用于“干净”的数据;Theil 估计能够忍受有限度的数据污染;最小中位数二乘估计最稳健。二、 基于Theil 回归的检验和置信区间<笔记P46)

1.

回归系数的检验

设{}?|1ij

med S i j n β=≤<≤ 提出原假设和相应的备择假设:00:H ββ=,10:H ββ≠

如果有过多的ij S 大于或小于0β,零假设可能会有问题,现将问题转化。令残差0i i i e Y X β=-,得

0j i j i ij j i

j i

Y Y e e S X X X X β--=

=+

--(0.32>

统计学(回归分析)演示教学

统计学论文(回归分析)

◆统计小论文11财一金一凡 11060513 指数回归分析 ●摘要:指数,根据某些采样股票或债券的价格所设计并计算出来的统计数 据,用来衡量股票市场或债券市场的价格波动情形。 ●经济学概念:从指数的定义上看,广义地讲,任何两个数值对 指数函数图像 比形成的相对数都可以称为指数;狭义地讲,指数是用于测定多个项目在不同场合下综合变动的一种特殊相对数。 指数的应用和理论不断发展,逐步扩展到工业生产、进出口贸易、铁路运输、工资、成本、生活费用、股票证券等各个方面。其中,有些指数,如零售商品价格指数、生活消费价格指数,同人们的日常生活休戚相关;有些指数,如生产资料价格指数、股票价格指数等,则直接影响人们的投资活动,成为社会经济的晴雨表。至今,指数不仅是分析社会经济的景气预测的

重要工具,而且被应用于经济效益、生活质量、综合国力和社会发展水平的综合评价研究。 引言:在这个市场经济发达的年代,企业的发展尤为突出,针对年度销售额进行的指数回归分析,能够有效的对企业进行监管和提高发展水平。通过对标准误差、残差、观测值等的回归分析,减少决策失误,使企业更好的发展。销售额是企业的命脉,也是企业在经营过程中的最重要的参考指标,针对年度销售额的指数回归分析,切实保障了企业在当今竞争中的地位与经济形势。 一、一元线性回归模型的基本理论 首先是对线性回归模型基本指数介绍:随机变量y与一般变量x的理一元线性回归模型表示如下: yt = b0 + b1 xt +ut(1)上式表示变量yt 和xt之间的真实关系。其中yt 称作被解释变量(或相依变量、因变量),xt称作解释变量(或独立变量、自变量),ut称作随机误差项,b0称作常数项(截距项),b1称作回归系数。 在模型 (1) 中,xt是影响yt变化的重要解释变量。b0和b1也称作回归参数。这两个量通常是未知的,需要估计。t表示序数。当t表示时间序数时,xt和yt称为时间序列数据。当t表示非时间序数时,xt和yt称为截面数据。ut则包括了除xt以外的影响yt变化的众多微小因素。ut的变化是不可控的。上述模型可以分为两部分。(1)b0 +b1 xt是非随机部分;(2)ut是随机部分。 二、回归模型初步建立与检验

《-非参数统计-》课程教学大纲上课讲义

《非参数统计》课程教学大纲 Non-parametric statistics 课程代码:课程性质:专业方向理论课/选修 适用专业:统计开课学期:5 总学时数:32 总学分数:2.0 编写年月:2007.5 修订年月:2007.7 执笔:孙琳 一、课程的性质和目的 本课程是学习非参数统计和了解统计前沿的基本课程。本课程结合S-Plus 或R 软件来讲解非参数统计方法的原理与应用。本课程的目的是使学生认识到非参数统计方法是统计中最常用的推断方法之一,理解非参数统计方法和参数统计方法的区别,理解非参数统计的基本概念,掌握非参数统计的基本方法,能应用非参数统计方法去解决实际问题。 二、课程教学内容及学时分配 第一章引言(2学时) 本章内容:统计的概念,非参数统计的方法,参数统计与非参数统计的比较, 本章要求:了解非参数统计的历史,了解非参数统计方法和参数统计方法的区别,认识非参数统计方法的必要性。 第二章 S-Plus基础(6学时) 本章内容:S-Plus环境,向量的定义和表示,向量的基本操作,向量的基本运算,向量的逻辑运算,S-Plus 的图形功能, 本章要求:熟悉在S-Plus命令行中S-Plus基本数据处理,掌握在S-Plus命令行中进行基本数据基本运算,能编写简单的计算函数,会绘制基本图形。 第三章单一样本的推断问题(6学时) 本章内容:单样本推断问题,中心位置推断,符号检验,游程检验,Cox-staut趣势检验,分位数检验,Wilcoxon符号秩检验,分布检验,Kolmogorov-smirnov正态检验,Liliefor正态检验,中位数 检验问题、定性数据检验问题和成对数据检验问题,秩和检验。

非参数统计分析NonparametricTests菜单详解

非参数统计分析――Nonparametric Tests菜单详解 非参数统计分析――Nonparametric Tests菜单详解 平时我们使用的统计推断方法大多为参数统计方法,它们都是在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。比如单样本u检验就是假定该样本所在总体服从正态分布,然后推断总体的均数是否和已知的总体均数相同。本节要讨论的统计方法着眼点不是总体参数,而是总体分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在的分布位置/形状是否相同。由于这一类方法不涉及总体参数,因而称为非参数统计方法。 SPSS的的Nonparametric Tests菜单中一共提供了8种非参数分析方法,它们可以被分为两大类: 1、分布类型检验方法:亦称拟合优度检验方法。即检验样本所在总体是否服从已知的理论分布。具体包括: Chi-square test:用卡方检验来检验二项/多项分类变量的几个取值所占百分比是否和我们期望的比例有没有统计学差异。 Binomial Test:用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一分为二。 Runs Test:用于检验样本序列随机性。观察某变量的取值是否是围绕着某个数值随机地上下波动,该数值可以是均数、中位数、众数或人为制定。一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。 One-Sample Kolmogorov-Smirnov Test:采用柯尔莫哥诺夫-斯米尔诺夫检验来分析变量是否符

合某种分布,可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。 2、分布位置检验方法:用于检验样本所在总体的分布位置/形状是否相同。具体包括: Two-Independent-Samples Tests:即成组设计的两独立样本的秩和检验。 Tests for Several Independent Samples:成组设计的多个独立样本的秩和检验,此处不提供两两比较方法。 Two-Related-Samples Tests:配对设计的两样本秩和检验。 Tests for Several Related Samples:配伍设计的多样本秩和检验,此处同样不提供两两比较。 一、分布位置检验方法 1、Two Independent Samples Test与 K Independent Samples Test 用于检验两独立样本/多独立样本所在总体是否相同。 Two-lndependent-Samples Test对话框: (1) Test Variable框,指定检验变量。 (2) Grouping Variable框,指定分组变量。Define Groups对话框,Groupl和Groupl后的栏中,可指定分组变量的值。 (3) TestType框,确定用来进行检验的方法。Mann-Whitney U:默认值,相当于两样本秩和检验。Kolmogorov-Smimov Z:K-S检验的一种。Moses extreme reactions:如果施加的处理使得某些个体出现 正向效应,而另一些个体出现负向效应,就应当采用该检验方法。

统计学专业实习论文

题目:关于城镇居民人均可支配收入的分析 学院: 班级: 姓名: 学号 指导教师: 2016年12月28日

摘要 收入分配和消费结构都是国民经济的重要课题,而居民消费的主要来源又是居民收入。本文通过应用多元线性回归分析方法对我国各地区城镇居民收入的现状进行分析,找出影响人均可支配收入的因素。城镇居民可支配收入是检验我国社会主义现代化进程的一个标准。本文以我国城镇居民人均可支配收入为研究对象,选取可能影响居民人均可支配收入的5个因素,运用多元线性回归分析建立模型,先运用普通最小二乘方法建立回归方程,再对方程进行异方差,自相关和多重共线性诊断,再用前进法,后退法,逐步回归法消除多重共线性,又运用岭回归,主成分法,偏最小二乘方法建立回归方程。进而确定5个因素对居民人均可支配收入的影响程度,分析出影响城镇居民收入的主要原因,并对模型联系实际进行分析,以供国家进行决策做参考。 关键词:城镇居民人均可支配收入逐步回归岭回归偏最小二乘

目录 1.引言 (1) 2.数据来源及介绍 (2) 3.模型方法和介绍 (3) 3.1多元线性回归模型 (3) 3.1.1多元线性回归模型的一般形式 (3) 3.1.2多元线性回归模型的基本假定 (4) 4. SAS程序及输出结果 (6) 4.1 用普通最小二乘方法作多元线性回归 (6) 4.1.1相关分析 (6) 4.1.2普通最小二乘法作多元线性回归 (6) 4.2模型检验 (8) 4.2.1异方差模型检验 (8) 4.2.2 自相关检验 (9) 4.2.3 异常值检验 (10) 4.2.4多重共线性检验 (11) 4.3 模型修正 (12) 4.3.1前进法 (12) 4.3.2后退法 (13) 4.3.3逐步回归 (14) 4.3.4最优子集回归 (16) 4.3.5 岭回归 (17) 4.3.6主成分回归 (20) 4.3.7偏最小二乘回归 (21) 5.结论及建议 (22) 6.参考文献 (23) 7.附录 (24)

非参数统计讲义

非参数统计讲义-CAL-FENGHAI.-(YICAI)-Company One1

第一章 绪 论 本章主要内容: 1.非参数方法介绍 2.预备知识 第一节 非参数方法介绍 一. 非参数方法的概念和实例 复习参数方法定义:设总体X 的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。 先来看两个实例。 例 供应商供应的产品是否合格 某工厂产品的零件由某个供应商供应。合格零件标准长度为(±)cm 。这也就是说合格零件长度的中心位置为8.5cm ,允许误差界为0.1cm ,即长度在-8.6cm 之间的零件是合格的。为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X 见第一章附表。 解答: 根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否 用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X 服从正态分布,即 X ~),(2σμN 其中两个参数均未知,但可用样本均值估计μ,样本方差估计2σ。 由已知的数据计算可得:零件的平均长度,即样本均值为x =8.4958cm ,样本标准差为s=0.1047cm 。 则零件合格的可能性近似等于 )/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P )1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈ %66≈ 这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。 但这个结论与实际数据符不符合呢这是我们要思考的问题。 我们可以对数据做一个描述性分析,先对这100个样本数据做一个频率分布。 观察到:在这100个零件中有91个零件的长度在8.4cm ~8.6cm 之间,所以零件合格的比例为91%,超过66%很多! 统计分析的结论与数据不吻合的!这是什么原因呢 我们可以作出数据的直方图来分析数据的分布情况。由图知,该数据的总体不是近似服从正态分布的!所以我们对于数据的总体分布的假设错了!问题就出在假设总体是正态分布上!继续看直方图,能否很容易就观察出来它大概

统计学论文范文

统计学论文范文 统计学论文范文 统计学课程是统计专业的专业基础理论课,也是财经类各专业学科的基础课和必修课,进入21世纪,随着我国市场化步伐的加快,市场对各种社会经济信息需求日益增加, 无论是国民经济管理,还是公司企业乃至个人的经营、投资决策,都越来越依赖于相关信息的取得及相应的数量分析,这些都高度依赖于统计方法。统计方法已成为管理、经贸、金融等许多学科和社会经济实践活动领域科学研究的重要方法。如何在统计学的教学中培养能满足社会主义市场经济建设所需要的统计学专业人才,必然需要我们认真研究和改革教学方法。 一、传统的统计学课程教学成在的主要问题及负面影响 (一)传统教学存在的主要问题。 1、学生对人生的目标模糊,在课堂上缺乏主动性、自觉性大部分学生都带着原来的一些不好的学习习惯、学习方法,使他们在接受知识上比别的同学要慢一些,而且在课余时间,他们也不能自我加压。对于人生的长远打算更是缺乏认识,或者说有的同学是害怕思考,在回避或者逃避这个问题,缺乏青年人那种对知识广泛涉猎,锐意进取的精神。 2、学生文化基础差,入学成绩普遍偏低。 近年来随着高校的全面扩招,高等教育的学生综合素质也在明显的下降,高职专科这个层次的学生已是高等教育的最低层次,学生的素质特别是文化课的成绩较差。很多高职高专学校只要考生过了提

档线就可以录取,所以其文化课基础可想而知。 3、统计学课程的计算太复杂。 如组距数列的编制,其资料中的数据有几十至上百,要将其中的数据从小到大排列再分组,光凭眼睛观察是不行的,还有几何平均数的计算、方差分析、相关与回归分析、指数曲线趋势模型、多元回归预测等等,这些计算都很复杂,手工计算量非常大,没有计算机软件的支撑,是很难进行教学实际问题分析的。 4、教师教学重理论,实践教学深广度不够。 有些教师上课时滔滔不绝,黑板写得满满的,学生不停地记笔记。这种满堂灌、填鸭式的教法带来很多弊病。教师讲得过多,他所能提供给学生独立掌握知识、主动训练能力的机会就越少,学生常处于被动位置,没有时间及时思考、消化、吸收,所学知识当然没法巩固。再有,讲得过多,重点不突出,学生掌握不了要领,课堂气氛也沉闷,学生容易产生疲劳。加上统计学的数学知识太多,本来他们的基础就不是那么好,无法听懂这些理论知识。 还有在当前评估热潮的推动下,许多学校开展了轰轰烈烈、前所未有的实践教学,但受诸多因素影响,大多浮于表面,实践教学深度不够,还不能使学生全面地、系统地、高质量地完成专业技能训练。统计学课程一般每周4~6节,总学时约60~70节,而实践课只占10%左右。这意味着该专业学生在课程学习中,从事的主要是理论学习和简单的上机实践操作,课程考察也主要以理论知识为主,实践技能的培养被忽视了。

教育统计学

0055《教育统计学》2016年12月期末考试指导 一、考试说明 (一)说明 考试为开卷考试,考试题型为撰写论文,主要考察对四种分析方法的应用分析能力,考试时随机抽取一种方法考核,试卷满分为100分,考试时间90分钟,考试时可携带相关资料。 (二)论文选题及内容要求 1、论文选题为教学课件讲授内容中的如下知识点: (1)应用独立样本T检验方法进行数据统计分析的研究。(字数不限) 根据试卷中提供的数据和分析结果,进行讨论:差异与显著性差异的关系。 a. 讨论包括:本题所使用的数据统计分析方法的解释说明、结果分析和解释等2部分。 b. 解释为什么均值差异要分辨显著与不显著,为什么会出现有很大差异却不显著的现象。 (2)应用协方差分析方法进行数据统计分析的研究。(2000字左右) 在问题提出部分需要说明协变量(至少要有1个)的选择理由,采用自己虚拟的数据来阐述研究方法和结论解释。 (3)应用卡方检验统计分析方法进行数据统计分析的研究。(字数不限) 期望分布1(%) 53 13 11 6 14 3 总计:100% 实际分布2(%) 44 11 15 5 16 9 总计:100% 根据试卷提供的数据,分析模拟结果,注重解释所研究问题为什么要选择卡方检验的研究方法,并对统计分析结果做解释和讨论。 (4)应用偏相关分析方法进行数据统计分析的研究(2000字左右) 在问题提出部分必须说明中介变量(或称为桥梁变量)的判定与选择理由,采用自己虚拟

的数据来阐述研究方法和结论解释。 2、论文结构包括:问题提出,研究意义,实验过程,使用的数据统计分析方法,结论分析等5部分。 3、研究中使用的数据一律采用考生自己虚拟的数据,只注重研究问题的价值和意义,为什么选择这样的研究方法和统计分析结果的解释和讨论。 4、考试采取随机抽题的方式,随机抽取其中的一个选题考试(即一套试卷),考试期间仅允许携带平时个人研究撰写(手写)的资料(不允许电子打印版及手写复印版)、教材(教育统计学和数据统计分析与实践SPSS for Windows),不允许带其他材料。 5、学生将研究论文写在学院的统一考试答题纸上,要求字迹工整。考试结束后现场密封答题随期末试卷一同寄回学院批改。 二、论文大纲 (一)问题提出 这部分首先需要阐述研究问题提出的背景,其次是说明研究问题,以及具体研究的问题维度,最好是能结合自己工作的实践确定问题。 例如: (二)研究意义 研究问题必须具有明确的意义和研究价值,该部分主要描述通过这项研究,能获得什么样的价值,对什么有意义、有价值,研究的意义应当扎根于社会问题、教育问题或者是国民经济有关的问题。 (三)实验过程 这部分内容包括: 1. 被试的选取及样本的大小和特征; 2. 对被试采用的测试是:问卷、访谈、行为观察还是系统测试; 3. 在考题指定的研究方法中,相应的变量(如协变量、中介变量)是什么?有几个?对变

统计学第七章相关分析与回归分析

第七章 相关分析与回归分析 (3)当固定资产改变200万元时,总产值平均改变多少?(4)当固定资产为1300万元时,总产值为多少? (1)协方差——用以说明两指标之间的相关方向。 2 2))((n y x xy n n y y x x xy ∑∑∑∑-= --=σ 035.126400100 9801 6525765915610>=?-?= 计算得到的协方差为正数,说明固定资产和总产值之间存在正相关关系。 (2)相关系数用以说明两指标之间的相关方向和相关的密切程度。 ∑∑∑∑∑∑∑---= ] )(][)([2222y y n x x n y x xy n r

95.0) 98011086657710()6525566853910(9801 65257659156102 2 =-??-??-?= 计算得到的相关系数为,表示两指标为高度正相关。 (3) 2 226525 5668539109801 6525765915610)(-??-?=--= ∑∑∑∑∑x x n y x xy n b 90.014109765 12640035 42575625566853906395152576591560==--= 85.39210 6525 9.0109801=?-= -=x b y a 回归直线方程为: x y 9.085.392?+= (4)当固定资产改变200万元时,总产值平均改变多少? x y ?=?9.0,1802009.0|200=?=?=?x y 万元 当固定资产改变200万元时,总产值平均增加180万元。 (5)当固定资产为1300万元时,总产值为多少? 85.156213009.085.392|1300=?+==x y 万元 当固定资产为1300万元时,总产值为万元。 例2、试根据下列资产总值和平均每昼夜原料加工量资料计算相关系数。 解:【分析】本题中“企业数”应看成资产总值和平均每昼夜原料加工量两变量的次数,在计算相关系数的过程,要进行“加权”。

统计学

浙江 大 学 Z h e j i a n g U n i v e r s i t y 浙江 大学 Z h e j i a n g U n i v e r s i t y 浙 江大学 Z h e j i a n g U n i 2010级统计学专业培养方案 培养目标 培养学生具有良好的数学基础和数学思维能力,掌握统计学、保险精算学、金融数学、生物统计学的基本原理和方法,具有金融学或其他相关学科的专门知识,文理并茂,全面发展。能熟练运用统计方法和计算机分析数据。毕业生除报考研究生继续深造外,还可到高校、科研机构、金融、证券、保险、医药、电信、国家机关等企事业单位从事统计调查、统计信息管理、数据分析等研发、应用和管理工作。 培养要求 主要学习统计学的基本理论、基本方法,接受计算机和统计软件、数学建模等方面的基本训练。本专业设有统计学、保险精算、金融数学和生物统计共四个专业方向,学生可任选其一修读课程。 毕业生应获得以下几方面的知识和能力: 1.掌握数学分析、代数、几何及其应用的基本理论、基本方法; 2.掌握计算机、统计软件及数学建模方面的基本训练;熟练掌握一门外语; 3.了解统计学的理论前沿、应用前景和最新发展动态; 4.掌握统计学资料的查询、文献检索及运用现代信息技术来撰写论文,参加学术交流;具有数据处理 和统计分析的基本能力和较强的更新知识的能力。 专业核心课程 数学分析 高等代数 几何学 常微分方程 实变函数 概率论 科学计算 数理统计 回归分析 多元统计分析 随机过程 教学特色课程 外语教学课程: 随机分析 统计计算与软件 现代概率论 计量统计学 应用统计分析 金融数学 自学或讨论的课程:前沿数学专题讨论 研究型课程: 前沿数学专题讨论 计划学制 4年 最低毕业学分 160+5+4 授予学位 理学学士 学科专业类别 数学类 所依托的主干学科 数学 说明 辅修专业:23学分,修读标注“*”的课程。 双学位: 61学分,修读全部专业课程(含实践教学环节和毕业论文)。 课程设置与学分分布 1.通识课程 47.5+5学分 见理学类培养方案中的通识课程。

统计学原理第九章(相关与回归)习题答案

第九章相关与回归 一.判断题部分 题目1:负相关指的是因素标志与结果标志的数量变动方向是下降的。() 答案:× 题目2:相关系数为+1时,说明两变量完全相关;相关系数为-1时,说明两个变量不相关。() 答案:√ 题目3:只有当相关系数接近+1时,才能说明两变量之间存在高度相关关系。() 答案:× 题目4:若变量x的值增加时,变量y的值也增加,说明x与y之间存在正相关关系;若变量x的值减少时,y变量的值也减少,说明x与y之间存在负相关关系。() 答案:× 题目5:回归系数和相关系数都可以用来判断现象之间相关的密切程度。() 答案:× 题目6:根据建立的直线回归方程,不能判断出两个变量之间相关的密切程度。() 答案:√ 题目7:回归系数既可以用来判断两个变量相关的方向,也可以用来说明两个变量相关的密切程度。() 答案:×

题目8:在任何相关条件下,都可以用相关系数说明变量之间相关的密切程度。() 答案:× 题目9:产品产量随生产用固定资产价值的减少而减少,说明两个变量之间存在正相关关系。() 答案:√ 题目10:计算相关系数的两个变量,要求一个是随机变量,另一个是可控制的量。() 答案:× 题目11:完全相关即是函数关系,其相关系数为±1。() 答案:√ 题目12:估计标准误是说明回归方程代表性大小的统计分析指标,指标数值越大,说明回归方程的代表性越高。() 答案× 二.单项选择题部分 题目1:当自变量的数值确定后,因变量的数值也随之完全确定,这种关系属于()。 A.相关关系 B.函数关系 C.回归关系 D.随机关系 答案:B 题目2:现象之间的相互关系可以归纳为两种类型,即()。 A.相关关系和函数关系 B.相关关系和因果关系

论文撰写中常见的统计学问题及其处理

论文撰写中常见的统计学问题及其处理 据不完全统计,在难以发表的、已凝聚着作者心血并花费较长时间与较大财力撰写的研究论文中,约半数以上是由于统计错误致其结果与原文主要结论相违背。如一文采用某新药引产,96例足月孕妇的产后出血与新生儿低Apgar评分率均为2.1%(各2例),明显低于应用原药引产的19例,其产后出血与新生儿低Apgar评分发生率均为15.8%(各3例,χ2=7.164,P<0.001)。故认为采用新药引产是一更安全的措施。原药引产组例数偏少暂且不谈,该资料比较应采用精确法分析,结果是与原结果恰恰相反(P>0.05),这样上述的主要结论就欠可靠而难以发表,否则论文可起误导作用。类似问题文稿中还常有出现。现就文稿中常见的统计问题及其相应的处理方法简述如下。 一、常用的统计术语统计学中常用的概念有总体与样本、随机化与概率、计量与计数、等级资料及正态与偏态分布资料、标准差与标准误等。如某研究采用经会阴途径测定宫颈长度,以探讨不同宫颈长度与临产时间的关系。结果显示35例宫颈长度为25~34mm者与32例宫颈长为15~24mm者临产时间的均值±标准差(x±s)各为57.6±58.1与47.3±49.1小时。该计量资料,经t检验显示t=0.780,P>0.05,并未提示不同宫颈长度的临产时间差异有显著意义;从标准差大于均值,显示各变量值离散程度大,呈偏态分布,故不能采用x±s这一算术均数法计算均数。经偏态转换成近似正态分布资料后结果是:35例与32例的临产时间各为34.5±4.1与26.7±4.1小时,(t=7.778,P<0.001),两组差异有极显著意义。可认为随着宫颈长度的缩短、临产时间也缩短。此外,当两组资料单位不同时,其S单位也不同;即使两组单位相同的变量值,若其均数差异较大,也都应以变异系数替代s来比较两组值的离散度的大小。 二、正常值范围及异常阈值的确定如何选择研究对象,至少需多少例,正确统计处理和参考一定数量的病例数据,是确定正常值范围及异常阈值的四个重要因素。1.研究对象:应为“完全健康者”,可包括患有不影响待测指标疾病的患者。如“正常妊娠”的条件:孕前月经周期规则、单胎、妊娠过程顺利、无产科并发症及其它有关合并症,分娩孕周为37~41周+6,新生儿出生体重为2500~4000g和Apgar评分≥7分。2.观察数量:观察数量应尽可能多于100例;需分组者,各组人数也是如此(标本来源困难时酌情减少)。有些指标值如雌三醇(E3)、甲胎蛋白(AFP)出书论文发表球球2043944129胎盘泌乳素(HPL)等随孕周进展而变化,应按孕周分组;邻近孕周均数相近者,可合并几周计算。若为偏态分布,应以百分位数计算,则例数应≥120例。取各孕周对象时,应考虑到所取各孕周中的例数分布大致均衡。显然,文稿中往往以少量例数求得正常值是欠可靠的。3.统计处理:应根据所得数据分布特征采用不

第七章讲义非参数统计

第七章 非参数统计 非参数统计(亦称非参数检验),是根据样本资料对总体的某 种性质或关系进行假设检验的统计推断方法。 主要特点 (1)不要求总体分布已知或对总体分布作任何限制性假定; (2)不以估计总体参数为目的; (3)能用于定性变量(即定名测定和序列测定的变量); (4)方法直观,易于理解,运算比较简单。 (5)缺点是检验的功效不如参数检验方法。 本章主要内容 介绍χ2检验、成对比较检验、曼—惠特尼U 检验、游程检验和等级相关检验等几种常用的检验方法。 第一节 χ2检验 一、什么是χ2检验 χ 2 检验是运用χ 2 分布作为理论工具,在非参数统计中可用 于对总体的分布或随机变量的独立性进行的检验。 (一)χ2分布 χ 2 分布是由正态分布推导出来的一种连续型随机变量的概 率分布。 1.χ2分布的数学形式 设随机变量x 1,x 2,…,x k 相互独立且都服从正态分布N (μ, σ2)。将它们标准化转变为标准正态变量Z 1,Z 2,…,Z k ,k 个独立标准正态变量的平方和被定义为χ2分布的随机变量χ2。 21 2 1 2 2 22212 )(1 )( )( )( i k i i k i k Z x x x x ∑∑===-= -++-+-=μσσ μ σ μ σ μ χ

χ2~χ2(k),k 是自由度,表示定义式独立变量的个数。 当k=1时, 2.χ2分布的性质 (1)χ2分布的值恒为正值,且 ?(χ2, k) d χ2 =1; (2)χ2分布的数学期望是自由度k ,方差为2k ; (3)χ2分布取决于自由度k ,随着自由度增大而趋于对称。 一般当k ≥30时,χ2分布可用正态分布近似计算。 (二)χ2检验的原理 在实践中,经常要对一些观察值的实际频数与某种理论频数进行比较,以判断实际结果与理论是否一致。 设有k 个观察值,f 0为它们的实际频数,f e 为理论频数。构造 一个统计量 数理统计证明,在大量试验中,若f 0与f e 相一致时,χ2服从χ2分布。 (f 0-f e )比较小时,χ2值也较小;(f 0-f e )比较大时,χ2也较 大。当χ2值大到按χ2分布超过设定的临界值时,即为小概率事件,就可以认为实际结果与理论假设不一致。 2 22)(Z x =-=σμχ? (χ2) χ2 (k) k=15 k=1 k=3 k=5 ? (χ2 ) χ2 χ2 0.05(4) ) (/)(21 2 为自由度k f f f e e o k i -=∑=χ∞0

《统计学》相关与回归分析

第九章 相关与回归分析 1.从某一行业中随机抽取12家企业,所得产量与其单位成本数据如下: 企业编号 产量(台) 单位成本(台/元) 企业编号 产量(台) 单位成本(台/元) 1 40 185 7 84 156 2 42 175 8 100 142 3 50 172 9 116 140 4 5 5 170 10 125 135 5 65 169 11 130 130 6 78 164 12 140 124 (1)绘制产量与单位成本的散点图,判断二者之间的关系形态。 关系形态:线性负相关 (2)计算产量与单位成本之间的线性相关系数,并对相关系数的显著性进行检验(05.0=α),说明二者之间的关系强度。 设产量为x 台,单位成本y 台/元,由Excel 的回归分析工具计算得 线性相关系数R=0.987244 检验统计量t=19.608669 t α/2(n-2)= 2.228138852 t> t α/2(n-2),说明相关系数是显著的。关系强度为高度线性相关。 (3)以产量为自变量,单位成本为因变量,拟合直线回归方程,并对方程和系数进行显著性检验。 由Excel 的回归分析工具计算得 y = -0.5524x + 202.35 R2 = 0.9747 检验统计量t=19.608669 t α/2(n-2)= 2.228138852 t> t α/2(n-2),说明回归方程和相关系数是显著的。

2.下面是某年7个地区的人均GDP 和人均消费水平的统计数据: 地区 人均GDP (元)X 人均消费水平(元) Y 1 22460 7326 2 11226 4490 3 34547 11546 4 4851 2396 5 5444 2208 6 2662 1608 7 4549 2035 (1)画出相关图,并判断人均GDP 与人均消费水平之间对相关方向; 线性正相关 (2)计算相关系数,指出人均GDP 与人均消费水平之间的相关方向和相关程度; (3)以人均GDP 为自变量,人均消费水平作因变量,拟合直线回归方程; (4)计算估计标准误差 yx S ; (5)对回归系数进行检验(显著性水平取0.05); (6)在95%的概率保证下,求当人均GDP 为5000元时,人均消费水平的置信区间。

应用统计分析课程小论文 浙江万里学院

应用多元分析---分析方法 方法: ①多元方差分析、多元回归分析和协方差分析,称为线性模型方法,用以研究确定的自变量与因变量之间的关系;②判别函数分析和聚类分析,用以研究对事物的分类;③主成分分析、典型相关和因素分析,研究如何用较少的综合因素代替为数较多的原始变量。 多元方差 是把总变异按照其来源(或实验设计)分为多个部分,从而检验各个因素对因变量的影响以及各因素间交互作用的统计方法。例如,在分析 2×2析因设计资料时,总变异可分为分属两个因素的两个组间变异、两因素间的交互作用及误差(即组内变异)等四部分,然后对组间变异和交互作用的显著性进行F检验。 优点 是可以在一次研究中同时检验具有多个水平的多个因素各自对因变量的影响以及各因素间的交互作用。其应用的限制条件是,各个因素每一水平的样本必须是独立的随机样本,其重复观测的数据服从正态分布,且各总体方差相等。 多元回归 用以评估和分析一个因变量与多个自变量之间线性函数关系的统计方法。一个因变量y与自变量x1、x2、…xm有线性回归关系是指:其中α、β1…βm是待估参数,ε是表示误差的随机变量。通过实验可获得 x1、x2…xm的若干组数据以及对应的y值,利用这些数据和最小二乘法就能对方程中的参数作出估计,它们称为偏回归系数。 优点 是可以定量地描述某一现象和某些因素间的线性函数关系。将各变量的已知值代入回归方程便可求得因变量的估计值(预测值),从而可以有效地预测某种现象的发生和发展。它既可以用于连续变量,也可用于二分变量(0,1回归)。多元回归的应用有严格的限制。首先要用方差分

析法检验自变量y与m个自变量之间的线性回归关系有无显著性,其次,如果y与m个自变量总的来说有线性关系,也并不意味着所有自变量都与因变量有线性关系,还需对每个自变量的偏回归系数进行t检验,以剔除在方程中不起作用的自变量。也可以用逐步回归的方法建立回归方程,逐步选取自变量,从而保证引入方程的自变量都是重要的。 判别函数 判定个体所属类别的统计方法。其基本原理是:根据两个或多个已知类别的样本观测资料确定一个或几个线性判别函数和判别指标,然后用该判别函数依据判别指标来判定另一个个体属于哪一类。判别分析不仅用于连续变量,而且借助于数量化理论亦可用于定性资料。它有助于客观地确定归类标准。然而,判别分析仅可用于类别已确定的情况。当类别本身未定时,预用聚类分析先分出类别,然后再进行判别分析。 聚类 解决分类问题的一种统计方法。若给定n个观测对象,每个观察对象有p 个特征(变量),如何将它们聚成若干可定义的类?若对观测对象进行聚类,称为Q型分析;若对变量进行聚类,称为R型分析。聚类的基本原则是,使同类的内部差别较小,而类别间的差别较大。最常用的聚类方案有两种。一种是系统聚类方法。例如,要将n个对象分为k类,先将n个对象各自分成一类,共n类。然后计算两两之间的某种“距离”,找出距离最近的两个类、合并为一个新类。然后逐步重复这一过程,直到并为k类为止。另一种为逐步聚类或称动态聚类方法。当样本数很大时,先将n个样本大致分为k类,然后按照某种最优原则逐步修改,直到分类比较合理为止。 主成分 把原来多个指标化为少数几个互不相关的综合指标的一种统计方法。例如,用p个指标观测样本,如何从这p个指标的数据出发分析样本或总体的主要性质呢?如果p个指标互不相关,则可把问题化为p个单指标来处理。但大多时候p个指标之间存在着相关。此时可运用主成分分析寻求

非参数统计学讲义(第二章)讲稿

非参数统计学讲义 第二章 单样本模型 §1 符号检验和有关的置信区间 在有了一个样本 n X X ,,1 之后,很自然地想要知道它所代表的总体的“中心”在哪里.例如,在对人们的收入进行了抽样 之后,就自然要涉及“人均收入”和“中间收入”等概念.这就与统计中的对总体的均值(mean),中位数(median)和众数(mode)等位置参数的推断有关。例如,在知道总体是正态分布时,要检验其均值是否为μ;一个传统的基于正态理论的典型方法是t 检验.它的检验统计量定义为 n s X t /μ-= 这里 X 为样本均值,而2 1 1 )(X X n S -∑-= 为样本标准差。t —检验的统计量在零假设下有n —1个自由度的t —分布。 检验统计量是用样本标准差s 代替了有标准正态分布的检验统计量的总体标准差后而产生的在大样本时,二者几乎相等。t —检验也许是世界上用得最广泛的检验之一。但是,t —检验并不稳健,在不知总体分布时,特别是小样本时,应用t —检验就可能有风险。这时就要考虑使用非参数方法。对于本章所要介绍的数据趋势或随机性检验,就不存在简单的参数方法.非参数方法总是简单实用的。 本章所介绍的一些检验有代表性,因此这里的讨论将比其它章节更为仔细.一旦熟悉了非参数方法的一些基本思路,后面的内容就很容易理解了. 一、问题的提出 【例2-1】联合国人员在世界上66个大城市生活花费指数(以纽约市1962年12为100)按自小至大的次序排列如下(这里北京的指数为99): 表2-1 生活花费指数数据 66 75 78 80 81 81 82 83 83 83 83 84 85 85 86 86 86 86 87 87 88 88 88 88 88 89 89 89 89 90 90 91 91 91 91 92 93 93 96 96 96 97 99 100 101 102 103 103 104 104 104 105 106 109 109 110 110 110 111 113 115 116 117 118 155 192 在例子中,人们可能会问:①总体的平均(或者中间)水平1 是多少?②北京是在该水平之上还是之下? 可以假定这个样本是从世界许多大城市中随机抽样而得的所有大城市的指数组成总体.可能出现的问题是:这个总体的平均(或者中间)水平是多少?北京是在该水平之上还是之下?这里的平均(或中间)水平是一个位置参数。一般的统计书中的均值就是一个位置参数.中位数是另一个位置参数.它们都是数据总体中心位置的度量和位置参数相对的一个参数为尺度参数;比如在标准统计课本中的描述数据集中和分散程度的方差或标准差. 这个例子经过简单计算,得到样本均值为96.45,而样本中位数为91;它们都可作为总体的中心的估计,除此之外,众数(频率最大的点,本例是88)可作为中间位置. 通常在正态总体分布的假设下,关于总体均值的假设检验和区间估计是用与t 检验有关的方法进行的。然而,在本例中,总体分布是未知的为此首先看该数据的直方图从图中很难说这是什么分布。在右边的两个点分别是东京和香港。 1 刻划位置参数的量有:①平均值:∑i x n 1;②中位数:? ??+=++为偶数为奇数n x x n x M n n n 2/)(2/)1()()1(;③修整均值:∑-+=-=j n j i i j n x j T 1)(2)(, 2 n j < ;④众数;⑤中列数:2/)()1()(X X n -。

统计学基础-第八章-相关与回归分析

统计学基础第八章相关与回归分析 【教学目的】 1.掌握相关系数的测定和性质 2.明确相关分析与回归分析的特点 3.建立回归直线方程,掌握估计标准误差的计算 【教学重点】 1.相关关系、相关分析和回归分析的概念 2.相关系数计算 3.回归方程的建立和依此进行估计和预测 【教学难点】 1.相关分析和回归分析的区别 2.相关系数的计算 3.回归系数的计算 4.估计标准误的计算 【教学时数】 教学学时为8课时 【教学内容参考】 第一节相关关系 一、相关关系的含义 宇宙中任何现象都不是孤立地存在的,而是普遍联系和相互制约的。这种现象间的相互联系、相互制约的关系即为相关关系。 相关关系因其依存程度的不同而表现出相关程度的差别。有些现象间存在着严格的数据依存关系,比如,在价格不变的条件下销售额量之间的关系,圆的面积与半径之间的关系等等,均具有显著的一一对应关系。这些关系可由数学中的函数关系来确切的描述,因而也可以认为是一种

完全相关关系。有些现象间的依存关系则没有那么严格。当一种现象的数量发生变化时,另一种现象的数量却在一定的范围内发生变化,比如身高与体重的关系就是如此。一般来说,身高越高,体重越重,但二者之间的关系并非严格意义上的对应关系,身高1.75米的人,对应的体重会有多个数值,因为影响体重的因素不只身高而已,它还会受遗传、饮食习惯等因素的制约和影响。社会经济现象中大多存在这种非确定的相关关系。 在统计学中,这些在社会经济现象之间普遍存在的数量依存关系,都成为相关关系。在本章,我们主要介绍那些能用函数关系来描述的具有经济统计意义的相关关系。 二、相关关系的特点 1.现象之间确实存在数量上的依存关系 如果一个现象发生数量上的变化,则另一个现象也会发生数量上的变化。在相互依存的两个变量中,可以根据研究目的,把其中的一个变量确定为自变量,把另一个对应变量确定为因变量。例如,把身高作为自变量,则体重就是因变量。 2.现象之间数量上的关系是不确定的 相关关系的全称是统计相关关系,它属于变量之间的一种不完全确定的关系。这意味着一个变量虽然受另一个(或一组)变量的影响,却并不由这一个(或一组)变量完全确定。例如,前面提到的身高和体重之间的关系就是这样一种关系。 三、相关关系的种类 现象之间的相互关系很复杂,它们涉及的变动因素多少不同,作用方向不同,表现出来的形态也不同。相关关系大体有以下几种分类: (一)正相关与负相关 按相关关系的方向分,可分为正相关和负相关。当两个因素(或变量)的变动方向相同时,即自变量x值增加(或减少),因变量y值也相应地增加(或减少),这样的关系就是正相关。如

王静龙《非参数统计分析》课后计算题参考答案

王静龙《非参数统计分析》课后习题计算题参考答案习题一 1.One Sample t-test for a Mean Sample Statistics for x N Mean Std. Dev. Std. Error ------------------------------------------------- 26 1.38 8.20 1.61 Hypothesis Test Null hypothesis: Mean of x = 0 Alternative: Mean of x ^= 0 t Statistic Df Prob > t --------------------------------- 0.861 25 0.3976 95 % Confidence Interval for the Mean Lower Limit: -1.93 Upper Limit: 4.70 则接受原假设认为一样 习题二 1.描述性统计

习题三 1.1 {}+01=1339 :6500:650013=BINOMDIST(13,39,0.5,1) =0.026625957 S n H me H me P S + ==<≤ 另外:在excel2010中有公式 BINOM.INV(n,p,a) 返回一个数值,它使得累计二项式分布的函数值大于或等于临界值a 的最小整数 * **0*0+1inf :2BINOM.INV(39,0.5,0.05)=14 1sup :113 2S 1313 n m i n d i n m m i n d d m i d αα==?????? ??=≥?? ? ????????? ?????? ??≤=-=?? ? ????????? =≤=∑∑= 以上两种都拒绝原假设,即中位数低于6500 1.2

统计学小论文stata

统计学stata应用 引言:本篇论文意在讨论就业人员年末人数与人均生产总值的关系,并通过回归分析的办法进行相关论证说明。 数据变量设定:X为各市就业人员年末人数、Y为各市人均地区生产总值、Z为各市工业企业新产品产出情况(因为工业新产品产出对人均生产总值具有较大影响,故将此设为控制变量)。 以下为回归分析结果: 表1 基本的描述性统计 Variable Obs Mean Std. Dev. Min Max 工业企业新产 21 0.1872622 0.1716819 0.0119611 0.5667098 品产出 人均地区生产 21 10.75788 0.6001676 9.929594 11.91502 总值 就业人员年末 21 5.480276 0.6181532 4.689452 6.802016 人数 注:数据来源于2014年广东省年鉴《各市就业人员年末人数》、2014年广东省年鉴《各市人均地区生产总值》、2014年广东省年鉴《各市工业企业新产品产出情况》 图1 各市就业人员年末人数与各市人均GDP 从图1可知,x与y是正相关

表2 基本的回归模型 注:括号内为t 统计量。***表示在1%的水平上显著、**表示在5%的水平上显著、*表示在10%的水平 上显著 从表2中我们可以得知,在(1)中,x 变动一个单位,y 变动0.562个单位,即弹性为0.562 (在1%的水平上显著);在(2)中,弹性为0.360。R2为0.66时拟合优度较佳。 综上所述:各市就业人员年末人数与各市人均地区生产总值正相关。对政府具有一定的启示作用:政府可以增加就业岗位,减少失业人数,增加就业人数,从而能使地区经济得到一定的发展。 (1) (2) 人均地区生产总值 人均地区生产总 值 就业人员年末人数 0.562*** 0.360* (2.96) (2.01) 工业企业新产品产出 2.122*** ( 3.14) _cons 7.676*** 8.390*** (7.06) (9.11) N 21 21 r2 0.336 0.66

相关主题
文本预览
相关文档 最新文档