当前位置:文档之家› 类别数据分析 第三讲

类别数据分析 第三讲

类别数据分析 第三讲
类别数据分析 第三讲

I.一般线性模型简介 (Generalized Linear Models 或 GLM)

一般线性模型GLMs 是将回归方程扩展到非常态分布或非线性的样本的一种统计方法。

● 一般线性模型GLMs 的三个要素

■ 随机要素 (random component ):假设被指定为应变量Y 的随机变量是属于某一种特定的概率分布型态 。

■ 系统要素(systematic component ): 在方程式的右侧设定一组解释变量,属于线性的预测变量:

ββββ01122++++X X X k k ....

■ 连结函数(link function ): 设定随机要素与系统要素之间的统计关系,也就是将 μ=E(Y) 透过方程式连结到解释变量上。

● 一般线性模型 GLMs 的某些特殊型态 ■ 最小二乘法OLS 模型

随机要素:常态分布与固定标准误的连续变量

系统要素:

ββββ01122++++X X X k k ...

连结函数:g(μ)= μ

■ logit 模型

随机要素:Y=1 or 0, 呈二项分布(binomial distribution).

系统要素:ββββ01122++++X X X

k k ...

连结函数:g(μ)=log [μ /(1- μ)] [logit]

■泊松回归模型(Poisson Regression )

随机要素:泊松分布(Poisson distribution )下的次数频率 (count frequency)

系统要素:ββββ01122++++X X X

k k ...

连结函数:g(μ)=log(μ)

在列联表( contingency tables )里的数据也是次数频率,因此, Loglinear 模型在一般线性模型GLMs 的架构下,实际上是泊松回归的一种。

总之,一般线性模型GLMs 提供了一种包含了大多数连续与离散变量重要模型的统整模式。

● 最大可能性(似然)估计(Maximum Likelihood Estimation 或MLE )

此一估计所得的参数值与所观察到的数值最为一致:也就是说,运用最大似然法所估计出的参数发生的概率,将比其它的数字发生的概率更大。

步骤一:决定一个说明未知参数概率的函数(似然函数likelihood function )。

步骤二:找出此一未知参数的观察值,使得此一似然函数达到最大值。

例子:运用二项公式(binomial formula )来计算十个被观察对象当中出现四位女性的概率。女性在总体当中出现的实际概率是?.

因此可得:

()P s n p (|,.).(.)

====

-4105051054

104

6

现在假设我们不知道总体当中的女性所占比例 (π ),但是我们的十个观察值当中确实有四位女性,我们由这个样本当中得到总体最可能的π 值为何?

最大可能性估计ML E , 就是推估一个总体的参数值,来使得观察值最可能发生。

上述的似然函数就是:

()L =

-4

104

6

π()

数学上,我们希望找出的是参数值p 来达到这个似然函数L 的最大值,此时p 即是 π的估计值。

在大样本的条件下,最大可能性的估计值会具有下列三个良好的统计性质:

i) 最有效率 (变异的极小化minimum variance) ii) 当样本数增加时,其统计偏误会不断缩小。 iii) 其分配型态渐近于随机抽样分布。

当总体属于随机分布时,对总体平均值的最大可能性估计即是样本的平均值,在满足此一条件下,最小二乘法 OLS 估计正等于是最大可能性估计MLE (Powers and Xie Appendix B )。

II. 二分法(Binary ) Logit 模型

1. 发生比Odds 与发生比率Odds Ratio (Agresti p.268-270):

在处理二分法的变量时,发生比Odds 就等于某事件发生的概率除以未发生的概率。

odds p

p =

-1

此处的 p 是指事件发生的概率, (1-p ) 就是事件不发生或失败的概率。 因此,我们也可以用发生比Odds 倒算出概率:

p

odds odds

=

+1

发生比率(Odds ratio)是用来估计不同群体之间事件发生概率的相对比例。同一个事件的概率,用发生比之间的关系来表达就是:

θ=

-

-

p p p p 11

22

1

1

/() /()

让我们参考实际的例子:1996年全国统计数据中有6090个有效样本,依据性别与党员资格来划分,可以得到下列的次数分配表:

. tab party sex

current |

party | sex of respondent

member? | Male Female | Total

-----------+----------------------+----------

Yes | 547 162 | 709

No | 2,541 2,840 | 5,381

-----------+----------------------+----------

Total | 3,088 3,002 | 6,090

男性成为党员的发生比是多少?

女性成为党员的发生比是多少?

男性对女性成为党员的发生比率又是多少?

. tab nsize14 party

size of |

place of |

residence | current party member?

at 14 | Yes No | Total

-----------+----------------------+----------

Village | 388 3,697 | 4,085

Township | 51 352 | 403

County s | 73 292 | 365

County-l | 42 219 | 261

District | 70 433 | 503

Province | 52 254 | 306

Beijing, | 32 131 | 163

-----------+----------------------+----------

Total | 708 5,378 | 6,086

对那些十四岁时仍居住在农村的人来说,成为党员的发生率是多少?

对那些十四岁时居住在乡镇的人来说,成为党员的发生率是多少?

对那些十四岁时居住在直辖市的人来说,成为党员的发生率是多少?

当然,我们也可以由此表格计算出任何两个群体之间的发生比率。

发生比率Odds Ratio θ 有一些良好的统计性质:

●与表格对角数字相乘之后的比率相等。

●无论是从行或是列来计算结果都相等。

●可以转换为负值之外的任何数值。

●当θ=1就表示第一行与第二行的发生率相等。

●当θ>1就表示第一行的发生率大于第二行的发生率。

●当θ<1就表示第一行的发生率小于第二行的发生率。

发生比率可广泛运用于 logit模型与 loglinear 模型。

2.二分Logit回归法(Binary Logistic Regression)

我们社会科学界经常面对一些二元范畴的应变量,这是因为很多社会现象都是以二分的方式来测量与描述,比如投票行为、出勤与缺席、已婚或未婚等,而非以连续变量的方式来测量与描述的。

我们曾经提到虚拟变量(variable dummy)的概念,当一个应变量被分为k个类型的结果时,可以被转换成 (k-1) 个虚拟变量。从最简单的情况开始,我们假设一个变量只能分为两个范畴(事件发生 [y=1] 或是未发生 [y=0]).

举个实际的例子,我们想解释在中国为何有些人能够加入共产党,我们有个叫“rparty” 的虚拟变量以及其它的解释变量,包括年龄、性别与父亲的党员资格。

. tab rparty

rparty | Freq. Percent Cum.

------------+-----------------------------------

0 | 5,381 88.36 88.36

1 | 709 11.64 100.00

------------+-----------------------------------

Total | 6,090 100.00

要建立一个二元应变量的模型,我们可以将该方程式用机率模型表达为:

E(Y|X)=β0+β1X1+ β2X2

我们该如何设定与估计上述的模型呢?

首先,我们可以使用线性机率模型(linear probability model) 也就是OLS来估计,但是线性机率模型有下列问题:

a)

b)

c)超出范围的预测值-机率小于0或大于1 (Y<0 or Y>1)。

d)异方差性(Heteroskedasticity)可能导致无效率的估计值、偏误的标准误与错误的统计检验结

果。

确实,异方差性(Heteroskedasticity)与超范围的预测值可以运用最小二乘法OLS以外的线性模型来解决。

然而,错误的函数型态与对边际分布数值的敏感性是线性模型的致命伤。所以我们必须引进非线性(NONLINEAR) 模型!

要对付二元的机率分布型态,我们可以运用的其中一种非线性模型就是 logistic (logit) 模型:

P Y X X e e e

X

X

X

(|)()===+=++++111

11παβαβαβ

a. 在 β>0 的条件下:

当X →+∞, π (x)→ 1 当 X →-∞, π (x)→ 0

在 β<0的条件下: 当 X →+∞, π (x)→ 0 当X →-∞, π (x)→ 1

因此 0<π (x)<1

b. 曲线的斜率:部分微分的结果

在线性模型中斜率会成为常数:

??βP Y X x

(|)

=,

在logistic 模型中斜率视X 与 β的条件而定:

?π?βππβ(|)

()[()]*(|)[(|)]

Y X x

X X P y X P y X =-==-=1111

因此,π(X)[1- π(X)] 在 π=0.5的时候会达到极大值,也就是说,当 p=0.5的时候,机率密度函数的斜率最高。

logistic 函数也可以转换成发生率:

1- π(X)=1/[1+e α+βx ]

发生率Odds

π(X)/[1- π(X)]= e α+βx =e αe βx

因此,X 每增加一个单位, 就会让发生率增加e β 倍 (MULTIPLIES the odds by e β)。

c. 发生率对数 “Log Odds”

log {π(X)/[1- π(X)]}= α+βX

所以,将概率转换到发生率对数(log odds)之后,方程式的两侧都成了X 的线性模型 :“Linear Logit Equation ”。 III 估计与解释

1. 估计:最大可能性方法Maximum Likelihood Method

L=Pr(Y 1, Y 2, … Y n )=Pr()y i

i n

=∏1

L p p p p p i y i i

i

i n

i n

i i

y i

y i

=-=---==∏∏()

()()111111

log log log()L y p p p i i i i n

i i n

=-?? ???+-==∑∑111

1

也就是,

log log()

L x y e

i i i i n x i n

i i

=++==∑∑ββ1

1

1

理论上,MLE所计算出的βi可以使上述的函数极大化;应用上,STATA 可以直接为我们计算出来。

2. 我们常见两类的logit 模型实际上是一样的,只是数据本身因为方类方法而有所不同:

a.个体纪录(Unit Record)或“个人” logit 模型

b.群体数据或表格模型(tabular model)

a. 个体纪录(Unit Record)或“个人” logit 模型

在n (i=1…n) 个观察个体 (“individuals”)当中,我们观察到应变量Y i属于(0, 1) 这种二项结果,以及自变量X i,这两类数据都来自原始的数据纪录:

. list rparty nsize14 age fparty sex

+-----------------------------------------+

| rparty nsize14 age fparty sex |

|-----------------------------------------|

1. | 1 Village 47 No Fema |

2. | 1 Village 54 No Male |

3. | 1 Beijing, 45 Yes Male |

4. | 0 Village 47 No Male |

5. | 1 Village 44 No Male |

|-----------------------------------------|

6. | 0 Village 40 No Male |

7. | 1 Village 49 No Male |

8. | 1 Village 51 Yes Fema |

9. | 0 Village 60 No Fema |

10. | 0 Village 30 Yes Male |

|-----------------------------------------|

11. | 0 Village 46 No Male |

12. | 0 Village 38 No Fema |

13. | 0 Village 40 No Male |

14. | 0 Village 40 Yes Fema |

15. | 0 Village 33 No Male |

|-----------------------------------------|

16. | 0 Village 46 Yes Fema |

17. | 0 Village 33 Yes Male |

18. | 0 Village 40 No Fema |

19. | 0 Village 24 No Male |

20. | 0 Village 30 Yes Fema |

|-----------------------------------------|

21. | 0 Village 30 No Male |

22. | 0 Village 28 No Fema |

23. | 0 Village 25 No Fema |

24. | 0 Village 50 No Male |

25. | 0 Village 52 No Male |

|-----------------------------------------|

26. | 0 Village 30 No Fema |

27. | 0 Village 32 No Fema |

28. | 1 Village 67 No Male |

我们可以用STATA计算出logit 模型的估计结果:

. xi: logit rparty i.nsize14

i.nsize14 _Insize14_1-7 (naturally coded; _Insize14_1 omitted)

Iteration 0: log likelihood = -2188.2434

Iteration 1: log likelihood = -2157.828

Iteration 2: log likelihood = -2156.3204

Iteration 3: log likelihood = -2156.3177

Logit estimates Number of obs = 6086

LR chi2(6) = 63.85

Prob > chi2 = 0.0000

Log likelihood = -2156.3177 Pseudo R2 = 0.0146

------------------------------------------------------------------------------

rparty | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

_Insize14_2 | .3224661 .1590489 2.03

0.043 .0107359 .6341962

_Insize14_3 | .8679773 .1413184 6.14 0.000 .5909982

1.144956

_Insize14_4 | .6028695 .1767018 3.41

0.001 .2565403 .9491987

_Insize14_5 | .4320291 .1394381 3.10

0.002 .1587354 .7053228

_Insize14_6 | .6681811 .1612934 4.14

0.000 .3520518 .9843104

_Insize14_7 | .8448102 .2042818 4.14 0.000 .4444253

1.245195

_cons | -2.254272 .0533649 -42.24 0.000 -2.358865 -

2.149678

------------------------------------------------------------------------------

. logit, or

Logit estimates Number of obs = 6086

LR chi2(6) = 63.85

Prob > chi2 = 0.0000

Log likelihood = -2156.3177 Pseudo R2 = 0.0146

------------------------------------------------------------------------------

rparty | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

_Insize14_2 | 1.380528 .2195715 2.03 0.043 1.010794

1.885506

_Insize14_3 | 2.382088 .3366329 6.14 0.000 1.80579

3.142304

_Insize14_4 | 1.827355 .3228969 3.41 0.001 1.292451

2.583639

_Insize14_5 | 1.54038 .2147877 3.10 0.002 1.172028 2.0245

_Insize14_6 | 1.950686 .3146328 4.14 0.000 1.421982

2.675966

_Insize14_7 | 2.327536 .4754731 4.14 0.000 1.559594

3.473612

------------------------------------------------------------------------------

另一种直接得到发生比率的作法是logistic regression的指令:

. xi:logistic rparty i.nsize14

i.nsize14 _Insize14_1-7 (naturally coded; _Insize14_1 omitted)

Logistic regression Number of obs = 6086

LR chi2(6) = 63.85

Prob > chi2 = 0.0000

Log likelihood = -2156.3177 Pseudo R2 = 0.0146

------------------------------------------------------------------------------

rparty | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

_Insize14_2 | 1.380528 .2195715 2.03 0.043 1.010794

1.885506

_Insize14_3 | 2.382088 .3366329 6.14 0.000 1.80579

3.142304

_Insize14_4 | 1.827355 .3228969 3.41 0.001 1.292451

2.583639

_Insize14_5 | 1.54038 .2147877 3.10 0.002 1.172028 2.0245

_Insize14_6 | 1.950686 .3146328 4.14 0.000 1.421982

2.675966

_Insize14_7 | 2.327536 .4754731 4.14 0.000 1.559594

3.473612

------------------------------------------------------------------------------

b. 群体数据或表格模型(tabular model)

在很多时候我们的研究拿不到个人层次的原始数据,但是可以取得某些加总的表格数据,例如我们下面有一张表格:

size of |

place of |

residence | rparty

at 14 (i) | 0 1 | Total

-----------+----------------------+----------

Village | 3,697 388 | 4,085

Township | 352 51 | 403

County s | 292 73 | 365

County-l | 219 42 | 261

District | 433 70 | 503

Province | 254 52 | 306

Beijing, | 131 32 | 163

-----------+----------------------+----------

Total | 5,378 708 | 6,086

首先,我们必须把表格的数据输入STATA,第二步才能估计logit模型。

. input place parmem freq

place parmem freq

1. 1 0 3697

2. 2 0 352

3. 3 0 292

4. 4 0 219

5. 5 0 433

6. 6 0 254

7. 7 0 131

8. 1 1 388

9. 2 1 51

10. 3 1 73

11. 4 1 42

12. 5 1 70

13. 6 1 52

14. 7 1 32

15. end

. label data "sosc534 tabular data from China Life History Survey"

. label var place "residence place at age 14"

. label var parmem "whether party member"

. label var freq "persons"

. label define p1 1 "village" 2 "township" 3 "county seat" 4 "county-

level city" 5 "prefectural city" 6 "p

> rovincial capital" 7 "Beijing Shanghai"

. label values place p1

. label define p2 1 "party member" 0 "not party member"

. label value parmem p2

. compress

place was float now byte

parmem was float now byte

freq was float now int

. des

Contains data from C:\Documents and Settings\sowu\My

Documents\data\CHINA07.DTA

obs: 6,090 sosc534 tabular data from China Life History Survey

vars: 3 16 Sep 1998 19:40

size: 48,720 (99.9% of memory free)

-----------------------------------------------------------------

storage display value

variable name type format label variable label

-----------------------------------------------------------------place byte %18.0g p1 residence place at age 14

parmem byte %16.0g p2 whether party member

freq int %9.0g persons

-------------------------------------------------------Sorted by:

Note: dataset has changed since last saved

. list

+----------------------------------------------+

| place parmem freq |

|----------------------------------------------|

1. | village not party member 3697 |

2. | township not party member 352 |

3. | county seat not party member 292 |

4. | county-level city not party member 219 |

5. | prefectural city not party member 433 |

|----------------------------------------------|

6. | provincial capital not party member 254 |

7. | Beijing Shanghai not party member 131 |

8. | village party member 388 |

9. | township party member 51 |

10. | county seat party member 73 |

|----------------------------------------------|

11. | county-level city party member 42 |

12. | prefectural city party member 70 |

13. | provincial capital party member 52 |

14. | Beijing Shanghai party member 32 |

+----------------------------------------------+

这样一来就可以运行logit模型了!

特别注意,我们要用“FREQUENCY”的指令来加权(weight)计算!

. xi:logit parmem i.place [fweight=freq]

i.place _Iplace_1-7 (naturally coded; _Iplace_1 omitted)

Iteration 0: log likelihood = -2188.2434

Iteration 1: log likelihood = -2157.828

Iteration 2: log likelihood = -2156.3204

Iteration 3: log likelihood = -2156.3177

Logit estimates Number of obs = 6086

LR chi2(6) = 63.85

Prob > chi2 =

0.0000

Log likelihood = -2156.3177 Pseudo R2 =

0.0146

-------------------------------------------------------------------------

-----

parmem | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+-----------------------------------------------------------

-----

_Iplace_2 | .3224661 .1590489 2.03

0.043 .0107359 .6341962

_Iplace_3 | .8679773 .1413184 6.14 0.000 .5909982

1.144956

_Iplace_4 | .6028695 .1767018 3.41

0.001 .2565403 .9491987

_Iplace_5 | .4320291 .1394381 3.10

0.002 .1587354 .7053228

_Iplace_6 | .6681811 .1612934 4.14

0.000 .3520518 .9843104

_Iplace_7 | .8448102 .2042818 4.14 0.000 .4444253

1.245195

_cons | -2.254272 .0533649 -42.24 0.000 -2.358865 -

2.149678

-------------------------------------------------------------------------

-----

或是:

. xi:logistic parmem i.place [fweight=freq]

i.place _Iplace_1-7 (naturally coded; _Iplace_1 omitted) Logistic regression Number of obs = 6086

LR chi2(6) = 63.85

Prob > chi2 =

0.0000

Log likelihood = -2156.3177 Pseudo R2 =

0.0146

-------------------------------------------------------------------------

-----

parmem | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

-------------+-----------------------------------------------------------

-----

_Iplace_2 | 1.380528 .2195715 2.03 0.043 1.010794

1.885506

_Iplace_3 | 2.382088 .3366329 6.14 0.000 1.80579

3.142304

_Iplace_4 | 1.827355 .3228969 3.41 0.001 1.292451

2.583639

_Iplace_5 | 1.54038 .2147877 3.10 0.002 1.172028 2.0245

_Iplace_6 | 1.950686 .3146328 4.14 0.000 1.421982

2.675966

_Iplace_7 | 2.327536 .4754731 4.14 0.000 1.559594

3.473612

------------------------------------------------------------------------------

在一般线性模型(generalized linear models)的架构下我们也可以使用“glm” 这个 STATA指令来估计并得到同样的结果。对个体纪录数据的作法:

. xi: glm rparty i.nsize14, link(logit)

i.nsize14 _Insize14_1-7 (naturally coded; _Insize14_1 omitted)

Iteration 20: log likelihood = -1680.6493

Iteration 21: log likelihood = -1679.0306

Iteration 22: log likelihood = -1677.8693

Iteration 23: log likelihood = -1677.8675

Iteration 24: log likelihood = -1677.8675

Generalized linear models No. of obs = 6086

Optimization : ML: Newton-Raphson Residual df = 6079

Scale parameter

= .1017394

Deviance = 618.474048 (1/df) Deviance

= .1017394

Pearson = 618.474048 (1/df) Pearson

= .1017394

Variance function: V(u) = 1 [Gaussian]

Link function : g(u) = ln(u/(1-u)) [Logit]

Standard errors : OIM

Log likelihood = -1677.867499 AIC

= .5536863

BIC = -52352.38989

------------------------------------------------------------------------------

rparty | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

_Insize14_2 | .3224661 .1550254 2.08

0.038 .0186219 .6263103

_Insize14_3 | .8679773 .1194101 7.27 0.000 .6339377

1.102017

_Insize14_4 | .6028695 .1573257 3.83

0.000 .2945168 .9112222

_Insize14_5 | .4320291 .132152 3.27

0.001 .173016 .6910423

_Insize14_6 | .6681811 .1417063 4.72

0.000 .3904418 .9459204

_Insize14_7 | .8448102 .1686528 5.01 0.000 .5142568

1.175364

_cons | -2.254272 .0580566 -38.83 0.000 -2.36806 -

2.140483

-------------------------------------------------------------------------

-----

对群体数据的作法:

. xi:glm parmem i.place [fw=freq], link(logit)

i.place _Iplace_1-7 (naturally coded; _Iplace_1 omitted) Iteration 20: log likelihood = -1680.6497

Iteration 21: log likelihood = -1679.0311

Iteration 22: log likelihood = -1677.8693

Iteration 23: log likelihood = -1677.8675

Iteration 24: log likelihood = -1677.8675

Generalized linear models No. of obs = 6086

Optimization : ML: Newton-Raphson Residual df = 6079

Scale parameter

= .1017394

Deviance = 618.474048 (1/df) Deviance

= .1017394

Pearson = 618.474048 (1/df) Pearson

= .1017394

Variance function: V(u) = 1 [Gaussian]

Link function : g(u) = ln(u/(1-u)) [Logit]

Standard errors : OIM

Log likelihood = -1677.867499 AIC

= .5536863

BIC = -52352.38989

-------------------------------------------------------------------------

-----

parmem | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+-----------------------------------------------------------

-----

_Iplace_2 | .3224661 .1550254 2.08

0.038 .0186219 .6263103

_Iplace_3 | .8679773 .1194101 7.27 0.000 .6339377

1.102017

_Iplace_4 | .6028695 .1573257 3.83

0.000 .2945168 .9112222

_Iplace_5 | .4320291 .132152 3.27

0.001 .173016 .6910423

_Iplace_6 | .6681811 .1417063 4.72

0.000 .3904418 .9459204

_Iplace_7 | .8448102 .1686528 5.01 0.000 .5142568

1.175364

_cons | -2.254272 .0580566 -38.83 0.000 -2.36806 -

2.140483

------------------------------------------------------------------------------

3.解释回归系数:

● 群体比较的发生比率Odds Ratio

接下来我们计算成为党员的Log odds:模型MODEL A

. xi: logit rparty i.nsize14

i.nsize14 _Insize14_1-7 (naturally coded; _Insize14_1 omitted)

Iteration 0: log likelihood = -2188.2434

Iteration 1: log likelihood = -2157.828

Iteration 2: log likelihood = -2156.3204

Iteration 3: log likelihood = -2156.3177

Logit estimates Number of obs = 6086

LR chi2(6) = 63.85

Prob > chi2 = 0.0000

Log likelihood = -2156.3177 Pseudo R2 = 0.0146

------------------------------------------------------------------------------

rparty | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

_Insize14_2 | .3224661 .1590489 2.03

0.043 .0107359 .6341962

_Insize14_3 | .8679773 .1413184 6.14 0.000 .5909982

1.144956

_Insize14_4 | .6028695 .1767018 3.41

0.001 .2565403 .9491987

_Insize14_5 | .4320291 .1394381 3.10

0.002 .1587354 .7053228

_Insize14_6 | .6681811 .1612934 4.14

0.000 .3520518 .9843104

_Insize14_7 | .8448102 .2042818 4.14 0.000 .4444253

1.245195

_cons | -2.254272 .0533649 -42.24 0.000 -2.358865 -

2.149678

------------------------------------------------------------------------------

模型MODEL B:

. logit, or

Logit estimates Number of obs = 6086

LR chi2(6) = 63.85

Prob > chi2 = 0.0000

Log likelihood = -2156.3177 Pseudo R2 = 0.0146

------------------------------------------------------------------------------

rparty | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

_Insize14_2 | 1.380528 .2195715 2.03 0.043 1.010794

1.885506

_Insize14_3 | 2.382088 .3366329 6.14 0.000 1.80579

3.142304

_Insize14_4 | 1.827355 .3228969 3.41 0.001 1.292451

2.583639

_Insize14_5 | 1.54038 .2147877 3.10 0.002 1.172028 2.0245

_Insize14_6 | 1.950686 .3146328 4.14 0.000 1.421982

2.675966

_Insize14_7 | 2.327536 .4754731 4.14 0.000 1.559594

3.473612

------------------------------------------------------------------------------

从模型A当中,我们可以看到相对于在农村长大的人(对照组)来说,在乡镇上长大的人成为共产党员的log odds 高出了0.322 。

换句话说,相对于在农村长大的人(对照组)来说,在乡镇上长大的人成为共产党员的发生率“odds”高出了38% (模型B中算出两组之发生率比为1.38:1)。

拿另一个组比较,相对于在乡镇长大的人(对照组)来说,在县城长大的人成为共产党员的发生比率“odds ratio”大约是173%,也可以说比镇上的人相对高出73%(2.38/1.38)。

当连续变项(如年龄)出现在回归方程里的例子:

. xi: logit rparty age i.nsize14

i.nsize14 _Insize14_1-7 (naturally coded; _Insize14_1 omitted)

Iteration 0: log likelihood = -2188.2434

Iteration 1: log likelihood = -2037.3371

Iteration 2: log likelihood = -2024.201

Iteration 3: log likelihood = -2024.1472

Iteration 4: log likelihood = -2024.1472

Logit estimates Number of obs = 6086

LR chi2(7) = 328.19

Prob > chi2 = 0.0000

Log likelihood = -2024.1472 Pseudo R2 = 0.0750

------------------------------------------------------------------------------

rparty | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

age | .0502705 .0031741 15.84

0.000 .0440493 .0564917

_Insize14_2 | .42295 .1635339 2.59

0.010 .1024294 .7434705

_Insize14_3 | .8883086 .1465199 6.06 0.000 .6011348

1.175482

_Insize14_4 | .7972174 .1833134 4.35 0.000 .4379297

1.156505

_Insize14_5 | .4516405 .1434249 3.15

0.002 .1705329 .732748

_Insize14_6 | .8167438 .16633 4.91 0.000 .4907431

1.142745

_Insize14_7 | .7892471 .2101785 3.76 0.000 .3773049

1.201189

_cons | -4.524997 .1634255 -27.69 0.000 -4.845306 -

4.204689

------------------------------------------------------------------------------

. logit, or

Logit estimates Number of obs = 6086

LR chi2(7) = 328.19

Prob > chi2 = 0.0000

Log likelihood = -2024.1472 Pseudo R2 = 0.0750

------------------------------------------------------------------------------

rparty | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

age | 1.051556 .0033378 15.84 0.000 1.045034

1.058118

_Insize14_2 | 1.526458 .2496276 2.59 0.010 1.107859

2.103222

_Insize14_3 | 2.431014 .356192 6.06 0.000 1.824188

3.239705

_Insize14_4 | 2.219357 .4068378 4.35 0.000 1.549496

3.178804

_Insize14_5 | 1.570887 .2253043 3.15 0.002 1.185937

2.080791

_Insize14_6 | 2.263119 .3764245 4.91 0.000 1.63353

3.135362

_Insize14_7 | 2.201738 .4627579 3.76 0.000 1.458349

3.324068

------------------------------------------------------------------------------

上述结果表示年龄每增长一岁,其成为共产党员的 log odds 就增加0.05 单位 (logit model), 或 odds 相对增加了百分之5 (logistic model)。

● 概率的预测值

以logit 模型或logistic模型来预测事件发生的机率,有时可以给我们十分有趣的结论。

基于rparty对nsize14 回归的logit 模型结果 (在省略其它变量的情况下),

在农村里长大的人成为共产党员的概率有多高?

在镇上长大的人成为党员的概率又有多高?

在直辖市长大的人成为党员的概率如何?

. xi: logit rparty i.nsize14

i.nsize14 _Insize14_1-7 (naturally coded; _Insize14_1 omitted)

Iteration 0: log likelihood = -2188.2434

Iteration 1: log likelihood = -2157.828

Iteration 2: log likelihood = -2156.3204

Iteration 3: log likelihood = -2156.3177

Logit estimates Number of obs = 6086

LR chi2(6) = 63.85

Prob > chi2 = 0.0000

Log likelihood = -2156.3177 Pseudo R2 = 0.0146

------------------------------------------------------------------------------

rparty | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

_Insize14_2 | .3224661 .1590489 2.03

0.043 .0107359 .6341962

_Insize14_3 | .8679773 .1413184 6.14 0.000 .5909982

1.144956

_Insize14_4 | .6028695 .1767018 3.41

0.001 .2565403 .9491987

_Insize14_5 | .4320291 .1394381 3.10

0.002 .1587354 .7053228

_Insize14_6 | .6681811 .1612934 4.14

0.000 .3520518 .9843104

_Insize14_7 | .8448102 .2042818 4.14 0.000 .4444253

1.245195

_cons | -2.254272 .0533649 -42.24 0.000 -2.358865 -

2.149678

------------------------------------------------------------------------------

. predict p1 if nsize14==1

(option p assumed; Pr(rparty))

(2005 missing values generated)

. predict p2 if nsize14==2

(option p assumed; Pr(rparty))

(5687 missing values generated)

. predict p3 if nsize14==3

(option p assumed; Pr(rparty))

(5725 missing values generated)

. predict p4 if nsize14==4

(option p assumed; Pr(rparty))

(5829 missing values generated)

. predict p5 if nsize14==5

(option p assumed; Pr(rparty))

(5587 missing values generated)

. predict p6 if nsize14==6

(option p assumed; Pr(rparty))

(5784 missing values generated)

. predict p7 if nsize14==7

(option p assumed; Pr(rparty))

(5927 missing values generated)

. sum p1-p7

Variable | Obs Mean Std. Dev. Min Max

-------------+--------------------------------------------------------

p1 | 4085 .0949816 0 .0949816 .0949816

p2 | 403 .1265509 0 .1265509 .1265509

p3 | 365 .2 0 .2 .2

p4 | 261 .1609195 0 .1609195 .1609195

p5 | 503 .139165 0 .139165 .139165

-------------+--------------------------------------------------------

p6 | 306 .1699346 0 .1699346 .1699346

p7 | 163 .196319 0 .196319 .196319

因此,我们计算出在农村里长大的人有0.095 概率的机会成为共产党员,镇上长大的人则有 0.127的概率,直辖市(北京、天津、上海)里长大的人则有高达0.196的机会成为党员。

通常,对连续变量的预测值作跨组比较,也可以给我们一些有趣的结论。

11属性数据分析

技能训练十一属性数据分析 一、训练目的与要求 1.掌握属性数据分析方法。 2.掌握属性数据分析图表与原图形的组合。 二、训练准备 1.训练数据:本训练数据保存于文件夹Exercise-11中。 2.预备知识:属性分析的方法。 三、训练步骤与内容 1.数据准备 将训练数据复制,粘贴至各自文件夹内。 启动MAPGIS主程序。在主菜单界面中,点击参数按钮,在弹出的对话框中,设置工作目录最终指向Exercise-14(盘符依据各人具体情况设置)。 2.属性分析 执行如下命令:空间分析?空间分析?文件?装载区文件,加载要进行属性分析的数据文件。 Step1: 加载数据文件中所提供 的REGION.WP区文件 执行如下命令:属性分析?单属性分类统计?立体饼图,选择属性分析类型。

Step2: 属性 Step3: 选择分类属性字段为小麦,保留属性字段为乡名、水稻、玉米Step4: 设置分类方式为分段方式 Step5: 确定,退出设置 分类值域按图中所示输 入

分类统计结果图 3.保存文件 执行如下命令:文件?保存当前文件,换名保存属性分析所生成的图形文件,系统生成的表格文件(*.WB)不需要保存。 Step: 将缺省文件名改为“属性分析”,点 击保存按钮。按此方法依次将线、区 文件名均改为“属性分析” 4.文件组合 执行如下命令:图形处理?输入编辑?打开已有工程文件,打开所提供的Exercise-14.MPJ,在工程文件管理窗口,点击鼠标右键,选择“添加项目”选项,将前面生成的属性分析.WT、属性分析.WL、属性分析.WP添加进此工程文件。 关闭REGION.WP、POINT.WT、RIVER.WL和LINE.WL四个文件。 执行如下命令:其它?整块移动,调整属性分析.WT、属性分析.WL、属性分析.WP三个图形文件的位置,使与主图位置相适应。若此三个图形与主图相比过大的话,执行如下命令:其它?整图变换?键盘输入参数,来进行调整(注意应确定REGION.WP、POINT.WT、RIVER.WL 和LINE.WL四个文件处于关闭状态)。

数据分析的常见方法

一、描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率\回归法、决策树法。 2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。 二、假设检验 1、参数检验 参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。 1)U验使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验使用条件:当样本含量n较小时,样本值符合正态分布 A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别; B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似; C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验 非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。 适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。

A 虽然是连续数据,但总体分布形态未知或者非正态; B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下; 主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。 三、信度分析 检査测量的可信度,例如调查问卷的真实性。 分类: 1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度 2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。 四、列联表分析 用于分析离散变量或定型变量之间是否存在相关。 对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。 列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。 五、相关分析 研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。 1、单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量; 2、复相关:三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的

数据分析中的变量分类

数据分析中的变量分类 数据分析工作每天要面对各种各样的数据,每种数据都有其特定的含义、使用范围和分析方法,同一个数据在不同环境下的意义也不一样,因此我们想要选择正确的分析方法,得出正确的结论,首先要明确分析目的,并准确理解当前的数据类型及含义。统计学中的变量指的是研究对象的特征,我们有时也称为属性,例如身高、性别等。每个变量都有变量值,变量值就是我们分析的内容,它是没有含义的,只是一个参与计算的数字,所以我们主要关注变量的类型,不同的变量类型有不同的分析方法。 变量主要是用来描述事物特征,那么按照描述的粗劣,有以下两种划分方法: 按基本描述划分 【定性变量】:也称为名称变量、品质变量、分类变量,总之就是描述事物特性的变量,目的是将事物区分成互不相容的不同组别,变量值多为文字或符号,在分析时,需要转化为特定含义的数字。 定性变量可以再细分为: 有序分类变量:描述事物等级或顺序,变量值可以是数值型或字符型,可以进而比较优劣,如喜欢的程度:很喜欢、一般、不喜欢 无序分类变量:取值之间没有顺序差别,仅做分类,又可分为二分类变量和多分类变量二分类变量是指将全部数据分成两个类别,如男、女,对、错,阴、阳等,二分类变量是一种特殊的分类变量,有其特有的分析方法。多分类变量是指两个以上类别,如血型分为A、B、AB、O 【定量变量】:也称为数值型变量,是描述事物数字信息的变量,变量值就是数字,如长度、重量、产量、人口、速度和温度。 定量变量可以再细分 连续型变量:在一定区间内可以任意取值,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。如身高、绳子的长度等。 离散型变量:值只能用自然数或整数单位计算,其数值是间断的,相邻两个数值之间不再有其他数值,这种变量的取值一般使用计数方法取得。 按照精确描述划分 【定类变量】

LFA457数据分析向导资料

LFA447数据分析向导 1.新建/打开数据库 打开分析软件Proteus LFA Analysis。弹出如下界面: 如果要把导入数据保存在原有的数据库中,选择数据库所在的文件夹,双击打开该数据库。 如果要为导入数据新建一个数据库,选择存盘路径,在“文件名”中输入数据库文件名,点击“打开”,软件会自动创建一个新的数据库文件。 随后出现数据库管理窗口:

注:LFA Proteus的数据以Access数据库文件(*.mdb)的形式进行管理。LFA447(Nanoflash)的原始数据文件(*.dat)需要导入到数据库文件中,一个数据库文件可存放多个测量数据。从数据分类管理的角度出发,一般建议为每一批样品单独创建一个数据库。 2.导入LFA447数据文件/设定材料属性 点击“LFA数据库”窗口的“数据库”菜单下的“导入LFA447文件”,弹出“选择导入文件”对话 框:

选择所要导入的数据文件,点击“打开”,弹出“导入–材料选择”对话框: 如果在数据库中原已有该材料的信息,只需在材料列表中“选择已有材料”即可;如果是新建的数据库或原数据库中没有该材料的信息,则“定义新材料”,点击“下一步”,弹出“材料定义”对话框: LFA Proteus中每一个测试数据都有相应的材料属性定义,包含样品的名称、密度、比热表、热膨胀系数表、热扩散系数表等信息,其中比热、热膨胀与热扩散系数三个表格可通过点击“对应表”按钮进行设定。对于单层样品: 如果仅仅是热扩散系数测试,三个表都不需链接,直接点击“完成”。 如果除热扩散测试外还同时使用比较法计算比热,则此时先可点击“完成”,待比热计算完成后使用“导出比热表”的方法重新对材料属性中所链接的比热表进行设定。(详见LFA比热与导热系数计算方法) 如果已有比热的文献值(或使用其它仪器得到的测量值),需要链接到材料属性中,以便结合热扩散测试结果进一步计算导热系数,则在“比热表”的选项卡中点击“对应表…”,弹出如下窗

数据分析-分布类别

各种分布 泊松分布 Poisson分布,是一种统计与概率学里常见到的离散概率分布。 泊松分布的概率函数为: 泊松分布的参数λ是单位时间(或单位面积、单位体积)内随机事件的平均发生率。泊松分布适合于描述单位时间内随机事件发生的次数。 泊松分布的期望和方差均为 特征函数为: 泊松分布与二项分布 当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧10,p≦0.1时,就可以用泊松公式近似得计算。 事实上,泊松分布正是由二项分布推导而来的。 泊松分布可作为二项分布的极限而得到。一般的说,若 ,其中n很大, p很小,因而不太大时,X的分布接近于泊松分布。这个事实有时可将较难计算的二项分布转化为泊松分布去计算。 应用示例 泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,某放射性物质发射出的粒子,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等等。 卡方分布 卡方分布( 分布)是概率论与统计学中常用的一种概率分布。n 个独立的标准

正态分布变量的平方和服从自由度为n 的卡方分布。卡方分布常用于假设检验和置信区间的计算。 若n个相互独立的随机变量ξ?、ξ?、……、ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成 一新的随机变量,其分布规律称为卡方分布(chi-square distribution),即分布(chi-square distribution),其中参数n称为自由度。正如正态分布中均值或方差不同就是另一个正态分布一样,自由度不同就是另一个分布。记为或者。 卡方分布与正态分布 卡方分布是由正态分布构造而成的一个新的分布,当自由度n很大时,分布 近似为正态分布。对于任意正整数x,自由度为 k的卡方分布是一个随机变量X 的机率分布。 期望和方差 分布的均值为自由度n,记为E( ) = n。分布的方差为2倍的自由度(2n),记为D( ) = 2n。 均匀分布 均匀分布(Uniform Distribution)是概率统计中的重要分布之一。 顾名思义,均匀,表示可能性相等的含义。 (1) 如果,则称X服从离散的均匀分布。 (2) 设连续型随机变量X的概率密度函数为,则称随机变

实验十四 属性数据分析

实验十四属性数据分析 一、实验目的 1.掌握属性数据分析方法。 2.掌握属性数据分析图表与原图形的组合。 二、实验准备 1.实验数据:本实验数据保存于文件夹Exercise-14中。 2.预备知识:属性分析的方法。 三、实验步骤与内容 1.数据准备 将实验数据复制,粘贴至各自文件夹内。 启动MAPGIS主程序。在主菜单界面中,点击参数按钮,在弹出的对话框中,设置工作目录最终指向Exercise-14(盘符依据各人具体情况设置)。 2.属性分析 执行如下命令:空间分析?空间分析?文件?装载区文件,加载要进行属性分析的数据文件。 Step1: 加载数据文件中所提供 的REGION.WP区文件执行如下命令:属性分析?单属性分类统计?立体饼图,选择属性分析类型。

Step2: 属性 Step4: 设置分类方 式为分段方 式 Step3: 选择分类属 性字段为小 麦,保留属 性字段为乡 名、水稻、 玉米 Step5: 确定,退出 设置 分类值域按图中所示输 入

分类统计结果图 3.保存文件 执行如下命令:文件?保存当前文件,换名保存属性分析所生成的图形文件,系统生成的表格文件(*.WB)不需要保存。 Step: 将缺省文件名改为“属性分析”,点 击保存按钮。按此方法依次将线、区 文件名均改为“属性分析” 4.文件组合 执行如下命令:图形处理?输入编辑?打开已有工程文件,打开所提供的Exercise-14.MPJ,在工程文件管理窗口,点击鼠标右键,选择“添加项目”选项,将前面生成的属性分析.WT、属性分析.WL、属性分析.WP添加进此工程文件。 关闭REGION.WP、POINT.WT、RIVER.WL和LINE.WL四个文件。 执行如下命令:其它?整块移动,调整属性分析.WT、属性分析.WL、属性分析.WP三个图形文件的位置,使与主图位置相适应。若此三个图形与主图相比过大的话,执行如下命令:其它?整图变换?键盘输入参数,来进行调整(注意应确定REGION.WP、POINT.WT、RIVER.WL和LINE.WL四个文件处于关闭状态)。 完成后,保存此工程文件。

属性数据与空间数据

属性数据与空间数据 1. 属性数据 地理要素具有描述性属性,与空间数据相对应的描述性数据。 2. 空间数据 空间数据是用来描述来自于现实的目标,将数据统一化,借以表明空间实体的形状大小以及位置和分布特征。定位是指在已知的坐标系里空间目标都具有唯一的空间位置;定性是指有关空间目标的自然属性,它伴随着目标的地理位置;时间是指空间目标是随时间的变化而变化;空间关系通常一般用拓扑关系表示。空间数据是一种用点、线、面以及实体等基本空间数据结构来表示人们赖以生存的自然世界的数据。空间数据是数字地球的基础信息,数字地球功能的绝大部分将以空间数据为基础。现在空间数据已广泛应用于社会各行业、各部门,如城市规划、交通、银行、航空航天等。随着科学和社会的发展,人们已经越来越认识到空间数据对于社会经济的发展、人们生活水平提高的重要性,这也加快了人们获取和应用空间数据的步伐。 空间数据是数据的一种特殊类型。它是指凡是带有空间坐标的数据,如建筑设计图、机械设计图和各种地图表示成计算机能够接受的数字形式。 3. 空间数据结构 空间数据结构是空间数据在计算机内的组织和编码形式。它是一种适合于计算机存贮、管理和处理空间数据的逻辑结构,是地理实体的空间排列和相互关系的抽象描述。它是对数据的一种理解和解释。空间数据结构又是指空间数据的编排方式和组织关系。空间数据编码是指空间数据结构的具体实现,是将图形数据、影像数据、统计数据等资料按一定的数据结构转换为适合计算机存储和处理的形式。不同数据源采用不同的数据结构处理,内容相差极大,计算机处理数据的效率很大程度取决于数据结构。 4. 特点 目标构成数据库的逻辑过程 随着信息技术的飞速发展和企业界新需求的不断提出,以面向事务处理为主的空间数据库系统已不能满足需要,信息系统开始从管理转向决策处理,空间数据仓库就是为满足这种新的需求而提出的空间信息集成方案,它有四个特点: ①主题与面向主题:与传统空间数据库面向应用进行数据组织的特点相对应,空间数据仓库中的数据是面向主题进行数据组织的。它在较高层次上将企业信息系统中的数据进行综合、归类,并加以抽象地分析利用。 ②集成的数据:空间数据仓库的数据是从原有的空间数据库数据中抽取来的。因此在数据进入空间数据仓库之前,必然要经过统一与综合,这一步是空间数据仓库建设中最关键最复杂的一步,所要完成的工作包括消除源数据中的不一致性和进行数据综合计算。 ③数据是持久的:空间数据仓库中的数据主要供决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。空间数据仓库的数据反映的是一段相当长的时间内的数据内容,是不同时间的空间数据库快照的集合和基于这些快照进行统计、综合和重组导出的数据,而不是联机处理的数据。空间数据库中进行联机处理的数据经过集成输入到空间数据仓库中,一旦空间数据仓库存放的数据已经超过空间数据仓库的数据存储期限,这些数据将从空间数据仓库中删去。 ④数据是随时间不断变化的:空间数据仓库的数据是随时间的变化不断变化的,它会不断增加新的数据内容,不断删去旧的数据内容,不断对数据按时间段进行综合。空间数据仓库用于支撑空间决策支持系统,它由四大部分组成:数据源、空间数据库系统、空间

数据属性

数据属性 数据具有数值属性、物理属性。在数据处理上数据又具有集合性、隶属性、稳定性、方便性、重复性、共同性、指向性以及运算规则及运算约束。我们先看一个命题,求一个苹果和一个梨的和?由于它们的物理属性不同,我们不能求出它们的和。再看命题现在有一个苹果和一个梨,问是否满足3个人,每人一个苹果或梨,由于物理属性转移到“人”概念下的“个”,所以必须先进行加法运算,其结果是分析命题的依据。数据是复杂的,它可以是任何介质上所记录的信息,比如我们可以对文字信息进行拷贝、连接、检索、删除,都是数据概念下的操作。 详细解释 进行各种统计、计算、科学研究或技术设计等所依据的数值。 柯岩《奇异的书简·船长》:“ 贝汉廷分析着各个不同的数据,寻找着规律,终于抓住了矛盾的牛鼻子。”数据(data)是载荷或记录信息的按一定规则排列组合的物理符号。可以是数字、文字、图像,也可以是计算机代码。对信息的接收始于对数据的接收,对信息的获取只能通过对数据背景的解读。数据背景是接收者针对特定数据的信息准备,即当接收者了解物理符号序列的规律,并知道每个符号和符号组合的指向性目标或含义时,便可以获得一组数据所载荷的信息。亦即数据转化为信息,可以用公式“数据+背景=信息”表示。 编辑本段计算机科学中的解释 数据:在计算机系统中,各种字母、数字符号的组合、语音、图形、图像等统称为数据,数据经过加工后就成为信息。 在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。是组成地理信息系统的最基本要素,种类很多。 按性质分为 ①定位的,如各种坐标数据;②定性的,如表示事物属性的数据(居民地、河流、道路等);③定量的,反映事物数量特征的数据,如长度、面积、体积等几何量或重量、速度等物理量;④定时的,反映事物时间特性的数据,如年、月、日、时、分、秒等。 按表现形式分为

数据挖掘中客户的特征化及其划分(一)

数据挖掘中客户的特征化及其划分(一) 摘要]良好客户关系已成为电子商务时代制胜的关键。在激烈的市场竞争中,客户关系管理逐渐成为企业关注的焦点。深入研究客户和潜在客户是在市场中保持竞争力的关键。本文通过对客户行为的特征化分析,以数据挖掘为分析工具,对客户关系管理进行了讨论,给出了相应的划分方法,使用这些划分方法,对客户进行分析是有意义的。 关键词]客户关系管理数据挖掘聚类分析 一、引言 在激烈的市场竞争中,客户关系管理(CustomerRelationshipManagement)逐渐成为各企业关注的焦点。一个成熟的CRM系统要能够有效地获取客户的各种信息,识别客户与企业间的关系及所有交互操作,寻找其中的规律,为客户提供个性化的服务,为企业决策提供支持。 在企业与客户的交互操作中,“二八原则”是值得借鉴的,即20%的客户对企业做出80%的利润贡献。但究竟谁是那20%的客户?又如何确定特定消费群体的消费习惯与消费倾向,进而推断出相应消费群体或个体下一步的消费行为?这都是企业需要认真研究的问题。 二、客户的特征化及其划分 企业认识客户和潜在客户是在市场保持竞争力的关键。特征分析是了解客户和潜在客户的极好方法,包括对感兴趣对象范围进行一般特征的度量。一旦知道带来最大利润客户的特征和行为,就可以直接将其应用到寻找潜在客户之中。有效寻找客户,认识哪些人群像自己的客户。因此,在争取客户的活动中,对感兴趣对象进行特征化及其划分是很有意义的。 对客户的特征化,顾名思义就是用数据来描述或给出客户(潜在客户)特征的活动。特征化可以在数据库(或数据库的不同部分)上进行。这些不同部分也称为划分,通常他们互不包含。 划分分析(SegmentationAnalysis)通常用于根据利润和市场潜力划分客户。如:零售商按客户在所有零售商店的总体购买行为,将客户划分为若干描述他们各自购买行为的区域,这样零售商可以评估哪些客户有最大利润。划分是把数据库分成互不相交部分或分区的活动。一般有两种方法:市场驱动法和数据驱动法。市场驱动法需要决定那些对业务有重要影响的特征,即需要预先选择一些特征变量(属性),以最终定义得到划分。数据驱动法是利用数据挖掘中的聚类技术或要素分析技术寻找同质群体。 三、数据挖掘的概念 数据挖掘(DataMining)是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息。通过数据挖掘提取的知识表示为概念、规则、规律、模式等,它对企业的趋势预测和行为决策提供支持。 1.分类分析 分类是指将数据映射到预先定义好的群组或类。分类要求基于数据属性值来定义类别,通过数据特征来描述类别。根据它与预先定义好的类别相似度,划分到某一类中去。分类的主要应用是导出数据的分类模型,然后使用模型预测。 2.聚类分析 聚类是对抽象样本集合分组的过程。与分类不同之处在于聚类操作要划分的类是事先未知。按照同一类中对象之间较高相似度原则进行划分,目的是使同一类别个体之间距离尽可能小,不同类别中个体间距离尽可能大。类的形成是由数据驱动的。 3.关联规则 关联规则是从大量的数据中挖掘出有价值的描述数据项之间相互关联的知识。关联规则中有两个重要概念:支持度(Support)和信任度(Confidence)。它们是两个度量有关规则的方法,描述了被挖掘出规则的有用性和确定性。关联规则挖掘,希望发现事务数据库中数据项之间的关联,这些规则往往能反映客户的购买行为模式。

第八章 分类数据分析

第九章 列联分析 一、填空题 1、设R 为列联表的行数,C 为列联表的列数,则进行拟合优度检验时所用统计量2χ的自由度为 。 2、设0f 为列联表中观察值频数,e f 为期望值频数,则进行拟合优度检验时所用统计量2χ= 。 3、在列联分析中,观察值总数为n ,RT 为列联表中给定单元的行合计,CT 为给定单元列合计,则该给定单元频数期望值为 。 4、在列联分析中,观察值总数为500,列联表中给定单元的行合计数为140,列合计数为162,则该给定单元频数期望值为 。 5、在3×4列联分析中,统计量2 2 0()e e f f f χ-=∑(其中0f 为观测值频数,e f 为期望值频数)的自由度为____________。 6、对来自三个地区的原料质量进行检验时,先把它们分成三个等级,在随机抽取400间进行检验,经分析得知原料质量与地区之间的关系实现著的,现计算得2300χ=,则?相关系数等于 。 7、?相关系数是描述两个分类变量之间相关程度的统计量,它主要用于描述 的列联表数据。 8、若两个分类变量之间完全相关。则?相关系数的取值为 。 9、当列联表中两个变量相互独立时,计算的列联相关系数C= 。 10、利用2 χ分布进行独立性检验,要求样本容量必须足够大,特别是每个单元中的期望频数e f 不能过小,如果只有两个单元,则每个单元的期望频数必须 。 二、单项选择题 1、列联分析是利用列联表来研究( ) A 、两个分类变量的关系 B 、两个数值型变量的关系 C 、一个分类变量和一个数值型变量的关系 D 、连个数值型变量的分布 2、设R 为列联表的行数,C 为列联表的列数,则进行拟合优度检验时所用统计量2χ的自由度为( ) A 、R B 、 C C 、R ×C D 、(R-1)×(C-1) 3、若两个分类变量之间完全相关。则?相关系数的取值为( ) A 、0 B 、小于1 C 、大于1 D 、1=? 4、当列联表中两个变量相互独立时,计算的列联相关系数C ( ) A 、等于1 B 、大于1 C 、等于0 D 、小于0 5、利用2χ分布进行独立性检验,要求样本容量必须足够大,特别是每个单元中的期望频数e f 不能过小,如果只有两个单元,则每个单元的期望频数必须( ) A 、等于或大于1 B 、 C 值等于?值 C 、等于或大于5 D 、等于或大于10 6、一所大学准备采取一项学生上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名男生和120名女生进行调查,得到结果如下: A 、48和39 B 、102和81 C 、15和14 D 、25和19 7、一所大学准备采取一项学生上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名

定性属性数据分析复习题

属性数据分析复习题 一、 填空(每题4分,共20分) 1. 按数据取值分类,人的身高,性别,受教育程度分别属于计量数据,名义数据,有序数据 2. 度量定性数据离散程度的量有离异比率, G-S 指数,熵 3. 分类数据的检验方法主要有2χ检验和似然比检验 4. 二值逻辑斯蒂线性回归模型的一般形式是011ln 1k k p x x p βββ=+++- 5. 二维列联表的对数线性非饱和模型有 3 种 二、 案例分析题(每题20分,共60分) 1.P40习题二1,给出上分位数20.05(5)11.07χ= 0123456:0.3,0.2,0.2,0.1,0.1,0.1H p p p p p p ====== 220.0518.0567(5)11.07χχ=>=,落入拒绝域,故拒绝原假设,即认为这些数据与 消费者对糖果颜色的偏好分布不相符 2.P42表 3.1独立性检验,给出上分位数2 0.05(1) 3.84χ= 012:H p p =(即认为肺癌患者中吸烟比例与对照组中吸烟比例相等) 112:H p p ≠

未连续性修正的: 22 2 2112212210.051212()106(6011332)9.6636(1) 3.8463439214n n n n n n n n n χχ++++-?-?===>=??? 带连续性修正的: 22 11221221220.051212(||)106(|6011332|53)27.9327(1) 3.8463439214 n n n n n n n n n n χχ++++--?-?-===>=??? 均落入拒绝域,故拒绝原假设,即认为肺癌患者中吸烟比例与对照组中吸烟比例不等 3.P83表 4.3 独立性检验,给出上分位数2 0.05(2) 5.99χ= 0:ij i j H p p p ++=(即认为男性和女性对啤酒的偏好无显著性差异) 220.0590.685(2) 5.99χχ=>=,落入拒绝域,故拒绝原假设,即认为男性和女性对 啤酒的偏好有显著性差异 三、简答(每题10分) 1.谈谈你对p 值的认识 P 值是: 1) 一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。 2) 拒绝原假设的最小显著性水平。 3) 观察到的(实例的)显著性水平。 4) 表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法。 P 值(P value )就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P 值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P 值越小,我们拒绝原假设的理由越充分。总之,P 值越小,表明结果越显著。 统计学根据显著性检验方法所得到的P 值,一般以P < 0.05 为显著, P<0.01 为非常显著 2.写出三维列联表各种独立性之间的关系

属性数据分析资料

属性数据分析 一属性变量和属性数据 通常所指属性数据(categorical data),是说反映事物属性的数据,也称为定性数据或类别数据,它是属性变量取的值。属性变量可能是表示事物属性,取值为事物属性的量反映事物的客观属性,例如变量“性别”取值为男,女;又如变量是中医所分人的体质,取值为平和,气虚,阳虚,阴虚,瘀血,痰湿,湿热,气郁,特凛。对事物表态的量表达人们主观对事物的评论,例如变量是“某人对某个政策的态度”,取值是赞成,中立和反对;又如变量是“人对医疗效果的评价”,取值为特好,好,一般,差,很差。区间值变量取值为多个互不重叠区间:例如变量是“顾客的购买水平”,取值分为[0,100),[100,200),[200,300)和300以上。 “属性变量”是反映事物的客观属性或对事物表态,以及区间值变量,它是一种变量,它取的值之间不能做加,减,乘,除等运算,而且所取的值只能是有限个,属性变量取的值也称为属性变量的“水平”。 二属性数据表示形式 属性变量有4种表示形式:原始属性变量形式、指示变量形式(调查数据常用)、频数形式和列联表。 例1 某连锁超市要检验商品销售情况与陈列方式是否相关,随机抽取了10家门店,分别以C B A 、、共3种方式陈列(即第一个属性变量是“陈列方式”,取值A 、B 、C ),各门店销售情况分为 “high ”及“low ”两类(即第二个属性变量是“销量”,取值“high ”和“low ”)。这两个属性变量的统计资料4种形式如下: 属性变量形式的样本是把各个属性变量的1次观测值排成1行;例如例1中属性变量“销量”和“排列方式”的第1个观测值(第1个门店)的观测值是“high ”和“B ”,就把“high ”、“B ”排在第一行,见下表 表 超市数据属性变量形式 指示变量形式是列出各个属性变量的所有值,对每个值建立一个变量,例如例1中两个属性变量取值“high ”、“low ”、“A ”、“B ”、“C ”;建立5个指示变量:sl ,sh,ma,mb,mc.每次观测中,属性变量的哪个值出现了,就在对应列中用1表示,否则用0表示;例如对于超市数据建立5个变量后:sh 表示变量销售额高,sl 表示变量销售额低,ma 表示排列方式是A ,

属性数据分析第五章课后答案

属性数据分析第五章课后作业 6.为了解男性和女性对两种类型的饮料的偏好有没有差异,分别在年青人和老年人中作调查。调查数据如下: 试分析这批数据,关于男性和女性对这两种类型的饮料的偏好有没有差异的问题,你有什么看法?为什么? 解:(1)数据压缩分析 首先将上表中不同年龄段的数据合并在一起压缩成二维2×2列联表1.1,合起来看,分析男性和女性对这两种类型的饮料的偏好有没有差异? 表1.1 “性别×偏好饮料”列联表 二维2×2列联表独立检验的似然比检验统计量Λ 2的值为0.7032,p值 -ln 为05 ≥ = =χ p,不应拒绝原假设,即认为“偏好类型” (2> P 4017 .0 )1( ) .0 7032 .0 与“性别”无关。 (2)数据分层分析 其次,按年龄段分层,得到如下三维2×2×2列联表1.2,分开来看,男性和女性对这两种类型的饮料的偏好有没有差异? 表1.2 三维2×2×2列联表

在上述数据中,分别对两个年龄段(即年青人和老年人)进行饮料偏好的调查,在“年青人”年龄段,男性中偏好饮料A 占58.73%,偏好饮料B 占41.27%;女性中偏好饮料A 占58.73%,偏好饮料B 占41.27%,我们可以得出在这个年龄段,男性和女性对这两种类型的饮料的偏好有一定的差异。同理,在“老年人”年龄段,也有一定的差异。 (3)条件独立性检验 为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验。 即由题意,可令C 表示年龄段,1C 表示年青人,2C 表示老年人;D 表示性别,1D 表示男性,2D 表示女性;E 表示偏好饮料的类型,1E 表示偏好饮料A ,2E 表示偏好饮料B 。欲检验的原假设为:C 给定后D 和E 条件独立。 按年龄段分层后得到的两个四格表,以及它们的似然比检验统计量Λ-ln 2的值如下: 2C 层 822.11ln 2=Λ-248.6ln 2=Λ- 条件独立性检验问题的似然比检验统计 量是这两个 似然比检验统计量的和,其值为 07.18822.11248.6ln 2=+=Λ- 由于2===t c r ,所以条件独立性检验的似然比检验统计量的渐近2χ分布的自由度为2)1)(1(=--t c r ,也就是上面这2个四格表的渐近2χ分布的自由度的和。由于p 值50.00011916)07.18)2((2=≥χP 很小,所以认为条件独立性不成立,即在年龄段给定的条件下,男性和女性对两种类型的饮料的偏好是有差异的。 (4)产生偏差的原因 a 、在(1)中,将不同年龄段的数据压缩在一起合起来后分析发现男性和女性在

论文中数据的统计学问题

论文撰写中要注意的统计学问题(转) (一、均值的计算 在处理数据时,经常会遇到对相同采样或相同实验条件下同一随机变量的多个不同取值进行统计处理的问题。此时,往往我们会不假思索地直接给出算术平均值和标准差。显然,这种做法是不严谨的。 这是因为作为描述随机变量总体大小特征的统计量有算术平均值、几何平均值和中位数等多个。至于该采用哪种均值,不能根据主观意愿随意确定,而要根据随机变量的分布特征确定。 反映随机变量总体大小特征的统计量是数学期望,而在随机变量的分布服从正态分布时,其数学期望就是其算术平均值。此时,可用算术平均值描述随机变量的大小特征;如果所研究的随机变量不服从正态分布,则算术平均值不能准确反映该变量的大小特征。在这种情况下,可通过假设检验来判断随机变量是否服从对数正态分布。如果服从对数正态分布,则几何平均值就是数学期望的值。此时,就可以计算变量的几何平均值;如果随机变量既不服从正态分布也不服从对数正态分布,则按现有的数理统计学知识,尚无合适的统计量描述该变量的大小特征。此时,可用中位数来描述变量的大小特征。 因此,我们不能在处理数据的时候一律采用算术平均值,而是要视数据的分布情况而定。 二、直线相关与回归分析这两种分析,说明的问题是不同的,既相互又联系。在做实际分析的时候,应先做变量的散点图,确认由线性趋势后再进行统计分析。一般先做相关分析,只有在相关分析有统计学意义的前提下,求回归方程才有实际意义。一般来讲,有这么两个问题值得注意: 定要把回归和相关的概念搞清楚,要做回归分析时,不需要报告相关系数;做相关分析的时候,不需要计算回归方程。 三、相关分析和回归分析之间的区别 相关分析和回归分析是极为常用的2种数理统计方法,在环境科学及其它研究领域有着广泛的用途。然而,由于这 2种数理统计方法在计算方面存在很多相似之处,因此在应用中我们很容易将二者混淆。

常用数据分析方法分类介绍(注明来源)

常用数据分析方法有那些 文章来源:ECP数据分析时间:2013/6/2813:35:06发布者:常用数据分析(关注:554) 标签: 本文包括: 常用数据分析方法:聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析; 问卷调查常用数据分析方法:描述性统计分析、探索性因素分析、Cronbach’a 信度系数分析、结构方程模型分析(structural equations modeling)。 数据分析常用的图表方法:柏拉图(排列图)、直方图(Histogram)、散点图(scatter diagram)、鱼骨图(Ishikawa)、FMEA、点图、柱状图、雷达图、趋势图。 数据分析统计工具:SPSS、minitab、JMP。 常用数据分析方法: 1、聚类分析(Cluster Analysis) 聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。 2、因子分析(Factor Analysis) 因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减少决策的困难。 因子分析的方法约有10多种,如重心法、影像分析法,最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。这些方法本质上大都属近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性□2估值。在社会学研究中,因子分析常采用以主成分分析为基础的反覆法。 3、相关分析(Correlation Analysis) 相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。 4、对应分析(Correspondence Analysis) 对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。

消费者的患者属性之数据分析

消费者的患者属性之数据分析 一个人会拥有多种属性,而这些属性也会主导着一个人的心理活动与行为。我们做网络营销的需要洞悉患者的心理,明白患者的需要。因此,通过对市场上的人的属性的分析,有助于我们更好的理解市场的分布与需求,更精准的向患者推出我们的产品。 本培训以贵阳地区的数据为样本,正如培训上说的,一组数据说明不了什么,只有将各种数据结合起来才能看出数据背后隐藏的东西,下面说说我的想法(以抑郁症为例)。 首先,我最先关注的是有关年龄的数据。抑郁症的发病年龄主要是在35岁-45岁,成年人的发病率高于青少年。因此,我们的主要消费对象是以35岁-45岁的中年人为主。但是,数据中有指出:贵阳地区的网民10岁-29岁的占60.5%,其中19岁以下的占38%,这说明贵阳网民以青少年为主,而我们的主要对象中年人的比率较少。从这里可以明白,我们的网络营销想要直接做给消费者(中年人)看很困难,我们在策划时可以这样考虑:直接不行就间接地,我们的营销以面向青少年为主,并通过他们引导消费者(中年人)过来,这样的话比起以消费者(中年人)为对象的直接营销效果可能更好。 其次,我关注的是有关性别的数据。抑郁症的发病率男女比例是1:2左右,其中男性是12%,女性是25%,产后是33.1%,女性因为月经期、产后期、绝经期等生理现象导致其发病率高于男性。而数据显示:贵阳人口的男女比例是1:1,而15岁以下孩子占的比率是65岁以上老人的2倍左右。结合上面的发病年龄,可以得出:患者组建家庭的可能性较大,家庭内较大可能有孩子,并且女性更加常见。面对这样的消费者,我们要分析她们的消费心理,更多的从抑郁症对家庭的危害方面切入,更能打动消费者的心,引导她们治疗的欲望。 再者,是关于治愈率与复发率的数据。数据指出有62.9%的抑郁症患者没有接受任何治疗(这也是一个重要的营销点),首次治疗的治愈率只有35%。这项数据告诉我们:大部分的抑郁症患者处于未治疗或治疗不愈的状态。另一项数据则指出:抑郁症治愈后10年内的复发率是75%-80%,而其中药物治疗1年内的复发率是30%。它反映出一个信息:抑郁症的复发率高,特别是药物治疗的复发率。两项数据结合起来告诉我们:患者渴望一种新型的治疗方式,一种能够有效治疗抑郁症并防止其复发的治疗方法。我们在策划时可以结合这些数据着重突出技术的优势,并通过一些临床数据对比和经典案例来增加说服力。 最后,则是关于自杀率的数据。抑郁症之所以说是严重的精神疾病,就是因为在病情严重时它可能导致病人自杀。数据指出:抑郁症患者的自杀率是15%,而在每年的自杀人群中抑郁症所占的比率则是高达50%-70%。这项数据简单直接的告诉我们抑郁症的危害是多么严重,但患者不知道。因此,我们需要做的就是让患者明白抑郁症的严重危害,并引导患者的就医欲望。 我的分析就到此结束了。我想说:我们在策划时,对于市场的各项数据的分析是必须的。只有对数据进行分析,由此了解到市场的分布与需求,以及市场未来的可能的波动等等,再全面的结合我们的各种条件,统一规划下,我们所策划的营销才可能真正符合患者的需求,做出一个成功的营销方案。

属性数据分析第五章课后答案

属性数据分析第五章课后答案

属性数据分析第五章课后作业 6.为了解男性和女性对两种类型的饮料的偏好有没有差异,分别在年青人和老年人中作调查。调查数据如下: 偏好饮料A 偏好饮料B 年青人 男性 37 26 女性 11 23 老年人 男性 30 43 女性 31 11 试分析这批数据,关于男性和女性对这两种类型的饮料的偏好有没有差异的问题,你有什么看法?为什么? 解:(1)数据压缩分析 首先将上表中不同年龄段的数据合并在一起压缩成二维2×2列联表1.1,合起来看,分析男性和女性对这两种类型的饮料的偏好有没有差异? 表1.1 “性别×偏好饮料”列联表 偏好饮料A 偏好饮料B 合计 偏好A 比例 偏好B 比例 男性 67 69 136 49.26% 50.74% 女性 42 34 76 55.26% 44.74% 二维2×2列联表独立检验的似然比检验统计量Λ-ln 2的值为0.7032,p 值为05.04017.0)7032.0)1((2>=≥=χP p ,不应拒绝原假设,即认为“偏好类型”与“性别”无关。 (2)数据分层分析 其次,按年龄段分层,得到如下三维2×2×2列联表1.2,分开来看,男性和女性对这两种类型的饮料的偏好有没有差异? 表1.2 三维2×2×2列联表 偏好饮料A 偏好饮料B 合计 偏好A 比 例 偏好B 比例 年青人 男性 37 26 63 58.73% 41.27% 女性 11 23 34 32.35% 67.65%

老年人 男性 30 43 73 41.10% 58.90% 女性 31 11 42 73.81% 26.19% 在上述数据中,分别对两个年龄段(即年青人和老年人)进行饮料偏好的调查,在“年青人”年龄段,男性中偏好饮料A 占58.73%,偏好饮料B 占41.27%;女性中偏好饮料A 占58.73%,偏好饮料B 占41.27%,我们可以得出在这个年龄段,男性和女性对这两种类型的饮料的偏好有一定的差异。同理,在“老年人”年龄段,也有一定的差异。 (3)条件独立性检验 为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验。 即由题意,可令C 表示年龄段,1C 表示年青人,2C 表示老年人;D 表示性别, 1D 表示男性,2D 表示女性;E 表示偏好饮料的类型,1E 表示偏好饮料A ,2E 表 示偏好饮料B 。欲检验的原假设为:C 给定后D 和E 条件独立。 按年龄段分层后得到的两个四格表,以及它们的似然比检验统计量Λ-ln 2的值如下: 1C 层 2C 层 822.11ln 2=Λ- 248.6ln 2=Λ- 条件独立性检验问题的似然比检验统计量是这两个似然比 检 验 统 计 量 的 和 , 其 值 为 07.18822.11248.6ln 2=+=Λ- 由于2===t c r ,所以条件独立性检验的似然比检验统计量的渐近2χ分布的自由度为2)1)(1(=--t c r ,也就是上面这2个四格表的渐近2χ分布的自由度的和。由于p 值50.00011916)07.18)2((2=≥χP 很小,所以认为条件独立性不成立,即在年龄段给定的条件下,男性和女性对两种类型的饮料的偏好是有差异的。 1E 2E 合 计 1 D 37 26 63 2D 11 23 34 合计 48 49 97 1E 2E 合计 1D 30 43 73 2D 31 11 42 合计 61 54 115

相关主题
文本预览
相关文档 最新文档