当前位置:文档之家› 基于多元判别分析的文本分割模型

基于多元判别分析的文本分割模型

基于多元判别分析的文本分割模型
基于多元判别分析的文本分割模型

ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.doczj.com/doc/493613192.html,

Journal of Software, Vol.18, No.3, March 2007, pp.555?564 https://www.doczj.com/doc/493613192.html, DOI: 10.1360/jos180555 Tel/Fax: +86-10-62562563

? 2007 by Journal of Software. All rights reserved.

?

基于多元判别分析的文本分割模型

朱靖波+, 叶娜, 罗海涛

(东北大学计算机软件研究所,辽宁沈阳 110004)

Text Segmentation Model Based on Multiple Discriminant Analysis

ZHU Jing-Bo+, YE Na, LUO Hai-Tao

(Institute of Computer Software and Theory, Northeastern University, Shenyang 110004, China)

+ Corresponding author: Phn: +86-24-83672481, E-mail: zhujingbo@https://www.doczj.com/doc/493613192.html,, https://www.doczj.com/doc/493613192.html,

Zhu JB, Ye N, Luo HT. Text segmentation model based on multiple discriminant analysis. Journal of

Software, 2007,18(3):555?564. https://www.doczj.com/doc/493613192.html,/1000-9825/18/555.htm

Abstract: This paper proposes a new domain-independent statistical model. In this model, four multiple

discriminant analysis (MDA) criterion functions are defined and used to achieve global optimization in finding the

best segmentation by means of the smallest within-segment distance, the largest between-segment distance and

segment length. To alleviate the high computational complexity problem introduced by the new model, genetic

algorithms (GAs) are used. Comparative experimental results show that the methods based on MDA criterion

functions have achieved higher Pμ than that of TextTiling and Dotplotting algorithms.

Key words: text segmentation; multiple discriminant analysis; within-segment distance; between-segment

distance; segment unit length; genetic algorithm

摘要: 提出了一种独立于具体领域的文本线性分割统计模型,其中采用多元判别分析方法定义了4种全局

评价函数,实现对文本分割模式的全局评价,寻找满足分割单元内距离最小化和分割单元间距离最大化条件的

最好分割方式.该模型采用遗传算法来解决新模型的高计算复杂度问题.比较性实验结果显示,新模型比

TextTiling和Dotplotting算法取得了更高的Pμ评价性能.

关键词: 文本分割;多元判别分析;分割单元内距离;分割单元间距离;分割单元长度;遗传算法

中图法分类号: TP391文献标识码: A

文本智能处理系统中,如信息检索一般是以整篇文档为基本处理单位,隐性假设一篇文档主要讨论一个主

题.实际上,一篇文档往往涉及到一个或多个子主题,因而,基于整篇文档的处理颗粒度在很多实际应用中难以

满足用户更高和更准确的要求.很明显,从用户的角度来看,基于段落的检索技术能够比全文检索技术提供更加

准确、更少冗余信息的答案[1].另外,如果能够自动识别和划分文本的子主题结构,将语义段落作为文本处理单

? Supported by the National Natural Science Foundation of China under Grant No.60473140 (国家自然科学基金); the National

High-Tech Research and Development Plan of China under Grant No.2006AA01Z154 (国家高技术研究发展计划(863)); the Program for

New Century Excellent Talents in University under Grant No.NCET-05-0287 (新世纪优秀人才支持计划); the National 985 Project of

China under Grant No.985-2-DB-C03 (国家985工程)

Received 2005-11-29; Accepted 2006-01-24

556 Journal of Software软件学报 V ol.18, No.3, March 2007

位,将有益于改善问答系统和文档摘要技术的性能.

文本分割是指将文本中属于同一个子主题的相邻段落合并为一个语义段落?,简称为一个分割单元(segment unit,简称segment),这样可以把一篇文本线性分割成为若干个语义段落,形成语义段落序列.但是在不同的应用中,分割点的位置可能有所不同,主要有3种方式:词与词之间、句子与句子之间以及段落与段落之间.例如,在语音识别数据中,由于缺乏句子和段落标记,则采用词与词之间的分割点方式;在文本数据流中(如TDT 任务),由于缺乏段落标记,可以采用句子与句子之间的分割点方式;如果对一篇自然文本进行分割,可以采用句子与句子之间,或者段落与段落之间的分割点方式.实际上,针对不同的分割点方式,适用的文本分割技术本质上没有太大区别,主要不同点在于候选分割点位置的预测和选择.本文主要研究基于段落层次的文本线性分割技术,采用段落与段落之间的分割点方式.

研究人员提出了一些文本分割技术,其中利用了一些语言学特征信息[2?5],包括线索短语特征(cue phrases)、新词出现(new words occurrence)、重现特性(包括词汇重现、n元词语重现、n元字符重现)、专名和代名词使用(named entities and pronoun usage)、同义词重复(synonymy)、语速停顿等.还有采用统计方法[6?17],包括词共现技术、词汇链、文本片段的相似性计算技术、动态规划算法、聚类算法、HMM模型等.

在文本分割过程中,需要解决两个关键问题:主题边界的自动识别和分割单元(语义段落)数目的确定.一些研究方法主要基于文本中相邻片断(可能是段落或者文本片断)的相似性,然后根据相似性的变化程度解决主题边界的识别[2]:若相似度大,则两者合并为一个分割单元;否则识别为主题边界.实际上,在识别主题边界的过程中,预先确定相似度阈值是非常困难的,这就造成难以准确识别主题边界.这种技术属于局部优化方法,实现过程比较简单.另外一些方法主要考虑文本所有片断之间的相似性,不仅仅限于相邻文本片断,属于全局优化方法.Reynar[6]和Choi[10,11]采用Dotplotting技术实现了文本线性分割.严格上来说,该方法考虑了全局优化和局部优化的一些特性,介于两者之间.Yaari[13]采用了一种集聚聚类技术实现文本层次分割过程,然后通过一定规则将层次分割转换成为线性分割,属于无指导聚类.但是,该方法主要通过合并最相似的相邻两个文本片断来实现聚类过程,也无法真正克服局部优化技术的弱点.Fragkou等人[17]采用动态规划方法(dynamic programming,简称DP)来实现文本分割,主要考虑两个因素:分割单元内的词汇相似性和分割单元的长度分布,属于全局优化技术.但是,这些方法都需要一些训练语料来实现模型先验参数的估计[15?17].在实际应用中,预先构造一个合适的训练语料用于模型先验参数的估计也不是很容易的.

本文提出了一种基于多元判别分析(multiple discriminant analysis,简称MDA)的文本分割技术,其中考虑了3个因素:分割单元内距离(within-segment distance,简称WSD)、分割单元间距离(between-segment distance,简称BSD)和分割单元的长度信息(segment unit length,简称SUL),采用多元判别分析方法定义4种分割全局评价函数(MDA criterion function),实现对文本分割的全局评价.其中,假设分割单元内距离越小(强凝聚性)、分割单元间距离越大(强发散性)的分割模式是全局最佳的.最后根据全局分割评价结果,选择具有最高评价值的分割模式作为正确分割,从而自动判定主题边界和确定语义段落的最佳数目.本文的文本分割技术属于全局优化方法,并且无须使用任何训练语料,因此属于与具体领域无关的方法.

本文第1节给出文本分割的统计模型.第2节详细讨论基本思想,给出全局评价函数的定义.在第3节中给出文本分割算法.第4节详细给出实验设计和性能分析.最后讨论将来的主要工作.

1 统计模型

首先定义一个文本为词序列W=w1w2…w t,其中,t表示文本W包含词的个数;定义文本W的分割模式为S=s1s2…s c,其中,c表示文本分割S包含的分割单元个数.给定一个文本W,文本分割统计模型的关键问题在于寻求具有最大概率的分割模式,计算方法是

?在本文的论述中,分割单元(segment unit or segment)与语义段落(semantic paragraph)属于同一个概念,主要是区别于传统意义的文本段落.

朱靖波 等:基于多元判别分析的文本分割模型

557

(1) )|(max arg ?W S P S

S =由于大多数文本中包含的句子或段落的长度差别很大,在文本分割过程中会造成不平衡比较现象[2].例如,

假设模型采用句子为最小比较单元,很明显,两个较长句子的相似度评价值可能高于两个较短句子或者其中一

个是短句子的相似度评价值,这种不平衡比较现象将导致分割错误偏移.同样,如果采用段落为最小比较单元,

也会出现类似现象[2].Hearst 在TextTiling 算法[2]中采用块(block)方法来解决这个问题,采用块作为最小比较单

元.在TextTiling 算法中,块定义为包含blocksize ??

个词的文本片断.采用具有相同长度的块参与分割评价过程,

能够有效解决不平衡比较现象.

在本文的统计模型中也引入块方式来重新定义文本W 为块序列B =b 1b 2…b k ,其中,k 表示文本B 包含块的个数,则模型(1)可以修正为给定一个文本B ,最大概率的文本分割模式计算方法是

) (2) |(max arg ?B S P S

S

=实际上,直接利用上述统计模型进行求解具有最大概率的分割方式的任务是非常困难的.Utiyama 和

Isahara [16]引入分割单元的描述长度(description length)来计算先验概率P (S ),采用Laplace 法则来计算条件概率

P (W |S ),最后采用动态规划方法(dynamic programming,简称DP)实现计算过程.Fragkou 等人[17]也采用动态规划

方法来实现文本分割过程,其中考虑分割单元内词相似性和分割单元的长度分布,定义了一个分割成本函数

(segmentation cost function),该函数包含一个独立变量和3个需要从训练语料中训练得到的参数.

本文提出了一个基于MDA 的全局评价函数J 来评价具体分割方式,评价值的大小表示分割方式的好坏.

评价函数主要考虑3个因素:分割单元内距离WSD 、分割单元间距离BSD 和分割单元的长度SUL,具体定义

和计算方法将在第2节进行详细论述.因此,模型(2)求解最大概率的文本分割方式的过程可以转换成求解具有

最大评价值的文本分割模式的过程,称为模型(3),计算公式是

(3) ),(max arg )|(max arg ?def S B J B S P S

S

S ==2 评价函数

2.1 基本思想

在统计模式分类领域,多元判别分析[18](multiple discriminant analysis,简称MDA)方法用于类别可分离性判

定,是一种有效线性转换方法(linear transformations).该方法能够实现满足最小方差条件下对数据空间进行最

佳分割.其基本思想是:数据空间中各类样本可以分开是因为它们位于数据空间的不同区域内,这些区域之间距

离越大,类别的可分离性就越大.如图1所示.

图1中,点表示样本向量表示,根据数据空间的样本分布,可以将数据空间分割成3个类别:类别A 、类别B

和类别C .当类内平均距离达到最小时,表示类内样本分布凝聚性最强;类间平均距离达到最大,表示不同类别的

样本分布发散性最强,可以获得全局最优的数据空间分割效果.

基于这种思想,在文本分割任务中,假设给定文本为数据空间,分割单元为类别,块向量为样本向量,则文本

分割的过程就相当于图1所示的数据空间分割过程.同理,可以认为当分割单元内距离达到最小(强凝聚性),分

割单元间距离达到最大(强发散性),就可以获得全局最优的文本分割模式.在实际情况下,两者可能存在一定的

相互制约性,难以同时达到最理想状态.在本文提出的文本分割模型中,采用模型(3)进行文本分割.

在模型(3)中,基于上述思想,本文提出了基于多元判别分析的分割评价函数,称为MDA 评价函数J (MDA

criterion function).该函数主要考虑了3个因素:分割单元内距离WSD 、分割单元间距离BSD 和分割单元的长

度SUL,可以用于分割模式的全局评价,评价值越大,表示该分割模式越好.下文采用分割单元内散布矩阵S W

?? 实验显示:当blocksize =100时,中文文本分割性能最好,因此,在本文的实验中,块的长度为100个词.如果文本分割过程不去掉

禁用词的话,块的长度计算也不考虑标点符号(,.?!“”等).

558 Journal of Software 软件学报 V ol.18, No.3, March 2007

(within-segment scatter matrix)和分割单元间散布矩阵S B (between-segment scatter matrix)来计算分割单元内距

离WSD 和分割单元间距离BSD ???

.

Within-Class distance Class A Class B Between-Class distance Class C Data space

Fig.1 The greatest separation over data space is shown when average within-class distance is the smallest

and average between-class distance is the largest

图1 数据空间的最佳分割:类内距离最小,类间距离最大

2.2 分割单元内散布矩阵S W

采用第1节中的定义,定义给定文本为B =b 1b 2…b k ,其中,下标k 表示文本B 包含块的个数,每个块采用d 维

词向量表示,则b i 表示i th 块的向量表示;S =s 1s 2…s c 表示文本B 的一个分割模式,其中,下标c 表示当前文本分割

模式S 包含的分割单元个数.每个分割单元至少包含一个块,则定义分割单元内散布矩阵S W 为

∑∑∈=??=i

s b t i i c i i i

W m b m b n P S ))((11 (4) 其中:P i 为分割单元s i 的先验概率,等于分割单元s i 的块个数与当前文本B 的所有块个数的比值;n i 表示分割单

元s i 中块的个数;m i 为分割单元s i 的d 维中心向量

∑∈=i s b i i b n m 1 (5)

2.3 分割单元间散布矩阵S B 由于分割单元间散布矩阵S B 不能直接算出,需要进行简单推导.定义m 为当前分割模式S 的总体平均向量

∑∑=∈==c

i i i B b m n n b n m 111 (6) 其中,n 表示当前文本B 中块的个数,则分割模式S 的总体散布矩阵S T 为

∑∑∑∈==??+=??=i s b c i t i i i W t c i i i

T m m m m P S m b m b n P S 1

1))(())((1 (7) 满足

S T =S W +S B (8) 根据式(7)和式(8),可以得到分割单元间散布矩阵S B :

(9)

∑=??=c i t i i i B m m m m P S 1

))((

??? 分割单元内距离WSD 相当于分割单元内散布矩阵S W 的迹tr (S W );同样,分割单元间距离BSD 相当于分割单元间散布矩阵

S B 的迹tr (S B ).矩阵的迹等于对角线数字之和.

朱靖波 等:基于多元判别分析的文本分割模型

559

2.4 长度因子S L 文本分割的实验结果显示:一些位置非常接近的分割点产生一些不正确的较小分割单元.为此,本文假设包

含一个或很少数目句子的文本片断难以表达一个独立的主话题.例如,文本中存在与前后文本片断相关性不强

这样一个句子,则可以猜测该句子可能是一个插入语,或者是为了论述连贯性的目的而增加的一个句子,实现承

上启下的目的,不能独立表达一个独立子主题.

基于上述考虑,本文提出的评价函数考虑了分割单元的长度分布,定义了一个长度因子S L 来解决这个问题.

如果当前分割模式S 中存在较小的分割单元,则长度因子S L 被赋予较小值,起到一个惩罚的作用.

首先定义L 为文本B 的长度,等于该文本包含词的个数;L i 表示分割单元s i 的长度,等于分割单元s i 包含词

的个数;很明显,L =L 1+L 2+…+L c .长度因子S L 定义为

∏==c i i L L

L S 1 (10) 2.5 MDA 评价函数J 在模型(3)中,为了评价给定文本B 的分割模式S ,本文定义了4种MDA 评价函数:

1) 考虑分割单元内距离WSD 和分割单元间距离BSD,定义MDA 评价函数J 1: )

()(),(1W B S tr S tr S B J = (11) 2) 考虑分割单元内距离WSD 和分割单元间距离BSD,定义MDA 评价函数J 2

J 2(B ,S )=tr (S B )×tr (S W ) (12) 3) 考虑分割单元内距离WSD 、分割单元间距离BSD 和分割单元的长度SUL,定义MDA 评价函数J 3: )

()(),(3W B L S tr S tr S S B J ×= (13) 4) 考虑分割单元内距离WSD 、分割单元间距离BSD 和分割单元的长度SUL,定义MDA 评价函数J 4:

J 4(B ,S )=S L ×tr (S B )×tr (S W ) (14)

其中,tr (.)表示矩阵的迹,等于矩阵对角线元素之和.

在本文的实验中,将分别使用上述4种MDA 评价函数来实现文本分割过程.实验结果显示:J 3和J 4的组合性能最好.另外,J 1和J 3用于文本分割过程中的主题边界自动识别;J 2和J 4用于文本分割过程中的分割单元数目

的自动确定.

3 实现算法

本文采用模型(3)来实现文本分割过程,其中分别采用4种MDA 评价函数J 1,J 2,J 3和J 4对文本分割模式S

进行全局评价.文章最开始部分提到,文本分割技术需要解决两个关键问题:主题边界的自动识别和分割单元数

目确定.

在本文的文本分割模型中,实现算法分为两步:

第1步:在给定当前文本B 的分割单元数目已知条件下,利用MDA 评价函数J 1或J 3自动识别主题边界.实

现算法见算法1.

算法1. 自动识别主题边界基本算法.

Given a text B =b 1b 2…b k , where k is the number of blocks in B ; c is the given number of segments

Initialization: S best ={}, J (B ,S best )=0.0

Text segmentation:

Begin

1) Construct possible segmentation set SSet ={S 1,S 2,…,S n }

Loop

2) Get a segmentation S from SSet , and delete S from SSet ;

3) If J (B ,S best )

560 Journal of Software 软件学报 V ol.18, No.3, March 2007

Begin

S best =S and J (B ,S best )=J (B ,S ).

Endif

Until SSet ={}.

End

Output best segmentation S best .

在算法1中的第3)步,采用MDA 评价函数J 1或J 3来计算J (B ,S )评价值.实验分别给出了比较结果.本文主

要研究基于段落层次的文本分割技术????,也就是说,分割点只能出现在每个段落的结束位置.从该算

法可以看出计算复杂度为O (),其中:m 表示当前文本B 包含的段落数目;c 表示给定分割单元的数目.

c m C 可想而知,这个计算的复杂度还是很高的.为了解决这个问题,本文采用遗传算法[19](genetic algorithms,简称

GAs)来实现算法1的实现过程,达到优化算法的计算复杂度的目的.实验采用MATLAB 中的遗传算法模块来实

现上述算法.

第2步:在算法1分析结果的基础上,自动确定当前文本的最佳分割单元数目.即在未知文本分割数目的基

础上,利用MDA 评价函数J 2或J 4来确定最佳的文本分割模式.实现算法见算法2.

算法2. 自动确定分割单元数目基本算法.

Given a text B =b 1b 2…b k , where k is the number of blocks in B ; m is the number of paragraphs in B

Initialization: S best ={}, J (B ,S best )=0.0

Text segmentation:

Begin

For K =2 to m

Begin

1) Suppose K is the desired number of segments, determine the best segmentation S with algorithm 1;

2) If J (B ,S best )

Begin

S best =S and J (B ,S best )=J *(B ,S ).

Endif

End For

End

Output best segmentation S best .

在算法2中的第2)步,采用MDA 评价函数J 2或J 4来计算J *(B ,S )评价值.本文实验分别给出了比较分析结

果.从算法中可以看出计算复杂度为O (m ),其中,m 表示当前文本B 包含的段落数目,因为文本分割单元的数目肯

定少于文本段落数目.

4 实 验

4.1 评测语料

目前还没有一个公开的通用的中文文本分割评测语料.为此,本文构造了一个规模为106篇的中文语料库

作为评测数据集.语料来源于电子版的人民日报,体裁和内容较为广泛,涵盖了科技说明文、人物传记、时事评

论等领域.考虑到通常情况下的中文文本长度,语料库中的每篇文本选取上主要集中于5~8个语义段落,平均每

篇的自然段落数目为25.8个.每篇文本的标准分割模式通过人工方式标注给定

?????.本实验中,测试语料分为两

部分:测试语料1(5个语义段落)和测试语料2(6~8个语义段落).

???? 本算法也可以直接用于基于句子层次的文本分割过程,假设分割点可以出现在任何两个句子之间;同理,该算法也可以直接

用于基于词层次的文本分割过程,假设分割点可以出现在任意两个词之间;很明显,计算复杂度将比本算法的计算复杂度更高,这也

是本文下一步研究工作的重点.

????? 实验室的3位研究生通过相互讨论方式,人工构建了该评测语料及其参考标准分割答案.

朱靖波 等:基于多元判别分析的文本分割模型

561

4.2 评价方法 本文首先采用传统的正确率(precision)、召回率(recall)、F 1值来评价文本分割算法的性能.正确率是指分

割结果中正确分割点个数占所有分割点的比重;召回率是指算法正确判断的分割点个数占标准答案中分割点

的比重;F 1值按下式计算: call

Re ecision Pr call Re ecision Pr Measure F +××=

?21 (15) 对于文本分割评价来说,用传统的正确率和召回率并不能全面和公正地评价分割性能.主要原因在于:用正确率和召回率主要考虑绝对匹配的结果,实际上,离正确分割点较近的错误分割点比较远的错误分割点性能更

好,但是正确率和召回率一视同仁,无法体现出这种差别[20].

为了克服上述缺点,本文同时采用了Beeferman 等人[20]提出的P μ评测方法来评价文本分割系统的性能.P μ

评测方法??????的具体计算公式是 ∑≤≤≤⊕=

n j i hyp ref j i j i j i D hyp ref P 1)),(),()(,(),(δδμμ (16)

其中,ref 指标准答案中参考分割模式;hyp 是指系统给出的分割模式;n 为文本里的句子数;δref (i ,j )为指示函数,当

句子i 和j 在ref 中同属一个分割单元时,其值为1,否则为0;同理,当句子i 和j 在hyp 中同属一个分割单元

时,δhyp (i ,j )值为1,否则为0.上式对δref (i ,j )和δhyp (i ,j )值进行异或运算.D μ为随机选取的句子对在文本中的距离概

率分布,其值依赖于参数μ.其中,D μ为参数为μ的指数分布[20]:

D μ(i ,j )=r μe ?μ|i ?j | (17)

其中,r μ为归一化因子. 在本文的实验中,参数1/μ设为11,是测试文本集中分割单元包含的平均句子数.文本预处理使用的分词系

统采用由东北大学自然语言处理实验室开发的CipSegSDK 系统[21].

4.3 实验结果

实验中,采用Hearst 提出的TextTiling 算法[2]和Reynar 提出的Dotplotting 算法[6]作为Baseline 系统,其中

Dotplotting 算法只能支持给定分割单元数目条件下的文本分割,因此,在本实验中,只在分割单元数目已知的条

件下分析Dotplotting 算法的性能.为了正确评测各种文本分割模型的性能,本文设计两个实验进行比较分析.

在实验1中,预先给定文本分割单元数目,该实验的目的在于评测本文提出的MDA 方法与TextTiling 和

Dotplotting 算法对主题边界的自动识别能力.表1中带有下划线和加黑的数字表示单项总体平均最高指标.从

表1可以看出:两个MDA 模型(J 1和J 3)比TextTiling 和Dotplotting 算法具有更好的P μ评价值、正确率、召回

率和F 1值.

另外,从表1中可以看出:虽然使用评价函数J 1的MDA 模型取得最好的正确率、召回率和F 1值,但是,P μ

评价值指标不如使用评价函数J 3的MDA 模型.由此可以看出:第一,正如前面论述的,正确率和召回率属于绝对

匹配方法,由于对较小偏差的错误分割与较大偏差的错误分割,无法给出公正评价;而P μ评价值指标就能够较好

地反映出上述两个错误分割的不同,前者的性能好于后者.所以,具有较高正确率和召回率的模型不一定具有较

好的P μ评价值;第二,评价函数J 3使用了分割单元长度因子,一定程度上考虑了分割单元的长度分布,对较小的

错误分割单元能够起到一定的纠正作用.即考虑分割单元长度分布有助于改善文本分割的性能.这一点与

Fragkou 等人[17]的实验结果和分析是一致的.

在实验2中,由于没有给定文本分割单元的数目,MDA 模型和TextTiling 算法需要在识别主题边界的基础

?????? 实际上,Beeferman 等人又提出了P k 评价方法,有些研究人员采用该方法进行评价文本分割的性能.但是,P k 评价方法存在

一些问题,包括评价方法不直观、对分割单元数目的惩罚力度不够等,详细分析参见文献[22].本文主要研究基于段落层次的文本分割

技术,我们认为,P k 评价方法比较适合于基于句子层次和基于词层次的文本分割技术的性能.

562 Journal of Software 软件学报 V ol.18, No.3, March 2007

上自动确定文本分割单元的最佳数目.由于Dotplotting 算法难以实现自动确定文本分割单元的数目,所以本实验中没有采用Dotplotting 算法作为Baseline 系统.

Table 1 Comparison experimental results with known number of document segments

表1 分割单元数目已知条件下的比较实验结果

Algorithm

Evaluation etric Testing corpus 1 (5 segments)Testing corpus 2 (6~8 segments) Average Precision 0.459 0.519 0.486 Recall 0.459 0.519 0.486 F 1 0.459 0.519 0.486 MDA model

(J 1)

P μ 0.854 0.889 0.869 Recall 0.448 0.445 0.447 F 1 0.448 0.445 0.447 MDA model

(J 3)

P μ 0.899 0.913 0.906 Precision 0.424 0.389 0.408 Recall 0.424 0.389 0.408 F 1 0.424 0.389 0.408 TextTiling

(Hearst)

P μ 0.814 0.839 0.825 Precision 0.371 0.385 0.389 Recall 0.371 0.385 0.389 F 1 0.371 0.385 0.389

Dotplotting

(Reynar) P μ

0.719 0.700 0.709 从表2的实验指标可以看出:MDA 模型比TextTiling 算法具有更好的P μ评价指标.实际上,在文本分割过程中,MDA 模型采用了全局评价函数进行主题边界识别和文本分割单元数目的确定.从算法2可以看出:在MDA 模型中,最佳分割模式的主题边界识别和文本分割单元数目的确定是同时实现的,属于全局优化过程.

从表2可以看出:使用评价函数J 3和J 4的MDA 模型比使用评价函数J 1和J 2的MDA 模型取得了更好的召回率、F 1值和P μ评价指标.虽然后者比前者获得更好的正确率,但只提高0.3%,而前者比后者的召回率高出

2.1%,F 1值高出0.9%,P μ评价指标高出

3.8%.从这点可以看出:考虑文本分割单元长度分布,有助于改善分割单元数目确定性能.

Table 2 Comparison experimental results with unknown number of document segments

表2 分割单元数目未知条件下的比较实验结果

Algorithm

Evaluation etric Testing corpus 1 (5 segments) Testing corpus 2 (6~8 segments) Average Precision 0.485 0.457 0.473 Recall 0.440 0.514 0.474 F 1 0.462 0.483 0.473 MDA model

(J 1 and J 2)

P μ 0.799 0.870 0.832 Recall 0.455 0.544 0.495 F 1 0.470 0.494 0.482 MDA model

(J 3 and J 4) P μ 0.840 0.906 0.87 Precision 0.425 0.350 0.391 Recall 0.452 0.568 0.504 F 1 0.438 0.433 0.441 TextTiling

(Hearst)

P μ

0.781 0.842 0.808

4.4 相关研究对比 本文探讨领域无关的线性文本分割方法,定义4种全局评价函数,实现对文本分割的全局评价,同时自动确定分割数目.与本文的研究最相关的工作包括TextTiling [2],Dotplotting [6]等.

对比实验结果表明:MDA 模型具有更好的性能,体现出基于全局评价的方法比基于局部评价的方法更有效.主要原因在于MDA 评价函数J 1和J 3是全局评价函数,属于全局最优方法.TextTiling 算法主要通过确定相邻文本片断的相似性变化程度来猜测主题边界,属于局部最优方法.Dotplotting 技术严格上来说,考虑了全局优化和局部优化一些特性,介于两者之间,主要考虑类内密度和类外密度,实现主题边界识别.

在分割单元数目的确定方面,Dotplotting 算法难以实现自动确定文本分割单元的数目,TextTiling 算法主要

朱靖波等:基于多元判别分析的文本分割模型563

采用一个简单的cutoff函数,根据相邻文本片断的相似度改变程度来确定文本分割单元数目.寻找基于相邻文本片断的相似度变化曲线的“波峰”和“波谷”,选择最大落差相似度改变的位置作为分割点.该方法属于局部最优方法,难以实现全局优化过程.由此可见,全局评价方法在分割单元数目的确定上具有一定的优势.

TextTiling算法比MDA模型具有更好的召回率,表明简单利用相邻片断相似性变化程度可以找出更多的正确分割点,但也引入较多的错误分割点,这一点从较低的正确率中可以看出.过多的错误分割点的引入,造成F1和Pμ评价指标下降.

与其他一些基于统计模型的文本分割算法相比[15?17],本文的算法无须训练语料,是一种领域无关的方法,具有更好的通用性.

5 结束语

本文深入研究了文本分割的两个关键问题:主题边界的自动识别和分割单元数目的确定,并提出了一个独立于具体领域的文本分割统计模型——MDA模型,其中,采用多元判别分析方法定义4种分割全局评价函数,实现对文本分割的全局评价.该评价函数主要考虑了分割单元内距离、分割单元间距离和分割单元长度分布信息.实验结果显示:MDA模型总体性能优于TextTiling和Dotplotting算法,反映了全局评价方法比局部评价方法具有更好的文本分割性能.通过对4种MDA评价函数的比较分析,证明了考虑文本分割单元的长度分布信息将有助于主题边界识别和分割单元数目的确定.但是,本文提出的MDA模型具有较高的计算复杂度,为此,本文采用了遗传算法来解决计算复杂度问题.该高复杂度的问题主要是由于本文提出的MDA模型是一个无序模型(disordered model),无法采用动态规划算法来实现优化.为解决计算复杂度过高的问题,下一步将深入研究属于有序模型(ordered model)的MDA文本分割模型,对分割单元内距离和分割单元间距离的计算方式进行改进,使之适应动态规划或其他复杂度较低的搜索策略的要求.也将深入研究其他有效的优化算法或近似优化算法来解决模型的高复杂度问题.在未来的工作中,将考虑如何将基于MDA的文本分割技术用于文档摘要、信息检索、问答系统等应用中.

致谢在本文的研究工作中,非常感谢Keh-Yih Su,Matthew Ma和Benjamin K Tsou教授提出意见,也非常感谢常兴治同学、陈文亮博士所做的一些实验工作.

References:

[1] Salton G, Singhal A, Buckley C, Mitra M. Automatic text decomposition using text segments and text themes. In: Bernstein M,

Carr L, Osterbye K, eds. Proc. of the 7th ACM Conf. on Hypertext. New York: ACM Press, 1996. 53?65.

[2] Hearst MA. TextTiling: Segmenting text into multi-paragraph subtopic passages. Computational Linguistics, 1997,23(1):33?64.

[3] Morris J, Hirst G. Lexical cohesion computed by thesauri relations as an indicator of the structure of text. Computational

Linguistics, 1991,17(1):21?42.

[4] Kozima H. Text segmentation based on similarity between words. In: Proc. of the 31st Annual Meeting of the Association for

Computational Linguistics. 1993. 286?288. https://www.doczj.com/doc/493613192.html,/P/P93/P931041.pdf

[5] Passoneau RJ, Litman DJ. Intention-Based segmentation: Human reliability and correlation with linguistic cues. In: Proc. of the

31st Meeting of the Association for Computational Linguistics. 1993. 148?155. https://www.doczj.com/doc/493613192.html,/P/P93/P931020.pdf

[6] Reynar JC. Topic segmentation: Algorithms and application [Ph.D. Thesis]. Pennsylvania: University of Pennsylvania, 1998.

[7] Ponte JM, Croft WB. Text segmentation by topic. In: Peters C, Thanos C, eds. Proc. of the 1st European Conf. on Research and

Advanced Technology for Digital Libraries. Berlin, Heidelberg: Springer-Verlag, 1997. 120?129.

[8] Reynar JC. Statistical models for topic segmentation. In: Proc. of the 37th Annual Meeting of the Association for Computational

Linguistics. 1999. 357?364. https://www.doczj.com/doc/493613192.html,/P/P99/P991046.pdf

[9] Kauchak D, Chen F. Feature-Based segmentation of narrative documents. In: Proc. of the 43rd Annual Meeting of the Association

for Computational Linguistics. 2005. 32?39. https://www.doczj.com/doc/493613192.html,/W/W05/W05-04.pdf

564 Journal of Software软件学报 V ol.18, No.3, March 2007

[10] Choi FYY. Advances in domain independent linear text segmentation. In: Proc. of the North American Chapter of the Association

for Computational Linguistics Annual Meeting. Seattle: Association for Computational Linguistics. 2000. https://www.doczj.com/doc/493613192.html,/ A/A00/A002004.pdf

[11] Choi FYY, Wiemer HP, Moore J. Latent semantic analysis for text segmentation. In: Lee L, Harman D, eds. Proc. of the 6th Conf.

on Empirical Methods in Natural Language Processing. Somerset: Association for Computational Linguistics. 2001. 109?117. [12] Blei DM, Moreno PJ. Topic segmentation with an aspect hidden Markov model. In: Croft BW, Harper DJ, Kraft DH, Zobel J, eds.

Proc. of the 24th Annual Int’l ACM SIGIR Conf. on Research and Development in Information Retrieval. New York: ACM Press, 2001. 343?348.

[13] Yaari Y. Segmentation of expository texts by hierarchical agglomerative clustering. In: Mitkov R, Nicolov N, Nikolov N, eds. Proc.

of the Conf. on Recent Advances in Natural Language Processing. Series: Current Issues in Linguistic Theory. 1997. 59?65.

[14] Ji X, Zha H. Domain-Independent text segmentation using anisotropic diffusion and dynamic programming. In: Callan J, Cormack

G, Clarke C, Hawking D, Smeaton A, eds. Proc. of the 26th Annual Int’l ACM SIGIR Conf. on Research and Development in Information Retrieval. New York: ACM Press, 2003. 322?329.

[15] Heinonen O. Optimal multi-paragraph text segmentation by dynamic programming. In: Proc. of 17th Int’l Conf. on Computational

Linguistics. San Francisco: Morgan Kaufmann Publishers, 1998. 1484?1486. https://www.doczj.com/doc/493613192.html,/P/P98/P982244.pdf

[16] Utiyama M, Isahara H. A statistical model for domain-independent text segmentation. In: Proc. of the 9th Conf. of the European

Chapter of the Association for Computational Linguistics. 2001. 491?498. https://www.doczj.com/doc/493613192.html,/P/P01/P011064.pdf

[17] Fragkou P, Petridis V, Kehagias A. A dynamic programming algorithm for linear text segmentation. Journal of Intelligent

Information Systems, 2004,23(2):179?197.

[18] Duda R, Hart P, Stork D. Pattern Classification. 2nd ed., John Wiley & Sons, 2001.

[19] Mitchell TM. Machine Learning. McGraw-Hill, 1997.

[20] Beeferman D, Berger A, Lafferty J. Text segmentation using exponential models. In: Cardie C, Weischedel R, eds. Proc. of the 2nd

Conf. on Empirical Methods in Natural Language Processing. Somerset: Association for Computational Linguistics. 1997. 35?46. [21] Yao TS, Zhu JB, Zhang L, Yang Y. Natural Language Processing-Research on Making Computers Understand Human Languages.

2nd ed., Beijing: Tsinghua University Press, 2002 (in Chinese).

[22] Pevzner L, Hearst M. A critique and improvement of an evaluation metric for text segmentation. Computational Linguistics, 2002,

28(1):19?36.

附中文参考文献:

[21] 姚天顺,朱靖波,张俐,杨莹.自然语言理解——一种让机器懂得人类语言的研究.第2版.北京:清华大学出版社,2002.

朱靖波(1973-),男,浙江金华人,博士,教授,CCF高级会员,主要研究领域为计算语言学理论.

罗海涛(1974-),男,硕士生,主要研究领域为文本分割

.

叶娜(1981-),女,博士生,主要研究领域为

文本分割,信息抽取.

多元线性回归模型的案例分析

1. 表1列出了某地区家庭人均鸡肉年消费量Y 与家庭月平均收入X ,鸡肉价格P 1,猪肉价格P 2与牛肉价格P 3的相关数据。 年份 Y/千 克 X/ 元 P 1/(元/千克) P 2/(元/千克) P 3/(元/千克) 年份 Y/千克 X/元 P 1/(元/ 千克) P 2/(元/ 千克) P 3/(元/千克) 1980 2.78 397 4.22 5.07 7.83 1992 4.18 911 3.97 7.91 11.40 1981 2.99 413 3.81 5.20 7.92 1993 4.04 931 5.21 9.54 12.41 1982 2.98 439 4.03 5.40 7.92 1994 4.07 1021 4.89 9.42 12.76 1983 3.08 459 3.95 5.53 7.92 1995 4.01 1165 5.83 12.35 14.29 1984 3.12 492 3.73 5.47 7.74 1996 4.27 1349 5.79 12.99 14.36 1985 3.33 528 3.81 6.37 8.02 1997 4.41 1449 5.67 11.76 13.92 1986 3.56 560 3.93 6.98 8.04 1998 4.67 1575 6.37 13.09 16.55 1987 3.64 624 3.78 6.59 8.39 1999 5.06 1759 6.16 12.98 20.33 1988 3.67 666 3.84 6.45 8.55 2000 5.01 1994 5.89 12.80 21.96 1989 3.84 717 4.01 7.00 9.37 2001 5.17 2258 6.64 14.10 22.16 1990 4.04 768 3.86 7.32 10.61 2002 5.29 2478 7.04 16.82 23.26 1991 4.03 843 3.98 6.78 10.48 (1) 求出该地区关于家庭鸡肉消费需求的如下模型: 01213243ln ln ln ln ln Y X P P P u βββββ=+++++ (2) 请分析,鸡肉的家庭消费需求是否受猪肉及牛肉价格的影响。 先做回归分析,过程如下: 输出结果如下:

多元线性回归模型案例分析

多元线性回归模型案例分析 ——中国人口自然增长分析一·研究目的要求 中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的降到1980年,接近世代更替水平。此后,人口自然增长率(即人口的生育率)很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型。 影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。 二·模型设定 为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。 从《中国统计年鉴》收集到以下数据(见表1): 表1 中国人口增长率及相关数据

, 设定的线性回归模型为: 1222334t t t t t Y X X X u ββββ=++++ 三、估计参数 利用EViews 估计模型的参数,方法是: 1、建立工作文件:启动EViews ,点击File\New\Workfile ,在对 话框“Workfile Range ”。在“Workfile frequency ”中选择“Annual ” (年 年份 @ 人口自然增长率 (%。) 国民总收入 (亿元) 居民消费价格指数增长 率(CPI )% 人均GDP (元) 1988 15037 1366 1989 … 17001 18 1519 1990 18718 1644 1991 【 21826 1893 1992 26937 2311 1993 . 35260 2998 1994 48108 4044 1995 — 59811 5046 1996 70142 5846 1997 ~ 78061 6420 1998 83024 6796 1999 【 88479 7159 2000 98000 7858 2001 [ 108068 8622 2002 119096 9398 2003 : 135174 10542 2004 159587 12336 2005 、 184089 14040 2006 213132 16024

一元线性回归模型案例分析

一元线性回归模型案例分析 一、研究的目的要求 居民消费在社会经济的持续发展中有着重要的作用。居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。 因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是2002年截面数据模型。 影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 从2002年《中国统计年鉴》中得到表2.5的数据: 表2.52002年中国各地区城市居民人均年消费支出和可支配收入

多元线性回归分析预测法

多元线性回归分析预测法 (重定向自多元线性回归预测法) 多元线性回归分析预测法(Multi factor line regression method,多元线性回归分析法) [编辑] 多元线性回归分析预测法概述 在市场的经济活动中,经常会遇到某一市场现象的发展和变化取决于几个影响因素的情况,也就是一个因变量和几个自变量有依存关系的情况。而且有时几个影响因素主次难以区分,或者有的因素虽属次要,但也不能略去其作用。例如,某一商品的销售量既与人口的增长变化有关,也与商品价格变化有关。这时采用一元回归分析预测法进行预测是难以奏效的,需要采用多元回归分析预测法。 多元回归分析预测法,是指通过对两上或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。 [编辑] 多元线性回归的计算模型[1] 一元线性回归是一个主要影响因素作为自变量来解释因变量的变化,在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释

因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。 设y为因变量,为自变量,并且自变量与因变量之间为线性关系时,则多元线性回归模型为: 其中,b0为常数项,为回归系数,b1为固定时,x1每增加一 个单位对y的效应,即x1对y的偏回归系数;同理b2为固定时,x2每增加一个单位对y的效应,即,x2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为: 其中,b0为常数项,为回归系数,b1为固定时,x2每增加一 个单位对y的效应,即x2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为: y = b0 + b1x1 + b2x2 + e 建立多元性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自变量的选择,其准则是: (1)自变量对因变量必须有显著的影响,并呈密切的线性相关; (2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的; (3)自变量之彰应具有一定的互斥性,即自变量之彰的相关程度不应高于自变量与因变量之因的相关程度; (4)自变量应具有完整的统计数据,其预测值容易确定。 多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方和()为最小的前提下,用最小二乘法求解参数。以二线性回归模型为例,求解回归参数的标准方程组为 解此方程可求得b0,b1,b2的数值。亦可用下列矩阵法求得

多元回归分析SPSS

多元线性回归分析预测法 多元线性回归分析预测法(Multi factor line regression method,多元线性回归分析法) [编辑] 多元线性回归分析预测法概述 在市场的经济活动中,经常会遇到某一市场现象的发展和变化取决于几个影响因素的情况,也就是一个因变量和几个自变量有依存关系的情况。而且有时几个影响因素主次难以区分,或者有的因素虽属次要,但也不能略去其作用。例如,某一商品的销售量既与人口的增长变化有关,也与商品价格变化有关。这时采用一元回归分析预测法进行预测是难以奏效的,需要采用多元回归分析预测法。 多元回归分析预测法,是指通过对两上或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。 [编辑] 多元线性回归的计算模型[1] 一元线性回归是一个主要影响因素作为自变量来解释因变量的变化,在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。

设y为因变量,为自变量,并且自变量与因变量之间为线性关系时,则多元线性回归模型为: 其中,b 0为常数项,为回归系数,b1为固定时,x1每增加一 个单位对y的效应,即x 1对y的偏回归系数;同理b2为固定时,x2每增加一 个单位对y的效应,即,x 2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为: 其中,b 0为常数项,为回归系数,b1为固定时,x2每增加 一个单位对y的效应,即x 2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为: y = b 0 + b1x1 + b2x2 + e 建立多元性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自 变量的选择,其准则是: (1)自变量对因变量必须有显著的影响,并呈密切的线性相关; (2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的; (3)自变量之彰应具有一定的互斥性,即自变量之彰的相关程度不应高于自变量与因变量之 因的相关程度; (4)自变量应具有完整的统计数据,其预测值容易确定。 多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方和()为最小的前提下,用最小二乘法求解参数。以二线性回归模型为例,求解回归参数的标准方程组为 解此方程可求得b 0,b1,b2的数值。亦可用下列矩阵法求得

案例分析 一元线性回归模型

案例分析报告 (2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号: 2204120202 学生姓名:陈维维 2014 年 11月 案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,?最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定?

我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。 为了与“城镇居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 以下是2008年各地区城镇居民人均年消费支出和可支配收入表

多元线性回归实例分析

SPSS--回归-多元线性回归模型案例解析!(一) 多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程为: 毫无疑问,多元线性回归方程应该为: 上图中的x1, x2, xp分别代表“自变量”Xp截止,代表有P个自变量,如果有“N组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示: 那么,多元线性回归方程矩阵形式为: 其中:代表随机误差,其中随机误差分为:可解释的误差和不可解释的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样) 1:服成正太分布,即指:随机误差必须是服成正太分别的随机变量。 2:无偏性假设,即指:期望值为0 3:同共方差性假设,即指,所有的随机误差变量方差都相等 4:独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。 今天跟大家一起讨论一下,SPSS---多元线性回归的具体操作过程,下面以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示:

点击“分析”——回归——线性——进入如下图所示的界面:

将“销售量”作为“因变量”拖入因变量框内,将“车长,车宽,耗油率,车净重等10个自变量拖入自变量框内,如上图所示,在“方法”旁边,选择“逐步”,当然,你也可以选择其它的方式,如果你选择“进入”默认的方式,在分析结果中,将会得到如下图所示的结果:(所有的自变量,都会强行进入) 如果你选择“逐步”这个方法,将会得到如下图所示的结果:(将会根据预先设定的“F统计量的概率值进行筛选,最先进入回归方程的“自变量”应该是跟“因变量”关系最为密切,贡献最大的,如下图可以看出,车的价格和车轴跟因变量关系最为密切,符合判断条件的概率值必须小于0.05,当概率值大于等于0.1时将会被剔除)

SPSS多元回归分析报告实例

多元回归分析 在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回问题为多元回归分析。可以建立因变量y与各自变量x j(j=1,2,3,…,n)之间的多元线性回归模型: 其中:b0是回归常数;b k(k=1,2,3,…,n)是回归参数;e是随机误差。 多元回归在病虫预报中的应用实例: 某地区病虫测报站用相关系数法选取了以下4个预报因子;x1为最多连续10天诱蛾量(头);x2为4月上、中旬百束小谷草把累计落卵量(块);x3为4月中旬降水量(毫米),x4为4月中旬雨日(天);预报一代粘虫幼虫发生量y(头/m2)。分级别数值列成表2-1。 预报量y:每平方米幼虫0~10头为1级,11~20头为2级,21~40头为3级,40头以上为4级。 预报因子:x1诱蛾量0~300头为l级,301~600头为2级,601~1000头为3级,1000头以上为4级;x2卵量0~150块为1级,15l~300块为2级,301~550块为3级,550块以上为4级;x3降水量0~10.0毫米为1级,10.1~13.2毫米为2级,13.3~17.0毫米为3级,17.0毫米以上为4级;x4雨日0~2天为1级,3~4天为2级,5天为3级,6天或6天以上为4级。 表2-1 x1 x2 x3 x4 y 年蛾量级别卵量级别降水量级别雨日级别幼虫密 度 级别 1960 1022 4 112 1 4.3 1 2 1 10 1 1961 300 1 440 3 0.1 1 1 1 4 1 1962 699 3 67 1 7.5 1 1 1 9 1 1963 1876 4 675 4 17.1 4 7 4 55 4 1965 43 1 80 1 1.9 1 2 1 1 1 1966 422 2 20 1 0 1 0 1 3 1 1967 806 3 510 3 11.8 2 3 2 28 3

数学建模-回归分析-多元回归分析

1、 多元线性回归在回归分析中,如果有两个或两个以上的自变量,就称为 多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。 在实际经济问题中,一个变量往往受到多个变量的影响。例如,家庭消费支出,除了受家庭可支配收入的影响外,还受诸如家庭所有的财富、物价水平、金融机构存款利息等多种因素的影响,表现在线性回归模型中的解释变量有多个。这样的模型被称为多元线性回归模型。(multivariable linear regression model ) 多元线性回归模型的一般形式为: 其中k 为解释变量的数目,j β (j=1,2,…,k)称为回归系数(regression coefficient)。上式也被称为总体回归函数的随机表达式。它的非随机表达式为: j β也被称为偏回归系数(partial regression coefficient)。 2、 多元线性回归计算模型 多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方和(Σe)为最小的前提下,用最小二乘法或最大似然估计法求解参数。 设( 11 x , 12 x ,…, 1p x , 1 y ),…,( 1 n x , 2 n x ,…, np x , n y )是一个样本, 用最大似然估计法估计参数: 达 到最小。

把(4)式化简可得: 引入矩阵: 方程组(5)可以化简得: 可得最大似然估计值:

3、Matlab 多元线性回归的实现 多元线性回归在Matlab 中主要实现方法如下: (1)b=regress(Y, X ) 确定回归系数的点估计值 其中 (2)[b,bint,r,rint,stats]=regress(Y,X,alpha)求回归系数的点估计和区间估计、并检 验回归模型 ①bint 表示回归系数的区间估计. ②r 表示残差 ③rint 表示置信区间 ④stats 表示用于检验回归模型的统计量,有三个数值:相关系数r2、F 值、与F 对应的 概率p 说明:相关系数r2越接近1,说明回归方程越显著;F>F1-alpha(p,n-p-1) 时拒绝H0,F 越大,说明回归方程越显著;与F 对应的概率p<α 时拒绝H0,回归模型成立。 ⑤alpha 表示显著性水平(缺省时为0.05) (3)rcoplot(r,rint) 画出残差及其置信区间

多元线性回归模型案例

我国农民收入影响因素的回归分析 本文力图应用适当的多元线性回归模型,对有关农民收入的历史数据和现状进行分析,探讨影响农民收入的主要因素,并在此基础上对如何增加农民收入提出相应的政策建议。?农民收入水平的度量常采用人均纯收入指标。影响农民收入增长的因素是多方面的,既有结构性矛盾因素,又有体制性障碍因素。但可以归纳为以下几个方面:一是农产品收购价格水平。二是农业剩余劳动力转移水平。三是城市化、工业化水平。四是农业产业结构状况。五是农业投入水平。考虑到复杂性和可行性,所以对农业投入与农民收入,本文暂不作讨论。因此,以全国为例,把农民收入与各影响因素关系进行线性回归分析,并建立数学模型。 一、计量经济模型分析 (一)、数据搜集 根据以上分析,我们在影响农民收入因素中引入7个解释变量。即:2x -财政用于农业的支出的比重,3x -第二、三产业从业人数占全社会从业人数的比重,4x -非农村人口比重,5x -乡村从业人员占农村人口的比重,6x -农业总产值占农林牧总产值的比重,7x -农作物播种面积,8x —农村用电量。

资料来源《中国统计年鉴2006》。 (二)、计量经济学模型建立 我们设定模型为下面所示的形式: 利用Eviews 软件进行最小二乘估计,估计结果如下表所示: DependentVariable:Y Method:LeastSquares Sample: Includedobservations:19 Variable Coefficient t-Statistic Prob. C X1 X3 X4 X5 X6 X7 X8 R-squared Meandependentvar AdjustedR-squared 表1最小二乘估计结果 回归分析报告为: () ()()()()()()()()()()()()()()() 2345678 2? -1102.373-6.6354X +18.2294X +2.4300X -16.2374X -2.1552X +0.0100X +0.0634X 375.83 3.7813 2.066618.37034 5.8941 2.77080.002330.02128 -2.933 1.7558.820900.20316 2.7550.778 4.27881 2.97930.99582i Y SE t R ===---=230.99316519 1.99327374.66 R Df DW F ====二、计量经济学检验 (一)、多重共线性的检验及修正 ①、检验多重共线性 (a)、直观法 从“表1最小二乘估计结果”中可以看出,虽然模型的整体拟合的很好,但是x4x6

SPSS线性回归分析案例

回归分析 实验内容:基于居民消费性支出与居民可支配收入的简单线性回归分析 【研究目的】 居民消费在社会经济的持续发展中有着重要的作用。影响各地区居民消费支出的因素很多,例如居民的收入水平、商品价格水平、收入分配状况、消费者偏好、家庭财产状况、消费信贷状况、消费者年龄构成、社会保障制度、风俗习惯等等。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的经济模型去研究。 【模型设定】 : 我们研究的对象是各地区居民消费的差异。由于各地区的城市与农村人口比例及经济结构有较大差异,现选用城镇居民消费进行比较。模型中被解释变量Y选定为“城市居民每人每年的平均消费支出”。从理论和经验分析,影响居民消费水平的最主要因素是居民的可支配收入,故可以选用“城市居民每人每年可支配收入”作为解释变量X,选取2010年截面数据。 1、实验数据 表1: —

2010年中国各地区城市居民人均年消费支出和可支配收入

| 数据来源:《中国统计年鉴》2010年 2、实验过程 作城市居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)的散点图,如图1:

表2 模型汇总b — 模型 R R方调整R方标准估计的误差 - 1 .965a.932.930 ~ a.预测变量:(常量),可支配收入X(元)。 b.因变量:消费性支出Y(元) 表3 相关性 、 消费性支出Y (元) 可支配收入X(元) Pearson相关 性消费性支出Y(元)& .965 ! 从散点图可以看出居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)大体呈现为线性关系,所以建立如下线性模型:Y=a+bX

多元线性回归分析模型

企业销售额影响因素分析及回归模型学号:1003131014 姓名:李绍林班级:10级人力资源管理 一、问题提出 (一)研究问题: 随着市场经济的进一步发展,也加剧了企业在市场运行中的不确定性,如何在复杂多变的市场中占据主导,如何在经济流通的过程中,充分利用各种有利的因素,来确保企业销售额的增长,如何控制经济流通中的各项开支,如何组合来服务于企业销售额的增长。因此,在这里通过分析某家公司的企业销售状况,试图研究影响企业销售额的各因素及其之间的关系,建立企业销售额及其因素的回归模型,并进行经济分析。(二)数据来源 某企业开支与销售额关系表:

二、定性分析 为了研究企业销售额的影响因素,我们对相关数据进行简单的定性分析,并各因素同因变量的相关关系做了一个简单的预测。 个人可支配收入反映一个地区或市场上消费者的购买能力,单独来看,应与企业的销售额呈正相关关系,即企业产品的目标市场群体的个人可支配收入起高,企业所能获得的销售额也会相应提高。 商业回扣是企业为了改善销售商之间的关系,同时加强同销售商之间的合作,通过商业回扣的方式来吸引销售商,商业回扣作为企业的一个重要的营销策略,这也会减少企业的利润,商业回扣作为影响企业销售额的重要因素,商业回扣投入情况同企业的销售额多少有一定的关系。 商品价格能够通过企业产品的需求来影响企业的销售量,两者共同作用于企业的销售额,是影响企业销售额的一个关系因子。如何制定价格策略来提高企业的销售额,具有重要的现实意义。 研究与发展经费反映企业的研发能力和对市场的捕捉能力,能够适应市场需求来适应开发新的产品,不断开拓新的市场,提高产品的质量和水平,这能够为企业的扩大市场份额和企业销售额的提高。 广告费用是企业为了对产品进行推广和让消费者更好地了解产品和创造需求,引导消费者的购买欲望,同时有利于树立产品和企业的形象。当然广告费用的支出也是影响企业销售额的一个重要因子。 销售费用是企业为了产品的销售在产品的流通和销售过程中发生的一系列费用的总和,其与企业的销售额有一定的关系。 因此,我们选择企业的销售额作为被解释变量y ,选取个人可支配收入、商业回扣、商品价格、研究与发展经费、广告费、销售费作为解释变量,分别设其为x1、x2、x3、x4、x5、x6 。 三、相关分析 (一)数据基本描述 Descriptive Statistics

多元线性回归分析模型

多元线性回归分析模型 企业销售额影响因素分析及回归模型 学号:1003131014 姓名:李绍林班级:10级人力资源管理 一、问题提出 (一) 研究问题: 随着市场经济的进一步发展,也加剧了企业在市场运行中的不确定性,如何在复杂多变的市场中占据主导,如何在经济流通的过程中,充分利用各种有利的因素,来确保企业销售额的增长,如何控制经济流通中的各项开支,如何组合来服务于企业销售额的增长。因此,在这里通过分析某家公司的企业销售状况,试图研究影响企业销售额的各因素及其之间的关系,建立企业销售额及其因素的回归模型,并进行经济分析。 (二) 数据来源 某企业开支与销售额关系表: 序号个人可支配商业回商品价研究与发展广告费销售费年销售额 收入(X1) 扣(X2) 格(X3) 经费(X4) (X5) (X6) (Y) 1 328 123 77.14 19.60 87.51 210.60 4787.36 2 412 149 78.2 3 35.7 4 26.49 258.0 5 4647.01 3 417 120 80.6 4 34.92 83.18 257.40 5512.13 4 418 13 5 78.59 34.69 74.47 269.75 5035.62 5 429 125 74.1 6 11.3 7 83.29 217.75 5095.48 6 441 120 79.85 15.50 50.05 267.15 4800.97 7 455 126 77.93 21.59 94.63 232.70 5315.63 8 461 132 82.28 26.54 91.22 266.50 5272.21 9 462 112 73.20 14.84 92.51 282.75 5711.86

多元线性回归模型的案例讲解

多元线性回归模型的案 例讲解 Document number:NOCG-YUNOO-BUYTT-UU986-1986UT

1. 表1列出了某地区家庭人均鸡肉年消费量Y 与家庭月平均收入X ,鸡肉价格P 1,猪肉价格P 2与牛肉价格P 3的相关数据。 年份 Y/ 千克 X/元 P 1/(元/千克) P 2/(元/千克) P 3/(元/千克) 年份 Y/ 千克 X/元 P 1/(元/千克) P 2/(元/千克) P 3/(元/ 千克) 1980 397 1992 911 1981 413 1993 931 1982 439 1994 1021 1983 459 1995 1165 1984 492 1996 1349 1985 528 1997 1449 1986 560 1998 1575 1987 624 1999 1759 1988 666 2000 1994 1989 717 2001 2258 1990 768 2002 2478 1991 843 (1) 求出该地区关于家庭鸡肉消费需求的如下模型: 01213243ln ln ln ln ln Y X P P P u βββββ=+++++ (2) 请分析,鸡肉的家庭消费需求是否受猪肉及牛肉价格的影响。 先做回归分析,过程如下: 输出结果如下:

所以,回归方程为: 123ln 0.73150.3463ln 0.5021ln 0.1469ln 0.0872ln Y X P P P =-+-++ 由上述回归结果可以知道,鸡肉消费需求受家庭收入水平和鸡肉价格的影响,而牛肉价格和猪肉价格对鸡肉消费需求的影响并不显着。 验证猪肉价格和鸡肉价格是否有影响,可以通过赤池准则(AIC )和施瓦茨准则(SC )。若AIC 值或SC 值增加了,就应该去掉该解释变量。 去掉猪肉价格P 2与牛肉价格P 3重新进行回归分析,结果如下: Variable Coefficient Std. Error t-Statistic Prob.?? C LOG(X) LOG(P1) R-squared ????Mean dependent var Adjusted R-squared ????. dependent var . of regression ????Akaike info criterion Sum squared resid ????Schwarz criterion Log likelihood ????F-statistic Durbin-Watson stat ????Prob(F-statistic)

统计学多元回归分析方法

多元线性回归分析 在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。 1.1 回归分析基本概念 相关分析和回归分析都是研究变量间关系的统计学课题。在应用中,两种分析方法经常相互结合和渗透,但它们研究的侧重点和应用面不同。 在回归分析中,变量y称为因变量,处于被解释的特殊地位;而在相关分析中,变量y与变量x处于平等的地位,研究变量y与变量x的密切程度和研究变量x与变量y的密切程度是一样的。 在回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量;而在相关分析中,变量x和变量y都是随机变量。 相关分析是测定变量之间的关系密切程度,所使用的工具是相关系数;而回归分析则是侧重于考察变量之间的数量变化规律,并通过一定的数学表达式来描述变量之间的关系,进而确定一个或者几个变量的变化对另一个特定变量的影响程度。 具体地说,回归分析主要解决以下几方面的问题。 (1)通过分析大量的样本数据,确定变量之间的数学关系式。

(2)对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。 (3)利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。 作为处理变量之间关系的一种统计方法和技术,回归分析的基本思想和方法以及“回归(Regression)”名称的由来都要归功于英国统计学F·Galton(1822~1911)。 在实际中,根据变量的个数、变量的类型以及变量之间的相关关系,回归分析通常分为一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等类型。 1.2 多元线性回归 1.2.1 多元线性回归的定义 一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。 一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照

多元回归分析的步骤

三、研究方法 本文采取多元线性回归的方法来设定并建立模型,再利用逐步回归来对变量予以确认和剔除。逐步回归是通过筛选,挑选偏回归平方和贡献最大的因子建立回归方程,在决定是否引入一个新的因素时,回归方程要用方差比进行显著性检验。如果判别该影响因子通过显著性检验,那么可选入方程中,否则就不应该进入到回归方程,回归方程中剔除一个变量的标准也是用方差比进行显著性检验 剔除偏回归平方和贡献最小的变量,无论是入选回归方程还是从回归方程中剔除符合条件的选入项和剔除项为止,逐步回归的方法剔除了对因变量影响小的因素 减小了分析问题的难度,提高了计算效率和回归方程的稳定性有较好的预测精度。 运用多元线性回归预测的基本思路是在确定因变量和多个自变量以及它们之间的关系后,通过设定自变量参数的回归方程对因变量进行预测。具体如下: n n 2211X a ++ X a + X a +C = Y 式中: Y 表示为粮食总产量,C 和a 为回归系数,C 、a 是待定参数,X 为所选取的影响因素.多元线性回归方法可分为强行进入法、消去法、向前选择法、向后剔除法和逐步进入法等,本文运用SPSS22.0 软件,对选择的自变量全部进入回归模型,即强行进入法进行预测。该模型的优点是方法简单、预测速度快、外推性好等。 四、分析与结果 本文选取6个解释变量,研究河南省粮食产量y ,解释变量为:X1粮食播种面积,X2农业从业人,X3农用机械总动力,X4农田有效灌溉面积,X5化肥施用折纯量,X6农村用电量。以河南省粮食产量为因变量,以如上6个解释变量为自变量做多元线性回归(数据选取2014年《河南统计年鉴》,见附录一)。 用SPSS 做变量的相关分析,从相关矩阵(表4-1)中可以看出y 与自变量的相关系数大多都在0.9以上,说明所选择变量与y 高度线性相关,用y 与自变量做多元线性回归是合适的。 表4-1相关 X1 X2 X3 X4 X5 X6 y X1 1 .687 .965 .918 .927 .970 .978 X2 .687 1 .686 .456 .448 .731 .616 X3 .965 .686 1 .946 .930 .990 .985 X4 .918 .456 .946 1 .961 .921 .960 X5 .927 .448 .930 .961 1 .901 .965 X6 .970 .731 .990 .921 .901 1 .979

基于SPSS的多元回归分析模型选取的应用毕业论文

毕业论文题目基于SPSS的多元回归分析模型选取的应用

基于SPSS的多元回归分析模型选取的应用 摘要 本文不仅对于复杂的统计计算通过常用的计算机应用软件SPSS来实现,同时通过对两组数据的实证分析,来研究统计学中多元回归分析中的变量选取,让大家对统计学中的多元回归分析中模型的选取以及变量的选取和操作方法有更深层次的了解. 一组数据是对于淘宝交易额的未来发展趋势的研究,一组数据时对于我国财政收入的研究. 本文通过两个实证即淘宝交易额研究和财政收入研究从不同程度上对非线性回归模型和变量选取的研究运用通俗的语言和浅显的描述将SPSS在多元回归分析中的统计分析方法呈现在大家面前,让大家对多元回归分析以及SPSS软件都可以有更深一步的了解. 通过SPSS软件对数据进行分析,对数据进行处理的方法进行总结,找出SPSS对于数据处理和分析的优缺点,最后得在对变量的选取和软件的操作提出建议. 关键词:统计学,SPSS,变量选取,多元回归分析 Abstract This article not only for complex statistical calculations done by the commonly used computer application software of SPSS, through the empirical analysis of the two groups of data at the same time, to study the statistics of the variables in the multivariate regression analysis, let everybody in the multiple regression analysis of statistical model selection as well as the selection of variables and operation methods have a deeper understanding. Is a set of data for the future development trend of research taobao transactions, a set of data for the research of our country's fiscal revenue. In this paper, through two empirical taobao transactions and fiscal revenue research from different degree of the study of nonlinear regression model and variable selection using a common language and plain the SPSS statistical analysis method in multiple regression analysis of present in front of everyone, let everyone to multiple regression analysis and SPSS software can have a deeper understanding. Through SPSS software to analyze data, and summarizes method of data processing, find out the advantages and disadvantages of SPSS for data processing and analysis, finally had to put forward the proposal to the operation of the selection of variables and software. Keywords: Statistical, SPSS, The selection of variables, multiple regression analysis

一般线性回归分析案例

一般线性回归分析案例 1、案例 为了研究钙、铁、铜等人体必需元素对婴幼儿身体健康的影响,随机抽取了30个观测数据,基于多员线性回归分析的理论方法,对儿童体内几种必需元素与血红蛋白浓度的关系进行分析研究。这里,被解释变量为血红蛋白浓度(y),解释变量为钙(ca)、铁(fe)、铜(cu)。 表一血红蛋白与钙、铁、铜必需元素含量 (血红蛋白单位为g;钙、铁、铜元素单位为ug) case y(g)ca fe cu 1 7.00 76.90 295.30 0.840 2 7.25 73.99 313.00 1.154 3 7.75 66.50 350.40 0.700 4 8.00 55.99 284.00 1.400 5 8.25 65.49 313.00 1.034 6 8.25 50.40 293.00 1.044 7 8.50 53.76 293.10 1.322 8 8.75 60.99 260.00 1.197 9 8.75 50.00 331.21 0.900 10 9.25 52.34 388.60 1.023 11 9.50 52.30 326.40 0.823 12 9.75 49.15 343.00 0.926 13 10.00 63.43 384.48 0.869 14 10.25 70.16 410.00 1.190 15 10.50 55.33 446.00 1.192 16 10.75 72.46 440.01 1.210 17 11.00 69.76 420.06 1.361 18 11.25 60.34 383.31 0.915 19 11.50 61.45 449.01 1.380 20 11.75 55.10 406.02 1.300 21 12.00 61.42 395.68 1.142 22 12.25 87.35 454.26 1.771 23 12.50 55.08 450.06 1.012 24 12.75 45.02 410.63 0.899 25 13.00 73.52 470.12 1.652 26 13.25 63.43 446.58 1.230 27 13.50 55.21 451.02 1.018 28 13.75 54.16 453.00 1.220 29 14.00 65.00 471.12 1.218 30 14.25 65.00 458.00 1.000

相关主题
文本预览
相关文档 最新文档