当前位置：文档之家› 线性判别分析使用说明工具产生背景

线性判别分析使用说明工具产生背景

线性判别分析使用说明

一、工具产生背景

在实际应用中，我们经常会遇到考察对象的分类结果是已知的情况。例如，某商业银行根据信用卡等级评分模型将其划分为3个类别：信用等级高、信用等级中以及信用等级低。判别分析是用来处理这种在已知分类结果的情况下对新数据集的归类。它与聚类分析相反，因为在进行聚类分析之前，所考察对象可以分为哪几类是未知的。判别分析可以通过训练数据集学习每个类别的特征，然后对新的数据集进行分类处理。

从统计学的角度看，判别分析可描述为：已知有k个总体G1,G2,…,Gk，现有样本y，要根据这k个总体和当前样本的特征，判定该样本y属于哪一个总体。其主要工作是根据对已知总体的理解，建立判别规则（判别函数），然后根据该判别规则对新的样本属于那个总体做出判断。

常用的判别分析主要是线性判别分析和二次判别分析，二者拥有类似的算法特征，区别仅在于：当不同分类样本的协方差（描述维度间关系的指标Cov(X,Y)=E{[ X-E(X)][Y-E(Y) ]}）矩阵相同时，使用线性判别分析；当不同分类样本的协方差矩阵不同时，则应该使用二次判别分析。本文讲解线性判别分析，这也是最常用的判别分析方法。

二、功能按钮说明

软件打开后界面如下：

接下来具体介绍功能的使用：

1、选择训练数据集

选择用于训练模型的数据集。需满足以下条件：

1）首行是字段，且至少有两个字段；

2）必须包含一个分类字段；

3）除了分类字段，其它字段均为数值型。

如下：

其中”Type”为分类字段。

增加训练数据集，可提高模型的预测效果。

2、分类字段

分类字段是必不可少。当选择好训练数据集后会自动将所有字段添加到“分类字段”后的下拉框中，默认首个字段为当前选中的分类字段。

3、选择测试数据集

测试数据集就是待分类的新的数据集。需满足以下条件：

1）首行是字段;

2）每个字段均为数值型；

3）不包含分类字段。

4、优化算法：

指定求解最优化问题的算法，默认为奇异值分解(svd)。

1）奇异值分解(svd)

2）最小平方差(lsqr)

3）特征分解(eigen)

5、先验概率

默认为None，表示每一个分类的先验概率是等可能的。而有时候我们事先知道每个分类可能出现的概率，这时候也可以自定义。此时各分类概率之间需用英文逗号隔开。比如：

”0.2,0.3,0.4,0.1”

表示四个分类的概率分别为0.2,0.3,0.4,0.1且四个概率之和为1，如果概率和不为1则会对概率自动伸缩。而这四个分类分别为“分类字段”指定的按照先后顺序出现的四个唯一值。

6、最小容差

判别类别可以收敛的最小容差，默认为0.0001，一般不需要改动。

7、输出判别结果

输出测试数据集的判别结果。判别结果包含一个判定结果字段，和每条观测属于不同分类的概率。各分类的概率之和为1，判别结果为概率最高的一个分类。

三、生成图表解释

1、权值向量，如下：

权值向量反应了每个分类对各个属性的依赖。相当于线性方程的斜率。

2、截距，如下：

SUV = MPG_City * 1.078 – 1.01 * MPG_Highway + 0.003 * Weight – 0.108 * Wheelbase –

0.056 * Length + 11.09

在进行线性判别的时候通过这个表达式计算每个分类的值，然后取最大的一个值对应的分类即为判别结果。

3、均值，如下：

该表描述每个分类在不同变量上的均值。

4、协方差矩阵，如下：

该协方差矩阵反应了不同变量之间的关系。

5、预计判别准确率，如下：

预计判别准确率是根据训练数据集计算出来的判别函数判断自身（训练数据集），然后根据实际值和判别值而计算出的判别准确率。该值越高说明判断越准确。

6、输出判别结果，如下：

输出的第一个字段为判定结果，其它字段分别为分类名，各分类的值为当前观测属于该分类的概率，各分类的概率之和为1，判别结果为概率最高的一个分类。