当前位置：文档之家› 数据仓库与及数据挖掘文本分类实验报告

数据仓库与及数据挖掘文本分类实验报告

2015-2016学年第1学期实验报告

课程名称：数据仓库与及数据挖掘实验名称：文本的分类

实验完成人：

姓名：学号：

日期： 2015年 12月

实验一：文本的分类

1.实验目的

1)掌握数据预处理的方法，对训练集数据进行预处理；

2)掌握文本建模的方法，对语料库的文档进行建模；

3)掌握分类算法的原理，基于有监督的机器学习方法，训练

文本分类器；

4)利用学习的文本分类器，对未知文本进行分类判别；

5)掌握评价分类器性能的评估方法

2.实验分工

独立完成

3.实验环境

基于Windows平台，使用eclipse开发。

4.主要设计思想

4.1实验工具介绍

Eclipse：一个开放源代码的/基于Java的可扩展开发平

台。就其本身而言，它只是一个框架和一组服务，用于通过插件组件构建开发环境。Eclipse最早是由IBM开发的，后来IBM将Eclipse作为一个开放源代码的项目发布。现在Eclipse 在https://www.doczj.com/doc/064510981.html,协会的管理与指导下开发。

4.2特征提取与表达方法的设计

在此次实验中，我考虑了CHI特征提取的方法来建立数据字典。详细步骤见5.3描述。根据CHI特征提取，最终建立成数据字典，数据字典记录在目录E:\DataMiningSample\docVector下的allDicWordCountMap.txt 文档中。

最终的特征向量表达方式为：文档类别标识_单词词频。如：alt.atheism_abstact 1.0。其中alt.atheism为此文本所属的类别，abstact为对应的单词，1.0为该单词的词频数。

4.3分类算法的选择

本次实验使用的是朴素贝叶斯分类算法，朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器基于一个简单的假定：给定目标值时属性之间相互条件独立。即：

Document)

P(Document

P(Category

nt)

Category)

)/P(Docume

P(Category

朴素贝叶斯模型：

)...2,1|(max arg Vmap an a a V P j =

j V 属于V 集合，其中Vmap 是给定一个example 得到的

最可能的目标值，a1…an 是这个example 里面的属性。这里面，Vmap 目标值就是后面计算得出的概率最大的一个，所以用max 来表示。贝叶斯公式应用到)...2,1|(an a a V P j 中可得到）...2,1（/P ）（P )|...2,1(max arg Vmap an a a V V an a a P j j =，又因为朴素贝

叶斯分类器默认a1…an 他们互相独立，所以）...2,1（P an a a 对于

结果没有用处。因为所有的概率都要出同一个东西之后再比较大小，对最后结果没有影响。可得到）（P )|...2,1(max arg Vmap j j V V an a a P =。

尽管是带着这些朴素思想和过于简单化的假设，但朴素贝叶斯分类器在很多复杂的现实情形中仍能够取得相当好的效果。2004年，一篇分析贝叶斯分类器问题的文章揭示了朴素贝叶斯分类器取得看上去不可思议的分类效果的若干理论上的原因。尽管如此，2006年有一篇文章详细比较了各种分类方法，发现更新的方法（如boosted trees 和随机森林）的性能超过了贝叶斯分类器。朴素贝叶斯分类器的一个优势在于只需要根据少量的训练数据估计出必要的参数（变量的均值和方差）。由于变量独立假设，只需要估计各个变量的方法，而不需要确定整个协方差矩阵。

4.4 性能评估方法

本次实验我使用了准确率（P），召回率（R）和F1-Score 来评价分类结果。下面通过表4.1具体解释一下这三种性能评估方法的计算公式。

表4.1 预测结果和实际情况0-1状态图

P = True positive/(True positive + False positive) R = True positive/(True positive + False negative) F1-Score = (2 * P * R)/(P + R)

在此实验中，我通过准确率、召回率和F1-Score这三个性能评估方法对最后的结果进行了详细的分析。关于结果分析的详细描述见5.6。

5.实验过程

5.1文本分类语料库的采集

本实验的语料库是下载网上现成的英文文本语料库的，该语料库的类别有20类，分别为：alt.atheism，comp.graphics，comp.os.ms-windows.misc，comp.sys.ibm.pc.hardware，comp.sys.mac.hardware，comp.windows.x，misc.forsale，rec.autos，rec.motorcycles，rec.sport.baseball，rec.sport.hockey，sci.crypt，sci.electronics，sci.med，sci.space，soc.religion.christian，talk.politics.guns，talk.politics.mideast，talk.politics.misc，talk.religion.misc，其中每个分类有九千多文档，整个语料库有1万8千多文件。现在需要将这1万8千多文件分配成训练集和测试集，为了排除人为因素的干扰，和便于操作的效果，我编写了一个TextClassificationofRandom类来实现将语料库中20个分类都随机均分成训练集和测试集，这样我们就形成了训练集和测试集的数据。在后期实验过程中，通过多次随机生成训练集和测试集来进行实验，获得更详细精确的数据。详细步骤和结果见后面分析。

5.2数据预处理

（1）对所有英文文件进行英文词法分析，去除数字、连字符、标点符号、特殊字符，所有大写字母转换成小写字母，

实现方法是通过正则表达式：

String res[] = line.split("[^a-zA-Z]");

（2）接着去停用词，过滤对分类无价值的词。结果保存在源文件对应文件.out 里面。

（3）第三步是找词根，将词根还原，并分别将每一类的所有文件的单词进行汇总，同时记录每个单词的词频，最终得到源文件对应文件.outstemed 里面。

5.3 特征提取和表达

首先我先解释一下CHI 特征提取公式的意义：

CHI 特征提取：))()()(()(）,t （22

D C D B B A C A BC AD N c ++++-=χ 在此公式中，变量的含义如下所示：

N: 所有文档的数目

A ：在该分类下，包含此单词的文档数量

B: 不在该分类下，包含此单词的文档数量

C: 在该分类下，不包含此单词的文档数量

D: 不在该分类下，不包含此单词的文档数量

由于最后，只需要根据CHI 的卡方值进行排序，为了简化运算，对公式做了简单的简化处理：简化后的计算方法为：)

)(()(2D C B A BC AD ++-，因为在排序的步骤中，N ，（A+C ）,(B+D)都不会对最后的排序造成影响，所以这样的简化处理是合理的。

计算每个单词的CHI值，降序排序后，分别取每一类的排序前2000个单词，经过汇总，去重，得到最终的数据字典，一共是32060个单词。

根据数据字典，将每篇训练集文件和测试集文件转换成特征向量。结果保存在源文件对应文件. outstemedspecial 里面。

5.4训练过程

在本次实验中，我做了5组实验，每组实验又分为两个相对应的实验。因为我借鉴了交叉检验的思想，一开始我将整个数据集随机分成训练集和测试集两份，相当于2折交叉检验，再颠倒过来将训练集作为测试集，测试集作为训练集。这样整个过程算是一组实验，然后再将整个数据集随机分成训练集和测试集，重复上面步骤，最终进行了5组10次实验，利用这10次的结果的均值来对算法精度作估计。以求达到更精确的评估。

这里我就简单介绍一次实验的训练过程:

（1）首先，我为了避免对文件的直接操作，可以将训练集文本的路径进行汇总，汇总的方法是通过命令提示符，转到源数据20类文件夹的目录文件下，输入dir /s/b/l *>aaa.lst，回车，这样，源数据20类文件夹下面出现一个

aaa.lst文件，用写字板打开文件，将前面几行非源数据文件绝对路径的数据删掉。最后得到如图5.1的aaa.lst文件。

图5.1 aaa.lst部分内容示意图

（2）然后，通过java的文件操作FileReader fileReader = new FileReader("E:/DataMiningSample/orginSample/aaa.lst ");以及后面等一系列操作，不具体描述，在Eclipse中运行TextClassificationofRandom类后，在E:\DataMiningSample\docVector目录下，生成两个文件，一个是记录训练数据绝对路径的文件，一个是记录测试数据绝对路径的文件。

（3）将记录训练数据绝对路径的文件的绝对路径，作为TrainMain类的参数，运行来训练样本的特征，首先计算每个类别出现的特征词数，将结果保存在NBTrain工程下的cateWordsNum.txt文件中，保存方式为：类别+空格+次数。

再计算某单词在某类别中出现的次数，将结果保存在NBTrain工程下的cateWordsProb.txt文件中，保存方式为：类别_单词+空格+词数。最后，计算所有类别的总次数，将结果保存在NBTrain工程下的totalWordsNum.txt文件中。这样我们就得到最后的训练模型。

5.5测试过程

通过上述步骤，我们得到四个文件，即记录测试数据绝对路径的文件，cateWordsNum.txt，cateWordsProb.txt，totalWordsNum.txt，我们将这四个文件的绝对路径作为TestMain类的参数，运行，通过朴素贝叶斯的算法，得到每个文件属于每个类的后验概率，取其中最大值，作为文件最终被分到的类别，并将数据以文件绝对路径+空格+类别的形式输出到NBTest工程下的classifyResultNew11.txt文件中，方便后期的实验数据统计。

5.6实验结果和性能评估

最后实验结果用混淆矩阵来记录，由于我一共做了十次实验，这里就不一一列举，我拿第一次的实验结果来展示一下（后面数据均展示第一次实验结果），完整的实验结果记录在E:\DataMiningSample\docVector\五组实验数据目录下的分类结果.xlsx文件下。第一次实验结果的混淆矩阵如

数据仓库与及数据挖掘文本分类实验报告

2015-2016学年第1学期实验报告课程名称：数据仓库与及数据挖掘实验名称：文本的分类实验完成人：姓名：学号：

日期： 2015年 12月实验一：文本的分类 1.实验目的 1)掌握数据预处理的方法，对训练集数据进行预处理； 2)掌握文本建模的方法，对语料库的文档进行建模； 3)掌握分类算法的原理，基于有监督的机器学习方法，训练文本分类器； 4)利用学习的文本分类器，对未知文本进行分类判别； 5)掌握评价分类器性能的评估方法 2.实验分工独立完成 3.实验环境基于Windows平台，使用eclipse开发。 4.主要设计思想 4.1实验工具介绍 Eclipse：一个开放源代码的/基于Java的可扩展开发平

台。就其本身而言，它只是一个框架和一组服务，用于通过插件组件构建开发环境。Eclipse最早是由IBM开发的，后来IBM将Eclipse作为一个开放源代码的项目发布。现在Eclipse 在https://www.doczj.com/doc/064510981.html,协会的管理与指导下开发。 4.2特征提取与表达方法的设计在此次实验中，我考虑了CHI特征提取的方法来建立数据字典。详细步骤见5.3描述。根据CHI特征提取，最终建立成数据字典，数据字典记录在目录E:\DataMiningSample\docVector下的allDicWordCountMap.txt 文档中。最终的特征向量表达方式为：文档类别标识_单词词频。如：alt.atheism_abstact 1.0。其中alt.atheism为此文本所属的类别，abstact为对应的单词，1.0为该单词的词频数。 4.3分类算法的选择本次实验使用的是朴素贝叶斯分类算法，朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器基于一个简单的假定：给定目标值时属性之间相互条件独立。即： Document) P(Document P(Category | | * nt) Category) )/P(Docume P(Category 朴素贝叶斯模型：

数据挖掘试卷一

数据挖掘整理（熊熊整理-----献给梦中的天涯）单选题 1．下面哪种分类方法是属于神经网络学习算法？（） A. 判定树归纳 B. 贝叶斯分类 C. 后向传播分类 D. 基于案例的推理 2．置信度(confidence)是衡量兴趣度度量（ A ）的指标。 A、简洁性 B、确定性 C.、实用性 D、新颖性 3．用户有一种感兴趣的模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务？(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 4．数据归约的目的是（） A、填补数据种的空缺值 B、集成多个数据源的数据 C、得到数据集的压缩表示 D、规范化数据 5．下面哪种数据预处理技术可以用来平滑数据，消除数据噪声？ A.数据清理 B.数据集成 C.数据变换 D.数据归约 6．假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？(B) A 第一个 B 第二个 C 第三个 D 第四个 7．下面的数据操作中，（）操作不是多维数据模型上的OLAP操作。 A、上卷(roll-up) B、选择(select) C、切片(slice) D、转轴(pivot) 8．关于OLAP和OLTP的区别描述,不正确的是: (C) A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同. B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务. C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高. D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的 9．下列哪个描述是正确的？（） A、分类和聚类都是有指导的学习 B、分类和聚类都是无指导的学习

数据挖掘中分类技术应用

分类技术在很多领域都有应用，例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估；当前的市场营销中很重要的一个特点是强调客户细分。客户类别分析的功能也在于此，采用数据挖掘中的分类技术，可以将客户分成不同的类别，比如呼叫中心设计时可以分为：呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他，帮助呼叫中心寻找出这些不同种类客户之间的特征，这样的分类模型可以让用户了解不同行为类别客户的分布特征；其他分类应用如文献检索和搜索引擎中的自动文本分类技术；安全领域有基于分类技术的入侵检测等等。机器学习、专家系统、统计学和神经网络等领域的研究人员已经提出了许多具体的分类预测方法。下面对分类流程作个简要描述：训练：训练集——>特征选取——>训练——>分类器分类：新样本——>特征选取——>分类——>判决最初的数据挖掘分类应用大多都是在这些方法及基于内存基础上所构造的算法。目前数据挖掘方法都要求具有基于外存以处理大规模数据集合能力且具有可扩展能力。神经网络神经网络是解决分类问题的一种行之有效的方法。神经网络是一组连接输入/输出单元的系统，每个连接都与一个权值相对应，在将简单的单元连接成较复杂的系统后，通过并行运算实现其功能，其中系统的知识存储于网络结构和各单元之间的连接权中。在学习阶段，通过调整神经网络的权值，达到对输入样本的正确分类。神经网络有对噪声数据的高承受能力和对未经训练数据的模式分类能力。神经网

络概括性强、分类精度高，可以实现有监督和无监督的分类任务，所以神经网络在分类中应用非常广泛。在结构上，可以把一个神经网络划分为输入层、输出层和隐含层（见图4）。网络的每一个输入节点对应样本一个特征，而输出层节点数可以等于类别数，也可以只有一个，（输入层的每个节点对应一个个的预测变量。输出层的节点对应目标变量，可有多个）。在输入层和输出层之间是隐含层（对神经网络使用者来说不可见），隐含层的层数和每层节点的个数决定了神经网络的复杂度。除了输入层的节点，神经网络的每个节点都与很多它前面的节点（称为此节点的输入节点）连接在一起，每个连接对应一个权重Wxy，此节点的值就是通过它所有输入节点的值与对应连接权重乘积的和作为一个函数的输入而得到，我们把这个函数称为活动函数或挤压函数。如图5中节点4输出到节点6的值可通过如下计算得到：

数据挖掘常用的方法

数据挖掘常用的方法在大数据时代，数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程，也是一种决策支持过程。其主要基于人工智能，机器学习，模式学习，统计学等。通过对大数据高度自动化地分析，做出归纳性的推理，从中挖掘出潜在的模式，可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场，并做出正确的决策。目前，在很多领域尤其是在商业领域如银行、电信、电商等，数据挖掘可以解决很多问题，包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等。这些方法从不同的角度对数据进行挖掘。 (1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类，其目的是通过分类模型，将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中，如淘宝商铺将用户在一段时间内的购买情况划分成不同的类，根据情况向用户推荐关联类的商品，从而增加商铺的销售量。 (2)回归分析。回归分析反映了数据库中数据的属性值的特性，通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中，回归分析可以被应用到各个方面。如通过对本季度销售的回归分析，对下一季度的销售趋势作出预测并做出针对性的营销改变。 (3)聚类。聚类类似于分类，但与分类的目的不同，是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大，但不同类别之间数据的相似性很小，跨类的数据关联性很低。 (4)关联规则。关联规则是隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段：第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求，各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。 (5)神经网络方法。神经网络作为一种先进的人工智能技术，因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题，它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类：第一类是以用于分类预测和模式识别的前馈式神经网络模型，其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型，以Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组

基于机器学习的文本分类方法

基于机器学习算法的文本分类方法综述摘要：文本分类是机器学习领域新的研究热点。基于机器学习算法的文本分类方法比传统的文本分类方法优势明显。本文综述了现有的基于机器学习的文本分类方法，讨论了各种方法的优缺点，并指出了文本分类方法未来可能的发展趋势。 1.引言随着计算机技术、数据库技术，网络技术的飞速发展，Internet的广泛应用，信息交换越来越方便，各个领域都不断产生海量数据，使得互联网数据及资源呈现海量特征，尤其是海量的文本数据。如何利用海量数据挖掘出有用的信息和知识，方便人们的查阅和应用，已经成为一个日趋重要的问题。因此，基于文本内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类(text categorization，TC)技术是信息检索和文本挖掘的重要基础技术，其作用是根据文本的某些特征，在预先给定的类别标记(label)集合下，根据文本内容判定它的类别。传统的文本分类模式是基于知识工程和专家系统的，在灵活性和分类效果上都有很大的缺陷。例如卡内基集团为路透社开发的Construe专家系统就是采用知识工程方法构造的一个著名的文本分类系统，但该系统的开发工作量达到了10个人年，当需要进行信息更新时，维护非常困难。因此，知识工程方法已不适用于日益复杂的海量数据文本分类系统需求[1]。20世纪90年代以来，机器学习的分类算法有了日新月异的发展，很多分类器模型逐步被应用到文本分类之中，比如支持向量机(SVM，Support Vector Machine)[2-4]、最近邻法(Nearest Neighbor)[5]、决策树(Decision tree)[6]、朴素贝叶斯(Naive Bayes)[7]等。逐渐成熟的基于机器学习的文本分类方法，更注重分类器的模型自动挖掘和生成及动态优化能力，在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破，取得了很好的分类效果。本文主要综述基于机器学习算法的文本分类方法。首先对文本分类问题进行概述，阐述文本分类的一般流程以及文本表述、特征选择方面的方法，然后具体研究基于及其学习的文本分类的典型方法，最后指出该领域的研究发展趋势。 2．文本自动分类概述文本自动分类可简单定义为：给定分类体系后，根据文本内容自动确定文本关联的类别。从数学角度来看，文本分类是一个映射过程，该映射可以是一一映射，也可以是一对多映射过程。文本分类的映射规则是，系统根据已知类别中若干样本的数据信息总结出分类的规律性，建立类别判别公式或判别规则。当遇到新文本时，根据总结出的类别判别规则确定文本所属的类别。也就是说自动文本分类通过监督学习自动构建出分类器，从而实现对新的给定文本的自动归类。文本自动分类一般包括文本表达、特征选取、分类器的选择与训练、分类等几个步骤，其中文本表达和特征选取是文本分类的基础技术，而分类器的选择与训练则是文本自动分类技术的重点，基于机器学习的文本分来就是通过将机器学习领域的分类算法用于文本分类中来[8]。图1是文本自动分类的一般流程。

数据挖掘分类实验详细报告概论

《数据挖掘分类实验报告》信息安全科学与工程学院 1120362066 尹雪蓉数据挖掘分类过程（1）数据分析介绍本次实验为典型的分类实验，为了便于说明问题，弄清数据挖掘具体流程，我们小组选择了最经典的决策树算法进行具体挖掘实验。（2）数据准备与预处理在进行数据挖掘之前，我们首先要对需要挖掘的样本数据进行预处理，预处理包括以下步骤： 1、数据准备，格式统一。将样本转化为等维的数据特征（特征提取），让所有的样本具有相同数量的特征，同时兼顾特征的全面性和独立性 2、选择与类别相关的特征（特征选择） 3、建立数据训练集和测试集 4、对数据集进行数据清理在本次实验中，我们选择了ILPD (Indian Liver Patient Dataset) 这个数据集，该数据集已经具有等维的数据特征，主要包括Age、Gender、TB、DB、Alkphos、Sgpt、Sgot、TP、ALB、A/G、classical，一共11个维度的数据特征，其中与分类类别相关的特征为classical，它的类别有1,2两个值。详见下表：本实验的主要思路是将该数据集分成训练集和测试集，对训练集进行训练生成模型，然后再根据模型对测试集进行预测。数据集处理实验详细过程：

●CSV数据源处理由于下载的原始数据集文件Indian Liver Patient Dataset (ILPD).csv（见下图）中间并不包含属性项，这不利于之后分类的实验操作，所以要对该文件进行处理，使用Notepad文件，手动将属性行添加到文件首行即可。 ●平台数据集格式转换在后面数据挖掘的实验过程中，我们需要借助开源数据挖掘平台工具软件weka，该平台使用的数据集格式为arff，因此为了便于实验，在这里我们要对csv文件进行格式转换，转换工具为weka自带工具。转换过程为： 1、打开weka平台，点击”Simple CLI“，进入weka命令行界面，如下图所示： 2、输入命令将csv文件导成arff文件，如下图所示: 3、得到arff文件如下图所示：内容如下：

数据挖掘分类算法比较

数据挖掘分类算法比较分类是数据挖掘、机器学习和模式识别中一个重要的研究领域。通过对当前数据挖掘中具有代表性的优秀分类算法进行分析和比较，总结出了各种算法的特性，为使用者选择算法或研究者改进算法提供了依据。一、决策树（Decision Trees）决策树的优点： 1、决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。 2、对于决策树，数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化，比如去掉多余的或者空白的属性。 3、能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。 4、决策树是一个白盒模型。如果给定一个观察的模型，那么根据所产生的决策树很容易推出相应的逻辑表达式。 5、易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。 6、在相对短的时间内能够对大型数据源做出可行且效果良好的结果。 7、可以对有许多属性的数据集构造决策树。 8、决策树可很好地扩展到大型数据库中，同时它的大小独立于数据库的大小。决策树的缺点： 1、对于那些各类别样本数量不一致的数据，在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。 2、决策树处理缺失数据时的困难。 3、过度拟合问题的出现。 4、忽略数据集中属性之间的相关性。二、人工神经网络人工神经网络的优点：分类的准确度高,并行分布处理能力强,分布存储及学习能力强，对噪声神经有较强的鲁棒性和容错能力，能充分逼近复杂的非线性关系，具备联想记忆的功能等。人工神经网络的缺点：神经网络需要大量的参数，如网络拓扑结构、权值和阈值的初始值；不能观察之间的学习过程，输出结果难以解释，会影响到结果的可信度和可接受程度；学习时间过长,甚至可能达不到学习的目的。

文本数据挖掘及其应用

文本数据挖掘及其应用摘要：随着Internet上文档信息的迅猛发展，文本分类成为处理和组织大量文档数据的关键技术。本文首先对文本挖掘进行了概述包括文本挖掘的研究现状、主要内容、相关技术以及热点难点进行了探讨，然后通过两个例子简单地说明了文本挖掘的应用问题。关键词：文本挖掘研究现状相关技术应用 1 引言随着科技的发展和网络的普及，人们可获得的数据量越来越多，这些数据多数是以文本形式存在的。而这些文本数据大多是比较繁杂的，这就导致了数据量大但信息却比较匮乏的状况。如何从这些繁杂的文本数据中获得有用的信息越来越受到人们的关注。“在文本文档中发现有意义或有用的模式的过程"n1的文本挖掘技术为解决这一问题提供了一个有效的途径。而文本分类

技术是文本挖掘技术的一个重要分支，是有效处理和组织错综复杂的文本数据的关键技术，能够有效的帮助人们组织和分流信息。 2 文本挖掘概述 2.1文本挖掘介绍数据挖掘技术本身就是当前数据技术发展的新领域，文本挖掘则发展历史更短。传统的信息检索技术对于海量数据的处理并不尽如人意，文本挖掘便日益重要起来，可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。 1）文本挖掘的定义文本挖掘作为数据挖掘的一个新主题引起了人们的极大兴趣，同时它也是一个富于争议的研究方向。目前其定义尚无统一的结论，需要国内外学者开展更多的研究以进行精确的定义，类似于我们熟知的数据挖掘定义。我们对文本挖掘作如下定义。定义 2.1.1 文本挖掘是指从大量文本数据中抽取事先未知的可理解的最终可用的信息或知识的过程。直观地说，当数据挖掘的对象完全由文本这种数据类型组成时，这个过程就称为文

全面解析数据挖掘的分类及各种分析方法

全面解析数据挖掘的分类及各种分析方法 1.数据挖掘能做以下六种不同事情（分析方法）： ?分类（Classification） ?估值（Estimation） ?预言（Prediction） ?相关性分组或关联规则（Affinitygroupingorassociationrules） ?聚集（Clustering） ?描述和可视化（DescriptionandVisualization） ?复杂数据类型挖掘(Text,Web,图形图像，视频，音频等) 2.数据挖掘分类以上六种数据挖掘的分析方法可以分为两类：直接数据挖掘；间接数据挖掘?直接数据挖掘目标是利用可用的数据建立一个模型，这个模型对剩余的数据，对一个特定的变量（可以理解成数据库中表的属性，即列）进行描述。 ?间接数据挖掘目标中没有选出某一具体的变量，用模型进行描述；而是在所有的变量中建立起某种关系。 ?分类、估值、预言属于直接数据挖掘；后三种属于间接数据挖掘 3.各种分析方法的简介 ?分类（Classification）首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类。例子： a.信用卡申请者，分类为低、中、高风险 b.分配客户到预先定义的客户分片注意：类的个数是确定的，预先定义好的 ?估值（Estimation）估值与分类类似，不同之处在于，分类描述的是离散型变量的输出，而估值处理连续值的输出；分类的类别是确定数目的，估值的量是不确定的。例子： a.根据购买模式，估计一个家庭的孩子个数 b.根据购买模式，估计一个家庭的收入 c.估计realestate的价值

一种文本分类数据挖掘的技术

一种文本分类数据挖掘的技术来源：网店装修 https://www.doczj.com/doc/064510981.html, 摘要挖掘的理论和应用研究是数据挖掘领域一个新的重要分支，本文介绍了一种文本数据挖掘方法。并给出了一个基于该方法的文本分类系统的实验结果，实验结果表明了该方法的可行性。关键词文本挖掘；文本分类；数据挖掘；VSM 本文首先讨论了文本挖掘技术的定义、功能、分类等问题,接着重点研究了文本分类的关键理论问题,包括分词、特征提取、特征匹配等方面,并简述了我们开发的一个简单的文本分类系统的实验情况,最后是结束语。 1文本挖掘简介 1.1 文本挖掘的定义文本挖掘作为数据挖掘的一个新主题，引起了人们的极大兴趣，同时，它也是一个富于争议的研究方向，目前其定义尚无统一的结论，需要国内外学者开展更多的研究以便进行精确地定义。类似于我们熟知的数据挖掘定义，我们对文本挖掘作如下定义。定义1：文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的信息或知识的过程。直观的说，当数据挖掘的对象完全由文本这种数据类型组成时，这个过程就称为文本挖掘。文[1]已对Web挖掘与信息检索进行了比较研究，在此，我们不再详细讨论文本挖掘与信息检索的关系，我们认为随着文本挖掘技术研究的发展，将之应用到信息检索领域，必将能进一步提高信息检索的精度和效率。 1.2 文本挖掘的分类

文本挖掘从功能上可以分为总结、分类、聚类、趋势预测等。文本总结是指从文档中抽取关键信息，用简洁的形式对文档内容进行摘要或解释。从而用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本总结在有些场合非常有用，例如，搜索引擎在向用户返回查询结果时，通常需要给出文档的摘要。目前，绝大部分搜索引擎采用的方法是简单地截取文档的前几行。文本分类是指按照预先定义的分类体系，将文档集合的每个文档归入某个类别。这样，用户不但能够方便浏览文档，而且可以通过限制搜索范围来使文档的查找更为容易。目前，Yahoo仍然是通过人工对Web 文档进行分类，这大大限制了其索引页面的数目和覆盖范围。可以说研究文本分类有着广泛的商业前景和应用价值。文本聚类与分类的不同在于，聚类没有预先定义的主题类别，是一种典型的无教师的机器学习问题。它的目标是将文档集合分成若干簇，且同一簇内的文档相似度尽可能大。聚类的结果可以用来指导分类。文[2，3]介绍了利用文档进行分布分析和趋势预测的情况。以上功能的研究在国外研究得比较的多，但都是基于英文环境的。在国内，数据挖掘研究者对中文文本的研究还刚刚开始，如何借鉴现有中文处理技术对文本进行挖掘仍有很多问题亟待解决。 2. 文本分类我们开发了一个简单的文本分类系统(STCS)，下面分别介绍其中的各项关键技术。 2.1 文本信息的预处理在对文档进行特征提取前，需要先进行文本信息的预处理，对英文而言需进行Stemming处理，中文的情况则不同，因为中文词与词之间没有固有的间隔符，需要进行分词处理。在中文信息处理领域，对中文自动分词研究已经得比较多了，提出了一些分词方法，如最大匹配法、逐词遍历匹配法、最小匹配法等。文[4]中采用

【精品】(最新)案例四数据挖掘之七种常用的方法

数据挖掘之七种常用的方法利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等，它们分别从不同的角度对数据进行挖掘。 1.分类分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类，其目的是通过分类模型，将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等，如一个汽车零售商将客户按照对汽车的喜好划分成不同的类，这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中，从而大大增加了商业机会。 2.回归分析回归分析方法反映的是事务数据库中属性值在时间上的特征，产生一个将数据项映射到一个实值预测变量的函数，发现变量或属性间的依赖关系，其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销的各个方面，如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。 3.聚类聚类分析是把一组数据按照相似性和差异性分为几个类别，其目的是使得属于同一类别的数据间的相似性尽可能大，不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。 4.关联规则关联规则是描述数据库中数据项之间所存在的关系的规则，即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现，即隐藏在数据间的关联或相互关系。在客户关系管理中，通过对企业的客户数据库里的大量数据进行挖掘，可以从大量的记录中发现有趣的关联关系，找出影响市场营销效果的关键因素，为产品定位、定价与定制客户群，客户寻求、细分与保持，市场营销与推销，营销风险评估和诈骗预测等决策支持提供参考依据。 5.特征特征分析是从数据库中的一组数据中提取出关于这些数据的特征式，这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取，可以得到导致客户流失的一系列原因和主要特征，利用这些特征可以有效地预防客户的流失。

数据挖掘文本分类实验报告

北京邮电大学 ****学年第1学期实验报告课程名称：数据仓库与数据挖掘实验名称：文本的分类实验完成人：姓名：*** 学号：*&*** 姓名：** 学号：**

日期：

实验一：文本的分类 1.实验目的 ◆掌握数据预处理的方法，对训练集数据进行预处理； ◆掌握文本分类建模的方法，对语料库的文档进行建模； ◆掌握分类算法的原理，基于有监督的机器学习方法，训练文本分类器； ◆了解SVM机器学习方法，可以运用开源工具完成文本分类过程。 2.实验分工 ***: (1)对经过分词的文本进行特征提取并用lisvm进行训练 (2)用训练的模型对测试数据进行预测 ***： (1)数据采集和预处理 (2)分词 3.实验环境 Ubuntu 13.04+jdk1.7

4.主要设计思想 4.1 实验工具介绍 1．NLPIR_ICTCLAS2013 NLPIR (又名ICTCLAS2013)，是由中科院张华平博士倾力打造的汉语分词系统。其主要功能包括中文分词、词性标注、命名实体识别、用户词典功能、支持GBK编码、UTF8编码、BIG5编码等。从NLPIR官网可以下载其最新版的Java发布包，然后导入Eclipse，配置运行环境，实现对于语料库的分词。最新的NLPIR可以通过更改源代码实现新增新词识别、关键词提取、微博分词等功能，极大地方便了使用。 2. Eclipse for Java Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言，它只是一个框架和一组服务，用于通过插件组件构建开发环境。幸运的是，Eclipse 附带了一个标准的插件集，包括Java开发工具（Java Development Kit，JDK）。 3. LibSVM 本次实验中我们采用的是台湾大学林智仁博士等开发设计的LIBSVM方法。这是一个操作简单、易于使用、快速有效的通用SVM 软件包，可以解决分类问题(包括C?SVC 、ν?SVC )，回归问题(包括ε ? SVR 、v? SVR ) 以及分布估计(one ?

数据挖掘试题

《数据挖掘》总复习题 1．数据挖掘系统可以根据什么标准进行分类？答：根据挖掘的数据库类型分类、根据挖掘的知识类型分类、根据挖掘所用的技术分类、根据应用分类 2．知识发现过程包括哪些步骤？答：数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示 3．什么是概念分层？答：一个映射序列，将低层概念映射到更一般的较高层概念。 4．多维数据模型上的 OLAP 操作包括哪些？答：上卷、下钻、切片和切块、转轴 / 旋转、其他OLAP操作5．OLAP 服务器类型有哪几种？答：关系OLAP 服务器(ROLAP)、多维OLAP 服务器(MOLAP)、混合 OLAP 服务器 (HOLAP)、特殊的 SQL 服务器 6．数据预处理技术包括哪些？答：聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。 7．什么是数据清理？答：填写缺失的值，平滑噪声数据，识别、删除离群点，解决不一致性 8．什么是数据集成？答：集成多个数据库、数据立方体或文件 9．什么是数据归约？答：得到数据集的压缩表示，它小得多，但可以得到相同或相近的结果 10．数据清理的内容包括哪些？答：缺失值、噪声数据、数据平滑、聚类、回归 11.将下列缩略语复原 OLAP——on-line analytical processing DM——data mining KDD——knowledge discovery in databases OLTP——on-line transaction processing DBMS——database management system DWT——discrete wavelet transform （DMQL）－－Data Mining Query Language 12．什么是数据挖掘？答：简单地说，数据挖掘是从大量数据中提取或挖掘知识。具体地

数据挖掘及其应用

《数据挖掘论文》数据挖掘分类方法及其应用课程名称：数据挖掘概念与技术姓名学号：指导教师：数据挖掘分类方法及其应用作者：来煜摘要：社会的发展进入了网络信息时代，各种形式的数据海量产生，在这些数据的背后隐藏这许多重要的信息，如何从这些数据中找出某种规律，发现有用信息，越来越受到关注。为了适应信息处理新需求和社会发展各方面的迫切需要而发展起来一种新的信息分析技术，这种局势称为数据挖掘。分类技术是数据挖掘中应用领域极其广泛的重要技术之一。各种分类算法有其自身的优劣，适合于不同的领域。目前随着新技术和新领域的不断出现，对分类方法提出了新的要求。。关键字：数据挖掘；分类方法；数据分析引言数据是知识的源泉。但是，拥有大量的数据与拥有许多有用的知识完全是两回事。过去几年中，从数据库中发现知识这一领域发展的很快。广阔的市场和研究利益促使这一领域的飞速发展。计算机技术和数据收集技术的进步使人们可以从更加广泛的范围和几年前不可想象的速度收集和存储信息。收集数据是为了得到信息，然而大量的数据本身并不意味信息。尽管现代的数据库技术使我们很容易存储大量的数据流，但现在还没有一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表示出来。在过去，我们常用的知识获取方法是由知识工程师把专家经验知识经过分析、筛选、比较、综合、再提取出知识和规则。然而，由于知识工程师所拥有知识的有局限性，所以对于获得知识的可信度就应该打个折扣。目前，传统的知识获取技术面对巨型数据仓库无能为力，数据挖掘技术就应运而生。数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出，人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理，但是目前所拥有的数据分析工具很难对数据进行深层次的处理，使得人们只能望“数”兴叹。数据挖掘正是

文本分类方法研究

毕业论文题目：文本分类方法研究姓名：贾云璠院系：理学院物理系专业：物理学年级： 2013级学号： 201341021 指导教师：郑伟二〇一七年六月

摘要近些年来，随着信息技术的发展与应用，互联网上的数据错综复杂，面对如此纷繁复杂的数据，需要借助数据挖掘对数据进行处理来实现对数据的分类，以便查询和搜索，实现数据的最大利用价值。文本分类在信息处理方面占有重要的作用，到目前为止，有很多种方法：KNN SVM 决策树，以及贝叶斯等算法可以帮助我们快速的对文本进行自动分类，本文主要研究KNN SVM两种方法，在比较这两种分类对中文文本分类的基础之上，分析了K 临近算法和支持向量机的优缺点，因SVM和KNN具有互补的可能性，提出了SVM和KNN组合[1]的算法。实验表明：SVM和KNN有很好的分类效果。关键词：文本分类，SVM、KNN，线性组合

Abstract In recent years, with the development of information technology and application, the complexity of the data on the Internet in the face of so complicated data, need with the help of data mining, data processing to implement the data classification, in order to query and search, and realize the maximum utilization of the data value. Chinese text classification plays an important role in Chinese information processing, for example, Chinese information retrieval and search engine, KNN SVM decision tree, and the bayesian algorithm can be applied to Chinese text classification, based on the research analysis compares the two kinds of KNN and SVM classification method, and the experimental comparison of the two algorithms of Chinese text classification effect, on the basis of analyzing the K near the advantages and disadvantages of the algorithm and support vector machine (SVM), found that the SVM and KNN has the possibility of complementary, SVM and KNN algorithm of linear combination is presented. Key words: Text classification, SVM, KNN, linear combination

数据挖掘中的文本挖掘的分类算法综述

数据挖掘中的文本挖掘的分类算法综述摘要随着Internet上文档信息的迅猛发展，文本分类成为处理和组织大量文档数据的关键技术。本文首先对数据挖掘进行了概述包括数据挖掘的常用方法、功能以及存在的主要问题；其次对数据挖掘领域较为活跃的文本挖掘的历史演化、研究现状、主要内容、相关技术以及热点难点问题进行了探讨；在第三章先分析了文本分类的现状和相关问题，随后详细介绍了常用的文本分类算法，包括KNN 文本分类算法、特征选择方法、支持向量机文本分类算法和朴素贝叶斯文本分类算法；；第四章对KNN文本分类算法进行深入的研究，包括基于统计和LSA降维的KNN文本分类算法；第五章对数据挖掘、文本挖掘和文本分类的在信息领域以及商业领域的应用做了详细的预测分析；最后对全文工作进行了总结和展望。关键词：数据挖掘，文本挖掘，文本分类算法 ABSTRACT With the development of Web 2.0, the number of documents on the Internet increases exponentially. One important research focus on how to deal with these great capacity of online documents. Text classification is one crucial part of information management. In this paper we first introduce the basic information of data mining, including the methods, contents and the main existing problems in data mining fields; then we discussed the text mining, one active field of data mining, to provide a basic foundation for text classification. And several common algorithms are analyzed in Chapter 3. In chapter 4 thorough research of KNN text classification algorithms are illustrated including the statistical and dimension reduction based on LSA and in chapter 5 we make some predictions for data mining, text mining and text classification and finally we conclude our work. KEYWORDS： data mining, text mining, text classification algorithms，KNN 目录摘要 (1) ABSTRACT (1) 目录 (1)

文本数据挖掘综述

文本数据挖掘综述陈光磊（专业:模式识别与智能系统）摘要:作为从浩瀚的信息资源中发现潜在的、有价值知识的一种有效技术，文本挖掘已悄然兴起，倍受关注。目前,文本挖掘的研究正处于发展阶段，尚无统一的结论，需要国内外学者在理论上开展更多的讨论。本文首先引出文本挖掘出现的缘由,再对文本挖掘的的概念、组成及其具体实现过程。着重分析了文本挖掘的预处理、工作流程与关键技术。关键词: web挖掘，文本挖掘 1引言面对今天浩如烟海的文本信息，如何帮助人们有效地收集和选择所感兴趣的信息，如何帮助用户在日益增多的信息中自动发现新的概念，并自动分析它们之间的关系，使之能够真正做到信息处理的自动化，这已经成为信息技术领域的热点问题。有数据表明，一个组织80%的信息是以文本的形式存放的，包括WEB页面、技术文档、电子邮件等。由于整个文本集合不能被方便地阅读和分析，而且由于文本经常改变，要跟上变化的节奏，就要不停地回顾文本的内容，处理数量巨大的文本变得越来越来困难。人们迫切需要能够从大量文本集合中快速、有效地发现资源和知识的工具。在这样的需求驱动下，文本挖掘的概念产生了。 2文本挖掘的概述 2.1文本挖掘的定义文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且利用这些知识更好地组织信息的过程。1998年底，国家重点研究发展规划首批实施项目中明确指出，文本挖掘是“图像、语言、自然语言理解与知识挖掘”中的重要内容。

文本挖掘是数据挖掘的一个研究分支，用于基于文本信息的知识发现。文本挖掘利用智能算法，如神经网络、基于案例的推理、可能性推理等，并结合文字处理技术，分析大量的非结构化文本源（如文档、电子表格、客户电子邮件、问题查询、网页等），抽取或标记关键字概念、文字间的关系，并按照内容对文档进行分类，获取有用的知识和信息。文本挖掘是一个多学科混杂的领域，涵盖了多种技术，包括数据挖掘技术、信息抽取、信息检索，机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。文本挖掘(Text Mining)是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程，文本挖掘涵盖多种技术,包括信息抽取,信息检索,自然语言处理和数据挖掘技术。它的主要用途是从原本未经使用的文本中提取出未知的知识，但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂的领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术。 2.2文本挖掘的组成文本挖掘可以通过下图有个大致理解。它由三部分组成：底层是文本挖掘的基础领域，包括机器学习、数理统计、自然语言处理；在此基础上是文本挖掘的基本技术，有五大类，包括文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理；在基本技术之上是两个主要应用领域，包括信息访问和知识发现，信息访问包括信息检索、信息浏览、信息过滤、信息报告，知识发现包括数据分析、数据预测。如图2.1。

数据挖掘(8)：朴素贝叶斯分类算法原理与实践

数据挖掘（8）：朴素贝叶斯分类算法原理与实践隔了很久没有写数据挖掘系列的文章了，今天介绍一下朴素贝叶斯分类算法，讲一下基本原理，再以文本分类实践。一个简单的例子朴素贝叶斯算法是一个典型的统计学习方法，主要理论基础就是一个贝叶斯公式，贝叶斯公式的基本定义如下：这个公式虽然看上去简单，但它却能总结历史，预知未来。公式的右边是总结历史，公式的左边是预知未来，如果把Y看出类别，X看出特征，P(Yk|X)就是在已知特征X的情况下求Yk类别的概率，而对P(Yk|X)的计算又全部转化到类别Yk的特征分布上来。举个例子，大学的时候，某男生经常去图书室晚自习，发现他喜欢的那个女生也常去那个自习室，心中窃喜，于是每天买点好吃点在那个自习室蹲点等她来，可是人家女生不一定每天都来，眼看天气渐渐炎热，图书馆又不开空调，如果那个女生没有去自修室，该男生也就不去，每次男生鼓足勇气说：“嘿，你明天还来不？”,“啊，不知道，看情况”。然后该男生每天就把她去自习室与否以及一些其他情况做一下记录，用Y表示该女生是否去自习室，即Y={去，不去}，X是跟去自修室有关联的一系列条件，比如当天上了哪门主课，蹲点统计了一段时间后，该男生打算今天不再蹲点，而是先预测一下她会不会去，现在已经知道了今天上了常微分方法这么主课，于是计算P(Y=去|常微分方

程)与P(Y=不去|常微分方程)，看哪个概率大，如果P(Y=去|常微分方程) >P(Y=不去|常微分方程)，那这个男生不管多热都屁颠屁颠去自习室了，否则不就去自习室受罪了。P(Y=去|常微分方程)的计算可以转为计算以前她去的情况下，那天主课是常微分的概率P(常微分方程|Y=去)，注意公式右边的分母对每个类别（去/不去）都是一样的，所以计算的时候忽略掉分母，这样虽然得到的概率值已经不再是0~1之间，但是其大小还是能选择类别。后来他发现还有一些其他条件可以挖，比如当天星期几、当天的天气，以及上一次与她在自修室的气氛，统计了一段时间后，该男子一计算，发现不好算了，因为总结历史的公式：这里n=3，x(1)表示主课，x(2)表示天气，x(3)表示星期几，x(4)表示气氛，Y仍然是{去，不去}，现在主课有8门，天气有晴、雨、阴三种、气氛有A+,A,B+,B，C五种，那么总共需要估计的参数有8*3*7*5*2=1680个，每天只能收集到一条数据，那么等凑齐1 680条数据大学都毕业了，男生打呼不妙，于是做了一个独立性假设，假设这些影响她去自习室的原因是独立互不相关的，于是有了这个独立假设后，需要估计的参数就变为，(8+3+7+5)*2 = 46个了，而且每天收集的一条数据，可以提供4个参数，这样该男生就预测越来越准了。