当前位置:文档之家› 毕业设计论文--数据挖掘技术

毕业设计论文--数据挖掘技术

毕业设计论文--数据挖掘技术
毕业设计论文--数据挖掘技术

目录

摘要 (iii)

Abstract (iv)

第一章绪论 (1)

1.1 数据挖掘技术 (1)

1.1.1 数据挖掘技术的应用背景 (1)

1.1.2数据挖掘的定义及系统结构 (2)

1.1.3 数据挖掘的方法 (4)

1.1.4 数据挖掘系统的发展 (5)

1.1.5 数据挖掘的应用与面临的挑战 (6)

1.2 决策树分类算法及其研究现状 (8)

1.3数据挖掘分类算法的研究意义 (10)

1.4本文的主要内容 (11)

第二章决策树分类算法相关知识 (12)

2.1决策树方法介绍 (12)

2.1.1决策树的结构 (12)

2.1.2决策树的基本原理 (13)

2.1.3决策树的剪枝 (15)

2.1.4决策树的特性 (16)

2.1.5决策树的适用问题 (18)

2.2 ID3分类算法基本原理 (18)

2.3其它常见决策树算法 (20)

2.4决策树算法总结比较 (24)

2.5实现平台简介 (25)

2.6本章小结 (29)

第三章 ID3算法的具体分析 (30)

3.1 ID3算法分析 (30)

3.1.1 ID3算法流程 (30)

3.1.2 ID3算法评价 (33)

3.2决策树模型的建立 (34)

3.2.1 决策树的生成 (34)

3.2.2 分类规则的提取 (377)

3.2.3模型准确性评估 (388)

3.3 本章小结 (39)

第四章实验结果分析 (40)

4.1 实验结果分析 (40)

4.1.1生成的决策树 (40)

4.1.2 分类规则的提取 (40)

4.2 本章小结 (41)

第五章总结与展望 (42)

参考文献 (44)

致谢 (45)

附录 (46)

摘要:信息高速发展的今天,面对海量数据的出现,如何有效利用海量的原始数据分析现状和预测未来,已经成为人类面临的一大挑战。由此,数据挖掘技术应运而生并得到迅猛发展。

数据挖掘是信息技术自然演化的结果,是指从大量数据中抽取挖掘出来隐含未知的、有价值的模式或规律等知识的复杂过程。

本文主要介绍如何利用决策树方法对数据进行分类挖掘。文中详细的阐述了决策树的基本知识和相关算法,并对几种典型的决策树算法进行了分析比较,如:核心经典算法——ID3算法;能够处理不完整的数据、对连续属性的数据离散化处理以及克服了ID3算法偏向于选择取值较多的属性作为测试属性的缺点的C4.5算法;利用GINI系数判别数据集中的分裂属性并形成二叉树的CART算法;使数据的分类不受机器主存的限制,有着良好的伸缩和并行性的SLIQ和SPRNIT 算法。ID3算法是最核心的技术,所以本文主要对它进行了研究和设计实现。

第四章在JAVA编译器上实现ID3算法,并对结果进行分析,决策树生成,分类规则的提取,以便于以后直接使用这一规则进行数据分析。在论文的最后一章介绍了目前数据挖掘技术的研究前景。

关键词:数据挖掘;决策树;ID3算法;信息增益;熵值

Abstract: Today, the massage is passed very quickly. How to investigate current status and forecast the future with good use of tremendous original Data has been becoming the big challenge to human beings when facing the emergence of mass Data in information era. Consequently, Data mining technology emerge and boom quickly.

Data mining, is the product of the evolution of information technology, which is a complex process excacting the implicated and valuable pattens, knowledge and rules from a large scale of dataset.

This paper mainly introduces the decision tree algorithm for classification. Firstly, the basic knowledge about decision tree and some representative algorithms for inducing decision tree are discussed, including ID3,which is classical;C4.5,which can deal with continuous attributes and some empty attribute ,at the same time, it can overcome the ID3’weakness which is apt to select some attribute with more value; CART, which uses GINI coefficient about attribute selection and induces a binary tree; SLIQ and SPRINT, which are scalable and can be easily parallelized, moreover they don’t have any limitation of main memory. Because ID3 algorithms which is classical, so in the paper I main introduce it.

The firth chapter,ID3 algorithm is developed on the java platform by java,and carries on the analysis to the result, the decision tree production, the classified rule extraction, it will be advantageous for us to use this rule to carry on the data analysis directly in the future. I introduce data mining technology research prospect in the paper last chapter.

Key words: Data mining; Decision tree; ID3 algorithm ;Information gain; Entropy value

第一章绪论

1.1 数据挖掘技术

1.1.1 数据挖掘技术的应用背景

最近几十年以来,随着互联网的发展和企业信息化程度的日益提高,科研政府部门普遍使用电子事物处理技术,商品条形码被广泛使用,以及电子商务和科学数据库的急剧增长为我们带来了海量的数据。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。而目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏的知识的手段,从而导致了“数据爆炸但知识贫乏”的现象。

大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?”这就引发了一门新兴的自动信息提取技术:数据中的知识发现,简称KDD[1] (Knowledge Discovery in Data Base)。其内容主要涉及人工智能领域中的机器学习,模式识别、统计学、智能数据库、知识获取、专家系统、数据库可视化、数据库领域的数据仓库联机分析处理(OLAP),多维数据库等方面。KDD 已经是解决目前信息系统中普遍面临的“数据爆炸”而“信息缺乏”状况的最有效的手段之一,并且它的研究领域具有较大的研究意义和较多的研究方向一度成为数据库研究界最热的研究方向,拥有人数众多的研究群体,受到学术界和企业界的极大关注。多学科的相互交融和相互促进,使得这一学科得以蓬勃发展,而且已初具规模。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论,甚至到了脍炙人口的程度。数据挖掘是目前研究的热点,它可以说是数据库研究中的一个非常有应用价值的新领域,它融合了数据库、人工智能、机器学习、数理统计学、模糊数学等多个领域的理论和技术。

数据挖掘 DM[2] (Data Mining)是 KDD 的一个最关键步骤,因此实际应用中把 DM 和 KDD 不作区分。数据挖掘是目前研究的热点,它可以说是数据库研究中的一个非常有应用价值的新领域,它融合了数据库、人工智能、机器学习、数理统计学、模糊数学等多个领域的理论和技术。从数据分析的观点来看,数据挖掘分为两类:描述性数据挖掘和预测性数据挖掘。描述性数据挖掘以概要方式描述数据,提供数据所具有的一般性质;预测性数据挖掘分析数据,建立一个或一组模型,产生关于数据的预测。包括分类和回归。分类可用于提取描述重要数据的模型或预测未来的数据趋势。1995 年,在美国计算机年会(ACM)上,提出了数据挖掘的概念。即通过从数据库中抽取隐含的,未知的,具有潜在使用价值信息的过程。数据挖掘应用的普遍性及带来的巨大的经济和社会效益,吸引了许多专家和研究机构从事该领域的研究,许多公司推出了自己的数据库挖掘系统。从1989 年举行的第十一届国际联合人工智能学术会议上 KDD被提出,到现在不过十多年的时间,但在 Gartner Group 的一次高级技术调查中将数据挖掘和人工智能列为“未来 5 年内将对工业产生深远影响的五大关键技术”之首,并且还将数据挖掘列为未来五年内十大新兴技术投资焦点的第二位。根据最近 Gartner 的 HPC 研究表明,“随着数据捕获、传输和存储技术的快速发展,大型系统用户将更多地需要采用新技术来挖掘市场以外的价值,采用更为广阔的并行处理系统来创建新的商业增长点。”

1.1.2数据挖掘的定义及系统结构

数据挖掘也称为数据库中的知识发现KDD(Knowledge Discovery in Data Base)。指的是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘出人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息。目的是帮助决策者寻找数据间潜在的关联,发现被忽略的要素,而这些信息对预测趋势和决策行为也许是十分有用的。数据挖掘技术能从DW中自动分析数据,进行归纳性推理,从中发掘出潜在的模式,或产生联想,建立新的业务模型,这是一个高级的处理过程。高级的处理过程是指一个多步骤的处理过程,多步骤之间相互影响、反复调整,形成一种螺旋式上升过程。这个过程与人类问题求解的过程是存在巨大相似性的。决策树分类算法的研究与改进挖掘过程可能需要多次的循环反复,每一个步骤一旦与预期目标不符,都要回到前面的步骤,重新调整,重新执

行。

从广义角度讲数据、信息是知识的表现形式,但在数据挖掘中更多把概念、规则、模式、规律和约束等看作知识。原始数据可以是结构化的,如关系型数据库中的数据,也可以是半结构化的,如文本、图形、图像数据、甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的或非数学的、演绎的或归纳的。发现的知识可以被用于信息管理、查询优化、决策支持、过程控制等。总之,数据挖掘是一门广义的交叉学科,它的发展和应用涉及到不同的领域尤其是数据库、人工智能、数理统计、可视化、并行计算等。因此,概括起来从广义上来说,数据挖掘是从大型数据集(可能是不完全的,有噪声的,不确定的,各种存储形式的)中,挖掘隐含在其中的,人们事先不知道的,对决策有用的知识的过程[3]。从狭义上来说,数据挖掘是从特定形式的数据集中提炼知识的过程。

数据挖掘的系统结构可以用以下的图来说明:

图1.1 数据挖掘系统结构图

·数据库、数据仓库或其他信息库:这是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理和集成。

·数据库或数据仓库服务器:根据用户的数据挖掘请求负责提取相关数据。

·知识库:这是领域知识,用于指导、搜索或评估结果模式的兴趣度。

·数据挖掘引擎:这是数据挖掘系统的基本部分。由一组功能模块组成,用

于特征化、关联、分类、聚类分析以及演变和偏差分析。

·模式评估模块:通常,此模块使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在有趣的模式上。

·图形用户界面:本模块在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘查询或任务,提供信息,帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。此外,此模块还允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化。

1.1.3 数据挖掘的方法

数据挖掘的功能用于指定数据挖掘任务中要找的模式类型,其任务一般可分为两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特性,预测性挖掘任务在当前数据上进行推断,以进行预测。在实际应用中,往往根据模式的实际应用细分为以下 6 种[4]:

1.分类模式

2.回归模式

3.时间序列模式

4.聚类模式

5.关联模式

6.序列模式

本文主要介绍分类算法,所以下面主要介绍分类分析方法,分类分析要分析数据库中的一组对象,找出其共同属性,构造分类模型,然后利用分类模型对其它的数据对象进行分类。要构造分类模型,需要一个训练样本数据集作为输入,训练集由一组数据库记录或元组组成,每个元组包含一些字段值,又称“属性”或“特征”,这些字段和测试集中记录的字段相同,另外,每个训练样本记录有一个类别标识。分类目标是分析训练集中的数据,利用数据中能得到的特征,为每一类建立一个恰当的描述或模型,然后根据这些分类描述对测试数据进行分类或产生更恰当的描述。我们可以举一个简单的例子,信用卡公司的数据库中保存着各持卡人的记录,公司根据信誉程度将持卡人记录分成三类:良好、一般、较差,并且类别标记己赋给了各个记录。分类分析就是分析该数据库的记录数据,对每个信誉等级做出准确描述,如“信誉良好的客户是指那些年收入在5万元以

上,年龄在40-50岁之间的人士”,然后根据这些描述对其它具有相同属性的数据库记录进行分类。

在分类分析中,分类模型的构造方法有统计方法、神经网络方法及机器学习方法等。统计方法包括贝叶斯法和非参数法(近邻学习或基于事例的学习),对应的知识表示为判别函数和原型事例。神经网络方法主要是多层前向神经网络的误差反向传播(error back propagation,BP)算法,用模型表示是前向反馈神经网络模型,该算法实质是一种非线性的判别函数。机器学习方法包括决策树法和规则归纳法,前者对应的表示是决策树或判别树,后者则一般为产生式规则。另外,近年来又出现了一种称为粗糙集(Rough set)新的理论方法,它将知识表示为产生式规则。

在解决实际问题时,经常要同时使用多种模式。分类模式和回归模式是使用最普遍的模式。分类模式、回归模式、时间序列模式也被认为是受监督知识,因为在建立模式前数据的结果是已知的,可以直接用来检测模式的准确性,模式的产生是在受监督的情况下进行的。一般在建立这些模式时,使用一部分数据作为样本,用另一部分数据来检验、校正模式。

1.1.4 数据挖掘系统的发展

根据 R.Grossman 的观点,数据挖掘的发展过程可分为如下所介绍的一到四代[5]:

第一代:第一代的数据挖掘系统仅支持一个或少数几个数据挖掘算法,这些算法只能够挖掘向量数据。如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。

第二代:第二代系统的主要特点是支持与数据库和数据仓库的高性能接口,并有高的可测量性和功能性。第二代系统提供了数据挖掘模式和数据挖掘查询语言,从而具有更高的灵活性。然而第二代系统只注重模型的生成,如何和预言模型系统集成的问题导致了第三代数据挖掘系统的开发。

第三代:第三代数据挖掘系统可挖掘 intranets和 extranets上的分布的和高度异质的数据,并能有效的和操作系统结合。这一代数据挖掘系统的关键技术之一是提高对建立在异质系统上的多个预言模型以及管理这些预言模型的元数据提供第一级别的支持。

第四代:第四代数据挖掘系统可以挖掘嵌入式、移动式以及一般性的计算设备所产生的各种数据。

1.1.5 数据挖掘的应用与面临的挑战

尽管数据挖掘是一个新兴的研究领域,但是却得到了稳定的发展,每年市场上都会出现新的数据挖掘系统,各大数据库软件公司也分别推出了自己的数据挖掘产品。数据挖掘广泛应用于科学研究、商业应用、以及Web挖掘等很多领域。

(1)科学研究

数据挖掘在天文学上有一个著名的应用系统:SKICAT[27](Sky Image Cataloging and Analysis Tool)。它是加州理工学院喷气推进实验室与天文学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。SKICAT的任务是构造星体分类器对星体进行分类,使用了决策树方法构造分类器,结果使得能分辨的星体较以前的方法在亮度上要低一个数量级之多,而且新的方法比以往的方法要在效率上要高40倍以上。数据挖掘在生物学上的应用主要集中于分子生物学特别是基因工程的研究上。进几年,通过用计算生物分子系统分析法,尤其是基因数据库搜索技术以在基因研究上做出了很多重大发现,数据挖掘在分子生物学上的工作可分为两种:一是从各种生物体的DNA序列中定位出具有某种功能的基因串;二是在基因数据库中搜索与某种具有高阶结构(不是简单的线形结构)或功能的蛋白质相似的高阶结构序列。

(2)商业应用

数据挖掘技术以及应用此技术所获得知识和信息可以被广泛的应用于信息管理、商务管理、过程控制、市场分析、工程设计和科学研究等众多领域,这些领域的管理决策层可以通过对历史数据的分析,发现诸如市场供需规律、商品价格走势、家庭收入与消费特点、购买商品的习惯等规律,以支持企业的生产、经营和销售决策。

(3)web挖掘(Web Mining)

随着网络的迅速发展,今天它己经成为人们交流思想,获取信息的便利手段。但这些信息缺乏结构化、组织的规律性、随意的散布在网络的各个角落,这已经成为这座世界性图书馆的一大缺憾。数据挖掘在因特网上的应用主要包括三种:在搜索引擎上(Search Engine)对文档进行自动分类、帮助用户寻找感兴趣的新

闻以及利用数据挖掘设计一个电子新闻过滤系统。它利用文本学习建立起该用户的趣向模型,当用户进入一份电子报纸的网页时,该系统就会根据学习所得的模型对其中的每一篇文章按与用户的兴趣的接近程度进行打分排序,以便使用户看到他最感兴趣的新闻。

这些实践将数据挖掘和各特定领域知识结合起来,满足了特定任务的需要,也取得了一些很大的成绩。数据挖掘任务和方法的多样性给数据挖掘提出了许多挑战性的课题。在未来的课题研究中,数据挖掘研究人员、系统和应用开发人员所面临的主要问题[6]有:

(1)挖掘算法的效率和可扩展性

目前,GB数量级的数据库已经不鲜见,TB数量级的数据库也开始出现。海量数据库中存有成百个属性和表,成百万个元组,问题的维数很大,这不但增大了知识发现算法的搜索空间,也增加了盲目发现的可能性。因此,必须通过增加知识发现过程中系统和用户的交互,既充分利用领域知识除去无关数据,降低问题维数,对待挖掘数据进行有效的预处理,又要利用领域知识进一步精练所发现的模式,滤除因搜索空间过大可能获得的无用信息,从而设计出更理想的知识发现算法。

(2)待挖掘数据的时序性

在应用领域的数据库中,数据大多是随时间变化的,这可能使得原先发现的知识失去效用,也为开发强有力的知识发现系统提供了潜在的舞台,因为重新训练一个系统毕竟要比重新训练一个人(改变他的思维、观点等)容易得多。我们可以来用随时间逐步修正所发现的模式来指导新的发现过程。互联网络上的知识发现正日益普及,在这信息的海洋中可以发现大量的新知识。己有一些资源发现工具可用来发现含有关键字的文本。目前的问题是,如何从复杂的数据例如多媒体结构化的数据中提取有用的信息,对多层次数据库的维护,以及如何处理数据的异类性和自主性等等。

(3)和其它系统的集成

一个方法、功能单一的发现系统,其适用范围必然受到限制。要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可观化工具、网络等多项技术集成的系统。

(4)遗漏的噪声数掘

这个问题在商业数据库中尤其突出,据报告,美国人口调查数据的错误率上升到20%。如果不经认真考虑就来设计待挖掘数据库,重要的属性可能会被遗漏掉。用更复杂的统计策略识别隐藏的变量和相关性成为必然。

(5)挖掘结果的可理解性

这是评估挖掘系统的一个重要环节。我们应该尽可能采用图形表示、有向非循环图结构的规则、自然语言生成以及数据和知识的可视化等技术,提高挖掘结果的可理解性。

(6)私有数据的保护与数据安全性

当我们可以在不同的角度和不同的层次看到数据库中的数据时,这与我们保护数据的安全性和保护私人数据的目标相抵触。因此对在什么情况下数据挖掘将会导致对私有数据造成侵犯和采用何种措施来防止敏感信息泄露的研究变得非常重要。

1.2 决策树分类算法及其研究现状

分类技术是数据挖掘的重要分支,它能够对各个行业提供良好的决策支持,对整个社会的发展产生重要而深远的影响。数据挖掘的分类模式是一种有指导性的学习,即是以实例为基础的归纳学习算法,通过分析由属性描述的训练数据集来构造模型由此来预测新元组的分类标记。数据分类存在很多方法,如判定树归纳、贝叶斯分类、神经网络以及 K-最临近分类、遗传算法和粗糙集等。其中决策树归纳以其易于提取显式规则、计算量相对较小、可以显示重要的决策属性和较高的分类准确率等优点而得到广泛的应用。据统计,目前决策树算法是利用最广泛的数据挖掘算法之一,利用率高达 19%。应用领域已由医疗到博弈论和商务等领域,是一些商业规则归纳系统的基础。在计算机科学中采用树形结构描述数据集已有不短的时间了,但它一直是一个不受重视的知识发现过程。随着数据挖掘技术的产生,决策树得到了很快的发展。

决策树的算法己有很多。1986 年 J.Ross Quinlan 引入了 ID3 算法后,引起了很大的反响[7]。在此基础上,他又于 1993 年,在其“Program For Machine Learning”一书中,对 ID3 算法进行了补充和改进,提出了后来非常流行的 C4.5算法。在大数据量情况下的效率和生成规则的数量与正确性方面有了显著的提

高。此外,CHAID 算法也有相当广泛的应用。1996 年又提出了 SLIQ和SPRINT 算法,RAINFOREST 框架结构,它们强调算法的可伸缩性。由于数据挖掘的对象是规模庞大的数据,已有的分类算法在数据量小时能够准确、高效的分类,效果很好。但当用于处理大量数据时,已有的算法都会不同程度的出现各种问题,分类效果不理想。因此,研究数据挖掘中准确、有效的分类算法,虽然是一个传统的问题,但仍具有挑战性。目前,在知识发现和数据挖掘的研究和开发中已经取得了一些令人瞩目的成绩,对关联规则、聚类等基本算法的研究已经基本日趋成熟,人们的研究重点逐渐转移到数据挖掘技术在新的数据类型、应用环境中使用时所出现的新问题的解决上。例如:

1.决策树技术和神经网络技术相结合。决策树也具有产生n 维空间下任意复杂的决策边界的功能。因此, 可以将决策树重新构造成一个多层的神经网络。这类方法解决了由神经网络得到的知识难于被人们理解的缺点。

2.决策树技术和模糊集合原理的结合。决策树技术虽然有许多优点,但也存在着不稳定的缺点,即决策树带来了较大的变动。模糊集合的融通性使人们利用模糊逻辑来解决决策树的这一缺点并取得了不错的效果。

3.决策树技术和进化算法,遗传算法及遗传编程的结合。基于进化算法的决策树系统具有较好的抗噪声能力, 同时进化算法很容易在并行计算机上运行, 因此可以期待基于进化算法的决策树的运算能力有较大的提高。

4.决策树技术和多智能体的结合。多智能体系统的复杂性,而机器学习有潜力提供一个鲁棒性较强的机制来有效协调各智能体间的行为,因此对多智能体结合机器学习是一个很有前途的方向。

5.寻找新的构造决策树的方法。自从Quinlan提出ID3 和C4.5方法后,有不少专家提出了其他构造决策树的方法,M. Amherst 等提出了基于多维可视化下的交互式的决策树构造,此方法在决策树构造阶段加入了专家知识,这样便于用户更深地理解产生决策树的数据及最终产生的决策树,同时也显著地减小了决策树的大小。

6.寻找更好的简化决策树的方法。寻找更好的简化决策树的方法, 这一直是决策树技术研究的一个热点。D. Fournier 等提出的一种新的修剪决策树的方法2DI 修剪法。此方法针对数据不确定的情况, 利用特性索(Quality Index) 来

权衡处理决策树深度和节点杂质。2DI修剪法将保持那些虽不能减小错误率但能指出一些特殊性质的群体的子树。

7.研究产生决策树的训练和检验数据的大小及特性与决策树特性之间的关系。实际上, 这就是经常提起的数据预处理技术(Data reprocessing) ,与决策树修剪技术(Pruning)[7]相对应, 也称它为数据减少技术(Data Reduction Techniques) 。

8.决策树技术的软件实现。将决策树技术软件化一直是决策树技术的方向之一。目前市场上的大多数据挖掘软件如SAS 等都包含有决策树技术部分。

以上这些决策树的研究并不是孤立的, 它们经常相互联系、相互结合。决策树技术早已被证明是利用计算机模仿人类决策的有效方法。由于20 世纪末人工智能陷于低潮, 此技术曾不被重视。值得庆幸的是, 由于数据挖掘技术的兴起, 作为模仿人类决策主要方法之一, 近年来决策树又重新引起了人们的兴趣, 并得到更广泛的应用。将决策树技术与其他新兴的技术相结合,决策树技术将焕发出新的生命力。

1.3数据挖掘分类算法的研究意义

目前分类挖掘在实际应用中有着很重要的应用价值,在很多行业领域都取得一定的成功。比如:在股票市场上对每只股票的历史数据进行分析,通过相应的技术进行预测,从而做出相对比较准确的判断;彩票的购买也可以利用数据挖掘的分类或预测技术进行分析;在金融领域中将贷款对象分为低贷款风险与高贷款风险两类。通过决策树,我们可以很容易地确定贷款申请者是属于高风险的还是低风险的。对于一个计算机销售的系统,原有的数据库信息已定,假定新的顾客添加到数据库中,你想将新计算机的销售信息通知顾客。将促销材料分发给数据库所有的顾客的费用可能很高,这时你就可以通过建立分类模型,把资料只寄给那些可能购买新计算机的用户,从而节省时间和费用,为你带来更大的经济效益。由于决策树方法在分类挖掘技术中有着独特的优势,而分类技术的应用对整个市场的控制、公司的运营和个人的投资都有着很好的控制作用。数据挖掘是一种决策支持过程,是深层次的数据信息分析方法,将数据挖掘技术应用于成绩评估方面是非常有益的,它可以全面地分析考试成绩与各种因素之间隐藏的内在联系,比如,经过对学生相关数据进行分析,数据挖掘工具可以回答诸如“哪些因素对

学生成绩可能有影响”等类似的问题,这是传统评价方法无法具备的。因此对基于决策树的分类算法的研究有着多层次的研究价值和很高的应用价值。

1.4本文的主要内容

第一章首先阐述了论文课题的研究背景、国内外在数据挖掘领域的研究现状以及论文的组织结构。

第二章是本文的重点之一,详细的阐述了决策树分类模型的基本原理、工作的过程,并讲述了它的核心算法——ID3算法的基本思想。在本章的最后介绍了ID3算法演变和改进来的其他几种算法,并对它们进行了比较,做出概况性描述。

第三章也是本文的研究重点之一,因为ID3算法是经典的数据处理算法,本文主要研究ID3算法,给出了ID3算法的详细描述和它的评价。分析用ID3实现的决策树,以及分类规则的提取。

第四章,用程序实现ID3算法、对它的结果进行分析,实验结果证明,ID3算法是一种经典的数据处理算法,运用它能够解决生活中很多数据问题。

第五章对全文进行总结,提出了进一步的研究方向。ID3算法还有一定的需要改进的地方,在以后的研究中将进行进一步的改进。

第二章决策树分类算法相关知识

决策树方法是目前应用最广泛的归纳推理算法之一,是一种逼近离散值的方法,也可以把它看作是一个布尔函数。它是以实例为基础的归纳学习,通常用来形成分类器和预测模型,着眼于从一组无次序、无规则的事例理出决策树表示形成的分类规则。到目前为止决策树有很多实现算法。

2.1决策树方法介绍

在解决分类问题的各种方法中,决策树[8] (Decision Tree,DT)是比较常用的一种方法,它是一种用于分类、聚类和预测的预测型建模方法,采用“分而治之”的方法将问题的搜索空间分为若干子集。应用这种方法需要构建一棵树对分类过程进行建模。一旦建好了树,就可以将其应用于数据集中的元组并得到分类结果。在决策树方法中,有两个基本步骤:构建树和将树应用于数据集,一般都集中在如何有效的构建树的研究上。

2.1.1决策树的结构

一棵决策树是这样一棵树,该树的每个非终端点均表示被考察数据项目的一个测试或决策。根据测试结果,选择某个分支。为了分类一个特定数据项目,我们从根结点开始,一直向下判定,直到到达一个终端结点(或叶子)为止。当到达一个终端结点时,一个决策树便形成了。

决策树是运用于分类的一种类似于流程图的树结构[9]。其中的每个内部节点(internal node)代表对某个属性的一次测试,一条边代表一个测试结果,叶子(leaf)代表某个类(class)或者类的分布(class distribution)。最上面的节点是根结点。下图给出一个商业上运用决策树算法得到的一棵决策树,如图2.1所示:

图2.1 Decision Tree demo

这棵决策树对“买计算机’,的销售记录进行分类。它表示了一个关心电子产品的用户是否会购买PC机的知识,用它可以预测某条记录(某个人)的购买意向。每个内部节点(方形框)代表对某个属性的一次检测。每片叶子(椭圆框)代表一个类(buys-computers=yes或者buys--computers=no)。这个例子中,样本向量如下:(age,student,credit--rating: buys-computers),被决策数据的格式为(age,student,credit--rating)。输入新的被决策的记录,可以预测该记录隶属于哪个类。

2.1.2决策树的基本原理

决策树的实现是以信息论原理为基础的。信息论是香农(C.E.Shannon)在1948年建立的解决信息传递的不确定性的一系列理论,以数学的方法度量并研究信息。通过通信后对信源中各种符号出现的不确定程度的消除来度量信息量的大小,在这些理论中他提出了一系列概念:

(1)自信息量。设X1,X2,…,X n,为信源发出的信号,在收到Xi之前,收信者对信源发出信号的不确定性定义为信息符号的自信息量I(Xi),即

(2.1)

其中P(Xi)表示信源发出Xi的概率。

(2)信息熵。自信息量只能反映符号的不确定性,而信息熵可以用来度量整个信源X整体的不确定性,定义如下:

(2.2) 其中i为信源X所有可能的符号数,即用信源每发一个符号所提供的平均自信息

量来定义信息熵(平均信息量)。

(3)条件熵。如果信源X与随机变量Y不是相互独立的,收信者收到信息Y,那么用条件熵H(X/Y)来度量收信者在收到随机变量Y之后,对随机变量x 仍然存在的不确定性。设X对应信源符号Xi,Y对应信源符号Yj,P(Xi/Yj)为当Y为Yj时,X为Xi的概率,则有:

(2.3)

(4)平均互信息量。用它来表示信号Y所能提供的关于X的信息量的大小,可用下式表示:

I(X,Y)=H(X)-H(X/Y) (2.4) 在信息论中是用熵(系统信息量的加权平均)(Entropy)来度量信息的不确定性。不确定性是一组消息的描述如M={m1,m2,…m n}。所有消息的产生是相互独立的,消息集合中每个消息m i被接受的概率为P(m i),它包含着一定的信息量,定义为I(m i)=-㏒2( m i)。例如:某个信息源总是发送同样的信息,那么接收者就不需要更多的信息,此时信息源的熵就为0,也就是没有任何不确定性。相反,如果某个信息发送了n个不同的信息并且每个信息是相互独立的,此时熵的值就是n(熵是以二进制位的个数来编码长度的,故用以2为底的对数,后面描述的㏒

2

对数都是以2为底)。熵用在决策树中是作为训练集纯度的标准。在决策树形成过程中,最重要的部分是对分裂属性的选择。

比较常用的一种方法是计算信息增益[10] (Information Gain)。信息增益的原理来自信息论,它是使某个属性用来分割训练集而导致的期望熵降低。因此,信息增益越大的属性分裂数据集的可能性越大。决策树的形成就是递归的对数据集中的每个节点进行分裂,直到节点的所有类别都属于同一类或没有多余的属性来划分训练样本集。

按照信息论的定义,设S是s个数据样本的集合,类标号属性有n类样本的训练数据集,每类有Si个实例,则把它们分类所需要的信息量I用如下公式2.5表示为:

(2.5)

Pi是任意样本属于类C i的概率,用S i/S估计。

设属性A具有v个不同的值{ a1, a2,。。。a v }。可以用属性A将S划分为v个子集{S1, S2,。。。S v }:其中,Sj包含S中这样的一些样本,它们在A上具有值a j。假设选取A作为本次分类的属性,则这些子集对应于由包含集合S的节点生长出来的分枝。设s ij是子集Sj中类C i的样本数。根据由A划分成子集的熵(entropy)由公式得出:

(2.6)

其中项为第j个子集的权值,并等于子集(即A为a j)中的样本个数除以S中的样本总数。由信息论定义知:熵值越小,子集划分的纯度越高。因此对应给定的子集S j有:

(2.7)

其中:是S j中的样本属于C i的概率。

在A上的分支将获得的编码信息即节点的信息增益为:

(2.8)

也就是说,Gain(A)是由于知道属性A的值而导致的熵的期望压缩。为了使下一步所需的信息量最小,要求每一次都选择其信息增益最大的属性作为决策树的新结点,并对属性的每个值创建分枝,依据此思想划分训练数据样本集。

2.1.3决策树的剪枝

当决策树创建时,由于数据中的噪声和孤立点,许多分支反映的是训练数据中的异常。剪枝[11]方法处理这种过分适应数据问题。通常使用统计度量,剪去最不可靠的分支,这将导致较快的分类,提高树独立于测试数据正确分类的能力。主要有两类剪枝方法:

1.同步修剪 (pre-pruning):

在建树的过程中,当满足一定条件,例如Information Gain或者某些有效

统计量达到某个预先设定的阈值时,节点不再继续分裂,内部节点成为一个叶子节点。叶子节点取子集中频率最大的类作为自己的标识,或者可能仅仅存储这些实例的概率分布函数。然而,选取一个适当的阈值是困难的,因为较高的阈值可能导致过分简化的数,而较低的阈值可能使得树的化简太少。

2.迟滞修剪(pos-pruning):

与建树时的训练集独立的训练数据进入决策树并到达叶节点时,训练数据的class label与叶子节点的class label不同,这时称为发生了分类错误。当树建好之后,对每个内部节点,算法通过每个枝条的出错率进行加权平均,计算如果不剪枝该节点的错误率。如果裁减能够降低错误率,那么该节点的所有儿子就被剪掉,而该节点成为一片叶子。出错率用与训练集数据独立的测试数据校验。最终形成一棵错误率尽可能小的决策树。在实际应用中可以交叉使用同步修剪和迟滞修剪,形成组合式方法。迟滞修剪所需的计算比同步修剪多,但通常产生更可靠的树。

2.1.4决策树的特性

决策树有很多的优点,是实际应用和学术研究领域最普遍采用的方法之一。主要特点有:

1.灵活性

决策树不需要对数据的分布进行任何假设,它是非参数方法。事例空间被分成子空间,每一个子空间适用于不同的模型。一棵决策树能完全包含一个事例空间,如果有足够的数据,它能近似任意函数的最优贝叶斯错误率。

2.健壮性[12]

对单变量经过单调转换后的输入,单变量树的输出是不变的。例如,对x,log2x,或者作为第j个输入变量,会产生同样结构的树。因此没有必要考虑输入变量的转换式。另外由于对内部属性进行了选择,相对于有不相关输入变量的情况,而产生的树更加具有健壮性。

3.可解释性

全面的和复杂的决策可以通过一系列简单和局部的决策近似取得。所有的决策都是用来描述该问题的属性值上的。决策树具有这两个特性,具有可理解性和可解释性,它们是决策树被广泛使用的原因。

数控技术毕业论文

数控技术毕业论文 摘要随着计算机技术的飞速发展,数控机床在我国机械加工行业中得到越来越广泛的应用。它不仅解决了普通机床难以解决的许多加工难题,而且提高了加工精度和生产效率,同时也对加工工艺和刀具设计提出了许多新的、更高的要求。未来 10 年将是中国机械行业发展最佳时期,随着中国重化工业进程的推进,中国企业规模、产品技术、质量等都将得到大幅提升,国产机械产品国际竞争力增强,逐步替代进口,并加速出口。目前,机械行业中部分子行业如船舶、铁路、集装箱及集装箱起重机制造等已经受益于国际间的产业转移,并将持续受益;电站设备、工程机械、床等将受益于产业转移,加快出口进程关键词:数控机床典型轴类零件 -1- 目录第一张数控机床的分类…………………………41. 1 按加工工艺方法分类…………………………………41.1. 1 金属切削类数控机 床………………………………41.1. 2 特种加工类数控机 床………………………………41.1. 3 板材加工数控机 床…………………………………41. 2 按控制控制运动轨迹分 类……………………………51.2. 1 点位控制数控机 床…………………………………51.2. 2 直线控制数控机 床…………………………………51.2. 3 轮廓控制数控机 床…………………………………51. 3 按驱动装?玫奶氐惴掷唷 开环控制数控机床……………………………61.3. 2 闭环控制数控机床……………………………71.2. 3 半闭环控制数控机床…………………………71.4 混合控制数控机床………………………………8第二章典型轴类零件的工序…………………………9 -2-2. 1 零件图工艺分析……………………………………………92. 2 选择设

数据挖掘论文

数据仓库及其应用技术 摘要本文对于大量存在于计算机信息系统中的数据,通过数据仓库、联机处理技术和数据挖掘技术,对数据进行加工、分析、产生用于决策支持的信息,得以充分利用。 关键词数据仓库数据仓库应用 OLAP 联机分析处理 引言数据仓库技术是计算机数据库系统发展的新方向,近几年来已经在许多领域得到了应用。以数据仓库为基础的商业职能系统强大的功能在实际应用中能带来高利润的回报,所以近年来数据仓库在证券业、银行领域、税务领域、控制金融风险、保险、客户管理等众多领域得到了越来越广泛的应用。据调查,财富500 强企业中已经有85 %的企业建成或正在建立数据仓库。 数据仓库与Internet 一样,正在成为最快的IT 增长点。1996 年,全球企业在数据仓库上的投资达到16. 8 亿美元,并且以每年19. 1 %的速度增长。那么什么是数据仓库? 数据仓库有哪些特征和技术? 下面做一些简单的介绍。 一、数据仓库概念及特征 1、数据仓库概念。 数据仓库就是面向主题的、集成的、不可更新的(稳定的) 、随时间不断变化的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,即对分布在企业内部各处的业务数据的整合、加工和分析的过程,而不是一种可以购买的产品。 2、数据仓库的特征: ①面向主题。数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 ②集成的。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上,经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 ③相对稳定的。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 ④反映历史变化。数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 二、数据仓库的分析技术 1、OLAP 技术 1.1 OLAP (联机分析处理) 的概念。

数控技术毕业论文

西安铁路职业技术学院毕业设计 数控机床加工与操作方法 学生姓名: 学号: 专业班级: 指导教师:

数控机床加工与操作方法 摘要 数控技术是现代制造业实现自动化、柔性化、集成化生产的基础,离开了数控技术,先进制造技术就成了无本之木。数控技术广泛使用给机械制造业生产方式、生产结构、管理方式带来深刻变化,它的关联效益和辐射能力更是难以估计。数控技术及数控装备已成为关系国家战略和体现国家综合国力水平的重要基础性产业,其水平高低是衡量一个国家制造业现代化程度的核心标志,实现加工机床及生产过程数控化,已经成为当今制造业的发展方向。 本论文主要介绍数控机定义,数控机床初学者要求,机床加工前准备工作, 数控机床程序指令,数控机床对刀操作方法,数控机床的工作原理和结构,加工特点,机床加工几何精度要求, 数控机床的优点和缺点,数控机床与计算机实现自动技术,机床维修和生产安全要求。关键词:数控技术概念;加工方法;分类;刀具补偿;

西安铁路职业技术学院毕业设计 目录 摘要.................................................................. I 目录................................................................. II 一、数控技术的概念与特点 (1) 二、数控机床加工前的准备要求 (3) 2.1数控机床的初学者要求 (5) 2.2数控技术常用术语大全 (6) 2.3数控机床工作原理和结构简介 (9) 2.4 数控机床加工特点 (10) 2.5 数控机床的操作方法 (13) 2.6 数控车床是怎样操作的 (18) 三、数控机床产生几何误差的因素 (22) 3.1 普遍认为数控机床的几何误差由以下几方面原因引起 (22) 3.2几何误差补偿技术 (23) 四、计算机数控系统 (24) 五、数控机床的分类与发展 (26) 5.1数控机床分类 (26) 5.2数控机床发展 (27) 六、数控机床维修中应注意的事项 (28) 七、数控加工安全规则 (29) 结论 (30) 致谢 (31) 参考文献 (32)

总结报告-数据挖掘技术论文开题报告 精品

数据挖掘技术论文开题报告 毕业都是需要进行论文的写作,数据挖掘技术论文的开题报告怎么写?下面是数据挖 掘技术论文开题报告,欢迎阅读! 数据挖掘技术综述 数据挖掘(Data Mining)是一项较新的数据库技术,它基于由日常积累的大量数据所 构成的数据库,从中发现潜在的、有价值的信息——称为知识,用于支持决策。数据 挖掘是一项数据库应用技术,本文首先对数据挖掘进行概述,阐明什么是数据挖掘, 数据挖掘的技术是什么,然后介绍数据挖掘的常用技术,数据挖掘的主要过程, 如何 进行数据挖掘,主要应用领域以及国内外现状分析。 一. 研究背景及意义 近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息 技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政府办公、 科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长。这一趋势将 持续发展下去。大量信息在给人们带来方便的同时也带来了一大堆的问题:第一是信 息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信 息形式不一致,难以统一处理。面对这种状况,一个新的挑战被提出来:如何才能不 被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?这时出现 了新的技术——数据挖掘(Data Mining)技术便应用而生了。 面对海量的存储数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。数据挖掘就是为迎合这种要求而产生并迅速发展起来的。数据挖掘研究的目的主要是 发现知识、使数据可视化、纠正数据。 二. 概述 1,数据挖掘 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些 数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形, 图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可 以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行 数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领 域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人 工智能、数理统计、可视化、并行计算等技术。 2,数据挖掘技术

计算机网络安全管理本科毕业设计(论文)

佛山科学技术学院成人高等教育 毕业设计(论文)题目:计算机网络安全管理 摘要 计算机网络安全问题,直接关系到一个国家的政治、军事、经济等领域的安全和稳定。目前黑客猖獗,平均每18秒钟世界上就有一次黑客事件发生。因此,提高对网络安全重要性的认识,增强防范意识,强化防范措施,是保证信息产业持续稳定发展的重要保证和前提条件。 文中首先论述了信息网络安全内涵发生的根本变化,阐述了我国发展民族信息安全体系的重要性及建立有中国特色的网络安全体系的必要性,以及网络的安全管理。进一步阐述了

网络拓扑结构的安全设计,包括对网络拓扑结构的分析和对网络安全的浅析。然后具体讲述了网络防火墙安全技术的分类及其主要技术特征,防火墙部署原则,并从防火墙部署的位置详细阐述了防火墙的选择标准。同时就信息交换加密技术的分类及RSA算法作了简要的分析,论述了其安全体系的构成。最后分析网络安全技术的研究现状和动向。 关键词:网络安全;防火墙;安全技术 Computer Network Security MinJi-eng Abstract Abstract:The computer network security problem, directly relates to domain the and so on a national politics, military, economy security and the stability. At present the hacker is rampant, in the average every 18seconds worlds has a time of hacker attack to occur. Therefore, enhances to

数控专业毕业设计论文

数控专业毕业设计论文 Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】

四川托普信息技术职业学院铣床加工零件与编程 学生姓名曹骏 学生学号 专业方向数控技术 年级班级 10级数控1 班 指导教师向杰 指导单位四川托普学院 2012年 10月 31 日 摘要 数控技术和数控机床在当今机械制造业中的重要地位,显示了其在国家基础工业现代化中的战略性作用,并已成为传统机械制造工业提升改造和实现自动化、柔性化、集成化生产的重要手段和标志,数控加工技术的整个过程也是目前许多制造人员的要掌握较为重要的知识。数控技术是用数字信心对机械运动和工作过程控制的技术。数控技术的应用不但给传统制造业带来了革命性的变化,更使制造业成为工业化的象征。数控机床是集高、精、尖技术于一体,集机、电、光、液于一身的高技术产物。具有加工精度高、加工质量稳定可靠、生产效率高、适应性强、灵活性好等众多优点,在各个行业受到广泛欢迎,在使用方面,也是越来越受到重视。但由于它是集强、弱电于一体,数字技术控制机械制造的一体化设备,一旦系统的某些部分出现故障,就势必使机床停

机,影响生产,所以如何正确维护设备和出现故障时能及时抢修就是保障生产正常进行的关键。本论文通过数控工艺分析、数控手动编程基础介绍、CAD/CAM软件自动编程、软件后处理文件制作、数控软件仿真、数控机床加工等一般步骤与方法。运用机械制造的相关知识进行严格的工艺分析与加工方式的制定,经过成本核算,该方案具有可行性。有效的利用CAD/CAM软件通过最合适的造型方式设计出零件模型,根据我们之前的工艺分析使用软件做出最佳的加工方式,采用铣削手工编程基础于FANUD oim 数控系统进行了程序后处理文件的编写,并在数控仿真软件和数控机床上进行了具体验证,最终加工出符合图纸要求的零件实体。经具体检验符合图纸标准。 关键词:工艺分析、CAD/CAM编程、后处理文件、软件仿真、机床加工 Abstract Numerical control technology and CNC machine tool in the mechanical manufacturing industry in the important position, shows its in the national basic industry in the modern strategic role, and has become a traditional mechanical manufacturing industry promotion transformation and the realization of automation, flexibility, integration production of an important means and sign, nc machining technology of the whole process is at present a lot of manufacturing staff to grasp more important knowledge. At present, the advanced

数控机床毕业论文

数控机床毕业论文

数控车床应用与发展前景 摘要 随着计算机技术的高速发展,现代制造技术不断推陈出新。在现代制造系统中,数控技术集微电子、计算机、信息处理、自动检测、自动控制等高新技术于一体,具有高精度、高效率、柔性自动化等特点,对制造业实现自动化、集成化、智能化、起着举足轻重的作用。 数控加工作为一种高效率高精度的生产方式,尤其是形状复杂精度要求很高的模具制造行业,以及成批大量生产的零件。因此数控加工在航空业、电子行业还有其他各行业都广泛应用。然而在数控加工从零件图纸到做出合格的零件需要有一个比较严谨的工艺过程,必须合理安排加工工艺才能快速准确的加工出合格的零件来。

目录 摘要 前言 第一章数控车床的基本组成和工作原理1.1 任务准备 1.1.1 机床结构 1.2 工作原理 1.3 数控车床的分类 1.4 数控车床的性能指标 1.5 数控车床的特点 第二章数控车床编程与操作 2.1 数控车床概述 2.1.1数控车床的组成 2.1.2数控车床的机械构成 2.1.3数控系统 2.1.4数控车床的特点 2.1.5数控车床的分类 2.1.6数控车床(CJK6153)的主要技术 2.1.7数控车床(CJK6153)的润滑 2.2 数控车床的编程方法 2.2.1设定数控车床的机床坐标系

2.2.2设定数控车床的工件坐标系第三章数控车床加工工艺分析 3.1 零件图样分析 3.2 工艺分析 3.3 车孔的关键技术 3.4 解决排屑问题 3.5 加工方法 第四章当前数控机床技术发展趋势4.1 是精密加工技术有所突破 4.2 是技术集成和技术复合趋势明显结束语语 参考文献 致谢

数据挖掘相关论文

数据挖掘论文 题目:数据挖掘技术在电子商务中的应用系别:计算机学院 专业:11网络工程1班 学生姓名:黄坤 学号:1110322111 指导教师:江南 2014年11月06 日

数据挖掘技术在电子商务中的应用 一、研究原因 电子商务在现代商务活动中的正变得日趋重要,随着大数据时代的到来,商务信息显得尤为重要,在电子商务中谁掌握了有利的市场信息,谁就能在这个竞争激烈电商行业中占据绝对的优势。而数据挖掘技术是获取信息的最有效的技术工具。本文讨论了数据挖掘的主要方法,具体阐述了数据挖掘技术在电子商务中的作用及应用。 在信息经济时代,对企业来说,谁对市场变化反应速度快,谁将在激烈的市场竞争中占据有利的地位,竞争的结果最终将促使企业价值从市场竞争输家转移到赢家,这样就使企业面临一个问题:如何才能把大量的数据资源,转化成自身价值呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。 二、2.1国内研究现状 KDD(从数据库中发现知识)一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD已经召开了7次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从2X1到6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了KDD专题或专刊。IEEE的Knowledge and Data Engineering 会刊领先在1993年出版了KDD技术专刊,所发表的5篇论文代表了当时KDD研究的最新成果和动态,较全面地论述了KDD 系统方法论、发现结果的评价、KDD系统设计的逻辑方法,集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题,KDD系统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系和区别,以及相应的基本对策。6篇论文摘要展示了KDD在从建

计算机网络技术毕业论文63033751

计算机网络技术毕业论文63033751 天津电子信息职业技术学院(软件学院) 毕业论文 题目湖南曙光电子信息学院局域网的组建 姓名郭奕杰 专业班级网络S09-4班 指导教师许晓华 完成时间 2012年6月 天津电子信息职业技术学院(软件学院)制 2012.6 摘要: 随着网络建设的逐步普及,大学高校局域网络的建设是高校向高水平、研究性大学跨进的必然选择,高校校园网网络系统是一个非常庞大而复杂的系统,它不仅为高校的发展、综合信息管理和办公自动化等一系列应用提供基本操作平台,而且,能够使教育、教学、科研三位一体,提高教育教学质量。而校园网网络建设中主要应用了网络技术中的重要分支局域网技术来建设与管理的,因此本毕业设计课题将主要以校园局域网络建设过程可能用到的各种技术及实施方案为设计方向,为校园网的建设提供理论依据和实践指导。高校校园网的网络建设与网络技术发展几乎是同步进行的。高校不仅承担着教书育人的工作,更承担着部分国家级的科研任务,同时考虑未来几年网络平台的发展趋势, 为了充分满足高校骨干网对高速,智能,安全,认证计费等的需求,可以利用万兆以太网的校园网组网技术。构建校园网骨干网,实现各个分校区和本部之间的连接,以及实现端到端的以太网访问,提高了传输的效率,有效地保证了远程多媒体教学、数字图书馆等业务的开展。

关键词: 校园网;网络设备;服务器;网络管理;网络安全 目录 一、引 言 ..................................................................... .. (1) (一) 背景及意 义 ..................................................................... ........ 1 (二) 目前校园网络现 状 (2) (三) 校园网建设的原 则 (2) 二、校园网需求分 析 ..................................................................... . (3) (一) 学校建筑现状分 析 (3) (二) 学校子网需求划 分 (4) (三) 学校VLAN需求划 分 ............................................................ 5 三、校园网络设备配 置 ..................................................................... (8)

(完整版)数控技术毕业设计论文

欧亚技工学校毕业论文 毕业设计 题目汽车塑料内饰件的模具设计与NC加工 姓名徐海翔 专业数控技术 班级 12高级数控 2014年6月9日 毕业设计任务书

2012 — 2015学年 数控专业 学生:徐海翔系主任:曾雄 1.设计题目:汽车塑料内饰件的模具设计与NC加工 2.原始资料:零件图 毕业设计说明书 论文题目:汽车塑料内饰件的模具设计与NC加工 学生姓名:徐海翔 系专业:数控专业 指导教师:曾雄 2014 年 6 月 9 号

摘要 关键词:汽车,数控机床,模具设计,NC加工,精密数控技术及数控机床在当今机械制造业中的重要地位和巨大效益,显示了其在国家基础工业现代化中的战略性作用,并已成为传统机械制造工业提升改造和实现自动化、柔性化、集成化生产的重要手段和标志。数控技术及数控机床的广泛应用,给机械制造业的产业结构、产品种类和档次以及生产方式带来了革命性的变化。数控机床是现代加工车间最重要的装备。它的发展是信息技术(1T)与制造技术(MT)结合发展的结果。现代的CADCAM、FMS、CIMS、敏捷制造和智能制造技术,都是建立在数控技术之上的。掌握现代数控技术知识是现代机电类专业学生必不可少的。 因此我们要掌握好数控加工工艺与设计。数控加工工艺与设计的内容包括选择适合的机床、刀具、夹具、走刀路线及切削用量等,还要有合理的加工方法、工艺参数等。 随着时代的发展、社会需要和科学技术的发展,产品的竞争愈来愈激烈,更新的周期越来越短,因而要求设计者不但能根据市场的要求很快的设计出新产品,而且能在尽可能短的时间内制作出产品的样品。产品的材料也是很重要的部分;随着现代科技的进步和生产的快速发展,机械工业对材料性能的要求越来越高,单一的金属材料已不能满足生产发展的需要,因而各种非金属材料应运而生,特别是工程塑料,其发展特别迅猛。 对此我设计了汽车塑料内饰件的模具设计与NC加工。介绍了数控加工工艺和数控加工的特点,加工工艺过程的概念,数控加工工艺和数控加工工艺过程的主要内容,数控加工工艺与数控编程的关系,设计方法,对此零件如何工艺分析,程序如何编辑等。利用CADCAM软件及G代码指令进行自动编程。 目录 第一章绪论 1.1 数控加工的特点 1.2 数控加工工艺的概念

数控技术毕业论文

数控技术毕业论文 Last revised by LE LE in 2021

数控机床加工与操作方法学生姓名:侯江 学号: 0650116 专业班级: 062709 指导教师:高小鹏 2011年04月09日

摘要 数控技术是现代制造业实现自动化、柔性化、集成化生产的基础,离开了数控技术,先进制造技术就成了无本之木。数控技术的广泛使用给机械制造业生产方式、生产结构、管理方式带来深刻的变化,它的关联效益和辐射能力更是难以估计。数控技术及数控装备已成为关系国家战略和体现国家综合国力水平的重要基础性产业,其水平高低是衡量一个国家制造业现代化程度的核心标志,实现加工机床及生产过程数控化,已经成为当今制造业的发展方向。 本论文主要介绍数控机床的定义,数控机床初学者的要求,机床加工前的准备工作, 数控机床的程序指令,数控机床对刀操作方法,数控机床的工作原理和结构,加工特点,机床加工几何精度要求, 数控机床的优点和缺点,数控机床与计算机实现自动技术,机床维修和生产安全要求。 关键词:数控技术概念;加工方法;分类;刀具补偿;

目录 摘要.................................................................. I 目录................................................................. II 一、数控技术的概念与特点 (1) 二、数控机床加工前的准备要求 (3) 2.1数控机床的初学者要求 (5) 2.2数控技术常用术语大全 (6) 2.3数控机床工作原理和结构简介 (9) 2.4 数控机床加工特点 (10) 2.5 数控机床的操作方法 (13) 2.6 数控车床是怎样操作的 (18) 三、数控机床产生几何误差的因素 (22) 3.1 普遍认为数控机床的几何误差由以下几方面原因引起 (22) 3.2几何误差补偿技术 (23) 四、计算机数控系统 (24) 五、数控机床的分类与发展 (26) 5.1数控机床分类 (26) 5.2数控机床发展 (27) 六、数控机床维修中应注意的事项 (28) 七、数控加工安全规则 (29) 结论 (30) 致谢 (31) 参考文献 (32)

数据挖掘论文

数据挖掘的实现过程 摘要 关键词:数据挖掘挖掘过程数据模型应用领域 目录 一.数据挖掘的定义及发展 1.数据挖掘的定义 所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。 2.数据挖掘的发展 需要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。数据挖掘的发展主要包括以下四个阶段: 第一阶段:电子邮件阶段 这个阶段可以认为是从70年代开始,平均的通讯量以每年几倍的速度增长。 第二阶段:信息发布阶段 从1995年起,以Web技术为代表的信息发布系统,爆炸式地成长起来,成为目前Internet的主要应用。中小企业如何把握好从“粗放型”到“精准型”营销时代的电子商务。 第三阶段: EC(Electronic Commerce),即电子商务阶段 EC在美国也才刚刚开始,之所以把EC列为一个划时代的东西,是因为Internet的最终主要商业用途,就是电子商务。同时反过来也可以说,若干年后的商业信息,主要是通过Internet传递。Internet即将成为我们这个商业信息社会的神经系统。1997年底在加拿大温哥华举行的第五次亚太经合组织非正式首脑会议(APEC)上美国总统克林顿提出敦促各国共同促 进电子商务发展的议案,其引起了全球首脑的关注,IBM、HP和Sun等国际著名的信息技术厂商已经宣布1998年为电子商务年。 第四阶段:全程电子商务阶段 随着SaaS(Software as a service)软件服务模式的出现,软件纷纷登陆互联网[5],延长了电子商务链条,形成了当下最新的“全程电子商务” 概念模式。 二.数据挖掘的实现过程

毕业论文的设计计算机科学与技术

计算机科学与技术 毕业论文的设计 课题名称:学生宿舍局域网建设 专业: 班级: 姓名: 学号: 起迄日期: 指导教师:

学生宿舍局域网建设 摘要: 当今时代是一个以信息技术(Information Technology, 简称IT )为代表的知识经济时代,各种先进的科学技术迅猛发展,给人们的生活带来了深远的影响,它极大的改善我们的生活方式。以计算机技术和网络通信技术为代表的信息科技 改变着我们的生活,从手机通信到3G技术,从互联网普及到电子商务的广泛应用,而其中的计算机网络技术的发展更为迅速,从有线网络普及入户,到无线网络遍及生活中的各种场所,人们的生活已经离不开计算机网络,并且随着因特网的普及与发展,给我们的学习与生活带来极大的方便。 随着人们对于信息资源共享以及信息交流的迫切需求,促使网络技术快速发展。在人类信息文明的发展过程中,计算机网络的作用越来越明显。随着计算机网络管理功能的强化,计算机硬件技术和软件技术都与网络技术融合到一起。人们越来越意识到网络的重要性,通过网络,人们拉近了彼此之间的距离。本来分散在各处的计算机被网络紧紧的联系在了一起。计算机局域网作为网络的一个常见类型,发挥了不可忽视的作用。在这个局域网中,我们可以在它们之间共享程序、文档等各种资源。随着网络应用的发展计算机病毒形式及传播途径日趋多样化,安全问题日益复杂化,网络安全建设已不再像单台计算安全防护那样简单。计算机网络安全需要建立多层次的、立体的防护体系,要具备完善的管理系统来设置和维护对安全的防护策略。学生宿舍局域网作为学校中最小的网络个体, 文章将从网络组建、网络设置及网络安全等方面进行分析。 关键词:局域网、Internet 、计算机网络、网络安全

计算机网络技术专业毕业设计(论文)

广播电视大学 计算机网络技术专业毕业设计(论文) 《中小企业办公无线网络设计与实现》 专业:计算机网络技术 年级: 姓名: 学号: 指导老师: 二○一○年十月

摘要 无线局域网(WLAN)产业是当前整个数据通信领域发展最快的产业之一。因其具有灵活性、可移动性及较低的投资成本等优势,无线局域网解决方案作为传统有线局域网络的补充和扩展,获得了家庭网络用户、中小型办公室用户、广大企业用户及电信运营商的青睐,得到了快速的应用,也正是凭借可移动性强的特点,使许多人更加依赖无线上网,使用无线网络也正在成为一些中、小型企业办公使用的一种信息交流方式之一,架设一套办公室无线设备并不是像我们想象中那样,还要考虑到很多因素,其中主要有:办公室无线信号的覆盖范围、组建无线网络的安全性、无线设备的兼容性等等问题。本文所要介绍的就是如何采用无线局域网技术来组建企业办公无线局域网,就组建一个中小型无线局域网的过程进行详细的解析,并对如何合理配置路由器以提高小型无线局域网的安全性进行阐述。 关键词:无线局域网、可移动性强、组建、配置、安全

中小企业办公无线网络设计与实现 对于很多中小企业的各种办公室来说,如何快速安全的组建网络,接入Internet,跨入信息化之门,是其迫切需要解决的问题。尽管现在很多企业都选择了有线的方式来组建局域网,但同时也会受到种种限制,例如,布线会影响办公场所的整体设计,而且也不雅观等。通过无线局域网不仅可以解决线路布局,在实现有线网络所有功能的同时,还可以实现无线共享上网,凭借着种种优点和优势,越来越多的中小企业开始把注意力转移到了无线局域网上,而究竟该怎么样来架设这种中小企业办公网络呢?下面就来。如何采用无线局域网技术来组建企业办公无线局域网详细的解析。 一、需求分析 中小企业是各种类型企业中的主力军,而如何实现办公自动化和信息化已成为近几年来中小企业成长的关键因素。多数中小企业的办公室电脑数量在数台或数十台左右,该如何将它们接入网络呢? 下面就以30人左右的中小型公司为例,讲解中小企业对无线办公的应用需求、设备采购及无线办公组网方案。 如果采用传统的交换机或集线器组成的星型有线网络,虽然硬件成本较低,但布设难度较大。要实现网络到桌面,烦杂的网络布线和工位布局让人头痛。而如果能采用新兴的无线组网技术,则只需采用少量的布线,在根据每个办公室的建筑的结构或电脑的位置,布置单个或数个无线路由器或AP,就能实现桌面PC及移动用户的以太网服务,就可保证厂区内、办公楼内或单个办公室内所有用户都能够便捷的使用无线+有线的方式上网冲浪。不仅能够在布设时更自由调整网络结构和随意增加减少工位,还能在一定程度上满足部分中小型企业用户的移动网络办公需求,提高办公的效率。并且,随着无线路由器这类设备的出现,不仅为家庭无线上网打开了方便之门,也同样为中小企业办公无线网络提供了解决之道。通过无线路由器的使用,可兼顾传统的有线星型网与无线网络的优点,其较低的布线费用、较低的网络维护费用是有线网络所不能比拟的,对财力有限和没有很专业的网络维护技术人员的中小型企业都很适合,并且,通过无线路由器的使用,它不仅可让企业、办公室中多台电脑共享上网,提供1个10/100M自适应以太网(WAN)接口,可接ADSL/CableMODEM或以太网交换机/路由器等多种宽带或网络接入方式。内置的4个交换机端口方便您在无线之外,用有线方式直接连接4台或更多的计算机。不需要大规模改造,在原有的有线局域网基础上添

数控加工工艺毕业设计论文

日照职业技术学院毕业设计(论文) 数控加工工艺 姓名 : 付卫超 院部:机电工程学院 专业:数控设备应用与维护 指导教师:张华忠 班级: 11级数控设备应用与维护二班 2014年05月

随着数控技术的不断发展和应用领域的扩大,数控加工技术对国计民生的一些重要行业(IT、汽车、轻工、医疗等)的发展起着越来越重要的作用,因为效率和质量是先进制造技术的主体。高速、高精加工技术可极大提高效率,提高产品的质量和档次,缩短生产周期和提高市场竞争能力。而对于数控加工,无论是手工编程还是自动编程,在编程前都要对所加工的零件进行工艺分析,拟定加工方案,选择合适的刀具,确定切屑用量,对一些工艺问题(如对刀点、加工路线等)也需要做一些处理,并在加工过程掌握控制精度的方法,才能加工出合格的产品。 本文根据数控机床的特点。针对具体的零件,进行了工艺方案的分析,工装方案的确定,刀具和切屑用量的选择,确定加工顺序和加工路线,数控加工程序编制。通过整个工艺的过程的制定,充分体现了数控设备在保证加工精度、加工效率、简化工序等方面的优势。 关键词工艺分析加工方案进给路线控制尺寸

第1章前言-----------------------------------第2页第2章工艺方案的分析-------------------------第3页 2.1 零件图-------------------------------第3页 2.2 零件图分析---------------------------第3页 2.3 零件技术要求分析---------------------第3页 2.4 确定加工方法-------------------------第3页 2.5 确定加工方案-------------------------第4页第3章工件的装夹-----------------------------第5页 3.1 定位基准的选择-----------------------第5页 3.2 定位基准选择的原则-------------------第5页 3.3 确定零件的定位基准-------------------第5页 3.4 装夹方式的选择-----------------------第5页 3.5 数控车床常用的装夹方式---------------第5页 3.6 确定合理装夹方式---------------------第5页第4章刀具及切削用量-------------------------第6页 4.1 选择数控刀具的原则-------------------第6页 4.2 选择数控车削刀具---------------------第6页 4.3 设置刀点和换刀点---------------------第6页 4.4 确定切削用量-------------------------第7页第5章轴类零件的加工-------------------------第8页 5.1 轴类零件加工工艺分析-----------------第8页 5.2 轴类零件加工工艺---------------------第11页 5.3 加工坐标系设置-----------------------第13页 5.4 保证加工精度方法---------------------第14页 参考文献 ---------------------------------第15页

数据挖掘小论文

先机证券 一、证券行业是数据挖掘技术应用的一个重要领域 数据挖掘是从数据中发现知识,数据密集型行业如证券、银行、电信等经过多年运营沉淀了大量的数据,挖掘、开发和利用这些数据可以使企业进行最适合的定位,将使企业长期的积累得以充分发挥,从而树立竞争优势。 证券市场是国家经济的情雨表,受多方面因素影响,券商的经营对数据正确、实时、安全性要求极高。长期以来各券商的交易系统一直走在IT技术应用革新的前列,同时也积累了丰富的数据。整个运营系统产生的数据主要分为两大类:股票行情数据与客户交易数据。股票行情数据由交易所产生,广泛分布,是实时共享信息。一些现有的实时行情接收分析系统例如(钱龙、胜龙、金融家、指南针等等)都能够对其进行从简单到复杂的分析;客户交易数据在各个证券公司的营业部产生,分布于证券公司的营业部及证券交易所,属于相对私有数据。这些数据反映了客户的资金状况,交易状况,持仓状况等,对证券公司和交易所而言具有极高的分析价值。数据挖掘技术已有了应用的空间。 随着国内证券行业政策的逐步开放,证券行业的竞争越来越激烈,券商分析决策时对数据的依赖性和敏感度也越来越高。数据挖掘技术作为分析与辅助决策工具已经越来越得到国内券商的重视。即该应用空间亦急需数据挖掘技术。 二、数据挖掘技术可以为证券行业解决哪些问题 目前,国内证券行业的外部经营环境发生了较大变化,证券市场由卖方市场变为买方市场,市场开始细分,券商对其传统的业务如经纪业务、投行业务和自营业务都在进行不同程度的调整,以期建立自己的核心竞争力,树立竞争优势。如何形成差别化优势是各券商应考虑的重点,形成差别化优势的主要依赖于券商提供的咨询服务与附加服务。数据挖掘在此过程中将发挥重要作用,其技术应用的方向主要有:客户分析、客户管理、财务指标分析、交易数据分析、风险分析、投资组合分析等。 从业务角度看,经纪业务是目前国内券商竞争的焦点,它仍是券商利润的主要来源,据统计从事经纪业务获得的收入占各主要券商利润来源的80%以上,而中小证券公司90%的利润主

数控技术毕业论文

毕业论文 论文题目:数控车床学生学号:03 学生: 专业班级:0706班指导老师:董燕 二〇一一年六月

摘要 数控机床是综合应用计算机、自动控制、自动检测及精密机械等高新技术的产物。它的出现以及所带来的巨大效益,引起出界各国科技界和工业界的普遍重视。随着科学技术的迅猛发展,数控机床已是衡量一个国家机械制造工业水平的重要标志。发展数控机床是当前我国机械制造业技术改造的必由之路,是未来工厂自动化的基础。 本文主要介绍了数控机床的出现和发展,数控铣床的主体设计及应用说明。数控编程中代码的应用,及相应代码的格式,数控程序的编制、程序的格式。 对一个零件的数控编程加工,主要包括: 1 绘制零件图; 2 利用数控软件对零件进行实体造型; 3 对零件造型进行分析; 4 编制数控程序; 5 进行数控加工。 通过对课题任务的分析,先用Aotu CAD把零件图画出来,对零件图进行分析,确定零件的加工工艺。根据画出的零件图编写程序,对程序进行检验校核,对确定准确后的程序进行试切和零件加工。 关键词: Aotu CAD 实体造型数控加工

Abstract CNC machine tool is a comprehensive application of computer,automatic control, automatic detection and precision machinery and other high-tech product. Its appearance, as well as the enormous benefits, arising out of countries in scientific and technological community and industry in general importance. With the rapid development of science and technology, numerical control machine tool is a mechanical measure of a country's manufacturing industry an important indicator of the level. The development of CNC machine tools is the technological transformation of China's machinery manufacturing industry the only way is the basis for the future of factory automation. This paper introduces the emergence of CNC machine tools and the development of the main body of CNC milling machine design and application notes. NC code programming applications, and the corresponding code format, the preparation of NC program, the program format. Parts of a process of NC programming, including: 1 Drawing Parts; 2 The use of CNC parts modeling software; 3 Modeling analysis of the parts; 4 The preparation of numerical control procedures; 5 CNC Machining . The task of subject analysis, the first AutoCAD drawing out parts of the parts diagram analysis to determine the machining process. Draw the parts in accordance with plans prepared by the procedure of verification test procedures, to determine the exact test procedure after the cutting and processing parts Key words :

数据挖掘技术应用论文

浅析数据挖掘技术的应用 摘要:作为数据库研究、开发和应用最活跃的一个分支,数据挖掘技术的研究日益蓬勃的发展。从信息处理的角度来看,数据挖掘技术在帮助人们分析数据和理解数据,并帮助人们基于丰富的数据作出决策上起到了非常重要的角色。从大量数据中以平凡的方法发现有用的知识是数据挖掘技术的核心,也是今后在各个领域中发展的核心技术。 关键词:数据挖掘;功能;应用 中图分类号:tp311.13 文献标识码:a文章编号: 1007-9599(2011)24-0000-01 analysis of data mining technology application zhang pengyu,duan shiliu (henan polytechnic,zhengzhou450000,china) abstract:as the database research,development and application of the most active branch of data mining technology research booming development. from the perspective of information processing,data mining technology to help people analyze data and understand the data,and help people make decisions based on the wealth of data has played a very important role. from large amounts of data in an extraordinary way to discover useful knowledge is the core of data mining technology,but also the future development in

相关主题
文本预览
相关文档 最新文档