当前位置：文档之家› 数据挖掘期末大作业任务

数据挖掘期末大作业任务

数据挖掘期末大作业

1.数据挖掘的发展趋势是什么？大数据环境下如何进行数据挖掘。

对于数据挖掘的发展趋势，可以从以下几个方面进行阐述：

(1)数据挖掘语言的标准化描述:标准的数据

挖掘语言将有助于数据挖掘的系统化开发。改进多个数据挖掘系统和功能间的互操作,促进其在企业和社会中的使用。

(2)寻求数据挖掘过程中的可视化方法:可视

化要求已经成为数据挖掘系统中必不可少的技术。可以在发现知识的过程中进行很好的人机交互。数据的可视化起到了推动人们主动进行知识发现的作用。

(3)与特定数据存储类型的适应问题:根据不

同的数据存储类型的特点,进行针对性的研究是目前流行以及将来一段时间必须面对的问题。 (4)网络与分布式环境下的KDD问题:随着

Internet的不断发展,网络资源日渐丰富,这就需要分散的技术人员各自独立地处理分离数据库的工作方式应是可协作的。因此,考虑适应分布式与网络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。

(5)应用的探索:随着数据挖掘的日益普遍,其应用范围也日益扩大,如生物医学、电信业、零售业等

领域。由于数据挖掘在处理特定应用问题时存在局限性,因此,目前的研究趋势是开发针对于特定应用的数据挖掘系统。

(6)数据挖掘与数据库系统和Web数据库系统的集成:数据库系统和Web数据库已经成为信息处

理系统的主流。

2. 从一个3输入、2输出的系统中获取了10条历史数据，另外，最后条数据是系统的输

入，不知道其对应的输出。请使用SQL SERVER 2005的神经网络功能预测最后两条数据的输出。

首先，打开SQL SERVER 2005数据库软件，然后在界面上右键单击树形图中的“数据库”标签，在弹出的快捷菜单中选择“新建数据库”命令，并命名数据库的名称为YxqDatabase，单击确定，如下图所示。

然后，在新建的数据库YxqDatabas中，根据题目要求新建表，相应的表属性见下图所示。

在新建的表完成之后，默认的数据表名称为T able_1,并打开表，根据题目提供的数据在表中输入相应的数据如下图所示。

在测试数据被输入到数据库中之后，打开SQL Server Business Intelligence Development Studio 命令，并在文件中新建项目，项目名称命名为MyData,并单击确定，进入下一步，如下图所示。

在进入的新页面上，新建一个数据源，并在出现的新窗口中单击下一步，并选择新建按钮，就会出

现连接管理器窗口，如右图所示。在打开的

界面中，在“提供程序”下拉列表框中选择Microsoft OLE DB Provider for SQL Server选项，选择完成后，单击确定，进入下一界面，至此，完成了数据连接的工作。在建立完数据连接之后，需要建立数据源视图，右键单击数据源视图，并选中“新建数据源视图”命令，在数据库YxqDatabase下的数据表Table_1中，选中这个数据表，然后单击下一步，并更改数据源视图的名称为YxqView,单击完成，这样就建好了数据源视图。如下图所示。

在上面的工作完成之后，我们在界面中单击“挖掘结构”，并新建一个挖掘结构然后点击下一步，在弹出的新窗口“选择挖掘技术”中，我们选择“Microsoft神经网络”选项，并单击下一步，如下图所示。

弹出的新窗口要求对T able_1中的各个列指定类型：键类型、输入类型、可预测类型。把数据表T able_1中的data列定为键类型，x1,x2,x3规定为输入类型，y1,y2规定为可预测类型，选择之后情形如下图所示。

在上图中，单击下一步，再选择默认值，并单击下一步，就完成了挖掘模型的创建。挖掘模型创建完成之后会出现下图所示的窗口。

在此界面中，我们选择“挖掘模型查看器”选项卡，会弹出一个小窗口，提问“服务器内容似乎已过时。是否先生成和部署项目？”单击是按钮，系统将花费一点时间进行部署和生成，见下图所示

。

部署成功后，就会弹出另外一个小窗口，提问“必须先处理T able_1挖掘模型才能浏览其内容。处理模型可能要花费一些时间，具体将取决于数据量。是否继续？”单击“是”按钮，并在新弹出的窗口中单击“运行”按钮”处理成功之后在两个窗口分别单击“关闭”按钮，就会得到下图所示的数据分析图表。

最后，选择“挖掘模型预测”选项卡，进行数据预测，出现的界面如下图所示。

在所示的界面中，我们单击“选项事例表”按钮，在选择导航中，选择事例表为T able_1，将出现下图所示的界面。

在上图所示的结构中，单击工具栏上的“单独查询”按钮，即产生下图所示的界面。

在上图所示的界面中，把表中数据的最后一行分别输入到变量x1,x2,x3后面的空白中，然后把挖掘模型下的Y1,Y2项拖动至最下面一行的最左边位置。然后单击工具栏上的“切换到查询结果”按钮，会出现下图所示的界面。

至此，我们通过神经网络功能预测出了最后两条数据的输出。

3.用ID3算法生成分类决策树

在之前创建好的数据源与数据源视图的前提下，我们开始创建决策树的挖掘结构，单击“挖掘结构”，并从中选择“新建挖掘结构”命令，系统将打开数据挖掘导向。在“欢迎使用数据挖掘向导”页上，单击下一步按钮，在“选择定义方法”页上，确认已选中“你要使用何种数据挖技术？”下拉列表中选择“Microsoft决策树”选项，如下图所示。

然后单击下一步，出现“指定定型数据”页，如下图所示。在界面中，确保选中RID列右边“键”列中的复选框，这即是决策树分析中所用的属性。

在上图中，单击下一步，在随后“指定列的内容和数据类型”页上，单击下一步按钮，出现“完成向导”页。接下来，我们开始设置决策树挖掘结构的相关参数，在“挖掘模型”选项卡上单击鼠标右键，从弹出的快捷菜单中选择“设置算法参数”命令，系统将打开“算法参数”对话框，如下图所示。

在设置好决策树挖掘结构的相关参数之后，接下来，开始建立决策树挖掘模型，选择“挖掘模型查看器”选项卡，程序是否建立部署项目，选择“是”，单击运行按钮，出现“处理进度”窗口，我们再次选择“挖掘模型查看器”选项卡，生成的决策树如下图所示。

4.数据挖掘与数据仓库的关系是什么？谈谈对数据挖掘的理解。

首先，数据挖掘是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。简单的说，数据挖掘就是从大量的数据中提取或“挖掘”知识。然而，数据仓库通常是指一个数据库环境，而不是指一件产品，它提供用户用于决策支持的当前和历史数据，这些数据在传统的数据库中通常不方便得到。简单来说，数据仓库就是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合，通常用于辅助决策支持。其实，可以用这样一个简单例子形象化两者的关系，如果将数据仓库比作矿井，那么数据挖掘就是深入矿井采矿的工作。

决策者利用数据作决策，即从数据仓库中挖掘出对决策有用的信息与知识，是建立数据仓库与进行数据挖掘的最大目的。只有数据仓库先建行立完成，且数据仓库所含数据时干净、完备和经过整合的，数据挖掘才能有效地进行，因此从一定意义上可将两者的关系解读为数据挖掘时从数据仓库中找出有用信息的一种过程与技术。

5.通过我班同学的身体特征，进行数据的分析，各特征有序号、身高（cm）、体重(kg)、

胸围(cm)、腰围(cm)、臀围(cm)，总共有50个学生的资料。

首先，通过之前所创建的数据源、数据源视图，在接下来我们开始创建k-means挖掘结构，在此，我们新建挖掘结构，如下图所示。

然后单击下一步，接下来出现的“指定定型数据”页，也即是指定聚类分析中所用的属性，如下图所示。

至此，k-means挖掘结构创建完成，接下来我们开始设置k-means挖掘结构的相关参数，在“挖掘模型”选项卡上单击鼠标右键，从弹出的快捷菜单中选择“设置算法参数”命令，系统将打开“算法参数”对话框，如下图所示。

接着，我们开始建立k-means挖掘模型，然后选择“挖掘模型查看器”，程序问是否建立部署项目，选择“是”。在接下来的“处理挖掘模型”页上，单击运行按钮，出现“处理速度”页，如下图所

示。

在上图中，处理进度完成之后，单击关闭按钮，建模完成。

然后再次选择“挖掘模型查看器”选项卡，由此得到的k-means聚类结果如下图所示。

在上图所示的界面中，我们再次单击“分类对比”按钮，得到下图所示，至此通过图示所示，我们可以分析出班上50位同学的各种身体特征指标。