大学英语学习数据挖掘模型与构建方法
- 格式:pdf
- 大小:100.65 KB
- 文档页数:3
数据挖掘的主要任务与步骤
数据挖掘是一种从大量数据中自动发现模式、规律和知识的过程。
其主要任务是通过数据预处理、特征选择、模型选择、模型构建和模型评估等步骤,实现对数据的挖掘和分析。
以下是具体的步骤:
1. 数据预处理:清洗数据,去除异常值、缺失值等,使数据集
更适合挖掘分析。
2. 特征选择:根据数据特征的重要性和相关程度,选择最具代
表性的特征,降低数据维度。
3. 模型选择:根据任务的不同,选择合适的数据挖掘模型,如
分类、聚类、关联分析等。
4. 模型构建:通过数据分析和建模,构建适合任务的数据挖掘
模型。
5. 模型评估:评估模型的准确性、稳定性和可靠性等指标,调
整模型参数,提高模型预测性能。
综上所述,数据挖掘的主要任务是从数据中挖掘出有用的信息和知识,为决策提供支持。
在数据挖掘过程中,需要进行多个步骤的处理和分析,才能得到准确、可靠的结果。
- 1 -。
数据挖掘模型框架数据挖掘是一种从海量数据中挖掘出有用信息的技术,它在商业、医疗、教育等领域都有广泛的应用。
数据挖掘模型是数据挖掘的核心,它是一种描述数据挖掘过程的抽象模型,包括数据预处理、特征选择、模型构建、模型评估等步骤。
本文将介绍数据挖掘模型框架的基本概念和应用。
一、数据挖掘模型框架的基本概念数据挖掘模型框架是指数据挖掘过程中所使用的一种抽象模型,它可以描述数据挖掘的各个步骤,包括数据预处理、特征选择、模型构建、模型评估等。
数据挖掘模型框架通常是由多个模块组成,每个模块都有自己的功能和特点,它们通过数据流的方式进行连接,最终形成完整的数据挖掘模型。
1. 数据预处理模块数据预处理模块是数据挖掘模型框架中的第一步,它的主要任务是对原始数据进行清洗、去重、缺失值处理等操作,以便后续的数据挖掘工作能够得到更准确、更有用的结果。
数据预处理模块通常包括以下几个步骤:(1)数据清洗:对原始数据进行去噪、去重、去异常值等操作,以便后续的数据挖掘工作能够得到更准确、更有用的结果。
(2)数据集成:将不同来源、不同格式的数据集成到一个统一的数据集中,以便后续的数据挖掘工作能够更加方便、高效。
(3)数据转换:将原始数据转化为适合数据挖掘的形式,例如将文本数据转化为数值型数据、将时间序列数据转化为空间序列数据等。
(4)数据归一化:将数据按照一定的规则进行归一化处理,以便后续的数据挖掘工作能够更加准确、可靠。
2. 特征选择模块特征选择模块是数据挖掘模型框架中的第二步,它的主要任务是从原始数据中选择出最具有代表性、最有用的特征,以便后续的数据挖掘工作能够得到更准确、更有用的结果。
特征选择模块通常包括以下几个步骤:(1)特征评估:对原始数据中的每一个特征进行评估,以确定它的重要性、相关性、可用性等指标。
(2)特征选择:根据特征评估的结果,选择出最具有代表性、最有用的特征,以便后续的数据挖掘工作能够得到更准确、更有用的结果。
数据挖掘的基本步骤数据挖掘是一种通过分析大量数据来发现隐藏在其中模式和关联的过程。
它可以帮助企业和组织从海量数据中获取有价值的信息,用于业务决策和预测。
数据挖掘的基本步骤包括问题定义、数据收集、数据预处理、特征选择、模型建立和模型评估。
1. 问题定义在进行数据挖掘之前,首先需要明确问题的定义和目标。
例如,我们想要预测某个产品的销售量,那么问题的定义就是如何根据历史销售数据和其他相关因素来预测未来的销售量。
2. 数据收集数据收集是数据挖掘的基础,需要收集与问题相关的数据。
数据可以来自多个渠道,包括数据库、数据仓库、日志文件、传感器等。
在收集数据时,需要注意数据的完整性和准确性。
3. 数据预处理数据预处理是清洗和转换数据的过程。
首先,需要对数据进行清洗,去除重复值、缺失值和异常值。
然后,对数据进行转换,如将文本数据转换为数值型数据。
此外,还可以进行数据归一化、数据平滑和数据集成等操作。
4. 特征选择特征选择是挑选与问题相关的特征变量的过程。
通过特征选择,可以减少数据维度,提高模型的效果和计算效率。
常用的特征选择方法包括过滤法、包裹法和嵌入法。
5. 模型建立模型建立是根据问题的定义和目标选择适合的数据挖掘算法,并利用已处理的数据训练模型。
常用的数据挖掘算法包括决策树、神经网络、支持向量机和聚类分析等。
在模型建立过程中,需要进行模型参数的调优和模型的验证。
6. 模型评估模型评估是对建立的模型进行性能评估的过程。
通过评估模型的准确性、精确度、召回率等指标,可以判断模型的好坏,并对模型进行改进和优化。
常用的模型评估方法包括交叉验证、混淆矩阵和ROC曲线等。
综上所述,数据挖掘的基本步骤包括问题定义、数据收集、数据预处理、特征选择、模型建立和模型评估。
这些步骤相互关联,每一步都至关重要。
通过合理的数据挖掘步骤,可以从海量数据中挖掘出有价值的信息,为业务决策提供支持。
数据挖掘的基本步骤数据挖掘是一种从大规模数据集中提取出有价值信息的过程。
它涉及到多个步骤,包括问题定义、数据收集、数据预处理、特征选择、模型构建、模型评估和模型部署。
下面将详细介绍每个步骤的内容。
1. 问题定义在进行数据挖掘之前,首先需要明确问题的定义。
这包括确定要解决的具体问题、目标和期望的结果。
例如,可以是预测销售额、分类客户群体或发现异常模式等。
2. 数据收集数据收集是指从不同的数据源获取数据。
这些数据源可以是数据库、日志文件、传感器数据或者是互联网上的公共数据集等。
在收集数据时,需要确保数据的完整性和准确性。
3. 数据预处理数据预处理是数据挖掘中非常重要的一步。
它包括数据清洗、数据集成、数据转换和数据规约等过程。
数据清洗是指处理缺失值、异常值和重复值等问题。
数据集成是将来自不同数据源的数据合并在一起。
数据转换是将数据转换为适合挖掘的形式,例如将文本数据转换为数值型数据。
数据规约是减少数据集的大小,以提高挖掘效率。
4. 特征选择特征选择是从大量的特征中选择出最相关和有用的特征。
这可以帮助减少数据维度,并提高模型的准确性和解释性。
特征选择方法包括过滤式方法、包裹式方法和嵌入式方法等。
5. 模型构建模型构建是建立数据挖掘模型的过程。
这包括选择合适的算法和模型,并使用训练数据对其进行训练。
常用的数据挖掘算法包括决策树、支持向量机、神经网络和聚类算法等。
选择适当的算法和模型取决于问题的性质和数据的特征。
6. 模型评估模型评估是对构建的模型进行性能评估的过程。
这可以通过使用测试数据集来评估模型的准确性、精确度、召回率和F1值等指标。
常用的评估方法包括交叉验证和混淆矩阵分析等。
7. 模型部署模型部署是将构建好的模型应用于实际问题的过程。
这可以是将模型集成到现有系统中,或者是将模型封装为可用的API供其他应用程序调用。
在部署模型之前,需要确保模型的稳定性和可靠性。
总结:数据挖掘的基本步骤包括问题定义、数据收集、数据预处理、特征选择、模型构建、模型评估和模型部署。
第38卷第12期Vol.38 No.12长春师范大学学报Journal of Changchun Normal University 2019年12月Dec.2019基于数据挖掘的大学英语四级通过率预测建模研究叶泽俊(三明学院ꎬ福建三明365004)[摘㊀要]大数据在教育领域的应用研究主要分为教育数据挖掘和学习分析ꎬ前者侧重于发现数据之间的潜在联系ꎬ后者侧重于使用数据解释问题ꎮ本文研究的问题属于教育数据挖掘领域ꎬ使用SPSSModeler数据挖掘平台ꎬ采用基于C5.0算法的决策树分类方法ꎬ通过采集㊁整理某一地方性应用型本科院校非英语专业学生公共英语课程学习情况以及大学英语四级成绩等相关信息ꎬ建立决策树分类模型对四级通过概率进行预测ꎮ在分析了构建模型的各种属性之后ꎬ结合对数据分析统计结果ꎬ给出了改善高校教学管理与提升英语四级通过率的思考与建议ꎮ[关键词]教育数据挖掘ꎻ机器学习ꎻ决策树模型ꎻ英语四级ꎻ通过率预测[中图分类号]TP311㊀㊀[文献标志码]A㊀㊀[文章编号]2095-7602(2019)12-0055-081㊀研究背景随着信息化进程在教育领域的推进ꎬ围绕高校日常教学运行㊁学生学习等各个方面的数据被各种信息管理平台采集和存储ꎮ海量的数据可以帮助学校了解㊁掌握教学运行情况和学生学习情况ꎬ然而目前大多数普通本科院校对这些数据的使用仍停留在简单的数据汇总和分析阶段ꎬ并没有进行深入的挖掘ꎮ如何最大程度地利用这些存储在数据库中的数据?对大多数高校而言ꎬ都是巨大的挑战ꎮ近些年ꎬ伴随大数据概念的兴起ꎬ数据挖掘及数据分析技术逐步渗透进入教育领域为发掘高校数据库中海量数据的价值带来了可能ꎮ图1㊀教育数据挖掘和学习分析涉及的主要学科大数据在教育领域的两个主要研究方向是教育数据挖掘和学习分析ꎮ前者是指 综合运用数学统计㊁机器学习和数据挖掘的技术和方法ꎬ对教育大数据进行处理和分析ꎬ通过数据建模ꎬ发现学习者学习结果与学习内容㊁学习资源和教学行为等变量的相关关系ꎬ来预测学习者未来的学习趋势 ꎻ后者是指 综合运用信息科学㊁社会学㊁计算机科学㊁心理学和学习科学的理论和方法ꎬ通过对广义教育大数据的处理和分析ꎬ利用已知模型和方法去解释影响学习者学习的重大问题ꎬ评估学习者学习行为ꎬ并为学习者提供人为的适应性反馈ꎮ [1]教育数据挖掘㊁学习分析与计算机科学㊁教育学和统计学的关系ꎬ如图1所示[2]ꎮ本研究将数据挖掘技术用于分析课程与等级考试之间的关系ꎬ以某一地方性本科院校非英语专业本科学生大学英语课程与等级考试成绩数据为样本建立数据挖掘模型ꎬ通过探究两者之间的相互关系为改善教学管理和提升课程教学质量提供依据ꎮ[收稿日期]2019-01-08[作者简介]叶泽俊ꎬ男ꎬ研究实习员ꎬ硕士ꎬ从事教育管理研究ꎮ552㊀教育数据挖掘及其应用研究概述教育数据挖掘中使用的机器学习的方法分为两种:监督学习和非监督学习ꎮ两种学习的主要差别在于用于建立模型的数据除带有特征(feature)外是否还带有标签(label)或者说是否有确定的结果ꎮ监督学习问题主要有两种ꎬ分类和回归ꎮ监督学习的主要算法包括:K邻近分析法㊁线性模型㊁朴素贝叶斯分类器㊁决策树㊁核支持向量机㊁神经网络等ꎮ常见的非监督学习类型有两种:数据集变换和聚类ꎮ数据集的无监督变换是创建数据新的表示的算法ꎬ与数据的原始表示相比ꎬ新的表示可能更容易被人或其他机器学习算法所理解ꎮ聚类算法是将数据划分成不同的组ꎬ每组包含相似的物项ꎬ主要的聚类算法为K均值聚类和凝聚聚类[3]ꎮ分类是按照某种标准给数据贴 标签 ꎬ再根据标签区分归类ꎬ聚类是事先没有 标签 而通过分析找出数据之间存在聚集性原因的过程[4]ꎮ国内众多学者使用数据挖掘技术对教育数据展开了研究ꎬ得到较多的研究成果ꎮ舒忠梅[5]将逐步回归和神经网络技术用于分析大学生学习成果及其影响因素ꎮ施佺[6]借助统计分析与可视化㊁关联规则算法和聚类算法ꎬ分析了网络学习过程中产生的大量学习数据ꎬ并根据分析结果给出了网络学习过程监督与管理的思考和建议ꎮ尤佳鑫[7]将多元线性回归模型运用于实体课堂和云学习平台的混合式大学课程学生学业成绩预测ꎬ并根据预测展开教学干预以提升其学习效果ꎮ陈子健[8]采用嵌套集成学习的方法构建在线学习者学业成绩分类预测模型ꎬ为在线学习者学业成绩影响因素研究和预测建模研究提供参考ꎬ也有助于在线学习学业预警㊁学业成绩预测和评价的实践ꎮ孙力[9]将聚类算法运用于网络学历教育本科学生英语相关课程成绩及学习信息的分析ꎬ实现了对成人学位英语考试成绩的细分预测ꎮ通过整理国内学者教育数据挖掘应用的研究成果发现ꎬ众多研究相对集中于对网络教育领域进行数据挖掘ꎬ而对存储在数据库中的传统课堂教学产生的数据研究较少ꎮ网络教育平台可以监控学生课程学习的全过程ꎬ并通过设置大量数据采集点构建更加复杂㊁科学的评价体系ꎮ较之网络教育平台ꎬ传统数据存在学习过程监控点少㊁成绩结构单一等问题ꎮ这些问题给数据挖掘带来了挑战ꎮ本文借鉴学者对网络学习的数据挖掘研究ꎬ通过增加建模属性㊁分解成绩构成㊁转换成绩含义等方式ꎬ运用存储在数据库中的3个年级非英语专业本科学生的个人信息㊁大学英语课程成绩和等级考试成绩等传统数据ꎬ构建决策树分类模型ꎬ对学生通过英语四级的概率进行预测ꎬ并对构建模型的主要属性进行分析ꎮ本研究只针对是否通过英语四级考试进行建模ꎬ所研究问题属于监督学习中的分类问题ꎮ3㊀数据挖掘平台和算法的选用使用IBM的SPSSModeler18.0作为数据挖掘平台ꎮSPSSModeler的前身是ISL公司的Clementineꎮ1999年SPSS公司收购了ISL公司后对Clementine产品进行重新整合和开发ꎮ2009年SPSS被IBM收购后ꎬ更名为IBMSPSSModelerꎮSPSSModeler支持数据挖掘技术的行业标准:CRISP-DM(Cross-IndustryStandardProcessforDataMining)ꎬ是国际主流的数据分析挖掘工具之一ꎮ选用基于C5.0算法的决策树模型作为数据挖掘工具ꎮC5.0算法是在C4.5算法的基础上提出的ꎬ适用于处理大数据集ꎬ运行速度快ꎬ占用内存少ꎮC5.0算法根据能够提供最大信息增益的字段划分样本ꎬ对第一次划分出来的子样本递归划分ꎬ直到不能再分为止ꎬ最后重新检查最底层的划分ꎬ去掉影响较小的分支ꎬ得到最终模型ꎮC5.0可以产生两种模型:决策树和规则集ꎮ决策树由算法划分样本直接产生ꎬ每个叶子节点表示一个特定的数据子集ꎬ数据集中的每个样本只属一个叶子节点ꎮ也就是说ꎬ任何一个给定的样本通过决策树只能得到一个预测结果[10]ꎮ4㊀构建英语四级考试结果预测模型运用数据挖掘技术中的数据分类技术实现对英语四级考试结果的预测ꎬ历经数据提取㊁数据处理㊁决策树构建㊁结果预测和决策树优化等步骤(图2)ꎮ4.1㊀模型构建4.1.1㊀数据提取与预处理数据预处理是数据挖掘前的准备工作ꎬ目的是为数据挖掘提供格式规范㊁有针对性的数据ꎬ减少数据挖掘算法的数据处理量ꎬ提高挖掘效率ꎬ最终提升模型的准确度ꎮ数据预处理的方法包括数据清理㊁数据集成㊁数 65图2㊀英语四级通过率预测模型构建流程图据转换和数据规约等ꎮ根据本文的研究目标ꎬ从该校数据库中提取了3个年级学生的基本信息㊁大学英语课程成绩和3种类型的等级考试成绩ꎬ并按照如下规则对数据进行了处理ꎮ(1)学生基本信息只保留学号㊁姓名㊁性别㊁学院和专业5个属性ꎮ(2)学生大学英语课程成绩包含平时成绩㊁期末成绩和总评成绩ꎬ且3个年级大学英语课程开设学期数分别为2学期㊁3学期㊁4学期ꎮ作者将学生在校期间所有的大学英语课程成绩分为平时㊁期末和总评3类ꎬ分别求和后以课程开设学期数为分母取均值ꎬ形成 大学英语平时成绩平均分 ㊁ 大学英语期末成绩平均分 和 大学英语总评成绩平均分 3个属性ꎬ将大学英语课程开设学期数分类统计形成 学习时长 属性ꎬ分别用于衡量学生平时的课堂表现㊁学生的英语知识水平和应试能力㊁是否完成大学英语课程和大学英语课程学习时长ꎮ(3)学生在校期间可参加学校组织的3种类型的等级考试且不限次数ꎮ3种考试分别是:大学英语四级考试㊁计算机等级考试和普通话水平测试ꎮ在数据预处理过程中ꎬ本文只取学生每种类型等级考试的最高成绩ꎬ排除其余成绩ꎮ由于本文研究的问题属于分类问题ꎬ因此将英语四级成绩以425分为线分为 合格 与 不合格 ꎬ形成 是否通过四级 属性ꎮ在排除了无效记录并按以上3条规则对数据进行预处理后ꎬ形成了一个样本数为6756的数据集ꎬ其中包含2243个通过四级的样本和4513个未通过四级的样本ꎮ数据集中2012㊁2013㊁2014级学生的样本数分别为2410㊁2245和2101个ꎮ数据集命名为 四级通过预测.csv ꎮ4.1.2㊀建立SPSSModeler数据源启动SPSSModeler并新建流文件后ꎬ选择界面下部 源 子菜单内的 变量文件 ꎬ将其拖入面板中ꎮ双击面板中的 变量文件 图标ꎬ在弹出编辑界面中选择 导入文件 ꎬ选择文件 四级通过预测.csv ꎬ字段定界符选择逗号ꎬ之后点击 确定 导入数据ꎬ面板中图标名称变为 四级通过预测.csv ꎮ4.1.3㊀关联数据在工具面板区中选择 字段选项 中的 类型 节点ꎬ将其拖入面板中ꎮ选择 四级通过预测.csv 图标ꎬ单击鼠标右键ꎬ选择 连接 ꎬ并连接到 类型 ꎮ双击 类型 图标ꎬ在弹出 类型 对话框中点击 清除所有值 后ꎬ点击 读取值 ꎬ并在 角色 列中进行属性方向调整ꎮ其中ꎬ由于 学号 ㊁ 姓名 属性对于建模没有作用ꎬ将方向设置为 无 ꎻ 是否通过四级 为预测目标ꎬ将其角色设为 目标 ꎻ其他属性 角色 均为 输入 ꎮ4.1.4㊀导入特征选择模型在工具面板区中选择 建模 选项卡中的 特征选择 节点ꎬ将其拖入面板中ꎬ并与 类型 节点相连接ꎮ 特征选择 节点可以筛选出对预测属性与预测目标之间的关系有用的属性或数据ꎮ执行 特征选择 节点ꎬ从执行生成的模型中选择其中重要的属性ꎬ直接生成 过滤 节点ꎬ如图3所示ꎮ4.1.5㊀建立C5.0模型选择 建模 选项卡中的 C5.0 节点ꎬ将其拖入面板中并与执行 特征选择 节点生成的 过滤 节点相连接ꎮ设置 C5.0 节点的 输出类型 为 决策树 ꎬ并选择 交叉验证 ꎬ 折叠次数 设置为10ꎮ选择 专家 模 75式ꎬ 修建严重性 的初始值设置为85ꎬ 每个分支的最小记录数 的初始值设置为5ꎬ勾选 全局修剪 ꎮ执行 C5.0 节点ꎬ管理区和数据流设计区出现 是否通过四级 的图标ꎬ建模完成ꎮ双击该图标可以查看建模结果ꎮ图3㊀ 特征选择 节点输出结果4.1.6㊀模型评估选择 输出 选项卡中的 分析 节点ꎬ将其与 是否通过四级 图标相连ꎮ运行 分析 节点可以查看模型的预测准确率ꎬ如图4所示ꎮ图4㊀模型预测准确率分析界面4.2㊀模型优化通过前述步骤得到的决策树模型包含7个属性ꎬ 修建严重性 的值为85ꎬ 每个子分支的最小记录数 的值为5ꎬ预测正确率为79.62%ꎮ初次建模得到的决策树模型预测准确率较高ꎬ但仍不能确定模型的预测准确率是否达到最优ꎮ鉴于 大学英语总评成绩平均分 和 大学英语平时成绩平均分 两个属性未被用于建模ꎬ 85但这两个属性有与英语学习相关ꎮ此外ꎬ 修建严重性 和 每个分支的最小记录数 这两个参数值也存在调整的可能ꎮ本文制定了如下模型优化步骤:(1)依次将 大学英语总评成绩平均分 和 大学英语平时成绩平均分 依次加入决策树模型形成预测结果2和预测结果3ꎮ(2) 修建严重性 参数确定决策树的修剪程度ꎮ增加该值可获得一个更简洁的小型树ꎬ减小该值可获得一个更精确的树ꎮ本文尝试将 修建严重性 的值依次设置为75㊁65㊁55ꎬ形成预测结果4~预测结果6ꎮ(3) 每个子分支的最小记录数 参数可以用来限制树的任何分支中的分割数ꎬ增加该值有助于防止使用噪声数据进行过度训练ꎮ鉴于本文使用的数据类型较为简单ꎬ且在预处理过程中已将无效数据删除ꎬ因此在模型优化过程中尝试将 每个分支的最小记录数 的值依次减小ꎬ设置为4㊁3㊁2ꎬ形成预测结果7~预测结果9ꎮ依据上述步骤形成的决策树优化结果如表1所示ꎮ表1㊀决策树优化情况序号模型名称包含属性及参数设置预测准确率/%1预测结果1学院㊁专业㊁性别㊁普通话成绩㊁计算机一级成绩㊁大学英语期末成绩平均分㊁学习时长ꎻ修剪严重性=85ꎬ每个子分支的最小记录数=579.622预测结果2学院㊁专业㊁性别㊁普通话成绩㊁计算机一级成绩㊁大学英语期末成绩平均分㊁学习时长㊁大学英语平时成绩平均分ꎻ修剪严重性=85ꎬ每个子分支的最小记录数=580.243预测结果3学院㊁专业㊁性别㊁普通话成绩㊁计算机一级成绩㊁大学英语期末成绩平均分㊁学习时长㊁大学英语平时成绩平均分㊁大学英语总评成绩平均分ꎻ修剪严重性=85ꎬ每个子分支的最小记录数=580.924预测结果4学院㊁专业㊁性别㊁普通话成绩㊁计算机一级成绩㊁大学英语期末成绩平均分㊁学习时长㊁大学英语平时成绩平均分㊁大学英语总评成绩平均分ꎻ修剪严重性=75ꎬ每个子分支的最小记录数=581.255预测结果5学院㊁专业㊁性别㊁普通话成绩㊁计算机一级成绩㊁大学英语期末成绩平均分㊁学习时长㊁大学英语平时成绩平均分㊁大学英语总评成绩平均分ꎻ修剪严重性=65ꎬ每个子分支的最小记录数=583.166预测结果6学院㊁专业㊁性别㊁普通话成绩㊁计算机一级成绩㊁大学英语期末成绩平均分㊁学习时长㊁大学英语平时成绩平均分㊁大学英语总评成绩平均分ꎻ修剪严重性=55ꎬ每个子分支的最小记录数=583.167预测结果7学院㊁专业㊁性别㊁普通话成绩㊁计算机一级成绩㊁大学英语期末成绩平均分㊁学习时长㊁大学英语平时成绩平均分㊁大学英语总评成绩平均分ꎻ修剪严重性=55ꎬ每个子分支的最小记录数=483.208预测结果8学院㊁专业㊁性别㊁普通话成绩㊁计算机一级成绩㊁大学英语期末成绩平均分㊁学习时长㊁大学英语平时成绩平均分㊁大学英语总评成绩平均分ꎻ修剪严重性=55ꎬ每个子分支的最小记录数=384.259预测结果9学院㊁专业㊁性别㊁普通话成绩㊁计算机一级成绩㊁大学英语期末成绩平均分㊁学习时长㊁大学英语平时成绩平均分㊁大学英语总评成绩平均分ꎻ修剪严重性=55ꎬ每个子分支的最小记录数=284.21㊀㊀从表1可以看出ꎬ第一步优化过程在保持 修剪严重性 和 每个子分支的最小记录数 的值不变的情况下ꎬ增加与英语学期相关的属性可以提升决策树模型预测的准确率ꎮ第二步优化过程在属性数保持在9个ꎬ 每个子分支的最小记录数 保持不变的情况下ꎬ减少 修建严重性 的值ꎬ模型的预测准确率也会提升ꎮ需要注意的是预测结果5和预测结果6的值是相等的ꎬ表明减少 修建严重性 的值到65和55时对提升模型预测95准确率没有帮助ꎮ本文最终选择55作为 修建严重性 的最终参数ꎮ第三步优化过程在属性数保持在9个ꎬ 修建严重性 的值设置为55后ꎬ递减 每个子分支的最小记录数 的参数值ꎮ通过递减参数值可以发现ꎬ当参数值减小到3时预测准确率达到最高ꎬ参数值减小到2时预测准确率反而下降ꎮ综上所述ꎬ本文选用预测结果8作为最终结果ꎮ此时 修建严重性 的值为55ꎬ 每个子分支的最小记录数 的值为3ꎬ决策树深度为12ꎬ包含节点数为435ꎮ5㊀模型分析及结论应用5.1㊀模型分析本研究采用数据挖掘中的基于C5.0算法的决策树分类方法ꎬ以学生基本信息㊁大学英语课程成绩及各种等级考试成绩为基础ꎬ在SPSSModeler的数据挖掘环境中ꎬ通过增加建模属性㊁调整模型参数等步骤最终构建了本科生英语四级通过概率的预测模型ꎮSPSSModeler环境中构建决策树时ꎬ各属性的重要性可以通过双击 预测结果 节点查看ꎬ各属性的重要性值见图5ꎮA:专业㊀B:学院㊀C:大学英语总评成绩平均分㊀D:普通话成绩㊀E:大学英语平时成绩平均分F:学习时长㊀G:计算机一级成绩㊀H:性别㊀I:大学英语期末成绩平均分图5㊀各预测变量重要性值通过分析图5ꎬ结合模型可以得出以下结论:(1) 大学英语期末成绩平均分 对是否通过四级预测的重要性最大ꎮ究其原因ꎬ主要是大学英语课程的期末考试与英语四级考试要求较为接近ꎬ考试的题型和题量基本相同ꎮ从考试形式看ꎬ两者均为笔试并使用答题卡做题ꎮ两者均是对学生知识水平和应试心态的考量ꎮ因此ꎬ如果在大学英语课程考试中取得较好成绩ꎬ通过英语四级的概率自然增加ꎮ(2) 性别 在模型特征重要性中排在第二ꎬ说明英语四级通过率在该校男女生之间存在巨大差异ꎮ从表2对数据样本的分析中可以看出ꎬ女生的英语四级通过率和平均成绩均高于男生ꎮ表2㊀男女生四级考试平均分及通过率性别通过人数报名人数通过率/%平均成绩女1631359145.4387男612316519.3340㊀㊀(3) 计算机一级成绩 和 普通话成绩 两个属性能对模型预测结果产生影响ꎬ表明作为等级考试两者与英语四级之间存在相通之处ꎮ从模型的预测结果可以发现英语四级成绩与计算机一级成绩㊁普通话成绩存在明显的正向关系ꎬ即英语四级成绩较高的学生ꎬ计算机一级及普通话成绩也相对较高ꎮ(4) 学习时长 属性表明学习期限的长短对学生是否通过四级有一定的影响ꎮ该校2012㊁2013㊁2014级学生的培养方案中规定公共英语授课学期数分别为:4学期㊁3学期和2学期ꎬ且该校禁止学生在入学第一学期报考英语四级ꎮ结合表3的数据可以发现在大学英语开课学期四级通过人数能保持在3位数ꎬ当课程结束 06后通过人数出现大幅下跌ꎮ表3㊀各学年学期英语四级通过人数统计年级学年学期通过人数2012级2012-2013-23482013-2014-11772013-2014-21532014-2015-1822014-2015-2752015-2016-1252015-2016-252013级2013-2014-23512014-2015-11172014-2015-2662015-2016-1442015-2016-2552016-2017-1792016-2017-272014级2014-2015-22792015-2016-1692015-2016-2522016-2017-11062016-2017-2732017-2018-174㊀㊀(5)鉴于平时成绩是由任课老师在综合考察学生的出勤情况㊁作业完成质量㊁课堂参与度等指标后给出的评价ꎬ这些指标又与学生对课程的学习态度密切相关ꎮ因此ꎬ 大学英语平时成绩平均分 可作为衡量学生课程学习态度的一个属性ꎮ该属性在建模中仍有一定作用ꎬ表明学生学习态度的好坏对能否通过英语四级可以产生一定的影响ꎮ5.2㊀结论应用第一ꎬ教学管理者应重视学校学风建设ꎬ引导学生从高中阶段的被动学习向主动学习转变ꎬ帮助学生确立正确的学习态度ꎬ塑造学校积极㊁向上的学习风气ꎮ学习态度与学习成果密切相关ꎮ 计算机等级考试 普通话水平测试 和 大学英语四级考试 3种考试的内容㊁考试形式之间并没有相似性ꎬ但3种考试的成绩存在正向关联ꎬ说明学生对于等级考试的态度会对考试的结果产生影响ꎮ第二ꎬ改革大学英语课程教学ꎬ打造高质量的英语精品课程ꎮ大学英语课程一般在第一到第四学期开设ꎬ学生在这一段时期仍处在由被动学习向主动学习转变的过程中ꎮ大学英语的课堂教学在这一时期有重要作用ꎮ高质量的课程有利于学生引起学生的学习兴趣ꎬ帮助提高学生的四级通过率ꎮ第三ꎬ该校管理者应重视男女生之间英语四级通过率的巨大差距ꎮ从表3数据可以计算出四级通过率在该校男女生之间的差距高达26.1%ꎮ虽然造成这种现象的原因是多种多样的ꎬ以往学者的研究也表明女性相对于男性而言确实存在着语言优势[11]ꎬ在校女大学生更倾向于将在各类考试特别是大范围的英语四级考试中取得好成绩ꎬ作为其努力的目标[12]ꎬ但笔者认为除了性别差异外还有其他的原因造成了该校男女生之间英语四级通过率的巨大差距ꎬ这个问题值得进一步深入研究ꎮ166㊀结语当前各种网络教育平台飞速发展ꎬ大量新型数据不断融入高校数据库ꎬ但面对面的课堂教学依然是大学教育的主要形式ꎮ这就意味着在新型数据不断增长的同时ꎬ仍有大量的传统数据被收集存储ꎮ随着教育数据挖掘研究的持续发展ꎬ教育数据挖掘及分析方法更加丰富ꎬ传统教育数据的价值将得到重新发现ꎮ传统教育数据较之新型数据的最大优势在于数据量庞大且数据累积年限更长ꎮ因此ꎬ对海量传统数据的挖掘更有可能发现高校发展过程㊁教师教学和学生学习等方面的深层次规律ꎬ为改善高校教学管理㊁提升教学质量和促进学生学习提供助力ꎮ[参考文献][1]徐鹏ꎬ王以宁ꎬ刘艳华ꎬ等.大数据视角分析学习变革 美国«通过教育数据挖掘和学习分析促进教与学»报告解读及启示[J].远程教育杂志ꎬ2013(6):11-17.[2]ROMEROCꎬVENTURAS.Dataminingineducation[J].WileyInterdisciplinaryReviews:DataMiningandKnowledgeDiscov ̄eryꎬ2013(1):12-27.[3]MULLERACꎬGUIDOS.Python机器学习基础教程[M].张亮ꎬ译.北京:人民邮电出版社ꎬ2018.[4]KANTARDZIC.Datamining:Conceptsꎬmodelsꎬmethodsandalgorithms[M].NewJersey:JohnWiley&SonsꎬIncꎬ2011. [5]舒忠梅ꎬ屈琼斐.基于教育数据挖掘的大学生学习成果分析[J].东北大学学报(社会科学版)ꎬ2014(3):309-314. [6]施佺ꎬ钱源ꎬ孙玲.基于教育数据挖掘的网络学习过程监管研究[J].现代教育技术ꎬ2016(6):87-93.[7]尤佳鑫ꎬ孙众.云学习平台大学生学业成绩预测与干预研究[J].中国远程教育ꎬ2016(9):14-20.[8]陈子健ꎬ朱晓亮.基于教育数据挖掘的在线学习者学业成绩预测建模研究[J].中国电化教育ꎬ2017(12):75-81. [9]孙力ꎬ张凯ꎬ丁波.基于数据挖掘的网络教育学习成绩细分预测的研究与实现[J].中国远程教育ꎬ2016(12):22-29. [10]ZHUXLꎬWANGJꎬYANGHCꎬetal.ResearchandapplicationoftheimprovedalgorithmC4.5ondecisiontree[C].Inter ̄nationalConferenceonTestandMeasurementꎬIEEEꎬ2009:184-187.[11]黄崇岭.性别差异与大学外语教学 对外语学习中女强男弱现象的分析[J].同济大学学报ꎬ2004(1):104-109. [12]屠丽华ꎬ蔡慧萍.从CET4看性别差异对外语学习者单项技能的影响[J].外语研究ꎬ2014(2):46-51.ResearchonCollegeEnglishFour-LevelPassRatePredictionModelingBasedonDataMiningYEZe-jun(SanmingUniversityꎬSanming365004ꎬChina)Abstract:Theapplicationresearchofbigdataineducationfieldismainlydividedintoeducationdataminingandlearninganalysis.Theformerfocusesondiscoveringpotentiallinksbetweendataꎬwhilethelatterfocusesonusingdatatoexplainproblems.Theproblemstud ̄iedinthispaperbelongstothefieldofeducationaldatamining.ThearticleusesSPSSModelerdataminingplatformꎬadoptsC5.0algo ̄rithm-baseddecisiontreeclassificationmethodꎬcollectsandorganizestheinformationofpublicEnglishcoursesofnon-Englishmajorsinalocalapplication-orientedundergraduatecollegeꎬandthescoresofCET4ꎬestablishesadecisiontreeclassificationmodeltopredictCET4passprobability.AfteranalyzingthevariousattributesoftheconstructionmodelꎬcombinedwiththestatisticalanalysisresultsofthedataꎬthepapergivessomethoughtsandsuggestionsonimprovingtheteachingmanagementoftheschoolandimprovingthepassrateofCET4.Keywords:educationaldataminingꎻmachinelearningꎻdecisiontreemodelꎻCET4ꎻpassrateprediction26。
数据挖掘基础教程随着数据时代的到来,数据挖掘成为了越来越热门的话题。
在数据挖掘领域中,数据挖掘基础是我们必须要学习的知识。
本文将为大家介绍数据挖掘基础教程,希望能够帮助大家更好地了解数据挖掘。
一、数据挖掘的定义数据挖掘是指通过各种算法和技术,从大规模的数据中寻找有用的模式和规律的过程。
数据挖掘通常是结合多个领域的知识,如计算机科学、数据统计学和机器学习等。
数据挖掘可以解决大量数据中隐藏的问题,从而让人们能够更好地了解数据中隐藏的规律。
数据挖掘可以应用在众多领域,如市场营销、医学、电信、金融等。
二、数据挖掘的过程数据挖掘的过程一般分为以下几个步骤:1. 数据预处理:对原始数据进行清洗和处理,去掉不需要的数据,并将数据转换成可分析的格式。
2. 特征选择:从数据中选择最有用的特征,以提高挖掘准确率。
3. 数据分析:使用数据挖掘算法对数据进行分析,在数据中寻找模式和规律。
4. 模型建立:利用数据挖掘算法构建模型。
5. 结果评估:对模型进行评估和验证,以确保模型的准确性和可靠性。
6. 应用部署:将模型应用于实际问题中。
三、数据挖掘的应用数据挖掘的应用范围非常广泛,以下列举几个主要的应用。
1. 市场营销数据挖掘可以帮助企业识别客户的需求和行为,制定更精确的营销策略。
例如,通过分析客户的购买记录和行为,可以预测客户的下一步购买行为并给予个性化的推荐。
2. 医学数据挖掘可以帮助医生诊断、预测和治疗疾病。
通过分析大量的医疗数据,可以发现患者之间的相似性和差异性,从而提高诊断精度。
3. 金融数据挖掘可以帮助银行和金融机构降低欺诈、风险和成本。
例如,通过分析客户的行为和信用等级,可以预测客户的信用违约情况并采取相应的措施。
四、常见的数据挖掘算法1. 关联规则算法关联规则算法是一种在大规模交易数据中挖掘出有趣关系的方法。
例如,发现购买某一商品的客户也会购买其他商品。
2. 分类算法分类算法用于将数据分成不同的类别。
例如,将客户分为不同的组,以便于营销团队的定向广告。
利用数据挖掘技术提供个性化学习推荐在当今信息爆炸的时代,学习所需的知识变得越来越庞杂和多样化。
每个人都有自己的学习需求和兴趣偏好,因此提供个性化学习推荐变得至关重要。
数据挖掘技术作为一种处理大量数据并发现隐藏关系的方法,被广泛应用于个性化学习推荐系统中。
本文将介绍利用数据挖掘技术提供个性化学习推荐的方法和应用。
一、学习者数据的采集与处理个性化学习推荐系统能够根据学习者的需求和兴趣,为其推荐最适合的学习资源和内容。
为了实现这一目标,首先需要采集学习者的数据,并进行相应的处理。
1.1 数据采集利用数据挖掘技术提供个性化学习推荐,首先需要收集学习者的数据。
可以通过问卷调查、学习历史记录、学习行为跟踪等方式获得学习者的相关信息。
这些数据可以包括学习者的年龄、性别、学历、兴趣爱好、学习目标等。
1.2 数据处理获得学习者的数据后,需要进行相应的处理,以提取有价值的信息。
这包括数据清洗、数据集成、数据转换和数据规约等步骤。
通过这些步骤,可以将学习者的数据统一格式化,并去除噪声和冗余信息,为后续的数据挖掘分析做好准备。
二、数据挖掘方法在个性化学习推荐中的应用2.1 用户画像建模根据学习者的数据,可以通过数据挖掘技术构建学习者的用户画像。
用户画像是对学习者进行特征描述和分类的模型,可以根据学习者的兴趣、学习目标、学习行为等特征,将学习者进行分类和个性化的描述。
通过用户画像,可以更准确地理解学习者的需求,为其提供个性化推荐。
2.2 相似度计算与推荐数据挖掘技术中的相似度计算是个性化学习推荐的关键环节。
通过计算学习者之间的相似度,可以找到与目标学习者兴趣相似的其他学习者,从而为其提供相应的学习推荐。
相似度计算可以基于学习者的学习记录、兴趣标签等信息,利用聚类、分类、关联规则等方法进行。
根据学习者的相似度,可以向目标学习者推荐与其兴趣相似的学习资源和内容。
2.3 预测模型构建与优化利用数据挖掘技术还可以构建学习者的预测模型,通过对学习者的历史学习记录和行为进行分析,预测学习者的未来需求和兴趣。
数据挖掘技术的使用方法及模型构建数据挖掘技术是一种从大规模数据集中提取出有趣模式和相关信息的过程。
它可以帮助企业和组织发现隐藏在数据背后的知识,以支持决策制定和业务增长。
本文将介绍数据挖掘技术的使用方法以及模型构建过程。
数据挖掘技术的使用方法:1. 理解问题:在开始使用数据挖掘技术之前,首先要明确待解决的问题是什么。
确定目标,明确研究的方向和目的,这有助于指导后续的数据处理和模型建立过程。
2. 数据收集与预处理:数据挖掘的第一步是收集和准备数据。
数据可以来自各种来源,如数据库、文本文件、传感器等。
在收集数据后,需要进行一些预处理步骤,如数据清洗、数据集成、数据转换和数据规约,以确保数据的质量和一致性。
3. 特征选择与转换:在数据挖掘过程中,选择合适的特征对结果的准确性起着至关重要的作用。
特征选择是从原始数据中选择最重要的特征,以减少数据的维度和复杂性。
特征转换是通过数学变换将原始数据转换为适合挖掘的形式,如标准化、离散化等。
4. 模型选择与构建:在选择和构建模型时,需要根据具体问题的性质和数据的特征来确定。
常见的数据挖掘模型包括决策树、神经网络、支持向量机、朴素贝叶斯等。
根据数据集的特点和目标,选择合适的算法并进行模型训练和调优。
5. 模型评估与验证:在模型构建完成后,需要对其进行评估和验证,以确保其准确性和有效性。
常用的评估指标包括准确率、召回率、精确率和F1值等。
通过交叉验证、混淆矩阵等方法对模型进行验证,可以帮助发现模型的潜在问题和改善空间。
6. 模型应用与结果解释:完成模型的评估后,可以将模型应用于实际问题中,并解释其结果。
根据模型输出的结论和建议,制定相应的决策和战略。
同时,对模型结果进行解释和解读,帮助理解和传达数据挖掘的发现。
模型构建的过程:1. 确定目标:首先要明确构建模型的目标是什么,例如预测销售额、识别垃圾邮件,或者推荐产品。
2. 数据准备:收集相关的数据,包括特征和目标变量,并进行数据预处理,如清洗、集成和转换。
数据挖掘技术的使用教程及模型建立方法数据挖掘技术是一种通过从大量的数据中挖掘出有价值的信息和模式的技术。
随着大数据时代的到来,数据挖掘技术越来越受到重视。
本文将介绍数据挖掘技术的使用教程及模型建立方法,帮助读者了解并应用这一重要的技术。
首先,我们需要明确数据挖掘技术的基本概念和步骤。
数据挖掘技术主要包括数据预处理、特征选择、模型选择和评估等步骤。
数据预处理是指对原始数据进行清洗和转换,以便后续的特征选择和模型建立。
特征选择是选择对目标变量有显著影响的特征,以减少模型的复杂性和计算成本。
模型选择是根据问题的类型和数据的特点选择适当的数据挖掘模型,如分类模型、聚类模型和关联规则模型。
模型评估是对建立的模型进行验证和评估,以确保其在未知数据上的泛化能力。
接下来,我们将逐步介绍数据挖掘技术的使用教程。
首先是数据预处理。
在数据预处理中,我们首先需要对原始数据进行清洗,去除重复值、缺失值和异常值。
然后,我们可以对数据进行转换,如标准化、归一化或离散化,以便后续处理。
最后,我们可以进行特征抽取和降维,选择对目标变量有重要影响的特征。
这些步骤可以使用Python编程语言中的一些开源库来实现,如pandas和scikit-learn。
特征选择是数据挖掘中非常重要的一步。
选择正确的特征可以提高模型的准确性和效率。
常用的特征选择方法包括过滤式方法、包裹式方法和嵌入式方法。
过滤式方法通过计算特征与目标变量之间的相关性来选择特征。
包裹式方法则通过建立模型,根据模型的性能选择特征。
嵌入式方法将特征选择嵌入到模型的训练过程中。
在实践中,我们可以尝试不同的特征选择方法,选择最适合的方法。
选择适当的数据挖掘模型是模型选择的关键步骤。
根据问题的类型和数据的特点,我们可以选择不同的数据挖掘模型。
对于分类问题,可以选择决策树、支持向量机或神经网络等模型;对于聚类问题,可以选择K均值聚类、层次聚类或高斯混合模型等模型;对于关联规则挖掘问题,可以选择Apriori 算法或FP-Growth算法等模型。
广东科技2009.7.总第217期大学英语学习数据挖掘模型与构建方法林骁于1系统结构设计及实现大学英语学习数据库平台是SQL SEVER ,其分析服务提供了对数据的深度挖掘服务。
在此平台,我们设计了分析服务构建数据挖掘的解决方案,其系统结构下图。
完成构建数据挖掘模型,需要经过下列四个阶段的工作:①组织数据挖掘源数据;②建立数据挖掘立方体;③从服务器端和客户端构建并训练数据挖掘模型;④利用数据挖掘模型进行预测查询。
本节将详细论述这些工作的完成过程,以此构成一个基于SQL SERVER 分析服务数据挖掘解决方案。
1.1组织数据挖掘源数据(1)选取设计模式。
通常采取的设计模式有几种:星型模式、雪花模式、事实星座模式、维事实模式、星型-ER 模式等。
在星型模式中,维表是扁平的,即不论一个维层次上有多少维属性,都将它们置于同一个维表中。
星型模式具有一定的数据冗余,但是它比其他的模式具有较高的效率,星型模式的改进是事实星座模型,其允许在一个模型中有多个事实表,它们是由共享维连接起来的。
维事实模型(DFM )是以事实为根节点的准树结构,其中除了根以外的节点为维属性,维属性之间连线表示事实中的度量,属性可以沿该线进行粒度不同的聚合运算。
我们对大学英语数据挖掘的目的在于寻找出学生学习英语及其能力训练方面的规律,根据已有的数据库的特点,选取事实星座模式。
根据英语学习的需求主题,设计事实表和维代码表。
(2)为挖掘主题建立关系数据库。
该数据库不是用于事务处理的数据库,而是为数据挖掘主题准备源数据的学生学习信息采集库。
创建采集库后,根据设计的事实表和维代码表创建相应的表格,并且创建相关的索引。
(3)设计数据转换模块(DTS ),提取和加载数据。
数据转换模块把分散在32个学生学习库中的相关数据经过抽取、转换和装载,汇集、规范到事实表中。
DTS 不仅可以将数据导入和导出,还可以根据提取要求创建软件包,实现异构数据的转换和加载。
同时使用触发器,可以将实时数据库的新记录及时插入学生学习信息采集库的事实表中。
另外,DTS 还提供定时装载数使系统空闲时向学生学习信息采集库装载数据。
1.2建立数据立方体(Cubes )建立数据立方体时,需要利用分析服务创建数据库,这个数据库本质上是虚拟的,用于存放OLAP 服务结构的对象,包括五个对象:Data Source :用于存放数据库的数据源;Cubes :用于存放立方体对象;Shared Dimensions :存放可以用于所有立方体的维;Mining Models :存放数据挖掘模型;Database Roles :存放数据库中的角色信息。
按照下面的过程建立数据立方体:(1)指定数据源。
在每一个数据库中,都可以指定一个或多个数据源,为立方体、数据挖掘模型等对象提供数据。
使用OLE DB Provider 清单,即可以完成指定数据源的要求。
(2)维和立方体。
维是一种概念度量单位,一组几个相关的度量表示组成一个维,并且可以分成不同的层次。
例如学生的维是姓名、专业、班级、性别等。
通过使用Shared Dimensions 对象,继续创建共享维,为立方体的建立做准备。
立方体是存储各种学习数据的一种结构,允许我们方便快捷地浏览其中的数据,是数据挖掘数据组织中重要的一部分。
利用Cubes 对象,可以选择数据源、事实表、维和度量等来创建一个立方体。
(3)存储立方体。
建立后的立方体有三种存储类型可供选择:①MOLAP :数据和聚合都存储在多维结构中。
需要花相当长的时间才能把数据从数据集市或数据仓库传送到多维数据库中,但是,具有查询快速而有效的特点。
②ROLAP :数据和聚合都存储在关系型数据库中。
其占用磁盘空间少,但是查询时间较长。
③HOLAP :利用MOLAP 和ROLAP 的优点,将数据存储在关系数据库中,将聚合存储在多维数据库中,使用分区管理工具来实现灵活的立方体存储。
经过上述步骤,为数据挖掘准备好了所需要的源数据转换。
1.3构建、训练数据挖掘模型分析服务提供了服务器端和客户端两种架构,分别从服务器端和客户端构建数据挖掘模型。
由于数据挖掘模型的操作是整个解决方案的重点,所以选择从服务器端构建数据挖掘模型。
要在服务器端通过应用程序创建和训练数据挖掘模型,只能使用决策支持对象。
决策支持对象(Decision Support Objects ,DSO)是一种组件对象模型(Component Object Model ,COM)的类库及其接口,这些类库及其接口能够访问Analysis Service 引擎的核心部分。
DSO 中公开的对象具体体现了Analysis Service 中对象的内部结构,这使得可以比较容易的通过编程的手段来对Analysis Service 进行管理控制。
摘要:本文通过对数据挖掘与模型构建技术的研究,结合广州大学大学英语学习数据库的特点,构建服务器端的事实星型模型,并在SQL SERVER 和分析服务器的平台上进行学生学习数据挖掘,对学生的英语学习行为和成绩进行相关性分析和预测,为学校的英语教学改革和学习提供了科学的决策依据。
关键词:数据挖掘;模型构建方法;分析服务;大学英语学习大学英语学习数据挖掘系统结构科教园地学界98DSO层次结构模型树中的根对象是Server,其树形结构下层为DataBase类型的MDStores,再下就是Cubes类型的Com-mands、MDStores、DataSources、Dimensions、MiningModels、Roles 等。
通过对Server对象来完成与Analysis服务器相关的一些操作。
Server可完成:①与分析服务器的连接或断开操作;②启动、暂停或者停止Analysis服务器服务(MSSQLServerOLAPService)引擎;③提供Analysis服务器的诸如版本和编辑等详细信息;④创建其它Analysis Service对象,如数据库、数据源、命令集、维、立方体、数据挖掘模型及角色等;⑤管理Analysis Services 中锁定的对象,控制多用户状态下对象的读写操作,提供通过MD Stores集合对DSO Database对象的操作支持。
一个DataBase对象代表着AnalysisServices中的一个数据库。
数据库里含有立方体和数据挖掘模型,二者处在同一层次上。
数据库对象只能通过DSO的Server对象中的MDStores集合来进行操作,而数据库对象中只有立方体这个对象能够被该接口访问。
DataBase用于创建、编辑及删除一个分析服务中可用的命令集、数据源、立方体、维及数据挖掘模型等,同时Database也用于数据库对象的事务管理。
利用DSO可以在服务器端创建一个关系型或者OLAP型数据挖掘模型,创建数据挖掘模型时,首先要建立与数据源的连接,定义数据挖掘模型结构,最后用关系型数据或者OLAP 数据对模型进行训练,模型训练好后,模型就存储了从样本数据中提取的隐含的信息或者模式,可以利用该模型进行预测查询或者决策支持。
SQL SERVER数据挖掘是基于数据挖掘模型的,正是因为数据挖掘模型这个对象的产生,才使得SQL SERVER数据挖掘实现了与数据库和应用程序的无缝集成,在服务器端构建数据挖掘模型时,在应用程序中可以利用各种高级语言操作DSO对象模型来完成数据源连接、数据库的创建等工作,应用程序中创建一个新的数据挖掘模型,需要以下几步:(1)连接到一个分析服务器并得到一个指向希望创建一个新的数据挖掘模型的数据库的对象指针;(2)创建新的挖掘模型对象;(3)为挖掘模型的第一列创建一个Column对象;(4)为Column对象设置属性;(5)使用对象模型的更新方法保存挖掘模型;(6)使用对象模型的处理方法训练数据挖掘模型。
1.4利用数据挖掘模型进行预测查询所有生成一个数据挖掘模型的最终目标是寻找一个查询,并利用这种查询从测试实例中预测未知的值,从而得到学生学习的规律。
OLE DB For DM中定义了预测查询组件的使用,SQL SERVER分析服务已经增加了一个SQL扩展,即预测连接(PREDICTION JOIN),一个预测连接的完成需要一个数据挖掘模型并指定它与新数据的关系,然后利用该模型对新数据进行预测。
同时OLE DB For DM中制定了大量的预测函数,利用这些预测函数可以得到大量的附加信息,例如预测精确度,最大可能性的行的统计偏差等信息。
通过以上4步操作,就完成了SQL SERVER中数据挖掘的操作,并同时利用该模型作出了相应的预测查询。
2大学英语学习数据挖掘模型实现数据库是大学英语学习数据库,库中保存了全校历届大学本科一年、二年级普通文科、理工科大学英语的学习记录,包括学生基本情况、学习进度、学习时间、各单元测试成绩等等。
本文试图分析学生专业、学习时间均匀性、单次学习时间长度和学习成绩等方面的相关性及其规律。
由于原始数据及关联关系并不能直接进行数据挖掘,所以按照库中的数据特性,先组织生成一些数据视图,并且采集、计算视图中的一部分中间数据,例如学习时间均方差,在此基础上才开展分析挖掘。
使用分析服务之前首先是指定系统数据源,其方法是服务器操作系统的控制面板中打开“数据源”(ODBC)管理器,并通过在系统DSN选项卡中单击添加项来指定STUDENT数据库作为系统数据源。
接下来的步骤就是启动分析服务器,在分析服务器中构建数据立方体,构建数据立方体首先要在分析服务器中创建一个数据库,该数据库是一个虚拟的对象,但是这个虚拟的数据库包含了数据挖掘模型对象。
分析服务器中建立虚拟数据库以后,需要它指定们通过分析服务其中的数据源选项卡可以指定立方体的数据源。
已经指定系统数据源和在分析服务器中构建立方体,现在就可以在应用程序中构建基于分析服务的数据挖掘模型。
选取应用程序运行在服务器端,这样可以使用DSO来构建数据挖掘模型,首先要定义DSO对象模型:Dim dsoServer As New DSO.ServerDim dsoDB As DSO.MDStoreDim dsoDS As DSO.DataSourceDim dsoDMM As DSO.MiningModelDim dsoColumn As DSO.ColumnDim dsoRole As DSO.Role将DSO对象模型连接到分析服务器并得到ENGSTUDY数据库的指针:Dim strLQuote As StringDim strRQuote As StringDim strFromClause As StringConst adlnteger=3Const adWChar=130dsoServer.Connect“LocalHost”Set dsoDB=dsoServer.MDStores(“STUDENT”)strLQuote=dsoDB.DataSources(“ENGSTUDY”).OPen-QuoteCharstrRQuote=dsoDB.DataSources(“ENGSTUDY”).Close-QuoteCharstrFromClause=strLQuote&“name”&strRQuote为了创建挖掘模型对象,可以调用AddNew方法来制定挖掘模型对象是基于关系型数据还是OLAP数据:Set dsoDMM=dsoDB.MiningModels.AddNew(“STUDYMod-el”,sbclsRelational)Set dsoRole=dsoDMM.Roles.AddNew(“All Users”)下面定义数据挖掘算法:With dsoDMM.Datasources.AddNew“ListenAndSpeakTime”,sbclsRegular.Description=“listen and speak excise time”.FromClause=strFromClause.MiningAlgorithm=“Microsoft_Decision_Trees”.TrainingQuery=“”.UpdateEnd With下面定义StudentID属性列:科教园地学界99广东科技2009.7.总第217期广东科技2009.7.总第217期Set dsoColumn =dsoDMM.Columns.AddNew (“StudentID ”,sbclsRegular)With dsoColumn.SourceColumn =strFromClause &“.”&strLQuote &“StudentID ”&strRQuote.DataType =adlnteger .IsKey =True.IsDisabled =False End With 类似地,同样定义unitscore ,timelong ,timeaverage ,termscore ,同时指定termscore 为可预测列。