数据仓库与数据挖掘实验报告
- 格式:doc
- 大小:1.41 MB
- 文档页数:25
理工大学数据仓库与数据挖掘实验一(总5页)-CAL-FENGHAI.-(YICAI)-Company One1-CAL-本页仅作为文档封面,使用请直接删除昆明理工大学信息工程与自动化学院学生实验报告( 2012 —2013 学年第 1 学期)课程名称:数据库仓库与数据挖掘开课实验室: 2012 年10月 30日一、上机目的1.理解数据库与数据仓库之间的区别与联系;2.掌握典型的关系型数据库及其数据仓库系统的工作原理以及应用方法;3.掌握数据仓库建立的基本方法及其相关工具的使用。
二、上机内容内容:以SQL Server为系统平台,设计、建立数据库,并以此为基础创建数据仓库。
要求:利用实验室和指导教师提供的实验软件,认真完成规定的实验项目,真实地记录实验中遇到的各种问题和解决的方法与过程,并绘出模拟实验案例的数据仓库模型。
实验完成后,应根据实验情况写出实验报告。
三、所用仪器、材料(设备名称、型号、规格等或使用软件)1台PC及SQL 2008软件四、实验方法、步骤和截图(或:程序代码或操作过程)采用SQL语句创建数据库,数据库命名为:DW。
如图所示:DW数据库中包含7张维表和一张事实表。
7张维表分别为:订单方式维表、销售人员及销售地区维表、发货方式维表、订单日期维表、客户维表、订单状态维表、客户价值维表。
建立7张维表语句和建立7张维表的ETL如下:语句执行成功的结果如图所示:DW数据库包含的事实表为FACT_SALEORDER。
建立1张事实表语句和建立1张事实表的ETL如下:三、建事实表CREATE TABLE FACT_SALEORDER(SALEORDERID INT,TIME_CD VARCHAR(8),STATUS INT,ONLINEORDERFLAG INT,CUSTOMERID INT,SALESPERSONID INT,SHIPMETHOD INT,ORDER_VALUES INT,SUBTOTAL DECIMAL(10,2),TAXAMT DECIMAL(10,2),FREIGHT DECIMAL(10,2))-----------------------------------四、事实表的ETL/* FACT_SALEORDER的ETL*/TRUNCATE TABLE FACT_SALEORDERINSERT INTO FACT_SALEORDERSELECT SalesOrderID,CONVERT(CHAR(8),,112) ,,,ISNULL,0),ISNULL,0),,,,,FROM A,V_SUBTOTAL_VALUES BWHERE >= AND <--缺省值处理INSERT INTO DIM_CUSTOMERselect DISTINCT CUSTOMERID,'未知','商店',0,'N','N','未知','未知','未知',0,0,'未知','未知','未知' from FACT_SALEORDERwhere CUSTOMERID not in (SELECT CUSTOMERIDFROM )INSERT INTO DIM_CUSTOMERselect DISTINCT SALESPERSONID,'未知','未知' from FACT_SALEORDERwhere SALESPERSONID not in (SELECT SALESPERSONIDFROM )语句执行成功的结果如图所示:五、实验结果、分析和结论(误差分析与数据处理、成果总结等。
四.实验总结通过本次实验,对数据仓库中关联规则的应用以及如何发现关联规则有了简单的了解,通过使用Analysis Services服务进行关联规则模型的建立和处理,以可视化的方式查看模型结果对关联规则有了根本的了解。
关联规则可以反映一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之间存在一定的关联关系,其中一个事物就能通过其他事物预测到。
处理进度完成之后,单击“关闭”按钮,建模完成。
7.查看挖掘结果再次选择“挖掘模型查看器”选项卡,由vTargetMail数据集生成的决策树。
四实验总结本次实验使用SQL Server2005中的决策树方法,进一步的了解数据库Analysis Services的功能,对它的使用方法有了更深入的了解,能做一些基本的操作。
通过应用数据库Analysis Services的一些功能,能够分析一些数据之间的联系,有利于做出判断与决策。
四实验总结本次实验使用SQL Server 2005中的Analysis Service服务进行k-means算法模型的建立和处理并且可视化的方式查看结果,本次实验使我对k-means的算法加深了认识与了解。
能做到简单的应用。
k-means聚类算法是将各个聚类子集内的所有数样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类的性能的准则函数达到最优从而使生成的每个聚类内紧凑。
实验名称实验五SQLServer 2005中贝叶斯网络应用四实验总结通过本次实验对贝叶斯网络有了更深入的了解,贝叶斯网络是一个白匣子,各个结点之间的影响程度和条件概率关系都可以显示地看到,并且意义明确,因此其更适合那些影响因素少而且关系明确的情况,但贝叶斯网络使用者更多地了解领域,以增加网络的可理解性和预测、诊断的准确性。
通过使用SQLService2005的朴素贝叶斯网络功能使用能够做预测、诊断然后查看各个变量对被预测和被诊断的各个值得影响力。
一、实验内容和目的目的:1.理解数据库与数据仓库之间的区别与联系;2.掌握典型的关系型数据库及其数据仓库系统的工作原理以及应用方法;3.掌握数据仓库建立的基本方法及其相关工具的使用。
内容:以SQL Server为系统平台,设计、建立数据库,并以此为基础创建数据仓库。
二、所用仪器、材料(设备名称、型号、规格等)操作系统平台:Windows 7数据库平台:SQL Server 2008 SP2三、实验原理数据仓库是在原有关系型数据库基础上发展形成的,但不同于数据库系统的组织结构形式,它从原有的业务数据库中获得的数据形成当前基本数据层,经过综合后形成轻度综合数据层,轻度综合数据再经过综合后形成高度综合数据层。
数据仓库结构包括当前基本数据(current detail data)、历史基本数据(older detail data)、轻度综合数据(lightly summarized data)、高度综合数据(highly summarized data)和元数据(meta data)。
数据仓库系统由数据仓库、仓库管理和分析工具3部分组成,结构形式如下图所示:数据仓库的逻辑数据模型是多维结构的数据视图,也称多维数据模型。
对于逻辑数据模型,可以使用不同的存储机制和表示模式来实现多维数据模型。
目前使用的多维数据模型主要有星型模型、雪花模型、星网模型、第三范式等。
ETL过程在开发数据仓库时,占去70%的工作量。
ETL过程的主要步骤概括为:(1)决定数据仓库中需要的所有的目标数据;(2)决定所有的数据源,包括内部和外部的数据源;(3)准备从源数据到目标数据的数据映射关系;(4)建立全面的数据抽取规则;(5)决定数据转换和清洗规则;(6)为综合表制定计划;(7)组织数据缓冲区域和检测工具;(8)为所有的数据装载编写规程;(9)维度表的抽取、转换和装载;(10)事实表的抽取、转换和装载。
四、实验方法、步骤要求:利用实验室和指导教师提供的实验软件,认真完成规定的实验项目,真实地记录实验中遇到的各种问题和解决的方法与过程,并绘出模拟实验案例的数据仓库模型。
《数据仓库与数据挖掘》实验指导书前言数据仓库与数据挖掘技术课程在计算机数据管理、维护中有着相当重要的作用。
数据仓库系统在企业信息管理系统中应用非常广泛,数据挖掘技术对数据仓库的管理及维护、完善数据仓库、发挥数据仓库的作用有着非常大的作用。
本课程主要内容为:数据仓库的概念与体系结构,数据仓库数据处理过程,数据仓库系统的设计与开发,各种数据挖掘技术(关联规则,数据分类,数据类聚,贝叶斯网络,粗糙集,神经网络,遗传算法,统计分析,文本与Web挖掘)及其应用。
本课程既有理论也有实践,实践环节主要是基于SQL Server 2005示例数据仓库环境下进行各种数据挖掘技术的实验。
为使学生能在SQL Server 2005示例数据仓库环境下进行各种数据挖掘技术的实验,首先必须创建一个SQL Server 2005示例数据仓库环境,但考虑到学院实验室管理要求和培养学生的独立动手能力,因此第一个实验(实验一:SQL Server 2005示例数据仓库环境的配置,综合性实验)分两方面进行,一方面由实验室对SQL Server 2005示例数据仓库环境的配置完成,提供给学生进行数据挖掘实验,另一方面,学生可利用自己的计算机环境进行课外实验,交实验报告,其他实验可根据课程内容及课时安排在实验指导教师的指导下在实验室完成。
目录1、实验一:SQL Server 2005示例数据仓库环境的配置···············································页码2、实验二:使用SQL Server 2005建立多维数据模型··················································页码3、实验三:SQL Server 2005中的关联规则应用··························································页码4、实验四:SQL Server 2005中的决策树应用······························································页码5、实验五:SQL Server 2005中的k-means应用···························································页码6、实验六:SQL Server 2005中的贝叶斯网络应用·······················································页码7、实验七:SQL Server 2005中的神经网络应用···························································页码8、实验八:SQL Server 2005中的线性回归应用···························································页码9、实验九:SQL Server 2005中的Logistic回归应用·····················································页码10、实验报告基本内容要求··························································································页码实验一:SQL Server 2005示例数据仓库环境的配置实验学时:2实验类型:综合实验要求:必修一、实验目的通过本实验的学习,使学生掌握配置SQL Server 2005示例数据仓库环境的知识,训练其独立配置数据仓库环境的技能,为今后继续配置数据仓库环境的学习奠定基础。
实验报告
2)修改维度的层次结构和有关属性。
3)增加维度属性。
4)将命名计算列表作为弧度的成员名称。
5)重新部署并查看修改。
6)灵活快速地导出各类统计表。
四.实验结果
五.实验总结
本次实验使用SQL Server 2005建立多维数据模型,使我对建立多维数据模型与数据的导出过程有了简单的认识。
此外,数据仓库的创建与设计过程需要先配置环境,然后建立多维数据模型。
数据仓库系统建立的过程:收集与分析业务需求、建立数据仓库的概念和逻辑模型、
四.实验总结
四实验总结
本次实验使用SQL Server2005中的决策树方法,进一步的了解数据
四实验总结
本次实验使用SQL Server 2005中的Analysis Service服务进行k-means算法模型的建立和处理同时可视化的方式查看结果,本次实验使我对k-means的算法加深了认识与了解。
能做到简单的应用。
k-means聚类算法是将各个聚类子集内的所有数样本的均值作为该聚类的代表点,算法的要紧思想是通过迭代过程把数据集划分为不同的类不,使得评价聚类的性能的准则函数达到最优从而使生成的每个聚类内紧凑。
目录21. 绪论 ........................................................................21.1项目背景 ...................................................................21.2 提出问题................................................................22 数据库仓库与数据集的概念介绍 .................................................22.1数据仓库................................................................2.2数据集..................................................................233 数据仓库 ....................................................................33.1 数据仓库的设计..........................................................3.1.1数据仓库的概念模型设计.............................................333.1.2数据仓库的逻辑模型设计.............................................3.2 数据仓库的建立..........................................................333.2.1数据仓库数据集.....................................................43.2.2建立维表...........................................................4.数据挖掘操作 .................................................................444.1数据预处理..............................................................44.1.1描述性数据汇总.....................................................44.2决策树..................................................................125、实验心得 ...................................................................126、大总结 .....................................................................1. 绪论1.1项目背景在现在大数据时代,各行各业需要对商品及相关关节的数据进行收集处理,尤其零售行业,于企业对产品的市场需求进行科学合理的分析,从而预测出将来的市场,制定出高效的决策,给企业带来经济收益。
数据挖掘实验报告一、实验目的本次数据挖掘实验的主要目的是深入了解数据挖掘的基本概念和方法,并通过实际操作来探索数据中潜在的有价值信息。
二、实验环境本次实验使用了以下软件和工具:1、 Python 编程语言,及其相关的数据挖掘库,如 Pandas、NumPy、Scikitlearn 等。
2、 Jupyter Notebook 作为开发环境,方便进行代码编写和结果展示。
三、实验数据实验所使用的数据来源于一个公开的数据集,该数据集包含了关于_____的相关信息。
具体包括_____、_____、_____等多个字段,数据量约为_____条记录。
四、实验步骤1、数据预处理首先,对原始数据进行了清洗,处理了缺失值和异常值。
对于缺失值,根据数据的特点和分布,采用了平均值、中位数或删除等方法进行处理。
对于异常值,通过箱线图等方法进行识别,并根据具体情况进行了修正或删除。
接着,对数据进行了标准化和归一化处理,使得不同特征之间具有可比性。
2、特征工程从原始数据中提取了有意义的特征。
例如,通过计算某些字段的均值、方差等统计量,以及构建新的特征组合,来增强数据的表达能力。
对特征进行了筛选和降维,使用了主成分分析(PCA)等方法,减少了特征的数量,同时保留了主要的信息。
3、模型选择与训练尝试了多种数据挖掘模型,包括决策树、随机森林、支持向量机(SVM)等。
使用交叉验证等技术对模型进行了评估和调优,选择了性能最优的模型。
4、模型评估使用测试集对训练好的模型进行了评估,计算了准确率、召回率、F1 值等指标,以评估模型的性能。
五、实验结果与分析1、不同模型的性能比较决策树模型在准确率上表现较好,但在处理复杂数据时容易出现过拟合现象。
随机森林模型在稳定性和泛化能力方面表现出色,准确率和召回率都比较高。
SVM 模型对于线性可分的数据表现良好,但对于非线性数据的处理能力相对较弱。
2、特征工程的影响经过合理的特征工程处理,模型的性能得到了显著提升,表明有效的特征提取和选择对于数据挖掘任务至关重要。
数据仓库与数据挖掘实验
实验4:数据仓库与数据挖掘模型综合分析
■系统自带数据仓库和数据挖掘模型分析
使用数据库还原功能,还原系统自带数据仓库和数据挖掘模型,按照上述试验,分析相应的数据仓库和数据挖掘模型。
◆还原系统数据仓库和数据挖掘模型。
开始→程序→Microsoft SQL Server→Analysis Services→Analysis Manager→展开并右击Analysis Services服务器(本例:展开并右击“ZJGSU-HAPPYYOU”)
◆单击“还原数据库(D)…”
◆在选择文件窗口中,选择“C:\Program Files\Microsoft Analysis Services\Samples”目录中的文件“foodmart 2000.cab”
◆单击“打开(O)”,如果已经存在“foodmart 2000”数据库,则出现如下窗口;否则转向(######)下面的窗口
◆(######)单击“是(Y)”
◆单击“还原(R)”
◆单击“关闭(C)”
◆按照实验1、实验2和实验3的内容,完成数据仓库与数据挖掘模型的综合OLAP分析。
四.实验总结通过本次实验,对数据仓库中关联规那么的应用以及如何发现关联规那么有了简单的了解,通过使用Analysis Services效劳进行关联规那么模型的建立和处理,以可视化的方式查看模型结果对关联规那么有了根本的了解。
关联规那么可以反映一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之间存在一定的关联关系,其中一个事物就能通过其他事物预测到。
处理进度完成之后,单击“关闭〞按钮,建模完成。
7.查看挖掘结果再次选择“挖掘模型查看器〞选项卡,由vTargetMail数据集生成的决策树。
四实验总结本次实验使用SQL Server2005中的决策树方法,进一步的了解数据库Analysis Services的功能,对它的使用方法有了更深入的了解,能做一些根本的操作。
通过应用数据库Analysis Services的一些功能,能够分析一些数据之间的联系,有利于做出判断与决策。
四实验总结本次实验使用SQL Server 2005中的Analysis Service效劳进行k-means算法模型的建立和处理并且可视化的方式查看结果,本次实验使我对k-means的算法加深了认识与了解。
能做到简单的应用。
k-means聚类算法是将各个聚类子集内的所有数样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类的性能的准那么函数到达最优从而使生成的每个聚类内紧凑。
实验名称实验五SQLServer 2005中贝叶斯网络应用四实验总结通过本次实验对贝叶斯网络有了更深入的了解,贝叶斯网络是一个白匣子,各个结点之间的影响程度和条件概率关系都可以显示地看到,并且意义明确,因此其更适合那些影响因素少而且关系明确的情况,但贝叶斯网络使用者更多地了解领域,以增加网络的可理解性和预测、诊断的准确性。
通过使用SQLService2005的朴素贝叶斯网络功能使用能够做预测、诊断然后查看各个变量对被预测和被诊断的各个值得影响力。
数据挖掘实验报告
数据挖掘实验报告——数据仓库与数据挖掘
专业:网络营销
一、实验目的
1、熟悉SPSS Clementine 绘图。
2、了解SPSS Clementine 图形选项面板各节点的使用方法。
3、熟练掌握SPSS Cl ementine 数据可视化流程。
二、实验内容
1、打开SPSS Clementine 软件,逐一操作各图形选项面板,熟悉软件功能。
2、打开一有数据库、或新建数据文件,读入SPSS Clementine,并使用各种输出节点,熟悉数据输入输出。
(要求:至少做分布图、直方图、收集图、多重散点图、时间散点图)
三、实验步骤与分析过程
实验二:SPSS Clementine 数据可视化
1、启动Clementine:
2、建立一个流、导入相关数据,打开图形选项面板
3、绘制以下各类图形
(1)以颜色为层次的图
(2)以大小为层次的图
(3)以颜色、大小、形状和透明度为层次的图
(4)以面板图为层次的图
(5)三维收集图
(6)动画散点图
(7)分布图
(8)直方图
(9)收集图
(10)多重散点图
(11)网络图
五、实验总结
通过这次学习让我意识到,对于数据我们不仅要能会用spss统计来分析它
的规律,也要能会通过数据挖掘软件来挖掘数据当中的潜在信息,更好的数据使用者。
也熟悉了SPSS Clementine 的绘图特点,了解SPSS Clementine 图形选项面板各节点的使用方法并熟练掌握SPSS Clementine 数据可视化流程。
精品文档 。 1欢迎下载
一、上机目的及内容 目的: 1.理解数据挖掘的基本概念及其过程; 2.理解数据挖掘与数据仓库、OLAP之间的关系 3.理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。 内容: 将创建一个数据挖掘模型以训练销售数据,并使用“Microsoft 决策树”算法在客户群中找出购买自行车模式。请将要挖掘的维度(事例维度)设置为客户,再将客户的属性设置为数据挖掘算法识别模式时要使用的信息。然后算法将使用决策树从中确定模式。下一步需要训练模型,以便能够浏览树视图并从中读取模式。市场部将根据这些模式选择潜在的客户发送自行车促销信息。 要求: 利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中遇到的各种问题和解决的方法与过程,并根据实验案例绘出模型及操作过程。实验完成后,应根据实验情况写出实验报告。
二、实验原理及基本技术路线图(方框原理图或程序流程图) 关联分析:关联分析是从数据库中发现知识的一类重要方法。 时序模式:通过时间序列搜索出重复发生概率较高的模式。 分类:分类是在聚类的基础上对已确定的类找出该类别的概念描述,代表了这类数据的整体信息,既该类的内涵描述,一般用规则或决策树模式表示。
三、所用仪器、材料(设备名称、型号、规格等或使用软件) 1台PC及Microsoft SQL Server套件 四、实验方法、步骤(或:程序代码或操作过程)及实验过程原始记录( 测试数据、图表、计算等)
创建 Analysis Services 项目 1. 打开 Business Intelligence Development Studio。 2. 在“文件”菜单上,指向“新建”,然后选择“项目”。 3. 确保已选中“模板”窗格中的“Analysis Services 项目”。 4. 在“名称”框中,将新项目命名为 AdventureWorks。 5. 单击“确定”。 精品文档 。 2欢迎下载
更改存储数据挖掘对象的实例 1. 在 Business Intelligence Development Studio 的“项目”菜单中,选择“属性”。 2. 在“属性页”窗格的左侧,单击“部署”。 3. 在“目标”选项部分,验证数据库名称是否为 localhost。如果使用的是其他实例,请键入该实例的名称。单击“确定”。
创建数据源 精品文档
。 3欢迎下载
1. 在解决方案资源管理器中,右键单击“数据源”文件夹,然后选择“新建数据源”。
系统将打开数据源向导。 2. 在“欢迎使用数据源向导”页面中,单击“下一步”按钮。
3. 在“选择如何定义连接”页上,单击“新建”向 Adventure Works 数据库中添加连接。 精品文档
。 4欢迎下载
系统将打开“连接管理器”对话框。 4. 在“连接管理器”的“提供程序”列表中,选择“本机 OLE DB\Microsoft OLE DB Provider for SQL Server”。
5. 在“服务器名称”列表中,键入或选择承载 AdventureWorksDW 的服务器的名称。 6. 在“登录到服务器”组中,选择身份验证方法,并输入凭据。 7. 在“选择或输入数据库名称”列表中,选择 AdventureWorksDW,再单击“确定”按钮。 8. 单击“下一步”按钮进入向导的下一页。 9. 在“模拟信息”页中,选择“使用服务帐户”,再单击“下一步”。
10. 请注意,在“完成向导”页中,数据源名称默认为 Adventure Works DW。
11. 单击“完成”。 新的数据源 Adventure Works DW 将显示在解决方案资源管理器的“数据源”文件夹中。 精品文档 。 5欢迎下载
创建数据源视图 1. 在解决方案资源管理器中,右键单击“数据源视图”,选择“新建数据源视图”。 系统将打开数据源视图向导。
2. 在“欢迎使用数据源视图向导”页上,单击“下一步”。 3. 在“选择数据源”页的“关系数据源”下,系统将默认选中您在上一个任务中创建的 Adventure Works DW 数据源。 单击“下一步”。
若要创建新数据源,请单击“新建数据源”,启动数据源向导。
4. 在“选择表和视图”页上,选择下列各表,然后单击右箭头键,将这些表包括在新数据源视图中: • dbo.ProspectiveBuyer • dbo.vAssocSeqLineItems 精品文档 。 6欢迎下载
• dbo.vAssocSeqOrders • dbo.vTargetMail • dbo.vTimeSeries
5. 单击“下一步”。 精品文档
。 7欢迎下载
6. 在“完成向导”页上,默认情况下,系统将数据源视图命名为 Adventure Works DW。 单击“完成”。 系统将打开数据源视图设计器,显示 Adventure Works DW 数据源视图。
创建用于目标邮件方案的挖掘结构 1. 在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结构”启动数据挖掘向导。
2. 在“欢迎使用数据挖掘向导”页上,单击“下一步”。 3. 在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。 精品文档
。 8欢迎下载
4. 在“创建数据挖掘结构”页的“您要使用何种数据挖掘技术?”下,选择“Microsoft 决策树”。 5. 单击“下一步”。 6. 在“选择数据源视图”页上,请注意已默认选中 Adventure Works DW。在数据源视图中,单击“浏览”查看各表,然后单击“关闭”返回该向导。 精品文档
。 9欢迎下载
7. 单击“下一步”。 8. 在“指定表类型”页上,选中 vTargetMail 表旁边“事例”列中的复选框,再单击“下一步”。
9. 在“指定定型数据”页上,确保已选中 CustomerKey 列旁边 Key 列中的复选框。 如果数据源视图中的源表表示一个键,则数据挖掘向导将自动选择该列作为模型的键。
10. 选中 BikeBuyer 列旁边的“输入”和“可预测”。 精品文档
。 10欢迎下载
11. 单击“建议”打开“提供相关列建议”对话框。 只要选中至少一个可预测属性,即可启用“建议”按钮。“提供相关列建议”对话框将列出与可预测列关联最密切的列,并按照与可预测属性的相互关系对属性进行排序。值大于 0.05 的列将被自动选中,以包括在模型中。
12. 阅读建议,然后单击“取消”忽略建议并保留向导设置的原始值。 13. 选中以下各列旁边的“输入”复选框: • Age • CommuteDistance • EnglishEducation • EnglishOccupation • FirstName • Gender • GeographyKey • HouseOwnerFlag • LastName • MaritalStatus • NumberCarsOwned • NumberChildrenAtHome • Region 精品文档 。 11欢迎下载
• TotalChildren • YearlyIncome
14. 单击“下一步”。 精品文档
。 12欢迎下载
15. 在“指定列的内容和数据类型”页上,单击“检测”以运行对数值数据进行取样并确定数值列是否包含连续或离散值的算法。例如,某列可包含薪金信息,用以作为连续的实际薪金值,也可包含整数,用以表示离散的编码薪金范围(例如 1 = < $25,000;2 = 从 $25,000 到 $50,000)。
16. 单击“检测”后,请查看“内容类型”和“数据类型”列中的各项;如有必要,请进行更改,以确保设置与下表所示一致。
通常,向导会检测数值,并分配相应的数值数据类型;但有些情况下,您可能想要将数值作为文本处理。例如,GeographyKey 应作为文本处理,因为对此标识符进行数学运算是不对的。
列 内容类型 数据类型 Age Continuous Long
BikeBuyer Discrete Long CommuteDistance Discrete Text CustomerKey Key Long EnglishEducation Discrete Text EnglishOccupation Discrete Text FirstName Discrete Text Gender Discrete Text 精品文档 。 13欢迎下载
GeographyKey Discrete Text HouseOwnerFlag Discrete Text LastName Discrete Text MaritalStatus Discrete Text NumberCarsOwned Discrete Long NumberChildrenAtHome Discrete Long Region Discrete Text TotalChildren Discrete Long YearlyIncome Continuous Double
17. 单击“下一步”。 18. 在“将数据拆分为定型集和测试集”页上,对于“测试数据百分比”,请保留默认值 30。