数据挖掘第二讲作业
- 格式:docx
- 大小:18.31 KB
- 文档页数:6
数据挖掘作业21. 引言数据挖掘是一种从大量数据中发现、提取和分析有用信息的过程。
本文旨在探讨数据挖掘作业2的相关内容,包括数据集选择、数据预处理、特征选择和模型建立等。
2. 数据集选择在数据挖掘作业2中,我们选择了一个涉及电子商务的数据集。
该数据集包含了用户的购买记录、产品信息、用户评价等多个维度的数据。
通过对该数据集的挖掘,我们希望能够发现用户的购买偏好、产品的销售趋势等有价值的信息。
3. 数据预处理在进行数据挖掘之前,我们需要对数据进行预处理,以确保数据的质量和可用性。
首先,我们对数据进行清洗,去除缺失值和异常值。
然后,我们对数据进行归一化处理,以消除不同特征之间的量纲差异。
最后,我们对数据进行采样,以减少计算复杂度并保持数据的代表性。
4. 特征选择特征选择是数据挖掘的重要步骤,旨在从原始特征中选择出最具有预测能力的特征。
在数据挖掘作业2中,我们采用了信息增益和相关系数等方法来评估特征的重要性,并选择出了与目标变量相关性较高的特征。
此外,我们还进行了特征的降维处理,以减少特征空间的维度。
5. 模型建立在数据挖掘作业2中,我们选择了决策树算法作为模型建立的方法。
决策树是一种基于树状结构的分类模型,通过对特征进行逐步划分,最终得到一个可以对新样本进行分类的模型。
我们使用了ID3算法来构建决策树模型,并通过交叉验证的方法对模型进行评估和调优。
6. 模型评估为了评估模型的性能,我们采用了准确率、召回率、F1值等指标来衡量模型的分类效果。
此外,我们还使用了混淆矩阵来展示模型的分类结果,并计算了ROC曲线下的面积(AUC)来评估模型的整体性能。
7. 结果分析通过对数据挖掘作业2的实验和分析,我们得到了一些有价值的结论。
首先,我们发现用户对某一类产品的购买意愿与其评价的积极程度呈正相关关系。
其次,我们发现某些产品的销售量与其价格呈负相关关系,即价格越高,销售量越低。
最后,我们通过决策树模型对用户的购买行为进行了预测,并取得了较好的分类效果。
数据挖掘作业2数据挖掘作业2:预测用户购买行为1. 引言在电子商务领域,了解用户的购买行为对于企业制定营销策略和提高销售业绩至关重要。
数据挖掘技术可以帮助企业从大量的用户数据中发现隐藏的模式和规律,进而预测用户的购买行为。
本文将使用数据挖掘技术,基于给定的用户购买历史数据,建立一个预测模型,以预测用户是否会购买某个产品。
2. 数据收集与预处理为了建立预测模型,我们首先需要收集用户的购买历史数据。
数据可以包括用户的基本信息(如性别、年龄、地区等)和购买记录(如购买时间、购买金额等)。
在收集到数据后,我们需要对数据进行预处理,包括数据清洗、数据集成、数据变换和数据规约等步骤。
数据清洗包括处理缺失值、异常值和重复值等;数据集成将多个数据源进行整合;数据变换可以对数据进行归一化、标准化或离散化处理;数据规约可以通过抽样或维度约简等方法减少数据的规模。
3. 特征选择与提取特征选择是从大量的特征中选择出对于预测目标有用的特征。
我们可以使用相关性分析、信息增益、卡方检验等方法进行特征选择。
特征提取是通过对原始数据进行变换,从中提取出新的特征。
常用的特征提取方法包括主成分分析、因子分析和独立成分分析等。
在本任务中,我们可以根据用户的购买历史数据提取出一些特征,如用户的购买频次、购买金额的平均值和方差等。
4. 模型选择与建立在数据预处理和特征提取完成后,我们可以选择适合的预测模型进行建立。
常用的预测模型包括决策树、支持向量机、神经网络和朴素贝叶斯等。
在本任务中,我们可以使用逻辑回归模型进行建模。
逻辑回归模型是一种分类模型,可以将输入特征映射到一个概率值,表示用户购买的可能性。
在建立模型时,我们需要将数据集分为训练集和测试集,用训练集训练模型,并用测试集评估模型的性能。
5. 模型评估与优化在模型建立完成后,我们需要对模型进行评估和优化。
常用的模型评估指标包括准确率、精确率、召回率和F1值等。
我们可以使用交叉验证方法对模型进行评估,通过调整模型的参数和特征,进一步优化模型的性能。
数据挖掘作业2一、任务背景数据挖掘是一种通过发现和分析大量数据中的模式和关联来提取有用信息的过程。
数据挖掘技术在各个领域中得到广泛应用,例如市场营销、金融风险管理、医疗诊断等。
本次数据挖掘作业2旨在通过使用机器学习算法对给定的数据集进行分析和预测,以解决一个实际问题。
二、任务描述本次数据挖掘作业2的任务是基于一个电信公司的客户数据集,构建一个客户流失预测模型。
客户流失是指客户停止使用某个产品或服务的情况,对于电信公司来说,客户流失可能导致业务下降和收入减少。
因此,通过预测客户流失,电信公司可以采取相应的措施来留住客户,提高客户忠诚度。
三、数据集介绍本次任务使用的数据集包含了一些客户的个人信息、合同信息、付款信息等。
数据集中的每一行代表一个客户的信息,每一列代表一个特征。
数据集中包含了以下特征:1. 客户ID:每个客户的唯一标识符。
2. 性别:客户的性别,可能取值为男或女。
3. 年龄:客户的年龄,以岁为单位。
4. 合作伙伴:客户是否有合作伙伴,可能取值为有或无。
5. 好友:客户是否有好友,可能取值为有或无。
6. 月租费:客户每月支付的费用,以美元为单位。
7. 总消费:客户总共支付的费用,以美元为单位。
8. 在网时间:客户使用该服务的时间,以月为单位。
9. 流失:客户是否已经流失,可能取值为是或否。
四、数据挖掘流程1. 数据预处理:a. 导入数据集:读取数据集,并查看数据的基本信息,如数据类型、缺失值情况等。
b. 数据清洗:处理数据中的缺失值、异常值等问题,确保数据的质量。
c. 特征选择:根据领域知识和特征相关性等方法,选择对预测客户流失有重要影响的特征。
d. 数据转换:对数据进行标准化、归一化等处理,以便于模型的训练和预测。
2. 模型训练:a. 划分数据集:将数据集划分为训练集和测试集,通常采用70%的数据作为训练集,30%的数据作为测试集。
b. 选择模型:根据任务的特点和需求,选择适合的机器学习算法,如逻辑回归、决策树、支持向量机等。
数据挖掘作业2数据挖掘作业2:文本分类一、引言文本分类是数据挖掘中的一项重要任务,它的目标是将文本按照预定义的类别进行分类。
本文将介绍文本分类的背景和意义,并详细阐述文本分类的标准格式。
二、背景和意义随着互联网的发展,海量的文本数据被广泛应用于各个领域,如情感分析、垃圾邮件过滤、新闻分类等。
而文本分类作为文本数据处理的基础任务,具有重要的实际意义。
通过对文本进行分类,可以帮助人们快速获取所需信息,提高工作效率和决策能力。
三、文本分类的标准格式1. 数据准备在进行文本分类之前,需要准备好标注好类别的文本数据集。
数据集应包含两部分:文本内容和对应的类别标签。
文本内容可以是一段文字、一篇文章或一封邮件等。
类别标签可以是预定义的类别,如“体育”、“科技”、“娱乐”等。
2. 特征提取特征提取是文本分类的关键步骤。
通过将文本转化为可计算的特征向量,可以方便地进行后续的分类操作。
常用的特征提取方法有词袋模型、TF-IDF、词嵌入等。
在选择特征提取方法时,需要考虑文本的语言特点、数据集的规模和分类任务的要求。
3. 数据预处理在进行特征提取之前,需要对原始文本进行预处理。
预处理包括去除停用词、标点符号和数字,进行词干化或词形还原等操作。
预处理的目的是减少噪声和数据维度,提高分类的准确性和效率。
4. 模型选择选择合适的分类模型对文本进行分类。
常用的文本分类模型有朴素贝叶斯、支持向量机、深度学习模型等。
在选择模型时,需要考虑数据集的规模、特征的稀疏性、分类任务的复杂度等因素。
5. 模型训练和评估使用标注好的文本数据集对选择的模型进行训练,并评估模型的性能。
常用的评估指标有准确率、精确率、召回率、F1值等。
通过评估模型的性能,可以选择最优的模型或调整模型的参数,提高分类的准确性和泛化能力。
6. 模型应用将训练好的模型应用于未标注的文本数据进行分类。
通过模型的预测结果,可以对未知文本进行分类,实现自动化的文本分类任务。
四、总结文本分类是一项重要的数据挖掘任务,通过对文本进行分类,可以帮助人们快速获取所需信息。
数据挖掘第二章作业2.a)用AM和PM表示的时间离散的、定量的、区间的。
b)根据曝光表测出的亮度离散的、定量的、比率的。
c)根据人的判断测出的亮度连续的、定性的、序数的。
d)按度测出的0和360之间的角度离散的、定量的、比率的。
(可以是连续的,因为按度测出的角度值可以是实数值得属性)e)奥运会上授予的铜牌、银牌、和金牌离散的、定量的、比率的。
f)海拔高度连续的、定量的、比率的。
g)医院中的病人数离散的、定量的、比率的。
h)书的ISBN号(查找网上的格式)离散的、定性的、标称的。
i)用如下值表示的透光能力:不透明、半透明、透明离散的、定性的、序数的。
j)军衔离散的、定性的、序数的。
K)到校园中心的距离连续的、定量的、比率的。
l)用每立方厘米克表示的物质密度连续的、定量的、比率的。
m)外套寄存号码离散的、定性的、标称的。
14.用欧几里得度量来对这些大象进行比较或分组。
因为第一所有的属性测出的值都是数值性质的,并且根据取值规模的不同有很大的取值范围;其次同一对象的不同属性之间是没有什么关系的,所以不用相关性度量;再者在本题中每个对象的量值是重要的,而余弦相似度不考虑数据对象的量值;最后将属性值标准化成平均数为0,标准差为1后再应用欧几里得距离是适当的方法。
16.a)如果出现在一个文档中,tf’ij=tfij*log(m);如果出现在每个文档中,tf’ij=0;b)这个标准化反应了如果一个词出现在每一个文档中,那么就不能通过这个词来区分不同的文档,如果这个词出现的很少,那么就可以通过这个词来区分不同的文档。
18.a)x=010*******y=010*******汉明距离=3;f01=1; f10=2; f11=2;Jaccard相似度=2/(1+2+2)=0.4;b)汉明距离更相似于简单匹配系数,因为简单匹配系数=1—汉明距离/所有位数;Jaccard相似度更相似于余弦度量,因为他们都忽略了0-0匹配。
数据挖掘作业2数据挖掘是一种从大量数据中发现实用信息和模式的过程。
数据挖掘作业2旨在让学生运用数据挖掘技术,分析和挖掘给定数据集中的实用信息和模式。
本次数据挖掘作业2的任务是基于一个电子商务网站的用户行为数据集,通过分析和挖掘数据,了解用户的行为模式和购买意向,进而提供有针对性的推荐策略和市场营销方案。
首先,我们需要对数据集进行预处理。
这包括数据清洗、去除重复数据、处理缺失值等。
通过这些步骤,我们可以确保数据的准确性和完整性。
接下来,我们可以进行数据探索和可视化分析。
利用统计学和可视化工具,我们可以对数据集进行探索,了解用户的行为特征和购买习惯。
例如,我们可以通过绘制柱状图或者饼图来展示用户的购买类别偏好,或者使用散点图来展示用户的浏览时间和购买金额之间的关系。
在数据探索的基础上,我们可以应用数据挖掘技术来挖掘隐藏在数据中的模式和规律。
其中,常用的数据挖掘技术包括关联规则挖掘、聚类分析、分类算法等。
通过这些技术,我们可以发现用户之间的关联关系、不同用户群体之间的差异以及用户购买意向的预测等。
例如,我们可以利用关联规则挖掘算法,找出用户购买某一商品时,同时购买其他商品的规律。
这可以匡助电子商务网站进行交叉销售和推荐相关商品。
此外,我们可以利用聚类分析算法,将用户分成不同的群体,进而制定针对性的营销策略。
此外,通过分类算法,我们可以预测用户的购买意向,从而提前采取措施,增加用户的转化率。
最后,我们可以根据数据挖掘的结果,提出相应的推荐策略和市场营销方案。
这些策略和方案应该基于对用户行为的深入理解和数据挖掘的结果。
例如,我们可以通过个性化推荐系统,向用户推荐他们可能感兴趣的商品。
或者,我们可以通过优惠券、促销活动等方式,刺激用户的购买欲望。
综上所述,数据挖掘作业2旨在让学生通过对电子商务网站用户行为数据的分析和挖掘,了解用户的行为模式和购买意向,并提供有针对性的推荐策略和市场营销方案。
通过完成这个任务,学生可以提升数据挖掘和分析的能力,并将其应用于实际问题的解决中。
数据挖掘作业2一、任务背景与目的数据挖掘作业2旨在通过应用数据挖掘技术,从给定的数据集中发现有价值的信息和模式,以帮助决策者做出准确的决策。
本次作业的任务是基于一个电子商务网站的用户行为数据,分析用户购买行为,并构建一个预测模型,以预测用户是否会购买某个特定的产品。
二、数据集介绍本次作业使用的数据集包含了一段时间内的用户行为数据,包括用户的浏览、加购物车、购买等行为。
数据集中的字段包括用户ID、时间戳、产品ID、行为类型等。
数据集共有100万条记录。
三、数据预处理1. 数据清洗:对数据集进行清洗,去除重复记录、缺失值等异常数据。
2. 特征选择:根据业务需求和特征的相关性,选择合适的特征进行分析和建模。
3. 特征编码:对类别型特征进行编码,如使用独热编码将类别型特征转换为数值型特征。
4. 数据划分:将清洗和编码后的数据集划分为训练集和测试集,一般采用70%的数据作为训练集,30%的数据作为测试集。
四、数据分析与建模1. 数据可视化:通过绘制柱状图、折线图等方式,对用户行为数据进行可视化分析,了解用户行为的分布和趋势。
2. 关联规则挖掘:使用关联规则算法(如Apriori算法)挖掘用户行为之间的关联关系,发现用户购买某个产品的规律。
3. 用户分类:根据用户的购买行为特征,使用聚类算法(如K-means算法)将用户划分为不同的类别,以便更好地理解用户的购买行为。
4. 预测模型构建:选择合适的机器学习算法(如决策树、随机森林等),构建用户购买行为的预测模型。
五、模型评估与优化1. 模型评估:使用准确率、召回率、F1值等指标对构建的预测模型进行评估,选择最优的模型。
2. 模型优化:根据评估结果,对模型进行调参和优化,以提高模型的准确性和泛化能力。
六、结果分析与报告撰写1. 结果分析:对模型预测结果进行分析,比较不同模型的性能差异,找出影响用户购买行为的主要因素。
2. 报告撰写:根据分析结果,撰写数据挖掘作业2的报告,包括任务背景、数据处理方法、模型构建过程、结果分析等内容。
数据挖掘在客户关系管理中的应用一、数据挖掘技术在客户关系管理中的主要应用领域1、客户关系管理中常用的数据挖掘方法常用的数据挖掘方法主要包括:分类、聚类、关联规则、统计回归、偏差分析等等。
(1)分类:分类在数据挖掘中是一项非常重要的任务。
分类的目的是通过统计方法、机器学习方法(包括决策树法和规则归纳法)、神经网络方法等构造一个分类模型,然后把数据库中的数据映射到给定类别中的某一个。
(2)聚类:聚类是把一组个体按照相似性归成若干类别。
即“物以类聚”。
它的目的是使同一类别之内的相似性尽可能大,而类别之间的相似性尽可能小。
这种方法可以用来对客户进行细分,根据客户的特征和属性把客户分成不同客户群,根据其不同需求,制订针对不同客户群的营销策略。
(3)关联规则:它是描述数据库中数据项之间存在关联的规则,即根据一个事物中某些项的出现可导出另一项在同一事物中也出现,即隐藏在数据间的关联或相互关系。
在客户关系管理中,通过对企业客户数据库里大量数据进行挖掘,可以从中发现有趣的关联关系。
(4)回归分析:回归分析反映的是事务数据库中属性值在时间上的特征.主要用于预测,即利用历史数据自动推出对给定数据的推广描述.从而对未来数据进行预测。
它可应用于商品销售趋势预测、客户赢利能力分析和预测等。
(50偏差分析:偏差分析侧重于发现不规则和异常变化,即与通常不同的事件。
在相类似的客户中,对客户的异常变化要给予密切关注。
例如某客户购买行为发生较大变化,购买量较以前大大减少,就要对客户的这种原因进行调查,避免客户流失。
2、数据挖掘在客户关系管理中的具体运用由于零售业采用P O S机和C R M。
使得顾客的资料及购买信息得以贮存。
在这些海量的数据中存在着许多能对商品决策提供真正有价值的决策信息。
商家面临以下问题是:真正有价值的信息是哪些。
这些信息有哪些关联等等。
因此,需要从大量的数据中, 经过深层分析,从而获得有利商业运作提高企业争力的信息。
第二讲大数据分析处理概述1、Hadoop是一个(C)A.进行大数据分析处理的操作系统B.专门存储大数据的数据库C.大数据计算框架D.收费的商业数据分析服务提供商2、Hadoop集群可以运行的3个模式是(ABC)多选A.本地模式B.伪分布模式C.全分布模式D.离线模式3、在Hadoop中,计算任务被称为Job,JobTracker是一个后台服务进程,启动之后,会一直监听并接收来自各个TaskTracker发送的心跳信息,包括资源使用情况和任务运行情况等信息,它使用的端口号是(B)A.70B.30C.80D.604、在Hadoop中,一个作业(Job)包含多个任务(Task),从JobTracker接收并执行各种命令:运行任务、提交任务、杀死任务等;另一方面,将本地节点上各个任务的状态通过心跳周期性汇报给JobTracker,它使用的端口号是(D)A.70B.30C.80D.605、Hadoop是由(B)语言编写的A.CB.JavaC.PythonD.Scala6、Hadoop中,集群的结构是(A)A.Master/Slave 结构B.P2P结构C.串行结构D.以上都是7、Hadoop平台中使用哪种技术可以运行Python语言编写的MapReduce代码(A)A.Hadoop StreamingB.Hadoop C++编程接口C.HiveD.Hbase8、在Hadoop中,下列哪项主要提供基础程序包以及和操作系统进行交互(A)A.Hadoop Common packageB.Hadoop Distributed File SystemC.Hadoop YARND.MapReduce Engine9、Hadoop的局限和不足(ABCD)A.抽象层次低,需要手工编写代码来完成,使用上难以上手B.对于迭代式数据处理性能比较差C.中间结果也放在HDFS文件系统中D.时延高,只适用Batch数据处理,对于交互式数据处理,实时数据处理的支持不够10、以下哪项不是Hadoop Streaming框架的优点(C)A.可以使用其他语言(包括脚本语言)编写的程序移植到Hadoop平台上B.可以使用性能更好的语言(C/C++)来编写程序C.可以不用设置Map与Reduce过程D.Streaming框架汇总通过limit等方式可以灵活的先知应用程序使用的内存等资源11、下列哪些选项是Hadoop Streaming框架的缺点(A)A.Hadoop Streaming默认只能处理文本数据,无法直接对二进制数据进行处理B.Hadoop Streaming 不方便程序向Hadoop平台移植C.Streaming中的mapper和reducer默认只能向标准输出写数据,不能方便地处理多路输出D.只要程序能从标准输入读取数据、向标准输出写数据,就能使用Hadoop Streaming12、在Hadoop中,下列哪项主要功能是计算资源的调度(C)A.Hadoop common packageB.Hadoop Distributed File SystemC.Hadoop YARND.MapReduce Engine13、在Hadoop中,下列哪项负责文件的分布式存储与访问(B)A.Hadoop common packageB.Hadoop Distributed File SystemC.Hadoop YARND.MapReduce Engine14、在Hadoop中,下列哪项负责计算任务的并行化(D)A.Hadoop common packageB.Hadoop Distributed File SystemC.Hadoop YARND.MapReduce Engine15、下列哪项不是Hadoop的核心组件(A)A.Hadoop Common PackageB.Apache StormC.MapReduce EngineD.Hadoop YARN16、在MapReduce计算框架中,Map主要负责(B)A.接收一组键值对,并将其映射为多组键值对发送出去B.接收一个键,以及相关的值的集合,并对这一组值进行约简操作C.在分布式集群上管理以键值对形式存储的数据D.计算资源的调度17、在MapReduce计算框架中,Reduce主要负责(C)A.接收一组键值对,并将其映射为多组键值对发送出去B.接收一个键,以及相关的值的集合,并对这一组值进行约简操作C.在分布式集群上管理以键值对形式存储的数据D.计算资源的调度18、Hive是一个数据仓库工具,它可以(B)A.对大数据进行分布式存储B.将SQL语句转化为MapReduce操作C.将传统关系数据库转化为分布式数据库D.将行数据库转换为列数据库19、HBase是基于Hadoop的一个分布式数据库,关于HBase,下列说法正确的是(C)A.HBbase是一个行数据库B.HBase是一个关系数据库,因此只能存储结构化信息C.HBase是一个列数据库,以键值对的形式存储数据D.HBase不是Hadoop的核心组件,可以独立于Hadoop运行20、HDFS默认Block Size (B)A.32MBB.64MBC.128MBD.256M21、下面哪个程序负责HDFS数据存储。
(C)NodeB.JobtrackerC.DatanodeD.secondaryNameNode22、下列哪个程序通常与NameNode在一个节点启动?(D)A.SecondaryNameNodeB.DataNodeC.TaskTrackerD.Jobtracker23、HDfS中的block默认保存几份(C)A.3份B.2份C.1份D.不确定24、Mahout是一个机器学习工具包,它(A)A.包含若干机器学习算法的MapReduce实现B.提高了HDFS文件存取的速度C.增强了Hadoop集群的性能D.降低了数据通信的时间开销25、关于Spark,下列说法错误的是:(C)A.Spark可以将中间数据缓存在内存中,极大提高运算效率B.Spark采用MapReduce机制进行任务并行化C.RDD是Spark的基本数据结构D.Spark非常适合迭代运算26、大数据分析处理的基本流程主要包括哪些步骤(D)A.数据准备B.特征工程C.建模分析D.以上都是27、下列哪项不是数据准备需要完成的工作(B)A.从数据源采集数据并存入HDFSB.分析数据的特点,提取有效的特征C.去除数据中的噪声D.过滤无效的或不完整且无法补全的数据28、下列哪项通常是集群的最主要瓶颈(C)A.CPUB.网络C.磁盘D.内存29、有关特征工程的说法,错误的是(A)A.特征工程只需要对数据进行统计分析就行,不用了解任务对应的具体应用的领域知识。
B.特征工程包含特征提取和特征选择两个步骤C.特征工程的目的是从原始数据中提取具有代表性的数据特征,方便计算机进一步分析处理D.特征工程需要综合考虑预期使用的模型进行数据特征的设计30、下列哪项不能用来检验特征的有效性(C)A.信息增益算法B.卡方检验算法C.主成分分析算法D.相关系数31、特征选择的策略包括(A)A.穷举法B.前向选择C.后向选择D.双向选择32、在大数据分析处理中,建模分析主要包括: (D)A.模型选择B.模型训练C.模型评测D.以上都是33、特征选择可以(B)A.选择区分能力强的数据B.降低模型分析的时间复杂度C.减少无效特征D.创建新的特征34、有一包含1,000个样本的数据集,经过特征提取和特征选择,平均每个样本提取出了100个特征,共100,000个,其中不重复的特征为10,000个,如果采用向量空间模型将样本表示为向量,那么每个样本被表示为多少位的向量(B)A.100B.1,000C.10,000D.100,00035、假如你有2014级学生的考勤记录以及他们是否通过考试的数据,以及2015年级学生的考勤记录,需要预测2015级学生是否能通过考试,应当选择(A)A.分类模型B.回归模型C.频繁项挖掘模型D.聚类模型36、假如你有2014级学生的考勤记录以及他们的考试分数,以及2015年级学生的考勤记录,需要预测2015级学生的考试分数,应当选择(B)A.分类模型B.回归模型C.频繁项挖掘模型D.聚类模型37、假如你有2014级学生的选课信息,想要挖掘那些课程之间具有较高的相关性,即经常被同样的学生同时选择,应当使用(C)A.分类模型B.回归模型C.频繁项挖掘模型D.聚类模型38、假如你有2014级学生的选课信息,想要知道那些学生具有相同的学习兴趣,应当使用(D)A.分类模型B.回归模型C.频繁项挖掘模型D.聚类模型39、常见的分类算法有(ABD)A.朴素贝叶斯算法B.决策树算法C.Kmeans算法D.支持向量机算法40、常见的分类算法有(D)A.DBScan算法B.层次聚类算法C.Kmeans算法D.逻辑斯蒂回归算法。