当前位置:文档之家› 数据挖掘中客户的特征化及其划分(一)

数据挖掘中客户的特征化及其划分(一)

数据挖掘中客户的特征化及其划分(一)
数据挖掘中客户的特征化及其划分(一)

数据挖掘中客户的特征化及其划分(一)

摘要]良好客户关系已成为电子商务时代制胜的关键。在激烈的市场竞争中,客户关系管理逐渐成为企业关注的焦点。深入研究客户和潜在客户是在市场中保持竞争力的关键。本文通过对客户行为的特征化分析,以数据挖掘为分析工具,对客户关系管理进行了讨论,给出了相应的划分方法,使用这些划分方法,对客户进行分析是有意义的。

关键词]客户关系管理数据挖掘聚类分析

一、引言

在激烈的市场竞争中,客户关系管理(CustomerRelationshipManagement)逐渐成为各企业关注的焦点。一个成熟的CRM系统要能够有效地获取客户的各种信息,识别客户与企业间的关系及所有交互操作,寻找其中的规律,为客户提供个性化的服务,为企业决策提供支持。

在企业与客户的交互操作中,“二八原则”是值得借鉴的,即20%的客户对企业做出80%的利润贡献。但究竟谁是那20%的客户?又如何确定特定消费群体的消费习惯与消费倾向,进而推断出相应消费群体或个体下一步的消费行为?这都是企业需要认真研究的问题。

二、客户的特征化及其划分

企业认识客户和潜在客户是在市场保持竞争力的关键。特征分析是了解客户和潜在客户的极好方法,包括对感兴趣对象范围进行一般特征的度量。一旦知道带来最大利润客户的特征和行为,就可以直接将其应用到寻找潜在客户之中。有效寻找客户,认识哪些人群像自己的客户。因此,在争取客户的活动中,对感兴趣对象进行特征化及其划分是很有意义的。

对客户的特征化,顾名思义就是用数据来描述或给出客户(潜在客户)特征的活动。特征化可以在数据库(或数据库的不同部分)上进行。这些不同部分也称为划分,通常他们互不包含。

划分分析(SegmentationAnalysis)通常用于根据利润和市场潜力划分客户。如:零售商按客户在所有零售商店的总体购买行为,将客户划分为若干描述他们各自购买行为的区域,这样零售商可以评估哪些客户有最大利润。划分是把数据库分成互不相交部分或分区的活动。一般有两种方法:市场驱动法和数据驱动法。市场驱动法需要决定那些对业务有重要影响的特征,即需要预先选择一些特征变量(属性),以最终定义得到划分。数据驱动法是利用数据挖掘中的聚类技术或要素分析技术寻找同质群体。

三、数据挖掘的概念

数据挖掘(DataMining)是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息。通过数据挖掘提取的知识表示为概念、规则、规律、模式等,它对企业的趋势预测和行为决策提供支持。

1.分类分析

分类是指将数据映射到预先定义好的群组或类。分类要求基于数据属性值来定义类别,通过数据特征来描述类别。根据它与预先定义好的类别相似度,划分到某一类中去。分类的主要应用是导出数据的分类模型,然后使用模型预测。

2.聚类分析

聚类是对抽象样本集合分组的过程。与分类不同之处在于聚类操作要划分的类是事先未知。按照同一类中对象之间较高相似度原则进行划分,目的是使同一类别个体之间距离尽可能小,不同类别中个体间距离尽可能大。类的形成是由数据驱动的。

3.关联规则

关联规则是从大量的数据中挖掘出有价值的描述数据项之间相互关联的知识。关联规则中有两个重要概念:支持度(Support)和信任度(Confidence)。它们是两个度量有关规则的方法,描述了被挖掘出规则的有用性和确定性。关联规则挖掘,希望发现事务数据库中数据项之间的关联,这些规则往往能反映客户的购买行为模式。

4.时间序列分析

时间序列分析是通过对过去历史行为的客观记录分析,揭示其内在的规律,预测未来行为。它旨在从大量的时间序列中提取人们事先不知道的,但又是潜在有用的、与时间属性相关的信息和知识。

5.孤立点分析

数据库中包含那些不符合大多数数据对象所构成规律(模型)的数据对象,称为孤立点。对孤立点挖掘分析可以处理一些特殊事件。

6.回归分析

在掌握大量观察数据的基础上,利用数理统计方法,建立因变量与自变量之间的回归关系函数。回归分析法是定量预测方法之一,它依据事物内部因素变化的因果关系来预测事物的发展趋势。

四、数据挖掘在CRM中的应用

1.对客户的相关属性分析

(1)挖掘客户的特性

DM的第一步就是识别客户群,挖掘客户特性,如:了解客户地址、年龄、性别、收入、教育程度、爱好等基本信息,还有健康、嗜好、配偶、家庭环境等特征信息,发现其行为规律,制定吸引客户的策略。

运用分类与聚类方法,从客户基本库中发现不同的客户群,用购买模式刻画不同客户群的特征,针对不同类型的客户,提供个性化的服务。

(2)客户行为分析

①客户满意度

客户满意度分析是对其产品或服务的消费经验总体评价,应用数据挖掘分析方法可以从零散客户反馈的信息中,分析客户的满意度,找出客户不满意原因。

②客户忠诚度

客户忠诚度是指客户愿意继续购买该企业产品或服务的倾向。以客户的购买倾向为度,对客户数据分析,对高忠诚度的客户继续保持,对低忠诚度的客户要下功夫将其培养成高忠诚度客户。利用分类、聚类方法将客户分为不同客户群,并从中确定那20%的对企业有80%贡献率的最有价值的客户群,对不同价值贡献率客户采取不同策略和措施。

③客户保持

保持客户的同时不断挖掘潜在客户,是企业持续发展的重要手段。通过数据挖掘的决策树、神经网络等方法建立预测模型,识别潜在客户。还可以通过客户盈利能力分析,帮助企业制定市场策略,留住有价值的客户,开发潜在客户。用聚类(分类)和关联分析,发现有价值稳定的客户群,有价值易流失的客户群,低价值稳定的客户群和低价值不稳定的客户群,采取不同的服务(推销)和价格策略稳定有价值客户,转化低价值客户。

④客户跟踪服务

对客户的变动要及时跟踪分析客户变动原因,防止客户群体的流失,指导企业合理配置资源,为客户提供“一对一”个性化服务,以抓住现有客户并吸引潜在客户。

⑤客户生命周期价值

基于客户生活方式和购买行为建立客户分群,计算不同客户分群的生命周期价值,设计差异化的沟通策略。分析客户不同时期收入、成本、风险,利用价值理论公式得出客户的价值并提供预测。数据挖掘技术分析和预测不同市场活动情况下客户盈利能力的变化,帮助企业制定市场策略。

⑥交叉销售

分析客户消费记录,发现潜在交叉购买需求,选择最合适的交叉销售形式。数据挖掘可寻找

那些影响客户购买行为的因素,挖掘隐藏在数据间的表面看似独立事件间的相互关系。如发现“90%的顾客在一次购买活动中购买A商品的同时购买B商品”之类的知识,展开交叉营销。

⑦异常分析

异常事件在商业领域中往往具有显著价值,如:金融欺诈、客户流失等。通过数据挖掘中的偏差分析可以迅速准确地找到异常事件,制定相应的营销策略。客户流失是异常情况之一,根据以前的客户流失数据,包括:客户属性、服务属性、消费属性与流失可能性关联的数学模型,找出客户流失原因,建立预测模型推测现有客户的流失情况。

2.市场分析

预测不同区域消费者对不同产品的消费趋势、季节变化、非规则变化等。采用时序分析方法,对基于时间序列销售数据进行趋势分析,预测市场的趋势变化、循环变化、季节性变化、非规则或随机变化。通过对客户关系管理系统分析,可有效地指导企业在市场、销售、服务等方面将资源分配给有价值的客户,掌握客户的行为模式,以应对各种客户行为以及市场变化。

客户关系管理中的数据挖掘

客户关系管理中的数据挖掘 网舟科技数据分析师:李志才 客户关系管理主要有几个方面:挖掘潜在客户、维持客户忠诚度、挖掘客户的盈利能力和交叉营销。在市场高速扩展的时期要重点关注挖掘潜在客户的工作;在市场相对饱和和稳定的时期,关键是做好维持客户忠诚度的工作,如果客户大量流失,挖掘客户盈利能力和交叉营销只是在做无米之炊罢了。 下面通过一些应用的例子,说明客户关系管理中,应用数据挖掘技术的思路和要点。 在我们某酒店数据挖掘服务的业务中,已有线下会员系统的订单,消费记录数据,又有网站上访客的访问、点击等行为偏好数据。我们希望在此基础上,区分哪些访客是潜在客户并进一步划分会员的等级,向不同的人群推送不同的消息,达到吸引新客户和维持老客户的目的。 基于对行业的认识,我们选取了8个关键指标来描述和区分访客群体。关键指标分别为:average_monthly_visits(平均每月访客次数)、average_pv_of_visit(平均每次访问页面数)、Visit_Duratio(访问时长)、Bounce_Rate(跳出率)、 average_page_views_of_the_hotel(酒店页平均访问次数)、 Hotel_page_view_proportion(酒店页访问时长)、Domestic_page_view_proportion (国内页访问时长)、Conv_Rate(转换率)。用上述指标分别对普卡、银卡、金卡、白金卡客户进行Twostep聚类分析。下面选用分析工具SPSS进行操作。为消除各项指标的数量级差别,用z-score方法对数据进行标准化变换,然后进行Twostep聚类,某类别会员的聚类情况如下

《大数据时代下的数据挖掘》试题及答案要点

《海量数据挖掘技术及工程实践》题目 一、单选题(共80题) 1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到 和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖 掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数 据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法? (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型:(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作:( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法: (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是: (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法? (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方 法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D) A.0.821 B.1.224 C.1.458 D.0.716 15)一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年 级110人。则年级属性的众数是: (A) A.一年级 B.二年级 C.三年级 D.四年级

大数据挖掘商业案例

1.前言 随着中国加入WTO,国金融市场正在逐步对外开放,外资金融企业的进入在带来先进经营理念的同时,无疑也加剧了中国金融市场的竞争。金融业正在快速发生变化。合并、收购和相关法规的变化带来了空前的机会,也为金融用户提供了更多的选择。节约资金、更完善的服务诱使客户转投到竞争对手那里。即便是网上银行也面临着吸引客户的问题,最有价值的客户可能正离您而去,而您甚至还没有觉察。在这样一种复杂、激烈的竞争环境下,如何才能吸引、增加并保持最好的客户呢? 数据挖掘、模式(Patterns>等形式。用统计分析和数据挖掘解决商务问题。 金融业分析方案可以帮助银行和保险业客户进行交叉销售来增加销售收入、对客户进行细分和细致的行为描述来有效挽留有价值客户、提高市场活动的响应效果、降低市场推广成本、达到有效增加客户数量的目的等。 客户细分―使客户收益最大化的同时最大程度降低风险 市场全球化和购并浪潮使市场竞争日趋激烈,新的管理需求迫切要求金融机构实现业务革新。为在激烈的竞争中脱颖而出,业界领先的金融服务机构正纷纷采用成熟的统计分析和数据挖掘技术,来获取有价值的客户,提高利润率。他们在分析客户特征和产品特征的同时,实现客户细分和市场细分。 数据挖掘实现客户价值的最大化和风险最小化。SPSS预测分析技术能够适应用于各种金融服务,采用实时的预测分析技术,分析来自各种不同数据源-来自ATM、交易、呼叫中心以及相关分支机构的客户数据。采用各种分析技术,发现数据中的潜在价值,使营销活动更具有针对性,提高营销活动的市场回应率,使营销费用优化配置。 客户流失―挽留有价值的客户 在银行业和保险业,客户流失也是一个很大的问题。例如,抵押放款公司希望知道,自己的哪些客户会因为竞争对手采用低息和较宽松条款的手段而流失;保险公司则希望知道如何才能减少取消保单的情况,降低承包成本。 为了留住最有价值的客户,您需要开展有效的保留活动。然而,首先您需要找出最有价值的客户,理解他们的行为。可以在整个客户群的很小一部分中尽可能多地找出潜在的流失者,从而进行有效的保留活动并降低成本。接着按照客户的价值和流失倾向给客户排序,找出最有价值的客户。 交叉销售 在客户关系管理中,交叉销售是一种有助于形成客户对企业忠诚关系的重要工具,有助于企业避开“挤奶式”的饱和竞争市场。由于客户从企业那里获得更多的产品和服务,客户与企业的接触点也就越多,企业就越有机会更深入地了解客户的偏好和购买行为,因此,企业提高满足客户需求的能力就比竞争对手更有效。 研究表明,银行客户关系的年限与其使用的服务数目、银行每个账户的利润率之间,存在着较强的正相关性。企业通过对现有客户进行交叉销售,客户使用企业的服务数目就会增多,客户使用银行服务的年限就会增大,每个客户的利润率也随着增大。 从客户的交易数据和客户的自然属性中寻找、选择最有可能捆绑在一起销售的产品和服务,发现有价值的产品和服务组合,从而有效地向客户提供额外的服务,提高活期收入并提升客户的收益率。

大数据复习提纲

1、线性判别函数的正负和数值大小的几何意义 正(负)表示样本点位于判别界面法向量指向的正(负)半空间中;绝对值正比于样本点到判别界面的距离。 2、感知器算法特点 收敛性:经过算法的有限次迭代运算后,求出了一个使所有样本都能正确分类的W,则称算法是收敛的。感知器算法是在模式类别线性可分条件下才是收敛的。 感知器算法只对线性可分样本有收敛的解,对非线性可分样本集会造成训练过程的震荡,这也是它的缺点。 3、聂曼-皮尔逊判决准则、最小最大判决准则等区别 聂曼-皮尔逊判决准则主要用于某一种判决错误较另一种判决错误更为重要情况; 最小最大判别准则主要用于先验概率未知的情况。 4、马式距离较之于欧式距离的优点 优点:马氏距离不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。缺点:夸大了变化微小的变量的作用。受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。尺度不变性;考虑了模式的分布 5、关联规则的经典算法有哪些 Apriori 算法;FP-tree;基于划分的算法 Apriori算法、GRI算法、Carma 6、分类的过程或步骤 答案一:ppt上的 1、模型构建(归纳) 通过对训练集合的归纳,建立分类模型。 2、预测应用(推论) 根据建立的分类模型,对测试集合进行测试。 答案二:老师版本的 训练样本的收集训练集的预处理、模型的选择、模型的训练(问老师后理解整理) 7、分类评价标准

1)正确率(accuracy)就是被分对的样本数除以所有的样本数,通常来说,正确率越高,分类器越好; 2)错误率(error rate) 错误率则与正确率相反,描述被分类器错分的比例,error rate = (FP+FN)/(P+N),对某一个实例来说,分对与分错是互斥事件,所以 accuracy =1 - error rate; 3)灵敏度(sensitive) sensitive = TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力; 4)特效度(specificity) specificity = TN/N,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力;5)精度(precision) 精度是精确性的度量,表示被分为正例的示例中实际为正例的比例, precision=TP/(TP+FP);6)召回率(recall) 召回率是覆盖面的度量,度量有多个正例被分为正例, recall=TP/(TP+FN)=TP/P= sensitive,可以看到召回率与灵敏度是一样的。 正确率:它表示的预测结果正确比例。包括正例和负例。 精确度:它表示的是预测是正例的结果中,实际为正例的比例。 召回率:它表示的是实际为正例样本中,预测也为正例的比例。 综合指标:F1=2*精确率*召回率/精确率+召回率,它实际上精确度和召回率的一个综合指标。 8、支持向量机及常见的核函数选择 SVM的目的是寻找泛化能力好的决策函数,即由有限样本量的训练样本所得的决策函数,在对独立的测试样本做预测分类时,任然保证较小的误差。 本质:求解凸二次优化问题,能够保证所找到的极值解就是全局最优解。 支持向量机的标准:使两类样本到分类面的最短距离之和尽可能大 支持向量机基本思想:通过训练误差和类间宽度之间的权衡,得到一个最优超平面 支持向量机是利用分类间隔的思想进行训练的,它依赖于对数据的预处理,即在更高维的空间表达原始模式。通过适当的到一个足够高维的非线性映射,分别属于两类的原始数据就能够被一个超平面来分隔。 支持向量机的基本思想可以概括为:首先通过非线性变换将输入空间变换到一个高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的内积函数来实现的。支持向量机求得的分类函数形式上类似于一个神经网络,其输出是若干中间层节点的线性组合,而每一个中间层节点对应于输入样本与一个支持向量的内积,因此也被叫做支持向量网络。

数据挖掘试题(单选)

单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD? (A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 11.下面哪种不属于数据预处理的方法? (D) A变量代换 B离散化 C 聚集 D 估计遗漏值 12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? (B) A 第一个 B 第二个 C 第三个 D 第四个 13.上题中,等宽划分时(宽度为50),15又在哪个箱子里? (A) A 第一个 B 第二个 C 第三个 D 第四个 14.下面哪个不属于数据的属性类型:(D) A 标称 B 序数 C 区间 D相异 15. 在上题中,属于定量的属性类型是:(C) A 标称 B 序数 C区间 D 相异 16. 只有非零值才重要的二元属性被称作:( C )

大数据时代下的数据挖掘试题和答案及解析

A. 变量代换 B. 离散化 海量数据挖掘技术及工程实践》题目 、单选题(共 80 题) 1) ( D ) 的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得 到 和原始数据相同的分析结果。 A. 数据清洗 B. 数据集成 C. 数据变换 D. 数据归约 2) 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数 据挖 掘的哪类问题 (A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3) 以下两种描述分别对应哪两种对分类算法的评价标准 (A) (a) 警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b) 描述有多少比例的小偷给警察抓了的标准。 据相分离 (B) 哪一类任务 (C) A. 根据内容检索 B. 建模描述 7) 下面哪种不属于数据预处理的方法 (D) A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4) 将原始数据进行集成、 变换、维度规约、数值规约是在以下哪个步骤的任务 (C) 5) A. 频繁模式挖掘 C. 数据预处理 B. D. 当不知道数据所带标签时, 分类和预测 数据流挖掘 可以使用哪种技术促使带同类标签的数据与带其他标签的数 6) A. 分类 C. 关联分析 建立一个模型, B. D. 聚类 隐马尔可夫链 通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 C. 预测建模 D. 寻找模式和规则

C.聚集 D. 估计遗漏值 8) 假设12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15 在第几个箱子内(B) A. 第一个 B. 第二个 C. 第三个 D. 第四个 9) 下面哪个不属于数据的属性类型:(D) A. 标称 B. 序数 C.区间 D. 相异 10) 只有非零值才重要的二元属性被称作:( C ) A. 计数属性 B. 离散属性 C.非对称的二元属性 D. 对称属性 11) 以下哪种方法不属于特征选择的标准方法:(D) A. 嵌入 B. 过滤 C.包装 D. 抽样 12) 下面不属于创建新属性的相关方法的是:(B) A. 特征提取 B. 特征修改 C. 映射数据到新的空间 D. 特征构造 13) 下面哪个属于映射数据到新的空间的方法(A) A. 傅立叶变换 B. 特征加权 C. 渐进抽样 D. 维归约 14) 假设属性income 的最大最小值分别是12000元和98000 元。利用最大最小规范化的方 法将属性的值映射到0 至 1 的范围内。对属性income 的73600 元将被转化为:(D) 15) 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130 人,四年 级110 人。则年级属性的众数是:(A) A. 一年级 B. 二年级 C. 三年级 D. 四年级 16) 下列哪个不是专门用于可视化时间空间数据的技术:(B) A. 等高线图 B. 饼图

数据分析的特征选择实例分析

数据分析的特征选择实例分析 1.数据挖掘与聚类分析概述 数据挖掘一般由以下几个步骤: (l)分析问题:源数据数据库必须经过评估确认其是否符合数据挖掘标准。以决定预期结果,也就选择了这项工作的最优算法。 (2)提取、清洗和校验数据:提取的数据放在一个结构上与数据模型兼容的数据库中。以统一的格式清洗那些不一致、不兼容的数据。一旦提取和清理数据后,浏览所创建的模型,以确保所有的数据都已经存在并且完整。 (3)创建和调试模型:将算法应用于模型后产生一个结构。浏览所产生的结构中数据,确认它对于源数据中“事实”的准确代表性,这是很重要的一点。虽然可能无法对每一个细节做到这一点,但是通过查看生成的模型,就可能发现重要的特征。 (4)查询数据挖掘模型的数据:一旦建立模型,该数据就可用于决策支持了。 (5)维护数据挖掘模型:数据模型建立好后,初始数据的特征,如有效性,可能发生改变。一些信息的改变会对精度产生很大的影响,因为它的变化影响作为基础的原始模型的性质。因而,维护数据挖掘模型是非常重要的环节。 聚类分析是数据挖掘采用的核心技术,成为该研究领域中一个非常活跃的研究课题。聚类分析基于”物以类聚”的朴素思想,根据事物的特征,对其进行聚类或分类。作为数据挖掘的一个重要研究方向,聚类分析越来越得到人们的关注。聚类的输入是一组没有类别标注的数据,事先可以知道这些数据聚成几簇爪也可以不知道聚成几簇。通过分析这些数据,根据一定的聚类准则,合理划分记录集合,从而使相似的记录被划分到同一个簇中,不相似的数据划分到不同的簇中。 2.特征选择与聚类分析算法 Relief为一系列算法,它包括最早提出的Relief以及后来拓展的Relief和ReliefF,其中ReliefF算法是针对目标属性为连续值的回归问题提出的,下面仅介绍一下针对分类问题的Relief和ReliefF算法。 2.1 Relief算法 Relief算法最早由Kira提出,最初局限于两类数据的分类问题。Relief算法是一种特征权重算法(Feature weighting algorithms),根据各个特征和类别的相关性赋予特征不同的权重,权重小于某个阈值的特征将被移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。算法从训练集D中随机选择一个样本R,然后从和R同类的样本中寻找最近邻样本H,称为Near Hit,从和R不同类的样本中寻找最近邻样本M,称为NearMiss,然后根据以下规则更新每个特征的权重:如果R和Near Hit在某个特征上的距离小于R和Near Miss 上的距离,则说明该特征对区分同类和不同类的最近邻是有益的,则增加该特征的权重;反之,如果R和Near Hit 在某个特征的距离大于R和Near Miss上的距离,说明该特征对区分同类和不同类的最近邻起负面作用,则降低该特征的权重。以上过程重复m次,最后得到各特征的平均权重。特征的权重越大,表示该特征的分类能力越强,反之,表示该特征分类能力越弱。Relief算法的运行时间随着样本的抽样次数m和原始特征个数N的增加线性增加,因而运行效率非常高。具体算法如下所示:

数据挖掘中客户的特征化及其划分(一)

数据挖掘中客户的特征化及其划分(一) 摘要]良好客户关系已成为电子商务时代制胜的关键。在激烈的市场竞争中,客户关系管理逐渐成为企业关注的焦点。深入研究客户和潜在客户是在市场中保持竞争力的关键。本文通过对客户行为的特征化分析,以数据挖掘为分析工具,对客户关系管理进行了讨论,给出了相应的划分方法,使用这些划分方法,对客户进行分析是有意义的。 关键词]客户关系管理数据挖掘聚类分析 一、引言 在激烈的市场竞争中,客户关系管理(CustomerRelationshipManagement)逐渐成为各企业关注的焦点。一个成熟的CRM系统要能够有效地获取客户的各种信息,识别客户与企业间的关系及所有交互操作,寻找其中的规律,为客户提供个性化的服务,为企业决策提供支持。 在企业与客户的交互操作中,“二八原则”是值得借鉴的,即20%的客户对企业做出80%的利润贡献。但究竟谁是那20%的客户?又如何确定特定消费群体的消费习惯与消费倾向,进而推断出相应消费群体或个体下一步的消费行为?这都是企业需要认真研究的问题。 二、客户的特征化及其划分 企业认识客户和潜在客户是在市场保持竞争力的关键。特征分析是了解客户和潜在客户的极好方法,包括对感兴趣对象范围进行一般特征的度量。一旦知道带来最大利润客户的特征和行为,就可以直接将其应用到寻找潜在客户之中。有效寻找客户,认识哪些人群像自己的客户。因此,在争取客户的活动中,对感兴趣对象进行特征化及其划分是很有意义的。 对客户的特征化,顾名思义就是用数据来描述或给出客户(潜在客户)特征的活动。特征化可以在数据库(或数据库的不同部分)上进行。这些不同部分也称为划分,通常他们互不包含。 划分分析(SegmentationAnalysis)通常用于根据利润和市场潜力划分客户。如:零售商按客户在所有零售商店的总体购买行为,将客户划分为若干描述他们各自购买行为的区域,这样零售商可以评估哪些客户有最大利润。划分是把数据库分成互不相交部分或分区的活动。一般有两种方法:市场驱动法和数据驱动法。市场驱动法需要决定那些对业务有重要影响的特征,即需要预先选择一些特征变量(属性),以最终定义得到划分。数据驱动法是利用数据挖掘中的聚类技术或要素分析技术寻找同质群体。 三、数据挖掘的概念 数据挖掘(DataMining)是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息。通过数据挖掘提取的知识表示为概念、规则、规律、模式等,它对企业的趋势预测和行为决策提供支持。 1.分类分析 分类是指将数据映射到预先定义好的群组或类。分类要求基于数据属性值来定义类别,通过数据特征来描述类别。根据它与预先定义好的类别相似度,划分到某一类中去。分类的主要应用是导出数据的分类模型,然后使用模型预测。 2.聚类分析 聚类是对抽象样本集合分组的过程。与分类不同之处在于聚类操作要划分的类是事先未知。按照同一类中对象之间较高相似度原则进行划分,目的是使同一类别个体之间距离尽可能小,不同类别中个体间距离尽可能大。类的形成是由数据驱动的。 3.关联规则 关联规则是从大量的数据中挖掘出有价值的描述数据项之间相互关联的知识。关联规则中有两个重要概念:支持度(Support)和信任度(Confidence)。它们是两个度量有关规则的方法,描述了被挖掘出规则的有用性和确定性。关联规则挖掘,希望发现事务数据库中数据项之间的关联,这些规则往往能反映客户的购买行为模式。

北邮_大数据技术课程重点总结

大数据技术 1.什么是数据挖掘,什么是机器学习: 什么是机器学习 关注的问题:计算机程序如何随着经验积累自动提高性能; 研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能; 通过输入和输出,来训练一个模型。 2.大数据分析系统层次结构:应用层、算法层、系统软件层、基础设施层 3.传统的机器学习流程 预处理-》特征提取-》特征选择-》再到推理-》预测或者识别。 手工地选取特征是一件非常费力、启发式(需要专业知识)的方法,如果数据被很好的表达成了特征,通常线性模型就能达到满意的精度。 4.大数据分析的主要思想方法 4.1三个思维上的转变 关注全集(不是随机样本而是全体数据):面临大规模数据时,依赖于采样分析;统计学习的目的——用尽可能少的数据来证实尽可能重大的发现;大数据是指不用随机分析这样的捷径,而是采用大部分或全体数据。 关注概率(不是精确性而是概率):大数据的简单算法比小数据的复杂算法更有效 关注关系(不是因果关系而是相关关系):建立在相关关系分析法基础上的预测是大数据的核心,相关关系的核心是量化两个数据值之间的数理关系,关联物是预测的关键。 4.2数据创新的思维方式 可量化是数据的核心特征(将所有可能与不可能的信息数据化);挖掘数据潜在的价值是数据创新的核心;三类最有价值的信息:位置信息、信令信息以及网管和日志。 数据混搭为创造新应用提供了重要支持。 数据坟墓:提供数据服务,其他人都比我聪明! 数据废气:是用户在线交互的副产品,包括了浏览的页面,停留了多久,鼠标光标停留的位置、输入的信息。 4.3大数据分析的要素 大数据“价值链”构成:数据、技术与需求(思维);数据的价值在于正确的解读。

数据挖掘试题

For personal use only in study and research; not for commercial use 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 11.下面哪种不属于数据预处理的方法?(D) A变量代换B离散化 C 聚集 D 估计遗漏值 12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?(B) A 第一个 B 第二个 C 第三个 D 第四个 13.上题中,等宽划分时(宽度为50),15又在哪个箱子里?(A) A 第一个 B 第二个 C 第三个 D 第四个 16. 只有非零值才重要的二元属性被称作:( C ) A 计数属性 B 离散属性C非对称的二元属性 D 对称属性 17. 以下哪种方法不属于特征选择的标准方法:(D) A嵌入 B 过滤 C 包装 D 抽样 18.下面不属于创建新属性的相关方法的是:(B) A特征提取B特征修改C映射数据到新的空间D特征构造 22. 假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D) A 0.821 B 1.224 C 1.458 D 0.716 23.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:(A) A 18.3 B 22.6 C 26.8 D 27.9 28. 数据仓库是随着时间变化的,下面的描述不正确的是(C) A. 数据仓库随时间的变化不断增加新的数据内容; B. 捕捉到的新数据会覆盖原来的快照; C. 数据仓库随事件变化不断删去旧的数据内容; D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合. 29. 关于基本数据的元数据是指: (D) A. 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息; B. 基本元数据包括与企业相关的管理方面的数据和信息;

数据挖掘中客户的特征化及其划分

数据挖掘中客户的特征化及其划分 [摘要] 良好客户关系已成为电子商务时代制胜的关键。在激烈的市场竞争中,客户关系管理逐渐成为企业关注的焦点。深入研究客户和潜在客户是在市场中保持竞争力的关键。本文通过对客户行为的特征化分析,以数据挖掘为分析工具,对客户关系管理进行了讨论,给出了相应的划分方法,使用这些划分方法,对客户进行分析是有意义的。[关键词] 客户关系管理数据挖掘聚类分析一、引言在激烈的市场竞争中,客户关系管理(Customer Relationship Management)逐渐成为各企业关注的焦点。一个成熟的CRM 系统要能够有效地获取客户的各种信息,识别客户与企业间的关系及所有交互操作,寻找其中的规律,为客户提供个性化的服务,为企业决策提供支持。在企业与客户的交互操作中,“二八原则”是值得借鉴的,即20%的客户对企业做出80%的利润贡献。但究竟谁是那20%的客户?又如何确定特定消费群体的消费习惯与消费倾向,进而推断出相应消费群体或个体下一步的消费行为?这都是企业需要认真研究的问题。二、客户的特征化及其划分企业认识客户和潜在客户是在市场保持竞争力的关键。特征分析是了解客户和潜在客户的极好方法,包括对感兴趣对象范围进行一般特征的度量。一旦知道带来最大利润客户的特征和行为,就可以直接将其应用到寻找潜在客户之中。有效寻找客户,认识哪些人群像自己的客户。因此,在争取客户的活动中,对感兴趣对象进行特征化及其划分是很有意义的。对客户的特征化,顾名思义就是用数据来描述或给出客户(潜在客户)特征的活动。特征化可以在数据库(或数据库的不同部分)上进行。这些不同部分也称为划分,通常他们互不包含。划分分析(Segmentation Analysis)通常用于根据利润和市场潜力划分客户。如:零售商按客户在所有零售商店的总体购买行为,将客户划分为若干描述他们各自购买行为的区域,这样零售商可以评估哪些客户有最大利润。划分是把数据库分成互不相交部分或分区的活动。一般有两种方法:市场驱动法和数据驱动法。市场驱动法需要决定那些对业务有重要影响的特征,即需要预先选择一些特征变量(属性),以最终定义得到划分。数据驱动法是利用数据挖掘中的聚类技术或要素分析技术寻找同质群体。三、数据挖掘的概念数据挖掘(Data Mining)是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息。通过数据挖掘提取的知识表示为概念、规则、规律、模式等,它对企业的趋势预测和行为决策提供支持。 1.分类分析分类是指将数据映射到预先定义好的群组或类。分类要求基于数据属性值来定义类别,通过数据特征来描述类别。根据它与预先定义好的类别相似度,划分到某一类中去。分类的主要应用是导出数据的分类模型,然后使用模型预测。 2.聚类分析 聚类是对抽象样本集合分组的过程。与分类不同之处在于聚类操作要划分的类是事先未知。按照同一类中对象之间较高相似度原则进行划分,目的是使同一类别个体之间距离尽可能小,不同类别中个体间距离尽可能大。类的形成是由数据驱动的。 3.关联规则关联规则是从大量的数据中挖掘出有价值的描述数据项之间相互关联的知识。关联规则中有两个重要概念:支持度(Support)和信任度(Confidence)。它们是两个度量有关规则的方法,描述了被挖掘出规则的有用性和确定性。关联规则挖掘,希望发现事务数据库中数据项之间的关联,这些规则往往能反映客户的购买行为模式。 4.时间序列分

基于电网运行大数据的在线分布式安全特征选择

基于电网运行大数据的在线分布式安全特征选择 黄天恩1, 2,孙宏斌1,2,郭庆来1,2 ,温柏坚3,郭文鑫3(1. 清华大学电机工程与应用电子技术系,北京市100084;2. 电力系统及发电设备控制和仿真国家重点实验室,清华大学,北京市100084;3. 广东电网有限责任公司电力调度控制中心,广东省广州市510600)摘要:简述大数据环境下,电网安全特征选择的现状与问题三提出了一种基于电网特征量相关性 分组二适应于电网运行大数据的在线分布式安全特征选择方法,该方法能在线挖掘出关键的电网安全运行特征三首先阐述了单个计算节点上电网安全特征选择方法,接着提出了基于电网特征量分组的分布式安全特征选择方法;由于电网特征量分组情况会对特征选择结果产生较大影响,故提出了基于电网特征量相关性分组的策略,尽量使得同一组内的电网特征量相关性较大,不同分组间的电网特征量相关性较小三IEEE 9节点系统和广东实际省网系统算例验证了该方法的实用性和有效性,表明了该方法能够快速挖掘出电网运行的薄弱点,帮助电网运行人员准确地把握电网安全运行特征,同时也对比了该方法相比传统方法在计算准确性和计算速度方面的优势三关键词:热稳定安全域;多维空间;多约束;分段线性近似 收稿日期:2015-04-24;修回日期:2015-09-08三 国家重点基础研究发展计划(973计划)资助项目(2013CB228203) ;国家自然科学基金创新研究群体科学基金资助项目(51321005);中国南方电网有限责任公司科技项目(GDKJ00000058) 三0一引言 随着智能电网的发展与电网自动化程度的提高,电力系统运行与控制中数据来源十分广泛,有来 自电气信息采集系统(CIS ) 二广域测量系统(WAMS )和能量管理系统(EMS )等电网内部数据,也有来自气象信息系统二地理信息系统(GIS )等电网外部数据 [1] 三这些电力系统运行与控制中产生数 据有如下特点:①数据规模越来越大, 数据洪流由传统意义上的GB 上升到TB ,PB 水平;②数据类型丰富,包含结构化二半结构化和非结构化的数据;③数据快速产生,从而数据处理需要达到快速二实时的要求;④数据的价值密度低,由于数据规模大二类型多二产生速率快,对发电企业二电网公司和用户有着巨大的潜在价值,但价值密度却不高三不难发现,电力系统运行与控制中产生的数据具有信息通信技术(ICT )行业大数据典型的 4V 特征,即规模性(volume ),多样性(variet y ),高速性(velocit y ) 和价值性(value )[2] , 这些数据中蕴含着复杂的相关性,传统数据处理技术在数据存储二查询和分析等方面 遇到瓶颈,所以亟须研究电力系统大数据环境下的 数据挖掘与处理技术[ 3-4] 三随着交直流电网的快速发展以及可再生能源的 不断接入,大电网运行方式时变性和复杂性日益增强,其安全运行的特征和规律越来越难以把握,极大地增加了电网运行风险和控制难度三近些年来国内 外一系列的电网安全运行事故[5-6] 都说明:电网运行人员要依托电网安全稳定分析技术[7-9] ,充分掌握电 网安全运行的特征和规律,迅速二精确地明晰电网薄 弱点[10] ,才能避免电网运行事故的发生三文献中有利用相量测量单元(PMU )和故障录波器(DFR ) 等实际量测大数据[11-12] ,分析电力系统安全稳定问题和故障原因;而本文关注到电力系统中海量的计算 资源,故可以利用电网安全稳定分析中的仿真大数据,采用大数据机器学习与数据挖掘的方法,在线挖掘出电网运行的关键安全特征三 特征选择和特征抽取是典型的两种数据降维技术三特征选择将原始的高维特征空间,通过某种标准筛选出一个最优或最有效的特征子集,剔除冗余特征,从而达到降低维数的目标三而特征抽取是将原始的高维特征空间,通过特定的变换投影到数据 特征相对容易表达的低维特征空间[ 13-14] 三在电力系统运行与分析中,特征选择方法更为广泛接受三一 方面,由于量测和仿真数据规模较大,维数较高,特征选择方法计算复杂度相对较低;另一方面,特征选 2 3Vol.40No.4Feb.25,2016 DOI :10.7500/AEPS20150424003

基于数据挖掘的企业客户价值分析

基于数据挖掘的企业客户价值分析 一、背景介绍 在当今激烈的市场竞争环境下,客户资源是企业重要争取的领域。企业客户作为大客户,经营规模较大、销售额可观,是企业经济利润的重要来源。目前增量客户越来越难,怎样做好存量客户维护,挖掘潜力,成为企业提质增效的重要方向。 二、理论来源 RFM模型是衡量客户价值和客户创利能力的重要工具和手段,在成熟的大中型企业广泛应用。 本研究以某对公业务客户价值挖掘为例,创造性地在RFM模型中增加了客户地域A、客户行业I等维度,充分考虑我行客户地域和行业分布情况的影响,形成了RFMAI模型。模型中R为近度(客户在一段时间内最后一次业务发生时间距截止日期的天数)、F为频度(客户在一段时间内业务发生次数)、M为额度(客户在一段时间内发生业务金额)。详见表1。 表1 RFMAI指标含义说明 三、具体做法 本次挖掘企业客户价值分析的总体流程如图1所示。

图1客户价值挖掘建模流程图 客户价值挖掘的关键问题是客户分类,本次客户价值挖掘建模目标如下: (1)使用企业客户数据,对客户进行分类。 (2)对不同的客户类别进行特征分析,比较各类客户的客户价值。 (3)对不同价值的客户类别提供个性化服务,制定相应的营销策略。 企业客户价值挖掘主要包括以下步骤: (1)数据抽取 选取2017年1月1日至2018年12月31日作为分析观测窗口,抽取观测窗口内企业客户数据。 (2)数据探索分析 本次挖掘的探索分析是对数据进行缺失值分析与异常值分析,分析出数据的规律以及异常值。通过对数据中的异常值、重复记录、撤销记录等进行处理,筛选去除无效记录。 (3)数据预处理 本次主要采用属性规约、数据清洗与数据变换的预处理方法。 (4)模型构建

对信用卡客户分类和数据挖掘

对信用卡客户分类和数据挖掘 选题背景:随着经济的发展,我国信用卡市场逐步壮大并日益繁荣。近几年信用卡逐渐成为我国居民个人消费使用最为频繁的支付工具之一。信用卡属于一种贷款,这也构成了客户对于开证银行的债务关系,所以信用卡开证行对于用户的基本信息以及对于其信用价值评估也成为了重要的一环,评估的结果可以用来分析客户的最大信用额度几何、客户是否能够成功开通信用卡业务,以及还款的时间比例等等是否合理。因此商业银行利用先进的数据挖掘技术对客户基本信息分析进行客户分类,区别不同的客户群体,然后针对不同客户群体,采取不同的发卡方式,、营销策略、风险控制举措这些举动都是十分有必要的,也是对信用卡产品获得市场份额有巨大帮助作用的。 选题意义:利用数据挖掘技术对信用卡客户进行分析的主要意义。从小的方面来说,利用数据挖掘技术对信用卡客户进行分类,不仅有利于信用卡客户关系得到系统、有序、差异性管理,还有利于银行进行有效的风险控制和风险管理。一是通过对信用卡客户的分类,银行可以针对不同客户群体,全面深入地了解客户的不同需求,并推出有针对性的特色产品,从而提高发卡率、市场占有率、客户使用率等,为银行创造更多的收益。二是通过对信用卡客户的分类,可以分析发现风险较高客户群,特别地对这类客户群的消费行为、信用状况进行监测和控制,以便可以及早发现并消除潜在的信用风险和欺诈风险。从大的方面来说,商业银行在建立有效的信用卡分类管理智能系统的基础上,充分利用数据挖掘技术强大的数据分析和挖掘能力,帮助信用卡业务管理者做出正确的判断和决策,不断创新信用卡个性化服务内容,增强信用卡产品在国内或者国际市场上的竞争力。文献综述 信用卡作为特殊的金融商品、现代化的金融工具,是国际流行的先进结算手段、支付工具和新颖的消费信贷方式,日益受到人们的青睐。由于使用信用卡,改现金交易为转账结算,取代了一定数量的市场流通货币,减少了货币的发行量,减少了国家每年用于货币印刷、调拨、运输、仓储和投放所耗费的资金,也加快了社会流动资金周转速度,促进经济发展。信用卡还能促进商品销售,刺激社会需

《基于大数据挖掘技术及工程实践》试题及答案

《基于大数据挖掘技术及工程实践》试题 及答案 《海量数据挖掘技术及工程实践》题目 一、单选题 1) ( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到 和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2) 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖 掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3) 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4) 将原始数据进行集成、变换、维度规约、数值规约

是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5) 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数 据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6) 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7) 下面哪种不属于数据预处理的方法? (D) A.变量代换 B.离散化 C.聚集 D.估计遗漏值 8) 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, xx年纪人数分别为:一年级xx年级160人,三年级130人,四年 级110人。则年级属性的众数是: (A) A.一年级 B.二年级 C.三年级 D.四年级 16) 下列哪个不是专门用于可视化时间空间数据的技

相关主题
文本预览
相关文档 最新文档