大数据挖掘第二次作业

格式：doc
大小：419.94 KB
文档页数：11

下载文档原格式

/ 11

数据挖掘作业2

数据挖掘作业21. 引言数据挖掘是一种从大量数据中发现、提取和分析有用信息的过程。

本文旨在探讨数据挖掘作业2的相关内容，包括数据集选择、数据预处理、特征选择和模型建立等。

2. 数据集选择在数据挖掘作业2中，我们选择了一个涉及电子商务的数据集。

该数据集包含了用户的购买记录、产品信息、用户评价等多个维度的数据。

通过对该数据集的挖掘，我们希望能够发现用户的购买偏好、产品的销售趋势等有价值的信息。

3. 数据预处理在进行数据挖掘之前，我们需要对数据进行预处理，以确保数据的质量和可用性。

首先，我们对数据进行清洗，去除缺失值和异常值。

然后，我们对数据进行归一化处理，以消除不同特征之间的量纲差异。

最后，我们对数据进行采样，以减少计算复杂度并保持数据的代表性。

4. 特征选择特征选择是数据挖掘的重要步骤，旨在从原始特征中选择出最具有预测能力的特征。

在数据挖掘作业2中，我们采用了信息增益和相关系数等方法来评估特征的重要性，并选择出了与目标变量相关性较高的特征。

此外，我们还进行了特征的降维处理，以减少特征空间的维度。

5. 模型建立在数据挖掘作业2中，我们选择了决策树算法作为模型建立的方法。

决策树是一种基于树状结构的分类模型，通过对特征进行逐步划分，最终得到一个可以对新样本进行分类的模型。

我们使用了ID3算法来构建决策树模型，并通过交叉验证的方法对模型进行评估和调优。

6. 模型评估为了评估模型的性能，我们采用了准确率、召回率、F1值等指标来衡量模型的分类效果。

此外，我们还使用了混淆矩阵来展示模型的分类结果，并计算了ROC曲线下的面积（AUC）来评估模型的整体性能。

7. 结果分析通过对数据挖掘作业2的实验和分析，我们得到了一些有价值的结论。

首先，我们发现用户对某一类产品的购买意愿与其评价的积极程度呈正相关关系。

其次，我们发现某些产品的销售量与其价格呈负相关关系，即价格越高，销售量越低。

最后，我们通过决策树模型对用户的购买行为进行了预测，并取得了较好的分类效果。

3-大数据采集处理与挖掘作业及参考答案[9页]

项目三大数据采集处理与挖掘任务一大数据采集子任务一报表采集➢作业及思考1.选择任一企业，在金蝶大数据处理平台从东方财富网站中爬取2019和2020年两年的利润表数据做对比。

➢参考答案1.以招商银行为例，招商银行的企业代码（完整股票代码）为sh600036。

在“大数据采集”下的“财务报表”页面中，选择数据源为“东方财富”。

参数中填写年份“2019,2020”，报表类型选择“利润表”，企业代码（完整股票代码）填写“sh600036”。

点击【运行】，运行完成后查看数据结果并下载excel文件。

子任务二电商平台评论的采集➢作业及思考1.获取唯品会上其他任一商品的全部历史评价数据，最热的评论排在最前面。

➢参考答案1.以小米体脂称为例，获取需要分析的爆款产品在唯品会网站上的产品查看链接为：https:///detail-1711297312-6918849116177740352.html 在“大数据采集”下的“电商平台评论数据”页面中，选择数据源为“唯品会”。

参数中填写商品链接为前面查询到的产品链接，评论页数不填写（默认为全部页数），每页评论数选择“30”，按点赞数排序选择“降序”。

点击【运行】，运行完成后查看数据结果并下载excel文件。

任务二大数据处理子任务一数据清洗➢作业及思考1.在以上任务的基础上，删除字段“商品价格”、“商品编号”、“评论标签”和“#”，并将商品名称统一改成“2020款iPad”。

2.删除“匿名vip用户”的评论数据。

➢参考答案1.在“大数据处理”下的“数据清洗”页面中，将任务二-子任务一中下载的文件上传。

配置清洗规则：●去除多余数据：选择“局部清洗”并选择“列删除”，单击规则右侧的“加号”，勾选准备删除的字段“商品价格”、“商品编号”、“评论标签”和“#”，并单击右上角【选择】。

●字符替换：选择“局部清洗”并选择“字符替换”。

单击规则右侧的“加号”，勾选准备替换的字段“商品名称”，并单击右上角【选择】，输入需要替换的字符和替换的字符，即分别填入“2020款 iPad 10.2英寸【壳膜套餐】WLAN版平板电脑”和“2020款iPad”。

数据挖掘作业2

数据挖掘作业2一、任务背景数据挖掘是一种通过发现和分析大量数据中的模式和关联来提取有用信息的过程。

数据挖掘技术在各个领域中得到广泛应用，例如市场营销、金融风险管理、医疗诊断等。

本次数据挖掘作业2旨在通过使用机器学习算法对给定的数据集进行分析和预测，以解决一个实际问题。

二、任务描述本次数据挖掘作业2的任务是基于一个电信公司的客户数据集，构建一个客户流失预测模型。

客户流失是指客户停止使用某个产品或服务的情况，对于电信公司来说，客户流失可能导致业务下降和收入减少。

因此，通过预测客户流失，电信公司可以采取相应的措施来留住客户，提高客户忠诚度。

三、数据集介绍本次任务使用的数据集包含了一些客户的个人信息、合同信息、付款信息等。

数据集中的每一行代表一个客户的信息，每一列代表一个特征。

数据集中包含了以下特征：1. 客户ID：每个客户的唯一标识符。

2. 性别：客户的性别，可能取值为男或女。

3. 年龄：客户的年龄，以岁为单位。

4. 合作伙伴：客户是否有合作伙伴，可能取值为有或无。

5. 好友：客户是否有好友，可能取值为有或无。

6. 月租费：客户每月支付的费用，以美元为单位。

7. 总消费：客户总共支付的费用，以美元为单位。

8. 在网时间：客户使用该服务的时间，以月为单位。

9. 流失：客户是否已经流失，可能取值为是或否。

四、数据挖掘流程1. 数据预处理：a. 导入数据集：读取数据集，并查看数据的基本信息，如数据类型、缺失值情况等。

b. 数据清洗：处理数据中的缺失值、异常值等问题，确保数据的质量。

c. 特征选择：根据领域知识和特征相关性等方法，选择对预测客户流失有重要影响的特征。

d. 数据转换：对数据进行标准化、归一化等处理，以便于模型的训练和预测。

2. 模型训练：a. 划分数据集：将数据集划分为训练集和测试集，通常采用70%的数据作为训练集，30%的数据作为测试集。

b. 选择模型：根据任务的特点和需求，选择适合的机器学习算法，如逻辑回归、决策树、支持向量机等。

第二次数据挖掘实验报告

# j的范围是i~列表x的长度
for j in range(i, len(x)):
# 判断等式是否成立
if x[i][:l - 1] == x[j][:l - 1] and x[i][l - 1] != x[j][l - 1]:
# 对列表r中追加排好序的元素
r.append(x[i][:l - 1] + sorted([x[j][l - 1], x[i][l - 1]]))
#进行排序后的ms和x放到一个列表里赋值给x
x = list(map(lambda i: sorted(i.split(ms)), x))
#把x列表的第一个元素长度赋值给l
l = len(x[0])
#创建一个空字典r
r = []
#i的范围是0~列表x的长度
for i in range(len(x)):
print(u'数目：%s...' % len(column))
# 新一批支持度的计算函数
sf = lambda i: d[i].prod(axis=1, numeric_only=True)
# 创建连接数据，这一步耗时、耗内存最严重。当数据集较大时，可以考虑并行运算优化。
d_2 = pd.DataFrame(list(map(sf, column)), index=[ms.join(i) for i in column]).T
# 导入数据集，根据自己的目录来插入
inputfile = 'D:\数据挖掘\menu_orders.xls'
#导出结果
outputfile = 'D:\数据挖掘\apriori_rules.xls'
# 读取数据

数据挖掘第二次作业

数据挖掘第二次作业第一题：1.a) Compute the Information Gain for Gender, Car Type and Shirt Size.b) Construct a decision tree with Information Gain.答案：a)因为class分为两类：C0和C1，其中C0的频数为10个，C1的频数为10，所以class元组的信息增益为Info(D)==11.按照Gender进行分类：Info gender(D)==0.971Gain(Gender)=1-0.971=0.0292.按照Car Type进行分类Info carType(D)==0.314Gain(Car Type)=1-0.314=0.6863.按照Shirt Size进行分类：Info shirtSize (D)==0.988Gain(Shirt Size)=1-0.988=0.012b) 由a 中的信息增益结果可以看出采用Car Type 进行分类得到的信息增益最大，所以决策树为：第二题：2. (a) Design a multilayer feed-forward neural network (one hidden layer) for the data set in Q1. Label the nodes in the input and output layers.(b) Using the neural network obtained above, show the weight values after one iteration of the back propagation algorithm, given the training instance “(M, Family, Small)". Indicate your initial weight values and biases and the learning rate used.a)Car Type?Shirt Size?C0C1familySportluxuryC0 C1smallmedium,large, extra large输入层隐藏层输出层x12x21x22x23x31x32x33x34b)由a可以设每个输入单元代表的属性和初始赋值由于初始的权重和偏倚值是随机生成的所以在此定义初始值为：净输入和输出：每个节点的误差表：单元j Err j 10 0.0089 11 0.0030 12 -0.12权重和偏倚的更新： W 1,10 W 1,11 W 2,10 W 2,11 W 3,10 W 3,11 W 4,10 W 4,11 W 5,10 W 5,11 0.201 0.198 -0.211 -0.099 0.4 0.308 -0.202 -0.098 0.101 -0.100 W 6,10 W 6,11 W 7,10 W 7,11 W 8,10 W 8,11 W 9,10 W 9,11 W 10,12 W 11,12 0.092 -0.211 -0.400 0.198 0.201 0.190 -0.110 0.300 -0.304 -0.099 θ10 θ11 θ12 -0.287 0.1790.344第三题：3.a) Suppose the fraction of undergraduate students who smoke is 15% andthe fraction of graduate students who smoke is 23%. If one-ﬁfth of the college students are graduate students and the rest are undergraduates, what is the probability that a student who smokes is a graduate student? b) Given the information in part (a), is a randomly chosen college studentmore likely to be a graduate or undergraduate student?c) Suppose 30% of the graduate students live in a dorm but only 10% of theundergraduate students live in a dorm. If a student smokes and lives in the dorm, is he or she more likely to be a graduate or undergraduate student? You can assume independence between students who live in a dorm and those who smoke.答：a) 定义：A={A 1 ,A 2}其中A 1表示没有毕业的学生，A 2表示毕业的学生，B 表示抽烟则由题意而知：P(B|A 1)=15% P(B|A 2)=23% P(A 1)= P(A 2)=则问题则是求P(A 2|B)由()166.0)()|B ()()|B (B 2211=+=A P A p A P A P P则()277.0166.02.023.0)()()|(|222=⨯=⨯=B P A P A B P B APb) 由a 可以看出随机抽取一个抽烟的大学生，是毕业生的概率是0.277，未毕业的学生是0.723，所以有很大的可能性是未毕业的学生。

数据挖掘作业2

数据挖掘作业2数据挖掘是一种从大量数据中发现实用信息和模式的过程。

数据挖掘作业2旨在让学生运用数据挖掘技术，分析和挖掘给定数据集中的实用信息和模式。

本次数据挖掘作业2的任务是基于一个电子商务网站的用户行为数据集，通过分析和挖掘数据，了解用户的行为模式和购买意向，进而提供有针对性的推荐策略和市场营销方案。

首先，我们需要对数据集进行预处理。

这包括数据清洗、去除重复数据、处理缺失值等。

通过这些步骤，我们可以确保数据的准确性和完整性。

接下来，我们可以进行数据探索和可视化分析。

利用统计学和可视化工具，我们可以对数据集进行探索，了解用户的行为特征和购买习惯。

例如，我们可以通过绘制柱状图或者饼图来展示用户的购买类别偏好，或者使用散点图来展示用户的浏览时间和购买金额之间的关系。

在数据探索的基础上，我们可以应用数据挖掘技术来挖掘隐藏在数据中的模式和规律。

其中，常用的数据挖掘技术包括关联规则挖掘、聚类分析、分类算法等。

通过这些技术，我们可以发现用户之间的关联关系、不同用户群体之间的差异以及用户购买意向的预测等。

例如，我们可以利用关联规则挖掘算法，找出用户购买某一商品时，同时购买其他商品的规律。

这可以匡助电子商务网站进行交叉销售和推荐相关商品。

此外，我们可以利用聚类分析算法，将用户分成不同的群体，进而制定针对性的营销策略。

此外，通过分类算法，我们可以预测用户的购买意向，从而提前采取措施，增加用户的转化率。

最后，我们可以根据数据挖掘的结果，提出相应的推荐策略和市场营销方案。

这些策略和方案应该基于对用户行为的深入理解和数据挖掘的结果。

例如，我们可以通过个性化推荐系统，向用户推荐他们可能感兴趣的商品。

或者，我们可以通过优惠券、促销活动等方式，刺激用户的购买欲望。

综上所述，数据挖掘作业2旨在让学生通过对电子商务网站用户行为数据的分析和挖掘，了解用户的行为模式和购买意向，并提供有针对性的推荐策略和市场营销方案。

通过完成这个任务，学生可以提升数据挖掘和分析的能力，并将其应用于实际问题的解决中。

大数据分析与挖掘课后习题参考答案

（1）使用等深划分时，将其划分为四个箱，16 在第几个箱？
（2）使用等宽划分时，将其划分为四个箱，16 在第几个箱？
（3）利用等深分箱法，将其划分为 3 个箱，平均值平滑法进行平滑处理，第
2 个箱的取值为多少？
（4）利用等宽分箱法，将其划分为 3 个箱，边界平滑法进行平滑处理，第 2
个箱内数据值为多少？
数据清洗：负责解决填充空缺值、识别孤立点、去掉噪声和无关数据等问
题；
数据集成：负责解决不同数据源的数据变换：将原始数据转换为适合数据挖掘的形式。包括数据的汇总、聚
集、概化、规范化，同时可能需要对属性进行重构；
数据归约：负责搜小数据的取值范围，使其更适合数据挖掘算法的需要。
df=spark.createDataFrame([(Vectors.dense(3.2,1.78,130,6000),),
(Vectors.dense(3.5,1.76,122,7000),),
(Vectors.dense(3,1.73,135,5500),),
(Vectors.dense(2.8,1.80,120,4000),),
model.transform(df).show()
print('MinMax')
miScaler=MinMaxScaler(inputCol='Features',outputCol='Feature_MinMax')
model_=miScaler.fit(df)
model.transform(df).show()
7000
3
3
1.73
135
5500
4
2.8
1.80
120

数据挖掘作业2

数据挖掘作业2一、任务背景与目的数据挖掘作业2旨在通过应用数据挖掘技术，从给定的数据集中发现有价值的信息和模式，以帮助决策者做出准确的决策。

本次作业的任务是基于一个电子商务网站的用户行为数据，分析用户购买行为，并构建一个预测模型，以预测用户是否会购买某个特定的产品。

二、数据集介绍本次作业使用的数据集包含了一段时间内的用户行为数据，包括用户的浏览、加购物车、购买等行为。

数据集中的字段包括用户ID、时间戳、产品ID、行为类型等。

数据集共有100万条记录。

三、数据预处理1. 数据清洗：对数据集进行清洗，去除重复记录、缺失值等异常数据。

2. 特征选择：根据业务需求和特征的相关性，选择合适的特征进行分析和建模。

3. 特征编码：对类别型特征进行编码，如使用独热编码将类别型特征转换为数值型特征。

4. 数据划分：将清洗和编码后的数据集划分为训练集和测试集，一般采用70%的数据作为训练集，30%的数据作为测试集。

四、数据分析与建模1. 数据可视化：通过绘制柱状图、折线图等方式，对用户行为数据进行可视化分析，了解用户行为的分布和趋势。

2. 关联规则挖掘：使用关联规则算法（如Apriori算法）挖掘用户行为之间的关联关系，发现用户购买某个产品的规律。

3. 用户分类：根据用户的购买行为特征，使用聚类算法（如K-means算法）将用户划分为不同的类别，以便更好地理解用户的购买行为。

4. 预测模型构建：选择合适的机器学习算法（如决策树、随机森林等），构建用户购买行为的预测模型。

五、模型评估与优化1. 模型评估：使用准确率、召回率、F1值等指标对构建的预测模型进行评估，选择最优的模型。

2. 模型优化：根据评估结果，对模型进行调参和优化，以提高模型的准确性和泛化能力。

六、结果分析与报告撰写1. 结果分析：对模型预测结果进行分析，比较不同模型的性能差异，找出影响用户购买行为的主要因素。

2. 报告撰写：根据分析结果，撰写数据挖掘作业2的报告，包括任务背景、数据处理方法、模型构建过程、结果分析等内容。

数据挖掘大作业(打印) 2

数据挖掘在客户关系管理中的应用一、数据挖掘技术在客户关系管理中的主要应用领域1、客户关系管理中常用的数据挖掘方法常用的数据挖掘方法主要包括：分类、聚类、关联规则、统计回归、偏差分析等等。

（1）分类：分类在数据挖掘中是一项非常重要的任务。

分类的目的是通过统计方法、机器学习方法（包括决策树法和规则归纳法）、神经网络方法等构造一个分类模型，然后把数据库中的数据映射到给定类别中的某一个。

（2）聚类：聚类是把一组个体按照相似性归成若干类别。

即“物以类聚”。

它的目的是使同一类别之内的相似性尽可能大，而类别之间的相似性尽可能小。

这种方法可以用来对客户进行细分，根据客户的特征和属性把客户分成不同客户群，根据其不同需求，制订针对不同客户群的营销策略。

（3）关联规则：它是描述数据库中数据项之间存在关联的规则，即根据一个事物中某些项的出现可导出另一项在同一事物中也出现，即隐藏在数据间的关联或相互关系。

在客户关系管理中，通过对企业客户数据库里大量数据进行挖掘，可以从中发现有趣的关联关系。

（4）回归分析：回归分析反映的是事务数据库中属性值在时间上的特征．主要用于预测，即利用历史数据自动推出对给定数据的推广描述．从而对未来数据进行预测。

它可应用于商品销售趋势预测、客户赢利能力分析和预测等。

（50偏差分析：偏差分析侧重于发现不规则和异常变化，即与通常不同的事件。

在相类似的客户中，对客户的异常变化要给予密切关注。

例如某客户购买行为发生较大变化，购买量较以前大大减少，就要对客户的这种原因进行调查，避免客户流失。

2、数据挖掘在客户关系管理中的具体运用由于零售业采用P O S机和C R M。

使得顾客的资料及购买信息得以贮存。

在这些海量的数据中存在着许多能对商品决策提供真正有价值的决策信息。

商家面临以下问题是：真正有价值的信息是哪些。

这些信息有哪些关联等等。

因此，需要从大量的数据中, 经过深层分析，从而获得有利商业运作提高企业争力的信息。

数据挖掘作业2

数据挖掘作业2数据挖掘作业2：文本分类与情感分析一、引言数据挖掘是从大量的数据中发现隐藏在其中的有价值信息的过程。

文本分类和情感分析是数据挖掘中的两个重要任务。

本文将介绍文本分类和情感分析的基本概念、方法和应用，并结合实际案例进行详细说明。

二、文本分类1. 概念文本分类是将大量的文本按照一定的标准进行分类的过程。

其目标是通过自动化方法将文本划分到预定义的类别中。

2. 方法（1）特征提取：从文本中提取有用的特征信息。

常用的特征提取方法包括词袋模型、TF-IDF、词嵌入等。

（2）特征选择：选择对分类任务有用的特征。

常用的特征选择方法包括信息增益、卡方检验、互信息等。

（3）分类器构建：选择合适的分类器进行文本分类。

常用的分类器包括朴素贝叶斯、支持向量机、决策树等。

（4）模型评估：使用评估指标对分类模型进行评估，如准确率、精确率、召回率、F1值等。

3. 应用文本分类在各个领域都有广泛的应用，如垃圾邮件过滤、新闻分类、情感分析等。

三、情感分析1. 概念情感分析是对文本中的情感进行识别和分类的过程。

其目标是判断文本中的情感倾向，如正面、负面或中性。

2. 方法（1）情感词典：使用情感词典对文本中的词进行情感打分，然后根据打分结果进行情感分类。

（2）机器学习：使用机器学习方法构建情感分类模型，常用的方法包括朴素贝叶斯、支持向量机、深度学习等。

（3）深度学习：使用深度神经网络进行情感分析，如卷积神经网络、循环神经网络等。

3. 应用情感分析在社交媒体监测、产品评论分析、舆情分析等方面具有重要的应用价值。

四、实例分析：电影评论情感分析为了进一步说明文本分类和情感分析的应用，我们以电影评论情感分析为例进行实例分析。

1. 数据收集从互联网上收集了一批电影评论数据，包括评论文本和对应的情感标签（正面、负面或中性）。

2. 数据预处理对收集到的电影评论数据进行预处理，包括去除停用词、标点符号和数字，对文本进行分词等。

3. 特征提取使用词袋模型对预处理后的文本进行特征提取，得到每个评论的特征向量表示。

大工20春《数据挖掘》课程大作业满分答案

网络教育学院《数据挖掘》课程大作业题目：姓名：学习中心：第一大题：讲述自己在完成大作业过程中遇到的困难，解决问题的思路，以及相关感想，或者对这个项目的认识，或者对Python与数据挖掘的认识等等，300-500字。

《数据挖掘》这门课程是一门实用性非常强的课程，数据挖掘是大数据这门前沿技术的基础，拥有广阔的前景，在信息化时代具有非常重要的意义。

数据挖掘的研究领域非常广泛，主要包括数据库系统、基于知识的系统、人工智能、机器学习、知识获取、统计学、空间数据库和数据可视化等领域。

学习过程中，我也遇到了不少困难，例如基础差，对于Python基础不牢，尤其是在进行这次课程作业时，显得力不从心；个别算法也学习的不够透彻。

在接下来的学习中，我仍然要加强理论知识的学习，并且在学习的同时联系实际，在日常工作中注意运用《数据挖掘》所学到的知识，不断加深巩固，不断发现问题，解决问题。

另外，对于自己掌握不牢的知识要勤复习，多练习，使自己早日成为一名合格的计算机毕业生。

第二大题：完成下面一项大作业题目。

2020春《数据挖掘》课程大作业注意：从以下5个题目中任选其一作答。

题目一：Knn算法原理以及python实现要求：文档用使用word撰写即可。

主要内容必须包括：（1）算法介绍。

（2）算法流程。

（3）python实现算法以及预测。

（4）整个word文件名为 [姓名奥鹏卡号学习中心]（如戴卫东101410013979浙江台州奥鹏学习中心[1]VIP ）作业提交：大作业上交时文件名写法为：[姓名奥鹏卡号学习中心]（如：戴卫东101410013979浙江台州奥鹏学习中心[1]VIP）以附件形式上交离线作业（附件的大小限制在10M以内），选择已完成的作业（注意命名），点提交即可。

如下图所示。

注意事项：独立完成作业，不准抄袭其他人或者请人代做，如有雷同作业，成绩以零分计！（一）Knn算法介绍KNN算法，又叫K最邻近分类算法，是数据挖掘分类技术中最简单的方法之一。

数据挖掘作业2

数据挖掘作业2一、任务背景数据挖掘是一项重要的技术，它可以匡助我们从大量的数据中发现有价值的信息和模式。

本次数据挖掘作业2的任务是基于给定的数据集，运用数据挖掘算法进行数据分析和模式发现。

二、数据集介绍本次任务使用的数据集是关于电子商务网站用户行为的数据集。

该数据集包含了用户在网站上的点击、浏览、购买等行为数据，以及用户的个人信息和购买记录。

数据集中的字段包括用户ID、会话ID、时间戳、页面类型、购买行为等。

三、数据预处理在进行数据挖掘之前，我们需要对数据进行预处理，以保证数据的质量和可用性。

预处理的步骤包括数据清洗、数据集成、数据变换和数据规约。

1. 数据清洗数据清洗是指对数据集中的噪声、缺失值和异常值进行处理。

我们可以使用各种方法来处理这些问题，如删除含有缺失值的样本、填补缺失值、删除异常值等。

2. 数据集成数据集成是指将来自不同数据源的数据进行整合，以便进行后续的数据挖掘分析。

在本次任务中，我们可以将用户行为数据和用户个人信息数据进行关联，以获取更全面的信息。

3. 数据变换数据变换是指将原始数据转换为适合进行数据挖掘分析的形式。

在本次任务中，我们可以进行数据标准化、数据离散化、数据归一化等操作，以便于后续的算法处理。

4. 数据规约数据规约是指将数据集进行简化，以便于挖掘出实用的模式。

在本次任务中，我们可以使用抽样、维度规约等方法来减少数据的复杂性和计算量。

四、数据挖掘算法选择根据任务的要求，我们需要选择合适的数据挖掘算法来进行分析和模式发现。

常用的数据挖掘算法包括关联规则挖掘、分类算法、聚类算法等。

1. 关联规则挖掘关联规则挖掘是一种用于发现数据集中的频繁项集和关联规则的方法。

通过分析用户的购买行为，我们可以挖掘出用户购买的商品之间的关联规则，从而为商家提供推荐策略。

2. 分类算法分类算法是一种用于将数据分为不同类别的方法。

通过分析用户的个人信息和购买行为，我们可以构建分类模型，预测用户的购买意向或者判断用户的忠诚度。

数据挖掘第二次作业

1．Apriori 算法使用子集支持性质的先验知识。 a. b. c. 证明频繁项集的所有非空的子集也一定是频繁的。证明项集 s 的任意非空子集 s’的支持至少和 s 的支持度一样大。给定频繁项集 l 和 l 的子集 s ,证明规则 " s ' l ( s ' )" 的置信度不可能大于
" s l ( s )" 的置信度。其中，s’是 s 的子集。

和相关度进行比较。
d. Apriori 算法的一种变形将事务数据库 D 中的事务划分成 n 个不重叠的分区。证明
在 D 中频繁的项集至少在 D 的一个分区中是频繁的。
2． 6.2.2 节介绍了由频繁项集产生关联规则的方法。提出一个更有效的方法。解释它为什么比 6.2.2 节的方法更有效。（提示：考虑将习题 6.3（b）和 6.3（c）的性质结合到你的设计中。）
a.
假定挖掘出了关联规则“hot dogs humburgers”。给定最小支持度阀值 25%，
最小置信度阀值 50%，该关联规则是强规则吗？ b. 根据给定的数据，买 hot dogs 独立于买 humburgers 吗？如果不是，二者之间存
在何种相关联系？ c. 在给定的数据上，将全置信度、最大置信度、Kulczynski 和余弦的使用与提升度
x transaction, buys( X , item1 ) buys( X , item2 ) buys( X , item3 )
[ s, c ]
4．下面的相依表汇总了超级市场的事务数据。其中，hot dogs 表示包含热狗的事务，hot dogs 表示不包含热狗的事务，hamburgers 表示包含汉堡包的事务，hamburgers 表示不包含汉堡包的事务。

国开电大《大数据分析与挖掘技术》形考任务2答案

国开电大《大数据分析与挖掘技术》形考任务2答案参考答案在最后题目1.在关联分析中，下面哪个有可能是频繁3项集（）A. {面包，牛奶}B. {面包，牛奶，啤酒}C. {面包}D. {面包，牛奶，花生，啤酒}题目2.从下面两个变量的相关系数图可以看出（）A. 左图相关系数大于0B. 右图相关系数小于0C. 左图相关系数等于0D. 右图相关系数等于0题目3.要考虑“储蓄水平”与“人口水平”之间的相关。

“储蓄水平”收集了储蓄比率（sr）、人均可支配收入（dpi）、人均可支配收入变化的百分率（ddpi）3个变量，“人口水平”收集了15岁以下人口的百分比、75岁以上人口百分比2个变量。

请问采用下面哪种分析方法更合适（）。

A. 单向关B. 典型相关C. 偏相关D. 点二列（点双列）相关题目4.关于设定虚拟变量时应当遵循如下原则，下列说法错误的是：( )A. 对于有k个表现值的定性变量，只设定（k-1）个虚拟变量；B. 虚拟变量的值通常用“0”或“1”来表示；C. 对于每个样本而言，同一个定性变量对应虚拟变量的值之和不超过1；D. 对于季节变量而言，四个季节需要设定4个虚拟变量题目5.如果要解决随着员工职位的变动，员工报酬会变动多大的问题，下面说法不正确的是（）A. 员工职位需要考虑成是分类变量B. 员工职位需要引入虚拟变量来处理C. 如果员工职位有5个类别，那么需要引入5个虚拟变量来表示D. 员工报酬需要考虑成被解释变量题目6.为研究电商注册用户数量与其销售收入之间的关系，收集数据得到下面的散点图。

请问这样的散点图适用建立下面哪种回归模型（）。

A. 线性回归模型B. 非线性回归模型C. 对数线性模型D. Logistic回归模型题目7.当因变量数据具有尖峰厚尾的分布特征或有离群点（即异常值）时，更合适的回归模型是（）。

A. 线性回归模型B. Logistic回归模型C. 分位数回归D. 非线性回归题目8.为监测某厂家生产的某款激光打印机的质量问题，考察该款打印机发生故障的次数。

西安交大数据挖掘第二次作业

{Dairyland-Milk,Wonder-Bread}=>Tasty-Pie [66.7%,100%]
{Dairyland-Milk,Tasty-Pie}=>Wonder-Bread [66.7%,100%]
Sunset-Milk=>{Wonder-Bread,Dairyland-Cheese} [66.7%,100%]
100%
{Milk,Cheese}=>Bread
100%
{Cheese,Bread}=>Milk
100%
b.解答：
项集
支持度计数
{Wonder-Bread,Dairyland-Milk,Tasty-Pie}
2
{Wonder-Bread,Sunset-Milk,Dairyland-Cheese}
2
强关联规则
第二次作业
Weihua Wang
1、证明。
给定频繁项集L和L的子集S，证明规则S'--->(L-S')的置信度不可能大于S --->(L-S)的置信度。其中，S'是S的子集。
证明：因为S'是S的子集，根据先验性质可得，频繁项集L的子集S和S'都是频繁项集，并且。
关联规则S'--->(L-S')的置信度为：
{Sunset-Milk,Dairyland-Cheese}=>Wonder-Bread [66.7%,100%]
Dairyland-Milk=>{Wonder-Bread,Tasty-Pie} [66.7%,100%]
Tasty-Pie=>{Dairyland-Milk,Wonder-Bread} [66.7%,100%]

海致大数据初级第二次作业

海致大数据初级第二次作业摘要：I.引言A.介绍海致大数据初级第二次作业B.阐述本次作业的目的和意义II.作业内容概述A.作业主题B.作业要求C.作业难度及所需技能III.作业完成过程A.数据收集与处理1.数据来源2.数据清洗与整理B.数据分析与挖掘1.数据可视化2.特征工程3.模型建立与优化C.结果展示与报告撰写1.结果展示方式2.报告撰写步骤IV.作业成果与反思A.作业成果展示1.主要发现2.结论与建议B.反思与总结1.本次作业中的优点与不足2.针对不足之处的改进措施V.结论A.总结本次作业的经验教训B.对未来学习的展望正文：【引言】海致大数据初级第二次作业是我们在学习大数据分析过程中的一次重要实践。

本次作业旨在帮助我们巩固所学知识，提高实际操作能力，培养独立分析和解决问题的能力。

接下来，我们将详细介绍本次作业的内容、完成过程以及成果与反思。

【作业内容概述】【作业主题】本次作业的主题是“基于某电商平台用户数据的用户画像分析”。

我们需要针对所给数据，进行用户画像的刻画，挖掘用户特征，并据此提出针对性的营销策略。

【作业要求】作业要求我们完成以下任务：1.收集并整理某电商平台用户数据；2.对数据进行可视化分析，发现数据中的规律和趋势；3.进行特征工程，筛选出对用户行为影响较大的特征；4.建立并优化模型，预测用户未来的购买行为；5.撰写分析报告，展示分析过程和结果。

【作业难度及所需技能】本次作业难度适中，需要我们掌握数据收集、数据处理、数据分析与挖掘、可视化以及报告撰写等技能。

通过完成本次作业，我们可以提高自己的数据处理能力和逻辑思维能力。

【作业完成过程】【数据收集与处理】为了完成本次作业，我们首先需要收集相关数据。

数据来源于某电商平台，包括用户的性别、年龄、地域、购物偏好等信息。

在收集数据的过程中，我们需要注意保护用户隐私，遵守相关法律法规。

在收集到数据后，我们需要进行数据清洗与整理。

这一步骤至关重要，因为数据质量直接影响后续分析的结果。

数据挖掘大作业(打印) 2

（1）分类：分类在数据挖掘中是一项非常重要的任务。

（2）聚类：聚类是把一组个体按照相似性归成若干类别。

即“物以类聚”。

它的目的是使同一类别之内的相似性尽可能大，而类别之间的相似性尽可能小。

这种方法可以用来对客户进行细分，根据客户的特征和属性把客户分成不同客户群，根据其不同需求，制订针对不同客户群的营销策略。

在客户关系管理中，通过对企业客户数据库里大量数据进行挖掘，可以从中发现有趣的关联关系。

它可应用于商品销售趋势预测、客户赢利能力分析和预测等。

（50偏差分析：偏差分析侧重于发现不规则和异常变化，即与通常不同的事件。

在相类似的客户中，对客户的异常变化要给予密切关注。

例如某客户购买行为发生较大变化，购买量较以前大大减少，就要对客户的这种原因进行调查，避免客户流失。

2、数据挖掘在客户关系管理中的具体运用由于零售业采用 P O S机和C R M。

使得顾客的资料及购买信息得以贮存。

在这些海量的数据中存在着许多能对商品决策提供真正有价值的决策信息。

商家面临以下问题是：真正有价值的信息是哪些。

这些信息有哪些关联等等。

因此，需要从大量的数据中, 经过深层分析，从而获得有利商业运作提高企业争力的信息。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据挖掘第二次作业第一题：1.a)Compute the Information Gain for Gender, Car Type and Shirt Size.b)Construct a decision tree with Information Gain.答案：a)因为class分为两类：C0和C1，其中C0的频数为10个，C1的频数为10，所以class元组的信息增益为Info(D)==11.按照Gender进行分类：Info gender(D)==0.971 Gain(Gender)=1-0.971=0.0292.按照Car Type进行分类Info carType(D)==0.314Gain(Car Type)=1-0.314=0.6863.按照Shirt Size进行分类：Info shirtSize(D)==0.988Gain(Shirt Size)=1-0.988=0.012b)由a中的信息增益结果可以看出采用Car Type进行分类得到的信息增益最大，所以决策树为：第二题：2.(a) Design a multilayer feed-forward neural network (one hidden layer)for the data set in Q1. Label the nodes in the input and output layers.(b)Using the neural network obtained above, show the weight valuesafter one iteration of the back propagation algorithm, given the training instance “(M, Family, Small)". Indicate your initial weight values and biases and the learning rate used.a)输入层隐藏层输出层x12x21x22x23x31x32x33x34b)由a可以设每个输入单元代表的属性和初始赋值由于初始的权重和偏倚值是随机生成的所以在此定义初始值为：净输入和输出：每个节点的误差表：权重和偏倚的更新：第三题：3.a) Suppose the fraction of undergraduate students who smoke is 15% andthe fraction of graduate students who smoke is 23%. If one-ﬁfth of the college students are graduate students and the rest are undergraduates, what is the probability that a student who smokes is a graduate student? b) Given the information in part (a), is a randomly chosen college studentmore likely to be a graduate or undergraduate student?c) Suppose 30% of the graduate students live in a dorm but only 10% ofthe undergraduate students live in a dorm. If a student smokes and lives in the dorm, is he or she more likely to be a graduate or undergraduate student? You can assume independence between students who live in a dorm and those who smoke.答：a) 定义：A={A 1 ,A 2}其中A 1表示没有毕业的学生，A 2表示毕业的学生，B 表示抽烟则由题意而知：P(B|A 1)=15% P(B|A 2)=23% P(A 1)= P(A 2)= 则问题则是求P(A 2|B)由()166.0)()|B ()()|B (B 2211=+=A P A p A P A P P则()277.0166.02.023.0)()()|(|222=⨯=⨯=B P A P A B P B APb) 由a 可以看出随机抽取一个抽烟的大学生，是毕业生的概率是0.277，未毕业的学生是0.723，所以有很大的可能性是未毕业的学生。

c) 设住在宿舍为事件C则P(C|A 2)=30% P(C|A 1)=10%()14.0)()|C ()()|C (C 2211=+=A P A p A P A P P023.014.0166.0)()()(=⨯==C P B P BC P6.0023.02.03.023.0)()()|()|()|(2222=⨯⨯==BC P A P A C P A B P BC A P)|(1BC A P =0.4所以由上面的结果可以看出是毕业生的概率大一些第四题：4. Suppose that the data mining task is to cluster the following ten points(with(x, y, z) representing location) into three clusters:A1(4,2,5), A2(10,5,2), A3(5,8,7), B1(1,1,1), B2(2,3,2), B3(3,6,9), C1(11,9,2), C2(1,4,6), C3(9,1,7), C4(5,6,7)The distance function is Euclidean distance. Suppose initially we assign A1, B1, C1 as the center of each cluster, respectively. Use the K-Means algorithm to show only(a) The three cluster center after the first round execution (b) The final three clusters答：a) 各点到中心点的欧式距离第一轮：从而得到的三个簇为：{A 1, A 3,B 3,C 2, C 3, C 4} {B 1,B 2} {C 1,A 2}所以三个簇新的中心为：(4.5,4.5,6.83)，(1.5,2,1.5)，(10.5,7,2) 第二轮：新的簇均值为：(4.5,4.5,6.83)，(1.5,2,1.5)，(10.5,7,2)所以得到的新的簇为：{A1, A3,B3,C2, C3, C4} {B1,B2} {C1,A2}得到的新的簇跟第一轮结束得到的簇的结果相同，不再变化，所以上面的簇是最终的结果。

Part II: LabQuestion 1Assume this supermarket would like to promote milk. Use the data in “transactions”as training data to build a decision tree (C5.0 algorithm) model to predict whether the customer would buy milk or not.1.Build a decision tree using data set “transactions” that predicts milk asa function of the other fields. Set the “type” of each field to “Flag”,set the “direction” of “milk” as “out”, set the “type” of COD as “Typeless”, select “Expert” and set the “pruning severity” to 65, and set the “minimum records per child branch” to be 95. Hand-in: A figure showing your tree.e the model (the full tree generated by Clementine in step 1 above) to makea prediction for each of the 20 customers in the “rollout” data to determinewhether the customer would buy milk. Hand-in: your prediction for each of the 20 customers.3.Hand-in: rules for positive (yes) prediction of milk purchase identified fromthe decision tree (up to the fifth level. The root is considered as level1). Compare with the rules generated by Apriori in Homework 1, and submityour brief comments on the rules (e.g., pruning effect)答：1生成的决策树为：生成的决策树模型为：juices = 1 [ Mode: 1 ]water = 1 [ Mode: 1 ] => 1water = 0 [ Mode: 0 ]pasta = 1 [ Mode: 1 ] => 1pasta = 0 [ Mode: 0 ]tomato souce = 1 [ Mode: 1 ] => 1tomato souce = 0 [ Mode: 0 ]biscuits = 1 [ Mode: 1 ] => 1biscuits = 0 [ Mode: 0 ] => 0 juices = 0 [ Mode: 0 ]yoghurt = 1 [ Mode: 1 ]water = 1 [ Mode: 1 ] => 1water = 0 [ Mode: 0 ]biscuits = 1 [ Mode: 1 ] => 1biscuits = 0 [ Mode: 0 ]brioches = 1 [ Mode: 1 ] => 1brioches = 0 [ Mode: 0 ]beer = 1 [ Mode: 1 ] => 1beer = 0 [ Mode: 0 ] => 0yoghurt = 0 [ Mode: 0 ]beer = 1 [ Mode: 0 ]biscuits = 1 [ Mode: 1 ] => 1biscuits = 0 [ Mode: 0 ]rice = 1 [ Mode: 1 ] => 1rice = 0 [ Mode: 0 ]coffee = 1 [ Mode: 1 ]water = 1 [ Mode: 1 ] => 1water = 0 [ Mode: 0 ] => 0coffee = 0 [ Mode: 0 ] => 0beer = 0 [ Mode: 0 ]frozen vegetables = 1 [ Mode: 0 ]biscuits = 1 [ Mode: 1 ]pasta = 1 [ Mode: 1 ] => 1pasta = 0 [ Mode: 0 ] => 0biscuits = 0 [ Mode: 0 ]oil = 1 [ Mode: 1 ] => 1oil = 0 [ Mode: 0 ]brioches = 1 [ Mode: 0 ]water = 1 [ Mode: 1 ] => 1water = 0 [ Mode: 0 ] => 0brioches = 0 [ Mode: 0 ] => 0frozen vegetables = 0 [ Mode: 0 ]pasta = 1 [ Mode: 0 ]mozzarella = 1 [ Mode: 1 ] => 1mozzarella = 0 [ Mode: 0 ]water = 1 [ Mode: 1 ]biscuits = 1 [ Mode: 1 ] => 1biscuits = 0 [ Mode: 0 ]brioches = 1 [ Mode: 1 ] => 1brioches = 0 [ Mode: 0 ]coffee = 1 [ Mode: 1 ] => 1coffee = 0 [ Mode: 0 ] => 0water = 0 [ Mode: 0 ]coke = 1 [ Mode: 0 ]coffee = 1 [ Mode: 1 ] => 1coffee = 0 [ Mode: 0 ] => 0coke = 0 [ Mode: 0 ] => 0pasta = 0 [ Mode: 0 ]water = 1 [ Mode: 0 ]coffee = 1 [ Mode: 1 ] => 1coffee = 0 [ Mode: 0 ] => 0water = 0 [ Mode: 1 ]rice = 1 [ Mode: 0 ] => 0rice = 0 [ Mode: 1 ]tunny = 1 [ Mode: 0 ]biscuits = 1 [ Mode: 1 ] => 1biscuits = 0 [ Mode: 0 ] => 0tunny = 0 [ Mode: 1 ]brioches = 1 [ Mode: 0 ] => 0brioches = 0 [ Mode: 1 ]coke = 1 [ Mode: 0 ] => 0coke = 0 [ Mode: 1 ]coffee = 1 [ Mode: 0 ] => 0coffee = 0 [ Mode: 1 ]biscuits = 1 [ Mode: 0 ] => 0biscuits = 0 [ Mode: 1 ]oil = 1 [ Mode: 0 ] => 0oil = 0 [ Mode: 1 ]tomato souce = 1 [ Mode: 0 ] => 0tomato souce = 0 [ Mode: 1 ]mozzarella = 1 [ Mode: 0 ] => 0mozzarella = 0 [ Mode: 1 ]crackers = 1 [ Mode: 0 ] => 0crackers = 0 [ Mode: 1 ]frozen fish = 1[ Mode: 0 ] => 0frozen fish = 0 [ Mode: 1 ] => 12．按照1中生成的据册数进行预测的结果：4.生成的关联规则为：Question 2: Churn ManagementThe goal of this assignment is to introduce churn management using decision trees, logistic regression and neural network. You will try different combinations of the parameters to see their impacts on the accuracy of your models for this specific data set. This data set contains summarized data records for each customer for a phone company. Our goal is to build a model so that this company can predict potential churners.Two data sets are available, churn_training.txt and churn_validation.txt. Each data set has 21 variables. They are:(1)决策树生成的混淆矩阵如下实用文档(2)神经网络生成的混淆矩阵如下(3)Logistic 回归生成的混淆矩阵如下(4) 从下面的预测准确性可以看出决策树和神经网络对分类规则的预测更加准确.。

大数据挖掘第二次作业

合集下载

数据挖掘作业2

3-大数据采集处理与挖掘作业及参考答案[9页]

数据挖掘作业2

第二次数据挖掘实验报告

数据挖掘第二次作业

数据挖掘作业2

大数据分析与挖掘课后习题参考答案

数据挖掘作业2

数据挖掘大作业(打印) 2

数据挖掘作业2

大工20春《数据挖掘》课程大作业满分答案

数据挖掘作业2

数据挖掘第二次作业

国开电大《大数据分析与挖掘技术》形考任务2答案

西安交大数据挖掘第二次作业

海致大数据初级第二次作业

数据挖掘大作业(打印) 2

文档推荐

最新文档