南开《数据科学导论》20春期末考核答案
- 格式:docx
- 大小:14.28 KB
- 文档页数:5
南开大学《大数据导论》20春期末考核注:请认真核对以下题目,确定是您需要的科目在下载!!!
一、单选题 (共 10 道试题,共 20 分)
1.大数据的特点不包含
/A/.数据体量大
/B/.价值密度高
/C/.处理速度快
/D/.数据不统一
[解析]本题为必答题,请参考课本资料,分析作答
【参考答案是】:D
2.PaaS是()的简称
/A/.软件即服务
/B/.平台即服务
/C/.基础设施即服务
/D/.硬件即服务
[解析]本题为必答题,请参考课本资料,分析作答
【参考答案是】:B
3.IaaS是()的简称
/A/.软件即服务
/B/.平台即服务
/C/.基础设施即服务
/D/.硬件即服务
[解析]本题为必答题,请参考课本资料,分析作答
【参考答案是】:C
4.购物篮问题是##的典型案例
/A/.数据变换
/B/.关联规则挖掘
/C/.数据分类
[解析]本题为必答题,请参考课本资料,分析作答
【参考答案是】:B
5.基础设施即服务的英文简称是
/A/.IaaS
/B/.PaaS
/C/.SaaS
[解析]本题为必答题,请参考课本资料,分析作答
【参考答案是】:A。
南开大学20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业试题参考答案相关题目如下1.实体识别的常见形式()【选项】:A 同名异义B 异名同义C 单位不统一D 属性不同【答案】:D2.例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()【选项】:A 简单函数变换B 规范化C 属性构造D 连续属性离散化【答案】:B3.单层感知机模型属于()模型。
【选项】:A 二分类的线性分类模型B 二分类的非线性分类模型C 多分类的线性分类模型D 多分类的非线性分类模型【答案】:A4.通过变量标准化计算得到的回归方程称为()。
【选项】:A 标准化回归方程B 标准化偏回归方程C 标准化自回归方程D 标准化多回归方程【答案】:A5.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()【选项】:A 异常值B 缺失值C 不一致的值D 重复值【答案】:C6.以下哪些不是缺失值的影响()A 数据建模将丢失大量有用信息B 数据建模的不确定性更加显著C 对整体总是不产生什么作用D 包含空值的数据可能会使建模过程陷入混乱,导致异常的输出【答案】:C7.层次聚类适合规模较()的数据集【选项】:A 大B 中C 小D 所有【答案】:C8.以下哪个不是处理缺失值的方法()【选项】:A 删除记录B 按照一定原则补充C 不处理D 随意填写【答案】:D9.聚类的最简单最基本方法是()。
A 划分聚类B 层次聚类C 密度聚类D 距离聚类【答案】:A10.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
【选项】:A 1,线性B 2,线性C 1,非线性D 2,非线性【答案】:A11.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()【选项】:A 1,2,3,4B 1,2,3,5C 1,2,4,5D 1,3,4,512.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
最新奥鹏远程南开大学《数据科学导论》20春期末考核-参考答案 - 百度文库《数据科学导论》 20 春期末考核1. 下面不是分类的常用方法的有 ()【选项】:A K 近邻法B 朴素贝叶斯C 决策树D 条件随机场【答案】: D 条件随机场 |2. BFR 聚类用于在 () 欧氏空间中对数据进行聚类【选项】:A 高维B 中维C 低维D 中高维【答案】: A 高维 |3. 聚类是一种 () 。
【选项】:A 有监督学习B 无监督学习C 强化学习D 半监督学习【答案】: B 无监督学习 |4. 数据库中相关联的两张表都存储了用户的个人信息 , 但在用户的个人信息发生改变时只更新了一张表中的数据 , 这时两张表中就有了不一致的数据 , 这属于 ()【选项】:A 异常值B 缺失值C 不一致的值D 重复值【答案】: C 不一致的值 |5. 某商品的产量 (X, 件 ) 与单位成本 (Y, 元 / 件 ) 之间的回归方程为 ^Y=100-1.2X, 这说明 () 。
【选项】:A 产量每增加一台,单位成本增加 100 元B 产量每增加一台,单位成本减少 1.2 元C 产量每增加一台,单位成本平均减少 1.2 元D 产量每增加一台,单位平均增加 100 元【答案】: C 产量每增加一台,单位成本平均减少 1.2 元 |6. 在 k 近邻法中 , 选择较小的 k 值时 , 学习的“ 近似误差” 会(),“ 估计误差” 会 () 。
【选项】:A 减小,减小B 减小,增大C 增大,减小D 增大,增大【答案】: B 减小,增大 |7. 在回归分析中 , 自变量为 (), 因变量为 () 。
【选项】:A 离散型变量,离散型变量B 连续型变量,离散型变量C 离散型变量,连续型变量D 连续型变量,连续型变量【答案】: D 连续型变量,连续型变量 |8. 手肘法的核心指标是 () 。
【选项】:A SESB SSEC RMSED MSE【答案】: B SSE |9. 特征选择的四个步骤中不包括 ()。
南开⼤学《计算机科学导论》20春期末考核答卷南开⼤学《计算机科学导论》20春期末考核注:请认真核对以下题⽬,确定是您需要的科⽬在下载⼀、单选题 (共 15 道试题,共 30 分)1.E中的任⼀实体可以通过R与F中的⾄多⼀个实体联系则R叫做E到F的()A.⼀对⼀联系B.多对⼀联系C.多对多联系D.⾮法联系解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:B2.数据库中的元祖是指A.关系中除含有属性名所在⾏以外的其他⾏B.关系中包含属性名所在⾏在内的所有⾏C.关系中的任意⼀列D.关系中的所有列解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:A3.打印机属于哪⼀种计算机硬件设备A.输⼊设备B.输出设备C.存储设备D.系统接⼝解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:B4.哪种关系操作不要求参与运算的两个关系具有相同的属性集合A.并B.交C.差D.笛卡尔积解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:D5.法国⼈Blaise Pascal建造了()A.齿轮驱动机械B.四则运算器C.织布机6.3度布尔函数共有多少个A.3B.8C.27D.256解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:D7.下列哪种语⾔是⾯向对象的编程语⾔A.PascalB.BASICC.CD.C++解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:D8.以下哪个选项⽤于实现SQL语⾔的查询功能A.seleceB.insertC.deleteD.update解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:A9.以下哪项不属于冯诺依曼体系结构的核⼼部件A.运算器B.存储器C.输⼊输出设备D.控制器解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:C10.RGB表⽰法中某种颜⾊的份额通常在以下哪对数字之间A.0-255B.0-256C.128-25511.下列哪种存储器的读取速度最快?A.主存储器B.CPU寄存器。
《数据科学导论》20春期末考核-00001
试卷总分:100 得分:70
一、单选题(共15 道试题,共30 分)
1.下面不是分类的常用方法的有()
A.K近邻法
B.朴素贝叶斯
C.决策树
D.条件随机场
标准答案:D
2.BFR聚类用于在()欧氏空间中对数据进行聚类
A.高维
B.中维
C.低维
D.中高维
标准答案:A
3.聚类是一种()。
A.有监督学习
B.无监督学习
C.强化学习
D.半监督学习
标准答案:B
4.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A.异常值
B.缺失值
C.不一致的值
D.重复值
标准答案:C
5.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A.产量每增加一台,单位成本增加100元
B.产量每增加一台,单位成本减少1.2元
C.产量每增加一台,单位成本平均减少1.2元
D.产量每增加一台,单位平均增加100元
标准答案:C
6.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
A.减小,减小
B.减小,增大
C.增大,减小
D.增大,增大。
《大数据开发技术(一)》20春期末考核-00001试卷总分:100 得分:70一、单选题(共15 道试题,共30 分)1.使用Amazon云环境部署Hadoop的说法中错误的是()。
A.Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中B.Hadoop自带有一套脚本,用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务答案:D2.Xtimeline是哪种可视化工具()A.信息图表B.地图工具C.时间线工具D.分析工具答案:C3.Amazon Redshift属于()A.关系数据库B.键值数据库C.NoSQL数据库D.数据仓库答案:D4.SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流A.Client LayerB.Services LayerC.Platform LayerD.Infrastructure Layer答案:A5.UMP系通过()来实现实现在不停机的情况下动态扩容、缩容和迁移A.Controller服务器B.Procy服务器C.愚公系统D.Agent服务器答案:C6.Hbase采用()作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统答案:A7.关于MapReduce工作流程,说法错误的是()。
A.不同的Map任务之间不会进行通信B.不同的Reduce任务之间不会发生任何信息交换C.用户可以显式地从一台机器向另一台机器发送消息D.所有的数据交换都是通过MapReduce框架自身去实现的答案:C8.针对流数据,“量子恒道”开发了海量数据实时流计算框架()。
A.Time TunnelB.SparkC.Super MarioD.Storm答案:C9.关于Hadoop集群,以下说法错误的是()。
A.SecondaryNameNode可以和NameNode共用一台机器B.JobTracker指派的任务由TaskTracker执行C.SecondaryNameNode可以和DataNode共用一台机器Node可以和JobTracker共用一台机器答案:C10.关于Strom中Bolt说法错误的是()。
20春学期(1709、1803、1809、1903、1909、2003)《大数据导论》在线作业
试卷总分:100 得分:98
一、单选题(共15 道试题,共30 分)
1.大数据的特点不包含
A.数据体量大
B.数据不统一
C.处理速度快
D.价值密度高
答案:B
2.基础设施即服务的英文简称是
A.SaaS
B.PaaS
C.IaaS
答案:C
3.下面哪一项不是中国发展大数据产业的基础()。
A.大数据技术创新取得明显突破
B.大数据应用推动势头良好
C.大数据产业支撑薄弱
D.信息化积累了丰富的数据资源
答案:C
4.数据清洗的方法不包括
A.重复数据记录处理
B.缺失值处理
C.噪声数据清除
D.一致性检查
答案:A
5.以下不是数据仓库基本特征的是()
A.数据仓库的数据是相对稳定的
B.数据仓库的数据是反映历史变化的
C.数据仓库是面向事务的
D.数据仓库是面向主题的。
1.下面不是分类的常用方法的有()A.K近邻法B.朴素贝叶斯C.决策树D.条件随机场【参考答案】: D2.BFR聚类用于在()欧氏空间中对数据进行聚类A.高维B.中维C.低维D.中高维【参考答案】: A3.聚类是一种()。
A.有监督学习B.无监督学习C.强化学习D.半监督学习【参考答案】: B4.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()A.异常值B.缺失值C.不一致的值D.重复值【参考答案】: C5.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A.产量每增加一台,单位成本增加100元B.产量每增加一台,单位成本减少1.2元 C.产量每增加一台,单位成本平均减少1.2元 D.产量每增加一台,单位平均增加100元【参考答案】: C6.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
A.减小,减小B.减小,增大C.增大,减小D.增大,增大【参考答案】: B7.在回归分析中,自变量为(),因变量为()。
A.离散型变量,离散型变量B.连续型变量,离散型变量C.离散型变量,连续型变量D.连续型变量,连续型变量【参考答案】: D8.手肘法的核心指标是()。
A.SESB.SSEC.RMSED.MSE【参考答案】: B9.特征选择的四个步骤中不包括()A.子集产生B.子集评估C.子集搜索D.子集验证【参考答案】: C10.一元线性回归中,真实值与预测值的差称为样本的()。
A.误差B.方差C.测差D.残差【参考答案】: D11.K-means聚类适用的数据类型是()。
A.数值型数据B.字符型数据C.语音数据D.所有数据【参考答案】: A12.以下哪些不是缺失值的影响()A.数据建模将丢失大量有用信息B.数据建模的不确定性更加显著C.对整体总是不产生什么作用D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出【参考答案】: C13.下列两个变量之间的关系中,哪个是函数关系()。
1.GraphX中。
方法可以查询顶点信息A. numVerticesB. numEdgesC. verticesD. edges【参考答案】:C2. MLlib中可以调用mllib. tree. DecisionTree类中的静态方法()训练回归树A. trainClassifierB. trainRegressorC. LogisticRegressionModelbeledPoint【参考答案】:B3.以下哪个函数可以对RDD进行去重OA. sortByB.filterC. distinctD. intersection【参考答案】:c4,图是一种数据元素间为。
关系的数据结构A.多对多B.一对一C.一对多D.多对一【参考答案】:A5.GraphX中。
方法可以查询度数A.degreesB. degreeC.verticesD. edges【参考答案】:A6. Scala中。
方法返回一个列表,包含除了第一个元素之外的其他元素A. headB. initC. tailD. last【参考答案】:C1. GraphX 中 graph. triplets 可以得到 OA.顶点视图B.边视图C.顶点与边的三元组整体视图D.有向图【参考答案】:C8. spark-submit配置项中。
表示启动的executor数量A. 一一num-executors NUMB. 一一executor-memoryMEM C. 一一total-executor-cores NUM D. 一一executor-coures NUM【参考答案】:A9.。
是AMPLab发布的一个R开发包,使得R摆脱单机运行的命运,可以作为Spark的Job运行在集群上A. SparkRB.BlinkDBC. GraphXD. Ml lib【参考答案】:A10.Spark GraphX 中类 Graph 的collectNeighborIds(edgeDirection: EdgeDirection)方法可以。
1.对于k近邻法,下列说法错误的是()。
A.不具有显式的学习过程B.适用于多分类任务C.k值越大,分类效果越好D.通常采用多数表决的分类决策规则答案:C2.以下哪个不是处理缺失值的方法?()A.删除记录B.按照一定原则补充C.不处理D.随意填写答案:D3.在一元线性回归模型中,残差项服从()分布。
A.泊松B.正态C.线性D.非线性答案:B4.一元线性回归中,真实值与预测值的差称为样本的()。
A.误差B.方差C.测差D.残差答案:D5.Apriori算法的加速过程依赖于以下哪个策略?()A.抽样B.剪枝C.缓冲D.并行答案:B6.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()。
A.异常值B.缺失值C.不一致的值D.重复值答案:C7.单层感知机模型属于()模型。
A.二分类的线性分类模型B.二分类的非线性分类模型C.多分类的线性分类模型D.多分类的非线性分类模型答案:A8.层次聚类适合规模较()的数据集。
A.大B.中C.小D.所有答案:C9.通过构造新的指标—线损率,当超出线损率的正常范围,则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()。
A.简单函数变换B.规范化C.属性构造D.连续属性离散化答案:C10.例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()。
A.简单函数变换B.规范化C.属性构造D.连续属性离散化答案:B11.在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。
A.越小B.越大C.无关D.不确定答案:B12.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5};假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()。
《数据科学导论》20春期末考核-00001
试卷总分:100 得分:70
一、单选题(共15 道试题,共30 分)
1.下面不是分类的常用方法的有()
A.K近邻法
B.朴素贝叶斯
C.决策树
D.条件随机场
答案:D
2.BFR聚类用于在()欧氏空间中对数据进行聚类
A.高维
B.中维
C.低维
D.中高维
答案:A
3.聚类是一种()。
A.有监督学习
B.无监督学习
C.强化学习
D.半监督学习
答案:B
4.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A.异常值
B.缺失值
C.不一致的值
D.重复值
答案:C
5.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A.产量每增加一台,单位成本增加100元
B.产量每增加一台,单位成本减少1.2元
C.产量每增加一台,单位成本平均减少1.2元
D.产量每增加一台,单位平均增加100元
答案:C
6.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
A.减小,减小
B.减小,增大
C.增大,减小
D.增大,增大
答案:B
7.在回归分析中,自变量为(),因变量为()。
A.离散型变量,离散型变量
B.连续型变量,离散型变量
C.离散型变量,连续型变量
D.连续型变量,连续型变量
答案:D
8.手肘法的核心指标是()。
A.SES
B.SSE
C.RMSE
D.MSE
答案:B
9.特征选择的四个步骤中不包括()
A.子集产生
B.子集评估
C.子集搜索
D.子集验证
答案:C
10.一元线性回归中,真实值与预测值的差称为样本的()。
A.误差
B.方差
C.测差
D.残差
答案:D
11.K-means聚类适用的数据类型是()。
A.数值型数据
B.字符型数据
C.语音数据
D.所有数据
答案:A
12.以下哪些不是缺失值的影响()
A.数据建模将丢失大量有用信息
B.数据建模的不确定性更加显著
C.对整体总是不产生什么作用
D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出答案:C。