2019大数据机器学习答案1
- 格式:doc
- 大小:214.46 KB
- 文档页数:6
智慧健康医疗1、CAD在医疗健康领域的英文全称是()Computer Aided Diagnosis2、不属于AI健康医疗生态系统的是()制药生态3、不属于慢性疾病的是()艾滋病4、AI院前管理包括()预测和干预5、AI医疗健康技术体系的基础层不包括()芯片6、AI医疗健康发展的核心要素是()数据7、我国首次研发的AI医疗系统是面向()中医8、第3次AI浪潮的到来主要依赖于()深度学习9、目前AI医疗健康市场最成熟的是()辅助医疗影像诊断10、我国慢性疾病增加,与老龄化加剧的关系()强相关11、AI医疗健康的核心技术体系主要包括()传感器技术存储技术传输技术12、AI辅助诊断属于()院中管理13、婴幼儿时期的环境暴露不会影响个体后期的身体健康。
错误14、以下不属于大数据时代特征的是()数据处理速度迅速提升15、以下哪一项不是人工智能发展的必要条件()机器学习16、以下哪一项不属于健康医疗大数据来源()购物数据17、以下不属于机器学习研究范畴的是()专家系统18、以下属于人工智能在医疗领域应用的是()多选疾病预测辅助诊断药物个性化推荐19、以下对大数据描述正确的是()大数据本质在于数据的关联分析20、以下不属于弱人工智能特点的是()自适应能力21、人工智能技术发展出现几次低潮的原因包括()多选算法研究瓶颈计算能力瓶颈数据有限22、以下说法正确的是()人工智能就是深度学习23、以下说法正确的是()健康医疗领域数据存在孤岛现象24、以下说法正确的是()即使在大数据时代,统计分析仍然具有重要的作用25、以下关于人工智能、机器学习和深度学习说法正确的是()机器学习或深度学习是实现人工智能的一种方法大数据应用1、大数据起源于()互联网2、第一个提出大数据概念的公司是()麦肯锡3、)规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理。
大数据4、大数据的本质是()洞察价值5、大数据的最显著特征()数据规模大6、海军人员通过对前人航海日志的分析,绘制了新的航海路线图,标明大风与洋流可能发生的地点。
大数据理论考试(习题卷3)第1部分:单项选择题,共64题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]当学习器将训练样本自身的特点作为所有潜在样本都具有的一般性质,这样会导致泛化性能下降,这种现象称之为()。
A)欠拟合B)过拟合C)拟合D)以上答案都不正答案:B解析:当学习器把训练样本学得太好了的时候,很可能巳经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降这种现象在机器学习中称为过拟合 。
2.[单选题]例如Hive建表语句中stored as 的作用是指定表的格式,下列不属于Hive表的常见格式的是()create table if not exists textfile_table( ueserid STRING, movieid STRING, rating STRING, ts STRING)row formated delimated fields terminated by '\t'stored as textfile;A)PigTableB)ORCC)PARQUETD)TEXTFIL答案:A解析:3.[单选题]机器学习中,基于样本分布的距离是以下哪一个()A)马氏距离B)欧式距离C)曼哈顿距离D)闵可夫斯基距离答案:A解析:马氏距离是基于样本分布的一种距离。
4.[单选题]以下关于数据服务API开放方使用流程,描述正确的是:( )。
A)创建api并发布apiB)获取APIC)调用APID)创建应用并获取授答案:A解析:5.[单选题]令N为数据集的大小(注:设训练样本(xi,yi),N即训练样本个数),d是输入空间的维数(注:d即向量xi的维数)。
硬间隔SVM问题的原始形式(即在不等式约束(注:yi(wTxi+b)≥1)下最小化(1/2)wTw)在没有转化为拉格朗日对偶问题之前,是()。
A)一个含N个变量的二次规划问题B)一个含N+1个变量的二次规划问题解析:欲找到具有最大间隔 的划分超平面,也就是要找到能满足式题中不等式约束的参数w 和b ,是一个含d+1个变量的二次规划问题。
高级大数据测试题及答案一、选择题(每题5分,共20分)1. 在大数据环境下,以下哪个选项不是Hadoop生态系统的组成部分?A. HBaseB. HiveC. SparkD. MongoDB答案:D2. 在Spark中,RDD的全称是什么?A. Resilient Distributed DatabaseB. Resilient Distributed DatasetC. Resilient Distributed Data StructureD. Resilient Distributed Data Stream答案:B3. 下列哪个选项是Hadoop的分布式文件系统?A. HDFSB. GFSC. ZFSD. NFS答案:A4. 在大数据技术中,以下哪个不是数据清洗的常见步骤?A. 去除重复B. 缺失值处理C. 数据转换D. 数据加密答案:D二、填空题(每题5分,共20分)1. Hadoop的两个主要组件是________和________。
答案:HDFS、MapReduce2. 在Spark中,________操作可以将多个RDDs合并为一个。
答案:union3. 用于数据挖掘的机器学习算法中,________算法是一种监督学习算法。
答案:决策树4. 在大数据存储中,________是一种用于存储半结构化数据的文件格式。
答案:JSON三、简答题(每题10分,共40分)1. 请简述Hadoop的MapReduce工作原理。
答案:Hadoop的MapReduce工作原理包括两个主要步骤:Map阶段和Reduce阶段。
在Map阶段,输入数据被分割成多个独立的数据块,每个数据块由一个Map任务处理。
Map任务读取数据块,将数据映射成键值对形式,然后输出中间结果。
在Reduce阶段,Map阶段输出的中间结果被分组,每个组由一个Reduce任务处理。
Reduce任务对同一键的值进行聚合操作,最终输出最终结果。
《机器学习》练习题与解答1.小刚去应聘某互联网公司的算法工程师,面试官问他“回归和分类有什么相同点和不同点”,他说了以下言论,请逐条判断是否准确。
1)回归和分类都是有监督学习问题[单选题] [必答题]○对○错参考答案:对。
解析:这道题只有一个同学做错。
本题考察有监督学习的概念。
有监督学习是从标签化训练数据集中推断出函数的机器学习任务。
有监督学习和无监督学习的区别是:机器学习算法的图谱如下:在回归问题中,标签是连续值;在分类问题中,标签是离散值。
具体差别请看周志华《机器学习》书中的例子,一看便懂:2.背景同上题。
请判断2)回归问题和分类问题都有可能发生过拟合 [单选题] [必答题]○对○错答案:对解析:这题有两个同学做错。
过拟合的英文名称是 Over-fitting(过拟合)。
为了说清楚“过”拟合,首先说一下“拟合”【拟合的几何意义】:从几何意义上讲,拟合是给定了空间中的一些点,找到一个已知形式未知参数的连续曲线或曲面来最大限度地逼近这些点。
一个直观的例子,是下面的电阻和温度的例子。
我们知道在物理学中,电阻和温度是线性的关系,也就是R=at+b。
现在我们有一系列关于“温度”和“电阻”的测量值。
一个最简单的思路,取两组测量值,解一个线性方程组,就可以求出系数a、b了!但是理想是丰满的,现实是残酷的!由于测量误差等的存在,我们每次测量得到的温度值和电阻值都是有误差的!因此,为了提高测量精度,我们会测量多次,得到多组的值,这样就相当于得到二维平面上的多个点,我们的目标是寻找一条直线,让这条直线尽可能地接近各个测量得到的点。
拟合的数学意义:在数学的意义上,所谓拟合(fit)是指已知某函数的若干离散函数值{f1,f2,…,fn}(未必都是准确值,有个别可能是近似甚至错误值),通过调整该函数中若干待定系数f(λ1, λ2,…,λn),使得该函数与已知点集的差别(最小二乘意义)最小。
【说说过拟合】古人云“过犹不及”。
1.在大数据隐私保护生命周期模型中,大数据发布的风险是()。
(2.0分)A.被第三方偷窥或篡改B.如何确保合适的数据及属性在合适的时间地点给合适的用户访问C.匿名处理后经过数据挖掘仍可被分析出隐私D.如何在发布时去掉用户隐私并保证数据可用我的答案:D √答对2.()宣布启动了“先进制造伙伴计划”“人类连接组计划”“创新神经技术脑研究计划”。
(2.0分)A.中国B.日本C.美国D.德国我的答案:C √答对3.最经典的西方健康研究——佛雷明翰研究开始于()。
(2.0分)A.1948年B.1971年C.1989年D.2000年我的答案:A √答对4.在高血压诊断标准的变迁史上,()将高血压的诊断标准定为120/80mmHg以下更受益。
(2.0分)A.1949年B.1984年C.1993年D.2016年我的答案:D √答对5.()是一种基于树结构进行决策的算法。
(2.0分)A.轨迹跟踪B.决策树C.数据挖掘D.K近邻算法我的答案:B √答对6.现在医学上使用的水银柱血压计是在()开始应用于临床的。
(2.0分)A.1872年B.1896年C.1970年D.2005年我的答案:B √答对7.生物特征识别技术不包括()。
(2.0分)A.体感交互B.指纹识别C.人脸识别D.虹膜识别我的答案:A √答对8.在高血压诊断标准的变迁史上,()将高血压的诊断标准定为210/100mmHg以下更受益。
(2.0分)A.1949年B.1984年C.1993年D.2016年我的答案:A √答对9.2012年,Hinton教授小组在ImageNet竞赛中夺冠,降低了几乎()的错误率。
(2.0分)A.25%B.50%C.75%D.100%我的答案:B √答对10.()是指能够按照人的要求,在某一个领域完成一项工作或者一类工作的人工智能。
(2.0分)A.超人工智能B.强人工智能C.弱人工智能D.人工智能我的答案:C √答对11.()是指在各个领域都比人类要强的人工智能。
2019年人工智能考试题目及其答案2019年人工智能考试题目及其答案篇一一、单项选择题1.在近几年,ImageNet测试的识别错误率为()。
(2.0分)A.2.1%B.3.5%C.26.5%D.28.2%我的答案:B√答对2.“计算机器能够思维”的观点是由()提出来的。
(2.0分)A.冯·诺依曼B.图灵C.诸葛亮D.公输班我的答案:B√答对3.在()年,AlphaGo战胜世界围棋冠军李世石。
(2.0分)A.2006B.2012C.2016D.2017我的答案:C√答对4.古代把计量叫“度量衡”,其中,“衡”是测量()的过程。
(2.0分)A.长度B.容积C.温度D.轻重我的答案:D√答对5.()是一种基于树结构进行决策的算法。
(2.0分)A.轨迹跟踪B.决策树C.数据挖掘D.K近邻算法我的答案:B√答对6.我国在语音语义识别领域的领军企业是()。
(2.0分)A.科大讯飞B.图谱科技C.阿里巴巴D.华为我的答案:A√答对7.()是一种处理时序数据的神经网络,常用于语音识别、机器翻译等领域。
(2.0分)A.前馈神经网络B.卷积神经网络C.循环神经网络D.对抗神经网络我的答案:C√答对8.古代把计量叫“度量衡”,其中,“量”是测量()的过程。
(2.0分)A.长度B.容积C.温度D.轻重我的答案:B√答对9.下列判定标准中,不属于金标准的是()。
(2.0分)A.化验检出埃博拉病毒→感染B.病理检测发现突变细胞→肿瘤C.心电图显示T波改变→供血不足D.超声显示室间隔缺损→先心病我的答案:C√答对10.在2016年,我国人工智能企业超过了()家。
(2.0分)A.1000B.1200C.1400D.1500我的答案:D√答对11.()是人以自然语言同计算机进行交互的综合性技术,结合了语言学、心理学、工程、计算机技术等领域的知识。
(2.0分)A.语音交互B.情感交互C.体感交互D.脑机交互我的答案:A√答对12.关于专用人工智能与通用人工智能,下列表述不当的是()。
一1、(单选,4分)CAD在医疗健康领域的英文全称是()A、Computer Aided Diagnosis2、(单选,4分)不属于AI健康医疗生态系统的是()D、制药生态3、(单选,4分)不属于慢性疾病的是()A、艾滋病4、(单选,4分)AI院前管理包括()A、预测和干预5、(单选,4分)AI医疗健康技术体系的基础层不包括()C、芯片6、(单选,4分)AI医疗健康发展的核心要素是()B、数据7、(单选,4分)我国首次研发的AI医疗系统是面向()B、中医8、(单选,4分)第3次AI浪潮的到来主要依赖于()C、深度学习9、(单选,4分)目前AI医疗健康市场最成熟的是()D、辅助医疗影像诊断10、(单选,4分)我国慢性疾病增加,与老龄化加剧的关系()B、强相关11、(多选,4分)AI医疗健康的核心技术体系主要包括()A、传感器技术B、存储技术C、传输技术12、(单选,4分)AI辅助诊断属于()B、院中管理13、(单选,4分)婴幼儿时期的环境暴露不会影响个体后期的身体健康。
B、错误14、(单选,4分)以下不属于大数据时代特征的是()D、数据处理速度迅速提升15、(单选,4分)以下哪一项不是人工智能发展的必要条件()D、机器学习16、(单选,4分)以下哪一项不属于健康医疗大数据来源()C、购物数据17、(单选,4分)以下不属于机器学习研究范畴的是()C、专家系统18、(多选,4分)以下属于人工智能在医疗领域应用的是()多选A、疾病预测C、辅助诊断D、药物个性化推荐19、(单选,4分)以下对大数据描述正确的是()C、大数据本质在于数据的关联分析20、(单选,4分)以下不属于弱人工智能特点的是()A、自适应能力21、(多选,4分)人工智能技术发展出现几次低潮的原因包括()多选A、算法研究瓶颈B、计算能力瓶颈D、数据有限22、(单选,4分)以下说法正确的是()D、人工智能就是深度学习23、(单选,4分)以下说法正确的是()D、健康医疗领域数据存在孤岛现象24、(单选,4分)以下说法正确的是()A、即使在大数据时代,统计分析仍然具有重要的作用25、(单选,4分)以下关于人工智能、机器学习和深度学习说法正确的是()B、机器学习或深度学习是实现人工智能的一种方法二1、(单选,4分)大数据起源于()A、金融B、电信C、互联网D、医疗答案:C2、(单选,4分)第一个提出大数据概念的公司是()A、微软B、谷歌C、麦肯锡D、亚马逊答案:C3、(单选,4分)()规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理。
大数据与人工智能答案人工智能与深度学习1. 正确单选机器学习处理后,将垃圾邮件标注为1。
2. 正确单选垃圾邮件的特定来源特征属性为,如被标记为垃圾邮件的发件人,发件人为不规则长邮箱名等。
3. 正确单选垃圾邮件一般带有附件且附件大小在一定范围内。
4. 错误单选贝叶斯分类算法简单,但准确率低。
5. 正确单选贝叶斯分类是一种传统的机器学习方法。
6. 正确单选调节人工神经元之间连接权值的方法,这指的是赫布法则。
7. 错误单选唐纳德·赫布推动了多层神经网络的反向传播。
8. 正确单选和机器学习方法有关的两个概念是云计算和大数据。
9. 正确单选机器学习可分为监督学习、无监督学习、半监督学习等。
10. 错误单选人工智能从技术层面可划分为生物特征、人脸识别、智能客服、机器翻译、舆情监测。
11. 正确单选机器学习是实现人工智能的一大类方法。
12. 正确单选机器学习可以应用在识别垃圾邮件上。
13. 错误单选监督学习、无监督学习、半监督学习之间没有重合和交叉。
14. 正确单选贝叶斯分类是一种特征属性训练。
15. 正确单选在发展、应用阶段,机器学习方法的引入,使得人工智能技术有了飞跃式的提升。
16. D 单选垃圾邮件的发送时间特征属性为,(午夜0点到次日4点)间发送的邮件。
A 午夜3点到次日4点B 午夜2点到次日4点C 午夜1点到次日4点D 午夜0点到次日4点17. D 单选贝叶斯分类训练数据超过10000封,垃圾邮件识别准确率达到(0.99)以上。
A 0.69B 0.79C 0.89D 0.9918. A 单选深度学习之父是(Hinton)。
A HintonB 图灵C 贝叶斯D Jordan19. B 单选人工神经元是在哪一年提出的?1943年A 1942年B 1943年C 1944年D 1945年20. C 单选“赫布法则”是在哪一年提出的?1949年A 1947年B 1948年C 1949年D 1950年21. A 单选感知器模型是由谁提出的?罗森布拉特A 罗森布拉特B HintonC 唐纳德·赫布D 沃尔特·皮茨22. B 单选在2012年的ImageNet竞赛中,深度学习将错误率控制在(0.15)左右。
大数据行业考试题目及答案一、单项选择题(每题2分,共20分)1. 大数据的4V特性不包括以下哪一项?A. Volume(体量大)B. Velocity(速度快)C. Variety(种类多)D. Validity(有效性)答案:D2. Hadoop生态系统中,用于数据存储的是以下哪个组件?A. HBaseB. HiveC. YARND. HDFS答案:D3. 在大数据技术中,以下哪个不是NoSQL数据库?A. MongoDBB. CassandraC. MySQLD. Redis答案:C4. Spark的核心计算模型是基于以下哪种数据结构?A. 列表B. 集合C. 键值对D. 弹性分布式数据集(RDD)答案:D5. 以下哪个不是大数据技术中常用的数据挖掘算法?A. K-means聚类B. 决策树C. 线性回归D. 遗传算法答案:D6. 在大数据环境下,以下哪个指标用于衡量数据的准确性?A. 完整性B. 一致性C. 可扩展性D. 可用性答案:A7. 以下哪个不是大数据平台的组成部分?A. 数据存储B. 数据处理C. 数据可视化D. 网络传输答案:D8. 大数据技术中,以下哪个是用于实时处理的框架?A. HadoopB. SparkC. FlinkD. Storm答案:C9. 在大数据安全领域,以下哪个不是数据脱敏的方法?A. 替换B. 掩码C. 散列答案:C10. 大数据技术中,以下哪个是用于机器学习的库?A. TensorFlowB. NumPyC. PandasD. Matplotlib答案:A二、多项选择题(每题3分,共15分)11. 大数据技术可以应用于以下哪些领域?A. 金融B. 医疗C. 教育答案:ABCD12. 在Hadoop生态系统中,以下哪些组件是用于数据计算的?A. MapReduceB. HiveC. PigD. HBase答案:ABC13. 大数据技术中,以下哪些是数据仓库解决方案?A. Amazon RedshiftB. Google BigQueryC. SnowflakeD. MongoDB答案:ABC14. 在大数据技术中,以下哪些是数据可视化工具?A. TableauB. Power BIC. QlikViewD. Elasticsearch答案:ABC15. 大数据技术中,以下哪些是数据集成工具?A. Apache NiFiB. TalendC. Apache KafkaD. Apache Flume答案:ABCD三、判断题(每题2分,共10分)16. 大数据技术可以处理结构化和非结构化数据。
大数据试题及答案大数据试题及答案1、简介本文档旨在提供有关大数据的知识点和相关试题,以便读者对大数据概念、技术和应用有一个全面的了解。
2、大数据概念和原理2.1 大数据的定义和特点大数据是指规模巨大、复杂度高并且增速快的数据集合。
其特点包括高速、多样、大量和价值密度低。
2.2 大数据的处理原理大数据处理涉及数据采集、存储、处理、分析和应用等环节。
常用的大数据处理技术包括分布式计算、分布式存储和并行计算等。
3、大数据基础技术3.1 大数据存储技术3.1.1 关系型数据库关系型数据库是一种使用表格来组织数据的数据库系统,常用的关系型数据库产品包括MySQL、Oracle等。
3.1.2 NoSQL数据库NoSQL数据库是指非关系型数据库,适合用于处理大规模和高性能的数据。
常用的NoSQL数据库包括MongoDB、Redis等。
3.2 大数据计算技术3.2.1 分布式计算框架分布式计算框架用于处理大规模数据的计算任务,常用的分布式计算框架包括Hadoop、Spark等。
3.2.2 并行计算技术并行计算技术可以将计算任务分解为多个子任务,并在多个计算节点上同时执行,以提高计算效率。
4、大数据分析方法4.1 数据挖掘数据挖掘是指从大规模数据集中发现隐藏模式、规律和知识的过程。
常用的数据挖掘算法包括聚类、分类和关联规则等。
4.2 机器学习机器学习是通过训练模型来自动分析和解释数据的方法。
常用的机器学习算法包括回归、决策树和神经网络等。
5、大数据应用领域5.1 金融行业大数据在金融行业中可以应用于风险控制、信用评估和市场预测等方面。
5.2 零售行业大数据可以帮助零售企业进行销售预测、推荐系统和用户行为分析等。
5.3 医疗行业大数据在医疗行业中可以应用于疾病诊断、药物研发和健康管理等方面。
6、附件本文档的附件包括相关参考资料、数据集和案例分析。
7、法律名词及注释7.1 数据隐私保护数据隐私保护是指对个人数据进行保护,以防止未经授权的数据访问和使用。
1:感知机学习算法原始形式迭代是________的。
A震荡B发散C约束D收敛
A B C D
•答案:D
•正确2:机器学习的理论基础是__________
A统计论B概率论C计算学习理论D推断论
A B C D
•答案:C
•错误3:PR曲线中P代表的是__________
A预测出正例的保证性B预测出正例的正确率
A B
•答案:B
•错误4:支持向量机的学习策略是__________
A间隔最小化B间隔最大化C间隔平均化D间隔随机化
A B C D
•答案:B
•正确5:模型复杂度越大,训练误差__________ ,测试误差__________
A增大减小B增大增大C减小增大D 减小减小
A B C D
•答案:C
•错误6:多维缩放的主要特点有_______种
A 2
B 3
C 4
D 5
A B C D
•答案:B
•正确7:EM算法的引入是因为概率模型中包含__________
A观测变量B隐变量C随机变量D固定值
A B C D
•答案:B
•正确8:神经网络作为一个计算模型的理论是在__________ 年提出的
A 1941
B 1942
C 1943
D 1944
A B C D
•答案:C
•正确9:介绍了__________种自适应学习率算法
A 3
B 4
C 5
D 6
A B C D
•答案:A
•错误10:概率图推断方法可以被分为__________ 类
A 2
B 3
C 4
D 5
A B C D
•答案:A
•错误
11:概率模型是一种将学习任务归结于计算变量的概率分布的描述框架
A:对B:错
•答案:A
•正确12:没有免费的午餐定理原理称为“如无必要,勿增实体”。
A:对B:错
•答案:B
•错误13:神经网络的全称是人工神经网络
A:对B:错
•答案:A
•正确14:流形学习可被用于可视化
A:对B:错
•答案:A
•正确15:所有可能概念或模型的集合称为假设类
A:对B:错
•答案:B
•错误
16:机器学习方法三要素为__________
A模型B策略C空间D算法
A B C D
•答案:ABD
•正确17:隐马尔可夫模型的的三个基本问题__________
A概率计算问题B迭代尺度问题C模型学习问题D预测问题
A B C D
•答案:ABD
•错误18:贝叶斯网络是由__________ 结合而成的描述多元统计关系模型
A图论B空间论C逼近论D概率论
A B C D
•答案:AD
•正确19:监督学习方法分为__________
A预测方法B生成方法C判别方法D总结方法
A B C D
•答案:BC
•错误20:精确推断法主要包括__________
A变量消去法B信念传播法C MCMC采样D变分推断法
A B C D
•答案:AB
•错误。