机器学习试卷——中南大学
- 格式:doc
- 大小:74.50 KB
- 文档页数:4
下列各题每个大题10分,共8道大题,卷面总分80分注意:在给出算法时,非标准(自己设计的)部分应给出说明。
特别是自己设置的参数与变量的意义要说明。
1.下面是一个例子集。
其中,三个正例,一个反例。
“P”为正例、“N”为反例。
这些例子是关于汽车的。
例子有4个属性, 分别是“产地”、“生产商”、“颜色”、“年代”。
其中:“产地”的值域为0、“生产商”的值域为(,)、“颜色”的值域为0、“年代”的值域为(1980,1990)o这里规定“假设”的形式为4个属性值约束:的合取:每个约束可以为:一个特定值(比如、等)、?(表示接受任意值)和(表示拒绝所有值)。
例如,下面假设:表示日本生产的、红色的汽车。
1)根据上述提供的训练样例和假设表示,手动执行候选消除算法。
特别是要写出处理了每一个训练样例后变型空间的特殊和一般边界;2)列出最后形成的变型空间中的所有假设O2.写出3算法。
(要求:除标准3算法外,要加入“未知属性值” 和“过适合”两种情况的处理)。
3.给出•个求最小属性了∙集的算法。
4.给定训练例子集如下表。
依据给定的训练例子,使用朴素贝叶斯分类器进行分类。
给定类别未知例子〈高度=矮,头发=红,眼睛=兰>,计算这个例子的类别。
(计算类别时要先列出式子,然后再代入具体的数)o5.给定线性函数7w = W% + W r t1 + ... + H;I X(I与误差定义E = ' χσω -.7i∙v))2其中,X,是例子X的第i个属性值,f(x)是目标函数,D是训练例子集合。
请给出一个算法,这个算法能求出一组值,使得线性函数/U)逼近目标函数f(x)(本题要求写出算法的步骤,第.法步骤的详细程度要符合书中算法的标准)。
6.给定例子集(如下表),要求:1)用平面图直观画出例子的分布:2)给出一种规则好坏的评判标准:3)写出概念聚类算法。
7.简述题D简述“机器发现”的三个定律:2)、、是分析学习和归纳学习结合的三个算法。
机器学习第一阶段测试题一、选择题1.以下带佩亚诺余项的泰勒展开式错误的一项是(D)A.)x (o x !x !x e x 33231211++++= B.)x (o x *x x arcsin 33321++=C.)x (o x !x !x x sin 5535131++-= D.)x (o x !x !x cos 44241211+-+=分析:)x (o x !x !x cos 44241211++-=2.以下关于凸优化的说法错误的一项是(C )A.集合C 任意两点间线段均在集合C 内,则C 为凸集B.集合C 的凸包是能够包含C 的最小凸集C.多面体不一定是凸集D.线性变换能保持原集合的凸性分析:多面体是指有限半空间和超平面的交集,多面体一定是凸集3.以下说法错误的一项是(C )A.当目标函数是凸函数时,梯度下降法的解是全局最优解B.进行PCA 降维时需要计算协方差矩阵C.沿负梯度下降的方向一定是最优的方向D.利用拉格朗日函数能解带约束的优化问题分析:沿负梯度方向是函数值下降最快的方向但不一定是最优方向4.K-means 无法聚以下哪种形状样本?()A.圆形分布B.螺旋分布C.带状分布D.凸多边形分布分析:基于距离的聚类算法不能聚非凸形状的样本,因此选B5.若X 1,X 2,...X n 独立同分布于(2σ,μ),以下说法错误的是(C )A.若前n 个随机变量的均值,对于任意整数ε,有:B.随机变量的收敛到标准正态分布C.随机变量收敛到正态分布D.样本方差其中样本均值分析:A:大数定理概念;B、C:中心极限定理概念;C 错,应该收敛到正态分布D:样本的统计量公式二、公式推理题1.请写出标准正态分布的概率密度函数、期望、以及方差分析:概率密度函数:2221x e π)x (f -=;期望:0=)x (E ;方差:1=)x (D 2.请根据表中的分类结果混淆矩阵给出查准率(准确率)P 和查全率(召回率)R 的计算公式真实情况预测结果正例反例正例TP(真正例)FN(假反例)反例FP(假正例)TN(真反例)分析:FP TP TP P +=,NF TP TP R +=三、简答题1.求函数y ln x )y ,x (f 32+=的梯度向量分析:)y)y ,x (f ,x )y ,x (f ()y ,x (f ∂∂∂∂=∇,所以答案为(2x,3/y)∑==n i i n X n Y 111=<-∞→}ε|μY {|P lim n n σn μn X Y n i i n -=∑=1∑==n i i n X Y 1)σ,μ(N 2∑=--=n i i )X X (n S 1211)σn ,μn (N 2∑==n i i X n X 112.列举你知道的无约束最优化方法(至少三个),并选一种方法进行详细介绍分析:梯度下降法,牛顿法,拟牛顿法,共轭梯度法...(介绍略)3.请简要叙述正则化项中的L1和L2方法分析:1正则化和L2正则化可以看做是损失函数的惩罚项。
中南大学人工智能考试试卷1、下面哪个选项不属于按照形态分类的机器人?() [单选题] *A.仿人智能机器人B.拟物智能机器人C.对话机器人(正确答案)D.仿生机器人2、下面哪项不属于机器人常用的感觉传感器?() [单选题] *A.按钮(正确答案)B.视觉C.听觉D.触觉3、下面哪个选项不属于按照使用途径分类的机器人?() [单选题] *A.工业生产型机器人B.特殊灾害型机器人C.医疗机器人D.行走机器人(正确答案)4、下面哪个选项不属于按照智能程度分类的机器人?() [单选题] *A.初级智能机器人B.家庭智能陪护机器人C.高级智能机器D.农业机器人(正确答案)5、机器人一般按哪两种方式工作?() *A.将程序事先写好在存储器中(正确答案)B.示教-再现方式(正确答案)C.手动控制D.自我学习6、下面哪些选项属于机器人常用的传感器? *A.碰撞传感器(正确答案)B.激光雷达传感器(正确答案)C.视觉传感器(正确答案)D.超声传感器(正确答案)7、麦克风传感器可用于检测语音? [判断题] *对(正确答案)错8、热释电传感器可用于检测温度? [判断题] *对错(正确答案)9、碰撞传感器用于检测障碍物时使用? [判断题] *对(正确答案)错10、激光雷达传感器可用于获取障碍物的精确位置? [判断题] *对(正确答案)错11、自然语言理解,又称(),是人工智能的一个重要分支,属于计算机科学的一部分 [单选题] *A.人机对话(正确答案)B.人机交互C.语言合成D.语言生成12、下面哪个选项不属于自然语言理解的常用任务?() [单选题] *A.中文文本分词B.文本表示C.命名实体识别D.文本情感识别(正确答案)13、自然语言处理领域具有两个鲜明特征:一是(),二是真实可用性 [单选题] *A.小规模性B.大规模性(正确答案)C.乱序性D.有序性14、要想提取出“有用”的信息,仅提取关键词、统计词频等是远远不够的,必须对用户数据(尤其是发言、评论等)进行()。
2022机器学习专项测试试题及答案1.机器学习的流程包括:分析案例、数据获取、________和模型验证这四个过程。
()A.数据清洗A、数据清洗B.数据分析C.模型训练(正确答案)D.模型搭建2.机器翻译属于下列哪个领域的应用?() *A.自然语言系统(正确答案)A. 自然语言系统(正确答案)B.机器学习C.专家系统D.人类感官模拟3.为了解决如何模拟人类的感性思维, 例如视觉理解、直觉思维、悟性等, 研究者找到一个重要的信息处理的机制是()。
*A.专家系统B.人工神经网络(正确答案)C.模式识别D.智能代理4.要想让机器具有智能, 必须让机器具有知识。
因此, 在人工智能中有一个研究领域, 主要研究计算机如何自动获取知识和技能, 实现自我完善, 这门研究分支学科叫()。
*A. 专家系统A.专家系统B. 机器学习(正确答案)C. 神经网络D. 模式识别5.如下属于机器学习应用的包括()。
*A.自动计算, 通过编程计算 456*457*458*459 的值(正确答案)A. 自动计算,通过编程计算 456*457*458*459 的值(正确答案)A.自动计算,通过编程计算 456*457*458*459 的值(正确答案)B.文字识别, 如通过 OCR 快速获得的图像中出汉字, 保存为文本C.语音输入, 通过话筒将讲话内容转成文本D.麦克风阵列, 如利用灵云该技术实现远场语音交互的电视6.对于神经网络模型, 当样本足够多时, 少量输入样本中带有较大的误差甚至个别错误对模型的输入-输出映射关系影响很小, 这属于()。
*A. 泛化能力A.泛化能力B. 容错能力(正确答案)C. 搜索能力D. 非线性映射能力7.下列选项不属于机器学习研究内容的是() *A. 学习机理A.学习机理B. 自动控制(正确答案)C. 学习方法D. 计算机存储系统8.机器学习的经典定义是: () *A.利用技术进步改善系统自身性能A. 利用技术进步改善系统自身性能B.利用技术进步改善人的能力C.利用经验改善系统自身的性能(正确答案)D.利用经验改善人的能力9.研究某超市销售记录数据后发现, 买啤酒的人很大概率也会购买尿布, 这种属于数据挖掘的那类问题()。
机器学习基础知识试题一、选择题1. 机器学习的主要目标是什么?A. 让机器能够像人一样思考B. 让机器能够自动学习C. 提高计算机的运算速度D. 使机器具备无限的记忆能力2. 哪个是监督学习的主要特点?A. 需要标记好的训练数据B. 无需人工干预C. 机器能独立学习D. 只能处理分类问题3. 以下哪个属于非监督学习?A. 图像分类B. 垃圾邮件过滤C. 聚类分析D. 情感分析4. 在机器学习中,过拟合指的是什么?A. 模型无法适应新的数据B. 模型在训练集上表现较好,在测试集上表现较差C. 模型无法收敛D. 模型的准确率低5. 以下哪个是机器学习中常用的性能评估指标?A. 准确率B. 召回率C. F1值D. 所有选项都正确二、填空题1. 机器学习是一门研究怎样使计算机能够__________的科学。
2. 监督学习中,训练数据包括__________和__________。
3. __________是一种无监督学习算法,用于将数据分成相似的组或簇。
4. 过拟合是指模型在训练集上过度学习,导致在测试集上_____________。
5. 准确率是用来评估__________模型性能的指标。
三、简答题1. 请简要解释机器学习中的模型训练过程。
2. 什么是特征工程?为什么它在机器学习中很重要?3. 请解释交叉验证的概念及其作用。
4. 解释机器学习中的偏差和方差之间的关系。
5. 什么是集成学习?如何应用于机器学习中?四、应用题假设你是一个房地产公司的数据科学家,公司希望使用机器学习模型来预测未来一年的房屋价格。
你被要求开发一个模型,基于房屋的相关特征,帮助公司预测房屋的售价。
1. 请列举至少五个可能有用的特征,用于训练模型。
2. 你认为是分类问题还是回归问题?为什么?3. 你将如何评估你开发的模型的性能?4. 请描述你将如何使用交叉验证来提高模型的泛化能力。
5. 除了单一的机器学习模型,你可以考虑使用哪些集成学习方法来提高预测性能?答案:一、选择题1. B2. A3. C4. B5. D二、填空题1. 自动学习2. 特征、标签3. 聚类分析4. 表现较差5. 分类器三、简答题1. 模型训练过程包括选择合适的算法和模型结构、准备训练数据、使用训练数据对模型进行训练、评估模型性能以及根据评估结果调整模型参数。
中南大学大数据编程试卷试题一选择题以下哪个不是大数据的特色(c)A.价值密度低B.数据种类众多C.接见时间短D.办理速度快当前大数据技术的基础是由( C)第一提出的。
A:电信B.C:互联网D:公共管理依照不同样的业务需求来成立数据模型, 抽取最有意义的向量,决定采用哪一种方法的数据解析角色人员是(C)。
A: 数据管理人员B: 数据解析员C:研究科学家D:软件开发工程师(C)反响数据的精巧化程度,越细化的数据,价值越高。
A:规模B:活性C:颗粒度D:关系度智能健康手环的应用开发,表现了(C)的数据收集技术的应用。
A:统计报表B:网络爬虫C:传感器D:API接口以下关于数据重组的说法中,错误的选项是(C)A:数据重组实现的要点在于多源数据交融和数据集成B: 数据重组能够使数据焕发新的光芒C:数据重组是数据的重新生产和重新收集D:数据重组有利于实现奇特的数据模式创新智慧城市的成立,不包含(C)A:数字城市B:物联网C:联网盖控D:云计算当前社会中,最为突出的大数据环境是(C)。
A 综合国力B:物联网C 互联网D:自然资温判断题关于大数据而言,最基本。
最重要的是要求就是减少错误、保证质量。
因此,大数据收集的信息要尽量精确。
(对)关于大数据而言, 在数据规模上重申相对数据而不是绝对数据。
(对)大数据的营销模式和传统营销模式,传统营销模式比大数据营销模式投入更小(错)大数据拥有体量大、结构单一、时效性强的特色(对)简答题大数据发展过程中遇到的问题有哪些?解析:(1)大数据是全数据,恕视甚至部视抽样:(2)连续数据就是大数据:(3)数据量级大是大数据:(4)数据量大好于量小。
咸鱼APP 在投入使用发展过程中有哪些不足之处?解析:(1)交易相信危机(2)物流问题(3)商品的售后及维修问题。
中南大学考试试卷2006年第2学期,考试时间110分钟人工智能课程48学时,3学分,考试形式:开卷专业年级:计算机03级总分100分,占总评成绩70 % 注:此页不作答题纸,请将答案写在答题纸上一、选择题(共20分,每题2分)1、消解原理是一种用于A、表达式变换的推理规则B、变量运算的推理规则C、一定的子句公式的推理规则 D 、规则演绎的推理规则2、下列哪个系统属于新型专家系统?A、多媒体专家系统B、实时专家系统C、军事专家系统D、分布式专家系统3、示例学习属于下列哪种学习方法?A. 解释学习B. 归纳学习C. 类比学习D. 机械学习4、不属于神经网络常用学习算法的是:A. 有师学习B. 增强学习C. 观察与发现学习D. 无师学习5、人工智能应用研究的两个最重要最广泛领域为:A. 专家系统、自动规划B. 专家系统、机器学习C. 机器学习、智能控制D. 机器学习、自然语言理解6、下列搜索方法中不属于盲目搜索的是:A. 等代价搜索B. 宽度优先搜索C. 深度优先搜索D. 有序搜索7、被认为是人工智能“元年”的时间应为:A、1948年B、1946年C、1956年D、1961年8、被誉为国际“人工智能之父”的是:A、图灵(Turing)B、费根鲍姆(Feigenbaum)C、傅京孙(K.S.Fu)D、尼尔逊(Nilsson)9、语义网络的组成部分为:A、框架和弧线B、状态和算符C、节点和链D、槽和值10、尽管人工智能学术界出现“百家争鸣”的局面,但是,当前国际人工智能的主流派仍属于:A、连接主义B、符号主义C、行为主义D、经验主义二、填空题(共20分,每一填空处1分)1、机器学习系统由____________、____________、____________和____________几部分构成。
2、人工智能是计算机科学中涉及研究、设计和应用____________的一个分支,它的近期目标在于研究用机器来____________的某些智力功能。
中南大学十套数据结构试题及答案数据结构试卷(1)................1数据结构试卷(2)................4数据结构试卷(3)................6数据结构试卷(4)................8数据结构试卷(5)................11数据结构试卷(6)................14数据结构试卷(7)................16数据结构试卷(8)................18数据结构试卷(9)................20数据结构试卷(10)................2 3数据结构试卷(1)参考答案.........26数据结构试卷(2)参考答案 (27)数据结构试卷(3)参考答案.........28数据结构试卷(4)参考答案 (30)数据结构试卷(5)参考答案.........32数据结构试卷(6)参考答案 (33)数据结构试卷(7)参考答案.........36数据结构试卷(8)参考答案...37数据结构试卷(9)参考答案.........38数据结构试卷(10)参考答案 (39)数据结构试卷(1)1,单项题(每题2分,共20分)1。
堆栈和队列的共同特征是()A.仅允许在端点b插入和删除元素。
所有元素都是先进先出。
所有元素都是先进先出。
没有公共基础2。
以链接方式存储的队列。
在插入操作过程中()。
A .只应修改头部指针b。
头指针和尾指针都应该修改c .只有尾指针d .头指针和尾指针都应该修改3。
下列哪种数据结构是非线性结构?()队列b堆栈c线性表d二叉树4。
有一个二维数组[m][n]。
假设[0][0]存储在644(10)中,[2][2]存储在676(10)中。
每个元素占据一个空间。
问一问[3][3)(10)它储存在哪里?脚注(10)用十进制表示a . 688b . 678c . 692d . 6965。
这棵树最适合用来代表()a .有序数据元素b .无序数据元素c .元素之间具有分支层次关系的数据d .元素之间没有连接的数据6。
数据结构试卷(一) (1)数据结构试卷(二) (5)数据结构试卷(三) (9)数据结构试卷(四) (14)数据结构试卷(五) (19)数据结构试卷(六) (24)数据结构试卷(七) (28)数据结构试卷(八) (32)数据结构试卷(九) (36)数据结构试卷(十).......................... 41 数据结构试卷(一)参考答案. (47)数据结构试卷(二)参考答案 (48)数据结构试卷(三)参考答案 (51)数据结构试卷(四)参考答案 (54)数据结构试卷(五)参考答案 (58)数据结构试卷(六)参考答案 (60)数据结构试卷(七)参考答案 (64)数据结构试卷(八)参考答案 (66)数据结构试卷(九)参考答案 (69)数据结构试卷(十)参考答案 (71)数据结构试卷(一)一、单选题(每题2 分,共20分)1.栈和队列的共同特点是( )。
A.只允许在端点处插入和删除元素B.都是先进后出C.都是先进先出D.没有共同点2.用方式存储的队列,在进行插入运算时( ).A. 仅修改头指针B. 头、尾指针都要修改C. 仅修改尾指针D.头、尾指针可能都要修改3.以下数据结构中哪一个是非线性结构?( )A. 队列B. 栈C. 线性表D. 二叉树4.设有一个二维数组A[m][n],假设A[0][0]存放位置在644(10),A[2][2]存放位置在676(10),每个元素占一个空间,问A[3][3](10)存放在什么位置?脚注(10)表示用10进制表示。
A.688 B.678 C.692 D.6965.树最适合用来表示( )。
A.有序数据元素B.无序数据元素C.元素之间具有分支层次关系的数据D.元素之间无联系的数据6.二叉树的第k层的结点数最多为( ).A.2k-1 B.2K+1 C.2K-1 D. 2k-17.若有18个元素的有序表存放在一维数组A[19]中,第一个元素放A[1]中,现进行二分查找,则查找A[3]的比较序列的下标依次为( )A. 1,2,3B. 9,5,2,3C. 9,5,3D. 9,4,2,38.对n个记录的文件进行快速排序,所需要的辅助存储空间大致为A. O(1)B. O(n)C. O(1og2n)D. O(n2)9.对于线性表(7,34,55,25,64,46,20,10)进行散列存储时,若选用H(K)=K %9作为散列函数,则散列地址为1的元素有()个,A.1 B.2 C.3 D.410.设有6个结点的无向图,该图至少应有( )条边才能确保是一个连通图。
一、判断题
(1)极大似然估计是无偏估计且在所有的无偏估计中方差最小,所以极大似然估计的风险最小。
(2)回归函数A和B,如果A比B更简单,则A几乎一定会比B在测试集上表现更好。
(3)全局线性回归需要利用全部样本点来预测新输入的对应输出值,而局部线性回归只需利用查询点附近的样本来预测输出值。
所以全局线性回归比局部线性回归计算代价更高。
(4)Boosting的一个优点是不会过拟合。
(5)在回归分析中,最佳子集选择可以做特征选择,当特征数目较多时计算量大;岭回归和Lasso模型计算量小,且Lasso也可以实现特征选择。
(6)梯度下降有时会陷于局部极小值,但EM算法不会。
(7)支持向量机是判别模型。
T
(8)ICA方法对于高斯分布的数据也有效。
F
(9)回归问题属于非监督学习的一种方法。
F
(10)聚类算法中不需要给出标签y。
T
二、考虑一个二分类器问题(Y为1或0),每个训练样本X有两个特征X1、X2(0或1)。
给出P(Y=0)=P(Y=1)=0.5,条件概率如下表:
分类器预测的结果错误的概率为期望错误率,Y是样本类别的实际值,Y'(X1,X2)为样本类别的预测值,那么期望错误率为:
(2)计算给定特征(X1,X2)预测Y的期望错误率,假设贝叶斯分类器从无限的训练样本中学习所得。
(3)下面哪个有更小的期望错误率?
a、仅仅给出X1,采用贝叶斯分类器预测Y。
b、仅仅给出X2,采用贝叶斯分类器预测Y。
(4)给出一个新的特征X3,X3的与X2保持完全相同,现在计算给定(X1,X2,X3)采用贝叶斯分类器预测Y的期望错误率,假设分类器从无限的训练数据中学习所得。
(5)使用贝叶斯分类器会产生什么问题,为什么?
三、交叉验证
1、4. 给定如下数据集,其中X为输入变量,Y为输出变量。
假设考虑采用k-NN 算法
对x对应的y进行预测,其中距离度量采用不加权的欧氏距离。
(12分)
(1)算法1-NN的训练误差的是多少?(用分类错误的样本数目表示即可,下同)
(2)算法3-NN的训练误差是多少?
(3)算法1-NN的LOOCV(留一交叉验证)估计误差是多少?
(4)算法3-NN的LOOCV(留一交叉验证)估计误差是多少?
四、用最大似然估计的方法估计高斯分布的均值和方差,并指出其局限性。
五、随着信息化的发展,大数据的时代已经到来。
海量的文本、图像、视频数据存在于互联网上,请结合自己的科研背景和兴趣,探讨机器学习方法如何在大数据分析、处理中应用。
(20分)。