_人工神经网络习题解答
- 格式:doc
- 大小:97.50 KB
- 文档页数:5
1.人工神经网络适合于解决哪些问题?试举例说明。
人工神经网络技术在处理对内部规律不甚了解,也不能用一组规则和方程等数学表达式描述的较为复杂的问题时具有一定的优越性,尤其对容错性有一定要求的任务,例如图形的检测与识别、诊断、特征提取、推论等,人工神经网络都是比较合适的处理手段,对于上述任务,即使输入数据是模糊的或不完善的,人工神经网络仍然能够对其进行处理。
示例略。
2.一个人工神经网络应用的开发要经过哪些阶段?明确需求、选取模型、设计神经网络节点、设计神经网络结构、设计神经网络训练算法、选择训练和测试样本、网络训练与测试、实现神经网络。
3.若要用神经网络实现对0~9十个数字字符的识别,应当如何选取适当的人工神经网络模型?参见表8-1,可以选择BP、Hopfield等神经网络模型。
4.若要实现一个简单的交通标志识别系统,应当如何选取适当的人工神经网络模型?参见表8-1,可以选择BP、Hopfield等神经网络模型。
5.若有一个私人医生,每天可接受10个预约病人的上门服务。
若要为该医生设计一条当天的巡诊路线,以使该医生的巡诊距离最短,应当如何选取适当的人工神经网络模型?这是一个优化问题,可以选择Hopfield神经网络。
6.试述对习题2、3、4中选取的人工神经网络模型进行设计开发的全过程。
略。
7.有如下几种模型,其特性如表8-4所示。
表8-4 人工神经网络模型的基本性能若要开发一个贷款评估人工神经网络,要求能够根据借贷申请人的月收入、生活费用支出、房租、水、电、交通费用支出及其他费用支出来实时地分析这一贷款申请是否合格。
如合格,则批准申请给予贷款,否则给予拒绝。
请从表8-4列出的人工神经网络模型中选择一个适合该贷款评估应用的模型,并阐明原因。
可根据输出类型(例如,此题是一个分类问题,而不是优化问题)、训练方法、要求的训练时间和执行时间等选取各项指标都符合具体需求的模型。
此题只是一个示例,让读者掌握如何选取适当的人工神经网络模型,具体选取过程略。
人工神经网络原理与实践课后答案
1、根据自己的体会,列举人脑与计算机信息处理能力有哪些不同?
答:电脑仅仅只能按入给定的程序进行简单的逻辑运算,尽管电脑的运算速度非常快,这种速度虽然人无法冀及;但电脑无论如何无法在没有预定程序的前提下工作,换言之电脑是没有思维功能的;先进的电脑或许有简单的(相对于人脑)逻辑思维功能,但那也是人脑通过无数的赋值程序赋于的。
电脑或许能按照人赋于的程序造出人脑,但它绝对不可能不受人脑编制的程序控制(或间接或直接)。
电脑只能代替人脑的一小部分简单的逻辑运算,它无法代替人进行创造性思维。
2、神经网络的功能特点是由什么决定的?
答:神经网络的功能特点决定性因素可以从结构和能力两方面来看:结构方面处理单元的高度并行性与分布性、能力方面神经网络能通过自动调整网络结构参数使得对于给定输入能产生期望的输出。
3、根据人工神经网络的特点,你认为它善于解决哪类问题?
答:神经网络的基本特点可以分为结构、性能和能力口个方面:信息处理的并行性、信息存储的分布性、信息处理单元的互联性、结构可塑性;高度的非线性、量哈奥的容错性和计算的非精确性;自学习、自组织与自适应性。
人工神经网络单选练习题一、基本概念1. 下列关于人工神经网络的描述,正确的是:A. 人工神经网络是一种静态的计算模型B. 人工神经网络可以模拟人脑的神经元连接方式C. 人工神经网络只能处理线性问题D. 人工神经网络的学习过程是监督式的2. 下列哪种算法不属于人工神经网络?A. 感知机算法B. 支持向量机算法C. BP算法D. Hopfield网络3. 人工神经网络的基本组成单元是:A. 神经元B. 节点C. 权重D. 阈值二、前向传播与反向传播4. 在前向传播过程中,下列哪个参数是固定的?A. 输入值B. 权重C. 阈值D. 输出值5. 反向传播算法的主要目的是:A. 更新输入值B. 更新权重和阈值C. 计算输出值D. 初始化网络参数6. 下列关于BP算法的描述,错误的是:A. BP算法是一种监督学习算法B. BP算法可以用于多层前馈神经网络C. BP算法的目标是最小化输出误差D. BP算法只能用于解决分类问题三、激活函数7. 下列哪种激活函数是非线性的?A. 步进函数B. Sigmoid函数C. 线性函数D. 常数函数8. ReLU激活函数的优点不包括:A. 计算简单B. 避免梯度消失C. 提高训练速度D. 减少过拟合9. 下列哪种激活函数会出现梯度饱和现象?A. Sigmoid函数B. ReLU函数C. Tanh函数D. Leaky ReLU函数四、网络结构与优化10. 关于深层神经网络,下列描述正确的是:A. 深层神经网络一定比浅层神经网络效果好B. 深层神经网络更容易过拟合C. 深层神经网络可以减少参数数量D. 深层神经网络训练速度更快11. 下列哪种方法可以降低神经网络的过拟合?A. 增加训练数据B. 减少网络层数C. 增加网络参数D. 使用固定的学习率12. 关于卷积神经网络(CNN),下列描述错误的是:A. CNN具有局部感知能力B. CNN具有参数共享特点C. CNN可以用于图像识别D. CNN无法处理序列数据五、应用场景13. 下列哪种问题不适合使用人工神经网络解决?A. 图像识别B. 自然语言处理C. 股票预测D. 线性规划14. 下列哪个领域不属于人工神经网络的应用范畴?A. 医学诊断B. 金融预测C. 智能家居D. 数值计算15. 关于循环神经网络(RNN),下列描述正确的是:A. RNN无法处理长距离依赖问题B. RNN具有短期记忆能力C. RNN训练过程中容易出现梯度消失D. RNN只能处理序列长度相同的数据六、训练技巧与正则化16. 下列哪种方法可以用来防止神经网络训练过程中的过拟合?A. 提前停止B. 增加更多神经元C. 减少训练数据D. 使用更大的学习率17. 关于Dropout正则化,下列描述错误的是:A. Dropout可以减少神经网络中的参数数量B. Dropout在训练过程中随机丢弃一些神经元C. Dropout可以提高模型的泛化能力D. Dropout在测试阶段不使用18. L1正则化和L2正则化的主要区别是:A. L1正则化倾向于产生稀疏解,L2正则化倾向于产生平滑解B. L1正则化比L2正则化更容易计算C. L2正则化可以防止过拟合,L1正则化不能D. L1正则化适用于大规模数据集,L2正则化适用于小规模数据集七、优化算法19. 关于梯度下降法,下列描述正确的是:A. 梯度下降法一定会找到全局最小值B. 梯度下降法在鞍点处无法继续优化C. 梯度下降法包括批量梯度下降、随机梯度下降和小批量梯度下降D. 梯度下降法的学习率在整个训练过程中保持不变20. 下列哪种优化算法可以自动调整学习率?A. 随机梯度下降(SGD)B. Adam优化算法C. Momentum优化算法D. 牛顿法21. 关于Adam优化算法,下列描述错误的是:A. Adam结合了Momentum和RMSprop算法的优点B. Adam算法可以自动调整学习率C. Adam算法对每个参数都使用相同的学习率D. Adam算法在训练初期可能会不稳定八、损失函数22. 在分类问题中,下列哪种损失函数适用于二分类问题?A. 均方误差(MSE)B. 交叉熵损失函数C. Hinge损失函数D. 对数损失函数23. 关于均方误差(MSE)损失函数,下列描述错误的是:A. MSE适用于回归问题B. MSE对异常值敏感C. MSE的输出范围是[0, +∞)D. MSE损失函数的梯度在接近最小值时趋近于024. 下列哪种损失函数适用于多分类问题?A. 交叉熵损失函数B. Hinge损失函数C. 对数损失函数D. 均方误差(MSE)九、模型评估与超参数调优25. 下列哪种方法可以用来评估神经网络的性能?A. 训练误差B. 测试误差C. 学习率D. 隐层神经元数量26. 关于超参数,下列描述正确的是:A. 超参数是在模型训练过程中自动学习的B. 超参数的值通常由经验丰富的专家设定C. 超参数的调整对模型性能没有影响D. 超参数包括学习率、批量大小和损失函数27. 关于交叉验证,下列描述错误的是:A. 交叉验证可以减少过拟合的风险B. 交叉验证可以提高模型的泛化能力C. 交叉验证会降低模型的训练速度D. 交叉验证适用于小规模数据集十、发展趋势与挑战28. 下列哪种技术是近年来人工神经网络的一个重要发展方向?A. 深度学习B. 线性回归C. 决策树D. K最近邻29. 关于深度学习,下列描述错误的是:A. 深度学习需要大量标注数据B. 深度学习模型通常包含多层神经网络C. 深度学习可以处理复杂的非线性问题D. 深度学习不适用于小规模数据集30. 下列哪种现象是训练深度神经网络时可能遇到的挑战?A. 梯度消失B. 参数过多C. 数据不平衡D. 所有上述选项都是挑战答案一、基本概念1. B2. B二、前向传播与反向传播4. B5. B6. D三、激活函数7. B8. D9. A四、网络结构与优化10. B11. A12. D五、应用场景13. D14. D15. C六、训练技巧与正则化16. A17. A18. A七、优化算法19. C20. B八、损失函数22. B23. D24. A九、模型评估与超参数调优25. B26. B27. D十、发展趋势与挑战28. A29. D30. D。
1. 试比较BP 学习算法与感知机学习算法的异同。
同:两种学习算法均基于纠错学习规则,采用有指导的学习方式,根据来自输出节点的外部反馈(期望输出)调整连接权,使得网络输出节点的实际输出与外部的期望输出一致。
异:感知机学习算法中,隐含层处理单元不具备学习能力,其模式分类能力仍然非常有限;而BP 学习算法采用非线性连续变换函数,使隐含层神经元具有了学习能力。
BP 学习算法基于最小均方误差准则,采用误差函数按梯度下降的方法进行学习,其学习过程分为模式顺传播,误差逆传播、记忆训练、学习收敛4个阶段。
2. 试述BP 神经网络有哪些优点和缺点。
优点:具有良好的非线性映射能力、泛化能力和容错能力。
缺点:学习算法的收敛速度慢;存在局部极小点;隐含层层数及节点数的选取缺乏理论指导;训练时学习新样本有遗忘旧样本的趋势。
3. 试举例说明BP 神经网络擅长解决哪些问题,并针对一个具体应用实例,描述BP 神经网络解决该问题的具体方案。
擅长解决函数拟合问题(例如,拟合多项式函数),线性与非线性的分类问题(例如,疾病病例分类),预测问题(例如,房屋价格预测),模式识别问题(例如,手写数字识别)。
具体应用实例及解决方案略。
4. 请给出一个BP 神经网络的具体应用实例。
略。
5. 什么是BP 神经网络的泛化能力?如何提高BP 神经网络的泛化能力?BP 神经网络的泛化能力是指BP 神经网络对未训练样本的逼近程度或对于未知数据的预测能力。
即:BP 神经网络学习训练完成后会将所提取的样本模式对中的非线性映射关系存储在网络连接权向量中,在其后的正常工作阶段,当向BP 神经网络输入训练时未曾见过的数据时,BP 神经网络也能够完成由输入模式到输出模式的正确映射。
提高BP 神经网络泛化能力的方法包括: 1) 增加训练集中的样本数; 2) 适当减少隐藏节点个数;3) 增加网络结构中的因子数(考虑更多可能影响结果的因子作为额外的输入项); 4) 对于选取的数据样本,要尽量保证包含拐点处的数据样本,同时尽可能保证相邻样本的变化率小于误差精度要求。
习题2.1什么是感知机?感知机的基本结构是什么样的?解答:感知机是Frank Rosenblatt在1957年就职于Cornell航空实验室时发明的一种人工神经网络。
它可以被视为一种最简单形式的前馈人工神经网络,是一种二元线性分类器。
感知机结构:2.2单层感知机与多层感知机之间的差异是什么?请举例说明。
解答:单层感知机与多层感知机的区别:1. 单层感知机只有输入层和输出层,多层感知机在输入与输出层之间还有若干隐藏层;2. 单层感知机只能解决线性可分问题,多层感知机还可以解决非线性可分问题。
2.3证明定理:样本集线性可分的充分必要条件是正实例点集所构成的凸壳与负实例点集构成的凸壳互不相交.解答:首先给出凸壳与线性可分的定义凸壳定义1:设集合S⊂R n,是由R n中的k个点所组成的集合,即S={x1,x2,⋯,x k}。
定义S的凸壳为conv(S)为:conv(S)={x=∑λi x iki=1|∑λi=1,λi≥0,i=1,2,⋯,k ki=1}线性可分定义2:给定一个数据集T={(x1,y1),(x2,y2),⋯,(x n,y n)}其中x i∈X=R n , y i∈Y={+1,−1} , i=1,2,⋯,n ,如果存在在某个超平面S:w∙x+b=0能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧,即对所有的正例点即y i=+1的实例i,有w∙x+b>0,对所有负实例点即y i=−1的实例i,有w∙x+b<0,则称数据集T为线性可分数据集;否则,称数据集T线性不可分。
必要性:线性可分→凸壳不相交设数据集T中的正例点集为S+,S+的凸壳为conv(S+),负实例点集为S−,S−的凸壳为conv(S−),若T是线性可分的,则存在一个超平面:w ∙x +b =0能够将S +和S −完全分离。
假设对于所有的正例点x i ,有:w ∙x i +b =εi易知εi >0,i =1,2,⋯,|S +|。
1.试述自组织神经网络中“自组织”的含义。
自组织神经网络采用类似于人类大脑生物神经网络的无指导学习方式,能够对外界未知环境进行学习或模拟,并对自身的网络结构进行调整,实现对输入模式的自动分类。
在调整网络结构时,网络按照预定的规则和输入模式,不断调整网络连接权值直至形成一种全局有序的结构,而这种全局有序的结构是通过网络中许多相邻神经元的局部相互作用形成的,这些相邻神经元之间的相互作用最终会使网络在空间模式或时间节奏上达成一致,这也是自组织的本质。
2. 若某一基本竞争神经网络的输入层有5个节点,竞争层有3个节点。
网络的6个学习模式为X 1=(1,0,0,0,0)T ,X 2=(1,0,0,0,1)T ,X 3=(1,1,0,1,0)T ,X 4=(1,1,0,1,1)T ,X 5=(0,0,1,1,0)T ,X 6=(0,0,1,1,1)T ,试计算这6个学习模式的汉明距离。
6个学习模式的汉明距离X 1 X 2 X 3 X 4 X 5 X 6 X 1 0 1 2 3 3 4 X 2 1 0 3 2 4 3 X 3 2 3 0 1 3 4 X 4 3 2 1 0 4 3 X 5 3 4 3 4 0 1 X 6434313. 采用竞争学习规则,通过训练将第2题中的6个学习模式进行分类,试比较训练后的分类结果和通过汉明距离得到分类结果。
按照前面描述的竞争学习规则对第2题的6个学习模式进行记忆训练,假定学习速率为0.5,网络的初始连接权值如下:⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛=2.03.02.02.02.03.01.02.02.02.01.02.03.02.01.0W网络的学习过程如下:t =1 X 1=(1,0,0,0,0)T 竞争层各个神经元的净输入为 s 1=w 11x 1+w 21x 2+w 31x 3+w 41x 4+w 51x 5=0.1*1+0.2*0+0.2*0+0.3*0+0.2*0=0.1 s 2=w 12x 1+w 22x 2+w 32x 3+w 42x 4+w 52x 5=0.2*1+0.1*0+0.2*0+0.2*0+0.3*0=0.2 s 3=w 13x 1+w 23x 2+w 33x 3+w 43x 4+w 53x 5=0.3*1+0.2*0+0.1*0+0.2*0+0.2*0=0.3因此,竞争层各个神经元的输出为 y 1=0 y 2=0 y 3=1调整后的连接权如下 w 13=0.3+0.5*(1/1-0.3)=0.65 w 23=0.2+0.5*(0/1-0.2)=0.1 w 33=0.1+0.5*(0/1-0.1)=0.05 w 43=0.2+0.5*(0/1-0.2)=0.1 w 53=0.2+0.5*(0/1-0.2)=0.1t =2 X 2=(1,0,0,0,1)T 竞争层各个神经元的净输入为 s 1=w 11x 1+w 21x 2+w 31x 3+w 41x 4+w 51x 5=0.1*1+0.2*0+0.2*0+0.3*0+0.2*1=0.3 s 2=w 12x 1+w 22x 2+w 32x 3+w 42x 4+w 52x 5=0.2*1+0.1*0+0.2*0+0.2*0+0.3*1=0.5 s 3=w 13x 1+w 23x 2+w 33x 3+w 43x 4+w 53x 5=0.65*1+0.1*0+0.05*0+0.1*0+0.1*1=0.75因此,竞争层各个神经元的输出为 y 1=0 y 2=0 y 3=1 调整后的连接权如下w 13=0.65+0.5*(1/2-0.65)=0.575 w 23=0.1+0.5*(0/2-0.1)=0.05 w 33=0.05+0.5*(0/2-0.05)=0.025 w 43=0.1+0.5*(0/2-0.1)=0.05 w 53=0.1+0.5*(1/2-0.1)=0.3 t =3 X 3=(1,1,0,1,0)T 竞争层各个神经元的输入为 s 1=w 11x 1+w 21x 2+w 31x 3+w 41x 4+w 51x 5=0.1*1+0.2*1+0.2*0+0.3*1+0.2*0=0.6 s 2=w 12x 1+w 22x 2+w 32x 3+w 42x 4+w 52x 5=0.2*1+0.1*1+0.2*0+0.2*1+0.3*0=0.5 s 3=w 13x 1+w 23x 2+w 33x 3+w 43x 4+w 53x 5=0.575*1+0.05*1+0.025*0+0.05*1+0.3*0=0.675 因此,竞争层各个神经元的输出为y 1=0 y 2=0 y 3=1 调整后的连接权如下w 13=0.575+0.5*(1/3-0.575)=0.4542 w 23=0.05+0.5*(1/3-0.05)=0.1917 w 33=0.025+0.5*(0/3-0.025)=0.0125 w 43=0.05+0.5*(1/3-0.05)=0.1917 w 53=0.3+0.5*(0/3-0.3)=0.15 ……按照上述过程经过多次学习后,网络会得到如下分类结果,与通过汉明距离分析的结果完全一致。
1.非线性机器学习算法具有以下的什么特性?A.针对难以用准则来描述的复杂模型B.能够达到更深层次的抽象C.能够进行广泛使用的分类算法D.以上都是正确答案:D2.神经网络的学习步骤包括:1、求得权重等参数,2、定义代价函数,3、对测试数据进行预测,4、根据样本数据和标签采用梯度下降法进行学习,步骤的正确顺序为:A.4213B.2413C.2143D.4123正确答案:B二、判断题1.单层感知器能对线形可分的数据集进行分类,能解决逻辑问题异或。
正确答案:×2.前馈神经网络中偏置单元可以有输入。
正确答案:×3.在某种意思上,小批量梯度下降算法是以迭代次数换取算法的运行速度。
正确答案:√4.神经网络中的神经元有两个状态:兴奋、抑制。
这两个状态由阈值决定。
正确答案:√5.前馈式神经网络层间有反馈。
6.小批量梯度下降法在迭代的每一步中,参数的更新只用了小批量样本的信息。
正确答案:√7.小批量梯度下降法和随机梯度下降算法收敛可能需要更多的迭代次数正确答案:√三、多选题1.使用均方误差作为代价函数,有什么特点?( )A.形式简单B.通俗易懂C.容易出现饱和现象D.容易陷入局部最优解正确答案:A、B、C、D2.感知器可以解决一下哪些问题?( )A.实现逻辑关系中的与B.实现逻辑关系中的或C.实现逻辑关系中的非D.线性分类和线性回归问题正确答案:A、B、C、D3.神经网络具有下面哪几个特点?( )A.能充分逼近复杂的非线性关系B.具有高度的容错能力C.具有自组织能力D.可以并行分布处理正确答案:A、B、C、D4.以下会造成梯度消失的激活函数有( )。
A.sigmoid函数B.tanh函数C.ReLU函数D.softplus函数正确答案:A、B四、填空1.在()模型中,每个神经元同时将自身的输出作为输入信号反馈给其他神经元。
正确答案:反馈神经网络。
一、单项选择题1.人工神经网络是人工智能的三大流派思想中哪个流派的基础。
(B)A.符号主义B.连接主义(或称为仿生学派)C.行为主义D.逻辑推理主义2.以下关于感知器的说法错误的是(A)。
A.单层感知器可以解决异或问题B.感知器分类的原理是就是通过调整权重使两类不同的样本经过感知机模型后的输出不同C.单层感知器只能针对线性可分的数据集分类D.学习率可以控制每次权值调整力度3.人工神经网络的层数增加会出现梯度消失现象,其本质原因是(C)。
A.各层误差梯度相加导致B.各层误差梯度相减导致C.各层误差梯度相乘导致D.误差趋于饱和4.卷积层的主要作用是(A)A.提取图像特征B.降低输入维度C.解决梯度消失和梯度爆炸问题D.进行某种非线性变换二、多项选择题1.知识可以从以下哪几个维度来进行分类(AC)。
A.是否可统计B.是否可计算C.是否可推理D.是否可被人理解2.人工神经网络由许多神经元构成,M-P模型的主要特征包括(ABD)。
A.多输入单输出B.对输入加权求和C.具有树突和轴突D.具有激活函数3.卷积神经网络的结构主要包括(ABCD)。
A.卷积层B.池化层C.全连接层D.输入层三、判断题1.人工神经网络的层数是固定的,每层的神经元个数是不固定的(错)2.BP神经网络的误差是从前往后传播的(错)3.卷积神经网络的层数一般超过三层(对)四、简答题1.感知机是如何实现从数据中学习的?答:通过训练数据得到误差,再根据误差来调整权值,让再次计算训练数据得到的误差减小,最终达到无误差。
这时候得到的权值就称为学习到关于这些数据的知识。
2.什么是梯度,什么是梯度的方向?答:梯度就是把多元函数关于各个变量的偏导数放在一起构成的向量(也称为矢量)。
梯度方向表示当函数的各个变量都按照各自偏导数的比例进行增加时,各个增加量合起来构成的方向,是函数值变化最快的方向。
3.有A类物体和B类物体,均有两个类似的特征值。
以下有三个属于A类的样本,每个样本的特征值分别为[0.1, 1],[0.2, 0.7],[0.4, 0.8],样本标签用1表示;有三个属于B类的样本,其特征值分别为[0.8, 0.3],[0.9, 0.2],[1.0, 0.5],样本标签用0表示。
1.随机型神经网络的特点是什么?(1) 神经元的净输入不能决定其输出状态为0或1,决定神经元输出状态的是值为1或0的概率;(2) 在网络学习阶段,随机型神经网络并不基于某种确定性算法调整网络连接权值,而是按照某种概率分布进行处理;(3) 在网络运行阶段,随机型神经网络不是按照某种确定性的网络方程进行状态演变,而是按照某种概率分布决定网络状态的转移。
2.试述Boltzmann机的特点,并比较其与离散型Hopfield网络的异同。
从网络结构看,与离散型Hopfield神经网络相同的是,Boltzmann机网络为单层全互连结构,各个神经元之间采用双向对称连接方式,并且每个神经元到自身都无反馈;但与离散型Hopfield神经网络不同的是,Boltzmann机同时又考虑到了多层网络的特点,将神经元按照功能分为可视层与隐含层两大部分,其中的可视层又可以继续分为输入部分和输出部分,但是这些层次在Boltzmann机中并没有明显的划分界限。
从处理单元模型看,Boltzmann机网络的每个神经元的输出均为0、1二值离散输出,n 个神经元的状态集合构成了Boltzmann机网络的状态,即在给定时刻t,Boltzmann机网络的状态为X(t)=(x1, x2, …, x n),但与离散型Hopfield神经网络不同的是,Boltzmann机中的神经元不能通过其输入状态获得确定的输出状态,它的输出状态要由神经元净输入状态的概率决定,不同的净输入状态对应不同的输出状态概率。
从能量函数看,随着Boltzmann机的运行,从概率意义上说,网络的能量呈下降趋势。
这意味着在网络状态的演化过程中,尽管网络能量总的变化趋势是下降的,但不能排除在某一时刻某个神经元按照小概率事件进行状态变化,从而使网络的能量暂时上升;而随着离散型Hopfield神经网络的运行,王的能量是单调递减的。
3.为什么Boltzmann机可以避免陷入局部极小点?Boltzmann机的网络能量在概率意义上呈单调下降趋势,即在网络状态变化过程中,网络能量总的趋势是下降的,但也存在能量暂时上升的可能性,这种可能性使得Boltzmann机具有了跳出局部极小点的能力。
1. 单层感知机模型与多层感知机模型的区别是什么?单层感知机模型由输入层(感知层)和输出层(反应层或处理层)构成,只有输出层的神经元具有信息处理功能;单层感知机模型只能解决线性可分的分类问题。
多层感知机模型由感知层S 、连接层A 、反应层R 构成,其中隐含层和输出层的神经元均具有信息处理功能;多层感知机模型能够解决线性不可分的分类问题,但只能调节一层连接权值,一般情况下由感知层至连接层的连接权值固定,而连接层至反应层的连接权值可调。
2. 感知机学习算法中是如何调整连接权值的?在感知机学习算法中,学习信号等于神经元的期望输出与实际响应(f (⋅)函数通常为阈值型函数)之差,调整神经元i 到神经元j 之间的输入连接权值w ij 的方法是)]()[()()1()(X f n n n n W d x w w w Tj j i ij ij ij -=-+=∆η其中η为学习速率,x i 为节点i 的输出,它是提供给节点j 的输入之一。
详见3.1.3节。
3. 试使用符号函数作为感知机模型的转移函数完成例3.1。
采用符号函数时,逻辑“与”的真值表如下:x 1x 2 T -1-1 -1 -11 -1 1-1 -1 1 1 1设输出层单元的阈值θ=0.042,输入层至输出层连接的初始权值分别为w 1=0.038,w 2=0.044,学习训练速率α=0.015,β=0.006。
若以X 表示输入,Y 表示输出,D 表示期望输出,e 表示误差,符号函数作为转移函数,则该感知机模型的学习训练过程如下:t =0 W (0) = (0,038,0.044)T θ(0) = 0.042t =1 X 1 = (-1,-1)T ,y 1 = f (w 1x 11+w 2x 21-θ) =f (-0.124) =-1, d 1=-1,e 1= 0∴ W (1)=(0.038,0.044)T +0.015•1•(0,0)T =(0.038,0.044)Tθ(1) = 0.042+0.006•0=0.042t =2 X 2 = (-1,1)T ,y 2 = f (w 1x 12+w 2x 22-θ)=f (-0.036) =-1, d 2=-1,e 2= 0∴ W (2)=(0.038,0.044)T +0.015•0•(0,1)T =(0.038,0.044)Tθ(2) = 0.042+0.006•0=0.042t =3 X 3 = (1,-1)T ,y 3 = f (w 1x 13+w 2x 23-θ)=f (-0.048)=-1, d 3=-1,e 3= 0∴ W (3)=(0.038,0.044),θ(3) = 0.042t =4 X 4 = (1,1)T ,y 4 = f (w 1x 14+w 2x 24-θ)=f (0.040)=1, d 4=1,e 4=0∴ W (4)=(0.038,0.044),θ(4) = 0.042经过4次迭代后,输出层处理单元的实际输出与期望输出之间的误差达到最小值0,连接权值也保持不变,因此学习训练过程结束,4. 感知机模型的局限性有哪些?应如何解决?局限性一:单层感知机模型仅对线性可分问题具有分类能力。