从科学方法论角度看深度学习的本质
- 格式:pdf
- 大小:470.98 KB
- 文档页数:4
深度学习的基本概念和原理深度学习是机器学习的一种,它是一种能够让计算机从数据中“学习”的技术,是实现人工智能的重要手段之一。
深度学习起源于20世纪80年代,当时研究人员提出了一种多层神经网络的算法,但由于计算机性能和数据量的限制,深度学习受到了限制。
随着计算机性能的提升、数据量的增加以及算法的不断改进,深度学习发展迅速,并在计算机视觉、自然语言处理、机器翻译等领域取得了巨大的成功。
一、深度学习的基本概念深度学习是一种采用多层神经网络来建模数据的机器学习方法。
深度学习的核心在于神经网络模型,它是由多个层级组成的,每一层级都是由若干个神经元组成。
在训练神经网络时,我们需要为神经元设置权重和偏置,这些参数的不同组合可以得到不同的结果。
在训练过程中,我们通过调整权重和偏置来让神经网络逼近目标函数,从而实现预测或分类的功能。
深度学习可以应用于各种数据类型,包括图像、文本、语音等,它的应用领域十分广泛。
在计算机视觉领域,深度学习可以用于图像分类、目标检测、人脸识别等;在自然语言处理领域,深度学习可以用于文本分类、机器翻译、语音识别等;在医疗领域,深度学习可以用于肿瘤检测、疾病诊断等。
二、深度学习的原理深度学习的原理可以分为两大部分:前向传播和反向传播。
在前向传播中,我们将输入数据通过神经网络模型,得到一个输出结果。
这个过程可以看做是一个函数的计算,其中的参数就是神经元的权重和偏置。
在深度学习中,我们通常使用交叉熵误差作为损失函数来衡量模型的拟合程度。
损失函数可以看做是一个模型的输出和真实值之间的差异度量,我们的目标就是通过调整模型参数,使得损失函数最小化。
在反向传播中,我们根据链式法则,将误差从输出层传回到输入层,并更新神经元的权重和偏置,使得损失函数逐渐减小。
在深度学习的训练过程中,我们需要注意的是过拟合和梯度消失的问题。
过拟合是指模型过于“死记硬背”了训练数据,而无法泛化到新数据上,它的根本原因是模型的复杂度过高。
探究本质,实现深度学习深度学习(Deep Learning)是一种基于神经网络的机器学习模型,它的出现彻底改变了人工智能领域的格局。
然而,深度学习还是有着一些问题,例如需要大量数据来训练模型,对硬件要求高等等。
这些问题都与深度学习的本质密切相关。
深度学习的本质是什么?首先,深度学习是一种神经网络模型,这意味着它模拟人类的生物神经网络,从而实现智能化的功能。
深度学习模型的本质就是利用大量数据进行训练,从而使神经网络的权值得到自动优化。
在这个过程中,深度学习模型会学习数据的特征,并能够自动提取这些特征。
这是深度学习模型的特点。
然而,深度学习的本质还不止于此。
以图像识别为例,当一张图片输入深度学习模型时,模型会将其转化为 0 和 1 的矩阵数据,这些数据之后会通过多个神经元层进行提取特征。
最终,深度学习模型会输出一个或多个标签,表示图片中的物体。
这个过程中,深度学习模型会利用反向传播算法自动调整权值,从而实现最小化误差的目的。
由此可见,深度学习的本质就是自动提取特征并通过优化权值来实现功能。
深度学习的自动化特点,使其在处理大量数据时优势明显。
而这也解释了为什么深度学习模型需要大量数据进行训练,因为只有在拥有足够数据支持下,模型才能够准确地提取出蕴含在数据中的特征。
同时,这也解释了为什么深度学习模型只是看似简单的矩阵计算,但却需要非常强大的硬件支持。
因为在深度学习中,需要运算的矩阵大小及层数均很高,所以需要高性能的处理器。
总之,深度学习的本质是利用神经网络模型自动提取特征,并通过优化权值来实现功能。
深度学习的发展需要大量的数据支持和硬件支持。
随着人工智能技术的不断发展,相信深度学习会在许多领域得到广泛应用,实现更多人工智能技术的突破和创新。
深入浅出深度学习随着人工智能技术的快速发展,深度学习作为其重要组成部分,成为了当前科技领域中备受关注的热点话题。
深度学习是一种以人工神经网络为基础的机器学习技术,其应用范围涵盖了图像识别、语音识别、自然语言处理等各个领域。
本文将从深入浅出的角度,介绍深度学习的基本概念、原理和应用,并探讨其在未来的发展趋势。
一、深度学习的基本概念深度学习是一种基于多层神经网络的机器学习技术。
在传统机器学习方法中,需要人工提取特征并将其输入到算法中进行训练,而深度学习则通过构建多层神经网络,使得网络能够自动学习并提取数据特征,从而实现对复杂数据的高效处理和分析。
深度学习的基本组成部分包括输入层、隐藏层和输出层。
输入层用于接收数据的输入,隐藏层则通过多层神经元对数据进行抽象和计算,最终输出层将处理后的数据结果呈现出来。
在深度学习中,通过不断调整神经元之间的连接权重和偏置值,使得网络能够逐渐优化并提高对数据的处理能力,从而实现对复杂问题的解决。
二、深度学习的原理深度学习的原理基于神经网络的构建和训练过程。
在神经网络中,每个神经元都对应着一个特定的功能,其通过接收输入信号并进行加权求和后,再经过激活函数的处理,最终得到输出结果。
网络中的多个神经元通过连接而成,形成了多层的网络结构,其中每一层都对应着不同的特征提取和计算过程。
深度学习的训练过程主要采用了反向传播算法,其通过使用梯度下降的方法不断调整网络中的参数,使得网络能够逐渐拟合输入数据并减小预测误差。
在训练过程中,需要使用大量的标注数据来不断优化网络的参数,使得网络能够更好地学习和处理数据。
深度学习在各个领域都有着广泛的应用。
在图像识别领域,深度学习算法已经可以实现对图像中物体和场景的自动识别和分类,其应用范围涵盖了人脸识别、车牌识别、医学影像分析等多个方面。
在语音识别领域,深度学习技术可以实现对语音信号的自动识别和理解,从而实现智能语音助手和语音翻译等功能。
在自然语言处理领域,深度学习算法可以实现对文本数据的自动分析和处理,从而实现自动文本摘要、情感分析、机器翻译等应用。
深度学习是一种方法前言近年来,随着人工智能的快速发展,深度学习作为一种强大的方法变得越来越受到关注。
它已经在各个领域展现出了卓越的能力,例如计算机视觉、自然语言处理和机器人学等。
本文将介绍什么是深度学习,它的原理、应用以及发展前景。
什么是深度学习?深度学习是一种机器学习的方法,它模仿人脑的神经网络结构和工作原理,通过多层次的神经网络来学习和识别复杂的模式和关系。
与传统的机器学习方法相比,深度学习具有以下几个显著的特点:1. 端到端学习:深度学习从输入到输出直接进行学习,无需手动提取特征。
这使得模型可以自动学习数据中的特征和表示,无需依赖领域专家的先验知识。
2. 数据驱动:深度学习利用大量的标注数据进行模型训练,使得模型能够从数据中学习到更准确的规律和模式。
3. 可扩展性:深度学习模型可以通过增加神经网络的层数和神经元的数量来提高模型的性能。
这使得模型具有更强的表达能力和更好的泛化能力。
深度学习的原理深度学习的核心是神经网络,它由多个神经元组成,每个神经元与前一层的神经元相连接,通过加权和非线性激活函数的组合来实现复杂的映射和计算。
深度学习通过训练神经网络中的参数来优化模型,使得模型能够对输入数据进行准确的预测和分类。
深度学习的训练过程通常包括以下几个步骤:1. 前向传播:将输入数据通过神经网络的多层次连接进行计算,得到最终的输出结果。
2. 计算损失函数:将模型的输出结果与真实标签进行比较,计算出预测结果的误差。
3. 反向传播:利用误差来调整神经网络中的参数,使得模型的预测结果逐渐接近真实标签。
4. 参数更新:利用优化算法来更新神经网络中的参数,减小损失函数的值。
通过反复迭代以上步骤,深度学习模型能够不断地学习和优化,最终达到对数据进行准确预测的能力。
深度学习的应用深度学习在众多领域都有着广泛的应用,以下是一些典型的例子:1. 计算机视觉:深度学习在图像识别、物体检测、人脸识别和图像生成等方面取得了重大突破。
如何理解人工智能的深度学习原理在当今科技飞速发展的时代,人工智能已经成为了一个热门话题。
其中,深度学习作为人工智能的核心领域之一,更是引起了广泛的关注和研究。
那么,到底什么是深度学习原理呢?让我们用一种通俗易懂的方式来一探究竟。
想象一下,深度学习就像是一个聪明的孩子在不断地学习和成长。
这个孩子一开始什么都不懂,但通过大量的观察和实践,逐渐掌握了各种知识和技能。
深度学习的基础是神经网络。
神经网络就像是人类大脑中的神经元网络,由许多节点(也称为神经元)相互连接而成。
这些节点接收输入的数据,并通过复杂的计算和传递过程,产生输出结果。
假设我们要让一个深度学习模型识别猫和狗的图片。
首先,我们会给它提供大量的猫和狗的图片作为训练数据。
这些图片会被转化为数字形式,输入到神经网络中。
在神经网络中,每个节点都有自己的权重和偏置值。
这些值就像是节点的“判断力”,决定了对输入数据的处理方式。
一开始,这些权重和偏置值是随机设定的。
随着训练的进行,模型会不断调整这些权重和偏置值,以使输出结果越来越准确。
这就好比孩子在不断地尝试和犯错中,逐渐学会了如何正确地分辨猫和狗。
那么,模型是如何调整这些参数的呢?这就要用到一种叫做“反向传播”的技术。
简单来说,就是通过比较模型的输出结果和实际的正确答案,计算出误差,并将误差反向传播回神经网络中,从而调整各个节点的权重和偏置值。
经过多次的迭代训练,模型的准确率会不断提高。
当准确率达到一定程度时,我们就可以认为模型已经学会了如何识别猫和狗。
深度学习之所以强大,一个重要原因是它能够自动从数据中提取特征。
在传统的机器学习中,我们需要手动提取特征,比如计算图片的边缘、颜色分布等。
而在深度学习中,模型自己能够学习到哪些特征是重要的,哪些是无关紧要的。
比如说,对于识别猫和狗的图片,模型可能会自动学习到猫的耳朵形状、狗的尾巴长度等特征,而不需要我们事先告诉它应该关注哪些方面。
深度学习还具有很强的泛化能力。
深度学习详解人工智能,就像长生不老和星际漫游一样,是人类最美好的梦想之一。
虽然计算机技术已经取得了长足的进步,但是到目前为止,还没有一台电脑能产生“自我”的意识。
但是自 2006 年以来,机器学习领域,取得了突破性的进展。
图灵试验,至少不是那么可望而不可及了。
至于技术手段,不仅仅依赖于云计算对大数据的并行处理能力,而且依赖于算法。
这个算法就是深度学习Deep Learning。
借助于Deep Learning 算法,人类终于找到了如何处理“抽象概念”这个亘古难题的方法。
机器学习(Machine Learning)是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构市值不断改善自身的性能的学科,简单地说,机器学习就是通过算法,使得机器能从大量的历史数据中学习规律,从而对新的样本做智能识别或预测未来。
机器学习在图像识别、语音识别、自然语言理解、天气预测、基因表达、内容推荐等很多方面的发展还存在着没有良好解决的问题。
传统的模式识别方法:通过传感器获取数据,然后经过预处理、特征提取、特征选择、再到推理、预测或识别。
开始的通过传感器(例如CMOS)来获得数据。
然后经过预处理、特征提取、特征选择,再到推理、预测或者识别。
最后一个部分,也就是机器学习的部分,绝大部分的工作是在这方面做的,也存在很多的paper和研究。
而中间的三部分,概括起来就是特征表达。
良好的特征表达,对最终算法的准确性起了非常关键的作用,而且系统主要的计算和测试工作都耗在这一大部分。
但,这块实际中一般都是人工完成的,靠人工提取特征。
而手工选取特征费时费力,需要专业知识,很大程度上靠经验和运气,那么机器能不能自动的学习特征呢?深度学习的出现就这个问题提出了一种解决方案。
人脑的视觉机理1981 年的诺贝尔医学奖,颁发给了 David Hubel(出生于加拿大的美国神经生物学家)和TorstenWiesel,以及 Roger Sperry。
深度学习的本质探究1、人工智能浪潮又起标志型事件,阿尔法围棋(AlphaGo)战胜李世石。
alphago是一款围棋人工智能程序,由谷歌(Google)旗下DeepMind公司的戴维·西尔弗、艾佳·黄和戴密斯·哈萨比斯与他们的团队开发,这个程序利用“价值网络”去计算局面,用“策略网络”去选择下子。
2015年10月阿尔法围棋以5:0完胜欧洲围棋冠军、职业二段选手樊麾;2016年3月对战世界围棋冠军、职业九段选手李世石,并以4:1的总比分获胜。
这个让人工智能浪潮又起,热浪达到了一个高度。
alphago 核心用到了”深度卷积神经网络”和“MCTS,蒙特卡洛搜索树”算法。
接下来我们了解下深度学习的本质到底是什么?深度学习==人工智能吗?2、深度学习起源和概念深度学习的概念源于人工神经网络的研究。
含多隐层的多层感知器就是一种深度学习结构。
深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
深度学习的概念由Hinton等人于2006年提出。
基于深度置信网络(DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。
此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。
深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。
同机器学习方法一样,深度机器学习方法也有监督学习与无监督学习之分.不同的学习框架下建立的学习模型很是不同.例如,卷积神经网络(Convolutional neural networks,简称CNNs)就是一种深度的监督学习下的机器学习模型,而深度置信网(Deep Belief Nets,简称DBNs)就是一种无监督学习下的机器学习模型。
3、深度学习解决什么问题从一个输入中产生一个输出所涉及的计算可以通过一个流向图(flow graph)来表示:流向图是一种能够表示计算的图,在这种图中每一个节点表示一个基本的计算以及一个计算的值,计算的结果被应用到这个节点的子节点的值。
深度学习应用的本质是什么?作为算法从业者,目前小黑对深度学习理解暂时整理如下,如有最新进展在更新,如果您是大神请留言补充!深度学习概述深度学习是模拟人脑进行分析学习的多层神经网络,它模仿人脑的机制来解释数据,处理数据,通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
深度学习本质上是机器学习技术的一种,根据一般的机器学习和深度学习的工作方法和我们的经验,我们认为采用深度学习技术解决实际业务问题的完整过程主要包括五个方面:问题理解与分析、训练环境构建、数据管理、模型训练以及生产应用。
基于此,我们对每个环节分别阐述最佳实践,作为研究与工程应用的参考指南。
图1.深度学习解决问题的五个基本环节问题理解与分析深度学习不是一项“放之四海而皆准”的技术,采用深度学习解决复杂问题,首先需对实际问题全面剖析:问题是否适合采用深度学习解决,是否具备深度学习应用的数据条件,如何将实际业务问题转换成深度学习可以解决的技术问题等。
1.场景分析原则上,传统机器学习能够解决的问题,深度学习都能够解决,譬如传统机器学习主要面向学习类问题,包括有监督学习(分类和回归场景),无监督学习(聚类等),均能够采用深度学习网络训练模型和应用,但是两者应用效果会有所差异。
依据实践,在如下场景,可以优先考虑采用深度学习:(1)业界提供了公开成熟的深度学习网络模型的细分场景。
面对这些场景的业务问题,可以基于公开的网络模型进行网络权重微调(fine-tune),能够达到不错效果。
以图像识别为例,业界已经公开了AlexNet,ResNet等深度网络模型,在解决实际图像分类问题时可避免从头训练深度模型,在该模型的基础上, 使用样本数据进行模型参数优化(fine-tune)即可。
(2)深度学习应用成功的行业,譬如,深度学习在图像分类、语音识别、自然语言处理等感知领域均取得实际应用效果,并在行业内得到验证,因此如果问题域属于图像、语音、视频等领域的问题,深度学习应用效果往往比较理想。
深度学习的本质是什么_光环大数据培训人类正在慢慢接近世界的本质——物质只是承载信息模式的载体。
人脑之外的器官都只是保障这一使命的给养舰队。
自从去年AlphaGo完虐李世乭,深度学习火了。
但似乎没人说得清它的原理,只是把它当作一个黑箱来使。
有人说,深度学习就是一个非线性分类器?有人说,深度学习是对人脑的模拟……但我觉得都没有捅透那层窗户纸。
当读完JeffHawkins的《论智能》,「就是它了!」。
而我惊奇地发现,原书竟是2004年出版的!我怕自己读了本假书,或是某个美国民科的著作,特意到豆瓣、知乎上查了下,发现几乎每个看过这本书的人都对其理论啧啧称赞。
但奇怪的是,似乎没人肯替它站台,这套理论的影响止步于此,好像大家都在刻意掩饰自己看过这本秘笈。
它明明已经完整解释了人脑智能的运作机制了啊!注意是RealIntelligence,而不仅仅是ArtificialIntelligence!!!三个洞见比起绝大多数脑科学论文,作者的洞见简单得多,也深刻得多:长久以来,由于我们没有能力从内部去观察思维,所以人们总是把「智能」等同为「表现出智能的行为」。
但当我们看书时,在外人看来并没有任何变化,而我们自己知道,这期间产生了无数的联想、顿悟、回忆。
所以,「理解」是无法通过外部行为来测量的,它是一个内在度量的指标。
从草履虫到人类,大自然会为每一种生物分别设计一套智能机制,还是沿用一套机制,亦或是从某一代开始出现某种全新的智能机制,并沿用至今(那么,最先产生这套智能机制的又是什么物种呢?)?我们所说的智能,是人类所独有,还是生物的普遍特征(只是多寡之别)?而作者相信,智能不可能是上帝专为人类而设计的,它一定来自大自然的某种惯用伎俩。
大脑皮层,不管是结构上还是功能上,都有着相同的构造/机理(严格来说,这不算作者的洞见,而是早在1978年由VernonMountcastle发现的)。
由这三个洞见出发,自然而然地导向了以下疑问:如果智能不是由行为定义的,那该如何定义它?向前看,智能是如何演化而来的?向内看,大脑皮层的结构是如何捕捉这个世界的结构的?简单地说,作者的结论是:智能并没有人们想象的那么玄乎,它不过是一种「预测未来的能力」罢了。
从科学方法论角度看深度学习的本质
深度学习离不开大数据
用数据的方法来研究科学,最典型的例子是开普勒关于行星运动的三大定律,如图1。
开普勒的三大定律是根据他的前任,一位叫第谷的天文学家留给他的观察数据总结出来的。
表1是一个典型的例子。
这里列出的数据是行星绕太阳一周所需要的时间(以年为单位)和行星离太阳的平均距离(以地球与太阳的平均距离为单位)。
从这组数据可以看出,行星绕太阳运行的周期的平方和行星离太阳的平均距离的立方成正比,这就是开普勒的第三定律。
图1:用数据的方法研究科学的典型例子:开普勒三大定律
开普勒虽然总结出他的三大定律,但他并不理解其内涵。
牛顿则不然,牛顿用他的第二定律和万有引力定律把行星运动归结成一个纯粹的数学问题,即一个常微分方程组。
如果忽略行星之间的相互作用,那么各行星和太阳之间就构成了一个两体问题。
我们很容易求出相应的解,并由此推出开普勒的三大定律。
牛顿运用的是寻求基本原理的方法,它远比开普勒的方法深刻。
牛顿不仅知其然,而且知其所以然。
所以牛顿开创的寻求基本原理的方法成了科学研究的首选模式。
这种方法在上个世纪初期达到了顶峰:在它的指导下,物理学家们提出了量子力学。
原则上来讲,我们日常生活中所碰到的自然现象都可以从量子力学出发得到解决。
量子力学提供了研究化学、材料科学、工程科学、生命科学等几乎所有自然和工程学科的基本原理。
这应该说是很成功的。
但事情远非这么简单。
狄拉克指出,如果以量子力学的基本原理为出发点去解决这些问题,那么其中的计算太困难了。
所以如果要想有进展,还是必须做妥协,也就是说要对基本原理作近似。
尽管牛顿模式很深刻,但对复杂的问题,开普勒模式往往更有效。
举一个例子,表2中形象地描述了一组人类基因组的SNP数据(Single Nucleotide Polymorphism data)。
一组研究人员在全世界挑选出1064个志愿者,并把他们的SNP数据数字化,也就是把每个位置上可能出现的10种碱基对用数字来代表,对这组数据作主成分分析,就可以得到图2中的结果。
其中横轴和纵轴代表的是第一和第二奇异值所对应的特征向量。
这些向量一共有1064个分量,对应1064个志愿者。
值得注意的是这组点的颜色所代表的意义。
可以看出,人类进化的过程可以从这组数据中通过最常见的统计分析的方法主成分分析展示出来。
主成分分析是一种简单的数据分析方法。
其原理是对数据的协方差矩阵作特征值分解。
图2:对SNP数据作主成分分析的结果告诉我们人类进化的过程
这样的问题,如果采用从基本原理出发的牛顿模式,则基本上是没法解决的。
而基于数据的开普勒模式则是行之有效。
深度学习适合解决什么样的问题
像市场这种复杂系统里,一个是个体和个体之间的互相作用(博弈),一个是系统与外部环境(地球资源)之间的相互作用(反馈),因此而形成复杂模式(Pattern),这种模式通常很难预测。
这种类型的系统我们通常定义为复杂系统:由大量单元互相作用组成的系统,由于集体行为的非线性(总体不等于个体之和),而形成具备无数层级的复杂组织。
或者称为涌现性。
深度神经网络就是在研究复杂系统的一套联系不同尺度现象的数学方法。
当人类试图理解那些和自身生存最相关的东西时,经典物理学的还原论(把整体拆成部分)方法极不适用。
还原法试图从一个系统所有因素的初始状态,构建模型并求解相关的微分方程,最后试图获得某一时刻确定的预测结果。
而现实当中因为以下的这四大诅咒你却无法通过了解市场上每个人的特性就很好的预测整个市场走势:
1. 高维诅咒: 构成现实生活的系统往往被大量未知变量决定,比如生物由无数的细
胞组成。
基因,是由无数独立的单元组成的,市场,由无数的交易者组成,这些用物理的描述方法来预测,就是极高维度空间的运动问题。
维度,首先使得再简单的方程形式都十分复杂难解。
此处补充维度的科学定义:维度是一个系统里可以独立变化的变量个数,一个有非常多变量的系统,如复杂网络,假如每个变量不是互相独立,也可以是低维系统。
比如一个军营里的方阵,即使人数众多,也会因为大家都做着一模一样的动作,而只有一个独立变量,成为一维系统。
2. 非线性诅咒:高维度系统的维度之间具有复杂的相互作用,导致我们不能把系统
分解为单一维度然后做加法的方法研究。
高维加上非线性我们将得到对初级极为敏感的混沌系统。
非线性的一个重要推论是组织的产生,因为非线性,1+1可以大于2或小于2,为组织的产生提供了理论基础。
3. 反馈诅咒:复杂系统中反馈无处不在,即使是一个简单的一维系统,反馈也可
以使得系统的特性很丰富,最典型的反馈是某种记忆效应,使得系统产生复杂的路径依赖,此刻你的现实与历史深刻关联,而关联方法导致复杂的模式产生。
反身性是一种由预测产生的特殊反馈,当你预测股市的价格,会引起你的交易策略变化从而影响你的预测,是为反身性。
4. 随机诅咒: 复杂系统往往含有不包含确定规律的随机噪声,加上这些噪声,系统
的行为更加难预测,而很多时候,我们也无法区分一个系统里发现的模式是噪声导致还是由于元件之间的相互作用。
这四大诅咒是这些系统难以理解和预测的原因,而这个时候,我们往往通过观测其大量的数据和最终的结果,发现一些"规律性"(就如同上面开普勒在帝谷积累的大量观测数据基础之上发现的“开普勒三定律”)。
从而我们就有了如下的通用方法。
深度学习就是通过观测的数据寻找其中映射关系函数的计算数学方法
对于复杂的系统,我们知道因为四大诅咒很难通过还原法进行计算.那么这时只抓主要矛盾的解决方法就是:
1.首先通过观测获取此复杂系统的大量观测数据,然后从大量数据出发去逼近不容易获得
的函数映射关系;
2.这就把问题的解转换成了相当于泛函分析的代数结构里,把映射转换为范畴的问题。
解
决了范畴也就解决了逼近和近似解(苏联最伟大的数学家Kolmogorov 提出过将多元反应曲面(multivariate response surfaces)表征为单变量半仿射函数的叠加的方法);
3.因而我们首先看到了深度的神经网络模型被发明出来,其实单个神经网络从数学上看就
是一条单变量半仿射函数曲线。
所谓“深度”就是多层+单层含有大量这样的"神经元", 那么通过这些海量的单变量半仿射函数的叠加,就可以逼近和表征一个代表函数映射关系的多元反应曲面(multivariate response surfaces);
4.其次我们首先看到了BP算法或者叫BP神经网络被发明出来,他试图通过计算输入的
X 与实际结果Y之间的差值,并反向传播从而调整隐含层神经元的参数(这实际就是试图用牛顿法去拟合出每一根单变量半仿射函数最合适的参数);
5.最后这样拟合用的海量单变量半仿射函数,其实我们只需要他们其中的一段曲线,用来
拟合最终的“函数映射关系”,因而激活函数被找来作为一把“剪刀”,同样通过BP 算法而拟合出合适的激活函数w值。
典型激活函数的导数以及BP算法的流程如下:。