《数学之美》读书笔记

  • 格式:doc
  • 大小:24.17 KB
  • 文档页数:12

下载文档原格式

  / 10
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《数学之美》读书笔记

《数学之美》是一本领域相关的数学概念书,生动形象地讲解了关于数据挖掘、文本检索等方面的基础知识,可以作为数据挖掘、文本检索的入门普及书。另外,就像作者吴军老师提到的,关键是要从中学到道----解决问题的方法,而不仅仅是术。书中也启发式的引导读者形成自己解决问题的道。

下面记录一下自己读这本书的一些感想:

第一章《文字和语言vs数字和信息》:文字和语言中天然蕴藏着一些数学思想,数学可能不仅仅的是一门非常理科的知识,也是一种艺术。另外,遇到一个复杂的问题时,可能生活中的一些常识,一些简单的思想会给你带来解决问题的灵感。

第二章《自然语言处理----从规则到统计》:试图模拟人脑处理语言的模式,基于语法规则,词性等进行语法分析、语义分析的自然语言处理有着很大的复杂度,而基于统计的语言模型很好的解决了自然语言处理的诸多难题。人们认识这个过程,找到统计的方法经历了20多年,非常庆幸我们的前辈已经帮我们找到了正确的方法,不用我们再去苦苦摸索。另外,这也说明在发现真理的过程中是充满坎坷的,感谢那些曾经奉献了青春的科学家。自己以后遇到问题也不能轻易放弃,真正的成长是在解决问题的过程中。事情不可能一帆风顺的,这是自然界的普遍真理吧!

第三章《统计语言模型》:自然语言的处理找到了一种合适的方法---基于统计的模型,概率论的知识开始发挥作用。二元模型、

三元模型、多元模型,模型元数越多,计算量越大,简单实用就是最好的。对于某些不出现或出现次数很少的词,会有零概率问题,这是就要找到一数学方法给它一个很小的概率。以前学概率论的时候觉的没什么用,现在开始发现这些知识可能就是你以后解决问题的利器。最后引用作者本章的最后一句话:数学的魅力就在于将复杂的问题简单化。

第四章《谈谈中文分词》:中文分词是将一句话分成一些词,

这是以后进一步处理的基础。从开始的到后来基于统计语言模型的分词,如今的中文分词算是一个已经解决的问题。然而,针对不同的系统、不同的要求,分词的粒度和方法也不尽相同,还是针对具体的问题,提出针对该问题最好的方法。没有什么是绝对的,掌握其中的道才是核心。

第五章《隐马尔科夫模型》:隐马尔科夫模型和概率论里面的

马尔科夫链相似,就是该时刻的状态仅与前面某几个时刻的状态有关。基于大量数据训练出相应的隐马尔科夫模型,就可以解决好多机器学习的问题,训练中会涉及到一些经典的算法(维特比算法等)。关于这个模型,没有实际实现过,所以感觉好陌生,只是知道了些概率论讲过的原理而已。

第六章《信息的度量和作用》:信息论给出了信息的度量,它

是基于概率的,概率越小,其不确定性越大,信息量就越大。引入信息量就可以消除系统的不确定性,同理自然语言处理的大量问题就是找相关的信息。信息熵的物理含义是对一个信息系统不确定性的度量,

这一点与热力学中的熵概念相同,看似不同的学科之间也会有着很强的相似性。事务之间是存在联系的,要学会借鉴其他知识。

第七章《贾里尼克和现代语言处理》:贾里尼克是为世界级的大师,不仅在于他的学术成就,更在于他的风范。贾里尼克教授少年坎坷,也并非开始就投身到自然语言方面的研究,关键是他的思想和他的道。贾里克尼教授治学严谨、用心对待自己的学生,对于学生的教导,教授告诉你最多的是“什么方法不好”,这很像听到的一句话“我不赞同你,但我支持你”。贾里克尼教授一生专注学习,最后在办公桌前过世了。读了这章我总结出的一句话是“思想决定一个人的高度”。

在这章中对于少年时的教育,以下几点值得借鉴:

1、少年时期其实没有必要花那么多时间读书,他们的社会经验、生活能力以及在那时树立起的志向将帮助他们一生。

2、中学时花大量时间学会的内容,在大学用非常短的时间就可以读完,因为在大学阶段,人的理解力要强很多。

3、学习(和教育)是一个人一辈子的过程。

4、书本的内容可以早学,也可以晚学,但是错过了成长阶段却是无法补回来的。

第八章《简单之美----布尔代数和搜索引擎的索引》:布尔是19世纪英国的一位中学教师,但他的公开身份是啤酒商,提出好的思想的人不一定是大师。简单的建立索引可以根据一个词是否在一个网页中出现而设置为0和1,为了适应索引访问的速度、附加的信息、

更新要快速,改进了索引的建立,但原理上依然简单,等价于布尔运算。牛顿的一句话“(人们)发觉真理在形式上从来是简单的,而不是复杂和含混的”。做好搜索,最基本的要求是每天分析10-20个不好的搜索结果,积累一段时间才有感觉。有时候,学习、处理问题,可以从不好的方面入手,效果可能更好。

第九章《图论和网络爬虫》:图的遍历分为“广度优先搜索(Breadth-FirstSearch,简称BFS)”和“深度优先搜索

(Depth-FirstSearch,简称DFS)。互联网上有几百亿的网页,需要大量的服务器用来下载网页,需要协调这些服务器的任务,这就是网络设计和程序设计的艺术了。另外对于简单的网页,没必要下载。还需要存储一张哈希表来记录哪些网页已经存储过(如果记录每个网页的url,数量太多,这里可以用后面提到的信息指纹,只需要一个很多位的数字即可),避免重复下载。另外,在图论出现的很长一段时间里,实际需求的图只有几千个节点,那时图的遍历很简单,人们都没有怎么专门研究这个问题,随着互联网的出现,图的遍历一下子有了用武之地,很多数学方法就是这样,看上去没有什么用途,等到具体的应用出来了一下子开始派上大用场了,这可能就是世界上很多人毕生研究数学的原因吧。一个系统看似整体简单,但里面的每个东西都可能是一个复杂的东西,需要很好的设计。

第十章《PageRank----Google的民主表决式网页排名技术》:搜索返回了成千上万条结果,如何为搜索结果排名?这取决与两组信息:关于网页的质量信息以及这个查询和每个网页的相关性信息。

PageRank算法来衡量一个网页的质量,该算法的思想是如果一个网页被很多其他网页所链接,说明它收到普遍的承认和信赖,那么它的排名就高。谷歌的创始人佩奇和布林提出了该算法并用迭代的方法解决了这个问题。PageRank在Google所有的算法中依然是至关重要的。该算法并不难,可是当时只有佩奇和布林想到了,为什么呢?

第十一章《如何确定网页和查询的相关性》:构建一个搜索引擎的四个方面:如何自动下载网页、如何建立索引、如何衡量网页的质量以及确定一个网页和某个查询的相关性。搜索关键词权重的科学度量TF—IDF,TF衡量一个词在一个网页中的权重,即词频。IDF衡量一个词本身的权重,对主题的预测能力。一个查询和该网页的相关性公式由词频的简单求和变成了加权求和,即

TF1*IDF1+TF2*IDF2+...+TFN*IDFN。看似复杂的搜索引擎,里面的原理竟是这么简单!

第十二章《地图和本地搜索的最基本技术——有限状态机和动态规划》:地址的解析依靠有限状态机,当用户输入的地址不太标准或有错别字时,希望进行模糊匹配,提出了一种基于概率的有限状态机。通用的有限状态机的程序不是很好写,要求很高,建议直接采用开源的代码。图论中的动态规划问题可以用来解决两点间的最短路径问题,可以将一个“寻找全程最短路线”的问题,分解成一个个寻找局部最短路线的小问题。有限状态机和动态规划问题需要看相关的算法讲解,才能深入理解,目前对其并未完全理解。