《数学之美》读书笔记

格式：doc
大小：24.17 KB
文档页数：12

《数学之美》读书笔记《数学之美》是一本领域相关的数学概念书，生动形象地讲解了关于数据挖掘、文本检索等方面的基础知识，可以作为数据挖掘、文本检索的入门普及书。

另外，就像作者吴军老师提到的，关键是要从中学到道----解决问题的方法，而不仅仅是术。

书中也启发式的引导读者形成自己解决问题的道。

下面记录一下自己读这本书的一些感想：第一章《文字和语言vs数字和信息》：文字和语言中天然蕴藏着一些数学思想，数学可能不仅仅的是一门非常理科的知识，也是一种艺术。

另外，遇到一个复杂的问题时，可能生活中的一些常识，一些简单的思想会给你带来解决问题的灵感。

第二章《自然语言处理----从规则到统计》：试图模拟人脑处理语言的模式，基于语法规则，词性等进行语法分析、语义分析的自然语言处理有着很大的复杂度，而基于统计的语言模型很好的解决了自然语言处理的诸多难题。

人们认识这个过程，找到统计的方法经历了20多年，非常庆幸我们的前辈已经帮我们找到了正确的方法，不用我们再去苦苦摸索。

另外，这也说明在发现真理的过程中是充满坎坷的，感谢那些曾经奉献了青春的科学家。

自己以后遇到问题也不能轻易放弃，真正的成长是在解决问题的过程中。

事情不可能一帆风顺的，这是自然界的普遍真理吧！第三章《统计语言模型》：自然语言的处理找到了一种合适的方法---基于统计的模型，概率论的知识开始发挥作用。

二元模型、三元模型、多元模型，模型元数越多，计算量越大，简单实用就是最好的。

对于某些不出现或出现次数很少的词，会有零概率问题，这是就要找到一数学方法给它一个很小的概率。

以前学概率论的时候觉的没什么用，现在开始发现这些知识可能就是你以后解决问题的利器。

最后引用作者本章的最后一句话：数学的魅力就在于将复杂的问题简单化。

第四章《谈谈中文分词》：中文分词是将一句话分成一些词，这是以后进一步处理的基础。

从开始的到后来基于统计语言模型的分词，如今的中文分词算是一个已经解决的问题。

然而，针对不同的系统、不同的要求，分词的粒度和方法也不尽相同，还是针对具体的问题，提出针对该问题最好的方法。

没有什么是绝对的，掌握其中的道才是核心。

第五章《隐马尔科夫模型》：隐马尔科夫模型和概率论里面的马尔科夫链相似，就是该时刻的状态仅与前面某几个时刻的状态有关。

基于大量数据训练出相应的隐马尔科夫模型，就可以解决好多机器学习的问题，训练中会涉及到一些经典的算法(维特比算法等)。

关于这个模型，没有实际实现过，所以感觉好陌生，只是知道了些概率论讲过的原理而已。

第六章《信息的度量和作用》：信息论给出了信息的度量，它是基于概率的，概率越小，其不确定性越大，信息量就越大。

引入信息量就可以消除系统的不确定性，同理自然语言处理的大量问题就是找相关的信息。

信息熵的物理含义是对一个信息系统不确定性的度量，这一点与热力学中的熵概念相同，看似不同的学科之间也会有着很强的相似性。

事务之间是存在联系的，要学会借鉴其他知识。

第七章《贾里尼克和现代语言处理》：贾里尼克是为世界级的大师，不仅在于他的学术成就，更在于他的风范。

贾里尼克教授少年坎坷，也并非开始就投身到自然语言方面的研究，关键是他的思想和他的道。

贾里克尼教授治学严谨、用心对待自己的学生，对于学生的教导，教授告诉你最多的是“什么方法不好”，这很像听到的一句话“我不赞同你，但我支持你”。

贾里克尼教授一生专注学习，最后在办公桌前过世了。

读了这章我总结出的一句话是“思想决定一个人的高度”。

在这章中对于少年时的教育，以下几点值得借鉴：1、少年时期其实没有必要花那么多时间读书，他们的社会经验、生活能力以及在那时树立起的志向将帮助他们一生。

2、中学时花大量时间学会的内容，在大学用非常短的时间就可以读完，因为在大学阶段，人的理解力要强很多。

3、学习（和教育）是一个人一辈子的过程。

4、书本的内容可以早学，也可以晚学，但是错过了成长阶段却是无法补回来的。

第八章《简单之美----布尔代数和搜索引擎的索引》：布尔是19世纪英国的一位中学教师，但他的公开身份是啤酒商，提出好的思想的人不一定是大师。

简单的建立索引可以根据一个词是否在一个网页中出现而设置为0和1，为了适应索引访问的速度、附加的信息、更新要快速，改进了索引的建立，但原理上依然简单，等价于布尔运算。

牛顿的一句话“（人们）发觉真理在形式上从来是简单的，而不是复杂和含混的”。

做好搜索，最基本的要求是每天分析10-20个不好的搜索结果，积累一段时间才有感觉。

有时候，学习、处理问题，可以从不好的方面入手，效果可能更好。

第九章《图论和网络爬虫》：图的遍历分为“广度优先搜索（Breadth-FirstSearch，简称BFS）”和“深度优先搜索（Depth-FirstSearch，简称DFS）。

互联网上有几百亿的网页，需要大量的服务器用来下载网页，需要协调这些服务器的任务，这就是网络设计和程序设计的艺术了。

另外对于简单的网页，没必要下载。

还需要存储一张哈希表来记录哪些网页已经存储过（如果记录每个网页的url，数量太多，这里可以用后面提到的信息指纹，只需要一个很多位的数字即可），避免重复下载。

另外，在图论出现的很长一段时间里，实际需求的图只有几千个节点，那时图的遍历很简单，人们都没有怎么专门研究这个问题，随着互联网的出现，图的遍历一下子有了用武之地，很多数学方法就是这样，看上去没有什么用途，等到具体的应用出来了一下子开始派上大用场了，这可能就是世界上很多人毕生研究数学的原因吧。

一个系统看似整体简单，但里面的每个东西都可能是一个复杂的东西，需要很好的设计。

第十章《PageRank----Google的民主表决式网页排名技术》：搜索返回了成千上万条结果，如何为搜索结果排名？这取决与两组信息：关于网页的质量信息以及这个查询和每个网页的相关性信息。

PageRank算法来衡量一个网页的质量，该算法的思想是如果一个网页被很多其他网页所链接，说明它收到普遍的承认和信赖，那么它的排名就高。

谷歌的创始人佩奇和布林提出了该算法并用迭代的方法解决了这个问题。

PageRank在Google所有的算法中依然是至关重要的。

该算法并不难，可是当时只有佩奇和布林想到了，为什么呢？第十一章《如何确定网页和查询的相关性》：构建一个搜索引擎的四个方面：如何自动下载网页、如何建立索引、如何衡量网页的质量以及确定一个网页和某个查询的相关性。

搜索关键词权重的科学度量TF—IDF，TF衡量一个词在一个网页中的权重，即词频。

IDF衡量一个词本身的权重，对主题的预测能力。

一个查询和该网页的相关性公式由词频的简单求和变成了加权求和，即TF1*IDF1+TF2*IDF2+...+TFN*IDFN。

看似复杂的搜索引擎，里面的原理竟是这么简单！第十二章《地图和本地搜索的最基本技术——有限状态机和动态规划》：地址的解析依靠有限状态机，当用户输入的地址不太标准或有错别字时，希望进行模糊匹配，提出了一种基于概率的有限状态机。

通用的有限状态机的程序不是很好写，要求很高，建议直接采用开源的代码。

图论中的动态规划问题可以用来解决两点间的最短路径问题，可以将一个“寻找全程最短路线”的问题，分解成一个个寻找局部最短路线的小问题。

有限状态机和动态规划问题需要看相关的算法讲解，才能深入理解，目前对其并未完全理解。

第十三章《GoogleAK-47的设计者——阿米特·辛格博士》：辛格坚持选择简单方案的一个原因是容易解释每一个步骤和方法背后的道理，这样不仅便于出了问题时查错，而且容易找到今后改进的目标。

辛格要求对于搜索质量的改进方法都要能说清楚理由，说不清楚理由的改进即使看上去有效也不会采用，因为这样将来可能是个隐患。

辛格非常鼓励年轻人要不怕失败，大胆尝试。

遵循简单的哲学。

第十四章《余弦定理和新闻的分类》：将新闻根据词的TF-IDF 值组成新闻的特征向量，然后根据向量之间的余弦距离衡量两个特征之间的相似度，将新闻自动聚类。

另外根据词的不同位置，权重应该不同，比如标题的词权重明显应该大点。

大数据量的余弦计算也要考虑很多简化算法。

第十五章《矩阵运算和文本处理中的两个分类问题》：将大量的文本表示成文本和词汇的矩阵，然后对该矩阵进行奇异值SVD分解，可以得到隐含在其中的一些信息。

计算余弦相似度的一次迭代时间和奇异值分解的时间复杂度在一个数量级，但计算余弦相似度需要多次迭代。

另外，奇异值分解的一个问题是存储量大，而余弦定理的聚类则不需要。

奇异值分解得到的结果略显粗糙，实际工作中一般先进行奇异值分解得到粗分类结果，在利用余弦计算得到比较精确地结果。

我觉得这章讲的SVD有些地方不是很清楚，已向吴军老师请教了，等待回信。

第十六章《信息指纹及其应用》：信息指纹可以作为信息的唯一标识。

有很多信息指纹的产生方法，互联网加密要使用基于加密的伪随机数产生器，常用的算法有MD5或者SHA-1等标准。

信息指纹可以用来判定集合相同或基本相同。

YouTobe就用信息指纹来反盗版。

128位的指纹，1.8*10^19次才可能重复一次，所以重复的可能性几乎为0。

判定集合是否相同，从简单的逐个比对到利用信息指纹，复杂度降低了很多很多。

启发我们有时候要用变通的思想来解决问题。

第十七章《由电视剧《暗算》所想到的——谈谈密码学的数学原理》：RSA加密算法，有两个完全不同的钥匙，一个用于加密，一个用于解密。

该算法里面蕴含着简单但不好理解的数学思想。

信息论在密码设计中的应用：当密码之间分布均匀并且统计独立时，提供的信息最少。

均匀分布使得敌人无从统计，而统计独立能保证敌人即使知道了加密算法，也不能破译另一段密码。

第十八章《闪光的不一定是金子——谈谈搜索引擎反作弊问题》：把搜索反作弊看成是通信模型，作弊当做是加入的噪声，解决噪声的方法：从信息源出发，增强排序算法的抗干扰能力；过滤掉噪声，还原信息。

只要噪声不是完全随机并且前后有相关性，就可以检测到并消除。

作弊者的方法不可能是随机的，且不可能一天换一种方法，及作弊是时间相关的。

因此在搜集一段时间的作弊信息后，就可以将作弊者抓出来，还原原有的排名。

一般作弊都是针对市场份额较大的搜索引擎做的，因此，一个小的搜索引擎作弊少，并不一定是它的反作弊技术好，而是到它那里作弊的人少。

第十九章《谈谈数学模型的重要性》：早期的行星运行模型用大圆套小圆的方法，精确地计算出了所有行星运行的轨迹。

但其实模型就是简单的椭圆而已。

一个正确的数学模型应该在形式上是简单的；一个正确的模型可能开始还不如一个精雕细琢过的错误模型来的准确，但是，如果我们认定大方向是对的，就应该坚持下去；大量准备的数据对研发很重要；正确的模型可能受到噪声干扰，而显得不准确，这是不应该用一种凑合的修正方法来弥补它，要找到噪声的根源，这也许能通往重大的发现。

《数学之美》读后感：数学的艺术_读后感_模板

《数学之美》读后感：数学的艺术_读后感_模板数学的艺术——《数学之美》读后感-张小镛这本书一共31章，主要介绍了这些数学方法：统计方法、统计语言模型、中文信息处理、隐含马尔科夫模型、布尔代数、图论、网页排名技术、信息论、动态规划、余弦定理、矩阵运算、信息指纹、密码学、搜索技术、数学模型、最大熵模型、拼音输入法、贝叶斯网络、句法分析、维特比算法、各个击破算法等。

从第一章开始其明了幽默的语言就深深的吸引了我，让我觉得如果早一点看这本书，也许数学之于我就是另一番天地。

第一章里作者从原始人类的通信方式开始入手，人类最早利用声音进行的通信依赖于开篇给出的”编码-传输-解码”的基本原理，指出原始人的通信方式和今天的通信方式没什么不同，这世界上近现代最普遍的原理大部分都在人类发展的历史上被无意识的使用着。

第六章信息论给出了信息的度量，它是基于概率的，概率越小，其不确定性越大，信息量就越大。

引入信息量就可以消除系统的不确定性，同理自然语言处理的大量问题就是找相关的信息。

信息熵的物理含义是对一个信息系统不确定性的度量，这一点与热力学中的熵概念相同，看似不同的学科之间也会有着很强的相似性。

事务之间是存在联系的，要学会借鉴其他知识。

这本书里也能找到不少在学的课程知识，如大学专业课里，数电总是要比模电简单不少，而自然界里大部分的信号都属于模拟信号。

所谓模拟信号，是指从时间和数值两种维度上看来都是连续变化的信号。

在实际电路中，模/数转换是一个很重要的过程，将预处理的模拟信号经过模/数变换为数字信号，然后进行数字信号处理。

而数字化处理有很多优点，比如功能强大、抗干扰能力强、易于传输等。

简而言之，如果没有数学，就没有数字信号处理和传输的概念，而数字信号传输在当下大规模的集成电路里是必不可少的，这是通信成功的基本要求。

作者把生活中遇到的复杂的问题，以简单清晰，直观的模型或者公式展现出来。

我们可能过于注意生活中的种种奇妙现象，往往忽略了追求其理论逻辑的演绎，而这，()也是大部分问题的主要根源。

数学之美读书笔记

Some roads seem very close, but the ones that go down are far away. People who lack patience can never go.悉心整理祝您一臂之力（页眉可删）数学之美读书笔记数学之美读书笔记1数学用在模型上而不是现实世界中，需要抽象思考出模型，即数学对象是其所做。

数系扩充中，复数i并没有比无理数根号2更特殊的地方，因为它们作为抽象的数学构造，如果充分自然，则必能作为模型找到它们的用途。

实际上正是如此。

数学中有个根本性的重要事实：数学论证中的每一步都可以不断地分解成更小更清晰有据的子步骤，但是这样的过程最终会终止。

原则上，最终会得到一条非常长的论证，它以普遍接受的公理开始，仅通过最基本的逻辑原则一步步推进，最终得到想要求证的结论。

所以，任何关于数学证明有效性的争论总是能够解决的。

争论在原则上必然能够解决这一事实使数学作为一个学科是独一无二的。

在这里，公理系统的主要问题不是真实性，而是自洽性和有用性，即数学证明就是由特定前提能够得出特定结论，而不考虑该前提是否正确。

数学归纳法原理正是使用了这一“根本性的重要事实”：假设关于任意正整数n有一陈述s(n)，如果s(1)为真，且s(n)为真总蕴含s(n+1)为真，那么s(n)对任意n都为真。

我不清楚这一“根本性的重要事实”在现实中的使用范围有多大，但由此可以聊一点别的问题。

现实中，如果甲对事情有A 观点(或说价值观)，乙有B观点，并为此争执。

有下面几种情况：1，在上述的范围之外，即没有定论。

2，有定论，但是双方都没有给出足够的证据证明和反驳。

3，有定论，一方给出了足够的证据(或者反驳理由)，因为表达能力导致表述不清晰而没有说服对方。

4，有定论，一方给出了足够的证据(或者反驳理由)，因为对方理解不够或理解偏差导致没有被说服。

第234条与这几项有关：知识量，表达能力，理解能力，对外界的认知和自我认知。

《数学之美》读后感

数学也可以很美——《数学之美》读后感没有哪门学科能如数学这样，引发学习者爱与恨的情感。

陌生的符号、繁杂的计算、复杂的思路、浩瀚的题海……数学渐渐被我们“妖魔化”。

然而，几何的神韵、简洁的语言、严谨的结构、神奇的定律……无不让科学家们沉浸其中。

我在阅读《数学之美》这本书之前，正是前者。

我认为数学太难太难，一不留神漏掉一个符号，计算结果便会天翻地覆，分数自然也不会太高。

我渐渐开始讨厌数学，并对做题产生恐惧。

但是当我在合上《数学之美》的那一刻，我终于领悟到无论是牛顿的地心引力定律、无线电波的发现还是各种各样的智能云计算，几乎每一个伟大的成就背后都能看得见数学的身影。

就像我在初一刚刚接触到的杨辉三角在这本书上得到了新的见解。

杨辉三角，是一个由数字排列成的三角形图表，一般形式如图所示，是二项式系数在三角形中的一种几何排列一般形式。

（a+b）0 = 1（a+b）1 = a+b（a+b）2 = a2+2ab+b2（a+b）3 = a3+3a2b+3ab2+b3（a+b）4= a4++4a3b+6a2b2+4ab3+b4（a+b）5=a5+5a4b+10a3b2+10a2b3+5ab4+b5（a+b）6=a6 +6a5b+15a4b2+20a3b3+15a2b4+6ab5+b6......其中每一横行都表示（a+b）n, (此处n等于0、1、2、3、4、5、6)的展开式中的各项系数，杨辉三角最本质的特征是它的两条斜边都是由数字1组成的，其余的数则是等于它＂肩＂上的两个数之和。

以前我觉得杨晖三角没有太大的用处，直接做乘法竖式不就好了吗？其实并不然，看完这本书之后，我发现如果（a + b）的次方是n的时候，我们就不可能用竖式来表达他的展开式了。

这时就要用公式表达。

寻找公式的渴望是数学爱好者的驱动力，正如杨辉一样，他给( a ＋b）的n次方创造了一个特殊又神奇的三角形。

运用杨晖三角我发现我可以直接轻松地写出A(a＋b)的五次方，11的五次方的展开式。

《数学之美》读后感

《数学之美》读后感曾因兴趣对 CMUSphinx 库的应用进行研究，却不得要领，遂去查阅语音识别基本原理的文章，偶然邂逅《数学之美》。

而《浪潮之巅》亦是由此开始阅读，且率先读完，毕竟一为历史之著，一为阐述数学与语言处理之作，难度实有不同。

因初高中荒废太多时光，本人英文与数学基础薄弱，大学数学勉强修过。

一直以来，数学于我乃是恐怖学科，亦不明为何计算机专业对数学要求颇高。

个人数学分数极低，然专业课学得尚佳，唯离散数学稍好，工科数学分析与高等代数则惨不忍睹。

阅毕此书，方觉严重低估数学之作用。

复杂语言识别过程，竟可用简单统计语言模型解决，冲击巨大。

余弦定理与新闻分类亦影响深远。

往昔诸般三角函数变换、向量、空间图形，只觉仅能用于设计图或基础学科应用，“与计算机编程有何关联？角度计算，库中皆有提供”，岂料转变思路与方法，复杂分裂问题竟能简单解决，回想当初想法着实幼稚，可惜时光难返，但至少现今明白数学重要性，尚可设法弥补。

不得不言国内教科书过于死板，诸多书上，先不谈应用领域及用途，有些教科书连推导过程亦未讲明。

如大学时几本高代高数教科书，关键步骤仅写“显而易见”便莫名得出结果，令基础差者情何以堪，即便询问数学好者，他们推导此步亦需良久。

后换同济大学版，发现相同定理、范围，理解却容易许多。

果真好书与稍差之书差别颇大。

遂于网上整理若干优质数学书籍，日后慢慢补进。

书中将技术分为术与道，具体做事方法为术，做事原理原则为道。

此书旨在讲道而非术。

诸多具体搜索技术会由独门绝技至普及再至落伍，追求术者工作辛苦一生。

唯有掌握搜索本质与精髓方能永远游刃有余。

吴军先生以搜索反作弊为例，精彩诠释此两种差别。

回想往昔项目，遇未想情况则加异常处理，本简单之事却弄得复杂。

现今反思，彼时境界过低，未明本质原理便埋头苦干，日后当多加留意。

本人向来喜爱实用性强之方法与工具，于书中格外喜爱阿米特·辛格博士一章。

吴军博士仅寥寥数页便讲解辛格博士处理事情之方法原则，先为用户解决主要问题，再决是否纠结次要部分；需知修改代码所作所为，知其所以然；能用简单方法解决则用简单，可读性至关重要。

下载提示

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《数学之美》读书笔记

合集下载

《数学之美》读后感：数学的艺术_读后感_模板

数学之美读书笔记

《数学之美》读后感

《数学之美》读后感

文档推荐

最新文档