《数学之美》读书笔记_第1页
《数学之美》读书笔记_第2页
《数学之美》读书笔记_第3页
《数学之美》读书笔记_第4页
《数学之美》读书笔记_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数学之美读书笔记数学之美读书笔记数学之美是一本事域相关的数学概念书,活泼形象地讲解了关于数据挖掘、文本检索等方面的基础学问,可以作为数据挖掘、文本检索的入门普及书。另外,就像吴军老师提到的,关键是要从中学到道解决问题的方法,而不仅仅是术。书中也启发式的引导读者形成自己解决问题的道。下面记录一下自己读这本书的一些感想:第一章文字和语言vs数字和信息:文字和语言中自然蕴藏着一些数学思想,数学可能不仅仅的是一门非常理科的学问,也是一种艺术。另外,遇到一个冗杂的问题时,可能生活中的一些常识,一些简洁的思想会给你带来解决问题的灵感。第二章自然语言处理从规章到统计:试图模拟人脑处理语言的模式,基于语法规章

2、,词性等进行语法分析、语义分析的自然语言处理有着很大的冗杂度,而基于统计的语言模型很好的解决了自然语言处理的诸多难题。人们认识这个过程,找到统计的方法阅历了20多年,非常庆幸我们的前辈已经帮我们找到了正确的方法,不用我们再去苦苦摸索。另外,这也说明在发现真理的过程中是充满坎坷的,感谢那些曾经奉献了青春的科学家。自己以后遇到问题也不能容易放弃,真正的成长是在解决问题的过程中。事情不行能一帆风顺的,这是自然界的普遍真理吧!第三章统计语言模型:自然语言的处理找到了一种适宜的方法基于统计的模型,概率论的学问开头发挥作用。二元模型、三元模型、多元模型,模型元数越多,计算量越大,简洁适用就是最好的。对于某

3、些不显现或显现次数很少的词,会有零概率问题,这是就要找到一数学方法给它一个很小的概率。从前学概率论的时分觉的没什么用,如今开头发现这些学问可能就是你以后解决问题的利器。最终引用本章的最终一句话:数学的魅力就在于将冗杂的问题简洁化。第四章谈谈中文分词:中文分词是将一句话分成一些词,这是以后进一步处理的基础。从开头的查字典到后来基于统计语言模型的分词,如今的中文分词算是一个已经解决的问题。然而,针对不同的系统、不同的要求,分词的粒度和方法也不尽相同,还是针对详细的问题,提出针对该问题最好的方法。没有什么是肯定的,把握其中的道才是核心。第五章隐马尔科夫模型:隐马尔科夫模型和概率论里面的马尔科夫链相像

4、,就是该时辰的状态仅与前面某几个时辰的状态有关。基于大量数据训练出相应的隐马尔科夫模型,就可以解决好多机器学习的问题,训练中会触及到一些经典的算法(维特比算法等)。关于这个模型,没有实际完成过,所以感觉好生疏,只是明白了些概率论讲过的原理而已。第六章信息的度量和作用:信息论给出了信息的度量,它是基于概率的,概率越小,其不确定性越大,信息量就越大。引入信息量就可以消退系统的不确定性,同理自然语言处理的大量问题就是找相关的信息。信息熵的物理含义是对一个信息系统不确定性的度量,这一点与热力学中的熵概念相同,看似不同的学科之间也会有着很强的相像性。事务之间是存在联系的,要学会借鉴其他学问。第七章贾里尼

5、克和现代语言处理:贾里尼克是为世界级的,不仅在于他的学术成就,更在于他的风范。贾里尼克教授少年坎坷,也并非开头就投身到自然语言方面的研讨,关键是他的思想和他的道。贾里克尼教授治学严谨、专心对待自己的同学,对于同学的教导,教授告知你最多的是过滤掉噪声,复原信息。只要噪声不是完全随机并且前后有相关性,就可以检测到并消退。者的方法不行能是随机的,且不行能一天换一种方法,及是时间相关的。因此在搜集一段时间的信息后,就可以将者抓出来,复原原有的排名。一般都是针对市场份额较大的搜寻引擎做的,因此,一个小的搜寻引擎少,并不肯定是它的反技术好,而是到它那里的人少。第十九章谈谈数学模型的重要性:早期的行星运行模

6、型用大圆套小圆的方法,精确地计算出了全部行星运行的轨迹。但其实模型就是简洁的椭圆而已。一个正确的数学模型应当在形式上是简洁的;一个正确的模型可能开头还不如一个精雕细琢过的错误模型来的精确,但是,假如我们认定大方向是对的,就应当坚持下去;大量准备的数据对研发很重要;正确的模型可能受到噪声干扰,而显得不精确,这是不应当用一种凑合的修正方法来弥补它,要找到噪声的根源,这或许能通往重大的发现。第二十章不要把鸡蛋放在一个篮子里另一个是将这个方法发扬光大的米奇宽松的管理方式,培育各有特点的年轻学者;是一个有着远见卓识的管理者。他的同学为人做事风格迥异,但都年轻有为,例如追求完善的迈克尔接下来,重新计算模型

7、参数,以最大化希望值,这个过程称为最大化的过程,或M过程。优化的目标函数假如是个凸函数,则肯定有全局最优解,若不是凸函数,则可能找到的是局部最优解。在以后的一些问题求解过程中,应当考虑其是否是EM问题,也可以考虑参考这种思想,不断迭代以优化目标的过程。第二十八章规律回来和搜寻广告:雅虎和百度的竞价排名广告并不比谷歌的依据广告的预估点击率来客观的推送广告收入多。点击预估率有许多影响因素,一种有效的方法是规律回来模型,规律回来模型是一种将影响概率的不同因素结合在一起的指数模型。其训练方法和最大熵模型相像。同样不是很理解其详细内涵。第二十九章各个击破和Google云计算的基础:分而治之,各个击破是一

8、个很好的方法,Google开发的MapReduce算法就应用了该方法。将一个大任务分成几个小任务,这个过程叫Map,将小任务的结果合并成最终结果,这个过程叫Reduce,该过程如何调度、协调就是工程上比拟冗杂的事情了。可见大量用到的、真正有用的方法往往简洁而又朴实。附录计算冗杂度:计算机中冗杂度是以O()来表示的,假如一个算法的计算量不超过N的多项式函数,则称算法为多项式函数冗杂度的(P问题),是可以计算的。若比N的多项式函数还高,则是非多项式问题,事实上是不行计算的。非多项式问题中一种非确定的多项式问题(简称NP),是科学家研讨的焦点,由于现实中好多问题都是NP问题。另外还有NP-Complete问题(NP问题可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论