非主流自然语言处理——遗忘算法系列_光环大数据培训_第1页
非主流自然语言处理——遗忘算法系列_光环大数据培训_第2页
非主流自然语言处理——遗忘算法系列_光环大数据培训_第3页
非主流自然语言处理——遗忘算法系列_光环大数据培训_第4页
非主流自然语言处理——遗忘算法系列_光环大数据培训_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、光环大数据 http:/hadoop.aura-光环大数据-大数据培训&人工智能培训G光环大数据JI 11 A U I a D A. T A.http:/hadoop.aura-非主流自然语言处理遗忘算法系列 _光环大数据培训、前言这里“遗忘”不是笔误,这个系列要讲的“遗忘算法”,是以牛顿冷却 公式模拟遗忘为基础、用于自然语言处理(NLP的一类方法的统称,而不是大 名鼎鼎的“遗传算法”!在“遗忘”这条非主流自然语言处理路上,不知不觉已经摸索了三年有 余,遗忘算法也算略成体系,虽然仍觉时机未到,还是决定先停一下,将脑中所 积梳理成文,交由NLP的同好们点评交流。二、遗忘算法原理能够从未知

2、的事物中发现关联、提炼规律才是真正智能的标志,而遗忘 正是使智能生物具备这一能力的工具,也是适应变化的利器, “遗忘”这一颇具 负能量特征的家伙是如何实现发现规律这么个神奇魔法的呢?让我们从巴甫洛夫的狗说起:狗听到铃声就知道开饭了。铃声和开饭之间并不存在必然的联系,我们知道之所以狗会将两者联系 在一起,是因为巴甫洛夫有意的将两者一次次在狗那儿重复共现。所以,重复是建立关联的必要条件。我们还可以想像,狗在进食的时候听到的声音可能还有鸟叫声、 风吹树 叶的沙沙声,为什么这些同样具备重复特征声音却没有和开饭建立关系呢?a光环大数据光环大数据-大数据培训&人工智能培训http:/hadoop.

3、aura-细分辨我们不难想到:铃声和开饭之间不仅重复共现,而且这种重复共 现还具备一个相对稳定的周期,而其他的那些声音和开饭的共现则是随机的。那么遗忘又在其中如何起作用的呢?1、所有事物一视同仁的按相同的规律进行遗忘;2、偶尔或随机出现的事物因此会随时间而逐渐淡忘;3、而具有相对稳定周期重复再现的事物,虽然也按同样的规律遗忘,但由 于周期性的得到补充,从而可以动态的保留在记忆中。在自然语言处理中,很多对象比如:词、词与词的关联、模板等,都具 备按相对稳定重现的特征,因此非常适用遗忘来处理。三、牛顿冷却公式那么,我们用什么来模拟遗忘呢?提到遗忘,很自然的会想到艾宾浩斯遗忘曲线,如果这条曲线有个函

4、数 形式,那么无疑是模拟遗忘的最佳建模选择。 遗憾的是它只是一组离散的实验数 据,但至少让我们知道,遗忘是呈指数衰减的。另外有一个事实,有的人记性好些,有的人记性则差些,不同人之间的 遗忘曲线是不同的,但这并不会从本质上影响不同人对事物的认知,也就是说, 如果存在一个遗忘函数,它首先是指数形式的,其次在实用过程中,该函数的系数并不那么重要。这提醒我们,可以尝试用一些指数形式的函数来代替遗忘曲线,然后用a光环大数据光环大数据-大数据培训&人工智能培训http:/hadoop.aura-实践去检验,如果能满足工程实用就很好,这样的函数公式并不难找,比如:退 火算法、半衰期公式等。有次在阮一

5、峰老师的博客上看关于帖子热度排行的算法时,其中一种方 法使用的是牛顿冷却定律,遗忘与冷却有着相似的过程、简洁优美的函数形式、 而且参数只与时间相关,这些都让我本能想到,它就是我想要的“遗忘公式”。在实践检验中,牛顿冷却公式,确实有效好用,当然,不排除有其他更 佳公式。四、已经实现的功能如果把自然语言处理比作从矿砂中淘金子, 那么业界主流算法的方向是 从矿砂中将金砂挑出来,而遗忘算法的方向则是将砂石筛出去,虽然殊途但同归, 所处理的任务也都是主流中所常见。本系列文章将逐一讲解遗忘算法如何以0( N)级算法性能实现:1、大规模语料词库生成1.1、跨语种,算法语种无关,比如:中日韩、少数民族等语种均

6、可支持1.2、未登录词发现(只要符合按相对稳定周期性重现的词汇都会被收录)1.3、领域自适应,切换不同领域的训练文本时,词条、词频自行调整1.4、词典成熟度:可以知道当前语料训练出的词典的成熟程度2、分词(基于上述词库技术)2.1、成长性分词:用的越多,切的越准2.2、词典自维护:切词的同时动态维护词库的词条、词频、登录新词2.2、领域自适应、跨语种(继承自词库特性)光环大数据-大数据培训&人工智能培训G光环大数据A 11 A U I Q D T A.http:/hadoop.aura-3、词权值计算3.1、关键词提取、自动标签3.2、文章摘要3.3、长、短文本相似度计算3.4、主题词

7、集为什么大家选择光环大数据!大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、 数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请大数据 领域具有多年经验的讲师,提高教学的整体质量与教学水准。讲师团及时掌握时 代的技术,将时新的技能融入教学中,让学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生较快的掌握技能知识,帮助莘莘学子实现 就业梦想。光环大数据启动了推进人工智能人才发展的“AI智客计划”。光环大数据专注国内大数据和人工智能培训,将在人工智能和大数据领域深度合作。未来三年,光环大数据 将联合国内百所大学,通过“ AI智客计划”,共同推动人工智能产业人才生态建设,培 养和认证5-10万名AI大数据领域的人才。参加“ AI智客计划”,享2000元助学金!【报名方式、详情咨询】光环大数据网站报名:http:/hadoop.aura-手机报名链接:http:/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论