大数据与机器学习关系之辨-交通银行_第1页
大数据与机器学习关系之辨-交通银行_第2页
大数据与机器学习关系之辨-交通银行_第3页
大数据与机器学习关系之辨-交通银行_第4页
免费预览已结束,剩余3页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据与机器学习关系之辨何 飞交通银行金融研究中心高级研究员为什么谈机器学习,就必谈大数据?关于大数据与机器学习的关系,现有探讨尚未给出明确结论:一方面,大数据兴起时间较晚,相比而言,机器学习已经过半个多世纪的发展。从概念出现的先后来看,似乎很难将两者联系起来。另一方面,在讨论大数据时,现有观点主要围绕“数据量大”这一特征展开,而在讨论机器学习时,则主要围绕算法技术展开。从侧重点来看,两者似乎不具有可比性。与此同时,大数据与机器学习概念均较为抽象,理解视角不同,得出的结论也不同。为了作更深入的探讨,本文通过思辨回答三个关键问题来阐述其相互关系。第一个问题,大数据是完全意义上的新事物吗?其实,大

2、数据的产生是不随人的意志为转移的,只不过在信息技术还不发达的年代,简陋的数据存储设备给人造成“数据量小”的假象。与此同时,在互联网信息技术快速发展之前,数据孤岛1问题严重,数据流通速度缓慢。除此以外,早年的数据应用范围较窄,主要基于简单分析获得“通俗”结论。这些因素都影响了大数据进入公众视野的时间。尽管如此,早在 20 世纪 90 年代,大数据应用便已开始,最为典型的是1998 年“ Google 搜索”的诞生。根据用户需求,Google 从全球海量数据中快速匹配关联网页信息,并迅速反馈给用户,这一过程的完成时间仅在毫秒之间。由此可见,大数据并非完全意义上的新事物,只不过随着近几年信息技术的高

3、速发展,大数据技术更为成熟、大数据设备更为多元、大数据应用也更为广泛,由此推动了大数据时代的到来。在此意义上,大数据与机器学习的出现并非相隔甚远,技术进步是推动两者发展的共同因素。第二个问题,在机器学习的发展及应用中,数据的作用有多大?这一问题实际包含了两个层面,一个是在机器学习中,数据是否有作用?另一个是如果有作用,作用究竟有多大?很显然,对于第一个层面,回答是肯定的。机器学习的实质是按照既定目标对数据进行训练,数据是机器学习的对象。没有数据,机器学习将成为无源之水、无本之木。进一步地,机器学习算法的发展及应用程度与数据规模的大小密切相关。可以认为, 数据规模的增长及种类的丰富,是机器学习算

4、法不断获得改进与提升的关键。2在 20 世纪 90 年代之前,绝大多数机器学习算法都只包含很少的隐含层,即所谓的浅层学习。这是因为就当时的数据规模来说,浅层学习更加适合。当数据量不多时,隐含层的增加会使算法运行出现过拟合。进入 21 世纪,数据规模的壮大对浅层学习构成严重挑战:当时的很多机器学习算法都是在有限计算机内存上运行,而海量数据无法直接装入有限内存。在此意义上,传统的机器学习运作模式受到限制, 大数据时代的到来,加快了机器学习深层次发展进程。 未来,数据在机器学习发展及应用中的作用将越来越大。事实上,大数据的确能给机器学习带来好处。一方面,当数据量较小时,很多机器学习算法无法“自然收敛

5、” ,大数据有利于算法收敛, 并促进算法效果获得提升。 另一方面,小数据无法准确体现数据分布情况,大数据能够更为全面地展现数据分布。在机器学习过程中,大数据将使抽样分析变为总体分析,并呈现出小数据无法揭示的现象,由此推动机器学习背后统计理论的发展。与此同时,大数据有利于机器学习过程的交叉验证,促进机器学习算法的自我优化。除此以外,伴随大数据概念出现的大数据技术,尤其是分布式存储技术,为机器学习的深层发展及高效运作提供了保障。事实上,支撑大数据分析的基础架构与支撑机器学习的基础架构具有高度一致性。可以3认为,就提升机器学习应用效果来说,相比于算法,大数据是更为关键的因素。第三个问题,大数据推动机器学习发展及应用的同时,机器学习对大数据分析是否具有反向促进作用?回答这一问题,同样需要从两个层面出发,一个是机器学习对数据分析是否有促进作用?另一个是机器学习对大数据分析的重要性如何?事实上,在大数据概念兴起之前,机器学习便已被普遍应用于数据挖掘过程。数据挖掘可以看作机器学习与数据库的“化学反应” ,机器学习则为数据挖掘提供关键方法。由此可见,机器学习对数据分析具有显著促进作用。进一步地,大数据的核心是数据价值的充分体现,机器学习的深层发展,恰恰有利于揭示大数据承载的隐含信息。除此以外,大数据的“高维度、稀疏性、弱相关”等特征,决定了在分析过程中引入机器学习

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论