北邮大数据技术课程重点总结_第1页
北邮大数据技术课程重点总结_第2页
北邮大数据技术课程重点总结_第3页
北邮大数据技术课程重点总结_第4页
北邮大数据技术课程重点总结_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据技术1. 什么是数据挖掘,什么是机器学习:什么是机器学习关注的问题:计算机程序如何随着经验积累自动提高性能;研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能;通过输入和输出,来训练一个模型。2.大数据分析系统层次结构:应用层、算法层、系统软件层、基础设施层3.传统的机器学习流程预处理-特征提取-特征选择-再到推理-预测或者识别。手工地选取特征是一件非常费力、启发式(需要专业知识)的方法,如果数据被很好的表达成了特征,通常线性模型就能达到满意的精度。4. 大数据分析的主要思想方法4.1三个思维上的转变关注全集(不是随机样本而是全体数

2、据):面临大规模数据时,依赖于采样分析;统计学习的目的用尽可能少的数据来证实尽可能重大的发现;大数据是指不用随机分析这样的捷径,而是采用大部分或全体数据。关注概率(不是精确性而是概率):大数据的简单算法比小数据的复杂算法更有效关注关系(不是因果关系而是相关关系):建立在相关关系分析法基础上的预测是大数据的核心,相关关系的核心是量化两个数据值之间的数理关系,关联物是预测的关键。4.2数据创新的思维方式可量化是数据的核心特征(将所有可能与不可能的信息数据化);挖掘数据潜在的价值是数据创新的核心;三类最有价值的信息:位置信息、信令信息以及网管和日志。数据混搭为创造新应用提供了重要支持。数据坟墓:提供

3、数据服务,其他人都比我聪明!数据废气:是用户在线交互的副产品,包括了浏览的页面,停留了多久,鼠标光标停留的位置、输入的信息。4.3大数据分析的要素大数据“价值链”构成:数据、技术与需求(思维);数据的价值在于正确的解读。5.数据化与数字化的区别数据化:将现象转变为可制表分析的量化形式的过程;数字化:将模拟数据转换成使用0、1表示的二进制码的过程6.基于协同过滤的推荐机制基于协同过滤的推荐(这种机制是现今应用最为广泛的推荐机制)基于模型的推荐(svm、聚类、潜在语义分析、贝叶斯网络、线性回归、逻辑回归)余弦距离(又称余弦相似度):表示是否有相同的倾向欧几里得距离(又称欧几里得相似度):表示绝对的

4、距离这种推荐方法的优缺点:它不需要对物品或者用户进行严格的建模,而且不要求物品的描述是机器可理解的;推荐是开放的,可以共用他人的经验,很好的支持用户发现潜在的兴趣偏好。数据稀疏性问题,大量的用户只是评价了一小部分的项目,而大多数的项目是没有进行评分;冷启动问题,新物品和新用户依赖于用户历史偏好数据的多少和准确性,一些特殊品味的用户不能给予很好的推荐。7.机器学习:构建复杂系统的可能方法/途径机器学习使用场景的核心三要素:存在潜在模式、不容易列出规则并编程实现、有历史的数据8. 机器学习的基础算法之pla算法和pocket算法(贪心pla)感知器线性二维分类器,都属于二分类算法二者的区别:迭代过

5、程有所不同,结束条件有所不同;证明了线性可分的情况下是pla和pocket可以收敛。9. 机器为什么能学习学习过程被分解为两个问题:能否确保eout(g) 与 ein(g) 足够相似?能否使 ein(g) 足够小?规模较大的n,有限的dvc,较低的ein条件下,学习是可能的。切入点:利用具体特征的,基于有监督方式的,批量学习的分析,进行二分类预测。10. vc维:11. 噪声的种类:12. 误差函数(损失函数)13. 给出数据计算误差14. 线性回归算法:简单并且有效的方法,典型公式线性回归的误差函数:使得各点到目标线/平面的平均距离最小!15. 线性回归重点算法部分:16. 线性分类与线性回

6、归的区别:17. 过拟合:原因:模型复杂太高,噪声,数据量规模有限。解决方案:使用简单的模型,数据清洗(整形),正则化,验证。18. 正则化 19. 分布式文件系统:一种通过网络实现文件在多台主机上进行分布式存储的文件系统;分布式文件系统一般采用c/s模式,客户端以特定的通信协议通过网络与服务器建立连接,提出文件访问请求;客户端和服务器可以通过设置访问权限来限制请求方对底层数据存储块的访问。20. 计算机集群结构:分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是,目前的分布式文件系统所采用的计算机集群

7、都是由普通硬件构成的,因此大大降低了硬件上的开销。21. 分布式文件系统的结构:分布式文件系统在物理结构上是由计算机集群中的多个节点构成,这些节点分为两类,一类叫“主节点”(masternode)或者也被称为“名称结点”(namenode),另一类叫“从节点”(slave node)或者也被称为“数据节点。22. hdfs主要特性:兼容廉价的硬件设备、支持大数据存储、流数据读写、简单的文件模型、强大的跨平台兼容性;局限性:不适合低延迟数据处理、无法高校存储大量小文件、不支持多用户写入及任意修改文件块:hdfs的名称节点存储元数据、元数据保存在内存中、保存文件,block,datanode之间的

8、映射关系;hdfs的数据节点存储文件内容、文件内容保存在磁盘、维护了block id到datanode本地文件的映射关系。23. 分布式数据库概述:四类典型的作用于大数据存储和管理的分布式数据库:并行数据库、nosql数据管理系统、newsql数据管理系统、云数据管理系统。并行数据库:nosql数据管理系统:newsql数据管理系统:云数据管理系统:nosql简介:数据模型灵活、简洁;水平可扩展性强;系统吞吐量高;关系数据库无法满足大数据表现:无法满足海量数据的管理需求、无法满足数据高并发的需求、无法满足高可拓展性和高可用性的需求。nosql与关系数据库的比较:nosql的四大类型:键值数据库

9、、列族数据库、文档数据库、图形数据库nosql的理论基础(cap与acid、base)cap:一个分布式系统不可能同时满足一致性、可用性和分区容忍性这三个需求。acid(关系数据库的事务具有的四个特性)basenosql到newsql:大数据应用:百度大数据引擎的构成:开放云、数据工厂、百度大脑开放云:数据工厂:百度大脑:阿里大数据应用:去ioe大数据在电信行业的应用:24. 分布式并行编程框架mapreduce25.mapreduce的体系结构:client、jobtracker、tasktracker、taskmapreduce的工作流程:split(分片):map端的shuffle过程详解:reduce端的shuffle详解:mapreduce小结:26. spark特点:hadoop的局限性:spark生态系统:rdd:rdd的优势:rdd之间依赖关系的两种类型:stage划分:sprak小结:流数据:流计算处理流程:数据实时采集(保证实时性、低延迟、可靠稳定)、数据实时计算、实时查询服务(实时查询服务可以不断更新结果,并将用户所需的结果实时推送给用户)。流处理系统与传统数据处理系统的区别:开源流计算框架storm(免费、开源的分布式实时计算系统):storm的工作流程:流计算小结:图计算系统pregel简介:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论