大数据技术概述课件_第1页
大数据技术概述课件_第2页
大数据技术概述课件_第3页
大数据技术概述课件_第4页
大数据技术概述课件_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据技术概述大数据技术概述

大数据概述

大数据平台架构

数据平台功能规划

大数据核心技术——DataMing目录

案例展示 大数据概述 大数据平台架构 数据平台功能规划 大数据核心技大数据大数据大数据技术概述课件大数据时代的背景QQ、facebook社交网络Googlebaidu淘宝、ebuy电子商务超级TV微信、微博、Apps移动互联游戏21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域中。大数据时代的背景QQ、facebook社交网络Google淘大数据的产生大数据的产生大数据的4V特征体量Volume多样性Variety价值密度低Value速度Velocity非结构化数据的超大规模和增长总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大数据的4V特征体量Volume多样性Variety价值密度大数据要解决的问题

Volume海量的数据规模Variety多样的数据类型StreamsRealtimeNeartimeBatchTBPBEBStructuredUnstructuredSemi-structuredAlltheaboveValueVelocity快速的数据流转巨大的数据价值大数据要解决的问题VolumeVarietyStreams大数据技术:统计分析:A/Btest;topN排行榜;地域占比等数据挖掘:聚类;分类;关联规则;预测模型机器学习:神经网络,支持向量机;文本挖掘:自然语言处理技术,文本情感分析解决方案:数据采集:日志、爬虫;ETL工具,kettle等数据存储:HDFS,HBASE,Hive,MongoDB等数据读取:SQL;NoSQL等数据计算:并行计算:MapReduce技术流计算:twitter的storm等内存计算:Spark等结果展现:标签云;关系图等基础架构支持:分布式文件系统等(云存储)相关技术与解决方案数据采集数据储存数据管理数据分析与挖掘大数据技术:相关技术与解决方案数据采集数据储存数据管理数据分大数据应用搜索引擎推荐引擎舆情系统社交网络知识管理……大数据应用搜索引擎大数据与云计算云计算的模式是业务模式,本质是数据处理技术。数据是资产,云为数据资产提供存储、访问和计算。当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。大数据与云计算云计算的模式是业务模式,本质是数据处理技术。大数据赋予我们洞察未来的能力机遇鬼城?房屋空置率——电力公司马云成功预测2008年经济危机Mobo的印度危机……“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;我们提前半年时间从询盘上推断出世界贸易发生变化了。”通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。人类从依靠自身判断做决定到依靠数据做决定的转变,也是大数据作出的最大贡献之一。——《大数据时代》大数据赋予我们洞察未来的能力机遇鬼城?房屋空置率——电力公司挑战诸多领域的问题亟待解决,最重要的是每个人的信息都被互联网所记录和保留了下来,并且进行加工和利用,为人所用,而这正是我们所担忧的信息安全隐患!更多的隐私、安全性问题:我们的隐私被二次利用了多少密码和账号是因为“社交网络”流出去的?2011年4月索尼的系统漏洞导致7700万用户资料失窃2011年4月,iOS被发现会按照时间顺序记录用户的位置坐标信息2011年CSDN密码泄露事件2013年,斯诺登事件……2000万开房数据……12306数据……银行账户信息……挑战诸多领域的问题亟待解决,最重要的是每个人的信息都被互联网心得你是T还是P?数据越多越好深度挖掘、精准营销必须搞大数据必须要懂技术心得你是T还是P?心得你是T还是P?数据越多越好深度挖掘、精准营销必须搞大数据必须要懂技术你是E、Z又怎样?价值才是王道!中移动的教训对大数据要宽容,容错性是大数据重要特征!准确率与召回率大数据不是万能的,没有大数据也不是万万不能的!移动互联网最赚钱的是谁?懂点技术当然更好,但不要迷失在不靠谱的技术中!知道自己想要什么更重要!心得你是T还是P?你是E、Z又怎样?

大数据概述

大数据平台架构

数据平台功能规划

大数据核心技术——DataMing目录

案例展示 大数据概述 大数据平台架构 数据平台功能规划 大数据核心技大数据平台架构大数据平台架构

大数据概述

大数据平台架构

数据平台功能规划

大数据核心技术——DataMing目录

案例展示 大数据概述 大数据平台架构 数据平台功能规划 大数据核心技统计指标Userid+激活时间+itemid+item所属类别(可分多级)Userid+使用时间+itemid+item所属类别(可分多级)用户留存分析统计指标用户留存分析产出统计新、老用户及所占比例,时间粒度包括年、季、月、周、日。产出用户留存分析用户留存分析统计指标Userid+使用时间+itemid+item所属类别(可分多级:频道、栏目、页面、模块)产出——用户忠诚度分析模型用户忠诚度分析统计指标用户忠诚度分析统计指标Userid+消费时间+消费金额+itemid+item类别产出——用户价值生命周期用户价值分析统计指标用户价值分析统计指标1、Userid+消费时间+消费金额+itemid+item类别2、Userid+使用时间+itemid+item所属类别产出——用户质量评价模型用户综合质量评价统计指标用户综合质量评价

大数据概述

大数据平台架构

数据平台功能规划

大数据核心技术——DataMing目录

案例展示 大数据概述 大数据平台架构 数据平台功能规划 大数据核心技数据挖掘时代背景信息匮乏时代信息过载时代数据挖掘时代背景信息匮乏时代信息过载时代什么是数据挖掘?数据挖掘是从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势——JiaweiHan(UniversityofIllinoisatUrbana-Champaign

)数据挖掘不同的术语和定义:datamining,knowledgediscovery,patterndiscovery什么是数据挖掘?数据挖掘是从大量的数据中抽取出潜在的、不为人数据挖掘的基本步骤数据清理:消除噪音或不一致数据数据集成:多种数据源可以组合在一起数据选择:从数据库中提取与分析任务相关的数据数据变换:数据变换或统一成适合挖掘的形式数据挖掘:基本步骤,使用智能方法提取数据模式模式评估:根据某种兴趣度度量,识别提供知识的真正有用的模式知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识数据挖掘的基本步骤数据清理:消除噪音或不一致数据数据挖掘涉及的技术

数据挖掘数据库技术统计学机器学习人工智能信息科学可视化技术其他技术数据挖掘涉及的技术

数据挖掘数据库技术统计学机器学习人工智能数据挖掘的功能类型关联规则序列模式聚类挖掘分类挖掘预测挖掘孤立点挖掘文本挖掘网络挖掘……数据挖掘的功能类型关联规则预测挖掘关联规则(Association)反映一个事件和其他事件之间依赖或关联的知识如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测可以用关联规则的形式表示规则形式:“A

®B[support,confidence]”.应用:业务相关性分析交叉销售货架摆放位置页面结构设计等关联规则(Association)反映一个事件和其他事件之间挖掘顺序发生的事件中的模式给定序列数据库和最小支持度阈值,序列模式挖掘就是要找出序列数据库中所有的序列模式序列模式挖掘挖掘顺序发生的事件中的模式序列模式挖掘序列模式挖掘

应用:用户访问模式预测用户移动模式挖掘用户点击流分析DNA序列分析自然灾害预测疾病病症预测……序列模式挖掘

应用:聚类(Clustering)最大化类内的相似性、最小化类间相似性的原则进行聚类或者分组,使得在一个类中的对象具有很高的相似性,而与其他类中的对象很不相似簇(Cluster):一个数据对象的集合在同一个类中,对象之间具有相似性不同类的对象之间是相异的聚类分析:把一个给定的数据对象集合分成不同的簇特点:一种无监督分类法,没有预先指定的类别聚类(Clustering)最大化类内的相似性、最小化类间相Page35聚类挖掘的应用用户细分与市场营销:帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;土地使用:在一个陆地观察数据库中标识那些土地使用相似的地区;保险:对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;城市规划:根据类型、价格、地理位置等来划分不同类型的住宅Page35聚类挖掘的应用用户细分与市场营销:帮助市场人员Page36聚类算法Page36聚类算法大数据技术概述课件分类(classification)找出描述或识别数据类或概念的模型(或函数),以便能够使用模型预测未知对象的类别模型是由训练数据集(即,其类标记已知的数据对象)训练得到分类(classification)找出描述或识别数据类或概Page39有监督和无监督学习无监督学习(聚类)训练集是没有类标签的提供一组属性,然后寻找出训练集中存在类别或者聚集有监督学习(分类)训练集是带有类标签的新的数据是基于训练集进行分类的Page39有监督和无监督学习无监督学习(聚类)Page40分类的两个步骤模型创建:对一个类别已经确定的训练集创建模型用于创建模型的数据集叫做训练集每一条记录都属于一个确定的类别,使用类标签属性记录类别模型可用分类规则、决策树或者神经网络的形式来表达模型使用:用创建的模型预测未来或者类别未知的记录模型测试模型预测使用创建的模型在一个测试集上进行预测,并将结果和实际值进行比较测试集和训练集是独立的使用靠谱的模型预测未知对象的类Page40分类的两个步骤模型创建:对一个类别已经确定的训常用分类算法基本算法决策树贝叶斯KNN组合方法随机森林Baggingadaboost高级算法神经网络支持向量机……常用分类算法基本算法组合方法高级算法预测回归预测时间序列预测……预测回归预测数据库中可能包含一些数据对象,它们与数据的一般行为或模型很不一致,这些对象称作孤立点孤立点包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等孤立点(Outlier)挖掘

数据库中可能包含一些数据对象,它们与数据的一般行为或模型很不大数据技术概述课件搜索引擎舆情系统文本推荐微博新闻线索发现用户评论分析……文本挖掘搜索引擎文本挖掘Page46微博传播话单网络邮件网络用户关系网络用户搜索网络用户兴趣网络用户路径云图……网络挖掘Page46微博传播网络挖掘大数据技术概述课件

大数据概述

大数据平台架构

数据平台功能规划

大数据核心技术——DataMing目录

案例展示 大数据概述 大数据平台架构 数据平台功能规划 大数据核心技用户行为路径用户搜索网络……用户行为路径

大数据概述

大数据平台架构

数据平台功能规划

大数据核心技术——DataMing目录

案例展示 大数据概述 大数据平台架构 数据平台功能规划 大数据核心技大数据赋予我们洞察未来的能力机遇鬼城?房屋空置率——电力公司马云成功预测2008年经济危机Mobo的印度危机……“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论