大数据专题演讲_第1页
大数据专题演讲_第2页
大数据专题演讲_第3页
大数据专题演讲_第4页
大数据专题演讲_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、!有些人预言说未来将会是三分技术,七分数据,得数据者得天下。第1页! 大数据,是当今公众津津乐道一个热词,人们纷纷在探讨大数据所带来科技进步及所蕴含巨大价值,甚至有些人把大数据形容为未来世界石油,更有人夸大宣称掌握了大数据人,就能够像上帝一样来俯瞰整个世界。Big Data, its more than what you think 第2页大数据,又称巨量资料,指是所包括数据资料量规模巨大到无法经过人脑甚至主流软件工具,在合理时间内到达撷取、管理、处理、并整理成为帮助企业经营决议更主动目标资讯。近几年,被热炒大数据,不只是指资料,也指这些用来分析、处理巨量资料新兴科技。 马云卸任阿里集团CEO

2、职位时曾说,大家还没搞清PC时代时候,移动互联网来了,还没搞清移动互联网时候,大数据时代来了。第3页你想像不到。到底有多少 这个世界数据第4页 近年来,全球数据存放量展现爆炸式增加,美国互联网数据中心指出,互联网上数据每年将增加50%,每两年便将翻一番,当前世界上90%以上数据是最近几年才产生。据中为咨询预测,到20,全球数据量将到达35ZB(相当约90亿块4TB硬盘容量)。 依据国际数据企业(IDC)测算,似乎没有足够磁盘空间存放。 就传统IT 企业来看,其结构化和非结构化数据增加也是惊人。企业存放结构化数据为4EB,到年将增至29EB,年复合增加率逾20%。非结构化数据发展更猛。为22EB

3、,年将增至1600EB,年复合增加率约60%,远远快于摩尔定律。第5页那么,庞大数据到底来自哪里呢?!第6页 据统计,国家图书馆藏书量有2600万册,假如从数据来看话,一个家庭一年产生数据相当于半个国家图书馆数据总量。 而大数据并非现在才出现,比如在古代人口普查,中国在东汉时期就有几千万人,这显然也是庞大数据。大数据并不是什么崭新概念,好几十年前 CERN 科学家就在处理每秒上看 PB (Peta Bytes)巨量资料。那为何一直到近几年大数据这颗塬子弹才暴发呢。 现今要处理资料量更庞大、资料产生跟处理速度更惊人、资料起源更多样,于是处理、储存大量资料新技术跟工具快速发展,像是开源软体 Had

4、oop 跟 NoSQL 资料库。新科技诞生后,开发者跟使用者需要一个专业名词来与之前科技作出区分,于是大数据一词因应而生。第7页 大数据特点 Volume(大量)Velocity(高速)Variety(多样)veracity(真实性) 数据量大、数据种类多、 要求实时性强、数据所蕴藏价值大。在各行各业均存在大数据,不过众多信息和咨询是纷繁复杂,我们需要搜索、处理、分析、归纳、总结其深层次规律。最终是价值,从大量低质量、低价值数据中获取知识,如同从大海中捞针,获取数据成本很高,但有待挖掘价值大。 大数据挖掘和处理。 从技术上看,大数据与云计算关系就像一枚硬币正反面一样密不可分。大数据必定无法用单

5、台计算机进行处理,必须采取分布式计算架构。它特色在于对海量数据进行分布式数据挖掘(SaaS),但它必须依靠云计算分布式处理、分布式数据库(PaaS)和云存放、虚拟化技术(IaaS)。大数据挖掘和处理必须用到云技术。第8页第9页 科学技术及互联网发展,推进着大数据时代降临,各行各业天天都在产生数量巨大数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。微博留言产生数据,视频产生数据,手机通话产生数据,商品标签产生数据,快递包裹、物品流通产生数据,移动终端和互联网普及更是加紧产生数据。越来越多配置了连续测量、汇报运行情况传感器设备出现

6、。几年前,跟踪遥测发动机运行仅限于价值数百万美元航天飞机。计算机产生数据可能包含着关于因特网和其他使用者行动和行为数据,从而提供了对他们愿望和潜在需求有用信息。使用者自身产生数据信息。人们经过电邮、短信、微博、QQ等产生文本信息。至今最大数据是音频、视频和符号数据。这些数据结构涣散,数量巨大,极难从中挖掘有意义结论和有用信息。 大数据采集第10页 数据采集:ETL工具负责将分布、异构数据源中数据,如关系数据、平面数据文件等抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘基础。数据存取:关系数据库、NOSQL、SQL等。基础架构:云存储、分布式

7、文件存储等。数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互语言问题一门学科。处理自然语言关键是要让计算机理解自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理一个分支,其次它是人工智能(AI, Artificial Intelligence)核心课题之一。统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多

8、元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,

9、音频等)模型预测:预测模型、机器学习、建模仿真。结果呈现:云计算、标签云、关系图等。大数据主流技术第11页大数据处理之一:采集 利用数个数据库来接收发自客户端数据,而且用户能够经过这些数据库来进行简单查询和处理工作。大数据处理之二:导入/预处理 统计与分析主要利用分布式数据库或分布式计算集群来对存放于其内海量数据进行普通分析和分类汇总等,以满足大多数常见分析需求。大数据处理之三:统计/分析 统计与分析这部分主要特点和挑战是分析包括数据量大,其对系统资源,尤其是I/O会有极大占用。大数据处理之四:挖掘 与前面统计和分析过程不一样是,数据挖掘普通没有什么预先设定好主题,主要是在现有数据上面进行基于

10、各种算法计算,从而起到预测(Predict)效果,从而实现一些高级别数据分析需求。第12页大数据技术环境:在新兴信息技术推进下逐步趋向成熟云计算 云计算服务和云应用在云平台支撑下让庞大数据得以保留和处理。移动互联网 移动互联网能更准确、更加快地搜集用户信息,比如位置、生活信息等数据。社交网络 提供大量UGC、内容、音频、文本信息、视频、图片等非结构化数据。物联网 物联网不停应用与发展促使数据大量增加。第13页 大数据分析离不开数据质量和数据管理,高质量数据和有效数据管理,不论是在学术研究还是在商业应用领域,都能够确保分析结果真实和有价值。 大数据分析基础就是以上五个方面,当然愈加深入大数据分析

11、话,还有很多很多愈加有特点、愈加深入、愈加专业大数据分析方法。 大数据分析使用者有大数据分析教授,同时还有普通用户,不过他们二者对于大数据分析最基本要求就是可视化分析,因为可视化分析能够直观展现大数据特点,同时能够非常轻易被读者所接收,就如同看图说话一样简单明了。 大数据分析理论关键就是数据挖掘算法,各种数据挖掘算法基于不一样数据类型和格式才能愈加科学展现出数据本身具备特点,也正是因为这些被全世界统计学家所公认各种统计方法(能够称之为真理)才能深入数据内部,挖掘出公认价值。另外一个方面也是因为有这些数据挖掘算法才能更加快速处理大数据,假如一个算法得花上好几年才能得出结论,那大数据价值也就无从说

12、起了。 大数据分析最终要应用领域之一就是预测性分析,从大数据中挖掘出特点,经过科学建立模型,之后便能够经过模型带入新数据,从而预测未来数据。 大数据分析广泛应用于网络数据挖掘,可从用户搜索关键词、标签关键词、或其它输入语义,分析,判断用户需求,从而实现更加好用户体验和广告匹配。1.Analytic Visualization(可视化分析)2.Data Mining Algotiyhms(数据挖掘算法)3.Predictive Analytic Capabilities(预测性分析能力)4.Semantic Engines(语义引擎)5.Data Quality and Master Data

13、Management(数据质量和数据管理)数据分析五个基本方面第14页 大数据与物联网、移动互联网、社交网络、云计算等主流技术结合,缺一不可,相辅相成,才能越走越远、第15页 据统计,当前全球120家运行商中约有48%运行商正在实施大数据业务,其中主流业务也包括数据产生、数据采集、数据存放、数据处理、数据分析、数据展示及数据应用多个方面,经典大数据技术及应用产品包含用于大数据组织与管理分布式文件系统Hadoop、分布式计算系统MapReduce;用于大数据分析数据挖掘工具SPSS;用于大数据应用服务阿里巴巴推出数据分享平台、Google推出数据分析平台等。大型以Internet为关键企业,如A

14、mazon, Google, eBay, Twitter 和Facebook正使用海量信息外部特征认识消费行为,预测特定需求和整体趋势。 目前,国内新建了许多大数据中心,规模不一。在中国,baidu和阿里巴巴大数据中心名气较大,另外,罗克佳华在鄂尔多斯和山西太原建设大数据中心凭借北部省份能源优势,建成5万平方米全国单体面积最大大数据中心,是当前亚洲最大云计算中心。 大数据发展现实状况“读心术”、“未卜先知”,都是大数据分析头上刺眼光环。不论你信不信,“数据”真会说话。人们在互联网上一切行为都会留下数据,而经过对这些数据分析,就能够得到消费习惯、职业、喜好甚至性格等信息。在这些信息基础上,政府能

15、够治理交通,降低犯罪率,而企业则能够利用这些数据进行有针对性营销,提升业绩。即使当前大数据分析还处于发展初级阶段,要从海量非结构性数据中提取出有用信息并不是一件轻易事儿,不过很多企业已经开始利用大数据分析并推出了相关应用和产品。第16页第17页第18页 春运,中央电视台首次推出了“听说春运”尤其节目,基于“baidu迁徙”提供可视化大数据服务,实时播报国内春节人口迁徙情况,比如最热门迁出城市,最热门迁入城市等等。 第19页有趣“大数据”经典数据案例 啤酒与尿布 沃尔玛在对消费者购物行为分析时发觉,男性用户在购置婴儿尿片时,经常会顺便搭配几瓶啤酒来犒劳自己。如今,“啤酒尿布”数据分析结果早已成了

16、大数据技术应用经典案例,被人津津乐道。QQ圈子把前女友推荐给未婚妻 3月腾讯推出QQ圈子,按共同挚友连锁反应摊开用户人际关系网,把用户前女友推荐给未婚妻,把同学同事朋友圈子分门别类,利用大数据处理能力给人带来“震撼”。网站依据你购物搜索进行商品广告推送 我们上淘宝买了东西之后,阿里巴巴能够轻而易举地得到我们购物行为、和浏览数据,经过云计算分析后,进行精准行为预测,然后进行商品信息推送。国内最大婚恋交友网站 作为一家婚恋网站,百合网不但需要经常做一些研究汇报,分析注册用户年纪、地域、学历、经济收入等数据,即便是每名注册用户小小头像照片,背后也大有挖掘价值。第20页关于大数据一构想第21页数据安全

17、当前大数据发展是数据量暴增、大数据技术及应用更新。不过,大数据包括相关技术还不太成熟,软件及硬件漏洞时有发生。同时,大数据外在所处网络环境高度开放,使用人员多且杂。同时,已经有针对网络安全建立相关法律法规相对缺乏,全社会对于网络安全确保也缺乏足够重视。内在及外在多重原因造成大数据时代网络环境比以往任何时候都要复杂,大数据安全问题也应运而生,数据安全问题及隐私泄露问题表达尤为显著。比如,许多智能手机应用程序是无偿,假如想要无偿服务,那么你将不可防止成为大数据流里常客。大数据时代窃取及贩卖数据黑色产业链不停加速升级。因为大量数据聚集,数据间相互关联,给黑客更多可乘之机,一旦其成功将取得数据量更多而

18、且类型更丰富数据,贩卖路径扩大,将带来更大范围数据安全问题及隐私泄露。 为处理这类问题发生,应从问题发生源头即数据存放安全防护上处理。实现大数据安全,从技术角度出发,有以下几个方向:1、 研究、制订及实施大数据安全标准2、研究大数据安全关键技术3、基于大数据研究网络安全分析技术 第22页 大数据意义和前景 大数据是对大量、动态、能连续数据,经过利用新系统、新工具、新模型挖掘,从而取得含有洞察力和新价值东西,是继云计算、物联网之后IT产业又一次颠覆性技术变革。云计算主要为数据资产提供了保管、访问场所和渠道,而数据才是真正有价值资产。 企业内部经营交易信息、物联网世界中商品物流信息,互联网世界中人与人交互信息、位置信息等,其数量将远远超越现有企业IT架构和基础设施承载能力,实时性要求也将大大超越现有计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论