版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录大数据的概念大数据分析与挖掘技术十二月22第一页,共28页。网易云音乐的每日推荐十二月22歌曲用户通过什么连接?第二页,共28页。两首诗十二月22……自由的石头,无畏地坠落向爱。却在迷惘的路上,轻羽般离去。迷茫的孩子,悄悄地将它掩埋。…………过于长久的牺牲,
能把心变为一块岩石。
呵,什么时候才算个够?
那是天的事,我们的事……第三页,共28页。基本电荷单元十二月221.60217649×10-19第四页,共28页。汪峰“歌词”元素表十二月229张专辑共117首歌曲第五页,共28页。光速十二月22299792458m/s第六页,共28页。另一首十二月22自由,在桥的这头埋葬,光明,在桥的那头破碎,已没所谓绝望,微雨中,说声再见第七页,共28页。大数据发展历程十二月222005年hadoop项目诞生:采用(HDFS)的数据存储服务,以及MapReduce技术的高性能并行数据处理服务2008年末“大数据”得到部分美国知名计算机科学研究人员的认可,业界组织计算社区联盟发表白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》。2009年印度政府建立了用于身份识别管理的生物识别数据库,联合国全球脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格到疾病爆发之类的问题2009年中美国政府通过启动D网站的方式进一步开放了数据的大门2010年2月肯尼斯库克尔在《经济学人》上发表了长达14页的大数据专题报告《数据,无所不在的数据》。库克尔也因此成为最早洞见大数据时代趋势的数据科学家之一2011年2月IBM的沃森超级计算机每秒可扫描并分析4TB(约2亿页文字量)的数据量,并在美国著名智力竞赛电视节目《危险边缘》“Jeopardy”上击败两名人类选手而夺冠。后来纽约时报认为这一刻为一个“大数据计算的胜利。”2011年5月麦肯锡(McKinsey&Company)全球研究院(MGI)发布了一份报告——《大数据:创新、竞争和生产力的下一个新领域》,大数据开始备受关注2011年12月工信部发布的物联网十二五规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分2012年1月份瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》(BigData,BigImpact)宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。2012年3月美国奥巴马政府在白宫网站发布了《大数据研究和发展倡议》,标志着大数据成为重要的时代特征。宣布2亿美元投资大数据领域,是大数据技术从商业行为上升到国家科技战略的分水岭,“未来的新石油”,大数据技术领域事关国家安全和未来2012年4月美国软件公司Splunk于19日在纳斯达克成功上市,成为第一家上市的大数据处理公司2012年7月联合国在纽约发布了一份关于大数据政务的白皮书,总结了各国政府如何利用大数据更好地服务和保护人民。2012年7月为挖掘大数据的价值,阿里巴巴集团在管理层设立“首席数据官”一职,负责全面推进“数据分享平台”战略,并推出大型的数据分享平台——“聚石塔”,为天猫、淘宝平台上的电商及电商服务商等提供数据云服务2014年4月世界经济论坛以“大数据的回报与风险”主题发布了《全球信息技术报告(第13版)》2014年5月美国白宫发布了2014年全球“大数据”白皮书的研究报告《大数据:抓住机遇、守护价值》2014年
“大数据”首次出现在当年的《政府工作报告》中。《报告》中指出,要设立新兴产业创业创新平台,在大数据等方面赶超先进,引领未来产业发展。“大数据”旋即成为国内热议词汇2015年国务正式印发《促进大数据发展行动纲要》,《纲要》明确,推动大数据发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系2016年大数据“十三五”规划,加快政府数据开放共享,促进大数据产业健康发展2017年11月十九大报告,深化供给侧结构性改革。加快建设制造强国,推动互联网、大数据、人工智能和实体经济深度融合;加快建设创新型国家,国网络强国交通强国数字技术、现代工程技术、颠覆性技术创新,为建设……数字中国、智慧社会提供有力支撑萌芽期概念提出政府插足研究机构过热期案例遍地开花内部数据为主并购风起幻灭期国家推动从概念到实用复苏期第八页,共28页。从Gartner新技术曲线看大数据技术(1/3)十二月22第九页,共28页。十二月22从Gartner新技术曲线看大数据技术(2/3)第十页,共28页。十二月22从Gartner新技术曲线看大数据技术(3/3)第十一页,共28页。数据的变化在哪里(1/3)量十二月221KB(Kilobyte千字节)=1024B,
1MB(Megabyte兆字节兆)=1024KB,
1GB(Gigabyte吉字节千兆)=1024MB,
1TB(Trillionbyte万亿字节太字节)=1024GB
1PB(Petabyte千万亿字节拍字节)=1024TB,
1EB(Exabyte百亿亿字节艾字节)=1024PB,
1ZB(Zettabyte十万亿亿字节泽字节)=1024EB,
1YB(Jottabyte一亿亿亿字节尧字节)=1024ZB,
1BB(Brontobyte一千亿亿亿字节)=1024YB.•美国地理及空间探测•美国能源部数据•全球可穿戴设备•美国国防部数据•国际海洋和大气管理•物联网数据•国家健康研究所•国家癌症研究所•全球IP流量挤压现象世界90%的数据是过去几年里产生的。过去三十年中,全世界的数据量大约每两年增加10倍——远超摩尔定律数据总量IDC的预测,2009年到2020年,0.8ZB到35ZB,44倍,年均40%中国存储数据量当前约为600万TB,占全球总量的15%,预计到2020年,占比将提高到22%第十二页,共28页。数据的变化在哪里(2/3)质十二月22早前02985XX6789用户5月消费59元,MOU200分钟昨天189XXXX1234用户5月消费59元,其中套内49元,套外10元。手机流量150M:1日-10日75M、11-20日50M、21日-30日25M;视频流量80M、游戏流量15M……。MOU200分钟:本地主叫80分钟、本地被叫60分钟、漫游主叫20分钟、漫游被叫40分钟月度内漫游地:北京今天189XXXX1234用户5月消费流量150M:第一次5月1日9点30分,基站ID3001,手机百度搜索,关键字“天气”;第二次5月1日12点05分,基站ID2345,微博评论,关键字“马刺”……MOU200分钟:第一次5月2日17点12分,主叫,号码139XXXX4321……LBS分析:前往2个加油站,共停留时间:43分钟商场消费线上支付11209元,超市消费线上支付3207元……第十三页,共28页。数据的变化在哪里(3/3)用十二月22统计级应用:时间、空间、人、物四个维度的交叉统计分析。以零售业为例零售研究:物-物消费者洞察:物-人-物消费者购买路径:人-物-时间大数据空间研究:物理空间-人-赛博空间个体级应用:基于人与物关联的历史信息去推测未来的关联状态精准营销:新客推荐金融征信:风险定价人力招聘:人岗匹配……第十四页,共28页。大数据变化的背后:大数据与云计算云计算构建新的信息基础设施在线化平台化扁平化低成本大数据打破信息壁垒更透明更有效更可信十二月22第十五页,共28页。小结大数据:是通过新处理模式能且才能提供更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息十二月22第十六页,共28页。小结大数据的本质:时间与空间维度下的人与物、人与人、物与物之间复杂的关联关系,利用大数据,还原事物原貌、探究规律机理、预判发展变化十二月22第十七页,共28页。目录大数据的概念大数据分析与挖掘技术十二月22第十八页,共28页。大数据分析挖掘技术背景:局部数据难以统观全局,大数据需要跨视角、跨媒介、跨行业的海量数据融合和关联分析,才能更好地进行决策支撑解决方法:通过面向海量多维数据的机器学习算法和数据关联分析等方法,用直观形象地方式,展现数据之间潜在的关系十二月22常见大数据分析挖掘技术第十九页,共28页。深度学习通过层次化的方式和海量的训练数据,从而提升分类或预测的准确性已在语音识别、图像识别、人脸识别等领域取得巨大成功,目前也已开始应用于内容推荐、异常检测等十二月22第二十页,共28页。多维数据关联满足用户从多角度多层次进行快速数据查询和分析的数据模型,面向分析决策,解决传统数据模型在数据维度高、条数多的情况下,无法有效表示数据结构和语义,以及无法有效支持OLAP的问题。主要分析方法:钻取、上卷、切片、切块、旋转十二月22第二十一页,共28页。知识图谱基于图结构刻画实体之间关系的技术,采用可视化技术描述其相互联系为搜索、挖掘、语义理解等应用提供基础的知识库,提高搜索效果,突破传统搜索体验,拉开语义搜索的序幕十二月22第二十二页,共28页。数据可视化将数据之间的关系以图形图像的形式表示,将图形与指标的含义关联,为用户提供深度、直观的数据及其结构关系表示,使用户能够洞察其中的规律及本质的特点。十二月22案例:1854年伦敦霍乱地图案例:旧金山游客地图第二十三页,共28页。数据可视化将数据之间的关系以图形图像的形式表示,将图形与指标的含义
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024至2030年中国防电磁波树脂数据监测研究报告
- 2024至2030年中国监测换热器数据监测研究报告
- 2024至2030年中国移膜革上浆用胶辊数据监测研究报告
- 2024至2030年中国折叠机数据监测研究报告
- 2024至2030年汉堡袋项目投资价值分析报告
- 2024至2030年倒计时差钟项目投资价值分析报告
- 2024年中国天然南瓜子市场调查研究报告
- 河砂采购合同纠纷
- 建筑行业分包合同样式
- 环保树苗交易合同
- 2024-2030年中国融合通信行业市场深度调研及发展趋势与投资前景研究报告
- (新版)装订技能竞赛理论知识考试题库500题(含答案)
- 湘教版(2019)必修一 2.2《风成地貌》教案
- 销售助理招聘笔试题及解答(某大型集团公司)2025年
- 出租车行业管理方案
- 【课件】第四章《第三节平面镜成像》课件人教版物理八年级上册
- DB34∕T 2290-2022 水利工程质量检测规程
- GB/T 44399-2024移动式金属氢化物可逆储放氢系统
- 2024年中国彩屏GPS手持机市场调查研究报告
- 物流行业绿色物流发展实施方案
- 2024年广东省清远市佛冈县事业单位公开招聘工作人员历年高频500题难、易错点模拟试题附带答案详解
评论
0/150
提交评论