![数据的力量课件_第1页](http://file4.renrendoc.com/view/97f9dc13d99aacf898f76f203fd8af03/97f9dc13d99aacf898f76f203fd8af031.gif)
![数据的力量课件_第2页](http://file4.renrendoc.com/view/97f9dc13d99aacf898f76f203fd8af03/97f9dc13d99aacf898f76f203fd8af032.gif)
![数据的力量课件_第3页](http://file4.renrendoc.com/view/97f9dc13d99aacf898f76f203fd8af03/97f9dc13d99aacf898f76f203fd8af033.gif)
![数据的力量课件_第4页](http://file4.renrendoc.com/view/97f9dc13d99aacf898f76f203fd8af03/97f9dc13d99aacf898f76f203fd8af034.gif)
![数据的力量课件_第5页](http://file4.renrendoc.com/view/97f9dc13d99aacf898f76f203fd8af03/97f9dc13d99aacf898f76f203fd8af035.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、19951999 - 本科 中山大学19992004 - 硕博连读 中山大学2005.022007.08 - Postdoc 香港科技大学 计算机系2007.082009.09 - Postdoc HP Labs, 惠普研究院,美国加州硅谷2009.10 - 副教授 中山大学,百人计划 教育与工作经历研究兴趣数据挖掘推荐系统信息检索人工智能 基于案例推理, 学习 & 智能规划机器学习 主动学习, 迁移学习等奖励2005年美国计算机学会主办的数据挖掘国际比赛,全部三项第一Precision (精准度) AwardPerformance (性能)AwardCreativity (创新) Award
2、任务:搜素引擎查询分类将 800,000 查询分类到 67 个类别4大数据到底有多大全球每天通过Internet网络传输的电子邮件多达2100亿封;Facebook每月新增10亿照片和1000万个视频;腾讯公司注册用户超过7亿,同时在线人数超过1亿.根据互联网数据中心的报告,2012年全球的数据总量为2.7Zb(1Zb相当于十万亿亿字节),预计到2020年,全球的数据总量将达到35Zb。海量数据的规模已经让目前主流的数据处理软件(存储,分析)无法承受。大数据到底有多大?Google processes 20 PB a day (2008)Wayback Machine has 3 PB + 1
3、00 TB/month (3/2009)eBay has 6.5 PB of user data + 50 TB/day (5/2009)Facebook has 36 PB of user data + 80-90 TB/day (6/2010)CERNs LHC: 15 PB a year (any day now)LSST: 6-10 PB a year (2015)640K ought to be enough for anybody.From /jimmylin/百度(来自百度世界13大会)数据总量1000PB数据处理量100PB/天网页万亿更新量百亿/天请求百亿/天日志总量100P
4、B日志更新量1PB/天THE NEW PRACTITIONERSHal Varian, UC Berkeley, Chief Economist Google“Looking for a career where your services will be in high demand? Provide a scarce, complementary service to something that is getting ubiquitous and cheap.So whats ubiquitous and cheap? Data.And what is complementary to
5、data? Analysis.the sexy job in the next ten years will be statisticiansFrom: /jmh/大数据应用实例一(结构化数据)基于云计算的金融大数据系统功能1. 并发原始钞票数据上报;各支行可能在一天上报上亿条数据,要求系统并发性很强。2. 海量钞票数据汇总;使得总行能够对千亿级的海量钞票冠字号码信息数据进行汇总处理。 3. 海量钞票数据实时入库;根据上述上报汇总需求,可能需要对100000条/秒的数据(每条数据假定大小为1KB,则每秒100MB数据量)进行实时处理。4. 大数据存储、计算;要求系统存储千亿级别的数据,建立数学
6、模型,并完成各种复杂业务应用计算。 5. 千亿级数据的秒级查询能力;这需要系统内建高效的数据降维、特征提取和索引算法,配备高效的任务调度策略,满足秒级查询速度。6. 秒级甚至毫秒级其它实时业务响应;系统应配备高效实时数据通道,支持实时监控、告警、以及通知等实时业务。大数据应用实例一基于云计算的金融大数据系统-系统架构大数据应用实例二(APP推荐系统)推荐系统商品B商品A商品信息(属性、关键字)用户信息(基本属性、社交信息:微博、微信、论坛)用户对商品的偏好推荐系统的背景随着信息技术和互联网技术的飞速发展,网络中的聚集了大量信息。2022/8/2211用户商品淘宝网500,000,000800,
7、000,000亚马逊90,000,0006,000,000Netflix27,000,000100,000数据规模的增加单节点的计算能力限制分布式/并行解决方案大数据应用实例三基于人工智能的猎头机器人在人们和大数据之间的四个障碍4 Barriers Stand Between You and Big Data Insightfrom PwC (普华永道)Theyre blind to the importance of visualization.Theyre investing more in gathering data than analyzing it.Theyre facing a talent gap.Theyre struggling with insufficient syst
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年全球及中国单摆铣头行业头部企业市场占有率及排名调研报告
- 2025-2030全球倒置行星滚柱丝杠行业调研及趋势分析报告
- 2025年全球及中国虚拟试穿平台行业头部企业市场占有率及排名调研报告
- 2025年全球及中国汽车天线定位器行业头部企业市场占有率及排名调研报告
- 2025年全球及中国重载有轨穿梭小车(RGV)行业头部企业市场占有率及排名调研报告
- 2025年全球及中国丝素蛋白敷料行业头部企业市场占有率及排名调研报告
- 2025-2030全球直线式桁架机器人行业调研及趋势分析报告
- 2025-2030全球装运前检验(PSI)服务行业调研及趋势分析报告
- 2025年全球及中国电子钥匙柜行业头部企业市场占有率及排名调研报告
- 2025-2030全球1,1,1,3,3,3-六氟丙烷行业调研及趋势分析报告
- 江西省部分学校2024-2025学年高三上学期1月期末英语试题(含解析无听力音频有听力原文)
- GA/T 2145-2024法庭科学涉火案件物证检验实验室建设技术规范
- 2024年度窑炉施工协议详例细则版B版
- 第一届山东省职业能力大赛济南市选拔赛制造团队挑战赛项目技术工作文件(含样题)
- 尿毒症替代治疗
- 【课件】2025届高考英语一轮复习小作文讲解课件
- 基底节脑出血护理查房
- 工程公司总经理年终总结
- 2024年海南省高考地理试卷(含答案)
- 【企业盈利能力探析的国内外文献综述2400字】
- 三年级上册数学口算题1000道带答案
评论
0/150
提交评论