版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据的介绍及案例分享1目录 大数据的概念 大数据与传统数据的区别? 大数据的典型特征(3V) 广义的大数据 大数据应用案例2大数据的概念 大数据(Big Data)是指无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合 简单一点的说,就是用现有一般技术难以管理的数据。3大数据与传统数据的区别? 小明去了一百次书店 传统数据:要回答的问题是他第一百零一次买不买书,即业绩和经营指标的问题; 大数据:要回答的是他第一百零一次买什么书,需要将什么样的内容推荐给他。 群体和个体的区别 传统定义上,更多关注的是一类人群,用同一类规则制订套餐给他们; 互联网时代,要把每个人都精
2、准刻画出来,进行精准匹配。4大数据的典型特征(3V) Volume(容量) 现在基本上是指从几十TB到几PB这样的数量级,未来,可能只有几EB数量级的数据量才能称得上是大数据了。 Variety(多样性) 结构化和非结构化数据 Velocity(速度) 数据产生和更新的频率5广义的大数据 所谓大数据,是一个综合性概念,它包括:(1)因具备3V特征而难以进行管理的数据(2)对这些数据进行存储、处理、分析的技术(3)以及能够通过分析这些数据获得实用意义和观点的人才和组织6大数据的应用案例7穿孔卡片与美国人口普查 美国在1880年进行的人口普查,耗时8年才完成数据汇总。因此,他们获得的很多数据都是过
3、时的。 1890年进行的人口普查,预计要花费13年的时间来汇总数据。 后来,美国人口普查局通过用赫尔曼-霍尔瑞斯发明的穿孔卡片制表机来进行1890年的人口普查,耗时一年。8麻省理工与通货紧缩预测软件 美国劳工统计局的人员每个月都要公布消费物价指数(CPI),这是用来测试通货膨胀率的。 政府通过人工采集价格信息数据每年大概需要花费两亿五千万美元。这些数据是精确的也是有序的,但是数据往往会有几周的滞后。 麻省理工学院(MIT)的两位经济学家,通过一个软件在互联网上每天可以收集到50万种商品的价格,他们能比官方数据提前发现通货紧缩趋势。9沃尔玛,请把蛋挞与飓风用品摆在一起 通过对历史交易记录这个庞大
4、数据库进行观察,沃尔玛注意到,每当季节性飓风来临之前,不仅手电筒销量增加,而且美式早餐含糖零食蛋挞销量也增加了。 因此每当季节性飓风来临时,沃尔玛就会把蛋挞与飓风用品摆放在一起,从而增加销量。10沃尔玛:东海岸中海岸西海岸 在美国,东海岸、中海岸、西海岸之间有两小时时差。 东海岸的沃尔玛营业两小时后之后,中海岸才开始营业,沃尔玛就会把东海岸当天这两小时的营业情况、相关数据传给中海岸。 中海岸就会根据这个数据知道了这天人们的购物喜好,决定货品怎么摆放,哪些货物摆放在一起会比较好。 这种方式给沃尔玛带来了很大的利润。11美国折扣零售商塔吉特与怀孕预测 塔吉特公司能在不被清楚告知的情况下预测出一个女
5、性的怀孕情况 该公司找出了大概20多种与怀孕的关联物,给顾客进行“怀孕趋势”评分 这些数据甚至使得零售商能够比较准确地预测预产期,这样就能够在孕期的每个阶段给客户寄送相应的优惠券12Hitwise,通过流量判断消费者喜好 数据创新再利用的一个典型例子是搜索关键词。 消费者和搜索引擎之间的瞬时交互形成了一个网站和广告的列表,实现了那一刻的特定功能。这些信息除了实现基本用途之外,它还可以变得非常有价值。 如数据代理益百利旗下的网页流量测量公司Hitwise,让客户采集搜索流量来揭示消费者的喜好。13物联网 物联网(Internet of Things,缩写IOT)是一个基于互联网、传统电信网等信息
6、承载体,让所有能够被独立寻址的普通物理对象实现互联互通的网络。 在物联网上,每个人都可以应用电子标签将真实的物体上网联结,在物联网上都可以查找出它们的具体位置。 通过物联网可以用中心计算机对机器、设备、人员进行集中管理、控制,也可以对家庭设备、汽车进行遥控,以及搜寻位置、防止物品被盗等各种应用。14RFID技术 RFID是Radio Frequency Identification的缩写,即射频识别,俗称电子标签。 RFID是一种简单的无线系统,由一个询问器(或阅读器)和很多应答器(或标签)组成。该系统用于控制、检测和跟踪物体。 RFID技术在超市和图书馆中的应用15车联网 未来车联网技术将重
7、新定义汽车DNA。借助无线通讯,城市内车与车之间,车与建筑之间,车与人之间都将建立更加智能紧密的互联。 通过装载在车辆上的电子标签利用无线射频等识别技术,实现在信息网络平台上对所有车辆的属性信息和静、动态信息进行提取和有效利用,并根据不同的功能需求对所有车辆的运行状态进行有效的监管和提供综合服务。16无人驾驶 无人驾驶被人认为是车联网的终极目标 无人驾驶车依赖的技术很多,比如导航、雷达、庞大数据计算等,要实现这些技术需要和物联网紧密结合起来。 无人驾驶是通过车载传感系统感知道路环境,自动规划行车路线并控制车辆到达预定目标的智能汽车。17自动泊车系统 自动泊车系统,顾名思义驾驶者双手可以离开方向
8、盘,在车辆停好之前要做的只是等待。 自动泊车系统主要由两部分组成:控制单元和位于前后保险杠以及两侧的超声波雷达探头。 按动自动泊车辅助系统激活按钮之后,雷达探头可在车辆行驶时对车辆两侧进行扫描。 控制单元对雷达反馈的信息进行分析,从而估算出车位是否足以容纳车辆停放。 自动泊车系统随后将通过助力转向系统对车辆行驶方向进行干预,并以控制单元规划好的路径将车辆停入车位。18日本先进工业技术研究院的坐姿研究与汽车防盗系统 该研究所教授把每个驾车者的坐姿量化为精确的数据,使其对司机识别的正确率高达98%。 这项技术作为汽车防盗系统,一旦识别驾车者不是车主,就会自动熄火。 这一技术还可汇集事故发生前驾车者
9、的姿势变化数据,分析坐姿与行驶安全的关系,在司机疲劳驾驶时发出警示或自动刹车。19UPS快递大数据技术下的最佳行车路径 UPS快递多效地利用了地理定位数据。为了使总部能在车辆出现晚点的时候跟踪到车辆的位置和预防引擎故障,它的货车上装有传感器、无线适配器和GPS。同时,这些设备也方便了公司监督管理员工并优化行车线路。 UPS为货车定制的最佳行车路径是根据过去的行车经验总结而来的。2011年,UPS的驾驶员少跑了近4828万公里的路程,节省了300万加仑的燃料并且减少了3万公吨的二氧化碳排放量。20UPS与汽车修理预测 UPS国际快递公司从2000年就开始使用预测性分析来监测自己全美60000辆车
10、规模的车队,这样就能及时地进行防御性的修理。 通过监测车辆的各个部位,UPS只需要更换需要更换的零件,从而节省了好几百万美元。21谷歌与甲型H1N1流感 2009年出现的甲型H1N1流感,当时还没有研发出对抗这种新型流感病毒的疫苗,公共卫生专家能做的只是减慢它传播的速度。但要做到这一点,他们必须先知道这种流感出现在哪里。 疾控中心得到流感方面的信息往往会有一两周的滞后,这种滞后导致公共卫生机构在疫情爆发的关键时期反而无所适从。 谷歌通过观察人们在网上的搜索记录来预测流感的传播,得到的信息是非常准确和及时的。22“量化自我” 通过一种非干预的手段,把一些所谓的医疗传感器放到我们的身边,比如我们戴
11、一个腕表、一枚戒指、一个耳塞、一副眼镜等,通过这些设备我们可以了解自己的心跳、血压情况,甚至包括我们体表的健康状况,从而对一些大病(如癫痫等)进行早期预测。 美国Fitbit公司近期就推出了一款免费的苹果手机应用,用户可用于记录食物和液体摄入量,从而跟踪其活动水平和营养摄入情况,通过分析这些数据可以很好的控制体重。23小儿床垫 通过床垫上的压力与湿度传感器分析,来判断小孩子有没有比较严重的打鼾或者睡姿不正确等问题。24在线教育 如著名的在线教育公司Coursera,已经和普林斯顿、伯克利、宾夕法尼亚大学等30多所大学合作,在互联网上免费开放大学课程 分布在世界各地的学习者不仅可以在同一时间实时
12、听取同一位老师的授课,还和在校生一样,做同样的作业、接受同样的评分和考试。 在线教育是一个“行为评价和诱导”的智能平台25在线教育服务Knewton 在线教育服务Knewton是大数据应用于教育行业的典型,通过数据分析区分出每个学生的优缺点,从而给学生有效的指导。 美国最大的公立大学亚利桑那州公立大学曾运用这一系统来提高学生的数学水平,全校2000名学生使用该系统两学期之后,该大学的辍学率下降了56%,毕业率从64%升高到75%。26购买飞机票 同一架飞机上的座位,票价却千差万别,个中原因,只有航空公司知道。 奥伦-埃齐奥尼开发了一个系统,用来推测当前网页上的机票价格是否合理,预测当前的机票价
13、格在未来一段时间内会上涨还是下降,从而帮助乘客明智购票。 这个预测系统建立在41天内价格波动产生的12000个价格样本基础之上。27航班延误之候机经济学 美国建立了一个统一的数据开放门户网站Data.Gov。 Data.Gov上线以后,美国交通部开放了全美航班起飞、到达、延误的数据。 航班延误时间的分析系统(Flyontime.us):帮助消费者找到表现最佳,最符合自己需要的航班。 该系统向全社会免费开放,任何人都可以通过它查询分析全国各次航班的延误率及机场等候时间。28The-N与电影票房预测 The-N在好莱坞电影上映之前,就能利用海量数据和特定算法预测出一部电影的票房。 该公司拥有一个包
14、括了过去几十年美国所有商业电影大约3000万条记录的数据库;数据库里有所有关于预算、电影流派、拍摄、阵容、获得奖项和收入等数据。29VISAMasterCard与商户推荐 像VISA和MasterCard这样的信用卡发行商,它们能够从自己的服务网获取更多的交易信息和顾客的消费信息 它们的商业模式从单纯的处理支付行为转变成了收集数据 一个称为MasterCard Advisors的部门收集和分析了来自210个国家的15亿信用卡用户的650亿条交易记录,用来预测商业发展和客户的消费趋势。然后,它把这些分析结果卖给其他公司30FICO,“我们知道你明天会做什么” 2011年,FICO提出了“遵从医嘱
15、评分”它分析一系列的变量来确定这个人是否会按时吃药,包括一些看起来有点怪异的变量。 比方说,一个人在某地居住了多久,这个人结婚了没有,他多久换一个工作以及他是否有私家车。 这个评分会帮助医疗机构节省开支,因为它们会知道哪些人需要得到它们的用药提醒。有私家车和使用抗生素并没有因果关系,这只是一种相关关系。31中英人寿保险有限公司(Aviva) 中英人寿保险有限公司(Aviva)是一家大型保险公司,他们想利用信用报告和顾客市场分析数据来作为部分申请人的血液和尿液分析的关联物。 这些分析结果被用来找出更有可能患高血压、糖尿病和抑郁症的人。其中用来分析的数据包括好几百种生活方式的数据,比如爱好、常浏览
16、的网站、常看的节目、收入估计等。 通过利用相关关系,保险公司可以在每人身上节省125美元,然而这个纯数据分析法只需要花费5美元。32Xoom与跨境汇款异常交易报警 Xoom是一个专门从事跨境汇款业务的公司,它会分析一笔交易的所有相关数据,一旦发现用“发现卡”从新泽西州汇款的交易比平常多的话,系统就会报警。33无所不包的谷歌翻译系统 2006年,谷歌公司开始涉足机器翻译。这被当作实现“收集全世界的数据资源,并让人人都可享受这些资源”这个目标的一个步骤。 谷歌翻译利用一个更大更繁杂的数据库,也就是全球的互联网。 谷歌翻译系统为了训练计算机,会吸收它能找到的所有翻译。它增加了很多各种各样的数据,还接受了有错误的数据。 谷歌语料库的内容来自于未经过滤的网页内容,所以会包含各种错误。但谷歌语料库是其他语料库的好几百万倍大,这样的优势完全压倒了缺点34谷歌,从大的“噪音”数据中受益 谷歌知道人们在搜索时点击的是第1页的第8个链接还是第8页的第1个链接,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年UPS产品保修及售后服务条款2篇
- 2024年版加油服务全面承包协议模板版B版
- 2024-2030年中国实时数据库行业发展模式规划分析报告
- 2024-2030年中国城市配送行业发展模式规划分析报告
- 2024年独家版:新材料研发与技术转让合同
- 2024年物业管理与保养服务合同书版B版
- 2024年技术服务与维护合同
- 2024年挖掘机租赁期间的保险责任合同
- 2025个人承包快递运输合同
- 单位人力资源管理制度展示大全
- FMEA-培训教材-汽车fmea培训课件
- 《项目进度管理研究文献综述》
- 信用风险加权资产计量与管理手册课件
- 光伏项目试验报告
- 小学“双减”作业设计:小学数学四年级上册作业设计案例
- 知识产权法(英文) Intellectual Property Right Law课件
- 综合评分法评分表(建设工程)
- SBS卷材防水施工工艺
- 深化设计确认记录
- 小学生心理健康教育课件
- 热力管道焊接技术交底记录大全
评论
0/150
提交评论