版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
互联网与数据利用PPT模板下载:/moban/行业PPT模板:/hangye/节日PPT模板:/jieri/PPT素材下载:/sucai/PPT背景图片:/beijing/PPT图表下载:/tubiao/优秀PPT下载:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/资料下载:/ziliao/PPT课件下载:/kejian/范文下载:/fanwen/试卷下载:/shiti/教案下载:/jiaoan/
授课人:韩冬梅dongmeihan@大数据概述01大数据分类(3种划分方式)0203大数据的价值大数据概述——数据量2013年中国产生的数据总量超过0.8ZB(相当于8亿TB),2倍于2012年,相当于2009年全球的数据总量。预计到2020年,中国产生的数据总量将是2013年的10倍,超过8.5ZB。——DNET《数据中心2013:硬件重构与软件定义》年度技术报告大数据概述01大数据分类(3种划分方式)0203大数据的价值大数据分类——按产生主体划分最里层:少量企业应用产生的数据关系型数据库中的数据数据仓库中的数据微博、微信电子商务在线交易日志数据呼叫中心评论、留言或者电话投诉等企业应用的相关评论数据应用服务器日志传感器数据(天气、水、智能电网等)图像和视频(摄像头监控数据等)RFID、二维码或条形码扫描数据次外层:大量人产生的数据最外层:巨量机器产生的数据大数据分类——按数据来源划分通过服务器和数据中心数量,以及各行业数据梳理,大致判断国内2013年一年产生的数据总量以及大致分布,数据主要分布在以下行业:1、BAT为代表的互联网公司。2、电信、金融、保险、电力、石化系统。3、公共安全、医疗、交通领域。4、气象、教育、地理、政务等。5、其他,商业销售、制造业、农业、物流和流通等领域。阿里巴巴目前保存的数据量为近百PB拥有90%以上的电商数据交易数据、用户浏览和点击网页数据、购物数据2013数据总量接近一千个PB中文网页、百度推广、百度日志、UGC以70%以上的搜索市场份额坐拥庞大的搜索数据腾讯总存储数据量经压缩处理以后在100PB左右数据量月增10%大量社交、游戏等领域积累的文本、音频、视频和关系类数据添加标题百度BAT为代表的互联网公司大数据分类——按数据来源划分电信行业用户上网记录、通话、信息、地理位置运营商拥有的数据数量都在10PB以上年度用户数据增长约数十PB开户信息数据,银行网点和在线交易数据、自身运营的数据金融系统每年产生数据达数十PB保险系统数据量也接近PB级别电力与石化仅国家电网采集获得的数据总量就上10个PB级别石油化工、智能水表等领域每年产生和保存下来的数据量也达到数十PB级别。金融与保险电信、金融、保险、电力、石化系统大数据分类——按数据来源划分公共安全北京:50万个监控摄像头,每天采集视频数据量约3PB整个视频监控每年保存下来的数据在数百PB以上仅广州中山大学医院2013年数据量为1000个TB整个医疗卫生行业一年能够保存下来的数据就可达到数百PB交通航班往返一次能产生数据就达到TB级别列车、水陆路运输产生的各种视频、文本类数据,每年保存下来的也达到数十PB。添加标题医疗卫生公共安全、医疗、交通领域大数据分类——按数据来源划分气象与地理中国气象局保存的数据约4~5PB,每年约增数百个TB各种地图和地理位置信息每年约数十PB北京市政务数据资源网涵盖旅游、教育、交通、医疗等门类,一年上线公布了400余个数据包政务数据多为结构化数据政务与教育气象、教育、地理、政务等领域大数据分类——按数据来源划分商业销售、制造业、农业、物流和流通等领域大数据分类——按数据来源划分其他传统行业线下商业销售、农林牧渔业、线下餐饮、食品、科研、物流运输等行业数据量剧增行业数据量还处于积累期,整个体量都不算大,多则达到PB级别,少则百TB甚至数十TB级别。制造业制造业的存储数据类型:产品设计数据:以文件为主,非结构化,共享要求较高,保存时间较长。企业生产环节的业务数据:数据库结构化数据生产监控数据:数据量非常大大数据分类——按存储形式划分
大数据不仅仅体现在数据量大,也体现在数据类型多。如此海量的数据中,仅有20%左右属于结构化的数据,80%的数据属于广泛存在于社交网络、物联网、电子商务等领域的非结构化或半结构化的数据。大数据分类——按存储形式划分结构化数据即行数据,可用二维表结构来逻辑表达实现主要存储在关系型数据库中先有结构再有数据,结构一般不变处理起来较方便大数据分类——按存储形式划分非结构化数据相对于结构化数据而言,不方便用数据库二维逻辑表来表现非纯文本类数据,没有标准格式包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息存储在非结构数据库中非结构化WEB数据库:突破了关系数据库结构定义不易改变和数据定长的限制大数据分类——按存储形式划分半结构化数据介于完全结构化数据和完全无结构的数据之间格式较为规范,一般都是纯文本数据包括日志数据、XML、JSON等格式的数据一般是自描述的,数据的结构和内容混在一起,没有明显的区分数据模型主要为树和图的形式。新周刊微博案例分享作为国内新锐媒体代表的“新周刊”是新浪微博的第一批受益媒体,他们开通了新浪微博后,截止到2010年11月19日,粉丝数已经达到了878966人,发表微博6488条。封新城新周刊主编、媒体微博交相呼应截止到2010年11月,封新城的微博粉丝数已接近36万都市快报微博案例分享微博话题征集:都市快报通过在新浪微博上进行写给100岁新中国的信,并通过整版选取内容刊登,极富新意版面整体合作:推出《微生活》栏目,此栏目是都市快报和新浪网合作推出的版面。《微生活》的内容来自新浪微博。《微生活》和读者分享的则是一周微博热议、微博语录、热文微议等精彩内容。南京零距离微博案例分享微博节省沟通成本,新闻发布更为便捷,让团队的协同工作更为快速厕所没有纸了怎么办?谁最先报道了绵阳地震?11除70的商的小数点后面的第200位上的数字是几?大数据概述01大数据分类(3种划分方式)0203大数据的价值大数据在宏观经济管理领域的应用IBM日本公司建立了一个经济指标预测系统,它从互联网新闻中搜索出影响制造业的480项经济数据,再计算出PMI预测值,准确度相当高。印第安纳大学学者利用Google提供的心情分析工具,根据用户近千万条短信、微博留言中预测道琼斯工业指数。准确率高达87%。淘宝网建立了“淘宝CPI”,它通过采集、编制淘宝网上390个类目的热门商品价格来统计CPI,它比国家统计局公布的CPI还提前半个月预测经济的走势。大数据在农业领域的应用Google前雇员创办Climate公司,从美国气象局等数据库中获得几十年的天气数据,将各地的降雨、气温和土壤状况及历年农作物产量做成精密图表,从而能够预测美国任一农场下一年的产量。任何一个农场主去他那里问明年种什么能卖出去、能赚钱,他能告诉你,说错了他保证赔偿,赔偿比保险公司还要高,到现在为止他还没有赔过。通过手机上农产品“移动支付”数据、“采购投入”数据和“补贴“数据分析,可准确预测农产品生产趋势,政府可依此决定出台激励措施和确定合适的作物存储量,还可为农民提供服务。大数据在商业领域的应用沃尔玛基于每个月4500万的网络购物数据,并结合社交网络上有关产品的大众评分,开发机器学习语义搜索引擎“北极星“,方便浏览,在线购物者因此增加10%-15%,增加销售十多亿美元。当顾客在超市买东西时,通过手机定位,可以分析他们在货柜前停留时间的长短,从而判断顾客对什么感兴趣。不仅仅是通过手机定位,实际上美国有的超市在购物推车上也安装了位置传感器,根据顾客在不同货物前停留时间的长短来分析顾客可能的购物行为。在淘宝网上买东西时,消费者会在阿里的广告交易平台上留下记录,阿里不仅从交易平台把消费记录拿来自己使用,还会把消费记录卖给其他商家。大数据在金融业的应用华尔街某公司通过分析全球3.4亿微博账户留言来判断民众情绪,人们高兴的时候会买股票,而焦虑的时候会抛售股票,它通过判断全世界高兴的人多还是焦虑的人多,依此决定公司股票的买入或卖出。阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和诚信经营的企业,给他们提供贷款,并且不需要这些中小企业的担保。目前阿里公司已放贷上千亿元,坏帐率仅0.3%。2012年年底,四大商业银行的坏账率为1%左右,尽管四大银行要求有担保,但坏账率仍然比阿里高出3倍。大数据在银行业的应用实现方式第一步,利用移动互联网技术,定位功能确定商圈,目前已实际覆盖全国161个商圈,累计服务千万人次。第二步,利用用户活动轨迹追踪,确定高价值商圈,设计业务。第三步,再利用大数据进行客户需求的体验分析,既包括客户的需要,也包括客户的体验(即用户需要相对于用户意义、目的、情感的关联),最终实现用户体验的LIKE曲线。中信银行将客户使用信用卡加油与吃饭的信息关联起来进行分析,通过数据的挖掘,卡中心发现,在周末18:00之前加油的客户,有60%会去吃饭;再结合LBS信息,分析客户就餐区域,发现其中70%有去中心城区吃饭的习惯。于是信用卡中心与中心城区的汉拿山烤肉店合作,在每个周末17:30的时候,向驶出加油站的客户,打出这样的手机广告:"物超所值,美味、环境优雅,价格适中,朋友聚会的理想场所,持中信卡可享五折优惠!"信用卡服务大数据在保险领域的应用1、电话营销利用数据挖掘对过去电话访谈、成交记录建立预测模型,找出有购买意愿的潜在客户4、交叉销售美国保险公司利用数据挖掘技术对不同客户的消费特征进行分析,制定交叉销售策略,保证公司是在最能给公司创造收益的客户集中地地区运营2、欺诈分析利用历史数据,寻找影响保险欺诈最为显著的因素及量化取值区间,建立预测模型,快速将理赔案件依照欺诈可能性进行分类处理,协助无问题案件快速通过5、续保率维持澳大利亚的保险公司利用数据挖掘工具对客户忠诚度、客户细分和客户保持进行分析,以减少客户流失3、客户体验太平洋寿险发布大数据客户体验指数(DEO指数),其基于客户与公司线上线下互动产生的全量数据,DEO指数根据销售、售后服务、理赔三大领域,诚信、品质、效率、期望值四个维度,选取保险监管部门确定的行业标准12个服务评价定量指标,以及公司重点关注的另外8个客户体验指标,以报告期积累的全量实际数据为基准值计算得出。2013年各渠道与客户交互数为2432万人次。电话和柜面两大传统服务渠道占比达81%,新兴移动渠道占比迅速攀升。客户关注的十大热点为退保利益、退保手续、分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 44807.1-2024集成电路电磁兼容建模第1部分:通用建模框架
- 共振音叉课件教学课件
- 电商物流解决方案
- 糖尿病的自我监测与管理
- 无人驾驶汽车的发展前景
- 食管癌晚期治疗进展
- 糖尿病治疗仪使用
- 初中化学常见气体的制取专题教案
- 角膜病病人的护理
- 海上日出说课稿第课时
- 第三届全国大学生未来农业律师大赛试题
- 2024年居家养老服务协议
- 2024年份IDC数据中心租赁协议
- 2023年国考税务系统招聘考试真题
- 2024年反腐倡廉廉政法规知识竞赛题库及答案(130题)
- 2024-2025学年广东省珠海市香洲区九洲中学教育集团七年级(上)期中数学试卷(含答案)
- 资本经营-终结性考试-国开(SC)-参考资料
- 商务礼仪课件教学课件
- 【天润乳业资本结构问题及优化对策分析案例10000字】
- 住院医师规范化培训责任导师制管理制度
- 2024-2025学年高中物理必修 第三册人教版(2019)教学设计合集
评论
0/150
提交评论