大数据与云计算黄哲学_第1页
大数据与云计算黄哲学_第2页
大数据与云计算黄哲学_第3页
大数据与云计算黄哲学_第4页
大数据与云计算黄哲学_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据与云计算:

--信息技术发展的新纪元

黄哲学博士深圳大学特聘教授大数据技术与应用研究所所长大纲大数据与云计算云计算大数据平台与技术创新大数据平台产业化与应用案例什么是大数据对数据的使用者来讲,如果数据集超出了使用者所拥有的信息处理和分析的能力,就给使用者带来了大数据问题大数据V特征Volume数据规模大Velocity数据变化数据快Variety数据属性复杂Value价值大数据的特点并不只是数据规模大数据的量呈现指数增长2009年至2020年将增加44倍数据的体量从0.8zettabytes增加到35ZB生成和采集的数据将按指数增长根据麦肯锡预计美国超过1000雇员的公司,平均每个公司存有200TB的数据,很多行业的公司,如银行、电讯、互联网、政府部门等,平均存储的数据超过1个PB。大数据的多样性Variety不同的数据格式,数据类型和数据结构文本、数字、图像、音频、视频、时间序列、社会媒体数据、高维矩阵数据等静态数据vs.流数据同一个应用可以生成和采集不同类型的数据为了提取知识尽可能多地综合不同类型的相关数据大数据的速度Velocity数据的采集速度的加快导致处理时间都需要有相应的提高在线数据分析(OnlineDataAnalytics)决策的延误

商机的消失实例网上营销(E-Promotions):基于用户当前的位置和过往的交易数据预测用户的喜好在合适的时间和地点发送用户感兴趣的产品和店铺健康监控(Healthcaremonitoring):利用穿戴式的传感器监控用户的生理和活动数据及时提供需要的医疗服务大数据的价值(Value)未来大数据的产业规模将会至少以万亿美元来进行衡量,大数据将会给信息技术领域带来一个新的增长点。美国医疗保健每年产值达3000亿美金每年生产率增长约0.7%制造业最多可节省50%的产品研发、组装成本最多可节约7%的营运资金美国零售业净利率增长可能高达60%+每年生产率增长0.5-1.0%欧洲公共部门管理每年2500亿欧元每年生产率增长约0.7%全球个人定位数据1000亿+的服务供应商收入为终端用户带来高达7000亿美的价值大数据的产生数据的发展和创新将不再是如何生成和采集数据具备对采集的数据进行管理、分析、总结、可视化展示和知识发现的能力已经成为新的挑战社会媒体网络(每个人都在产生数据)科学仪器

(采集不同类型的数据)移动终端

(个人地理信息数据)传感器网络(测量不同类型的数据)大数据的技术挑战存储–分布式、低成本传输–能力、成本处理–集成、融合、处理分析–能力、效率挖掘–方法、能力、技术、平台应用能耗互联网与电讯行业需求某互联网公司100多在线游戏,4亿在线游戏用户在线系统记录每个游戏用户在线玩游戏的详细数据,包括游戏、时间、动作、结果等,TB级数据分析需求:用户行分类与预测,用户行为客户群划分用户挽留、用户奖励和级别提升某电信公司深度包检测(DPI)大数据分析,研究客户互联网行为模型,流量分析,数据套餐设计百万人口城市,每天数据量TB级云计算云计算是一种新的大规模分布式计算模式通过网络和资源虚拟技术,实现计算及存储资源集中管理,面向用户提供服务云计算可以解决目前计算机使用的诸多问题,是计算技术发展的一个新的里程碑2023/2/412传统计算机的问题

使用成本高资源分散资源不足资源浪费高能耗环境污染云计算的优点

成本低易于普及可扩展能力高节能环保

云计算的五个基本特征按需自助服务(On-demandself-service)广泛的网络接入(Broadnetworkaccess)资源池(Resourcepooling)快速弹性化(Rapidelasticity)可度量的服务(MeasuredService)2023/2/413云环境(ACloud)云指的是一个遥远的计算环境,这个环境是用来为计算环境外的用户提供可扩展和可度量的计算资源。用户可能不知道具体的云环境在哪里。如用户在深圳,云环境可能在内蒙古。2023/2/414云环境的计算资源物理服务器—CPU,内存,外存(磁盘、磁带)虚拟服务器—CPU,内存,外存软件服务

(应用)2023/2/415物理服务器虚拟服务器软件服务虚拟化是云计算的核心技术虚拟化技术可以将一个物理服务器当作多个虚拟服务器使用,多个用户共享物理服务器的资源,但用户对虚拟服务器的体验是独立的计算机。用户不需要了解物理服务器虚拟服务器的运行由物理服务器统一管理和维护,虚拟机用户不需要维护。当某虚拟机用户需求变化时,物理服务器的资源可以自动扩展。2023/2/416弹性化和可扩展性弹性化是云计算的重要特征,计算资源弹性化可以使云环境的计算能力随着用户需求变化而增加或减少。水平扩展向外扩展Scaleout—增加资源向内收缩Scalein—减少资源垂直扩展向上扩展Scaleup—提升CPU和内存向下收缩Scaledown–降低CPU和内存2023/2/417云服务器面向服务ServiceOrientation云计算的独特特征是服务导向或面向服务,就是将计算和存储资源作为服务供用户使用服务的收费方式是谁使用谁付钱,例如:付使用存储服务的费用付使用CPU的费用付使用数据库软件的费用用户不拥有这些资源,因此不需维护它们2023/2/418云计算的三种基本服务模式云设施服务CloudInfrastructureasaService(IaaS)云平台服务CloudPlatformasaService(PaaS)软件作为服务CloudSoftwareasaService(SaaS)2023/2/419云计算架构CloudArchitecture2023/2/420虚拟化计算服务ComputingService存储服务StorageServiceDBMSMapReduceGoogleAppEngineCRMERPCAD/CAMPOSWindowsAzureInfrastructureasaService(IaaS)PlatformasaService(PaaS)SoftwareasaService(SaaS)物理资源云服务应用的部署模型公有云Publiccloud私有云Privatecloud社区云Communitycloud混合云Hybridcloud2023/2/421大纲大数据与云计算云计算大数据平台与技术创新大数据平台产业化与应用案例挑战性的技术问题数据融合(fusion)数据集成(integration)挑战病人健康医疗数据没有有效的数据集成就不能进行有效的综合数据分析挑战性的科学问题成千上万个属性超高维问题百万以上甚至超亿个记录混合数据类型缺省值/噪声相关性问题UnbalanceSubspacepropertyUninformativeness12nn-1n-2n-3n-4f1f2f3f4f5…大数据集的挑战(BigDataMatrix)超高维数据聚类算法研究对属性变量做分组归并,产生组变量对组变量和属性变量分层加权重扩展软子空间聚类算法EWKM,在聚类过程中自动计算组变量权重值和属性变量权重值最后得到以组变量为主的子空间聚类结果组变量相当于在高空看数据,大轮廓清晰属性变量相当于在低空看数据,细节清晰组变量属性变量SRF:基于MapReduce大数据随机森林算法Layer宽度优先、大规模分层建树策略大数据随机森林算法研究成果属性加权抽样随机森林算法,用于超高维数据分类,平均精度提高20%。与澳大利亚联邦税务总局数据挖掘首席科学家GrahamWilliams合作,将随机森林算法用于ATO缴税分类建模。分布式高可扩展随机森林分类算法,实现了对千万个客户记录、千个变量、100GB规模数据的建模能力。将分布式随机森林算法发布到国际著名的统计分析平台R系统上,扩大国际影响力。研究成果国际化推广研究成果国际化应用随机森林模型并行化实现属性加权抽样随机森林模型云计算与大数据分析数据挖掘是从数据中发现知识的方法和过程,是解决各种科学和应用问题的重要手段由于数据的快速增长,传统的数据挖掘技术和软件正面临极大的瓶颈银行:人民银行征信系统收录了自然人6.4亿人的信贷记录金融:南方基金公司有近1000万客户资料需要分析电讯:广东中国移动每天产生2TB通话记录数据零售:Wal-Mart每天产生2.6亿个交易记录,其数据中心存储4PB的交易数据互联网:Amazon有5900万活跃客户,超过42TB的客户数据2023/2/428云计算的优点是处理海量数据的能力,为大数据挖掘提供了新的计算平台云计算海量数据处理的核心技术2023/2/429虚拟文件系统数据划分GFS(Google)HDFS(Hadoop)MapReduce编程模型算法编程Map和Reduce两个基本操作大规模分布计算可扩展性运行时系统程序运行负载平衡任务调度容错MapReduce编程模型主节点节点节点节点节点节点用户编程文件文件文件文件文件输出输出文件划分Map运算Reduce运算结果输出程序写成Map和Reduce两步运算1.

Map统计单个文本词频2.

Reduce综合所有文本的词频(Map)(Reduce)MapReduce

管道式运算2023/2/431MRMRMRMRK-均值聚类对象分簇MapReduceMRMRMRMRMRMRMRMR输出输入?????收敛?重新计算簇中心点基于云计算的大数据分析平台区域智能数据中心区域智能数据中心支持多种终端访问以区域性智能数据中心及高速互联网为基础设施以互联网服务体系为架构以大数据存储、处理、挖掘和交互式可视化分析等关键技术为支撑通过多样化移动智能终端及移动互联网为用户提供数据存储、管理及分析服务。关键技术云计算引擎高性能海量数据挖掘算法库工作流引擎支撑海量数据处理、挖掘与分析运算提供海量复杂数据处理、分析与挖掘高可扩展算法数据处理分析流程图形化设计数据处理分析流程自动执行资源调度及优化OpenAPI提供数据挖掘平台与第三方应用系统的扩展接口支撑海量数据存储与管理云存储大数据分析平台云计算大数据挖掘平台110台服务器,840CPU核,550TB存储容量构建云计算大数据挖掘平台,具备TB级数据存储、处理与分析能力,为大数据挖掘技术与系统开发和测试提供实验支撑环境。数据库:MySQL5.0商用版云存储:Hadoop、Casendral数据挖掘软件:Alphaminer、R平台规模软件环境平台功能大数据云存储与管理分布式并行数据挖掘任务执行可视化数据分析执行引擎云计算数据挖掘算法库基于MapReduce模型,实现了11个常用数据挖掘算法分布式并行化。K-MeansK-ModesW-K-MeansEWKM聚类算法DecisionTreeRandomForestsLDA分类算法LogisticRegressionRandomForestRegression回归算法FP-Growth关联规则部分算法的测试性能已达到TB级数据的处理能力。K-Means算法性能数据规模:1TB,1千万条数据*1万维执行效率:初始10个聚类中心,一次迭代时间约30分钟RandomForests算法性能数据规模:110GB,1千万条数据*1千维执行效率:建立20棵树约36分钟针对传统数据挖掘算法不能处理大数据的挑战,开发基于云计算的高可扩展并行数据挖掘算法库,突破TB级数据处理瓶颈。大数据处理流程--医保数据案例1型糖尿病性神经炎(原始记录)糖尿病性神经炎(ICD国际疾病分类标准)内分泌,营养和代谢疾病(ICD国际疾病分类标准)疾病匹配疾病分类疾病分类在线数据分析通过仪表盘图形化的KPI指标支持全局的运营表现和局部细节的钻取分析快速了解业务运营的各项指标实施获取告警信息定制化的应用开发移动终端上的商务智能分析平台系统框架基于浏览器的BI分析平台基于智能移动终端的BI分析平台海量数据可视化大数据分析与挖掘平台智能数据中心基于WEB的数据分析流程设计工具基于WEBD数据管理工具创新点:与搜索引擎区别主要功能海量数据分析海量信息检索处理对象各类型海量数据网页任务目标挖掘新知识、分类模型等已有信息的查询与集成应用目标智能决策支持信息查询核心技术机器学习、数据挖掘、分布式计算网页爬虫、索引、快速查询应用领域新兴领域(互联网、移动互联网、电子商务、医药研发、气象预测)教育、军事、情报、互联网vs.大数据分析平台搜索引擎创新点:与云服务区别主要功能海量数据存储与分析服务云服务处理对象各类型海量数据PaaS,SaaS应用任务目标挖掘新知识、分类模型等提供低成本计算服务应用目标智能决策支持支持中小企业IT应用相互关系应用云计算技术提供数据分析服务支撑数据分析服务vs.云服务平台大数据分析平台创新点:与传统BI区别应用模式互联网服务解决方案软件解决方案技术支撑智能数据中心、互联网大型BI软件及昂贵硬件服务器扩展性弹性扩展扩展性差TOC按需付费解决方案,价格昂贵,成本极高应用领域新兴领域(互联网、移动互联网、电子商务)传统领域(金融、保险、电信、零售)适用性大型企业(BI私有云)中小企业(BISaaS)大型企业vs.BIServiceBIRuntimeBIServerVisualization传统BI大数据分析平台大纲大数据与云计算云计算大数据平台与技术创新大数据平台产业化与应用案例大数据信息服务产业链金融传统应用领域新型应用领域互联网智慧城市电子商务现代物流制造零售通信智能电网大数据信息服务业的机遇大数据是新兴技术和战略性产业,各国都处在同一起跑线,原始创新机遇大;我国数据资源丰富,应用需求巨大,有条件实现跨越性发展,走在世界前列大数据分析平台产业化大数据分析平台技术及产业化优势:降低企业应用成本,技术积累和专业化服务,培育新的大数据分析和信息服务产业。孵化面向不同行业的专业咨询公司、大数据分析公司和信息服务公司。电信大数据分析案例MBB数据及预处理MBB(MobileBroadband)数据通过移动互联网访问网络的日志数据,该数据为运行商的原始数据。2进制编码,有标准的协议,需要根据协议进行解码。规模大,一个中等规模的城市每天产生数TB的MBB数据MBB数据预处理根据MBB数据协议进行解码,一般由设备供应商提供。解码后得到的数据payload字段是二进制编码,其他字段都是文本。Payload是应用程序在互联网上的传输协议,每个协议都有具体的格式。对该部分内容的解析叫做DPI(DeepPacketInspection)。MBB数据格式(小部分属性)AAL514bytesOuterIP20bytesOuter

UDP8bytesGTPU8bytesInnerIP20bytesInnerTCP20bytesPayload1400bytesMBB数据重要字段解释序号名称意义1srcip外层源IP2dstip外层目的IP3type_idstring业务类型,如Streaming,Web_Browsing等4service_id服务类型,如PPStream,HTTP等5detail_id详情,如PPStream_UDP,HTTP等6imsi国际移动用户识别码,储存在SIM卡中,可用于区别移动用户的有效信息7imei国际移动装备辨识码,用于识别每台手机8rnc_id基站编号9cell_id小区编号10setup_timeRNC建立时间11access_timeRNC连接时间12quit_timeRNC断开时间13terminal终端用户上网位置和行为分析抽象数据模型(U,L,A)U

-

IMEI和IMSI共同标示一个用户L

-

通过小区编号cell_id标识A

-

通过详情detail_id作为用户的行为标识用户上网位置和行为分析(续1)LocationgroupsActiongroupsLocation_group6302953122620502Action_group11PPStreamSkype_IMIcecastAction_group12POP3KooWoIMAPLocation_group7452531697118746Action_group69158_VChatHTTPTongDaXinAction_group7POP3_SSLIMAP_SSLPPVA_Control_dataγδη结果展示地点组和行为组的关系在地点主题1,用户的行为主题主要集中在行为主题6某个地点组对应某个行为组的概率分布,其中列代表地点组,行代表行为组,颜色越深表示概率值越大,颜色越浅表示概率值越小

基于位置的推荐模型基于位置的行为推荐当用户出现在某个地方,推荐可能感兴趣的k个应用k精度139%542%1054%1569%2070%2571%3084%算法准确率贝叶斯网络62.0%决策树32.9%模型预测准确度与k的关系其他方法预测准确度当k取到15以上,我们的方法比传统的分类方法具有更高的推荐预测准确率电力行业大数据分析案例智能电网大数据自动化数据采集装置在智能电网中大量采用东莞大工业的电力用户达两万多家每十五分钟采集电压、电流、功率等数据每月平均数据量达85GB用电行为模式的客户分群选取客户不同维度的数据进行客户分群日周月用电模式用户行业背景用户地理信息用户电力设备信息地区宏观经济数据通过对客户分群,获取用户不同的用电模式工作日双班制,三班制,四班制周末长短周轮休夜间用电高峰行业间用电模式比较不同地区不同行业用电模式比较节假日及用电模式趋势预测用户行业背景用电模式用户地理信息电力用户客户分群用户类型分布行业类别总计金属制品业3456通信设备、计算机及其他电子设备制造业2983塑料制品业2918纺织服装、鞋、帽制造业1682电气机械及器材制造业1393纺织业1147橡胶制品业1123家具制造业971造纸及纸制品业926工艺品及其他制造业874文教体育用品制造业866皮革、毛皮、羽毛(绒)及其制品业840通用设备制造业833专用设备制造业826印刷业和记录媒介的复制745非金属矿物制品业514行业类别总计化学原料及化学制品制造业

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论