




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据(shùjù)科学与工程系列
大数据体系结构
陈志成中国科学院大学(dàxué)2021年06月第一页,共九十八页。主要(zhǔyào)内容一、大数据时代的新命题二、大数据的体系结构三、大数据的关键技术四、物联网与云计算(jìsuàn)架构五、知名企业大数据架构六、大数据系统设计案例总结、交流、作业第二页,共九十八页。一、大数据(shùjù)时代的新命题第三页,共九十八页。谷歌大数据中心:全球(quánqiú)主要DC有8个第四页,共九十八页。大数据表象概念:百度(bǎidù)数据规模第五页,共九十八页。大数据表象(biǎoxiàng)概念:对系统要求第六页,共九十八页。大数据(shùjù)时代的新命题:数据在爆炸式增长-互联网海量大数据-物联网各类型数据发数据处理能力要求(yāoqiú)提高-大规模数据存取方式-大数据并行技术能力数据间关联性分析加强-社交网络关系-多业务关联性
-用户行为分析网络数据的实时同步-一切营销都线下+线上-多业务跨地域数据同步“数据结构化〞本身是最具挑战性的一个环节.海量数据(shùjù)与快速处理是一对悖论.第七页,共九十八页。信息(xìnxī)社会需求:信息化-智能化-现代化农业(nóngyè)社会工业(gōngyè)社会信息社会人力工具
--镰刀
--锄头
动力工具
--机车
--机床智能工具--推理机--智能网信息时代的大数据需求第八页,共九十八页。信息时代数据大爆炸,推动智能(zhìnénɡ)技术开展第九页,共九十八页。信息时代,软件编程模型(móxíng)开展“面向信息处理〞的智能化编程模型(móxíng),编程简化为数据配置与管理第十页,共九十八页。大数据+技术架构(jiàɡòu)数据智能第十一页,共九十八页。二、大数据(shùjù)的系统架构第十二页,共九十八页。传统(chuántǒng)数据库技术架构:Oracle数据库体系(tǐxì)架构第十三页,共九十八页。大数据(shùjù)架构:分层架构从数据在生命周期看,大数据从数据源经过(jīngguò)分析挖掘到最终获得价值需要经过(jīngguò)5个环节,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现。第十四页,共九十八页。大数据的系统(xìtǒng)架构:整体系统架构新一代编程语言第十五页,共九十八页。大数据架构:整体逻辑(luójí)功能架构第十六页,共九十八页。大数据(shùjù)架构理解:搜索引擎第十七页,共九十八页。大数据(shùjù)架构理解:网页内容抓取第十八页,共九十八页。大数据系统架构(jiàɡòu)HadoopHadoop分布式系统组成(zǔchénɡ)第十九页,共九十八页。大数据系统架构(jiàɡòu)Hadoop在图中,Hadoop主要的功能组件有:HadoopCommon:包含HDFS、MapReduce和其他工程公共内容;HDFS:Hadoop分布式文件系统;MapReduce:一个用于并行处理大数据集的软件框架。Map函数接受一组数据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce函数接受Map函数生成的列表,然后根据它们的键〔为每个键生成一个键/值对〕缩小键/值对列表;HBase:类似GoogleBigTable的分布式NoSQL列数据库;Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行;Zookeeper:分布式锁,提供类似GoogleChubby的功能;Avro:新的数据序列化格式与传输(chuánshū)工具,将逐步取代Hadoop原有的IPC机制;Pig:大数据数据流分析平台,为用户提供多种接口;Sqoop:在HADOOP与传统的数据库间进行数据的传递。第二十页,共九十八页。大数据系统架构(jiàɡòu)Hadoop:功能定位第二十一页,共九十八页。1.大数据系统架构Hadoop:层次(céngcì)对应第二十二页,共九十八页。大数据(shùjù):分布式计算架构第二十三页,共九十八页。大数据架构:MapReduce工作(gōngzuò)原理1第二十四页,共九十八页。大数据(shùjù)架构:MapReduce工作原理2第二十五页,共九十八页。三、大数据(shùjù)的关键技术第二十六页,共九十八页。大数据关键技术到底有哪些(nǎxiē)?核心问题是:(计算、存储、分析)算法大数据:恐怖的大数据(生活例如(lìrú))智能性:数据分析、自然语言理解逻辑推理(演示)艺术性:分形算法、视频动画(演示)第二十七页,共九十八页。大数据(shùjù)关键技术1:大数据存储技术数据的海量化和快增长特征、以及数据格式的多样化是大数据对存储技术提出的首要(shǒuyào)挑战。要求底层硬件架构和文件系统在性价比上要大大高于传统技术,并能够弹性扩展存储容量。谷歌文件系统〔GFS〕和Hadoop的分布式文件系统HDFS〔HadoopDistributedFileSystem〕奠定了大数据存储技术的根底。GFS/HDFS将计算和存储节点在物理上结合在一起,从而防止在数据密集计算中易形成的I/O吞吐量的制约,同时这类分布式存储系统的文件系统也采用(cǎiyòng)了分布式架构,能到达较高的并发访问能力。网络附着存储系统〔NAS〕和存储区域网络〔SAN〕等体系,存储和计算的物理设备别离,它们之间要通过网络接口连接,这导致在进行数据密集型计算〔DataIntensiveComputing〕时I/O容易成为瓶颈。单机文件系统不提供数据冗余、可扩展性、容错及并发能力差第二十八页,共九十八页。大数据(shùjù)关键技术2:并行计算能力大数据的分析挖掘是数据密集型计算,需要巨大的计算能力。针对不同(bùtónɡ)计算场景开展出特定分布式计算框架。Yahoo提出的S4系统、Twitter的Storm,谷歌2021年公布的Dremel系统,MapReduce内存化以提高实时性的Spark框架.
第二十九页,共九十八页。数据(shùjù)爆炸,知识贫乏苦恼:淹没在数据中;不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期大数据(shùjù)关键技术3:数据分析技术第三十页,共九十八页。基于(jīyú)计算流体力学的三维呈现:如用能场所3D场景及CFD温度及能效云场呈现如以下图。大数据关键技术4:数据显示(xiǎnshì)技术第三十一页,共九十八页。大数据分析世界杯:英格兰vs意大利1:2。数据(shùjù)热图第三十二页,共九十八页。大数据(shùjù)关键技术5:数据挖掘算法代特征数据挖掘算法集成分布计算模型数据模型第一代数据挖掘作为一个独立的应用支持一个或者多个算法独立的系统单个机器向量数据第二代和数据库以及数据仓库集成多个算法:能够挖掘一次不能放进内存的数据数据管理系统,包括数据库和数据仓库同质/局部区域的计算机群集有些系统支持对象、文本、和连续的媒体数据第三代和预言模型系统集成多个算法数据管理和预言模型系统intranet/extranet网络计算支持半结构化数据和web数据第四代和移动数据/各种计算数据联合多个算法数据管理、预言模型、移动系统移动和各种计算设备普遍存在的计算模型第三十三页,共九十八页。Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神经网络NeuralNetworks聚类分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列(xùliè)分析SequenceAnalysis决策树DecisionTrees倾向性分析(fēnxī)客户保存客户生命周期管理目标市场(shìchǎng)价格弹性分析客户细分市场细分倾向性分析客户保存目标市场欺诈检测关联分析Association市场组合分析套装产品分析目录设计交叉销售大数据关键技术5:数据挖掘算法第三十四页,共九十八页。数据挖掘的主要(zhǔyào)方法分类〔Classification〕聚类(Clustering)相关规那么(nàme)(AssociationRule)回归(Regression)其他知识发现系统需要一个前处理过程数据抽取数据清洗数据选择(xuǎnzé)数据转换知识发现系统是一个自动/半自动过程知识发现系统要有很好的性能知识发现KDD系统特征第三十五页,共九十八页。数据挖掘主要(zhǔyào)方法:ETLETLProcessFrameworkETL工具(gōngjù)有:OWB(OracleWarehouseBuilder)、ODI(OracleDataIntegrator)、InformaticPowerCenter、AICloudETL、DataStage、DataSpider,等。Application&OperationsServicesTransportServicesLoadTransformExtractTargetadaptorsSourceadaptorsETLDataimport/RuleimportETLDataExportRuntimeMatadataServicesDesignmanagementMetadataImport/exportMetadatamanagement第三十六页,共九十八页。四、物联网与云计算(jìsuàn)架构第三十七页,共九十八页。互联网(liánwǎnɡ)上的物联网(liánwǎnɡ):概念第三十八页,共九十八页。互联网(liánwǎnɡ)上的物联网(liánwǎnɡ):开展2021年8月7日,温家宝视察中科院嘉兴无线传感网工程中心无锡研发分中心,提出“在传感网开展中,要早一点谋划未来,早一点攻破核心技术〞,明确要求尽快建立中国的传感信息中心,或叫“感知中国〞中心。2021年2月25日,中国首个传感网大学科技园在无锡成立,北京邮电大学无锡感知技术与产业研究院是首家入驻大学科技园的高校科研机构。移动、电信、联通三大运营商纷纷在无锡成立物联网研究中心,以无锡为首的国内大中城市争相建设智能城市,争取成为感知中国示范城市。2021年3月2日,上海物联网中心在上海嘉定揭牌,宣称将以此打造国内最具竞争力、具有(jùyǒu)国际影响的物联网技术研发基地,总投资达8亿元。把合作伙伴锁定为中国科学院上海微系统与信息技术研究所。2021年3月9日,中国物联网标准联合工作组筹备会议在京召开。3月中旬,浙江省成立了物联网产业规划编制小组,浙江省经济和信息化委员会副主任郑一方担任组长。杭州市已经联合浙江省工业经济研究所启动物联网产业调研和开展规划编制工作,提出“感知杭州〞的开展愿景。第三十九页,共九十八页。物联网(liánwǎnɡ)的体系架构第四十页,共九十八页。物联网(liánwǎnɡ)的体系架构第四十一页,共九十八页。物联网(liánwǎnɡ)的体系架构第四十二页,共九十八页。物联网示范(shìfàn):智能家居大数据管理系统第四十三页,共九十八页。物联网示范:动态跟踪管理(guǎnlǐ),牧场大数据第四十四页,共九十八页。物联网示范:医疗健康大数据(shùjù)管理体系架构大中型医院政企客户领导省领航平台基层医疗机构短信接口平台功能健康管理服务紧急呼叫一键通运动能量检测终端功能血压/血糖管理离退休干部GPS定位健康档案自管理心电图诊断呈现心电图测量移动OA彩信接口用药提醒互动交流预约就医WAP接口体重管理血糖管理心脏疾病管理血压管理健康管理功能客户关怀功能BSS/OSS日常心电监测血压监测运动情况监测医疗服务功能血糖监测移动全球眼第四十五页,共九十八页。云计算(jìsuàn)演进:桌面云理解(ND—NC—CCN)第四十六页,共九十八页。云计算架构(jiàɡòu):通用三层架构(IBM为例,加BPaaS)IaaSPaaSSaaSBPaaS第四十七页,共九十八页。云计算的不同(bùtónɡ)效劳层次和内容:第四十八页,共九十八页。云计算的应用(yìngyòng)案例:广州品高IaaS第四十九页,共九十八页。云计算(jìsuàn)的统一数据中心Cisco’sCloudComputingApproachCombiningtheunifieddatacenterandcloudintelligentnetworkNetworkServicebecomesanessentialelement第五十页,共九十八页。五、知名企业大数据(shùjù)架构第五十一页,共九十八页。又拍云存储(cúnchǔ)架构第五十二页,共九十八页。大数据(shùjù):IBM大数据方案第五十三页,共九十八页。大数据分析实例(shílì):北京邮电大学——“云海〞移动(yídòng)互联网数据分析平台第五十四页,共九十八页。1.大数据(shùjù)架构:曙光智慧交通系统架构第五十五页,共九十八页。1.大数据(shùjù)架构:IBM第五十六页,共九十八页。1.大数据(shùjù)架构:HP云监控大数据解决方案第五十七页,共九十八页。大数据(shùjù)架构Intel分布式Hadoop架构(jiàɡòu)第五十八页,共九十八页。大数据(shùjù)架构:微软大数据解决方案设计了一套基于MicrosoftSQLServer2021和MicrosoftAzureHDInsight的端到端大数据(shùjù)解决方案。在HDInsight上快速部署Hadoop群集。第五十九页,共九十八页。大数据平台(píngtái)架构引跑科技(kējì)EngineOne平台第六十页,共九十八页。大数据(shùjù)虚拟化架构:VMWareBDEvSphereBigDataExtensions〔BDE〕是VMware基于Serengeti开源技术的企业发行版,增强根底架构,更好地部署、运行和管理大数据(shùjù)负载,虚拟化应用。大数据(shùjù)虚拟化〔BDE/Serengeti〕的部署结构图第六十一页,共九十八页。大数据(shùjù)虚拟化架构:VMWareBDESerengeti管理效劳(xiàoláo)器的系统架构图第六十二页,共九十八页。大数据(shùjù)架构Netflix基于AWS的大数据平台,不用(bùyòng)HDFS而用amazon的S3
(美国最大的在线DVD租赁商,奈飞公司,提供在线影片租赁业务)第六十三页,共九十八页。Siri的技术实现(shíxiàn)架构第六十四页,共九十八页。大数据(shùjù)购物(ɡòuwù)网站的大数据分析系统第六十五页,共九十八页。大数据(shùjù)某银联机房大数据(shùjù)架构第六十六页,共九十八页。大数据(shùjù):平安架构第六十七页,共九十八页。六、大数据系统设计(shèjì)案例分析第六十八页,共九十八页。1.Web数据分析系统的软件(ruǎnjiàn)验证模型UML及其扩展机制/QVTWeb领域模型转换及代码生成研究Web领域建模工具原型研发(基于eclipse-modelingEcoretools,GMF的Web领域元建模及建模工具)Web模型转化与代码生成工具原型研发(基于mediniQVT及
eclipse-modeling
operationalQVTEMF的模型转化与代码生成工具)在具体Web系统开发中的应用、验证与比较Web应用实践基于MDA的Web领域模型研究Web领域的CIM模型(基于Ecore的web领域需求的元模型)Web领域的PIM模型(基于Ecore的web领域独立平台的元模型)Web领域的PSM模型Web领域CIM到PIM转换(基于QVT的CIM到PIM转换)Web领域PIM到PSM转换(基于QVT的CIM到PIM转换)Web领域PSM到源代码转换模型到元模型归纳转换技术第六十九页,共九十八页。模型体系(tǐxì)与模型转换第七十页,共九十八页。第七十一页,共九十八页。分析模型(móxíng)元模型(móxíng)第七十二页,共九十八页。数据访问(fǎngwèn)层元模型第七十三页,共九十八页。业务(yèwù)逻辑层元模型第七十四页,共九十八页。展现(zhǎnxiàn)层元模型第七十五页,共九十八页。2.淘宝大数据(shùjù)架构第七十六页,共九十八页。
淘宝大数据(shùjù)架构第七十七页,共九十八页。大数据(shùjù)架构:淘宝海量数据产品技术架构按照数据(shùjù)的流向来划分,淘宝的数据(shùjù)产品的技术架构分为五层〔自上而下〕,分别是数据(shùjù)源、计算层、存储层、查询层、产品层。第七十八页,共九十八页。大数据(shùjù)架构:淘宝海量数据,搜索引擎架构第七十九页,共九十八页。大数据架构:淘宝海量(hǎiliàng)数据,网络效劳架构第八十页,共九十八页。3.大数据架构设计:智慧(zhìhuì)城市架构设计基于结合物联网、云计算、大数据的智慧城市(chéngshì)系统架构第八十一页,共九十八页。案例(ànlì)分析:
基于工业物联网与大数据分析平台(píngtái)的能源管理系统——总体架构第八十二页,共九十八页。社会大生产无序无控排放(páifànɡ)是环保死敌一次能源(yīcìnénɡyuán)生产二次能源(èrcìnénɡyuán)生产一次排放二次能源使用二次排放次生排放原煤油气矿精炼电热油焦矿当前热点雾霾污染问题根源来自于无序无控排放,现在公布的雾霾指数标示只是城市假设干个监测点的结果呈现,具体排放源头及排放关键因素是什么?基于国情大量燃煤,燃煤换能效率低排放高,二次排放占较大比例,二次能源消耗再产生大量次生排放。煤煤电热焦电热焦油气所有排放环节均缺失精细在线监测数据,无序无控恶性排放无缘节能增效,开展决定总体能耗继续升高,缓解危局只能走节能减排信息化助力工业节能改造道路第八十三页,共九十八页。节能减排的难点(nádiǎn)及瓶颈节能减排管理如何着手节能减排措施如何把控节能减排效果如何确认节能减排空间如何诊断节能减排计量监测管理分析评估???节能(jiénénɡ)减排是覆盖全社会所有生产消费过程的大系统工程,配套的能源排放在线计量监测管理分析评估大数据信息化系统是其关键根底架构。目前存在四大难题1、节能(jiénénɡ)规划部署2、能耗诊断审计3、节能手段实施过程控制4、节能效益量化计算、EPC分成认证上报第八十四页,共九十八页。电信运营商覆盖全国物联网及云计算表达(biǎodá)优势十二五期末年排放超千吨标煤的省级重点(zhòngdiǎn)能耗单位原那么上必须纳入政府节能减排监管机构的监测量化管理,年排放超万吨标煤的国家级重点(zhòngdiǎn)能耗单位必须自建企业级能源管理系统接入当地市级能源管理监控中心,市级会聚到省级能源管理监控中心,省级接入中央发改委全国能源管理监控中心平台,市省中央所聚集的排放原始数据向全社会开放。这样超级大数据系统需要极高的云计算网络存储资源,还要对各用能户建立多维度关联能耗排放模型,对自控可靠的用能户以模型仿真模拟结果对相关(xiāngguān)用能设备实施反向开关待机操作,实现用能设备动态能效优化,这样的操控实施理应掌控在国有3大运营商手中第八十五页,共九十八页。解决(jiějué)瓶颈问题--其他问题迎刃而解国家综合能源管理平台A省数据仓库及平台B省数据仓库及平台某行业数据接口服务器前端数据采集物联网网关前端辅助数据接口服务器前端数据采集物联网网关前端辅助数据接口服务器前端数据采集物联网网关前端辅助数据接口服务器第八十六页,共九十八页。物联网云计算大数据结合(jiéhé)--关键技术途径网管系统、动环系统负责运营商自身能耗数据采集及融合,政府发文强制重点能耗企业采用标准化物联网采集网关及国标智能电表无线接入此系统、或企业已有系统按统一能耗排放数据采集及接口标准标准专线转发(zhuǎnfā)接入此系统〔只要挂表接入政府均有适当补贴〕,运营商收流量费及功能费,如用能户使用能源审计诊断功能可另收咨询费等,政府向运营商付财政补贴、维护费、流量费及效劳费购置效劳,运营商还可收能耗排放源数据交易费并向政府交管理费等。第八十七页,共九十八页。用能端能耗(nénɡhào)分量计量及影响因素感知采集辅助(fǔzhù)设备能耗主设备(shèbèi)能耗照明能耗办公设备能耗室内外温湿度振动压力等地理装机空间建材环境等物联网网关电信运营商综合能耗管理大数据云平台m2m(包括3G/4G、WLAN、PTN、IP)表示可根据本用能单元的能耗模型仿真预测结果酌情进行辅助开/关/待机/调节操作,以管控相关用能设备使其能耗动态优化产量负荷等生产ERP系统第八十八页,共九十八页。能源管理大数据系统信息(xìnxī)标准化动态数据静态数据根本配置信息:名称、编号、归属地市、位置信息〔GPS经纬度〕、面积、总载频数等;设备信息:标识码、名称、厂家、设备类型、规格型号、用途、入网时间、额定(édìng)功率、额定(édìng)负荷等;节能措施:技术名称、实施时间、描述等;能耗数据:用能场所(chǎnɡsuǒ)总耗电量、主设备耗电量、空调耗电量;环境因素:室内外温湿度;业务量:话务量、数据业务流量;A
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 申报金融课题的申请书
- 健身房承包合同协议书
- 主播与直播平台合作协议
- 个人借款质押合同协议书范例
- 健康课题申报书
- 强化微生物检验培训的策略试题及答案
- 水务项目的财务风险控制计划
- 2025年注册会计师考试备考心态调整试题及答案
- 行政管理师核心技能题及答案
- 证券交易行为与市场反应的试题及答案
- (三诊)绵阳市高中2022级高三第三次诊断性考试地理试卷A卷(含答案)
- 店长劳务合同协议
- 乳腺癌诊治指南与规范(2025年版)解读
- 肺癌化疗护理查房
- JJG 693-2011可燃气体检测报警器
- 廉洁合作承诺书(简单版)
- GB/T 35347-2017机动车安全技术检测站
- 人工智能发展史课件
- 医院定量检验性能验证实验方案设计
- 《组织行为学》题库(含答案)
- 重医大小儿外科学教案11先天性肠闭锁、肠狭窄及肠旋转不良
评论
0/150
提交评论