版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一課:大數據技術架構解析陳海燕 .10.24 整理第1页目錄 一、大數據建設思绪二、大數據基本架構三、大數據目標效果四、課程總結第2页一、大數據建設思绪 大數據數量龐大,格式多樣化。大量數據由家庭、製造工廠和辦公場所各種設備、互聯網事務交易、社交網路活動、自動化感測器、移動設備以及科研儀器等生成。它爆炸式增長已超出了傳統IT基礎架構處理能力,給企業和社會帶來嚴峻資料管理問題。所以必須開發新資料架構,圍繞“數據搜集、數據管理、數據分析、知識形成、智慧行動”全過程,開發使用這些資料,釋放出更多數據隱藏價值。第3页1.數據獲得第4页1.數據獲得 大數據產生根本原因在於感知式系統廣泛使用。隨著技術發
2、展,人們已經有能力製造極其微小帶有處理功效感測器,並開始將這些設備廣泛佈置於社會各個角落,通過這些設備來對整個社會運轉進行監控。這些設備會源源不斷產生新資料,這種數據產生方式是自動。所以在數據搜集方面,要對來自網路包含物聯網、社交網路和機構資訊系統資料附上時空標誌,去偽存真,盡可能搜集異源甚至是異構數據,必要時還可與歷史數據對照,多角度驗證數據全方面性和可信性。第5页2.數據匯集和存儲 數據只有不斷流動和充分共用,才有生命力。應在各專用數據庫建設基礎上,通過數據集成,實現各級各類資訊系統數據交換和數據共用。數據存儲要達到低成本、低能耗、高可靠性目標,通常要用到冗餘配置、分佈化和雲計算技術,在存
3、儲時要按照一定規則對數據進行分類,通過過濾和去重,減少存儲量,同時加入便於日後檢索標籤。第6页3.數據管理 大數據管理技術也層出不窮。在眾多技術中,有6種數據管理技術普遍被關注,即分散式存儲與計算、記憶體數據庫技術、列式數據庫技術、雲數據庫、非關聯式數據庫、移動數據庫技術。其中分散式存儲與計算受關注度最高。左圖是一個圖書數據管理系統。第7页4.數據分析 數據分析處理:有些行業數據包括上百個參數,其複雜性不僅體現在數據樣本本身,更體現在多源異構、多實體和多空間之間交互動態性,難以用傳統方法描述與度量,處理複雜度很大,需要將高維圖像等多媒體資料降維後度量與處理,利用上下文關聯進行語義分析,從大量動
4、態而且可能是模棱兩可數據中綜合資訊,並匯出可了解內容。大數據處理類型: 批次處理-先存儲後處理 流處理-直接處理數據數據挖掘任務:關聯分析聚類分析分類預測時序模式偏差分析第8页5.大數據價值:決策支持系統DDS 大數據神奇之處就是通過對過去和現在數據進行分析,它能夠精確預測未來;通過對組織內部和外部數據整合,它能夠洞察事物之間相關關係;通過對海量數據挖掘,它能夠代替人腦,承擔起企業和社會管理職責。第9页6.數據使用大數據有三層內涵:數據量巨大、來源多樣和類型 多樣數據集;新型數據處理和分析技術;運用數據分析形成價值。 大數據對科學研究、經濟建設、社會發展和文化生活等各個領域正在產生革命性影響。
5、大數據應用關鍵,也是其必要條件,就在於IT與經營融合,當然,這裡經營內涵能够非常廣泛,小至一個零售門店經營,大至一個城市經營。第10页二.大數據基本架構基於上述大數據特徵,通過傳統IT技術存儲和處理大數據成本高昂。一個企業要大力發展大數據應用首先需要解決兩個問題:一是低成本、快速地對海量、多類別數據進行抽取和存儲;二是使用新技術對數據進行分析和挖掘,為企業創造價值。所以,大數據存儲和處理與雲計算技術密不可分,在當前技術條件下,基於廉價硬體分散式系統(如Hadoop等)被認為是最適合處理大數據技術平臺。Hadoop是一個分散式基礎架構,能夠讓用戶方便高效地利用運算資源和處理海量數據,当前已在很多
6、大型互聯網企業得到了廣泛應用,如亞馬遜、Facebook和Yahoo等。其是一個開放式架構,架構成員也在不斷擴充完善中。第11页1. Hadoop體系架構 Thrift是一個軟體框架,用來進行可擴展且跨語言服務開發,最初由Facebook開發,是構建在各種程式設計語言間無縫結合、高效服務。Zookeeper在Hadoop架構中負責應用程式協調工作,以保持Hadoop集群內同时工作。Sqoop是為資料互通性而設計,能够從關聯式資料庫導入資料到Hadoop,並能直接導入到HDFS或Hive。Hive是Hadoop架構中數據倉庫,主要用於靜態結構以及需要經常分析工作。Hbase主要作為面向列數據庫運
7、行在HDFS上,可存儲PB級數據。Hbase利用MapReduce來處理內部海量數據,並能在海量數據中定位所需數據且訪問它。 Hadoop关键是MapReduce(映射和化簡編程模型)引擎,Map意為將單個任務分解為多個,而Reduce則意為將分解後多工結果匯總,該引擎由JobTrackers(工作追蹤,對應命名節點)和TaskTrackers(任務追蹤,對應資料節點)組成。當處理大資料查詢時,MapReduce會將任務分解在多個節點處理,從而提升了資料處理效率,防止了單機性能瓶頸限制。 Hadoop最底層是一個HDFS(Hadoop Distributed File System,分散式檔案
8、系統),存儲在HDFS中檔先被分成塊,然後再將這些塊複製到多個主機中(DataNode,資料節點)。Hbase是一個列式數據庫,存儲列式數據第12页2. Hadoop关键設計第13页3. Hbase分散式數據存儲系統第14页3. Hbase分散式數據存儲系統Client:使用HBase RPC機制與HMaster和HRegionServer進行通信Zookeeper:協同服務管理,HMaster通過Zookeepe能够隨時感知各個HRegionServer健康狀況HMaster:管理用戶對表增刪改查操作HRegionServer:HBase中最关键模組,主要負責回應使用者I/O請求,向HDFS
9、檔案系統中讀寫數據HRegion:Hbase中分散式存儲最小單元,能够了解成一個TableHStore:HBase存儲关键。由MemStore和StoreFile組成。HLog:每次用戶操作寫入Memstore同時,也會寫一份資料到HLog文件第15页4. 大數據平臺系統功效建議第16页5. 大數據平臺系統功效說明應用系統 對於大多數企業而言,運營領域應用是大數據最关键應用,之前企業主要使用來自生產經營中各種報表數據,但隨著大數據時代到來,來自於互聯網、物聯網、各種感測器海量數據撲面而至。於是,一些企業開始挖掘和利用這些數據,來推動運營效率提升。數據平臺 借助大數據平臺,未來互聯網路將能够讓商
10、家更瞭解消費者使用習慣,從而改進使用體驗。基於大數據基礎上相應分析,能夠更有針對性改進用戶體驗,同時挖掘新商業機會。數據源 數據源是指數據庫應用程式所使用數據庫或者數據庫伺服器。豐富數據源是大數據產業發展前提。數據源在不斷拓展,越來越多樣化。如:智慧汽車能够把動態行駛過程變成數據,嵌入到生產設備裡物聯網能够把生產過程和設備動態狀況變成數據。對數據源不斷拓展不僅能帶來採集設備發展,而且能够通過控制新數據源更加好地控制數據價值。然而我國數位化數據資源總量遠遠低於美歐,就已经有有限數據資源來說,還存在標準化、準確性、完整性低,利用價值不高情況,這大大降低了數據價值。第17页三.大數據目標效果 第18
11、页1.數據整合統一數據模型 承載企業數據模型,促進企業各域數據邏輯模型統一;統一數據標準 統一建立標準數據編碼目錄,實現企業數據標準化與統一存儲;統一數據視圖 實現統一數據視圖,使企業在客戶、產品和資源等視角獲取到一致資訊。第19页2.數據質量管控數據品質校驗 根據規則對所存儲數據進行一致性、完整性和準確性校驗,保證數據一致性、完整性和準確性;數據品質管控 通過建立企業數據品質標準、數據管控組織、數據管控流程,對數據品質進行統一管控,以達到數據品質逐步完善。第20页3.數據共享 消除網狀接口,建立大數據共用中心,為各業務系統提供共用數據,降低接口複雜度,提升系統間接口效率與品質;以即時或准即時方式將整合或計算好數據向外系統提供。第21页4.數據應用查詢應用 平臺實現條件不固定、不可預見、格式靈活按需查詢功效;固定報表應用 視統計維度和指標固定分析結果展示,可根據業務系統需求,分析產生各種業務報表數據等;動態分析應用 按關心維度和指標對數據
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电缆生产的卓越之路-工艺优化与质量提升策略
- 人教版三年级语文下册教案
- 电子商务公司财务部管理办法
- 烟草仓库消防安全管理规范
- 城市照明改造工程中心管理办法
- 美容院安全消防施工合同
- 恒大园林绿化招标流程一览
- 市政工程招投标代理合同范本
- 乐器行乐器保养细则
- 税务局铝塑板安装施工协议
- 2024年社区工作者面试题库与答案
- 2024年菱角项目可行性研究报告
- 农产品质量追溯系统操作手册
- 双减背景下“减负增效”初中数学作业设计策略研究课题开题报告
- 6.18美国的独立课件-2024-2025学年统编版九年级历史上册
- 2024年高考真题-化学(贵州卷) 含答案
- 小学劳动技术三年级上册《小纽扣 自己缝》教学设计及反思
- 2024-2030年中国线束行业市场发展趋势与前景展望战略分析报告
- 《2024版CSCO胰腺癌诊疗指南》更新要点
- 《ModelBase智能驾驶建模仿真与应用》全套教学课件
- 诊断学《心脏检查》(视触叩诊听诊)课件
评论
0/150
提交评论