第7章.数据为王-大数据_第1页
第7章.数据为王-大数据_第2页
第7章.数据为王-大数据_第3页
第7章.数据为王-大数据_第4页
第7章.数据为王-大数据_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章安全第一—信息安全第7章数据为王——大数据CONTENTS目录7.1大数据的概述7.2大数据的发展7.3大数据的相关技术7.4大数据的应用大数据的概述7.1通俗含义使用单台计算机没法在规定时间内处理完,或者压根就没法处理的数据集大数据的含义在一定时间范围内不能以常规软件工具处理(存储和计算)的大而复杂的数据集结构化的传统数据+非结构化的新数据7.1.1大数据时代1.数据治权来源钱学森领导国防科技情报和信息工作的长期实践,用系统工程的方法,实现数据“活化”意义着眼长远的战略性引领时代的前瞻性化知为智的创新性2.数据主权运营主体数据的存储、处理、传输、利用的运营主体个人或组织国家对本国管辖地域范围内,任何个人和组织收集或产生的数据设施设备进行独立管辖,并采取措施使其免受他国侵害的权力7.1.2数据来源数据来源1.交易数据

POS机、信用卡刷卡、电子商务、互联网点击、企业资源规划系统、销售系统、公司的生产、库存、订单、供应链2.手机数据手机应用程序产生了海量基于用户使用情况所形成的大数据,其中,能够反映用户流动轨迹的数据也包括在内数据来源3.人为数据电子邮件、文档、图片、音频、视频,以及通过微信、博客等社交媒体产生的数据流4.传感器数据从环境中收集的根据外部刺激而变化的信号,可以用来监控、检测和识别周围环境的变化非结构性数据用于采集各种类型的环境参数7.1.3大数据的特征大量化PB(1000个T)EB(100万个T)ZB(10亿个T)数据来源:传感器、物联网、工业互联网、车联网、手机、平板电脑,微信和QQ聊天、上网搜索与购物等,都在产生着数量庞大的数据大数据多样化多年来一直主导着IT应用的关系型数据库中结构化半结构化包括电子邮件、文字处理文件以及大量的网络新闻非结构化广泛存在于社交网络、物联网、电子商务之中可变性指数据的变化,这意味着相同的数据在不同的上下文中可能具有不同的含义快速化含义指数据生成,存储,分析和移动的速度意义无线或有线机器和传感器可以在创建数据后立即传递。这可以实现实时数据流,并帮助企业做出有价值的快速决策价值含义大数据的核心特征意义通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据真实性指数据的准确度和可信赖度,代表数据的质量生产掌握数据信息数据进行专业处理大数据的概念数据的来源及6大特征大数据时代数据治权数据主权的重要性大数据的发展7.21.萌芽期2.成长期3.爆发期4.大规模应用期萌芽期时间

1980年-2008年现象商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等成长期时间

2009年-2012年现象互联网数据呈爆发式增长,大数据技术逐渐被大众熟悉和使用大数据爆发期我国在内的世界各个国家纷纷布局大数据战略2013年-2015年2013年百度、腾讯为代表的国内互联网公司出创新性的大数据应用2015年9月国务院发布《促进大数据发展行动纲要》大规模应用期

2016年至今以及以后,大数据应用渗透到各行各业,大数据产业迎来快速发展和大规模应用实施预热阶段2014年3月,大数据“首次”写入政府工作报告起步阶段2015年8月,国务院印发《促进大数据发展的行动纲要》落地阶段2016年3月,《十三五规划纲要》第二十七章“实施”国家大数据战略2016年12月,工信部发布《大数据产品发展规划(2016-2020年)》数据大国数据强国2017年10月推动大数据与实体经济深度融合2017年12月实施国家大数据战略进行集体学习2019年3月大数据连续6年写入政府工作报告2020年4月9日确数据要素市场配置上升为国家政策2021年完善大数据体系建设深化阶段大数据的相关技术7.37.3.1大数据采集数据采集数据预处理大数据存储数据分析挖掘“集”则是数据的清洗、连接、整合,将价值密度低的数据转化为价值密度高的数据数据采集“采”主要是数据的获取1.数据库采集定义指一些企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。数据库Redis、HBase、NoSQL数据库2.网络数据采集定义指通过网络爬虫或网站公开API(即数据源提供者开放的数据采集接口)等方式从网站上获取数据信息。作用将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。3.文件采集定义大数据平台按照数据仓库的源数据的结构,定义好一套标准的数据格式,用户按照此数据格式产生相应的日志文件,大数据平台通过监控日志文件的变化,将数据传输到数据仓库上,并进行实时/离线的数据处理与存储。7.3.2大数据预处理数据预处理

对采集到的原始数据进行清洗、填补、平滑、合并、规格化以及一致性检查等数据清理数据转换数据规约数据集成数据预处理1.数据清理将要用到的数据中重复、多余部分的数据进行筛选并清除;把缺失部分补充完整,并将不正确的数据纠正或者删除。数据预处理2.数据集成将不同数据源中的数据,合并存放到统一数据库的存储方法。模式匹配数据冗余数据值冲突检测与处理数据预处理3.数据转换指对所抽取出来的数据中存在的不一致问题,进行处理的过程。4.数据规约指在最大限度保持数据原貌的基础上,最大限度精简数据量,以得到较小数据集的操作。7.3.3大数据存储指用存储器,以数据库的形式,存储采集到的数据的过程大数据存储1.基于MPP架构的新型数据库集群MPP架构是传统的数据仓库,将单机数据库节点组成集群,从而提升处理性能。非共享架构用网络连接大数据存储2.基于Hadoop的技术扩展和封装针对传统关系型数据库难以处理的数据和场景利用Hadoop开源优势及相关特性非结构化数据的存储和计算等善于处理非结构、半结构化数据、复杂的ETL流程、复杂的数据挖掘和计算模型等大数据存储3.大数据一体化专为大数据的分析处理而设计的软、硬件结合的产品由一组集成的服务器、存储设备、操作系统、数据库管理系统,以及为数据查询、处理、分析而预安装和优化的软件组成具有良好的稳定性和纵向扩展性7.3.4数据分析与挖掘数据分析与挖掘数据挖掘指对大量的数据进行分析和挖掘,得到一些未知的有价值的信息等。数据分析对已知的数据进行分析,然后提出一些有价值的信息,数据分析由于数据采集、数据挖掘、数据可视化组成。数据分析与数据挖掘密不可分,数据挖掘是数据分析的提升。1.数据可视化3.预测性分析2.数据挖掘算法1.数据可视化数据可视化指借助图形化手段,清晰并有效传达与沟通信息的分析手段。数据可视化主要应用于海量数据关联分析,即借助可视化数据分析平台,对分散异构数据进行关联分析,并做出完整分析图表的过程,具有简单明了、清晰直观、易于接受的特点。数据分析与挖掘2.数据挖掘算法大数据分析的理论核心,即通过创建数据挖掘模型而对数据进行试探和计算的数据分析手段。数据分析与挖掘3.预测性分析通过结合多种高级分析功能达到预测不确定事件的目的。数据分析与挖掘数据采集数据预处理大数据存储数据分析挖掘大数据的应用7.4交通领域农业领域城市领域物流领域医疗领域交通领域交通领域结合大数据应用有效解决城市拥堵提高城市管理水平,打造整体智慧交通发展道路。农业领域1.加快作物育种大数据加快了作物育种,遗传学的进步导致生物信息的爆炸式增长模式生物基因组测序的开始高通量或自动化实验技术的快速应用速度快成本低2.驱动耕种方法利用定位系统和其他技术生产者可以精确地追踪不同田地的产出,操纵和控制设备,监测田地状况,管理投入品,大幅提高生产率和利润。计算机软件以机器学习为核心的软件应用在与数据、设备和人类互动时变得越来越智能化和定制化。分析咨询3.让农业信息透明化目标向农民提供个性化方案,将每块田地的耕种细化到作物个体,使用有关气候和土壤条件、作物以及产出的数据。4.可实现食物追踪溯源大数据对食物从田间到餐桌的过程进行追踪,可以预防疾病、减少浪费和提高利润。城市领域有效实现了基层党组织对社情民意的动态掌握、精准管理、高效服务。1.智慧社区管理中的应用2.智慧城市交通领域中的应用市民掌握城市交通路段情况,避免拥堵阶段和易发生交通事故的路段,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论