




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章安全第一—信息安全第7章数据为王——大数据CONTENTS目录7.1大数据的概述7.2大数据的发展7.3大数据的相关技术7.4大数据的应用大数据的概述7.1通俗含义使用单台计算机没法在规定时间内处理完,或者压根就没法处理的数据集大数据的含义在一定时间范围内不能以常规软件工具处理(存储和计算)的大而复杂的数据集结构化的传统数据+非结构化的新数据7.1.1大数据时代1.数据治权来源钱学森领导国防科技情报和信息工作的长期实践,用系统工程的方法,实现数据“活化”意义着眼长远的战略性引领时代的前瞻性化知为智的创新性2.数据主权运营主体数据的存储、处理、传输、利用的运营主体个人或组织国家对本国管辖地域范围内,任何个人和组织收集或产生的数据设施设备进行独立管辖,并采取措施使其免受他国侵害的权力7.1.2数据来源数据来源1.交易数据
POS机、信用卡刷卡、电子商务、互联网点击、企业资源规划系统、销售系统、公司的生产、库存、订单、供应链2.手机数据手机应用程序产生了海量基于用户使用情况所形成的大数据,其中,能够反映用户流动轨迹的数据也包括在内数据来源3.人为数据电子邮件、文档、图片、音频、视频,以及通过微信、博客等社交媒体产生的数据流4.传感器数据从环境中收集的根据外部刺激而变化的信号,可以用来监控、检测和识别周围环境的变化非结构性数据用于采集各种类型的环境参数7.1.3大数据的特征大量化PB(1000个T)EB(100万个T)ZB(10亿个T)数据来源:传感器、物联网、工业互联网、车联网、手机、平板电脑,微信和QQ聊天、上网搜索与购物等,都在产生着数量庞大的数据大数据多样化多年来一直主导着IT应用的关系型数据库中结构化半结构化包括电子邮件、文字处理文件以及大量的网络新闻非结构化广泛存在于社交网络、物联网、电子商务之中可变性指数据的变化,这意味着相同的数据在不同的上下文中可能具有不同的含义快速化含义指数据生成,存储,分析和移动的速度意义无线或有线机器和传感器可以在创建数据后立即传递。这可以实现实时数据流,并帮助企业做出有价值的快速决策价值含义大数据的核心特征意义通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据真实性指数据的准确度和可信赖度,代表数据的质量生产掌握数据信息数据进行专业处理大数据的概念数据的来源及6大特征大数据时代数据治权数据主权的重要性大数据的发展7.21.萌芽期2.成长期3.爆发期4.大规模应用期萌芽期时间
1980年-2008年现象商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等成长期时间
2009年-2012年现象互联网数据呈爆发式增长,大数据技术逐渐被大众熟悉和使用大数据爆发期我国在内的世界各个国家纷纷布局大数据战略2013年-2015年2013年百度、腾讯为代表的国内互联网公司出创新性的大数据应用2015年9月国务院发布《促进大数据发展行动纲要》大规模应用期
2016年至今以及以后,大数据应用渗透到各行各业,大数据产业迎来快速发展和大规模应用实施预热阶段2014年3月,大数据“首次”写入政府工作报告起步阶段2015年8月,国务院印发《促进大数据发展的行动纲要》落地阶段2016年3月,《十三五规划纲要》第二十七章“实施”国家大数据战略2016年12月,工信部发布《大数据产品发展规划(2016-2020年)》数据大国数据强国2017年10月推动大数据与实体经济深度融合2017年12月实施国家大数据战略进行集体学习2019年3月大数据连续6年写入政府工作报告2020年4月9日确数据要素市场配置上升为国家政策2021年完善大数据体系建设深化阶段大数据的相关技术7.37.3.1大数据采集数据采集数据预处理大数据存储数据分析挖掘“集”则是数据的清洗、连接、整合,将价值密度低的数据转化为价值密度高的数据数据采集“采”主要是数据的获取1.数据库采集定义指一些企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。数据库Redis、HBase、NoSQL数据库2.网络数据采集定义指通过网络爬虫或网站公开API(即数据源提供者开放的数据采集接口)等方式从网站上获取数据信息。作用将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。3.文件采集定义大数据平台按照数据仓库的源数据的结构,定义好一套标准的数据格式,用户按照此数据格式产生相应的日志文件,大数据平台通过监控日志文件的变化,将数据传输到数据仓库上,并进行实时/离线的数据处理与存储。7.3.2大数据预处理数据预处理
对采集到的原始数据进行清洗、填补、平滑、合并、规格化以及一致性检查等数据清理数据转换数据规约数据集成数据预处理1.数据清理将要用到的数据中重复、多余部分的数据进行筛选并清除;把缺失部分补充完整,并将不正确的数据纠正或者删除。数据预处理2.数据集成将不同数据源中的数据,合并存放到统一数据库的存储方法。模式匹配数据冗余数据值冲突检测与处理数据预处理3.数据转换指对所抽取出来的数据中存在的不一致问题,进行处理的过程。4.数据规约指在最大限度保持数据原貌的基础上,最大限度精简数据量,以得到较小数据集的操作。7.3.3大数据存储指用存储器,以数据库的形式,存储采集到的数据的过程大数据存储1.基于MPP架构的新型数据库集群MPP架构是传统的数据仓库,将单机数据库节点组成集群,从而提升处理性能。非共享架构用网络连接大数据存储2.基于Hadoop的技术扩展和封装针对传统关系型数据库难以处理的数据和场景利用Hadoop开源优势及相关特性非结构化数据的存储和计算等善于处理非结构、半结构化数据、复杂的ETL流程、复杂的数据挖掘和计算模型等大数据存储3.大数据一体化专为大数据的分析处理而设计的软、硬件结合的产品由一组集成的服务器、存储设备、操作系统、数据库管理系统,以及为数据查询、处理、分析而预安装和优化的软件组成具有良好的稳定性和纵向扩展性7.3.4数据分析与挖掘数据分析与挖掘数据挖掘指对大量的数据进行分析和挖掘,得到一些未知的有价值的信息等。数据分析对已知的数据进行分析,然后提出一些有价值的信息,数据分析由于数据采集、数据挖掘、数据可视化组成。数据分析与数据挖掘密不可分,数据挖掘是数据分析的提升。1.数据可视化3.预测性分析2.数据挖掘算法1.数据可视化数据可视化指借助图形化手段,清晰并有效传达与沟通信息的分析手段。数据可视化主要应用于海量数据关联分析,即借助可视化数据分析平台,对分散异构数据进行关联分析,并做出完整分析图表的过程,具有简单明了、清晰直观、易于接受的特点。数据分析与挖掘2.数据挖掘算法大数据分析的理论核心,即通过创建数据挖掘模型而对数据进行试探和计算的数据分析手段。数据分析与挖掘3.预测性分析通过结合多种高级分析功能达到预测不确定事件的目的。数据分析与挖掘数据采集数据预处理大数据存储数据分析挖掘大数据的应用7.4交通领域农业领域城市领域物流领域医疗领域交通领域交通领域结合大数据应用有效解决城市拥堵提高城市管理水平,打造整体智慧交通发展道路。农业领域1.加快作物育种大数据加快了作物育种,遗传学的进步导致生物信息的爆炸式增长模式生物基因组测序的开始高通量或自动化实验技术的快速应用速度快成本低2.驱动耕种方法利用定位系统和其他技术生产者可以精确地追踪不同田地的产出,操纵和控制设备,监测田地状况,管理投入品,大幅提高生产率和利润。计算机软件以机器学习为核心的软件应用在与数据、设备和人类互动时变得越来越智能化和定制化。分析咨询3.让农业信息透明化目标向农民提供个性化方案,将每块田地的耕种细化到作物个体,使用有关气候和土壤条件、作物以及产出的数据。4.可实现食物追踪溯源大数据对食物从田间到餐桌的过程进行追踪,可以预防疾病、减少浪费和提高利润。城市领域有效实现了基层党组织对社情民意的动态掌握、精准管理、高效服务。1.智慧社区管理中的应用2.智慧城市交通领域中的应用市民掌握城市交通路段情况,避免拥堵阶段和易发生交通事故的路段,确保安全、高效便捷出行。3.智慧城市环境保护领域中的应用提高城市环境保护的力度提高环境治理的效益提供了新的思路与新的方法有助于保障城市居民的居住环境4.智慧城市规划方面的应用交通领域农业领域城市领域物流领域医疗领域课后习题:1.请阐述什么是大数据。2.请阐述大数据的两个时代。3.请阐述大数据预处理的过程。4.请阐述大数据的“6V”特征。5.请举例说明大数据的应用。第3章安全第一—信息安全第8章智能赋予——人工智能CONTENTS目录8.1人工智能的概述8.2人工智能的核心技术8.3新一代信息技术的应用人工智能的概述8.1人工智能的概述人工智能是研究开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学人工智能的概述人工智能是研究开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学研究目的促使智能机器会听、会看、会说、会思考、会学习、会行动语音识别、机器翻译图像识别、文字识别语音合成、人机对话人机对弈、定理证明机器学习、知识表示机器人、自动驾驶汽车8.1.1人工智能的定义智能人工智能的定义人工人造的,非天然的生物学的智能对人的智能本身的研究其他关于动物或其他人造系统的智能在计算机领域内人工智能的研究人工智能的定义8.1.2人工智能的发展1.20世纪50年代——人工智能的起步图灵测试1950年,著名的图灵测试诞生,按照“人工智能之父”艾伦·图灵(AlanTuring)的定义:如果一台计算机能够与人类展开对话(通过电传设备)而不能被辨别出其计算机身份,那么称这台计算机具有智能。图灵测试中人类测试者向两个未知的回答者(其中一个是人类,另一个是计算机)问出一系列的问题,来判断哪个是人类、哪个是计算机,人类测试者若不能分辨那就说明计算机通过了测试2.反思发展期20世纪60年代—70年代初开始尝试更具挑战性的任务,提出一些不切实际的研发目标接二连三的失败和预期目标的落空,人工智能的发展走入低谷3.应用发展期20世纪70年代初—80年代中从理论研究走向实际应用从一般推理策略探讨转向运用专门知识医疗化学地质4.低迷发展期20世纪80年代中至90年代中应用领域狭窄缺乏常识性知识知识获取困难推理方法单一缺乏分布式功能难以与现有数据库兼容5.稳步发展期20世纪90年代中—2010年6.蓬勃发展期2011年至今大数据云计算互联网物联网信息技术泛在感知数据和图形处理器等计算平台推动以深度神经网络为代表的人工智能技术飞速发展。我国人工智能的发展与未来8.28.2.1发展历程8.2.2我国人工智能政策环境分析8.2.3未来的发展人工智能相关技术逐步成为“事关国家安全和发展全局的基础核心领域”。为进一步推动解决我国人工智能核心技术中的不足和短板,相关文件指出,在“十四五”期间将通过一批具有前瞻性、战略性的国家重大科技项目,带动产业界逐步突破前沿基础理论和算法,研发专用芯片,构建深度学习框架等开源算法平台,并在学习推理决策、图像图形、语音视频、自然语言识别处理等领域创新与迭代应用。1.突破核心技术发展人工智能应以产业的融合应用与产业数字化转型为核心目标,进而逐渐形成数据驱动、人机协同、跨界融合、共创分享的智能经济形态。要以数字化转型整体驱动生产方式、生活方式和治理方式变革,充分发挥我国数据、应用场景的优势,实施“上云用数赋智”行动,促进数字技术与实体经济深度融合。通过建设重点行业人工智能数据集,发展算法推理训练场景,推进智能医疗装备、智能运载工具、智能识别系统等智能产品制造,推动通用化和行业性人工智能开发平台建设,在智能交通、智慧能源、智能制造、智慧农业及水利、智慧教育、智慧医疗、智慧文旅、智慧社区、智慧家居、智慧政务等领域形成一系列数字化、智能化应用场景。2.打造数字经济新优势针对当前学术界和产业界关心的伦理与法律风险、AI技术滥用、算法杀熟等人工智能健康发展的问题,要构建与数字经济发展相适应的政策法规体系。3.突破核心技术人工智能的核心技术8.3计算机视觉机器学习自然语言处理8.3.1计算机视觉计算机视觉指计算机从图像中识别出物体、场景和活动的能力。计算机视觉技术运用由图像处理操作及其他技术所组成的序列,将图像分析任务分解为便于管理的小块任务。1.人脸识别零售行业跟踪顾客在商店的移动分析导航路线、检测步行模式、衡量店面关注时间通过增加定向注视检测功能,了解在商店中放置商品的位置改善消费者体验并提高销售额2.安防布控人、车、物3.工业制造预测性维护工况监视成品检验质量控制4.医疗保健医学图像分析4.医疗保健将人和周围环境放置在平面图中,帮助视力障碍人群提供实时的视觉体验,从而帮助他们安全地导航室内环境5.自动驾驶对象检测6.农业领域识别分析土壤针对问题采取方案识别属性分类8.3.2机器学习机器学习
人工智能的一个分支,也是人工智能的一种实现方法从样本数据中学习得到知识和规律,然后用于实际的推断和决策和普通程序的一个显著区别是需要样本数据,是一种数据驱动的方法使用算法解析数据,从中学习,然后对新数据做出决定或预测8.3.3自然语言处理自然语言处理
自然语言处理(NLP)是研究人与计算机交互的语言问题的一门学科。它研究人与计算机之间用自然语言进行有效通信的理论和方法。工作原理人类的自然语言转译自然语言分析自然语言输出结果人类的自然语言转译自然语言分析自然语言输出结果自然语言处理
利用人类交流所使用的自然语言与机器进行交互通讯的技术,对自然语言各方面的分析,理解出用户想表达的意思,从而得到机器可读并理解的语言。自然语言理解(NLU)自然语言生成(NLG)自然语言的理解
希望机器可以和人一样,有理解他人语言的能力自然语言理解可以让机器从各种自然语言
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 特色主题餐厅股权变更及后续经营合作协议
- 变频供水设备安装招标文件技术要求
- 乐园公约交友活动方案
- 单位话费补贴管理制度
- 停车管理安全管理制度
- 厨房员工荤菜管理制度
- 市城区两湖治理引水工程施工组织设计
- 医院工地安全管理制度
- 山东地税服装管理制度
- 公司租赁住房管理制度
- 电商仓库流程及诊断
- 施工场地平整施工方案
- 湘少版英语三至六年级单词表(带音标)
- SCB系列干式变压器使用说明书
- 202x检察院工作总结汇报、述职报告PPT模板
- YYT 1182-2020 核酸扩增检测用试剂(盒)
- GB∕T 33212-2016 锤上钢质自由锻件 通用技术条件
- 高效液相色谱法分析(三聚氰胺)原始记录1
- 全国公共英语等级考试三教材-Monolog-and-passage原文及翻译-一字一句输入的
- 小学语文教师进城考考试试题及答案
- 汇川伺服追剪控制指导说明完整版
评论
0/150
提交评论