版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据论文摘要数据发展到今天,已不再是一个新的概念,基于大数据技术的应用也层出不穷,但作为一项发展前景广阔的技术,其很多作用还有待挖掘,比如为人们的生活带来方便,为企业带来更多利益等。现今,互联网上每日产生的数据已由曾经的TB级发展到了今天的PB级、EB级甚至ZB级。如此爆炸性的数据怎样去使用它,又怎样使它拥有不可估量的价值呢?这就需要不断去研究开发,让每天的数据“砂砾”变为“黄金”。那么如何才能将大量的数据存储起来,并加以分析利用呢,大数据技术应运而生。大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化的处理。本文就大数据技术进行了深入探讨,从大数据的定义、特征以及目前的应用情况引入,简述了大数据分析的统计方法、挖掘方法、神经网络方法和基于深度学习框架的方法,并对大数据分析流程和框架、大数据存储模式和服务机制、大数据分析中的多源数据融合技术、高维数据的降维技术、子空间分析、集成分析的处理方法等做了概述。最后,以网络信息安全为例,阐述了该领域的大数据分析过程和方法。关键词大数据;数据挖掘;深度学习;大数据分析;网络信息安全一、大数据概述1.1大数据的定义和特征目前,虽然大数据的重要性得到了大家的一致认同,但是关于大数据的定义却众说纷纭。大数据是一个抽象的概念,除去数据量庞大,大数据还有一些其他的特征,这些特征决定了大数据与“海量数据”和“非常大的数据”这些概念之间的不同。一般意义上,大数据是指无法在有限时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。科技企业、研究学者、数据分析师和技术顾问们,由于各自的关注点不同,对于大数据有着不同的定义。通过以下定义,或许可以帮助我们更好地理解大数据在社会、经济和技术等方而的深刻内涵。2010年ApacheHadoop组织将大数据定义为,“普通的计算机软件无法在可接受的时间范围内捕捉、管理、处理的规模庞大的数据集”。在此定义的基础上,2011年5月,全球著名咨询机构麦肯锡公司发布了名为“大数据:下一个创新、竞争和生产力的前沿”的报告,在报告中对大数据的定义进行了扩充。大数据是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集。该定义有两方而内涵:(1)符合大数据标准的数据集大小是变化的,会随着时间推移、技术进步而增长;(2)不同部门符合大数据标准的数据集大小会存在差别。目前,大数据的一般范围是从几个TB到数个PB(数千TB)[2]。根据麦肯锡的定义可以看出,数据集的大小并不是大数据的唯一标准,数据规模不断增长,以及无法依靠传统的数据库技术进行管理,也是大数据的两个重要特征。大数据价值链可分为4个阶段:数据生成、数据采集、数据储存以及数据分析。数据分析是大数据价值链的最后也是最重要的阶段,是大数据价值的实现,是大数据应用的基础,其目的在于提取有用的值,提供论断建议或支持决策,通过对不同领域数据集的分析可能会产生不同级别的潜在价值。在日新月异的IT业界,各个企业对大数据都有着自己不同的解读.大数据的主要特征5个,即5"V”特征:Volume(容量大)、Variety(种类多)、Velocity(速度快)、难辨识(veracity)和最重要的Value(价值密度低)。Volume(容量大)是指大数据巨大的数据量与数据完整性。可指大数据集合中包含的数据多,也可指组成大数据的网络包含的子数据个数多。Variety(种类多)意味着要在海量、种类繁多的数据间发现其内在关联。大数据中包含的各种数据类型很多,既可包含各种结构化数据类型,又可包含各种非结构化数据类型,乃至其他数据类型。Velocity(速度快)可以理解为更快地满足实时性需求。大数据的结构和内容等都可动态变化,而且变化频率高、速度快、范围广,数据形态具有极大的动态性,处理需要极快的实时性。Veracity(难辨识)可以体现在数据的内容、结构、处理、以及所含子数据间的关联等多方面。大数据中可以包含众多具有不同概率分布的随机数和众多具有不同定义域的模糊数。数间关联模糊不清、并且可能随时随机变化。宏观经济景气分析。是国家统计局20世纪80年代后期开始着手建立监测指标体系和评价方法,经过十多年时间和不断完善,已形成制度,定期提供景气分析报告,对宏观经济运行状态起到晴雨表和报警器的作用,便于国务院和有关部门及时采取宏观调控措施。以经常性的小调整,防止经济的大起大落。企业景气调查分析。是全国的大中型各类企业中,采取抽样调查的方法,通过问卷的形式,让企业负责人回答有关情况判断和预期。内容分为两类:一是对宏观经济总体的判断和预期;一是对企业经营状况的判断和预期,如产品订单、原材料购进、价格、存货、就业、市场需求、固定资产投资等。八、预测分析宏观经济决策和微观经济决策,不仅需要了解经济运行中已经发生了的实际情况,而且更需要预见未来将发生的情况。根据已知的过去和现在推测未来,就是预测分析。统计预测属于定量预测,是以数据分析为主,在预测中结合定性分析。统计预测的方法大致可分为两类:一类是主要根据指标时间数列自身变化与时间的依存关系进行预测,属于时间数列分析;另一类是根据指标之间相互影响的因果关系进行预测,属于回归分析。挖掘方法:在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则等。这些方法从不同的角度对数据进行挖掘。(1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。(2)回归分析。回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变。(3)聚类。聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。(4)关联规则。关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的ATM机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。神经网络方法:神经网络方法。神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型,以Hopfield的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法,以ART模型为代表。虽然神经网络有多种模型及算法,但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则,而且人们很难理解网络的学习及决策过程。基于深度学习框架的方法:深度学习是多学科领域的交叉,比如神经网络、人工智能、图建模、最优化理论、模式识别和信号处理。需要注意的是本文所描述的深度学习是在信号和信息处理内容中学习出一种深度结构。它不是对信号和信息处理知识的理解,尽管某些意义上说它俩相似,但深度学习重点在于学习出一种深度网络结构,是实实在在存在的一种计算机可存储结构,这种结构表示了信号的某种意义上的内涵。从06年开始,深度结构学习方法(深度学习或者分层学习方法)作为机器学习领域的新的研究方向出现。由于三种主要领域的技术进步(比如芯片处理性能的巨大提升,数据爆炸性增长和机器学习与信信号处理研究的进步),在过去的短短几年时间,深度学习技术得到快速发展,已经深深的影响了学术领域,其研究涉及的应用领域包括计算机视觉、语音识别、对话语音识别、图像特征编码、语意表达分类、自然语言理解、手写识别、音频处理、信息检索、机器人学。深度学习的具体模型有自动编码器(稀疏自动编码器、降噪自动编码器)、深度置信网络以及卷积神经网络。3、简述大数据分析流程和框架、大数据存储模式与服务机制、大数据建模分析方法和深度学习理论大数据的处理流程可以定义为在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,结果按照一定的标准统一存储。利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户。可分为三个主要环节:数据抽取与集成、数据分析以及数据解释。数据的处理与集:成主要是完成对于己经采集到的数据进行适当的处理、清洗去噪以及进一步的集成存储。首先将这些结构复杂的数据转换为单一的或是便于处理的结构。还需对这些数据进行“去噪”和清洗,以保证数据的质量以及可靠性。现有的数据抽取与集成方式可以大致分为以下4种类型:基于物化或ETL方法的引擎,基于联邦数据库或中间件方法的引擎,基于数据流方法的引擎,基于搜索引擎的方法。数据分析:这是整个大数据处理流程的核心。因为在数据分析的过程中,会发现数据的价值所在。经过上一步骤数据的处理与集成后,所得的数据便成为数据分析的原始数据,根据所需数据的应用需求对数据进行进一步的处理和分析.传统的数据处理分析方法有挖掘建模分析(数据挖掘方法),智能建模分析(机器学习方法),统计分析等。数据解释:对于广大的数据信息用户来讲,最关心的并非是数据的分析处理过程,而是对大数据分析结果的解释与展示。数据解释常采用的方法有:可视化方式,人机交互方式,分析图表方式等,其中常见的可视化技术有基于集合的可视化技术、基于图标的技术、基于图像的技术、向像素的技术和分布式技术等。1.4.1MapReduceMapReduce系统主要由两个部分组成:Map和Reduce.MapReduce的核心思想在于“分而治之”,也就是说,首先将数据源分为若干部分,每个部分对应一个初始的键植(Key/Value)对,并分别给不同的Map任务区处理,这时的Map对初始的键一值(Key/Value)对进行处理,产生一系列中间结果Key/Value对,MapReduce的中间过程Shuffle将所有具有相同Key值的Value值组成一个集合传递给Reduce环节;Reduce接收这些中间结果,并将相同的Value值合并,形成最终的较小Value值的集合。1.4.2分布式文件系统分布式文件系统GFS。这个分布式文件系统是个基于分布式集群的大型分布式处理系统,作为上层应用的支撑,为MapReduce计算框架提供低层数据存储和数据可靠性的保障。GFS主要采取主从结构通过数据分块、追加更新等方式实现海量数据的高速存储。1.4.3分布式并行数据库(BigTable)BigTable中的数据均以子表形式保存于子表服务器上,主服务器创建子表,最终将数据以UFS形式存储于GFS文件系统中;同时客户端直接和子表服务器通信,Chubby服务器用来对子表服务器进行状态监控;主服务器可以查看Chubby服务器以观测子表状态检查是否存在异常,若有异常则会终比故障的子服务器并将其任务转移至其余服务器.1.4.4开源实现平台Hadoop现在Hadoop己经发展为一个包括分布式文件系统(HadoopDistributedFileSystem,HDFS)、分布式数据库(HBase、Cassandra)以及数据分析处理MapReduce等功能模块在内的完整生态系统(Ecosys-tem),现己经发展成为目前最流行的大数据处理平台。在这个系统中,以MapReduce算法为计算框架,HDFS是一种类似于GFS的分布式文件系统,可以为大规模的服务器集群提供高速度的文件读写访问。HBase是一种与BigTable类似的分布式并行数据库系统,可以提供海量数据的存储和读写,而且兼容各种结构化或非结构化的数据。3.1大数据分析流程和框架1)大数据的预处理阶段:大数据的预处理过程即一个数据的清洗过程,从字而上理解是将已存储好的数据进行一个去“脏”的过程。更确切的说法是将存储数据中可识别的错误去除。在数据仓库中和数据挖掘过程中,数据清洗是使得数据在一致(Consisten-oy)、正确性(Correotness}、完整性(Completeness)和最小性(Minimality)四个指标满足上达到最优。2)大数据的输入接口:在大数据的预处理阶段完成后,对其满足输入规范的数据进行统一管理,并将输入数据进行一定的特征提取和数据的关联分析。在通过使用输入接口的同时,开放算法接口模块卡,接收来自不同的算法,而对数据集进行分析和整理。3)分析沙箱:分析沙箱就研究而言,相当于一个资源组,在这个资源组里,分析专家们能够根据个人的意愿对数据进行各种探索。在分析的整个流程中,沙箱为使用分析平台的专家们提供更为专业的模块接口和参数选择,方便分析人员提取更为有效的数据参数,来更加精确地展示分析结果。4)大数据的输出接口:作为大数据分析的出口,为大数据的输出提供了统一的规范和标准。作为大数据展示的最后一道工序,大数据的输出接口应具备如下特点:(1)规范性、(2)可复用性及剩余资料保存性、(3)模型化、(4)查询共享性、(5)索引性。5)大数据的展示:可视化工具发展得如此迅速,同时也被越来越多地应用在各个领域,在大数据的结果展示中,采用数据可视化技术将更加高效形象地展示大数据的价值和鲜明的对比性。3.2大数据存储模式与服务机制分布式系统包含多个自主的处理单元,通过计算机网络互联来写作完成分配的任务。分布式系统更能适应现在分布广泛的企业的组织结构,更加可靠,响应速度更快。3.2.1大数据存储模式分布式文件系统:大数据存储需要多种技术的协同工作,其中文件系统为其提供最底层的存储能力的支持。分布式文件系统是一个基于C/S的应用程序,允许来自不同终端用户访问和处理服务器上的文件。GFS主要采取主从结构通过数据分块、追加更新等方式实现海量数据的高速存储。分布式键值系统:分布式键值系统用于存储关系简单的半结构化数据,可以看作是分布式表格系统的一种特例,它只提供基于主键的CRUD功能,一般用作分布式缓存。分布式表格系统:分布式表格系统对外提供表格模型,用于存储较为复杂的半结构化数据。与分布式键值系统相比,它不仅支持简单的CRUD操作,还支持扫描某个主键范围的操作。与分布式数据库相比,分布式表格系统主要是单表操作。分布式数据库:分布式数据库指的是多个物理上分散的数据库单元通过计算机网络互连组成的一个逻辑上统一的数据库。它对用户透明,一般是单机关系型数据库扩展而来。3.2.2大数据服务机制服务是大数据发展的核心,唯有将重点放在数据的分析挖掘和应用上,才能最大程度实现大数据的真正价值,也唯有分析与应用才是大数据及大数据产业发展的重中之重。因此可以认为,以数据为中心,为满足用户对数据的分析应用需求而提供的大数据服务将是大数据发展的核心。同时,大数据服务不是一种通用型的服务,而是与基础数据和用户需求息息相关的定制化服务、知识型服务。3.3大数据建模分析方法和深度学习理论3.3.1大数据建模分析方法第一,自动预测趋势和行为。数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。第二,关联分析。数据关联是数据库中存在的一类重要的可被发现的知识,若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析旨在找出具有强相关关系的几个属性。典型案例是啤酒和尿布的关联分析,关联分析经常用在电子商务的产品推荐中。第三,聚类。数据库中的一些相类似的记录可以划归到一起,即聚类。聚类常常帮助人们对事物进行再认识。在社交网络分析中经常用到聚类技术。大数据分析技术经过这几年的发展,已经形成了一些比较成熟稳定的模型算法。常见的模型算法有关联规则分析、决策树、神经网络、K-MEANS聚类、支持向量机、多元线性回归、广义线性回归、贝叶斯网络、Cox以及K近邻等。这些算法模型有的适合预测趋势和行为,有的适合关联分析,有的适合聚类分析;每种模型算法都有各自的优劣性,我们可以针对不同的场景选择合适的算法模型进行大数据分析挖掘。五、以网络信息安全为例,阐述该领域的大数据分析过程和方法在网络信息安全领域,应有效利用大数据中的价值,比如棱镜门,就是在监听有价值的信息,六、大数据分析未来发展展望展望未来,面对大数据,将
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四年级数学(除数是两位数)计算题专项练习及答案
- 剧院舞台装修施工协议
- 家具拆卸运输协议范本
- 汽车美容店装修合同管理费
- 眼镜制造厂出租居间合同
- 教育培训项目的时间管理与进度措施
- 美容院装修风水布局合同
- 2024年度海南省公共营养师之三级营养师能力测试试卷A卷附答案
- 中学心理健康教育心得体会
- 保洁主管在危机管理中的职责
- 气管切开患者气道湿化的护理进展资料 气管切开患者气道湿化
- 管理模板:某跨境电商企业组织结构及部门职责
- 底架总组装工艺指导书
- 简单临时工劳动合同模板(3篇)
- 聚酯合成反应动力学
- 自动控制原理全套课件
- 上海科技大学,面试
- 《五年级奥数总复习》精编课件
- TS2011-16 带式输送机封闭栈桥图集
- 矿区道路工程施工组织设计方案
- 多联机的施工方案与技术措施
评论
0/150
提交评论