大数据相关理论和技术_第1页
大数据相关理论和技术_第2页
大数据相关理论和技术_第3页
大数据相关理论和技术_第4页
大数据相关理论和技术_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据相关理论和技术(2)胡经国二、大数据技术相关文献对大数据技术进行了简要论述,现将其介绍于下,供读者参考。本文在篇章结构、内容和文字上对原文献做了修改和补充,并且添加了一些小标题,特此说明。大数据技术包括数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。1、数据采集ETL是数据Extract(抽取)、Transform(转换)、Load(加载)的简写,它是指将OLTP系统中的数据抽取出来;并将不同数据源的数据进行转换和整合,得出一致性的数据;然后加载到数据仓库中。或者说,ETL(Extract-Transform-Load,抽取一转换一加载)工具负责将分布的、异构数据源中的数据,如关系数据、平面数据文件等,抽取到临时中间层;并进行清洗、转换、集成;最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。OLTP(On-LineTransactionProcessing,联机事务处理过程,也称为面向交易的处理过程)的基本特征是:在前台接收的用户数据可以立即传送到计算中心进行处理,并且在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。OLTP系统,即是联机事务处理系统,又称为面向交易的处理系统,或实时系统(RealtimeSystem)。其基本特征是用户的原始数据可以立即传送到计算中心进行处理,并且在很短的时间内给出处理结果。这样做的最大优点是可以即时地处理输入的数据,及时地回答用户。衡量联机事务处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间(ResponseTime),即用户在终端上送入数据之后直到计算机对这个请求给出答复所需要的时间。2、数据存取通过关系型数据库、NOSQL(“不使用SQL”的数据库,即非关系型数据库)、SQL(在关系型数据库中用于检索数据的一种编程语言)等进行数据的存取。3、基础架构大数据技术的基础架构包括云存储、分布式文件存储等。其中:分布式文件系统(DistributedFileSystem,DFS),是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点(可简单的理解为一台计算机或服务器)相连。分布式文件系统的设计基于客户机/服务器模式。计算机通过文件系统管理和存储数据。而在信息爆炸时代,人们可以获取的数据成指数倍地增长,单纯通过增加硬盘个数来扩展计算机文件系统的存储容量的方式,在容量大小、容量增长速度、数据备份、数据安全等方面的表现都不如人意。分布式文件系统可以有效解决数据的存储和管理难题。它将固定于某个地点的某个文件系统,扩展到任意多个地点/多个文件系统,众多的节点组成一个文件系统网络。这些节点可以分布在不同的地点,通过网络进行节点间的通信和数据传输。人们在使用分布式文件系统时,无需关心数据是存储在哪个节点上、或者是从哪个节点中获取的,只需要像使用本地文件系统一样管理和存储文件系统中的数据。4、数据处理自然语言处理(NaturalLanguageProcessing,NLP),是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机“理解”自然语言。所以,自然语言处理又叫做自然语言理解(NaturalLanguageUnderstanding,NLU),又称为计算语言学(ComputationalLinguistics)o一方面它是语言信息处理的一个分支;另一方面它是人工智能(ArtificialIntelligence,AI)的核心课题之一。我们知道,数据(Data)是对事实、概念或指令的一种表达形式,可以由人工或自动化装置进行处理。数据在经过解释并赋予一定的意义之后便成为信息。数据处理(DataProcessing)是对数据的采集、存储、检索、加工、变换和传输。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程。5、统计分析⑴、统计分析法的概念统计分析法是指通过对研究对象的规模、速度、范围、程度等数量关系的分析研究,认识和揭示事物之间的相互关系、变化规律和发展趋势,借以达到对事物的正确解释和预测的一种研究方法。世间任何事物都有质和量两个方面,要认识事物的本质必须掌握事物的量的规律。目前,数学已渗透到一切科技领域,使科技日趋量化;电子计算的推广和应用,量度设计和计算技术的改进和发展,促进了数量研究法的形成。它已成为自然科学和社会科学研究中不可缺少的一种研究方法。统计分析法就是运用数学方式建立数学模型,对通过调查获取的各种数据及资料进行数理统计和分析,从而形成定量的结论。统计分析法是目前广泛使用的现代科学方法,是一种比较科学、精确和客观的测评方法。其具体应用方法很多,在实践中使用较多的是指标评分法和图表测评法等。⑵、大数据统计分析具体应用方法大数据统计分析的具体应用方法很多,包括:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、Logistic(逻辑)回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、Bootstrap技术等等。其中,Bootstrap是美国Twitter公司开发的简洁、直观、功能强大的前端开发框架,使得Web开发更加快捷。6、数据挖掘⑴、数据挖掘的概念数据挖掘是人工智能和数据库领域研究的热点问题。所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的、具有潜在价值的信息的复杂过程。数据挖掘是一种决策支持过程。它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,能够高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。数据挖掘是知识发现过程的重要环节之一。知识发现过程由以下三个环节组成:数据准备、数据挖掘以及结果表达和解释。数据挖掘可以与用户或知识库交互。⑵、数据挖掘过程数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术。它主要有数据准备、规律寻找和规律表示三个步骤。其中,数据准备是指从相关的数据源中选取所需的数据并整合成为用于数据挖掘的数据集;规律寻找是指用某种方法将数据集所含的规律找出来;规律表示是指尽可能以用户可以理解的方式(如可视化)将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。⑶、数据挖掘分析方法数据挖掘分析方法分为有指导的数据挖掘和无指导的数据挖掘。其中,有指导的数据挖掘是利用可用的数据建立一个模型,这个模型是对一个特定属性的描述。无指导的数据挖掘是在所有的属性中寻找某种关系。具体而言,分类(Classification)、估值(Estimation)和预测(Prediction)属于有指导的数据挖掘;相关性分组或关联规则(AffinityGroupingorAssociationRules)和聚类(Clustering)属于无指导的数据挖掘。此外,数据挖掘分析方法还包括描述和可视化(DescriptionandVisualization)、复杂数据类型挖掘(如Text,Web,图形图像,视频,音频等)。7、模型预测模型预测方法,是指一种利用数学模型推测事物未来发展状况的定量预测方法。一个过程、设备或概念用一些变量作出数学表示的形式,称为数学模型(MathematicalModel)o例如,下面是一个生产系统的投入一产出模型:AX+Y=X。其中,X为生产矢量;Y为最终需求矢量;A为投入系数,表示完成单位生产额所必须的投入额。这个模型既可以对该生产系统做出描述和解释,又可以做出预测,而且预测功能是多方面的。首先计算确立投入系数A;然后可根据总投入和总产品,预测最终产品市场的供应量;再根据最终产品市场,预测各部门生产量;还可根据最终产品市场,预测中间产品需求量。大数据模型预测包括:预测模型、机器学习、建模仿真。⑴、预测模型在采用定量预测法进行预测的时候,最重要的工作就是建立预测(数学)模型。预测模型(PredictionModel),是指用于预测的、用数学语言或公式所描述的事物之间的数量关系。它在一定程度上揭示了事物之间的内在规律性;在具体预测时把它作为计算预测值的直接依据。因此,它对预测准确度有极大的影响。任何一种具体的预测方法都是以其特定的预测模型为特征。预测方法的种类很多,各有相应的预测模型。⑵、机器学习机器学习是一门多学科交叉科学,涵盖概率论知识、统计学知识、近似理论知识和复杂算法知识;使用计算机作为工具;致力于真实实时地模拟人类学习方式,并通过将现有内容进行知识结构划分来有效提高学习效率。机器学习有下面几种定义:①、机器学习是一门人工智能科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。②、机器学习是对能通过经验自动改进的计算机算法的研究。③、机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。⑶、建模仿真、建模建模就是建立模型,就是为了理解事物而对事物做出的一种抽象,是对事物的一种无歧义的书面描述。建立系统模型的过程称为模型化。建模是研究系统的重要手段和前提。凡是用模型描述系统的因果关系或相互关系的过程都属于建模。因描述的关系各异,所以实现这一过程的手段和方法也是多种多样的。可以通过对系统本身运动规律的分析,根据事物的机理来建模;也可以通过对系统的实验或统计数据的处理,并根据关于系统的已有的知识和经验来建模。还可以同时使用几种方法来建模。、仿真仿真(Simulation),又叫做模拟,是指利用模型来复现实际系统中发生的本质过程,并通过对系统模型的实验来研究存在的或设计中的系统。这里所指的模型,包括物理的和数学的,静态的和动态的,连续的和离散的各种模型;所指的系统也很广泛,包括电气、机械、化工、水力、热力等系统,也包括社会、经济、生态、管理等系统。当所研究的系统造价昂贵、实验的危险性大或需要很长的时间才能了解系统参数变化所引起的后果时,仿真是一种特别有效的研究手段。仿真的重要工具是计算机。仿真与数值计算、求解方法的区别在于它首先是一种实验技术。仿真的过程包括建立仿真模型和进行仿真实验两个主要步骤。8、结果呈现大数据挖掘、分析、处理的结果呈现技术主要是云计算、标签云、关系图等。其中:⑴、标签云标签云(TagClouds)是一套相关的标签以及与此相应的权重。典型的标签云有30〜150个标签。权重影响使用的字体大小或其他视觉效果。同时,直方图或饼图表是最常用的,代表约12种不同的权数。因此,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论