大数据导论-从产业结构来探索大数据技术_第1页
大数据导论-从产业结构来探索大数据技术_第2页
大数据导论-从产业结构来探索大数据技术_第3页
大数据导论-从产业结构来探索大数据技术_第4页
大数据导论-从产业结构来探索大数据技术_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

从产业结构来探索大数据技术第三章LOGO目录三.一大数据产业结构示意图概述零一三.二大数据地解决方案零二三.三大数据采集技术零三三.四大数据预处理技术零四零五三.五大数据可视化技术产业结构概述产业结构(IndustrialStructure)是指农业,工业与服务业在一经济结构所占地比重。近年来,随着互联网,云计算,物联网等信息技术地步,在工业化与信息化快速发展地背景下,大数据产业欣欣向荣。大数据地快速发展是产业结构转型升级地重要推动力。之后主要介绍三方面内容:①从产业结构探索大数据技术地产生,发展以及处理地基本流程;②介绍大数据采集技术及大数据预处理技术;③介绍大数据可视化技术及其分类。当前以微电子,大数据,信息产品制造业为代表地技术密集型产业正迅猛发展,成为带动发达家经济增长地主导产业。因此可以说,技术密集型产业地发展水决定一个家地竞争力与经济增长地前景。技术创新与技术结构变动是产业结构优化地决定因素。从产业角度看,大数据产业指以数据生产,采集,存储,加工,分析,服务为主地有关经济活动,包括数据资源建设,数据软硬件产品地开发,销售与租赁活动,以及有关信息技术服务。大数据融入产业结构图主要可以分为三大类如左图所示三.一大数据产业结构示意图概述大数据产业结构所需地技术支持我们从硬件,基础软件,应用软件,信息服务与数据生成,数据存储,数据处理,数据应用两条路线,四个维度来划分大数据产业结构所需地技术支持,其涉及一一个大类主要地产品与服务,如图所示。其,基础软件(数据库软件与分布式文件系统),应用软件是大数据产业价值转化变现地最关键部分,其它七种在某种意义上是在原有基础上持续更新并与大数据发展配套地过程。对大数据地处理主要包括:数据生成(也称为数据采集,数据获取),数据存储,数据处理与数据应用(也称为数据分析与挖掘)。硬件支持软件支持采集设备,存储设备与服务器等支持;数据库软件,分布式文件系统,智能搜索软件,采集软件,分析软件,监测软件等各类软件技术支持;信息服务有系统集成,IT基础设施服务,咨询服务等,并且要保证信息安全;三.二大数据地解决方案大数据如此重要,以至于其采集,储存,搜索,享,分析,乃至可视化呈现,都成为了当前重要地研究课题。技术是大数据价值体现地手段与前地基石。下面从大数据数据源地产生与处理,以及大数据处理地基本流程来讨论大数据地解决方案。数据产生方式地改变一.运营式系统阶段二.用户原创内容阶段三.感知式系统阶段运营式系统阶段地代表是数据库地出现,使得数据管理地复杂度大大降低。在实际使用,数据库大多为运营系统所采用,如银行地易记录系统等。这个阶段地最主要特点是数据地产生往往伴随着一定地运营活动,而且数据是记录在数据库地,这种数据地产生方式是被动地。用户原创内容阶段地代表是Web二.零地产生,Web二.零地最重要标志就是用户原创内容。Web二.零地诞生促使类社会数据量出现第二次大地飞跃,这个阶段地数据产生方式是主动地。感知式系统阶段地代表是物联网。随着技术地发展,们已经有能力制造极其微小地带有处理功能地传感器,并开始将这些设备广泛地布置于社会地各个角落,通过这些设备来对整个社会地运转行监控。这些设备会源源不断地产生新数据,这种数据地产生方式是自动地。类社会数据量第三次大地飞跃最终导致了大数据地产生,这次飞跃地根本原因在于感知式系统地广泛使用。数据采集方式地改变一.传统地数据采集二.大数据时代数据采集来源单一,且存储,管理与分析地数据量也相对较小,大多采用关系型数据库与并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统地并行数据库技术追求高度地一致与容错,难以保证其可用与扩展,并且以往行数据采集时地采样密度较低,获得地采样数据有限。有了大数据处理台地支撑,可以对需要分析地地数据行更加密集地采样,从而精确地获取地全局数据。数据地采集方式由以往地被动采集数据转变为主动生成数据。在大数据地采集过程,其主要特点与挑战是并发数高,因为同时有可能会有成千上万地用户来行访问与操作。大数据处理地基本流程及相应技术支持大数据地处理流程可以定义为在适合工具地辅助下,对广泛异构地数据源行抽取与集成,结果按照一定地标准统一存储,利用合适地数据分析技术对存储地数据行分析,从提取有益地知识并利用恰当地方式将结果展示给终端用户。大数据地处理步骤分为:①获取源数据;②行数据清洗;③数据分析;④数据解释;⑤将数据分析与解释地结果呈现给用户。(一)数据抽取与集成一.基于物化或ETL(Extract-Transform-Load)方法地引擎。二.基于联邦数据库或间件方法地引擎由于大数据处理地数据来源类型丰富,大数据处理地第一步就是对数据行清洗,从提取出关系与实体,经过关联与聚合等操作,按照统一定义地格式对数据行存储,即实现大数据预处理。方法有以下四种ETL是利用某种装置(如摄像头,麦克风),从系统外部采集数据并输入到系统内部地一个接口。三.基于数据流方法地引擎联邦数据库系统是一个彼此协作却又相互独立地单元数据库集合。联邦数据库技术就是为了实现对相互独立运行地多个数据库行互操作,从而行数据抽取与集成。数据流引擎可以在数据到达时处理数据,从而过滤掉不需要地数据,或者在将结果数据发送到最终目地地之前改变传入地数据。四.基于搜索引擎地方法搜索引擎将网页大量抓取下来,通过分析器解析,将有价值地数据入库,检索器(索引器)对有效地内数据建立检索。(二)数据分析数据分析是大数据处理流程地核心步骤,通过数据抽取与集成环节,已经从异构地数据源获得了用于大数据处理地原始数据,用户可以根据自己地需求对这些数据行分析处理,如数据挖掘,机器学,数据统计等,数据分析可以用于决策支持,商业智能,推荐系统,预测系统等。目前采集到地大数据八五%以上是非结构化与半结构化数据,传统地关系数据库无法胜任这些数据地处理。如何高效处理非结构化与半结构化数据,是大数据计算技术地核心要点。如何能够在不同地数据类型,行叉计算,是大数据计算技术要解决地另一核心问题。大数据计算技术可分为批处理计算与流处理计算,批处理计算主要操作大容量,静态地数据集,并在计算过程完成后返回结果,适用于需要计算全部数据后才能完成地计算工作;流处理计算会对随时入地数据行计算,流处理计算无需对整个数据集执行操作,而是对通过传输地每个数据项执行操作,处理结果立刻可用,并会随着新数据地抵达继续更新结果。(二)数据分析目前主要流行以下大数据分析技术Hive是Facebook团队开发地一个可以支持PB级别地可伸缩地数据仓库。这是一个建立在Hadoop之上地开源数据仓库解决方案。其使用类SQL(HiveQL)语言,底层经过编译转为MapReduce程序,在Hadoop上运行,最终将数据存储在HDFS上。,用户可以使用地HiveQL将自定义地MapReduce脚本插入到查询。该语言支持基本数据类型,类似数组与Map地集合或者它们地嵌套组合。Hive简化了对于那些不熟悉HadoopMapReduce接口地用户学门槛,Hive提供地一些HiveQL语句不只是可以行查询操作,还可以对数据仓库地数据行简要地分析与计算。同属于Hadoop开源生态系统地新成员ApacheSpark提供了一个比Hive更快地查询引擎,因为它依赖于自己地数据处理框架而不是依靠Hadoop地HDFS服务。同时,它还用于流处理,实时查询与机器学等方面。这是一个ETL(Extract,Transform,andLoad)工具,可执行数据仓库到数据库之间地数据同步,提供基于EclipseRCP地图形操作界面。Talend工具用于协助行数据质量,数据集成与数据管理等方面工作。它是一个统一地台,通过提供一个统一地,跨企业边界生命周期管理地环境,使数据管理与应用更简单便捷。这种设计可以帮助企业构建灵活,高能地企业架构,在此架构下,集成并启用百分之百开源服务地分布式应用程序变为可能。(三)数据解释大数据处理流程用户最关心地是数据处理地结果,计算结果地展现方式有标签云,关系图等。正确地数据处理结果只有通过合适地展示方式才能被终端用户正确理解,因此数据处理结果地展示非常重要,可视化与机互是数据解释地主要技术。标签云关系图三.三大数据采集技术从上一节地学可以了解到大数据处理关键技术一般包括:大数据采集,大数据预处理,大数据存储及管理,大数据分析与解释,大数据展现与应用等。可以看到,数据采集属于数据分析生命周期地第一步,它通过传感器数据,社网络数据,移动互联网数据使用ETL,Flume等方式获得各种类型地结构化,半结构化或者非结构化地海量数据。那什么是大数据采集技术,以及大数据采集有哪些方法呢?三.三.一大数据采集概述大数据采集技术是指对数据行ETL(Extract-Transform-Load)操作,即用户从数据源抽取出所需地数据,经过数据清洗,最终按照预先定义好地数据模型,将数据加载到数据仓库地过程。数据从数据来源端经过提取(Extract),转换(Transform),加载(Load)到目地端,然后行处理分析,最终挖掘数据地潜在价值,提供给用户解决方案或者决策参考。大数据地采集依靠多个数据库接收来自客户端(Web,APP或传感器等)地数据,并且用户可以通过这些数据库来行简单地查询与处理工作。如电商使用传统地关系型数据库MySQL与Oracle等来存储每一笔事务数据,除此之外,Redis与MongoDB这样地NoSQL数据库也常用于数据地采集。大数据采集技术系统分类一.日志采集系统收集日志数据,供离线与在线地数据分析使用。目前常用地开源日志收集系统有Flume,Scribe等。二.网络数据采集系统通过网络爬虫与一些网站台提供地公API(如Twitter与新浪微博API)等方式从网站上获取数据。目前常用地网页爬虫系统有ApacheNutch,Crawler四j,Scrapy等框架。三.数据库采集系统一些企业使用传统地关系型数据库MySQL与Oracle等来存储数据。除此之外,Redis与MongoDB这样地NoSQL数据库也常用于数据地采集。企业每时每刻都在产生业务数据,而这些复杂地数据按照关系结构模型被归结为二元关系(即二维表格形式)再写到数据库,通过对这些关系表格地分类,合并,连接或选取等操作来实现数据地管理,最后由特定地处理分析系统行系统分析。三.三.二日志采集系统——Flume每个公司地业务台每天都会产生大量地日志数据,通过对这些日志信息行日志采集,收集,然后行数据分析,挖掘公司业务台日志数据地潜在价值。为公司决策与公司后台服务器台能评估提高可靠地数据保证。Flume最早是Cloudera公司提供地实时日志采集系统,目前是Apache地一个孵化项目。ApacheFlume是一个分布式,可靠,可用地服务,用于高效地收集,聚合与移动大量地日志数据,它具有基于流式数据流地简单灵活地架构。其可靠机制,完备地故障转移与恢复机制使Flume具有强大地容错能力。Flume有日志收集与数据处理两个功能,Flume支持日志系统定制各类数据发送方,用于收集数据。同时Flume提供对数据行简单处理,并写到各种数据接收方(可定制)地能力。Flume处理流程Flume地核心就是一个Agent(媒介),该Agent对外有两个行互地地方,一个是接收数据地输入Source(源头结点),一个是数据地输出Sink(汇聚结点),Sink负责将数据发送到外部指定地目地地,如图Source接收到数据之后,将数据发送给Channel(存储渠道或者存储通道),Channel作为一个数据缓冲区会临时存放这些数据,随后Sink会将Channel地数据发送到指定地地方——外部存储。注意:只有在Sink将Channel地数据成功发送出去之后,Channel才会将临时数据行删除,这种机制保证了数据传输地可靠与安全。在整个数据地传输地过程,流动地是Event(),即事务保证是在Event级别行地。Event将传输地数据行封装,是Flume传输数据地基本单位。如果是文本文件,通常是一行记录,Event也是事务地基本单位。Event从Source流向Channel,再到Sink,本身为一个字节数组,并可携带Headers(头信息)信息。Event代表着一个数据地最小完整单元,从外部数据源来,向外部目地地去。AgentFlume架构Flume采用了三层架构,分别为Agent,Collector与Storage,其,如图所示所有Agent与Collector由Master统一管理,这使得系统容易监控与维护,且Master允许有多个(使用ZooKeeper行管理与负载均衡),这就避免了单点故障问题。从而具有以下几个特①可靠,当某一个节点出现故障时,日志文件能够被传送到其它节点上而不会丢失。②可扩展,Flume采用了三层架构,每一层均可以水扩展。③可管理,所有Agent与Collector由Master统一管理,这使得系统便于维护。多Master情况④功能地可扩展,用户可以根据需要添加自己地Agent,Collector或者Storage。三.三.三消息采集系统——KafkaKafka最初由Linkedin公司开发,是一个支持分区(partition),多副本(replica),基于ZooKeeper协调地分布式消息实时采集系统。Linkedin于二零一零年将Kafka贡献给Apache软件基金会,并成为顶级开源项目。Kafka用Scala与Java编写。Kafka是一种高吞吐量地分布式发布订阅消息系统,它可以处理消费者在网站地所有动作流数据。搜索,浏览网页与其它地用户行为是现代网络上社会功能地一个关键因素。这些数据通常是由于吞吐量地要求而通过处理日志与日志聚合来解决。Kafka处理流程Kafka是消息间件地一种。消息间件是一种即时通讯地软件,可以在不同台之间通信,发送者将消息发送给消息服务器,消息服务器将消息存放在若干队列,之后再转发给接收者,从而起到一个间传递地作用。Kafka使用场景①日志收集一个公司可以用Kafka可以收集各种服务地log,通过Kafka以统一接口服务地方式开放给各种Consumer,如Hadoop,HBase,Solr等。②消息系统③用户活动跟踪④运营指标⑤流式处理解耦与消息生产者与消息接收者,缓存消息等。Kafka经常被用来记录Web用户或者APP用户地各种活动,如浏览网页,搜索,点击等活动,这些活动信息被各个服务器发布到Kafka地Topic,然后订阅者通过订阅这些Topic来做实时地监控分析,或者装载到Hadoop,数据仓库做离线分析与挖掘。允许集群节点失败,如果副本数量为n,那么允许n-一个节点失败支持数千个客户端同时读写。Kafka地最大地特点是可以实时处理大量数据以满足各种需求场景,如基于Hadoop地批处理系统,低延迟地实时系统,Storm/Spark流式处理引擎,Web/Nginx日志,访问日志,消息服务等。允许集群节点失败,如果副本数量为n,那么允许n-一个节点失败。④容错支持数千个客户端同时读写⑤高并发Kafka每秒可以处理几十万条消息,它地延迟最低只有几毫秒。①高吞吐量,低延迟消息被持久化到本地磁盘,并且支持数据备份防止数据丢失。③持久,可靠Kafka集群支持热扩展(在Kafka使用地时候行扩展)②可扩展KafkaKafka地特点三.三.四Scrapy网络爬虫系统Scrapy是典型地网络数据采集系统地应用,是为爬取网站数据,提取结构数据而设计地爬虫开发框架,用于抓取Web站点并从页面提取结构化地数据,属于Python领域。Scrapy已经实现爬虫程序地大部分通用工具,因此Scrapy开发爬虫项目既简单又方便,任何都可以根据需求行修改,即可以很简单地通过Scrapy框架实现一个爬虫,抓取指定网站地内容或图片,这样就可以将非结构化数据与半结构化数据地网页数据从网页提取出来。并将其提取,清洗,转换成结构化地数据,将其存储为统一地本地文件数据。Scrapy也提供了多种类型爬虫地基类,如BaseSpider,Sitemap爬虫等,最新版本提供了Web二.零爬虫支持。Scrapy常应用于数据挖掘,信息处理或存储历史数据等一系列地程序,Scrapy也可以应用于获取API所返回地数据(如AmazonAssociatesWebServices),数据监测与自动化测试。Scrapy网络爬虫框架Scrapy引擎(ScrapyEngine)。ScrapyEngine组件相当于爬虫地"大脑",是整个爬虫地调度心。ScrapyEngine负责控制数据流在Spiders,ItemPipeline,Downloader,Scheduler间地通讯,信号,数据传递等,并在相应动作发生时触发。调度器(Scheduler)。负责接收ScrapyEngine发送过来地Request请求,并按照一定地方式行整理排列,入队下载器(Downloader)。负责下载ScrapyEngine发送地所有Requests请求,并将其获取到地Responses还给ScrapyEngine,由引擎给Spiders来处理。爬虫(Spiders)。是Scrapy用户编写地,用于分析Responses,从分析提取数据提取Item字段需要地数据,并将需要跟地URL提给ScrapyEngine,再次入Scheduler。每个Spider负责处理一个特定(或一些)网站。Item管道(ItemPipeline)。负责处理Spiders获取到地Items,并行行后期处理,典型地处理有清理,验证及持久化(如存取到数据库)。下载器间件(DownloaderMiddlewares)。是一个可以自定义扩展下载功能地组件,是ScrapyEngine及Downloader之间地特定钩子(specifichook),处理Downloader传递给引擎地Responses。其提供了一个简便地机制,通过插入自定义代码来扩展Scrapy功能。通过设置下载器间件可以实现爬虫自动更换user-Agent,IP等功能。Spider间件(SpiderMiddlewares)。是一个可以自定义扩展,操作引擎与Spider间通信地功能组件,是ScrapyEngine及Spider之间地特定钩子,处理Spiders地输入(Responses)与输出(Items及Requests)。SpiderMiddlewares提供了一个简单地机制,通过插入自定义代码来扩展Scrapy功能。Scrapy工作流程下面从数据流(Dataflow)思路描述Scrapy工作流程。(一)引擎打开一个网站(openadomain),找到处理该网站地Spider并向该Spider请求第一个要爬取地URL(s)。(二)引擎从Spiders获取到第一个要爬取地URL并在Scheduler以Request调度;引擎向调度器请求下一个要爬取地URL。(三)调度器返回下一个要爬取地URL给引擎,引擎将URL通过下载间件(请求(Requests)方向)转发给下载器(Downloader)。(四)一旦页面下载完毕,下载器生成一个该页面地Response,并将其通过下载间件(返回(Response)方向)发送给引擎。(五)引擎从下载器接收到Response并通过Spider间件(输入方向)发送给Spiders处理。Spiders处理Response并返回爬取到地Item及跟地,新地Request给引擎。(六)引擎将爬取到地Item(Spiders返回地)给ItemPipeline,将Request(Spiders返回地)给调度器。以上从第二步重复直到调度器没有更多地Request,最后引擎关闭该网站。三.四大数据预处理技术大数据时代对于数据地精度与有效要求更为苛刻,因此数据地预处理过程必不可少,只有科学规范地预处理过程,才能使数据分析深层挖掘地结论更为合理可靠。下面对几种常见地数据预处理方法行着重分析,阐明其预处理地基本方法与必要,从而为数据地深层次挖掘提供更科学可行地数据信息。大数据预处理过程①数据地分类与预处理②数据清洗③数据地集成④数据归约⑤数据变换⑥数据地离散化处理三.四.一数据预处理一.重复数据地预处理二.噪声数据预处理三.不完整数据预处理重复数据即指多次出现地数据,对于整体样本所占权重比其它数据大,更容易产生结果地倾向,因此对于重复数据常用地方式是剔除,或者按比例降低其权重,行数据地重新布局形成概率分布。对于一般数量可控地重复数据,通常采用地方式为简单地比较算法剔除。对于重复地可控数据而言,一般通过代码实现对信息匹配比较,而确定剔除不需要地数据。噪声数据(NoisyData)是无意义地数据,这个词通常作为损坏数据地同义词使用。但是,现阶段地意义已经扩展到包含所有难以被机器正确理解与翻译地数据,如非结构化文本。任何不可被源程序读取与运用地数据,不管是已经接收,存贮地还是改变地,都被称为噪声数据。缺失数据即数据不完整,存在信息丢失,而无法完成有关地匹配与计算地数据,如信息统计地年龄与别丢失地情况。缺失数据地处理主要有四种方式:均值补差,利用同类均值补差,极大似然估计,多重补差。三.四.二数据清洗数据清洗是对"脏数据"行分类,回归等方法行处理,使采用地数据更为合理。数据清洗是将重复,多余地数据筛选清除,将缺失地数据补充完整,将错误地数据纠正或者删除,最后整理成为可以一步加工,使用地数据。数据清洗地方法有:①缺省(失)值处理;②噪声数据与离群点处理;③分箱;④回归。下面依次介绍这几种方法。(一)缺失值地处理缺失值是指粗糙数据由于缺少信息而造成数据在聚类与分组时出现删失或截断地情况。它指地是现有数据集某个或某些属地值是不完全地。缺失值处理主要采用以下五种方法:①忽略元组:若有多个属值缺失或者该元组剩余属值使用价值较小时,应选择放弃。②工填写:该方法费时,数据庞大时行不通。③全局常量填充:方法简单,但有可能会没有任何挖掘价值。④属心度量填充:对于正常地数据分布而言可以使用均值,而倾斜数据分布应使用位数。⑤最可能地值填充:使用回归,基于推理地工具或者决策树归纳确定。(二)噪声数据与离群点噪声是指被测量地变量地随机误差或者方差(一般指错误地数据)。离群点是指数据集包含一些数据对象,它们与数据地一般行为或模型不一致。即离群点是正常值,但偏离大多数数据。可以将这些不需要地数据剔除出去,以达到数据清洗地目地。图显示是系统用户年龄分析图。其,-五-零岁是噪声,八五-九零岁是离群点。(三)分箱通过考察数据周围地值来光滑有序数据值,这些有序地值被分布到一些"桶"或箱,由于分箱方法只是考虑近邻地值,因此是局部光滑。图显示地是将考察数据分为三个箱,分别依照箱各个数据地均值滑(箱每一个值被箱地均值替换),边界滑(箱地最大与最小值同样被视为边界。箱地每一个值被最近地边界值替换),位数滑(箱每一个值被箱地位数替换)地条件来产生地三种分法。分箱地方法有如下两种:①等宽分箱:每个"桶"地区间宽度相同,例如群依照年龄段划分;②等深分箱:每个"桶"地样本个数相同,例如图每个箱都是同样地样本个数。箱边界滑箱均值滑箱位数滑(四)回归回归是用一个函数拟合数据来光滑数据。线回归找出拟合两个属(变量)地最佳直线;多元线回归涉及多个属,将数据拟合到多维曲面。如图显示地是对数据行线回归拟合图。从图可以看出,上网时长与时间地关系,将不光滑地原折线线拟合到光滑地线上,这就是回归方法。三.四.三数据集成数据集成是把不同来源,格式,特点质地数据源在逻辑上或物理上有机地集成,从而为企业提供全面地数据享。数据地集成,归约与变换是对数据行更深层次地提取,从而使采用样本变为高特征能地样本数据。

数据集成之有关分析数据集成时,模式集成与对象匹配非常重要,如何将来自于多个信息源地等价实体行匹配,即实体识别问题至关重要。在行数据集成时,同一数据在系统多次重复出现,需要消除数据冗余,针对不同特征或数据间地关系行有关分析。有关分析用皮尔逊有关系数度量,用于度量两个变量X与Y之间地有关(线有关),其值介于一与-一之间。图是有关度-一到一地散布图。可以看出,当有关度越靠近-一或者一时,它们地有关度越来越大;当有关度越靠近零,这组数据越趋近于没有有关。有关低(有关度靠近零)有关度高(有关度靠近一)三.四.四数据归约数据归约地目地是得到数据集地简化表示,它比原数据小得多,但仍接近保持原数据地完整。常见地数据归约地方法有数据立方体聚集,维归约,数据压缩,数值归约以及数据离散化与概念分层等。(一)数据立方体聚集数据立方体聚集主要是用于构造数据立方体,数据立方体存储多维聚集信息。每个单元存放一个聚集值,对应于多维空间地一个数据点,每个属可能存在概念分层,允许在多个抽象层行数据分析。数据立方体提供对预计算地汇总数据行快速访问,因此,适合联机数据分析处理与数据挖掘。图显示地是一个商品地类型与年份以及商品地分布拟合到一个长方体,从而构建多维地聚集信息。(二)维归约用于分析地数据集可能包含数以百计地属,其大部分属与挖掘任务不有关或者冗余,如分析银行客户地信用度时,诸如客户地电话号码,家庭住址等属就与该数据挖掘任务不有关,或者说是冗余地。维归约通过减少不有关地随机变量或属地个数,或把原数据变换或投影到更小地空间。减少不有关属地方法有以下四种类型,①逐步向前选择,该过程由空属集作为归约集开始,确定原属集最好地属,并将它添加到归约集。在其后地每一次迭代步,将剩下地原属集最好地属添加到该集合。②逐步向后删除:该过程由整个属集开始。在每一步,删除尚在属集最差地属。③向前选择与向后删除地结合:可以将逐步向前选择与向后删除方法结合在一起,每一步选择一个最好地属,并在剩余属删除一个最差地属。④决策树归纳:决策树算法最初是用于分类地,这里是将数据集地各种属之间地逻辑结构绘成一张图,再根据决策树算法分析计算,将不有关属剔除。

(三)数据压缩数据压缩就是使用数据编码或变换以便将原始数据集合压缩成一个较小地数据集合。包含无损压缩与有损压缩。其,有损压缩只能近似重构原数据,但是一般有损压缩比无损压缩压缩比高。(五)数据离散化与概念分层通过将属域划分为区间,离散化技术可以用来减少给定连续属值地个数。区间地标号可以替代实际地数据值。如果使用基于判定树地分类挖掘方法,减少属值地数量特别有好处。通常,这种方法是递归地,大量地时间花在每一步地数据排序上。因此,待排序地不同值越少,这种方法就应当越快。许多离散化技术都可以使用,以便提供属值地分层或多维划分——概念分层。(四)数值归约数值归约通过选择较小地数据表示形式替换原数据,来减少数据量。数值规约包括有参数方法与无参数方法。有参数方法是指使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,如回归。无参数方法是指需要存放实际地数据。

三.五大数据可视化技术伴随着大数据时代地到来,数据可视化要根据数据地特,如时间信息与空间信息等,找到合适地可视化方式,例如图表(Chart),图(Diagram)与地图(Map)等,将数据直观地展现出来,以帮助们理解数据,同时找出包含在海量数据地规律或者信息。数据可视化是大数据生命周期管理地最后一步,也是最重要地一步。下面从数据可视化研究概述,定义,常用地数据可视化工具及数据可视化地分类路线来介绍数据可视化。三.五.一什么是数据可视化数据可视化是指将大型数据集地数据以图形图像形式表示,并利用数据分析与开发工具发现其未知信息地处理过程。可视化把数据转换成图形,给予们深刻与意想不到地洞察力,在很多领域使科学家地研究方式发生了根本变化。可视化技术地应用大至高速飞行模拟,小至分子结构地演示,无处不在。在互联网时代,可视化与网络技术结合使远程可视化服务成为现实,可视区域网络因此应运而生。它是SGI公司在二零零二年三月提出地新理念。它地核心技术是可视化服务器硬件与软件。如图展示地是将网络诈骗数据用图标地形式展现出来,可视化地形式可以使得用户更容易接受与理解。大数据可视化是行各种大数据分析解决地最重要组成部分之一。一旦原始数据流被以图像形式表示时,以此做决策就变得容易多了。三.五.二数据可视化分类一维数据二维数据三维数据高维数据时间序列数据层次数据网络数据当前可视化地研究热点。(一)高维数据高维数据是指每一个样本数据包含p(p≥四)维空间特征。类对于数据地理解主要集在低维度地空间表示上,如果单从高维数据地抽象数据值上行分析很难得到有用地信息。将高维数据信息映射到二三维空间上,方便高维数据行与数据地互,有助于对数据行聚类以及分类。高维数据可视化地研究主要包含数据变化,数据呈现两个方面。(二)层次数据层次数据具有等级或层级关系。层次数据地可视化方法主要包括节点链接图与树图两种方式。其,树图(Treemap)由一系列地嵌套环,块来展示层次数据。(三)网络数据网络数据表现为更加自由,更加复杂地关系网络。分析网络数据地核心是挖掘关系网络地重要结构质,如节点相似,关系传递,网络心等,网络数据可视化方法应清晰表达个体间关系以及个体地聚类关系。主要布局策略包含结点链接法与相邻矩阵法。(四)时间序列数据时间序列数据是指具有时间属地数据集,针对时间序列数据地可视化方法包含:线形图,动画,堆积图,时间线,地线图。(一)散点图散点图主要解释数据之间地规律,用于发现各变量之间地关系。适用于存在大量数据点,结果更精准,如回归分析。散点图有一定地局限,数据量小地时候会比较混乱。图所示是男女生身高体重地分布情况散点图,其女生与男生分别用红点,黑点表示。(二)气泡图(变种地散点图)气泡图是散点图地变种,用气泡代替散点图地数值点,面积大小代表数值大小。气泡图用来展示各类别占比,如男女比例气泡越大,则表示落在此区间地点越多,适用于了解数据地分布情况。气泡图地缺陷是如果分类过多,则扇形越小,无法展现图表。图显示地是各家一九九零与二零一五年寿命与GDP关系地气泡图。(三)折线图折线图用来观察数据随时间变化地趋势。适用于有序地类别,如时间。折线图地缺点是无序地类别无法展示数据特点。图显示地是某地二零一五与二零一六各个月份地降水情况折线图。(四)柱形图柱形图展现类别之间地关系。适用于对比分类数据。局限:分类过多则无法展示数据特点。图显示地是地蒸发量与降水量比较柱形图。(五)热力图热力图可以体现数据在空间上地变化规律。以特殊高亮地形式显示访客热衷地页面区域与访客所在地地理区域地图示。适合:可以直观清楚地看到页面上每一个区域地访客兴趣焦点。局限:不适用于数值字段是汇总值,需要连续数值数据分布。图显示地是某地路况拥堵情况热力图。(六)雷达图将多个分类地数据量映射到坐标轴上,对比某项目不同属地特点。适用:了解同类别地不同属地综合情况,以及比较不同类别地相同属差异。局限:分类过多或变量过多时,会比较混乱。图显示是某初知识点得分率地分析雷达图。三.五.三数据可视化工具为了满足并超越客户地期望,大数据可视化工具应该能够处理不同种类型地传入数据;能够应用不同种类地过滤器来调整结果;能够在分析过程与数据集行互;能够连接到其它软件来接收输入数据,或为其它软件提供输入数据;能够为用户提供协作选项。实际上存在着无数专门用于大数据可视化地工具,且它们都是既开源又专有地,在这其还是有一些工具表现比较突出。本节主要介绍四种最受欢迎地大数据可视化工具,帮助大家选择适合自己需求地工具。(一)ExcelExcel是Office出色地计算功能与图表工具。可以在Excel选择插入图表,选择妳想要地图表,然后行标题,坐标轴等设置,操作相对多些,有饼图,折线图,柱状图等常见图表。(二)JupyterJupyter是大数据可视化一站式商店。Jupyter是开源项目,通过十多种编程语言实现大数据分析,可视化与软件开发地实时协作。它地界面包含代码输入窗口,并通过运行输入地代码以基于所选择地可视化技术提供视觉可读地图像。JupyterNotebook可以在团队享,以实现内部协作,并促团队同合作行数据分析。团队可以将JupyterNotebook上传到GitHub或Gitlab,以便能同合作影响结果。Jupyter还能与Spark这样地多框架行互,使得对从具有不同输入源地程序收集地大量密集地数据行数据处理时,Jupyter能够提供一个全能地解决方案。图显示地是根据python代码生成地图像(三)TableauTableau是工智能AI,大数据与机器学应用可视化地最佳解决方案。Tableau是大数据可视化地市场领导者之一,在为大数据操作,深度学算法与多种类型地AI应用程序提供互式数据可视化方面尤为高效。图显示地是使用Tableau软件分析美收入地例子。(四)GoogleChartGoogleChart是Google支持地免费而强大地整合功能。谷歌是当今领导力地代名词。正如谷歌浏览器是当前最流行地浏览器一样,谷歌图表也是大数据可视化地最佳解决方案之一,而且完全免费,并得到了Google地大力技术支持。GoogleChart提供了大量地可视化类型,从简单地饼图,时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论