大数据分析现状、模式与常用4大分析技术_第1页
大数据分析现状、模式与常用4大分析技术_第2页
大数据分析现状、模式与常用4大分析技术_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据分析现状、模式与常4分析技术近年来互联的速发展引领类进了个信息量爆炸性增长的时代。每个的活中都充满了结构化和结构化的数据。随着类活全向互联转移,数据时代将会不可避免的到来!作为全球互联的前沿概念,数据主要包括两特征:整个社会的信息量急剧增长,另个可获取的信息也呈指数增长。从科技发展的度来看,“数据”是“数据化”趋势下的必然产物!并且随着这趋势的不断深,在不远的将来我们将处于个“切都被记录,切都被数字化”的时代。在这种背景下,对数据的有效存储以及良好地分析利变的越来越急迫。数据分析能的低决定了数据中价值发现过程的好坏与成败。本以数据时代的数据分析为主题,简明的阐述了国内数据分析的发展现状、数

2、据的分析模式以及主要的分析技术、数据时代数据分析的个核概念等相关问题。1.国内数据分析的发展现状数据分析是数据处理流程的核,因为数据中所蕴藏的价值就产于分析的过程。所谓“数据分析”,其和以往数据分析的最重要的差别在于数据量急剧增长。由于数据量的增长,使得对于数据的存储、查询以及分析的要求迅速提。从实际操作的度看,“数据分析”需要通过对原始数据进分析来探究种模式,寻找导致现实情况的根源因素,通过建模型与预测来进优化,以实现社会运中各个领域的持续改善与创新。虽然近两年来“数据”的概念越来越多的被媒体以及业提及,但“数据分析”在国内的发展却仍处于初期阶段。从业实践的度看,只有少数个业的部分企业,能够

3、对数据进基本分析和运,并在业务决策中以数据分析结果为依据。这些业主要集中在银与保险,电信与电商等领域。以银业为例,前型国有银在其主营业务中均引了数据分析,但深度尚可,度不够,尚未扩充到运营管理的所有领域;中银在数据分析的员与能建设尚处于起步阶段。对于撑起我国庞国民产总值的建筑业、制造业以及贸易业,其数据分析应远远没有进规模化发展阶段,这些业在IT向的开主要集中在公司常的流程化管理领域。从技术发展的度看,些已经较为成熟的数据分析处理技术,例如商业智能技术和数据挖掘技术,已经在多个业领域得到泛和深的应。最典型的就是电商业,运这些技术对业数据进分析,对提业的整体运效率以及增加业利润都起到了极的推动作

4、。但对于像Hadoop、结构化数据库、数据可视化具以及个性化推荐引擎这样的新技术,其较的技术门槛和昂的运营维护成本使得国内只有少数企业能够将其运到深分析业数据中。从数据来源的度看,在能够实现数据化运营的企业中,绝多数仅仅完成了依靠企业所产的数据解决所临的问题,并且是依据问题来收集所需要的数据。仅有极少数互联企业能够发挥出数据分析的真正价值:同时运企业外部和内部的数据来解决企业的问题,通过数据分析预测可能出现的问题,并依据数据分析的结果进商业决策。在定程度上实现了由数据化运营向运营数据的转变。2.数据的主要分析模式与技术2.1 数据的主要分析模式数据时代所分析的数据的最主要特征是“多源异构”,其

5、分析过程是逐层抽象、降维、概括和解读的过程。从数据采集的源头进划分,可将数据时代分析处理的数据对象划分为以下个类别:(1)各页中户的浏览次数、点击率,各种社交站、动态站页内容信息的变化,搜索引擎中关键词的搜索量、络实时监控数据等互联数据。(2)可以于分析户为、对系统的操作、以及系统运状态的志数据。(3)在通信领域中的各种信号、信令数据,户的个信息以及通话位置、时长等数据。(4)国民经济中各领域、各业的统计分析数据。对于这些数量庞的,来不同源头的结构化数据。其分析模式的特点如下:对于互联产的数据,其最主要的应是建搜索引擎,通过搜索引擎进数据检索、处理。随着技术的不断发展,个性化推荐引擎以及数据分

6、析引擎的问世能够更加效的在海量数据中分析得出更有价值的信息;对于志数据,可对户点击浏览的为志和系统运为志进分析。使得系统能够根据实际情况产出更加智能如果你对数据开发感兴趣,想系统学习数据的话,可以加数据技术学习交流扣群:522数字189数字307获取学习资的结果。志数据与页数据的分析处理模式较为类似,都是通过细致分析从探寻出数据中蕴藏的价值。这种数据分析处理模式称为“离线批处理模式”;对于通信领域的数据分析,分析决策员会对经过细致分析的数据进统计归纳和查询,并且在最短的时间内获得最有价值的信息。以此来确保系统的交互性并最限度地提升户体验。这种数据分析处理模式称为“查询式分析”模式;对于互联以及

7、国民经济中重要业的数据进实时监控,这种模式称为“实时数据分析处理“模式。以上为依据时间特征划分的数据分析模式。实现这些分析模式的主要法有:分类、回归分析、聚类、关联规则、神经络、WEB数据挖掘等。2.2 数据的主要分析技术要想从急剧增长的数据资源中挖掘分析出有价值的信息,需要先进的分析技术作撑。从宏观上看,数据分析技术发展所临的问题均包含三个主要特征:(1)数据量庞并以惊的速度增长;(2)数据种类与结构多样化,并以半结构化和结构化的数据为主;(3)需要具备及时快速的分析速度,即实时分析。这些特征使得传统的数据分析技术法满要求,更加先进的数据分析平台才是数据时代更好的选择。为了有效应对数据时代数

8、据分析问题的三个主要特征以及满数据分析的基本需求,当前以及未来段时期内将主要通过分布式数据库或者分布式计算集群来对存储于其内的海量数据进由浅深的分析和分类汇总。例如,为满实时分析的需求通常会采Qracle的Exadata 和EMC的GreenPlum。前分析处理数据的应最泛的核技术为Hadoop。Hadoop是由Apache基会所开发的个基于Java的分布式数据处理和分析的软件基础架构。在这种架构下,户可以在不了解分布式底层细节的情况下,开发分布式程序。Hadoop能够将数量庞的数据分解成规模较、易访问的数据集并发送到多台服务器上进分析,以此获得效的分析速率。该架构主要由件系统以及数据处理两部

9、分功能模块组成。3.数据分析的个核概念3.1 K平均算法K平均算法是种得到泛应的基于划分的聚类算法。其把M个对象分为N个簇,使得每个簇内具有较的相似度。在应该算法进数据分析时,先应输包含M个对象的数据集A以及簇的数N。从A中任意选择N个对象作为初始簇中并且不断重复,随后计算出簇中对象的均值,将每个对象分配到最相似的簇并且不断更新簇均值,最后计算准则函数直到其不再发变化为。因为该算法的复杂度约是0(nkt),所以该算法在处理数据集时是相对可伸缩的和效率的。3.2 奇异值分解假设A是个mn阶矩阵,其中的元素全部属于实数域或复数域。如此则存在个分解使得A=UV*。其中U是mm阶矩阵,是半正定mn阶对

10、矩阵,V*是nn阶矩阵的共轭转置矩阵。这样的分解就称为A的奇异值分解。在MATLAB仿真软件中计算奇异值分解的函数式为:b.c.d=svd(x)3.3 主成分分析(PCA算法)从宏观上来说,主成分分析是指在研究项变量较多的课题时,将这些变量通过线性变换简化为个重要变量的种多元统计分析法。在数据分析领域,主成分分析的主要作是对规模的数据集进分析与简化。其主要体现在降低数据集的维数,同时尽可能保持数据集中的对所研究的问题最有价值的特征。简之,就是保留低阶主成分,忽略阶主成分。其具体法是通过对协差矩阵进特征分解,从得出数据的特征向量与特征值。主成分分析在数学上可以理解为个正交化的线性变换,把数据整体变换到个新的坐标系中,使得这数据的任何投影的第差在第主成分上,第差在第主成分上,依次类推。3.4 决策树学习从义上讲,决策树是种运图解法的概率分析,即在已知各种事件发概率的基础上,通过构建决策树来探究期望值于等于零的概率,同时判断可性的决策分析法。决策树学习是数据分析领域常的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论