版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据时代的数据分析【摘要】近年来互联网的高速发展引领人类进入了一种信息量爆炸性增长的时代。每个人的生活中都充斥了构造化和非构造化的数据。伴随人类生活全面向互联网转移,大数据时代将会不可防止的到来!作为全球互联网的前沿概念,大数据重要包括两方面特性:首先整个社会的信息量急剧增长,另首先个人可获取的信息也呈指数增长。从科技发展的角度来看,“大数据”是“数据化”趋势下的必然产物!并且伴随这一趋势的不停深入,在不远的未来我们将身处在一种“一切都被记录,一切都被数字化”的时代。在这种背景下,对大数据的有效存储以及良好地分析运用变的越来越紧迫。而数据分析能力的高下决定了大数据中价值发现过程的好坏与成败。本文以大数据时代的数据分析为主题,简要的论述了国内大数据分析的发展现实状况、大数据的分析模式以及重要的分析技术、大数据时代数据分析的几种关键概念等有关问题。【关键词】大数据;分析模式;数据分析ABSTRACT:Inrecentyears,Internethadleadhumanityintoanerawhichtheamountofinformationaregrowingexplosively.Everyone’slifeisfullofstructuredandunstructureddata.WewillinevitablyenteringtheeraofbigdatawithhumanlifefullytransferringtotheInternet.Asacutting-edgeconceptofInternet,bigdataconsistsmainlyoftwocharacteristics:Theamountofinformationinoursocietyandpeoplecanobtainedaregrowingrapidly.Fromtheperspectiveofsciencedevelopment,theeraofbigdataisaninevitableproductofthedigitaltrend!Asthistrendmovingdeeply,wewillliveinaworldwhereeverythingwouldbedigitalandrecorded.Inthiscontext,effectivelystoring、analyzingandusingofthosedatabecomemoreandmoreurgentforsociety.Dataanalysisdefinitelydeterminesthevalueandthequalityofdataminingprocess.Dataanalyzingisthecorecontentinthispaper.Conciselyelaboratingthecurrentdevelopmentofdataanalyzing、analyzingmodelandthemainanalyticaltechniques,severalcoreconceptsofbigdataanalysisandotherrelatedissues.Keywords:Bigdata;Analyticalmodel;Dataanalysis1.国内大数据分析的发展现实状况数据分析是数据处理流程的关键,由于数据中所蕴藏的价值就产生于分析的过程。所谓“大数据分析”,其和以往数据分析的最重要的差异在于数据量急剧增长。由于数据量的增长,使得对于数据的存储、查询以及分析的规定迅速提高。从实际操作的角度看,“大数据分析”需要通过对原始数据进行分析来探究一种模式,寻找导致现实状况的本源原因,通过建立模型与预测来进行优化,以实现社会运行中各个领域的持续改善与创新。虽然近两年来“大数据”的概念越来越多的被媒体以及行业提及,但“大数据分析”在国内的发展却仍处在初期阶段。从行业实践的角度看,只有少数几种行业的部分企业,可以对大数据进行基本分析和运用,并在业务决策中以数据分析成果为根据。这些行业重要集中在银行与保险,电信与电商等领域。以银行业为例,目前大型国有银行在其主营业务中均引入了数据分析,但深度尚可,广度不够,尚未扩充到运行管理的所有领域;而中小银行在数据分析方面的人员与能力建设尚处在起步阶段。对于支撑起我国庞大国民生产总值的建筑业、制造业以及贸易行业,其数据分析应用远远没有进入规模化发展阶段,这些行业在IT方向的开支重要集中在企业平常的流程化管理领域。从技术发展的角度看,某些已经较为成熟的数据分析处理技术,例如商业智能技术和数据挖掘技术,已经在多种行业领域里得到广泛和深入的应用。最经典的就是电商行业,运用这些技术对行业数据进行分析,对提高行业的整体运行效率以及增长行业利润都起到了极大的推进作用。但对于像Hadoop、非构造化数据库、数据可视化工具以及个性化推荐引擎这样的新技术,其较高的技术门槛和高昂的运行维护成本使得国内只有少数企业可以将其运用到深入分析行业数据中。从数据来源的角度看,在可以实现数据化运行的企业中,绝大多数仅仅完毕了依托企业自身所产生的数据处理自身所面临的问题,并且是根据问题来搜集所需要的数据。而仅有很少数互联网企业可以发挥出大数据分析的真正价值:同步运用企业外部和内部的数据来处理企业自身的问题,通过数据分析预测也许出现的问题,并根据数据分析的成果进行商业决策。在一定程度上实现了由数据化运行向运行数据的转变。2.大数据的重要分析模式与技术2.1大数据的重要分析模式大数据时代所分析的数据的最重要特性是“多源异构”,其分析过程是逐层抽象、降维、概括和解读的过程。从数据采集的源头进行划分,可将大数据时代分析处理的数据对象划分为如下几种类别:(1)各网页中顾客的浏览次数、点击率,多种社交网站、动态网站网页内容信息的变化,搜索引擎中关键词的搜索量、网络实时监控数据等互联网数据。(2)可以用于分析顾客行为、对系统的操作、以及系统运行状态的日志数据。(3)在通信领域中的多种信号、信令数据,顾客的个人信息以及通话位置、时长等数据。(4)国民经济中各领域、各行业的记录分析数据。对于这些数量庞大的,来自不一样源头的非构造化数据。其分析模式的特点如下:对于互联网产生的数据,其最重要的应用是建立搜索引擎,通过搜索引擎进行数据检索、处理。伴随技术的不停发展,个性化推荐引擎以及大数据分析引擎的问世可以愈加高效的在海量数据中分析得出更有价值的信息;对于日志数据,可对顾客点击浏览的行为日志和系统运行行为日志进行分析。使得系统可以根据实际状况产生出愈加智能的成果。日志数据与网页数据的分析处理模式较为类似,都是通过细致分析从而探寻出数据中蕴藏的价值。这种数据分析处理模式称为“离线批处理模式”;对于通信领域的数据分析,分析决策人员会对通过细致分析的数据进行记录归纳和查询,并且在最短的时间内获得最有价值的信息。以此来保证系统的交互性并最大程度地提高顾客体验。这种数据分析处理模式称为“查询式分析”模式;对于互联网以及国民经济中重要行业的数据进行实时监控,这种模式称为“实时数据分析处理“模式。以上为根据时间特性划分的数据分析模式。而实现这些分析模式的重要措施有:分类、回归分析、聚类、关联规则、神经网络、WEB数据挖掘等。2.2大数据的重要分析技术要想从急剧增长的数据资源中挖掘分析出有价值的信息,需要先进的分析技术作支撑。从宏观上看,大数据分析技术发展所面临的问题均包括三个重要特性:(1)数据量庞大并以惊人的速度增长;(2)数据种类与构造多样化,并以半构造化和非构造化的数据为主;(3)需要具有及时迅速的分析速度,即实时分析。这些特性使得老式的数据分析技术无法满足规定,愈加先进的数据分析平台才是大数据时代更好的选择。为了有效应对大数据时代数据分析问题的三个重要特性以及满足大数据分析的基本需求,目前以及未来一段时期内将重要通过度布式数据库或者分布式计算集群来对存储于其内的海量数据进行由浅入深的分析和分类汇总。例如,为满足实时分析的需求一般会采用Qracle的Exadata和EMC的GreenPlum。而目前分析处理大数据的应用最广泛的关键技术为Hadoop。Hadoop是由Apache基金会所开发的一种基于Java的分布式数据处理和分析的软件基础架构。在这种架构下,顾客可以在不理解分布式底层细节的状况下,开发分布式程序。Hadoop可以将数量庞大的数据分解成规模较小、易访问的数据集并发送到多台服务器上进行分析,以此获得高效的分析速率。该架构重要由文献系统以及数据处理两部分功能模块构成。3.大数据分析的几种关键概念3.1K—平均算法K—平均算法是一种得到广泛应用的基于划分的聚类算法。其把M个对象分为N个簇,使得每个簇内具有较高的相似度。在应用该算法进行数据分析时,首先应输入包括M个对象的数据集A以及簇的数目N。从A中任意选择N个对象作为初始簇中心并且不停反复,随即计算出簇中对象的均值,将每个对象分派到最相似的簇并且不停更新簇均值,最终计算准则函数直到其不再发生变化为止。由于该算法的复杂度大概是0(nkt),因此该算法在处理大数据集时是相对可伸缩的和高效率的。3.2奇异值分解假设A是一种m×n阶矩阵,其中的元素所有属于实数域或复数域。如此则存在一种分解使得A=U∑V*。其中U是m×m阶酉矩阵,Σ是半正定m×n阶对角矩阵,而V*是n×n阶酉矩阵的共轭转置矩阵。这样的分解就称为A的奇异值分解。在MATLAB仿真软件中计算奇异值分解的函数式为:[b.c.d]=svd(x)3.3主成分分析(PCA算法)从宏观上来说,主成分分析是指在研究一项变量较多的课题时,将这些变量通过线性变换而简化为几种重要变量的一种多元记录分析措施。而在数据分析领域,主成分分析的重要作用是对大规模的数据集进行分析与简化。其重要体目前减少数据集的维数,同步尽量保持数据集中的对所研究的问题最有价值的特性。简而言之,就是保留低阶主成分,忽视高阶主成分。其详细措施是通过对协方差矩阵进行特性分解,从而得出数据的特性向量与特性值。主成分分析在数学上可以理解为一种正交化的线性变换,把数据整体变换到一种新的坐标系中,使得这一数据的任何投影的第一大方差在第一主成分上,第二大方差在第二主成分上,依次类推。3.4决策树学习从广义上讲,决策树是一种运用图解法的概率分析,即在已知多种事件发生概率的基础上,通过构建决策树来探究期望值不小于等于零的概率,同步判断可行性的决策分析措施。决策树学习是数据分析领域常用的措施,其目的是构建一种模型来
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农贸市场升级招投标函
- 船舶制造钢结构工程合同
- 学校活动音响租赁合同
- 玻璃幕墙保温施工协议
- 老年人服务捐赠管理办法
- 油气管道危险品运输规定
- 云计算项目澄清函参考模板
- 旅游景区物业招投标流程
- 私人聚会机动车租赁协议
- 建筑工地防病毒施工规范
- 《混凝土结构基本原理》 课件 第2章 混凝土结构材料性能
- DL-T474.4-2006现场绝缘试验实施导则交流耐压试验
- 线路工程监理规划
- SL-T+291-2020水利水电工程钻探规程
- 2023年版《安宁疗护实践指南(试行)》解读课件
- 七年级(上学期)期末数学试卷 (八)
- 电动吊篮方案交底
- 药事管理学实验报告总结
- 国开2024春《人文英语4》第5-8单元作文练习参考答案
- 游戏开发职业规划
- 预防霍乱传播的传染病诊断制度
评论
0/150
提交评论