基于海量数据的数据分析方案设计_第1页
基于海量数据的数据分析方案设计_第2页
基于海量数据的数据分析方案设计_第3页
基于海量数据的数据分析方案设计_第4页
基于海量数据的数据分析方案设计_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于海量数据的数据分析方案设计dataanalysisprogramdesignbasedonmassdata摘要:随着互联网,移动互联网和物联网的发展,谁也无法否认,我们来到了一个海量数据的时代。随着数据积累的越来越多,现在许多行业大多面临基于海量数据的分析问题,该文从基于海量数据挖掘的分析方法出发,利用河南省2005到2009年交通事故的数据,设计了一个数据分析方案。关键词:海量数据,数据挖掘,回归模型,方案Abstract:withthedevelopmentofInternet,mobileInternetanddevelopmentofInternetofthings,nobodyc

2、andenythatwecometoamassivedataera.Asdataaccumulatemoreandmore,manyindustriesarefacingproblemsbasedonlargeamountsofdataanalysis.ThispaperibasedontheanalysisofmassdataminingmethodofHenanprovincefrom2005to2009,usingthedataoftrafficaccidents,designesadataanalysisprogram.Keywords:massdata,datamining,regr

3、essionmodel,scheme一、引言随着信息技术的发展,人们积累的数据越来越多。事实上,数据本身是没有意义的,只有用以进行分析处理才真正起到作用。因此,可以说激增的数据背后更重要的是隐含的信息,人们希望能够对这些数据进行更高层次的分析,以便更好地利用这些数据。海量数据是发展趋势,对数据分析和挖掘也越来越重要,从海量数据中提取有用信息重要而紧迫,这便要求处理要准确,精度要高,而且处理时间要短,得到有价值信息要快,所以,对海量数据的研究很有前途,也很值得进行广泛深入的研究。在实际的工作环境下,许多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有以下几个方面:数据量过大,数据中什么情况都

4、可能存在;软硬件要求高,系统资源占用过高;要求很高的处理方法和技巧。基于海量数据的数据挖掘正在逐步兴起,面对着超海量的数据,一般的挖掘软件或算法往往采用数据抽样的方式进行处理,这样的误差不会很高,大大提高了处理效率和处理的成功率。数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取出隐含在其中的、可信、新颖、人们事先不知道的、但又是潜在有用的模式的高级处理过程。数据挖掘是由统计学、人工智能、数据库、可视化技术等多个领域相融合而形成的一个交叉学科。除了进行关系和规则的描述之外,数据挖掘的一个很重要的任务是分析。根据在过去和现在的数据中寻找到的规律建模,这样的模式有时候也可以

5、认为是以时间为关键属性的关联知识。一个数据挖掘系统可以自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是数据挖掘在交通事故中的应用,交通事故数据挖掘应用分析的主要作用有:可以分析出影响交通安全的诸因素及其影响的轻重程度,预测交通事故的发展趋势;发现和识别事故高发区域、交叉口和路段;可以分析交通事故成因、特征、规律及交通安全工作中的薄弱环节,明确交通安全管理工作的重点和对策等。一般情况下,分析的基本数据是时间序列数据,也就是按照时间先后存放在数据库中的数据。时间序列预测法可用于短期、中期和长期预测。根据对资料分析方法的不同,又可分

6、为:简单序时平均数法、加权序时平均数法、移动平均法、加权移动平均法、趋势预测法、指数平滑法、季节性趋势预测法、市场寿命周期预测法等。由于大量的时间序列是非平稳的,其特征参数和数据分布随着时间的推移而发生变化,因此,仅仅通过对某段历史数据的训练,建立单一的神经网络模型,还无法完成准确的建模任务。为此,人们提出了基于统计学和基于精确性的再训练方法,当发现现存模型不再适用于当前数据时,对模型重新训练,获得新的权重参数,建立新的模型。也可以根据问题规模的不同采用并行算法的计算优势进行分析。二数据挖掘分析的过程(一)问题定义一个行业或者机构面临的数据挖掘需求总是多种多样的,在问题形成之前甚至需要多次研究

7、问题本身,再由问题提炼出模型。这样,一个数据挖掘的使用者最先也是最重要的就是熟悉背景知识,弄清需求,要想充分发挥数据挖掘的价值,必须对目标要有一个清晰明确的定义,即决定到底想干什么。(二)获取数据资源,建立数据挖掘库要进行数据挖掘必须收集到要挖掘的数据资源。更多情况下,这些数据资源分布在不同的数据源里,因为大部分情况下需要预处理,修改这些数据,而且常会遇到采用外部数据的情况,所以应该尽量将其收集到一个数据库或者数据仓库中。(三)分析和调整数据分析数据就是数据深入研究其规律的过程,从数据集中找出规律和趋势,可以采用聚类分类关联规则发现等具体的分析技术,最终要达到的目的就是搞清楚多因素相互影响的复

8、杂关系,最后发现因素之间的相关性。调整数据是基于以上数据分析的过程和结论,在对数据状态和趋势有了进一步了解的基础上进行数据调整,这时对问题要进一步明确化、量化,针对问题的需求对数据进行增删,按照对整个数据挖掘过程的新认识组合或生成一个新的变量,以体现对状态的准确描述。(四)模型化这是数据挖掘的核心环节,在经过以上步骤的处理和分析后,问题进一步明确数据结构和内容进一步根据需求进行了调整,就可以建立数据挖掘模型。在预测过程中,一般是用神经网络、决策树、数理统计、时间序列分析等方法来建立模型。三、数据模型的建立和分析(一)收集数据在全国道路交通事故情况中选取2005-2009年河南省交通事故情况进行

9、分析其中XI为事故起数,X2为死伤人数,X3为受伤人数,Y为直接财产损失。tx1x2x3y2005237784587228311067492022006184024046191936849191720071631434301908763205105200811529282213024491045952009858720181015933028766事故起数死亡人数受伤人数口直接财产损失(二)分析方法简介回归分析是实际工作中应用最广泛的统计方法之一,概括的讲,回归分析是描述两个或两个以上变量间关系的一种统计方法。在实际工作中回归分析的应用范围很广,回归分析可以求出自变量与因变量之间的经验公式,所

10、以,只要需要定量分析多变量之间相关关系时都是必不可少的。尤其在现在流行的数据挖掘技术中,回归分析也是必不可少的。通过对已知训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。(三)分析从图二可以看出,直接财产损失和事故起数、死亡及受伤人数都有关系;图2直接财产损失与事故起数、死亡人数和受伤人数的相关折线图(一)简单相关分析从简单相关系数(表二)可以看出,在不考虑相互影响的情况下,河南省交通事故直接财产损失与全年交通事故总数、死亡人数和受伤人数均成正向高度相关,这说明上述三个因素都是直接财产损失的重要因素,其重要次序依次为事故起数,死亡人数和受伤人数。表1交

11、通事故直接损失与影响因素之间的简单相关系数YX1X2X3Y1.0000000.9786060.9460950.934363X10.9786061.0000000.9853320.979823X20.9460950.9853321.0000000.971186X30.9343630.9798230.9711861.000000因变量Y与自变量XI,X2,X3是直接的关系,因此,在进行多元线性回归的时候将XI,X2,X3直接纳入模型。(二)回归分析表2:变量进入情况1,输入/移去的变量模型输入的变量移去的变量方法1受伤人数,死亡人数,事故起数a输入a.已输入所有请求的变量。表3:模型拟合度检验2,

12、模型汇总b模型RR方调整R方标准估计的误差1.990a.980.9217733796.958预测变量:(常量),受伤人数,死亡人数,事故起数。因变量:直接财产损失表二所示的是对模型拟合度的检验结果。对于多元线性回归模型,一般应采用其调整的决定系数来判断,在本例中,其值为0.921,说明其拟合程度是可以接受的。表4:方差分析表Anovab模型平方和df均方FSig.1回归2.970E1539.898E1416.549.178a残差5.981E1315.981E13总计3.029E154预测变量:(常量),受伤人数,死亡人数,事故起数。因变量:直接财产损失表三所示是模型检验结果,这是一个标准的方差

13、分析表,回归模型的Sig.值为0.178,说明该模型有显著的统计意义。3,建立模型表5:回归分析结果非标淮4七系数标堆系数樽型B标堆误差试用版tSig.1常量)1.349E72.261E7.597.657事故起数9340.5584617.9952.0162.024.292死亡人数-14099.44922790.067-.517-.619.647受伤人数-2830.1653018.512-.539-756.588乩因变量:直接财产损失由未标准化的回归系数可知,拟合结果为Y=9348.558X1-14099.449X2-2888.165X3,四、结论数据挖掘经常会在行业中得到应用,主要是根据历史情

14、况进行建模,统计一直是分析的一个基本工具。在海量数据的前提下可以直接应用在数据挖掘的过程中,讨论了数据挖掘预测中的处理模式设计,然后就交通安全事故的相关分析进行了讨论,就模型的选择、评价和应用都进行了深入的讨论。面对日益严峻的道路交通安全形势,交通管理部门应该越来越重视对交通事故数据的收集和分析工作。在分析道路交通事故现状的基础上,应用数据挖掘技术,可以更为完善的处理复杂、稀疏、多维、不全的数据,从而做出更为科学的决策。因而,应用数据挖掘技术分析预防道路交通事故,对于保障人们的人身安全,减少国家的经济损失有着积极作用。相信数据挖掘技术在海量数据预测中的应用会为道路交通事故分析预防工作提出新的思

15、维方式。参考文献:【1】王一夫,陈松桥,陈安的海量数据预测模型设计及案例分析【Z】, HYPERLINK /view/043906d6360cba1aa811da49.html /view/043906d6360cba1aa811da49.html【2】李武选,郭岩红,李源,李军的2004年某县交通事故数据挖掘分析【J】。长安大学学报,2009,11(1):49-54。【3】吴昊,李军国的基于关联规则理论的道路交通事故数据挖掘模型【D】,百度文库。【4】杨进倩,孔令人,夏毓荣的数据挖掘技术在道路交通事故分析和预防中的作用【D】,百度文库。【5】赵卫亚,彭寿康,朱晋的计量经济学书【M】。机械工业出版社,2009.【6】数据挖掘技术综述【Z】,百度文库。【7】中国历年交通事故死亡人数官方统计Z】, H

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论