数据挖掘报告_第1页
数据挖掘报告_第2页
数据挖掘报告_第3页
数据挖掘报告_第4页
数据挖掘报告_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘报告一、数据挖掘综述随着信息时代的来临,网络技术的发展和普及,各个行业都有爆炸性的数据增加,这些海量的数据中隐藏着我们需要的信息和财富。国际数据公司(IDC)报告称,全球被复制和创立的数据总量就已经大得惊人,在短短几年时间内增加了近9倍,并且预计这些数据每两年就将最少增加一倍。并且,政府机构也对外宣称了要加紧数据研究进度这一重大计划,各行业也在主动讨论数据挖掘研究带来的吸引力。面对如此庞大的数据,以及这些数据背后的价值和新的机遇,挖掘和研究这些数据就会给我们带来挑战和切实的利益。早在1989年8月美国底特律召开的第11届国际功效会议上就出现了KDD这个术语,1995年学术界和工业界共同成立了ACM数据挖掘与知识发现专委,后者发展成为数据挖掘领域的顶级国际会议。数据挖掘是一门交叉学科,涉及到各个行业和各个领域,同时,随着各行业对大量数据的解决深度和分析上的需求的增加,数据挖掘研究已经成为了学术界研究的热门学科,同时也受到各领域的重视。通过数年的发展,数据挖掘研究领域成果颇丰,已有了一套自己的基础理论。从大致趋势来说,国内和国外的研究办法和方向有差别,特别是在某些方面还是存在着一定的差距。总的来说,国外的研究更偏重交叉学科和理论基础的研究,而国内则偏重于实际的应用上,用数据来解决实际的问题。同时,国内的学者在研究上也处在世界前沿水平,在国际舞台上也有十分突出的成绩,近年来也屡屡有国内团体登上国际领奖台。在20世纪90年代中后期,用关联规则来进行挖掘、分类、预测等被逐步用于时间序列数据挖掘和空间数据挖掘,以发现与时间和空间有关的有价值的模式,这些手段使得数据挖掘研究领域已有了某些比较成熟的技术。如今的定位系统、手持移动设备等设备的普及和应用积累了大量的移动对象数据,对这些数据领域的研究使我们受益匪浅。近年来,数据挖掘研究已经渗入到生物信息、医疗卫生、智能交通、金融证券、社交网络、多媒体数据挖掘、轨迹数据、文本数据等各大领域。这些领域与数据挖掘研究接轨后又会出现某些新的机遇和挑战。数据挖掘是从大量数据中抽取隐含的事先未知的含有潜在有用信息或知识的非平凡过程。普通来说能够把数据挖掘过程分为6个阶段,如图所示。数据挖掘过程(1)问题的定义:进行顾客调查熟悉应用领域的数据背景知识拟定研究目的和需求明确所要完毕的数据库挖掘任务的性质。(2)数据收集:根据数据挖掘任务的规定拟定与任务有关的数据集合。(3)数据预解决:对上一阶段得到的数据进行加工以生成用于数据挖掘的数据集。这一阶段的工作涉及两个内容:首先需要将数据组织成一种原则形式,使其能被数据挖掘工具和其它基于计算机的工具解决;另首先需要准备数据集,使其能得到最佳的数据挖掘效果。涉及到数据原则化、数据平整、丢失数据的解决、时间有关数据的解决以及异常数据的分析和解决。(4)构造模型针对任务的所属类别设计或选择有效的数据挖掘算法并进行数据挖掘从中得到应用感爱好的模式。(5)评定与优化对发现的模式进行解释评定与优化必要时需要返回到前面解决中的某些环节以重复提取。(6)成果应用将所发现的知识进行整顿并使之应用到实际的系统中。从中可见数据挖掘过程是一种多阶段的、重复的、复杂的解决过程。过程的各个阶段都需要涉及领域专家数据分析员及数据挖掘专业人员等共同参加。各环节之间包含了多次循环与重复在某个环节的检查与应用中如果发现不适宜则应对前面的环节进行修改直到获得较满意的成果。需要指出的是,数据挖掘的两个基本目的往往是预测和描述:预测涉及到使用数据集中的某些变量用来预测其它我们所关心变量的未知或将来的值;描述关注的则是找出描述可由人类解释的数据模式。由此对应:(1)预测性数据挖掘生成已知数据集所描述的系统模型;(2)描述性数据挖掘在可用数据集的基础上生成新的非同寻常的信息。普通状况下我们把数据挖掘办法分为两大方面,一是人工智能领域中的机器学习型,这种类型通过训练和学习大量的样品获得需要的模式或者参数;二是统计类型,有鉴别分析、有关性分析和概率分析等技术。1.可视化技术可视化技术指采用计算机图形学和图像解决技术,把抽象的东西转换成图像并且在屏幕上显示出来的一种让人一目了然的办法,从而进行交互解决的技术。它将几何数据绘制成目的图像,将图像按照规定进行输出显示在屏幕上。2.含糊技术通过运用原有的数据挖掘技术的同时,结合含糊理论,从大数据中发现更为广泛的内容,并将其挖掘出来以方便顾客理解。由于含糊性的客观存在,并且复杂性较高,因此,数据采集之间的关系体现出十分的含糊。将含糊理论与数据挖掘技术结合从大量、不完全的数据中提取潜在的、含糊决策、含糊模式识别和含糊聚类分析。3.粗糙集办法粗糙集理论为一种描述不拟定性和不完整性的数学工具,能够有效地解决和分析不完整、不一致、不精确等信息,并从中发现知识,揭示规律。粗集理论是解决含糊数据的有力工具,且粗集理论的创立和研究的出发点是直接对数据进行分析和推理,发现隐含的知识并揭示规律。4.神经网络指能够模仿人脑神经元的人工神经网络,并能进行信息的解决。需要通过一定时间的训练才干增强挖掘成果的可理解性。其工作原理是根据人脑神经元的原理,通过不停修正其内部的节点间互相连接的关系达成解决信息的目的。5.遗传算法遗传算法是在生物进化过程中,在组合优化的基础上的提出的,这是生物学与计算机结合的产物。就像生物的进化同样,会选择适宜度更强的个体进行交换和变异,通过时间和空间上的类比,能够使大量数据系统化和简朴化,以方便找到他们的内在联系获得概念和模式。6.决策树决策树的构造不需要任何领域的知识,很适合知识的挖掘并且能够解决高维度的数据。决策树能够被大多数人所掌握,并且不需要太多的专业知识。7.关联规则关联规则挖掘技术就是从大量数据中发现其有关性,这也是最常见的数据挖掘的办法。通过层层的筛选以减少候选的子集数,从而加紧了关联规则挖掘的进度。数据的应用实质上是运用数据的分析成果,为顾客提供辅助决策,发掘潜在价值的过程。数据挖掘技术是面对应用的,是为了获取信息来服务各行业。随着数据挖掘研究的进一步与成熟,发展和推广,数据应用技术也会越来越广泛。现阶段,数据挖掘应用重要集中在下列方面。在金融业上:用于银行行业多个趋势预测,优化存贷策越等。客户关系管理:用于分析客户的行为,对客户进行分类,改善客户关系等。生物信息:用于多个染色体、基因序列的识别以及制药生物信息和科学研究等。电子商务:用于在线交互式营销系统的经营模式、市场方略等方面来优化网站构造,改善网易推荐和商品推荐内容等。零售业:数据挖掘技术被用来进行分析购物篮来协助货架设立,安排促销商品的时间等商业活动。二、数据挖掘在智能交通中的应用交通是关系到人们日常生活的一件大事随着都市规模不停扩大都市的交通问题也越来越突出现在运用多个先进科学技术的智能交通系统ITS是解决交通问题的一种方向ITS中的一种重要研究领域就是交通流的控制与诱导然而都市交通控制系统是一种对象不拟定的对控制的实时性规定高构造十分复杂的巨系统由此决定了系统建模和模型求解的难度而控制的实时性规定在交通流状态快速变化条件下尽快求出最优或次优的控制变量传统的控制办法已无法解决这些难题。事实上交通流数据采集系统长时间通过人工采集和自动采集积累了大量交通流数据运用数据挖掘技术能够对交通流量的原始数据进行重新组织使这些数据不仅能够为智能交通系统中的控制系统服务也能为决策系统和诱导系统等提供数据本文首先进行数据挖掘综述然后给出智能交通系统信息特性及其不拟定性指出传统办法的局限性对应用数据挖掘解决某些具体交通问题进行了分析。智能交通系统是信息全球化和社会化的产物。它通过运用先进的信息技术、数据通信技术、自动控制技术以及计算机技术,建立起立体化、全方位的公路交通运输体系,并被视为解决当今交通问题最有前途的手段之一。随着智能交通事业的飞速发展,日积月累的海量交通信息逐步成为多个智能交通应用系统的贵重资源。智能交通的目的就是通过分析交通信息,不停优化系统的控制方略,调节各类交通参加者的行为,来实现交通系统的优化运行。作为ITS核心资源的交通信息含有以下特性:(1)交通信息来源广泛、种类繁多、体现形式多样、信息量巨大。针对传统的基于统计学的典型分析办法难以解决非数值型或非构造化的数据,传统的基于数据库的决策支持系统难以支持日益膨胀的海量信息分析的现状。(2)信息含有很强的时空有关性。如车流量数据,只有在与一定的时刻及路口有关时才故意义,否则难以被理解与运用。(3)信息含有明显的主题有关性,如交通流信息、交通信号控制信息等‘(4)信息含有生命特性,智能交通系统的信息含有生命周期,经历从采集、融合、加工、应用到最后被扬弃的过程。可见,智能交通系统存在动态性、不拟定性、时空有关性、主题有关性和生命特性等信息特性,典型的数学公式与传统的建模办法已不能满足现实世界的信息分析规定。因此亟需采用新一代的数据融合、决策支持和分析手段,综合知识工程、人工智能、数据挖掘技术等方面的研究成果进行智能分析,才干充足发掘各应用系统的潜力,为动态交通管理提供科学精确的决策根据,使智能交通应用的深度和广度更上一种台阶。针对交通信息、交通系统的不拟定性,在传统的基于数据库、知识库和模型库的决策支持系统基础上,采用数据仓库、联机分析、数据挖掘以及专家系统的有关理论与技术,构建出新一代的智能决策支持系统模型;应用数据挖掘办法。(统计模式识别、神经网络办法、遗传规划和多源复杂信息知识挖掘技术等)研究建立适合交通信息挖掘的具体模型;在信息分析技术方面,突破传统的基于典型数学的统计分析办法的局限性,全方面引入神经计算含糊计算进化计算等智能计算技术,为交通信息的综合管理、智能分析和实时决策支持提供可行的方案。数据挖掘在ITS中某些具体应用问题的分析以下:(1)数据净化解决问题在检测器自动采集的数据和人工输入的数据中都可能出现的错误数据,这是由于:首先车辆检测器有一定的误差,并且可能出现故障;另首先,由于种种因素人工输入可能出错,因此有必要从大量数据中把错误的、异常的数据、没有用的信息剔除掉,这就是所谓的数据净化问题。数据净化是典型的数据分类问题,即把数据分为有用数据和无用数据,更细化一点,再把无用数据分为错误数据、异常数据。分类是数据挖掘最基本的、应用最广的用途。由于全部海量数据都有数据净化问题。诸多车辆检测器和视频监视器长时间日复一日地自动采集信息,各个子系统的操作人员长久地输入数据,对于这些海量数据必须应用数据挖掘技术加以净化。分类数据挖掘的办法重要有人工神经网络、决策树、遗传算法、粗集理论、含糊逻辑、近来邻技术等办法。(2)短缺数据的挖掘问题科学决策需要尽量完全的信息支持。但是在实际系统中往往不可能得到完全的信息,交通管理信息系统就是这样的实际系统。由于首先不可能设立无限多的车辆检测器和视频监视设备,这样会大大增加建设费用和维护工作量,在没有设立检测器的地方就得不到交通流数据,需要通过数据挖掘技术从相邻的检测器数据中把这些地方的数据估算出来;另首先,检测器和视频监视设备都有一定的误差和故障率,同一检测面上个别检测器也可能出现受遮挡或失效的状况,在设备发生故障时或者检测器检测失效时,就会出现数据短缺现象。这就需要弥补数据。从上下游检测器的交通流数据,本地交通流的历史数据以及从同一种检测器前后时段的交通流数据,通过数据挖掘能够获得短缺的交通流数据与已知数据之间的关系,从而能够估算出没有设立检测器的断面的交通流数据和发生故障的检测器丢失的交通流数据。(3)交通流参数的预测问题为了实现有效的交通控制(限速、路线诱导等)需要每隔5min预测1次交通流动态参数。从实际检测得到的交通流数据(车流量、车速、占有率或车流密度等)预测下一种控制周期(下一种5min)的交通流动态参数,需要谋求交通流数据与预测值之间的对应关系。然而交通流本身是一种典型的非平稳随机过程,短时(5min)的交通流参数预测问题是一种不拟定性很强的弱构造化问题。普通不能用简朴的解析数学式子描述交通流参数预测值与已知交通流检测数据之间的关系,只能从检测器不停地采集的大量实测数据中挖掘出它们之间的关系,用知识来体现这种关系,形成对应的知识库。这里可能用到的数据挖掘办法有小波分析、状态空间重构以及多个人工智能的办法,例如机器学习、不拟定性推理、定性推理、神经网络等。交通流参数的预测值发送到对应子系统(交通管理子系统、交通运行决策子系统、紧急事件解决子系统、公众信息公布子系统等),供这些子系统决策用。三、数据挖掘的应用思路1.数据挖掘在交通安全领域应用(1)交通事故专项分析开展事故的区域分布特性、时间分布特性、道路分布特性、事故因素分布特性、事故形态分布特性、重点车辆事故信息分析等专项分析。(2)交通事故发展趋势分析开展基于事故历史数据的交通事故发展趋势分析。(3)事故多发路段分析挖掘针对某一条重点道路或某几条重点道路的事故多发路段分析。(4)事故与违法信息关联分析将事故信息与违法信息结合开展关联分析,分析事故与违法行为的关系。(5)事故与机动车、驾驶人保有量的相对数分析将事

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论