版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘汇报一、数据挖掘综述伴随信息时代的来临,网络技术的发展和普及,各个行业均有爆炸性的数据增长,这些海量的数据中隐藏着我们需要的信息和财富。国际数据企业(IDC)汇报称,全球被复制和创立的数据总量就已经大得惊人,在短短几年时间内增长了近9倍,并且估计这些数据每两年就将至少增长一倍。并且,政府机构也对外宣称了要加紧数据研究进度这一重大计划,各行业也在积极讨论数据挖掘研究带来的吸引力。面对如此庞大的数据,以及这些数据背后的价值和新的机遇,挖掘和研究这些数据就会给我们带来挑战和切实的利益。早在1989年8月美国底特律召开的第11届国际功能会议上就出现了KDD这个术语,1995年学术界和工业界共同成立了ACM数据挖掘与知识发现专委,后者发展成为数据挖掘领域的顶级国际会议。数据挖掘是一门交叉学科,波及到各个行业和各个领域,同步,伴随各行业对大量数据的处理深度和分析上的需求的增长,数据挖掘研究已经成为了学术界研究的热门学科,同步也受到各领域的重视。通过数年的发展,数据挖掘研究领域成果颇丰,已经有了一套自己的基础理论。从大体趋势来说,国内和国外的研究措施和方向有差异,尤其是在某些方面还是存在着一定的差距。总的来说,国外的研究更偏重交叉学科和理论基础的研究,而国内则偏重于实际的应用上,用数据来处理实际的问题。同步,国内的学者在研究上也处在世界前沿水平,在国际舞台上也有十分突出的成绩,近年来也频频有国内团体登上国际领奖台。在20世纪90年代中后期,用关联规则来进行挖掘、分类、预测等被逐渐用于时间序列数据挖掘和空间数据挖掘,以发现与时间和空间有关的有价值的模式,这些手段使得数据挖掘研究领域已经有了某些比较成熟的技术。如今的定位系统、手持移动设备等设备的普及和应用积累了大量的移动对象数据,对这些数据领域的研究使我们受益匪浅。近年来,数据挖掘研究已经渗透到生物信息、医疗卫生、智能交通、金融证券、社交网络、多媒体数据挖掘、轨迹数据、文本数据等各大领域。这些领域与数据挖掘研究接轨后又会出现某些新的机遇和挑战。数据挖掘是从大量数据中抽取隐含的事先未知的具有潜在有用信息或知识的非平凡过程。一般来说可以把数据挖掘过程分为6个阶段,如图所示。数据挖掘过程(1)问题的定义:进行顾客调查熟悉应用领域的数据背景知识确定研究目的和需求明确所要完毕的数据库挖掘任务的性质。(2)数据搜集:根据数据挖掘任务的规定确定与任务有关的数据集合。(3)数据预处理:对上一阶段得到的数据进行加工以生成用于数据挖掘的数据集。这一阶段的工作包括两个内容:首先需要将数据组织成一种原则形式,使其能被数据挖掘工具和其他基于计算机的工具处理;另首先需要准备数据集,使其能得到最佳的数据挖掘效果。波及到数据原则化、数据平整、丢失数据的处理、时间有关数据的处理以及异常数据的分析和处理。(4)构造模型针对任务的所属类别设计或选择有效的数据挖掘算法并进行数据挖掘从中得到应用感爱好的模式。(5)评估与优化对发现的模式进行解释评估与优化必要时需要返回到前面处理中的某些环节以反复提取。(6)成果应用将所发现的知识进行整顿并使之应用到实际的系统中。从中可见数据挖掘过程是一种多阶段的、反复的、复杂的处理过程。过程的各个阶段都需要包括领域专家数据分析员及数据挖掘专业人员等共同参与。各环节之间包括了多次循环与反复在某个环节的检查与应用中假如发现不合适则应对前面的环节进行修改直到获得较满意的成果。需要指出的是,数据挖掘的两个基本目的往往是预测和描述:预测波及到使用数据集中的某些变量用来预测其他我们所关怀变量的未知或未来的值;描述关注的则是找出描述可由人类解释的数据模式。由此对应:(1)预测性数据挖掘生成已知数据集所描述的系统模型;(2)描述性数据挖掘在可用数据集的基础上生成新的非同寻常的信息。一般状况下我们把数据挖掘措施分为两大方面,一是人工智能领域中的机器学习型,这种类型通过训练和学习大量的样品获得需要的模式或者参数;二是记录类型,有鉴别分析、有关性分析和概率分析等技术。1.可视化技术可视化技术指采用计算机图形学和图像处理技术,把抽象的东西转换成图像并且在屏幕上显示出来的一种让人一目了然的措施,从而进行交互处理的技术。它将几何数据绘制成目的图像,将图像按照规定进行输出显示在屏幕上。2.模糊技术通过运用原有的数据挖掘技术的同步,结合模糊理论,从大数据中发现更为广泛的内容,并将其挖掘出来以以便顾客理解。由于模糊性的客观存在,并且复杂性较高,因此,数据采集之间的关系体现出十分的模糊。将模糊理论与数据挖掘技术结合从大量、不完全的数据中提取潜在的、模糊决策、模糊模式识别和模糊聚类分析。3.粗糙集措施粗糙集理论为一种描述不确定性和不完整性的数学工具,可以有效地处理和分析不完整、不一致、不精确等信息,并从中发现知识,揭示规律。粗集理论是处理模糊数据的有力工具,且粗集理论的创立和研究的出发点是直接对数据进行分析和推理,发现隐含的知识并揭示规律。4.神经网络指可以模仿人脑神经元的人工神经网络,并能进行信息的处理。需要通过一定期间的训练才能增强挖掘成果的可理解性。其工作原理是根据人脑神经元的原理,通过不停修正其内部的节点间互相连接的关系到达处理信息的目的。5.遗传算法遗传算法是在生物进化过程中,在组合优化的基础上的提出的,这是生物学与计算机结合的产物。就像生物的进化同样,会选择合适度更强的个体进行互换和变异,通过时间和空间上的类比,可以使大量数据系统化和简朴化,以以便找到他们的内在联络获得概念和模式。6.决策树决策树的构造不需要任何领域的知识,很适合知识的挖掘并且可以处理高维度的数据。决策树可以被大多数人所掌握,并且不需要太多的专业知识。7.关联规则关联规则挖掘技术就是从大量数据中发现其有关性,这也是最常见的数据挖掘的措施。通过层层的筛选以减少候选的子集数,从而加紧了关联规则挖掘的进度。数据的应用实质上是运用数据的分析成果,为顾客提供辅助决策,发掘潜在价值的过程。数据挖掘技术是面向应用的,是为了获取信息来服务各行业。伴随数据挖掘研究的深入与成熟,发展和推广,数据应用技术也会越来越广泛。现阶段,数据挖掘应用重要集中在如下方面。在金融业上:用于银行行业多种趋势预测,优化存贷策越等。客户关系管理:用于分析客户的行为,对客户进行分类,改善客户关系等。生物信息:用于多种染色体、基因序列的识别以及制药生物信息和科学研究等。电子商务:用于在线交互式营销系统的经营模式、市场方略等方面来优化网站构造,改善网易推荐和商品推荐内容等。零售业:数据挖掘技术被用来进行分析购物篮来协助货架设置,安排促销商品的时间等商业活动。二、数据挖掘在智能交通中的应用交通是关系到人们平常生活的一件大事伴随都市规模不停扩大都市的交通问题也越来越突出目前运用多种先进科学技术的智能交通系统ITS是处理交通问题的一种方向ITS中的一种重要研究领域就是交通流的控制与诱导然而都市交通控制系统是一种对象不确定的对控制的实时性规定高构造十分复杂的巨系统由此决定了系统建模和模型求解的难度而控制的实时性规定在交通流状态迅速变化条件下尽快求出最优或次优的控制变量老式的控制措施已无法处理这些难题。实际上交通流数据采集系统长时间通过人工采集和自动采集积累了大量交通流数据运用数据挖掘技术可以对交通流量的原始数据进行重新组织使这些数据不仅可认为智能交通系统中的控制系统服务也能为决策系统和诱导系统等提供数据本文首先进行数据挖掘综述然后给出智能交通系统信息特性及其不确定性指出老式措施的局限性对应用数据挖掘处理某些详细交通问题进行了分析。智能交通系统是信息全球化和社会化的产物。它通过运用先进的信息技术、数据通信技术、自动控制技术以及计算机技术,建立起立体化、全方位的公路交通运送体系,并被视为处理当今交通问题最有前途的手段之一。伴随智能交通事业的飞速发展,日积月累的海量交通信息逐渐成为多种智能交通应用系统的宝贵资源。智能交通的目的就是通过度析交通信息,不停优化系统的控制方略,调整各类交通参与者的行为,来实现交通系统的优化运行。作为ITS关键资源的交通信息具有如下特性:(1)交通信息来源广泛、种类繁多、体现形式多样、信息量巨大。针对老式的基于记录学的经典分析措施难以处理非数值型或非构造化的数据,老式的基于数据库的决策支持系统难以支持日益膨胀的海量信息分析的现实状况。(2)信息具有很强的时空有关性。如车流量数据,只有在与一定的时刻及路口有关时才故意义,否则难以被理解与运用。(3)信息具有明显的主题有关性,如交通流信息、交通信号控制信息等‘(4)信息具有生命特性,智能交通系统的信息具有生命周期,经历从采集、融合、加工、应用到最终被扬弃的过程。可见,智能交通系统存在动态性、不确定性、时空有关性、主题有关性和生命特性等信息特性,经典的数学公式与老式的建模措施已不能满足现实世界的信息分析规定。因此亟需采用新一代的数据融合、决策支持和分析手段,综合知识工程、人工智能、数据挖掘技术等方面的研究成果进行智能分析,才能充足发掘各应用系统的潜力,为动态交通管理提供科学精确的决策根据,使智能交通应用的深度和广度更上一种台阶。针对交通信息、交通系统的不确定性,在老式的基于数据库、知识库和模型库的决策支持系统基础上,采用数据仓库、联机分析、数据挖掘以及专家系统的有关理论与技术,构建出新一代的智能决策支持系统模型;应用数据挖掘措施。(记录模式识别、神经网络措施、遗传规划和多源复杂信息知识挖掘技术等)研究建立适合交通信息挖掘的详细模型;在信息分析技术方面,突破老式的基于经典数学的记录分析措施的局限性,全面引入神经计算模糊计算进化计算等智能计算技术,为交通信息的综合管理、智能分析和实时决策支持提供可行的方案。数据挖掘在ITS中某些详细应用问题的分析如下:(1)数据净化处理问题在检测器自动采集的数据和人工输入的数据中都也许出现的错误数据,这是由于:首先车辆检测器有一定的误差,并且也许出现故障;另首先,由于种种原因人工输入也许出错,因此有必要从大量数据中把错误的、异常的数据、没有用的信息剔除掉,这就是所谓的数据净化问题。数据净化是经典的数据分类问题,即把数据分为有用数据和无用数据,更细化一点,再把无用数据分为错误数据、异常数据。分类是数据挖掘最基本的、应用最广的用途。由于所有海量数据均有数据净化问题。诸多车辆检测器和视频监视器长时间日复一日地自动采集信息,各个子系统的操作人员长期地输入数据,对于这些海量数据必须应用数据挖掘技术加以净化。分类数据挖掘的措施重要有人工神经网络、决策树、遗传算法、粗集理论、模糊逻辑、近来邻技术等措施。(2)短缺数据的挖掘问题科学决策需要尽量完全的信息支持。不过在实际系统中往往不也许得到完全的信息,交通管理信息系统就是这样的实际系统。由于首先不也许设置无限多的车辆检测器和视频监视设备,这样会大大增长建设费用和维护工作量,在没有设置检测器的地方就得不到交通流数据,需要通过数据挖掘技术从相邻的检测器数据中把这些地方的数据估算出来;另首先,检测器和视频监视设备均有一定的误差和故障率,同一检测面上个别检测器也也许出现受遮挡或失效的状况,在设备发生故障时或者检测器检测失效时,就会出现数据短缺现象。这就需要弥补数据。从上下游检测器的交通流数据,当地交通流的历史数据以及从同一种检测器前后时段的交通流数据,通过数据挖掘可以获得短缺的交通流数据与已知数据之间的关系,从而可以估算出没有设置检测器的断面的交通流数据和发生故障的检测器丢失的交通流数据。(3)交通流参数的预测问题为了实既有效的交通控制(限速、路线诱导等)需要每隔5min预测1次交通流动态参数。从实际检测得到的交通流数据(车流量、车速、拥有率或车流密度等)预测下一种控制周期(下一种5min)的交通流动态参数,需要寻求交通流数据与预测值之间的对应关系。然而交通流自身是一种经典的非平稳随机过程,短时(5min)的交通流参数预测问题是一种不确定性很强的弱构造化问题。一般不能用简朴的解析数学式子描述交通流参数预测值与已知交通流检测数据之间的关系,只能从检测器不停地采集的大量实测数据中挖掘出它们之间的关系,用知识来体现这种关系,形成对应的知识库。这里也许用到的数据挖掘措施有小波分析、状态空间重构以及多种人工智能的措施,例如机器学习、不确定性推理、定性推理、神经网络等。交通流参数的预测值发送到对应子系统(交通管理子系统、交通运行决策子系统、紧急事件处理子系统、公众信息公布子系统等),供这些子系统决策用。三、数据挖掘的应用思绪1.数据挖掘在交通安全领域应用(1)交通事故专题分析开展事故的区域分布特性、时间分布特性、道路分布特性、事故原因分布特性、事故形态分布特性、重点车辆事故信息分析等专题分析。(2)交通事故发展趋势分析开展基于事故历史数据的交通事故发展趋势分析。(3)事故多发路段分析挖掘针对某一条重点道路或某几条重点道路的事故多发路段分析。(4)事故与违法信息关联分析将事故信息与违法信息结合开展关联分析,分析事故与违法行为的关系。(5)事故与机动车、驾驶人保有量的相对数分析将事
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 成品油海上运输服务协议2024年
- 2023-2024学年之江教育评价高三下阶段测试(五)数学试题
- 2024年企业劳务服务协议模板
- 2024办公电脑集中采购协议模板
- 2024年反担保协议条款示例
- 2024年家居装饰协议格式
- 2024年批量锚具采购商务协议条款
- 文书模板-旅游服务转让合同
- 2024年电商管理代运营协议模板
- 2024年公司反担保条款详细协议
- NB_T 10339-2019《水电工程坝址工程地质勘察规程》_(高清最新)
- 繁体校对《太上老君说常清静经》
- 关于统一规范人民防空标识使用管理的通知(1)
- 电缆振荡波局部放电试验报告
- 西门子RWD68说明书
- 针对建筑工程施工数字化管理分析
- 多品种共线生产质量风险评价
- 【MBA教学案例】从“虾国”到“国虾”:国联水产的战略转型
- Unit-1--College-Life
- 医院车辆加油卡管理制度
- 平面四杆机构急回特性说课课件
评论
0/150
提交评论