下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘的应用近年来随着数据库和计算机网络的广泛应用,加上使用先进的自动数据生成和采集工具,人们所拥有的数据量急剧增大。条形码技术在商业上的普遍使用使得很多行业每天都积累了大量数据,如超级市场上的POS系统每天都要存储上万笔的顾客购买数据。先进的现代科学观测仪器的使用造成每天都要产生巨量的数据,如各种同步卫星每小时传回地球的遥感图像数据就达50giga(千兆)字节。Internet的迅猛发展使得网络上的各种资源信息异常丰富,在其中进行信息的查找真如大海捞针。
数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们也希望能够在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望"数"兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘从大量数据中提取出隐藏在数据之后的有用的信息,它被越来越多的领域所采用,并取得了较好的效果,为人们的正确决策提供了很大的帮助。
(一)科学研究:
从科学研究方法学的角度看,科学研究可分为三类:理论科学、实验科学和计算科学。计算科学是现代科学的一个重要标志。计算科学工作者主要和数据打交道,每天要分析各种大量的实验或观测数据。随着先进的科学数据收集工具的使用,如观测卫星、遥感器、DNA分子技术等,数据量非常大,传统的数据分析工具无能为力,因此必须有强大的智能型自动数据分析工具才行。
在天文学上有一个系统:SKICAT(SkyImageCatalogingandAnalysisTool)。它是美国加州理工学院喷气推进实验室(即设计火星探测器漫游者号的实验室)与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。SKICAT既是第一个获得相当成功的数据挖掘应用,也是人工智能技术在天文学和空间科学上第一批成功应用之一。利用SKICAT,天文学家已发现了16个新的极其遥远的类星体,该项发现能帮助天文工作者更好地研究类星体的形成以及早期宇宙的结构。SKICAT不仅提供对数据库的管理,并且通过训练可以对天体进行辨识。它采用了模块化设计,共有三个主要功能模块:分类建立、分类管理及统计分析。其中,分类建立是通过有示范的训练建立对天体的辨识机制。对天体的辨识是进行其它数据分析的前提,只有将天体识别出来以后,如是星系还是星球,才能进行相应的研究。使用SKICAT对天体数据进行分析,一方面是通过机器学习将知识提取过程由学习算法完成,从而可以实现对大批量数据的分析,另一方面是辨识那些亮度很低、人工难以判读的天体图像,以进行后续分析。SKICAT通过有效地对天体图像的特征进行定义,对那些亮度较低的图像可以得到比人工分类更好的结果。将仅由象素包含的关于天体的多维信息通过变换形成低维空间内的向量空间,并进而利用示范学习进行分类,以达到人工直接观察无法达到的分类精度。
数据挖掘在生物学上的应用主要集中于分子生物学特别是基因工程的研究上。基因研究中,有一个著名的国际性研究课题——人类基因组计划。据报道,1997年3月,科学家宣布已完成第一步计划:绘制人类染色体基因图。然而这仅仅是第一步,更重要的是对基因图进行解释从而发现各种蛋白质(有10,000多种不同功能的蛋白质)和RNA分子的结构和功能。近几年,通过用计算生物分子系列分析方法,尤其是基因数据库搜索技术已在基因研究上作出了很多重大发现。(二)市场行销:
由于管理信息系统和POS系统在商业尤其是零售业内的普遍使用,特别是条形码技术的使用,从而可以收集到大量关于用户购买情况的数据,并且数据量在不断激增。对市场行销来说,通过数据分析了解客户购物行为的一些特征,对提高竞争力及促进销售是大有帮助的。利用数据挖掘技术通过对用户数据的分析,可以得到关于顾客购买取向和兴趣的信息,从而为商业决策提供了可靠的依据。数据库数据挖掘在行销业上的应用可分为两类:数据库行销(databasemarketing)和货篮分析(basketanalysis)。
数据库行销的任务是通过交互式查询、数据分割和模型预测等方法来选择潜在的顾客以便向它们推销产品,通过对已有的顾客数据的分析,可以将用户分为不同级别,级别越高,其购买的可能性就越大。为进行行销分析,首先必须将已有的用户信息进行手工分类,分类的依据可以由专家根据用户的实际表现给出,这样得到训练数据后,由数据挖掘进行学习将用户进行分类的模式,这样当一个新用户到来时,可以有已经学习后的系统给出其购买可能性的预测结果,从而可以根据结果有针对性地对顾客进行推销。
货篮分析是分析市场销售数据(如POS数据库)以识别顾客的购买行为模式,例如:如果A商品被选购,那么B商品被购买的可能性为95%,从而帮助确定商店货架的布局排放以促销某些商品,并且对进货的选择和搭配上也更有目的性。这方面的系统有:OpportunityExplorer,它可用于超市商品销售异常情况的因果分析等;另外IBM公司也开发了识别顾客购买行为模式的一些工具(IntelligentMiner和QUEST中的一部分)。
(三)金融投资:
典型的金融分析领域有投资评估和股票交易市场预测,分析方法一般采用模型预测法(如神经网络或统计回归技术)。由于金融投资的风险很大,在进行投资决策时,更需要通过对各种投资方向的有关数据进行分析,以选择最佳的投资方向。目前国内有很多进行股票分析的软件,并且定期有专家进行股票交易预测,这些人工的预测一般是根据自己的经验再通过对已有的股票数据的分析而得到的,由于是人工处理,很难对更大量的股市数据进行分析。无论是投资评估还是股票市场预测,都是对事物发展的一种预测,而且是建立在对数据的分析基础之上的。数据挖掘可以通过对已有数据的处理,找到数据对象之间的关系,然后利用学习得到的模式进行合理的预测。这方面的系统有FidelityStockSelector,LBSCapitalManagement。前者的任务是使用神经网络模型选择投资,后者则使用了专家系统、神经网络和基因算法技术来辅助管理多达6亿美元的有价证券。
(四)欺诈甄别:银行或商业上经常发生诈骗行为,如恶性透支等,这些给银行和商业单位带来了巨大的损失。对这类诈骗行为进行预测,哪怕正确率很低的预测,都会减少发生诈骗的机会,从而减少损失。进行诈骗甄别主要是通过总结正常行为和诈骗行为之间的关系,得到诈骗行为的一些特性,这样当某项业务符合这些特征时,可以向决策人员提出警告。这方面应用非常成功的系统有:FALCON系统和FAIS系统。FALCON是HNC公司开发的信用卡欺诈估测系统,它已被相当数量的零售银行用于探测可疑的信用卡交易;FALCON的数据格式主要针对一些流行的信用卡公司,如VISA,MASTER等,因此它的应用面很大。FAIS则是一个用于识别与洗钱有关的金融交易的系统,它使用的是一般的政府数据表单。(五)产品制造:
随着现代技术越来越多地应用于产品制造业,制造业已不是人们想象中的手工劳动,而是集成了多种先进科技的流水作业。在产品的生产制造过程中常常伴随有大量的数据,如产品的各种加工条件或控制参数(如时间、温度等控制参数),这些数据反映了每个生产环节的状态,不仅为生产的顺利进行提供了保证,而且通过对这些数据的分析,得到产品质量与这些参数之间的关系。这样通过数据挖掘对这些数据的分析,可以对改进产品质量提出针对性很强的建议,而且有可能提出新的更高效节约的控制模式,从而为制造厂家带来极大的回报。这方面的系统有CASSIOPEE(由Acknosoft公司用KATE发现工具开发的),已用于诊断和预测在制造波音飞机制造过程中可能出现的问题。
(六)通信网络管理:
现代社会越来越依赖于通信系统来沟通信息,通信系统的结构非常复杂,如何保证通信系统安全运转成为一个极其重要的问题。在通信网络运行过程中,会产生一系列警告,这些警告有的可以置之不理,而有的如果不及时采取措施则会带来不可挽回的损失。由于警告产生的随机性很大,究竟哪些警告可以不予理睬,哪些警告必须迅速处理往往很难判断,一般需要由人工根据经验进行处理,效率不高。数据挖掘可以通过分析已有的警告信息的正确处理方法以及警告之间的前后关系的记录,得到警告之间的关联规则,这些有价值的信息可用于网络故障的定位检测和严重故障的预测等等任务中。根据当前的警告信息,就可以得到其后续发生各种情况的可能性,对危险事件可以起到预防的作用,从而使通信网络得以安全运转。这方面的系统有:芬兰Helsinki大学与一家远程通信设备制造厂家合作的TASA系统。
(七)Internet应用:
Internet的迅猛发展,尤其是Web的全球普及,使得Web上信息量无比丰富,Web上的数据信息不同于数据库。数据库有规范的结构,如关系数据库的二维表结构;毕竟数据库的创建是为了机器可读,因此有统一的格式,它是一种结构化的文件。Web上的信息则不然,主要是文档,它的初始创建目的是为了人类使用。文档结构性差,好者半结构化,坏者如纯自然语言文本则毫无结构。因此Web上的开采发现需要用到不同于常规数据库开采的很多技术。下面将从信息发现和用户访问模式发现两个不同的Web开采任务角度对这方面工作的研究现状进行评述。
Web信息发现也称信息搜索或查询。它的一般过程是,用户向系统提出查询条件,系统调用搜索引擎开始工作,然后把搜索结果提交给用户。根据用户希望查找的对象可分为两种:资源发现和信息提取。前者目的在于根据用户要求找出有关的Web文档位置;后者则是能自动从有关文档中抽取出满足用户需要的信息。资源发现本质上是网上搜索,关键在于自动生成Web文档的索引。典型的索引生成系统有WebCrawler和AltaVista等等,它们能对上百万数量的Web文档进行索引,文档中的每个单词的倒排索引均保存起来,技术上类似全文检索。用户通过输入关键词就能对所有建了索引的文档进行检索。目前在用的索引系统有十几种,用户输入同样的关键词在不同的索引下可能会得到不同的返回结果。为了提高搜索的准确度,研究人员又开发了一种建立在上述索引系统之上的高层系统——MetaCrawler,它能并行地把用户输入的关键词提交给9种不同的索引系统,然后把这9种系统的:研制新的更好的索引系统、利用已有索引系统或搜索引擎(如Yahoo)开发高层次的搜索或发现系统。相比之下,后者的研究更为活跃。从技术上看,自动文档分类或归类方法将对这方面的研究有很大作用。用户使用Web获取信息的过程中需要不停地从一个Web站点通过超文本链接跳转到另一个站点,这种过程存在一定的普遍性,发现此规律即是Web用户访问模式发现。这是一种完全不同于上述所讲的资源发现的任务。理解Web上的用户访问模式有这些好处:辅助改进分布式网络系统的设计性能,如在有高度相关的站点间提供快速有效的访问
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 杜绝校园欺凌共建和谐校园演讲稿范文(3篇)
- 北京市海淀区2024-2025学年高二上学期9月月考 数学试题(含解析)
- DB12-T 1110-2021 企业开办登记规范
- 贡献社会主题班会教案
- 上海市市辖区(2024年-2025年小学五年级语文)统编版小升初模拟((上下)学期)试卷及答案
- 上海市县(2024年-2025年小学五年级语文)统编版专题练习(上学期)试卷及答案
- 浙江省台州市台州十校联考2024-2025学年高一上学期11月期中日语试题含答案
- 人教版九年级语文上册教案全集
- 辽宁省沈阳市沈河区沈阳市第七中学协作体2024-2025学年八年级上学期期中地理试卷(含答案)
- 广东省揭阳市2025届高三上学期第一次月考数学试题(含答案)
- 2024年广东省公务员录用考试《行测》试题及答案解析
- 黑龙江省 哈尔滨市第四十七中学校2024-2025学年七年级上学期期中考试语文试题
- 期中(1-4单元)(试题)-2024-2025学年六年级数学上册西师大版
- 河南国有资本运营集团有限公司招聘笔试题库2024
- 《乌鲁木齐市国土空间总体规划(2021-2035年)》
- 无人机应用技术专业申报表
- 生涯发展展示
- 信息通信网络机务员-中级资格考试题库(完整版)
- 北京电影学院ppt讲义.doc
- 乱世巨星谐音歌词.
- 新精美水墨中国风书香校园读书活动动态ppt模板
评论
0/150
提交评论