版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
报告原文DataMining精品文档放心下载题。它是个神奇又时髦的技术,但却也不是什么新东西,因为DataMining使用谢谢阅读DatabaseSegmentation感谢阅读LinkAnalysisDeviationDetection谢谢阅读精品文档放心下载谢谢阅读(包括NeuralnetworkFuzzytheoryGeneticAlgorithmsRoughSet谢谢阅读谢谢阅读DataMining成为企业智慧的一部份。感谢阅读DataMining谢谢阅读感谢阅读谢谢阅读精品文档放心下载同领域的专家,对DataMining展现出极大兴趣,例如在信息服务业中,浮现一谢谢阅读些应用,如在Internet之数据仓储和在线服务,并且增加企业的许多生机。精品文档放心下载我们对于这种DataMining的产品应该有一个正确的认知,就是它不是一个谢谢阅读谢谢阅读DataMining感谢阅读DataMiningData精品文档放心下载Mining精品文档放心下载DataMining工具是用来帮助业务分析策画人员从资料中发掘出各精品文档放心下载1HypothesisVerify精品文档放心下载这些假设对你的价值。TheEvolutionofDataMining感谢阅读何谓DataMiningDataMining感谢阅读精品文档放心下载KnowledgeDiscoveryinDatabases,KDD),也有人称为「资料考古学」(Data精品文档放心下载Archaeology)DataPatternAnalysis(Functional精品文档放心下载DependencyAnalysis),目前已被许多研究人员视为结合数据库系统与机器学习精品文档放心下载感谢阅读谢谢阅读谢谢阅读精品文档放心下载感谢阅读为决策支持之用,必能产生企业的竞争优势。DataMining可说会合了以下六种领域:2●Databasesystems,DataWarehouses,OLAP谢谢阅读●Machinelearning●Statisticalanddataanalysismethods精品文档放心下载●Visualization●Mathematicalprogramming●Highperformancecomputing精品文档放心下载DataMining应用的行业包括了金融业、电信业、零售商、直效行销、制造谢谢阅读业、医疗保健及制药业等等,应用领域如下表:ApplicationsofDataMining谢谢阅读Customer-focusedOperations-focusedResearch-focused谢谢阅读●Life-time●ProfitabilityAnalysis●CombinatorialChemistry谢谢阅读●Market-BasketAnalysis●Pricing●GeneticResearch感谢阅读●Profiling&●FraudDetection●Epidemiology精品文档放心下载Segmentation●RiskAssessment●Retention●PortfolioManagement●TargetMarket●EmployeeTurnover●Acquisition●CashManagement●KnowledgePortal●ProductionEfficiency●Cross-Selling●NetworkPerformance●CampaignManagement●NetworkPerformance●E-Commerce●ManufacturingProcesses3谢谢阅读DataMining对于感谢阅读企业的迫切性。Whydoweneeddatamining?感谢阅读–Largenumberofrecords(cases)(108-1012bytes)感谢阅读–Highdimensionaldata(variables)(10-104attributes)精品文档放心下载–Onlyasmallportion,typically5%to10%,ofthecollecteddataisever精品文档放心下载analyzed.–Datathatmayneverbeexploredcontinuestobecollectedoutoffear谢谢阅读thatsomethingthatmayproveimportantinthefuturemaybemissing.精品文档放心下载–Magnitudeofdataprecludesmosttraditionalanalysis(moreon感谢阅读complexitylater).DataMining和统计分析有什么不同?硬要去区分DataMining和Statistics的差异其实是没有太大意义的。一般将感谢阅读之定义为DataMining技术的CART、CHAID或模糊计算等等理论方法,也都是感谢阅读DataMining有相当大的精品文档放心下载比重是由高等统计学中的多变量分析所支撑。但是为什么DataMining的出现会感谢阅读引发各领域的广泛注意呢?主要原因在相较于传统统计分析而言,DataMining精品文档放心下载有下列几项特性:1.处理大量实际资料更强势,且无须太专业的统计背景去使用DataMining的感谢阅读工具;2.数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件,感谢阅读DataMining的工具更符合企业需求;43.纯就理论的基础点来看,DataMiningData感谢阅读Mining目的是方便企业末端用者使用而非给统计学家检测用的。谢谢阅读数据仓储、KDD、Datamining的关系若将DataWarehousing(资料仓储)比喻作矿坑,DataMining就是深入矿坑感谢阅读采矿的工作。毕竟DataMining不是一种无中生有的魔术,也不是点石成金的炼精品文档放心下载金术,若没有够丰富完整的数据,是很难期待DataMining能挖掘出什么有意义精品文档放心下载的信息的。谢谢阅读的进步,功能完善的数据库系统就成了最好的收集资料的工具。「数据仓储」,谢谢阅读精品文档放心下载感谢阅读DesignSupportSystem感谢阅读谢谢阅读给正确的人。DataWarehouseDataMining谢谢阅读精品文档放心下载感谢阅读感谢阅读感谢阅读感谢阅读精品文档放心下载谢谢阅读持全公司的决策支持系统(DSS)。精品文档放心下载感谢阅读5精品文档放心下载感谢阅读感谢阅读的数据:整合性数据(integrateddata)、详细和汇总性的数据(detailedand感谢阅读summarizeddata)、历史数据、解释数据的数据(Metadata)。如果数据仓储集精品文档放心下载谢谢阅读数据仓储与使用DataMining精品文档放心下载DataMining的研究重点,两者的本质与过程是两码事。换句话说,数据仓储应精品文档放心下载先行建立完成,Datamining才能有效率的进行,因为数据仓储本身所含数据是精品文档放心下载「干净」(不会有错误的数据参杂其中)、完整的,而且是整合在一起的。因此,谢谢阅读或许可说DataMining是从巨大数据仓储找出有用信息之一种过程与技术。感谢阅读OLAP能不能代替DataMining?所谓OLAP(OnlineAnalyticalProcess)意指由数据库所连结出来的在线查询精品文档放心下载OLAPDataMining感谢阅读事实上两者间是截然不同的,主要差异在于DataMining用在产生假设,OLAP谢谢阅读则用于查证假设。简单来说,OLAP是由使用者所主导,使用者先有一些假设,谢谢阅读然后利用OLAP来查证假设是否成立;而DataMining则是用来帮助使用者产生精品文档放心下载6假设。所以在使用OLAP或其它Query的工具时,使用者是自己在做探索精品文档放心下载(Exploration),但DataMining是用工具在帮助做探索。精品文档放心下载精品文档放心下载OLAP的工具去验精品文档放心下载证此假设是否为真,又成立的证据有多明显;但DataMining则不然,执行Data精品文档放心下载Mining的人将庞大的结帐数据整理后,并不需要假设或期待可能的结果,透过谢谢阅读Mining精品文档放心下载常被同时购买的意料外之发现,这是OLAP所做不到的。感谢阅读DataMiningOLAP仅能利用人工查询及精品文档放心下载可视化的报表来确认某些关系,是以DataMining此种自动找出甚或不会被怀疑谢谢阅读过的数据型样与关系的特性,事实上已超越了我们经验、教育、想象力的限制,精品文档放心下载OLAP可以和DataMiningDataMining无法被OLAP取代的。精品文档放心下载KDD(KnowledgeDiscoveryinDatabase)和DataMining的关系也是需要厘清谢谢阅读Fayyad等人对KDDnontrivialProcessofidentifying感谢阅读valid、novel、potentiallyuseful,andultimatelyunderstandablepattern精品文档放心下载indata」,其流程步骤是:先理解要应用的领域、熟悉相关知识,接着建立目精品文档放心下载标数据集,并专注所选择(Selection)之数据子集;再从目的数据中作前置处感谢阅读精品文档放心下载谢谢阅读做回归分析或找出分类型态;最后经过「Interpretation/Evaluation」成为有精品文档放心下载谢谢阅读的知识。所以,KDD是一连串的程序,DataMining是其中的一个步骤而已。谢谢阅读总而言之,DataMining,Datawarehouse,KDD三者的关系可以如此厘清,精品文档放心下载即Datawarehouse是一个经过处理、整合之数据库,而KDD是一种知识发现的精品文档放心下载7一连串程序,DataMining只是KDD的一个重要程序。它们最终目的,乃为组织精品文档放心下载谢谢阅读替组织取得竞争优势。DataMining的功能一般而言,DataMining功能可包含下列五项功能:精品文档放心下载?分类(classification)?推估(estimation)?预测(prediction)?关联分组(affinitygrouping)?同质分组(clustering)兹将这些功能的意义及可能使用的技巧简述如下:分类按照分析对象的属性分门别类加以定义,建立类组(class)。例如,将信用精品文档放心下载精品文档放心下载使用的技巧有决策树(decisionreasoning)感谢阅读等。推理谢谢阅读感谢阅读法上之相关分析、回归分析及类神经网络方法。预测8谢谢阅读谢谢阅读神经网络方法。关联分组从所有对象决定那些相关对象应该放在一起。例如超市中相关之盥洗用品感谢阅读精品文档放心下载确认交叉销售(cross-selling)的机会以设计出吸引人的产品群组。谢谢阅读同质分组精品文档放心下载感谢阅读自然产生区隔。使用的技巧包括k-means法及agglomeration法。精品文档放心下载DataMining的应用DataMining导入企业,其重点在于企业领域方面的知识,而它的谢谢阅读Domain-specificTools要结合企业中使用者的语言和分析过程,才能发挥工具谢谢阅读精品文档放心下载精品文档放心下载精品文档放心下载如,一个发行管理共同基金(mutualfunds)的企业体要发掘潜在客户,它要能感谢阅读精品文档放心下载精品文档放心下载感谢阅读成功的把共同基金推展至市场上。目前企业界把DataMining感谢阅读感谢阅读andSpotlight、NichWorkvisualization谢谢阅读TASA等等。这些数据发掘的系统,应用非常广泛,例如有一个应用在行销领域精品文档放心下载9精品文档放心下载谢谢阅读150公分左感谢阅读右,男性是163公分左右,而最舒适的视线角度是视线高度以下15度左右,所感谢阅读以最好的货品陈列位置是在130至135公分之间。感谢阅读企业界实际发展DataMining谢谢阅读谢谢阅读(patterns)、多变与具时间性的数据、空间导向数据(spatiallyoriented谢谢阅读data)、复杂的数据型态、数据的衡量性(scalability)。这说明数据与知识的感谢阅读发掘是一项信息丰富性的工作,面对易变的环境,没有现成的Model马上可用,感谢阅读精品文档放心下载感谢阅读才能做好资料挖掘工作。DataMining对每个公司来说都是一种重要的策略性的的计划,而将之列为谢谢阅读DataMining来做什么样的事其实相当不谢谢阅读容易。根据TwoCrowsCorp.最近的调查显示,DataMining主要的三个应用方感谢阅读精品文档放心下载Marketing、以及Market-BasketAnalysis。谢谢阅读在CustomerProfiling方面,我们希望找出客户的一些共同的特征,希望感谢阅读能藉此预测哪些人可能成为我们的客户,以帮助行销人员找到正确的行销对象。精品文档放心下载DataMining可以从现有客户数据中找出他们的特征,再利用这些特征到潜在客精品文档放心下载精品文档放心下载人员就可以只针对这些名单寄发广告数据,以降低成本,也提高行销的成功率。谢谢阅读Market-BasketAnalysis主要是用来帮助零售业者了解客户的消费行为,谢谢阅读感谢阅读买另一样产品等等。利用DataMining,零售业者可以更有效的决定进货量或库感谢阅读谢谢阅读10客户关系的管理是DataMining感谢阅读精品文档放心下载感谢阅读精品文档放心下载要高出许多。精品文档放心下载欺行为的侦测(FraudDetection)都很有兴趣,这些行业每年因为诈欺行为而感谢阅读造成的损失都非常可观。DataMining可以找出可能的诈欺交易,减少损失。财感谢阅读务金融业可以利用DataMining精品文档放心下载价走向。DataMining的另一个独特的用法是在医疗业,用来预测手术、用药、精品文档放心下载诊断、或是流程控制的效率。下面是一些DataMining的在科学、行销、工业、商业、体育…等各方面感谢阅读运用的类型:●在财务金融方面,预测市场动向,防范犯罪诈欺。精品文档放心下载据挖采中的前后行为分析(SequentialPatternDetection)功能让您分析那精品文档放心下载谢谢阅读中找到可能转向的客户,想办法留住他们。感谢阅读感谢阅读些人成为您的客户。精品文档放心下载户,这样您就可以设计更好的产品来满足您的客户的需求。感谢阅读●商业智慧所要解决的问题还包括如何减低诈欺或不实的申报(Fraud)。利用感谢阅读感谢阅读少损失,增加利润。●如果采用不同的价格策略,是否能增加市场占有率?●什么时候才是推出新产品的好时机?●我们与竞争对手的优劣势如何?●让我们获利高的客户们有什么共同的特征?●当我们的客户要转向我们的竞争对手之前,是否有何前兆?感谢阅读●如何认定客户的信用风险状况?●如何设计更好的保险产品来吸引客户,让客户满意?●一个经纪人在一个星期中应该可以卖出多少共同基金?●于销售资料中,发掘顾客的消费习性●根据以往审核的资料,找寻核发信用卡的规则●在NBA球赛数据中,找出球员的强弱点●从消费及缴费数据中,预警信用卡呆帐可能●从通话记录数据中,预警盗打电话可能●从宇宙飞船拍摄的影像数据,找寻星球上的火山●星际星体分类WebMining和DataMining有什么不同?谢谢阅读如果将Web视为CRM的一个新的ChannelWebMining便可单纯看做Data感谢阅读Mining应用在网络数据的泛称。精品文档放心下载访客是哪些人?什么原因吸引他们前来?如何从堆积如山之大量由网络所得数精品文档放心下载据中找出让网站运作更有效率的操作因素?以上种种皆属WebMining分析之范精品文档放心下载畴。WebMining不仅只限于一般较为人所知的logfile分析,除了计算网页浏览谢谢阅读谢谢阅读Off-Line可精品文档放心下载12进行的分析,WebMiningOff-Line及On-Line的数据库,谢谢阅读谢谢阅读谢谢阅读落实的。整体而言,WebMining具有以下特性:1.资料收集容易且不引人注意,所精品文档放心下载精品文档放心下载纪录的;2.以交互式个人化服务为终极目标,除了因应不同访客呈现专属设计谢谢阅读的网页之外,不同的访客也会有不同的服务;3.可整合外部来源数据让分析功精品文档放心下载logfilecookies谢谢阅读精品文档放心下载资源,将使分析的结果更准确也更深入。利用DataMining技术建立更深入的访客数据剖析,并赖以架构精准的预测感谢阅读模式,以期呈现真正智能型个人化的网络服务,是WebMining努力的方向。谢谢阅读DataMining在CRM中扮演的角色为何?谢谢阅读CRM(CustomerRelationshipManagement谢谢阅读议题,尤其在直效行销的崛起与网络的快速发展带动下,跟不上CRM的脚步如谢谢阅读同跟不上时代。事实上CRM并不算新发明,奥美直效行销推动十数年的CO感谢阅读(CustomerOwnership)就是现在大家谈的CRM—客户关系管理。谢谢阅读DataMining应用在CRM的主要方式可对应在GapAnalysis之三个部分:感谢阅读针对AcquisitionGapCustomerProfiling找出客户的一些共同的特征,感谢阅读ClusterAnalysis对客户进行分群后再透过Pattern谢谢阅读13Analysis感谢阅读进而降低成本,也提高行销的成功率。针对SalesGapBasketAnalysis帮助了解客户的产品消费模式,找出精品文档放心下载哪些产品客户最容易一起购买,或是利用SequenceDiscovery预测客户在买了某谢谢阅读一样产品之后,在多久之内会买另一样产品等等。利用DataMining可以更有效精品文档放心下载感谢阅读同时也可以用来评估促销活动的成效。针对RetentionGap谢谢阅读感谢阅读法预防客户流失;更有系统的做法是藉由NeuralNetwork根据客户的消费行为与感谢阅读交易纪录对客户忠诚度进行Scoring的排序,如此则可区隔流失率的等级进而配谢谢阅读合不同的策略。CRM080精品文档放心下载输入计算机就够,完整的CRM运作机制在相关的硬软件系统能健全的支持之谢谢阅读前,有太多的数据准备工作与分析需要推动。企业透过DataMining可以分别精品文档放心下载谢谢阅读谢谢阅读答案,并赖以建立真正由客户需求点出发的客户关系管理。谢谢阅读14DataMining的进行步骤资料挖掘既然可以增加企业智慧,提升企业竞争优势,到底应该如何进行谢谢阅读呢?根据Glymour等人的研究,提出一个参考的进行步骤如下:感谢阅读1.理解数据与进行的工作2.获取相关知识与技术(Acquisition)3.融合与查核资料(Integrationandchecking)精品文档放心下载4.去除错误或不一致的数据(Datacleaning)感谢阅读5.发展模式与假设(Modelandhypothesisdevelopment)感谢阅读6.实际数据挖掘工作7.测试与检核所挖掘的数据(Testingandverfication)精品文档放心下载8.解释与使用数据(Interpretationanduse)感谢阅读从八个步骤来看,DataMining牵涉大量的规划与准备,而从其它文献得知,谢谢阅读专家声称高达80%Join以及可能相当大精品文档放心下载DataMining只是知识发掘过程中的一个步骤而已,感谢阅读而达到这个步骤前还有许许多多的工作要完成。个案研究现在已经有相当数量的公司安装了数据挖采软件,以找出那些会造成利润谢谢阅读差异的信息。151.完美的购物经验-英国Safeway此个案研究探讨英国的Safeway如何运用DataMining来从大量的数据中萃感谢阅读取商业信息。英国Safeway使用IntelligentMiner从数据中萃取商业知识,这是一精品文档放心下载个DataMiningSafeway定义了明确并实感谢阅读DataMining感谢阅读读DataMining的结果,并且采取实际的行动以善用DataMining所发掘出来的信精品文档放心下载息。英国Safeway精品文档放心下载精品文档放心下载System/390DB2感谢阅读易,以及约4TB的磁盘储存容量。根据英国Safeway精品文档放心下载谢谢阅读谢谢阅读感谢阅读以及扩充的成本,没有一家公司有足够的资源可以在扩充方面超越对手。」感谢阅读温曲先生的说法是,这个问题的答案是:「必须以客户为导向,而非以产感谢阅读精品文档放心下载精品文档放心下载Safeway想要知道哪些种类的客户买了哪些种类的产品以及购买的精品文档放心下载频率,以建立「个人导向的市场」。(1)一把网住Safeway在商谢谢阅读业智慧过程(也就是DataWarehousing/DataMining过程)中的下一步,就是选择谢谢阅读16DataWarehouse感谢阅读精品文档放心下载种信用卡就成为该公司在500感谢阅读DataWarehouse感谢阅读约有500GB),使用的平台则为执行IntelligentMiner的RS/6000SP2。精品文档放心下载IBM声称该公司在1996推出的IntelligentMiner能提供DataMining作业所需精品文档放心下载DataMining感谢阅读数据分割、以及产品吸引力分析,当然还有图形化的结果显示。精品文档放心下载通常数据在存入DataWarehouse之前,都必须经过各种仔细的转换(Data谢谢阅读Cleansing),例如将标称值转换为数值、定义衍生的属性、以及去除空值(Null精品文档放心下载Values)等等,这都要视应用而定。在英国Safeway的个案里,资料源为单一的精品文档放心下载谢谢阅读大略的估计其客户是哪些人,所以DataCleansing并不是主要的问题。谢谢阅读在资料被存入DataWarehouse之后,IntelligentMiner会根据客户的相关资料,感谢阅读将客户分为150Association谢谢阅读精品文档放心下载75%感谢阅读精品文档放心下载过程事实上是我们业务的一部份。」(2)找出模式温曲先生的说法是,由于DataMining的贡献,「我们找出了超过人类概念感谢阅读范围的关连性。」例如IntelligentMiner发现某一种奶酪产品虽然销售额排名第谢谢阅读209,可是消费额最高的客户中有25%都常常买这种奶酪,这些客户可是英国精品文档放心下载17Safeway最不想得罪的客户。如果使用传统的分析方法的话,这种产品很快就会精品文档放心下载不卖了,可是事实上这种产品是相当重要的。英国Safeway也发现在28种品牌的橘子汁中,有8种特别受到欢迎。因此精品文档放心下载谢谢阅读精品文档放心下载价之宝。」Safeway谢谢阅读用DataMining中的SequenceDiscovery的功能,以侦测出长期的经常购买行为。精品文档放心下载再将这些数据与主数据库的人口统计数据结合在一起,Safeway的行销部门就可感谢阅读精品文档放心下载感谢阅读根据个别状况设计的邮件,这在我们销售量的成长方面扮演了很重要的角色。」精品文档放心下载有些DataMining的结果会比较容易应用到实际上,有的则不然。针对这个谢谢阅读SafewayDataMining的结果谢谢阅读再做DataMining,以找出有显著兴趣的数据。这种工具虽然目前使用的人不多,感谢阅读可是等到DataMining越来越普遍后,接受度应该会更高。谢谢阅读英国Safeway采取的DataMining方式可能是很典型的。该公司把焦点集中精品文档放心下载感谢阅读DataMining谢谢阅读的商业智慧过程中的一小部份而已。2.MCI通讯公司18与其它电话公司一样,MCI想要保有最多的顾客。方法之一就是及时找出精品文档放心下载感谢阅读例如提供特别的费率和服务。如何从数百万的顾客之中,找到你要维持的对象昵?MCI的办法是彻底搜精品文档放心下载寻1亿4精品文档放心下载谢谢阅读精品文档放心下载精品文档放心下载或从顾客打电话绐客户服务专线的次数找到模式?为找出这个模式,MCI定期启动该公司的IBMSP/2超级计算机-该公司的精品文档放心下载datawarehouse谢谢阅读SP/2已经汇编出一套含22个详细而谢谢阅读高度机密的统计性资料文件。MCI的信息主管LanceB.Boxer谢谢阅读程序的话,不可能开发出任何统计数据文件。3.USWest公司和其它电话公司一样,它也希望能找出有家用第二和第三条电话线的强烈感谢阅读精品文档放心下载精品文档放心下载一些特别区域的网络总机和电话干线的。甚且,USWest说,他们打算精确的找感谢阅读感谢阅读话线路,时间久到让公司获有利润。为了找到这些人,USWest使用一个叫做PALMS的程序。与该公司共同设感谢阅读计这套程序的有AT&T的NCR计算机部门,及拥有美国航空公司的AMR公司谢谢阅读旗下的SabreDecisionTechnologies部门。PALMS的执行平白是威力强大的NCR精品文档放心下载平行处理计算机。首先,PALMS过滤美国凤凰城地区域数千笔顾客记录的样本精品文档放心下载19250谢谢阅读精品文档放心下载纪录。最后,得到一个理想的潜在客户统计模型。然后,PALMS利用这个模型来搜寻数百万笔的顾客纪录-数据量几达一兆精品文档放心下载位。此程序在找出与其它数据的关系后,如每家的住址、USWest的电话干线位精品文档放心下载置、各地总机的容量,即可辨识出一群潜在的顾客-这些家庭符合该幙式,且感谢阅读USWest不必花费太多,就能够为这些家庭提供服务。感谢阅读USWest从1996年11月4日到1997年1DM感谢阅读动的回复率很高,与花费数百万美元的广播活动不相上下。PALMS甚至能够计谢谢阅读算出DMDM感谢阅读邮件。4.UltraGem公司在旧金山创立的UltraGem公司,一直和一家不具名的银行,共同预估可调精品文档放心下载利率抵押贷款的获利率。UltraGem感谢阅读精品文档放心下载谢谢阅读精品文档放心下载UltraGem董事长StevenA.Vere感谢阅读款、谁可能拖延付款等因素,而藉此调整不同的利率与手续费。精品文档放心下载5.Wal-MartStores公司1980年代起,精品文档放心下载Wal-Mart每晚从各分店收集了大量的收款机资料。但是,除了使用来自NCR公谢谢阅读司强大的计算机,Wal-Mart7亿笔令人心生畏惧精品文档放心下载20的潜在预测要计算-每一次计算2,700家分店个别的项目-迫使他们把店面按区感谢阅读域划分,产品类别而分。去年,Wal-Mart已经把系统转换为由NeoVistaSolutions公司所提供的数感谢阅读据挖采系统。系统运用数百台处理器执行这项工作,协助Wal-Mart预测特定分感谢阅读店中,对某一单项产品的需求。而且它也改善了Wal-Mart「巿场-购物篮」分感谢阅读感谢阅读品组合。6.国内的例子现在许多电信公司都开始往Data-Mining感谢阅读精品文档放心下载息流及客户流的104谢谢阅读开始从事Data-Mining的研究开发。但此方面国内才刚起步尚未有成功的例子精品文档放心下载传出;倒是卖工具的SAS,SPSS,NCR,STATISTICA,ORACLE……等软件厂商有不错感谢阅读的业绩。卖铲子的能赚钱,买了铲子能不能挖掘到宝藏仍是未知数?精品文档放心下载XML(DataWarehousing)与新增数据采矿(Data谢谢阅读Mining)功能的MicrosoftSQLServer2000XML与感谢阅读HTTP(DataMining)精品文档放心下载幅强化数据所能提供的参考价值与可用性、存取效率与实时决策支持系统分析,感谢阅读让企业能以最低的成本建置完善的数据库。DataMining工具DataMiming的工具是利用数据来建立一些仿真真实世界的模式(Model),精品文档放心下载利用这些模式来描述数据中的特征(Patterns)以及关系(Relations)。这些模式谢谢阅读谢谢阅读如AssociationModel可以帮助超级市场或百货店规画如何摆设货品。第二,数据谢谢阅读21谢谢阅读精品文档放心下载费邮寄费而只得到很少的回应。DataMining可以建立六种模式:Classification、Regression、TimeSeries、精品文档放心下载Clustering、Association、以及Sequence。Classification以及Regression主要是用来谢谢阅读Association与SequenceClustering精品文档放心下载则是二者都可以用的上。1.ClassificationClassification是根据一些变量的数值做计算,再依照结果作分类。(计算的感谢阅读"可能会响应"或谢谢阅读是"可能不会响应"两类)。Classification常常被用来处理如前面说到的邮寄对象谢谢阅读感谢阅读感谢阅读感谢阅读谢谢阅读ClassificationModelModel来对数据库的其它数据或是新的数据感谢阅读作预测。Classification通常会牵涉到两种统计方法:LogisticRegression以及Discriminant感谢阅读Analysis。然而因为DataMining已渐普遍,所以NeuralNets以及DecisionTree也谢谢阅读谢谢阅读繁杂的统计。NeuralNetsNet上的一个Node精品文档放心下载Node)谢谢阅读22都是一个函数,这个函数是使用输入该节点的相邻节点值的加权总和(Weighted感谢阅读Sum)做运算。在建立一个模式的过程中,我们要用一些数据来'喂''训练'它来谢谢阅读找到一组能够产生最佳输出结果的加权值(Weights)。有一种最常用的'训练法'感谢阅读称为Back-Propagation谢谢阅读后就产生另一组调整过的Weights,然后再产生一个新的输出值再与该已知值相谢谢阅读NeuralNet就被'训练'得能够相当正确的做精品文档放心下载预测了。可是NeuralNet有两个问题。首先,NeuralNet最受质疑的是它的'暧昧不明'谢谢阅读的特性,也就是它做的预测所根据的因素并不明确。第二,NeuralNet对测试数感谢阅读感谢阅读有一些新的技术可以改正这个缺点。DecisionTree则是利用一系列的规则来得到谢谢阅读'风险高'与'风险低'精品文档放心下载了这个DecisionTree,银行的放款人员就可以审查申请人的条件,决定该人是属谢谢阅读于高风险或低风险群。例如'收入高于40000'而且'高负债'的人会被归为高风险之精品文档放心下载类,而'收入低于40000'而且'工作超过5年'则会被归为低风险之类。DecisionTree谢谢阅读现在相当普遍,因为它所做的预测相当正确,而且又比NeuralNet容易了解。精品文档放心下载DecisionTree与NeuralNet也可以用来做Regression,某些种类的NeuralNet甚至感谢阅读可以用来做Clustering。DecisionTrees232.RegressionRegression是使用一系列的现有数值来预测一个连续数值的可能值。谢谢阅读3.Time-SeriesForcastingTime-SeriesForcasting与Regression感谢阅读的数值。Time-SeriesForcasting的不同点在于它所分析的数值都与时间有关。谢谢阅读Time-SeriesForcasting的工具可以处理有关时间的一些特性,譬如时间的阶层性感谢阅读精品文档放心下载如过去与未来的关连性有多少。4.ClusteringClustering是将数据分为几组,其目的是要将组与组之间的差异找出来,同感谢阅读时也要将一个组之中的成员的相似性找出来。Clustering与Classification不同的是,感谢阅读感谢阅读这些分类的意义。5.Association24Association是要找出在某一事件或是数据中会同时出现的东西。Association谢谢阅读主要是要找出下面这样的信息:如果ItemA是某一事件的一部份,则ItemB也谢谢阅读出现在该事件中的机率有X%谢谢阅读酪乳,那么这个顾客同时也买低脂牛奶的机率是85%。)感谢阅读6.SequenceDiscoverySequenceDiscovery与AssociationSequenceDiscovery谢谢阅读中相关的Item是以时间区分开来(例如:如果做了X手术,则Y病菌在手术后谢谢阅读感染的机率是45%。又例如:如果A股票在某一天上涨12%,而且当天股市加谢谢阅读权指数下降,则B股票在两天之内上涨的机率是68%)。谢谢阅读有一点很重要的是,没有一种DataMining的工具可以应付所有的要求。对谢谢阅读精品文档放心下载谢谢阅读感谢阅读业种、用途的工具问世。以下介绍一般常用的工具分类,列于下表:精品文档放心下载1.Case-BasedReasoning2.DataVisualization3.FuzzyQueryandAnalysis4.KnowledgeDiscovery5.NeuralNetworks表Datamining分析工具Datamining定义代表性产品
tools感谢阅读25Case-based在关系型数据库中提供一个Means1.CBRExpress
Reasoning找出record以发现类似规范的记录精品文档放心下载2.Esteen或一般记录3.Kate-CBR4.TheEasyReasonerData1.Alterian
精品文档放心下载2.AVS/Express谢谢阅读3.Visualization
了解。Edition4.Axum5.Discovery6.SPSSDiamond7.VisualInsightFuzzyQueryand模糊理论积极的承认人主观性问题1.CubiCalc精品文档放心下载Analysis量化问题,故能找出意想不到的信谢谢阅读2.FuziCalc3.FuzzyTECHforbusiness准,以及要改变每一种标准时。
4.QuestKnowledge这些工具特别设计以便确认那些已1.AriaDiscovery谢谢阅读2.Answertree些datamining工具能帮助指出巨量3.CART商机。4.DARWIN5.EnterpriseMiner6.DataEngineNeuralNetworks类神经网络技术的目标是发现与预1.BackPack
2.BrainMaker感谢阅读区别是,它可以训练学习发现的关
况,并可以弥补数据质量较差的情感谢阅读3.Loadstone26况,而处理出品质不错的信息来。4.NeuFrame/NeuroFuzzy精品文档放心下载5.NeuralnetworkBrowser6.Neuralconnection7.NeuralnetworkUtility8.NeuralystForExcel精品文档放心下载精品文档放心下载的技术,如类神经网络、机器学习、专家系统等人工智能的工具,使AI找到新精品文档放心下载的应用Domain。但是,近年浮现的新技术:遗传算法(Geneticalgorithms),精品文档放心下载却无确切证据显示在DataMining工具产品中使用,本文认为遗传算法的特性,谢谢阅读必然在DataMining领域中有出色的演出。谢谢阅读遗传算法是一种全新的最佳化空间搜寻法,其最初概念是由JohnHolland感谢阅读于1975谢谢阅读精品文档放心下载感谢阅读精品文档放心下载DataMining感谢阅读DataMining谢谢阅读领域绽放光芒。精品文档放心下载谢谢阅读感谢阅读最佳的结果。它具有强固性(robustness)与求值空间的独立性(domain精品文档放心下载感谢阅读力;而求值空间的独立性则使遗传算法的设计单一化,且适用于多种不同性质、感谢阅读DataMining感谢阅读27精品文档放心下载然可断定它必然成为DataMining的分析利器。谢谢阅读DataMining软件?MLC++(pd)?MOBAL(pd)?MOBAL(pd)?Emerald(rp)?Kepler(rp)?Clementine(cp)?DataMindDataCruncher(cp)感谢阅读?Darwin(cp)?IntelligentMiner(cp)?INSPECT(cp)?NeoVistaSolutions(cp)?Nuggets(cp)?Partek(cp)?Polyanalyst(cp)?SASDataMining(cp)?SGIMindSet(cp)?KnowledgeExplorer(cp)?DataEngine(cp)?DeltaMiner(cp)?S-PLUS(cp)28?MATLAB(cp)?Mathematica(cp)?XGOBI(pd)?CrystalVisionneéExplorN精品文档放心下载?sphinxVision?Graf-FX?IRIS?Spotfire?Netmap?VisibleDecisionsInc.?VisualMine其它信息OtherInformation?KnowledgeDiscoveryNuggets感谢阅读–/index.html谢谢阅读–subscribe@–withsubscribekdnuggetsinbody谢谢阅读?DataMiningandKnowledgeDiscovery谢谢阅读–http://www.wkap.nl/journalhome.htm/1384-5810谢谢阅读29–Firstissueavailableonline精品文档放心下载OtherRelevantJournalsIEEETransactionsonKnowledgeandDataEngineering精品文档放心下载–/tkde/感谢阅读IntelligentDataAnalysisjournal(Elsevier).感谢阅读–/ida/Menu.html感谢阅读JournalofIntelligentInformationSystems(Kluwer)精品文档放心下载–/JIIS/感谢阅读SpecialIssuesIEEETransactionsKnowledgeandDataEngineering感谢阅读8(6),December1996,SpecialSectionMiningOfDatabases谢谢阅读CommunicationsofACMSpecialIssueonDataMining,Nov1996感谢阅读IEEEExpertSpecialissueondatamining,October1996.精品文档放心下载ComputationalIntelligenceSpecialIssueonRoughSetsand谢谢阅读KnowledgeDiscovery,March1995.感谢阅读30JournalofIntelligentInformationSystems(JIIS)Special精品文档放心下载issueonKDD,volume4,number1,Jan1995.感谢阅读DataSetsTheMachineLearningDatabaseRepository精品文档放心下载–/AI/ML/Machine-Learning.html精品文档放心下载TheNeuralNetsBenchmarkingHomepage精品文档放心下载–http://wwwipd.ira.uka.de/~prechelt/NIPS-bench.html精品文档放心下载InformationExplorationShootout感谢阅读–:8080/精品文档放心下载–Thenetworkintrusiondataset感谢阅读–Theonlinenewsdataset结论TwoCrows董事长HerbEdelstein警告,「必须谨记的是,即使机器让这项感谢阅读谢谢阅读感谢阅读精品文档放心下载31谢谢阅读精品文档放心下载精品文档放心下载感谢阅读问题,IBM、视算枓技和ThinkingMachines公司已经组
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年水电站水资源综合利用合同范本3篇
- 2025年度个人房产买卖合同交房验收协议4篇
- 砖墙加固施工方案
- 建筑设计交付协议(2篇)
- 2025年度个人房产权属转移合同示范文本4篇
- 2025年行政事业单位合同管理制度规范与合同变更管理3篇
- 毕业回忆录模板
- 二零二五年度环保产业合作-环保设备让与担保合作协议4篇
- 2024年注册城乡规划师考试题库及参考答案(巩固)
- 违规网上行医自查报告(3篇)
- 医疗纠纷预防和处理条例通用课件
- 厨邦酱油推广方案
- 乳腺癌诊疗指南(2024年版)
- 高三数学寒假作业1
- 保险产品创新与市场定位培训课件
- (完整文本版)体检报告单模版
- 1例左舌鳞癌手术患者的围手术期护理体会
- (完整)100道两位数加减两位数口算题(难)
- 钢结构牛腿计算
- 2023-2024学年重庆市两江新区四上数学期末质量检测试题含答案
- 体外诊断试剂工作校准品产品校准品互换性(基质效应)Excel计算模板
评论
0/150
提交评论