下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、网络信息挖掘系统评价初探 【正文】 随着电子商务的蓬勃兴起,许多企业已经开始意识到其所拥有的丰富的信息资源在商业决策中具有潜在的巨大商业价值。更好的决策支持需求和企业电子商务的开展正推动着网络信息挖掘系统的研究与开发。 鉴于网络信息挖掘是在数据挖掘的基础上发展起来的,因此对于网络信息挖掘系统的基本问题,本文仍将利用数据挖掘系统的基本理论来描述。 目前,由于网络信息挖
2、掘系统的发展正在起步阶段,因此它的分类还无法达到数据挖掘系统分类那样细致。具体而言,对网络信息挖掘系统分类可以从商业能力、挖掘数据类型、挖掘功能、数据分析方法和应用领域角度进行。其中商业能力角度的分类与数据挖掘系统的商业能力分类完全相同,即分为商业产品和研究原型。而从另外几个角度看,网络信息挖掘系统的类型具有自身一些特点,例如从应用领域角度看,网络信息挖掘系统可以分为面向电子商务型、面向远程教育型、面向旅游型、面向广告业型等。随着网络信息挖掘技术的进一步发展,将出现更加丰富的网络信息挖掘系统类型。 1系统评价现状调查
3、0; 据调查,目前国内外还没有出现完全针对网络信息挖掘系统的评价成果,因而对网络信息挖掘系统的评价具有一定的创新性。笔者认为,对网络信息挖掘系统的评价可以充分地借鉴数据挖掘系统的评价方法。应该说这两类系统在很多评价指标上都有重合。 从国外来讲,1998年前后已经有一些研究人员和机构对数据挖掘系统进行了一定的评价研究。他们所采用的评价体系各有特点,以下是一些简要介绍。 1)J.F.Elder等人主要对17种数据挖掘系统进行了评价1,其中包括了著名的Clementine、IntelligentMi
4、ner系统。这些系统具有以下共同的特点:单平台(StandAlone)、多用途、支持多种模式和分类算法,并支持模式构建中的项目阶段。他们主要从6大方面对这些系统进行比较,除此之外,他们还单独从用户端角度对数据挖掘系统性能进行评价。他们认为并非支持的算法越多越好,各种算法面对不同的问题其解决能力也是不同的,它们具有自身的优点与缺点。在文章的最后,还对这17种产品的优势/劣势作了总体的描述性评价。 2)M.A.King等人针对14种桌面型数据挖掘系统2,重点对各个系统的特征和性能进行比较。他们选用了20个评价指标,并设计了一个标准的评价过程6分制评分标
5、准来评价各种软件工具的优点和缺点。他们评价的特色在于针对4种算法的产品分别评价,并采用4类数据集测试系统的性能。他们认为网络法(PolynomialandNeural)要比分割法(TreesandRules)更精确,另外也提出可以加入计算机环境、数据库连接性、提供商的稳定性等指标进一步评价。 3)D.W.Abbott等人主要针对高端型(High-end)用于欺诈甄别的数据挖掘系统进行了评价3。尽管仅选择了5个系统(Clementine、IntelligentMinerforMata、Darwin、En-terpriseMiner、PatternRe
6、cognitionWorkbench)进行评价,但是他们针对这5个专门应用于欺诈甄别的系统进行了细致的比较。 4)M.Goebel等人将数据库中知识发现(KDD)与数据挖掘结合到一起评价4。他们在介绍一般知识发现任务以及解决这些任务的方法基础上,主要调查了43种提供这类功能的软件工具。这些工具既包括研究的原型系统,也包括已经商业化的产品。其中有较为著名的Clementine、DBMiner、IntelligentMiner系统。他们采用了一个系统特征分类体系对上述产品进行比较,并提出一些尚待解决的问题:如不同技术的集成、可扩展性、与数据库的无缝集成
7、、对正在变化中的数据进行管理以及非标准的数据类型等问题。 5)J.Hah博士没有针对个别的数据挖掘系统具体评价,但他认为评价一个数据挖掘系统应包括如下几个方面5:数据类型、系统问题、数据源、数据控制的功能与方法、数据挖掘系统和数据库或数据仓库系统的结合、可伸缩性、可视化工具、数据挖掘查询语言和图形用户接口。 6)A.Berson等认为数据挖掘软件产品因为不同的目标用户和不同类型的解决问题而具有不同的重点6。主要可以分为目标解决方案、商业工具、商业分析工具、研究分析工具4类。另外,从目前整个数据挖掘市场看
8、也可以分成3个主要组成部分:通用的工具、综合DSS/OLAP/数据挖掘工具和快速成长的面向特定应用的工具。他们还进一步提供了一套专门用于数据挖掘工具评价的属性和方法,对11种具体的工具进行了评价,其中包括Clementine、IntelligentMiner等著名的工具。 从国内来看,数据挖掘系统的评价研究不如国外活跃,这与数据挖掘系统在国内的应用仍处于初步阶段有直接关系。目前这方面的研究状况如下。 朱爱群提出了一种高级记分卡系统7,采用该记分系统有助于商业用户更好地比较不同的数据挖掘技术,并以此作出正
9、确的选择。该系统共有3种不同的记分卡:商业记分卡、算法记分卡、应用记分卡。 从上述文献的调查看,国内外数据挖掘系统评价普遍具有的特点是: 1)重视系统算法能力的评价。在7个调查对象中,其中6个都明确采用了算法评价指标,特别是J.F.Elder、D.W.Abbott、朱爱群等人,对算法指标的分析尤为细致。 2)突出或者具有从商业能力角度的评价。朱爱群和A.Berson都明确提出采用商业能力指标,而其他研究者提供的从用户端角度对系统易用性的评价实际上可以作为系统
10、商业能力评价的一部分。 3)缺少对数据挖掘流程的评价。数据准备、数据预处理、数据建模、模型评估、模型应用等一系列步骤是几乎每个数据挖掘系统所必须经历的,往往各种系统在每个阶段表现的能力各有不同,因此有必要对过程中的每个阶段进行评价。 4)缺少从应用能力角度的评价。从所有的调查对象中看,仅有国内的一个评价提到了应用评价,而且其具体的指标并不是直接针对如保险业、零售业、电子商务等实际应用领域的。 由此可见,本文所要进行的网络信息挖掘系统的评价应当积极吸取已有数据
11、挖掘系统评价的优点,同时结合网络信息挖掘的特点来弥补评价中的不足。 2评价系统的选择 由于目前许多数据挖掘系统也同时提供网络信息挖掘功能,因此本文所要评价的网络信息挖掘系统,一方面从一些著名的数据挖掘系统中选择,一方面将参考KD-nuggets上有关网络信息挖掘软件的最新统计报道。 从文献调查看8,IntelligentMiner、EnterpriseMiner、MineSet、Clementine、Darwin、Scenario等被超过50的团体或个人选用
12、作为数据挖掘评价系统。 从KDNuggets2001对数据挖掘工具利用情况的调查看,位于前5位的工具依次为:Clementine(18)、SPSS/An-swerTree(16)、SAS(12)、CART/MARS(11)、SASEM(6)。 通过进一步调查KDnuggets关于网络信息挖掘的报道9,可以发现它所提供的19种网络信息挖掘软件工具是目前这个领域比较全面和权威的。因此,本文决定对这19种网络信息挖掘软件工具展开调查(见表1)。 表1商业能力评价(
13、产品成熟度和提供商实力) 附图 注:采用7分制评分,各个数字代表的含义分别是:1优秀;2好;3一般;4还可以;5较差;6没有;7有,但无法评价。 从上述调查可以发现,比较熟悉的数据挖掘系统的提供商诸如SPSS公司、SAS公司在网络信息挖掘市场上仍然比较活跃,特别是SPSS公司,它目前拥有Clementine和net.Analysis两种网络信息挖掘软件产品。 3评价指标与方法 &
14、#160;通过对数据挖掘系统评价方法的调查,了解到目前还没有针对网络信息挖掘系统评价报告公布出来。因此,本文在借鉴多种数据挖掘系统评价方法的基础上,提出从商业能力、算法能力、网络信息挖掘过程能力、电子商务应用能力这4个角度来评价网络信息挖掘系统的综合能力,以期为网络信息挖掘系统的选择提供一定的参考。 3.1商业能力 这个指标又具体通过下面3个子指标体现: 1)产品的成熟度和提供商的实力。这个指标可以体现网络信息挖掘软件产品是否成熟及它的提供商具备的实力的大校
15、通常可以从产品推出时间、更新频率、公司创立时间、拥有客户数量、客户涉及领域等多个方面综合考虑。 2)易用性。这个指标主要从用户端角度来考虑的,又可以分为如下4个子指标:挖掘过程的清晰度;无技术术语;熟悉的环境;可视化的报告。 3)投资回报率(ReturnonInvestment,ROI)。这个指标通常被认为是一个主观性很强、不易衡量的指标,因为对它的评价很大程度上依赖于开展的个别项目以及挖掘专家的专业知识和技能。然而它仍不失为衡量网络信息挖掘系统商业能力的重要指标之一。在电子商务环境下,网络可以使投资回
16、报率的评测较易实现,结果更为客观。这个指标的评价,一方面可以通过各个网络信息挖掘软件的新闻报道进行分析,另一方面如果可以获得网络信息挖掘软件提供商或领域专家的客观评价则更好。 3.2算法能力 算法能力指标用于评价在系统挖掘网络信息过程中某种算法的有效性。该指标下目前仅列出了8个子指标,即8种算法:决策树;神经网络;回归;RadialBasisFunctions;最近邻;NearestMeanKohonen和自组织图(Self-organizingMaps);聚类;关联规则。
17、60; 由于新的挖掘算法不断出现,可能这里列出的算法不完整,在具体评价时可添加。 3.3网络信息挖掘过程能力 这个角度的评价是以往的数据挖掘系统评价所缺乏的,因此本文所提出的网络信息挖掘系统的评价体系中特别加入这个指标。它主要被用来评价网络信息挖掘系统在网络信息挖掘过程的各个阶段所表现的能力。具体分为如下5个子指标:商业问题理解;数据准备:数据选择,数据预处理,数据转换;网络信息挖掘模型;模型评价;模型应用。 一般的网络信息挖掘系统都遵循这样的5个
18、基本阶段。当然有些系统可能也有略微的差别,如WUM6.0的挖掘过程重点就是在前3个阶段。 3.4电子商务应用能力 应用能力角度的评价也是数据挖掘系统评价中所忽视的,同时由于网络信息挖掘在电子商务方面的应用点在不断增多,本文特别设置从电子商务应用能力角度评价的指标。根据目前掌握的应用情况,又具体分为如下5个子指标:站点布局/设计;交叉销售;促销(Up-sells);个性化/推荐;早期预警。 如果新的应用层面出现,可以考虑添入新的子指标。
19、 4初步评价分析 目前,笔者仅根据在网上可获取的信息来对各种系统的相应属性进行评价。目前可以得到的结果如下。 1)网络信息挖掘软件与数据挖掘软件的关联。本文调查的网络信息挖掘软件的提供商中一些是比较熟知的提供数据挖掘软件的公司,如Clementine网络信息挖掘应用模板(ClementineWebMining)的提供者就是SPSS公司,该模板是该公司Clementine的应用模板之一。又如Web-hound的提供者是SAS公司。可见,越来越多的数据挖掘软件公司将目光投入到网络信息挖
20、掘及其应用中。当然这个充满前景的领域也吸引了众多新的拥有网络信息挖掘先进技术的小公司的加盟。 2)产品的成熟度和提供商的实力比较。通过对这19种软件产品的成熟度和提供商的实力进行评价,发现大概有1/3的网络信息挖掘软件的商业能力超过了普通水平(见图1)。原来数据挖掘系统领域的领先者,像SPSS公司和SAS公司,在网络信息挖掘系统领域仍然保持很强的商业能力。当然,本文的评价中还有NetTracker的商业能力也获得了较好的评价。调查中大概有一半的软件产品的商业能力处于普通水平之下。另外表1中Analog和WUM6.0仍为研究原型系统,故本次调查暂不对
21、其商业能力进行评价。 附图 图1商业能力评价(产品成熟度和提供商实力) 当然;由于笔者主要通过网站调查,对信息的理解往往带有个人主观色彩,在评价结果中不可避免存在偏差。 5未来工作 笔者认为此类评价工作应该将专家调查和二手信息收集相结合。可以利用专家调查法获得较为科学的指标权重,进一步完善本文所建立的网络信息挖掘系统的评价指标体系。另外可以尝试利用现有的数据集进行一些
22、可能的测试工作,如网络信息挖掘准确度的定量评价。 综上所述,网络信息挖掘发展方兴未艾。从国内外现状看,网络信息挖掘系统评价工作也仅处于起步阶段。希望本文所提出的网络信息挖掘系统评价体系和初步的评价结果对国内进一步开展这方面的研究有所裨益。 【参考文献】 1ElderJ,AbbottDW.AComparisonofLeadingDataMiningToolsIn:FourthAnnual ConferenceonKnowledgeDiscovery&DataMining.NewYork:s.n,1998 &
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025届浙江省诸暨市诸暨中学高考全国统考预测密卷数学试卷含解析
- 江苏省徐州一中、如皋中学2025届高三第一次模拟考试英语试卷含解析
- 山东省泰安市泰安实验中学2025届高考英语三模试卷含解析
- 驻马店市重点中学2025届高三3月份第一次模拟考试英语试卷含解析
- 2025届北京市10区高三第五次模拟考试英语试卷含解析
- 西藏自治区拉萨市八校2025届高三下学期第六次检测语文试卷含解析
- 施工安全培训
- 【教案】部编语文三上12 总也倒不了的老屋【国家级】一
- 餐饮店员工用工合同的范本
- 中学劳动实践活动课
- 装修施工图设计说明
- 法律文书字体格式
- 初中英语教学经验交流PPT教学课件
- 太阳能光伏电站项目环境管理计划
- 民俗习惯的司法适用
- 实验室安全准入教育(通识A课程)学习通超星课后章节答案期末考试题库2023年
- 创新实践(理论)学习通超星课后章节答案期末考试题库2023年
- 新媒体背景下的舆情引导与危机应对
- 泡利不相容原理
- 呼吸内科常见病诊疗
- 骨科常见的麻醉方式和术后护理
评论
0/150
提交评论