(机械设计及理论专业论文)基于web的客户信息获取及分析方法研究.pdf_第1页
(机械设计及理论专业论文)基于web的客户信息获取及分析方法研究.pdf_第2页
(机械设计及理论专业论文)基于web的客户信息获取及分析方法研究.pdf_第3页
(机械设计及理论专业论文)基于web的客户信息获取及分析方法研究.pdf_第4页
(机械设计及理论专业论文)基于web的客户信息获取及分析方法研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 “客户需求”( v o c :v o i o eo fc u s t o m e r ) 已被广泛认为是新产品开发决定 性的驱动力。互联网日益成为丰富客户信息的聚集地,充分利用基于网络的客 户信息资源,对把握市场动态、快速响应客户需求具有重要的意义。 本文重点研究基于集中式w e b 信息源的客户信息获取及分析方法,开发了 相应的支持系统并进行了应用。作为天津市重大科技攻关项目“新型轿车虚拟 设计技术研究”分项目“市场调研、综合分析及支持系统开发”的重要组 成部分,本文着重进行了以下几方面的研究: l 、对w e b 数据挖掘的概念和分类进行了系统的介绍,同时结合课题的具 体需求对几种常用的数据挖掘方法进行了研究。 2 、对w e b 信息源的分类、特征和组织结构进行了系统的研究,建立了基 于w e b 信息源的需求分析框架,构建分析知识库以支持对信息源的分析和处 理,研究了基于w e b 信息潭的客户信息获取及分析的流程及方法。 3 、在对信息源进行深入分析的基础上,对基于信息源的客户满意度分析方 法进行了研究,建立了完整的客户评价体系结构。 4 、结合典型信息源,具体介绍客户信息获取及分析方法的应用实例,对典 型分析结果进行了详细介绍 5 、本文在上述理论、方法研究的基础上,设计开发了相应的支持软件系统, 并在协作方进行了具体应用 关键词:w e b 、客户信息、客户需求、数据挖掘、客户满意度 a b s t r a c t ”v o i c eo fc u s t o m e r ”f v o c ) i sw i d e l ya c k n o w l e d g e da st h ed r i v m gf o r c ef o r n e wp r o d u c td e v e l o p m e n t w i t ht h e r a p i dg r o w i n go fi m e m e ta p p l i c a t i o n ,t h e w w wh a sa c c u m u l a t e dl a r g eq u a n t i t yo fc u s t o m e ri n f o r m a t i o n a n dd y n a m i c a l l y u p d a t e d m a k ef u l lu s eo f t h e s ei n f o r m a t i o ns o u r c e ,i so n eo f i m p o r t a n ta p p r o a c h e s f o r a c h i e v i n gq u i c k m a r k d r e s p o n d i n g a n ds h o r t p r o d u c t l e a dt i m e i nt h e d i s s e r t a t i o n , m e t h o d o l o g i e s o ne x p l o r i n ga n d 跚1 8 l 煳w e bb a s e d c u s t o m e ri n f o r m a t i o n 啪s y a e m a t i c a l l ys m d m d a n da s u p p o r t i n gs y s t e m i s d e v e l o p e d ,w h i c hh a sb e e na p p l i e dt o at y p i c a lc a s eo fa u t o m o t i v ep r o d u c t t h e m s e a r c hi so n eo f i m p o r t a n tp a r t so f t h ep r o j e c to f t h er e s e a r c ho fv h - t u a ld e s i g n t e c h n o l o g yo f n e ws a l o o nc a r ,w h i c hs p o n s o m db yt h ek e yp r o g r a mo ft i a n j i n s c i e n c ea n dt e c h n o l o g yp r o j e c t r e s e a r c ho ft h i sd i s s e r t a t i o nf b c u s e so nf o l l o w i n g a s p e c t s : 1 c o n c e p t i o na n d c l a s s i f i c a t i o no fw e bd a t a m i n i n g a r ei n t r o d u c e da n ds e v e r a l t y p i c a lt e c h n i q u e st ow e b b a s e dd a t am i n i n ga r ca n a l y z e d 2 t h ec l a s s i f i c a t i o n , c h a r a c t e ra n df r a m e w o r ko fw e bd a t as o u r c ea r e s y s t e m a t i c a l l ys t u d i e d t h ed e m a n d - a n a l y s i sf r a m e w o r kb a s e do nw e b d a t as o u r c e a n dt h er e p o s i t o r yt os u p p o r tt h ea n a l y s i so fd a t as o u r c ea r eb u i l t t h ep r o c e s sa n d m e t h o do f a c h i e v e m e n ta n da n a l y s i so f c u s t o m e ri n f o r m a t i o na 船s t u d i e d 3 b a s e do nc a r e f u l l ya n a l y s i so fd a t a8 0 l f f c e ,t h em e t h o do fa n a l y s i so f c u s t o m e rs a i l s f a c t i o ni n d e xb a s e do nw e bd a t as o u r c e a r es t u d i e da n dt h e c u s t o m e r - e v a l u a t i o ns y s t e ma 聆b u i l t 4 c o m b i n e dw i t ht y p i c a ld a t as o u i c :e ,t h e a p p l i c a t i o n o fm e t h o d o l o g yo f e x p l o r i n g a n d a n a l y z i n g v o i c eo f c u s t o m e ra r ei n t r o d u c e d 5 b a s e do nt h er e s e a r c ho f t h e o r ya n d m e t h o d ,s y s t e ms o f t w a r e w a s d e v e l o p e d k e y w o r d s :w e b ,c u s t o m e r i n f o r m a t i o n ,v o i c eo f c u s t o m e r , d a t am i n i n g , c u s t o m e rs a t i s f a c t i o n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得 的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经 发表或撰写过的研究成果,也不包含为获得苤洼盘堂或其他教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意。 学位论文作者签名:番兹宪 签字日期:2 弓年月巧日 学位论文版权使用授权书 本学位论文作者完全了解苤洼盘鲎有关保留、使用学位论文的规定。 特授权鑫垄盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学 校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 否岳袁 签字日期:1 - ;年1 月f j 日 h 一名:孙扫 签字日期和、年【月f f 日 第1 章绪论 第1 章绪论 1 1 企业竞争重点转移的历程 随着社会生产和客户需求的变化和发展,企业的竞争重点经历了以下不同 的发展阶段【”。 1 、第一阶段:“以产值为中心” 在供给不足的情况下,企业的竞争重点是以产值为中心,其目标是生产更 多的产品,创造更高的产值,进而获得更高的利润。 2 、第二阶段:“以销售额为中心” 伴随新的生产方式的产生、现代化大生产的发展以及市场竞争的加剧,以 产值为中心的竞争受到了巨大的冲击,产品的大量积压使企业在内部采取严格 的质量控制,外部开始强化推销观念,以优质产品和高促销手段来提高销售额。 此时企业竞争的重点也就转变到销售额上。 3 、第三阶段:“以利润为中心” 市场竞争的加剧、产品的进一步同质化,使销售费用越来越高,产品质量 的提高又进一步加大了产品成本。对企业来讲,销售额的提高并不意味着利润 的增加,相反,许多企业的销售额虽然增加了,利润反而降低了。在这种形势 下,企业竞争重点向内部转移,管理目标移向以利润为中心的成本管理。 4 、第四阶段:“以客户满意为中心” 由于以利润为中心实际是以企业利润最大化为中心,同时忽略了客户的利 益。一方面,以企业为中心的管理理念必然引起客户的强烈不满,影响企业利 润的增长;另一方面,企业内部成本降低不可能无限制地消减。目前,随着经 济全球化和服务一体化的趋势,客户成为企业的宝贵资源,客户对企业产品或 服务的满意与否成为关系企业命运和发展的决定性因素。 因此,“以客户满意为中心”理所当然地成为企业管理的竞争重点【2 j 。 1 2 产品开发的发展方向全寿命周期客户满意 产品是企业的生命,企业通过向客户销售其产品或服务来获取利润。成功 的企业都采取研制一代、开发一代、生产一代的战略方针,产品开发是与市场 营销观念紧密联系在一起的,图1 - 1 表示了市场营销观念变化的过程。 目前新产品开发已从传统的“生产导向”与“产品导向”观念,朝“市场 导向”与“社会导向”转变。它强调企业的一切经营活动都必须以客户为中心, 第1 章绪论 以满足客户不断增长的需求为企业的主骚目标。新产品开艘过程以产品的市场 营销分析为基础,同时考虑满足客户需求与符合社会整体利菔,这是企业在市 殇竞争中立予不数之逮熬美禳添嚣之一。 对应于市场营销观念的变化,一个世纪阻来,产品开发概念的演变经历了 技术捺霸型、霉求缎魂羹、楼控联台型、功戆秘:l 霆程戆集艘爨等除段。霪兹, 由于市场复杂性、究争激烈髋的增加,客户对产鼯结构、性能的癸求日益复杂 化,新产品开发正朝着“系统集成和网络”型发展。它从产品寿命周期出发, 不 叉强调凝产晶静磷究嚣发秘= 羹产准螽、制造、装配过程戆集成,逐涉及销售、 供应、维修,使雳籍产菇韵升级换代、客户服努、零部释的供应默及同行业的 竞争秘焱台。它怒产最嚣发续入 圭会系统麴“生产一营销”鼹终帮枣场竞争环 境中巢翔以考虑,箕实矮蹙众泣必须获褥产晶寿命周期各除段的客户霈求信息, 从不同阶段出发,对已有产品进行改造躐开发垒新产品,以便恩好地满足客户 懿露求1 3 l 。 臣固 生产导向 产品导向 臻镳等巍 市场导向 孛套蹲崮 臣困 产品成本 产品质量 热强镌售手袋 满戆顾客需求 裁瓣满是羲客摹袋 与符合社奄摧体利益 卫 卖方市场 以企业为中心 买方市场 竣蹶客为孛, 图1 1 市场营销观念变化的过程 1 。3 鬻声需求的缱位鞠薰要性 客户嚣求是客户惩港富裘这熬露产燕麓鬟壤,金篷应该爨磁麓逶过各鼹手 段和渠道收集原始的客户需求信息1 4 j 。在激烈的市场竞争中,客户对企业产品 的功熊、服务和质爨的满意稷度是一个企业或单位赖以存谯和获益的重要评价 疆素,客户懿需求避经成势企盈一韬生产经营溪动魏基疆,滚是客户多襻琵耧 个性化的需求,是企业的艇存之本、兴旺之源。 买方枣绣与囊方枣场煞校本区裂藏谯予垒数与滚费考瓣逡霞爱慰了攫本戆 变化,生动权已经由企业转移到客户手中,客户拥有更多的信息和选择,对产 品更加挑剔,也更难以满愚。企业( 制造商) 不能继续依据自己的规格和质量 糕疆泉扶事生产,糖反缝稻毖绥裂客户中去,发蕊童 么是磐户戆冀匿震要,并 第1 章绪论 且理解和满足客户的需求。一个有远见的企业,除了遵守企业内部的标准以外, 必须用至少等同于竞争者( 如果不能更好的话) 的质量和价格,来满足客户的 需求。 近些年来,用户呼声已经逐渐成为新产品开发的决定性的驱动力。产品的 最终消费者( 顾客) 、产品分销商、零部件供应商以至竞争者,共同组成了产品 赖以生存的市场环境,并且,这些市场因素在产品开发中起着越来越重要的作 用。 用户呼声表现在宏观和微观的两个方面。用户呼声的微观角度着眼于客户 个体的需求及之后的综合处理;市场环境角度分析则是对用户呼声宏观的全面 反映。通过对市场竞争态势的分析、市场机会的寻找以及基于市场竞争状况分 析的新产品开发的评价,可以从更高层次上全面反映市场的变化与需求。因此, 对于市场态势的宏观分析,在整个产品规划过程中起着至关重要的作用。相对 比而言,用户呼声的微观角度则侧重于产品的技术性能与结构参数的规划和配 置【5 】o 统计资料显示,如果企业提供的产品或服务使顾客感到很满意,顾客将会把 满意的信息传递给3 - 9 个顾客;当不满意时,则会把抱怨的信息扩散给1 0 2 6 个顾客。面对不满意,大部分的顾客会选择其它企业的产品或服务并把不满意 的信息扩散出去,另一部分顾客则放弃投诉,还有一部分顾客以责备销售人员 代替投诉,进行投诉的顾客仅占很小的比例( 某些行业的统计数字表明不足 5 ) 。这些分析表明,顾客是每一个企业生存和发展的基础,企业必须把顾客的 要求放在第一位,顾客的不满意会直接或间接地导致企业失去顾客,失去市场。 1 4 以客户为主体是新生产方式的核心 1 4 1 大规模定制( m c :m a s sc u s t o m i z a t i o n ) 是现代制造业发展的 必然趋势 当前,世界市场已经从传统的相对稳定型市场演变成动态多变型市场,同 行业之间、跨行业之间的竞争更加激烈,用户需求变得个性化、多样化,产品 生命周期缩短,多品种、小批量生产比例增大,交货期成为主要的竞争因素。 在此情况下,传统的大规模生产方式越来越难以适应市场的多元化和个性化需 求,大批量定制生产【6 】生产方式应运而生,并很好地迎合了市场需求。 大规模定制能以大批量生产的效益快速提供给顾客定制产品,是制造业发 展的必然趋势。m c 的本质是在满足不同用户特殊需求的同时,继续用大规模 第1 章绪论 的方式进行设计、生产、管理等过程,从而有效控制生产成本,压缩产品周期。 m c 的关键优势在于产品和生产过程的生命周期的分离,它通过长的稳定的生 产过程产生动态变化的产品流,这样就可以用同一生产过程来生产不同类型的 产品,这一特性在产品生命周期日益缩短和产品流日益增多的情况下显示了极 强的生命力。 1 4 2 以客户为主体是大规模定制研究和应用的重点 现阶段国内外对m c 的理论和方法的研究主要侧重于企业主体角度,如图 1 2 典型地说明了这一侧重点,即大部分研究集中于以企业为中心的m c 产品 设计和生产组织等技术研究,如面向m c 的生产组织和管理、面向m c 的制造、 面向m c 的营销等。面向m c 的产品设计利用基于产品族的产品模型和模块化 设计方法以及并行工程哲理等,不仅可快速推出新产品,而且能大大降低开发 成本,从源头上增强企业的竞争力。面向m c 的生产组织和管理通过业务流程 重组和生产过程重组,能有效提升企业自身的适应能力和反应能力,提高企业 资源利用率和劳动效率。 产 产品舻、黧化 高质 产品 图卜2 大规模客户化生产模式动态循环圈【,1 当前,大规模定制在企业的推行还处于初期阶段,由于实施m c 的企业有 限,市场竞争主要表现为大规模定制企业与大规模生产企业的竞争,属于不对 等竞争,实行大规模定制的企业由于满足了客户的个性化需求,实现了产品和 生产过程的分离,从而能有效提升企业竞争力。随着越来越多的企业进入这种 大规模定制产品生产方式和产品生命周期极限的到来,大规模定制过程方式的 优势也将逐渐降低。在多数企业甚至全行业实施大规模定制后,客户将会有更 大的选择余地,新的竞争环境形成,市场竞争表现为大规模定制企业之间的对 第】章绪论 等竞争,定制生产给企业带来的领先优势将会明显减弱,满足客户定制需求将 不再是企业取胜的决定性因素,企业必须寻求其它方法和途径来提高产品的竞 争力。 随着众多企业实施m c ,客户处于定制企业竞争网的中心,其市场主体地 位更加突出,如图1 3 所示。由于客户的市场主体地位不会改变,客户利益的 最大化永远是决定产品竞争力的根本,企业只有从客户主体角度出发进行产品 规划,才能有效地增强产品竞争力。 在产品规划的过程中必须从客户主体角度出发对新产品方案、新产品的竞 争力等进行分析评价,以最大程度地确保新产品开发的成功,在产品进入市场 后必须不断利用客户和市场的反馈信息,对产品的竞争力进行动态评价,进而 支持营销策略的修订( 如价格的调整) 和产品方案的改进f 引。在这种环境下, 客户信息显得尤其重要,任何企业如果忽视客户需求的话,其最终的结果必将 是被客户抛弃和被市场淘汰。 图1 3 基于客户主体的大规模制造竞争环境 1 5 网络成为获取客户信息( 需求) 的新途径 表1 - 1 对传统的客户信息获取方式的特点进行了简单描述,从中可以发现 传统的调查方式具有周期长、成本高等缺点,已经不能够满足企业的现实需要。 由于企业已经充分认识到客户信息的重要作用,所以更加关心如何能够更多、 更快、更全面地获取客户信息。 随着互联网的飞速发展,w e b 上的信息量无比丰富,而且以膨胀式增长速 第1 章绪论 度扩展,从表1 - 2 1 9 1 可以看出,天论是网络资源,还是上网用户的数量都是十分 惊人静,在庞大的网络倍怠中蒙古着丰寤的客户信息资源。互联网已经成为企 业获取蜜户信息、了解客户需求和把握市场动态的重要工具,基于w e b 的信息 获取方法也是带场谓查豹发展憨势。 袭l 一1 客户信息获取途径一览表 i类壁戒奉数量可靠经内容广泛瞧反瘟对闻 i 委托市场 成本较穗 与投入有受委托公司 寄针对性 周期长 | 调蚕公霹采平静凝裁反镄攫 i 自己进行 投入大、成本 与投入有 为提高可靠 裹、消耗大量性必须加丈 根据预设的 周期较长 l 毒场调查霸标送行 入力物力财力投入 寝l 一22 0 0 1 年我国互联网发展现状调查数据表 ( 数据截盘弱期为:2 0 0 1 年4 胃3 0 鞠 l 项晕 全国网站数全国上阚用户人数全豳托有网贸数全国网贸字节数 ( 个)( 蠢夫) 令) 麓理轻关熬瑟技 术的不断涌现,也反映了各方顽对其的煎视程度。 第1 章绪论 1 6 ,2 课题研究的意义 当前,企业的主要资产不是库存或生产设备,而是客户信息和客户关系, 利润不是按产品线而是按客户衡量,衡量的关键要素是客户的终身价值。新形 势要求企业必须由在加速提高内部效率的同时向尊重外部客户转移【1 。 近年来,国内汽车市场从卖方市场转向买方市场,市场的国际化,全球化 趋势进一步加剧了竞争的强度,产品更新换代加快,产品寿命周期不断缩短, 各大汽车生产企业新车型层出不穷。由于汽车产品的特殊性以及汽车工业在国 民经济中的重要地位,汽车产品的设计与生产过程是一非常复杂的系统工程。 首先,由于国内自主开发能力的不足,国产汽车产品的开发过程通常为产品( 车 型) 引进与设计、生产技术合作、产品( 关键) 零部件采购( 供应) 、制造系统 扩充等,这就决定了国产汽车与国外同类产品在质量、性能存在很大差距,在 市场竞争中不可避免地受到进口产品的强烈冲击:第二,汽车产品的特殊性决 定了其开发、生产、使用过程,不仅要满足消费者的需求,而且要符合社会整 体利益,国家、行业或区域的有关法规对产品开发具有重要的影响,如环境保 护、税收政策等。特别地,对这些影响的考虑,必须具有定的前瞻性。即要 考虑未来可能颁布的法规对产品的影响;第三,由于目前生产能力的总和远大 于市场的需求量,因而,综合考虑市场需求变化、寻求新的市场机遇,是进行 新产品开发规划决策中的另一关键因索【l ”。 综台上述原因,汽车产品规划中要准确地把握市场,了解客户已有的和潜 在的需求,使规划产品在将来进入市场后能有较强的竞争力【1 2 l 。如何快速有效 地获取客户信息,如何有效地对客户信息进行分析、提取、正确客观地表达以 及传递其中包含的客户需求,对整个产品的规划过程有着十分重要的意义,同 时对企业制定正确的决策有着深远的影响。 互联网的飞速发展为企业提供了新的机遇和挑战,如何利用好网络工具是 企业十分重视和亟待研究解决的课题。所以,课题的研究具有很高的实际应用 价值,利用w e b 工具和网络资源,更好地表达客户信息,并将其即时地传递到 企业的手中,对企业的生产经营活动起着不可估量的作用。 论文的研究工作,与国内汽车行业的需求紧密结合,在合作单位( 中国汽 车技术研究与发展中心、天津汽车研究所) 的支持与协助下,对w 曲数据挖掘 技术和方法以及客户信息获取与分析方法进行了深入研究,同时进行了支持系 统的开发与应用,取得了良好的应用效果。因而,本课题的研究不仅将具有较 高的学术研究价值,而且有着重要的推广及应用意义。 第1 章绪论 1 7 课题的主要研究内容 作为天津市重大科技攻关项目“新型轿车虚拟设计技术研究”分项目 “市场调研、综合分析及支持系统开发”的重要组成部分,本论文的主要工作 包括以下几个方面: i ) 、对w e b 挖掘的分类及发展现状进行系统研究,同时结合客户信息对挖 掘与分析技术的要求,对几种典型的数据挖掘方法进行分析和应用研究: 2 ) 、建立基于w e b 信息源的客户信息获取及分析的流程,对w e b 信息源的 分类、特征进行系统的研究; 3 ) 、研究集中式w e b 信息源与市场( 需求) 分析框架的映射关系,建立基 于w e b 信息源的客户信息分析框架,构建分析知识库以支持对信息源的分析和 处理: 4 ) 、在对信息源进行深入分析的基础上,研究基于集中式w e b 信息源的客 户满意度分析方法,建立客户评价体系结构; 5 ) 、结合典型信息源,给出客户信息获取及分析方法的应用实例,对典型 分析结果进行详细介绍。 第2 章客户信息获取及分析支持技术研究 第2 耄客户信息获取及分析支持技术研究 2 数据挖撼与w e b 挖握蜓褫念 数摄挖掘是隧羞数据痒霹人工智熊技术懿发震蓑感褒懿一毽全毅信息技 术,也是计算机科学与技术,尤其是计算机网络的发展和普及所提出的急需解 决的重要课题。数据挖搬,就是从大型数据库螅数摆中识别出存在于数据库中 的有效的、新颖的、具育潜在价值的乃麓最终可理解的模式的非平凡邋程。数 据挖掘可以描述为从数掇中提取模式的过程,它反复使用多耪数据挖搦算法从 潮涮数搿中确定模式或合理模型。数据挖摇又鼹一种决策支持避程,它主要基 于人工智能、机器学习、统计学等技术,高度露动化地分析企业原有数据,做 出归纳髋推理,从中挖獭出潜在的模式,预测客户的行为,帮助企业决策者调 熬市场策略,减少风险,做出正确决策。数据挖掘是面向发现的数据分柝技术, 通过对大型的数据集避彳予探查,可以发现有用的知识,进而为决策支持提供有 力的依攒。 在当前日盏激烈躬躁方市场竞争中,任何与消费者行为有笑的信慧对裔家 来说都是非常宝贵的。掇然生产商的后螽数据库能够记录下来丰富的交易信息 以及和颟客相关的数据,但是这些数据资源中掰蕴涵豹犬量有箍信惠至今帮未 能得到充分地挖掘和利用。近年来兴起的数据挖掘技术为解决这个问题带来了 一线鹾光,丽遭_ 遘在w e b 上应麓数据挖掘技术( 即w e bm i n i n g 技术) ,不僵能 够获取大量的客户数据和信息,还可以分析和预测顾客的将来行为,同时还能 大大降低公司静运营畿零h ”。 数据挖掘中所采用的很多技术来源于过去二、三十年里所发展起来的人工 智麓帮黧惠检索援零,邋千年来豹研究又诞生了不少薪魏鼗瑟拣箍技零察理论, 并在生物、医疗、市场销售及金融等应用领域盥获得了广泛的成功。尽管数据 挖掘静各释技术署嚣理论嚣黧主都可敬砉攘或润接逢应黉予霹w e b 信息静挖摇, 如:“基于代理的技术”、“基于概念的信息检索技术”、“基于案例推理的信息 梭索技术”韶邑镯予w e b 挖摇审f l “,然褥峦予w w w 瓷添戆器震经、多徉缝、 分布的广泛性,特别是其上数据的半结构化特点,导致了w e b 挖掘与对普通大 黧数据露掰迸嚣躺挖掘露着疆大豹不弱。 尽管w e b 挖掘目前尚未有一个明确的定义,但是参照数据挖掘的定义,对 w e b 挖援俸如下定义:w e b 挖掇楚麸w w w 及獒稳关豹瓷添鞠毒亍为孛聿曩取毒弱 的模式和隐含信息“”。 第2 章客户信息获取及分析支持技术研究 通常w e b 挖掘可以分为3 个子任务:资源发现、信息提取、概括。资源发 现是指从w e b 上搜索可用的信息;信息提取是从已经发现的资源中提取出有用 的信息,对于文本信息而言,不仅要考虑文本内容,而且也要考虑文本的结构; 概括是对w e b 信息自学习的过程,通过学习抽取一定的规则【1 6 】。 2 2 数据挖掘方法研究 常用的几种数据挖掘方法包括:关联分析、统计分析、分类处理、聚类处 理。 一、关联分析 关联分析是指从文档集合中找出不同词语之间的关系。关联分析的作用是 在数据仓库的条目或对象间挖掘出满足一定条件的依赖性关系,它展示出数据 间未知的依赖关系,并有可能描述成关注数据项间的因果关系。 设i = i 。,i :,i 。) 是项的集合,t = t 。,t :,r 。 是事务的集 合,其中t i 是i 的子集( i :1 m ) ,则t 为事务的样本空间。a 、b 是l 的子集, a n b 为空集,a 、b 出现在事务中可记为事件a 、b ,事件c = a n b 表示a 、 b 同时出现的事务,则事件c 的概率为p ( a n b ) ,条件概率p ( bia ) 表示包含 a 的事务中同时包含事务b 的事务的概率。那么a 、b 之间的关联规则描述为 a b :s u p p o r t ( a b ) - - - - - p ( a n b ) 、c o n f i d e n c e ( a b ) = p ( bia ) ,支持度、可信 度作为规则的两个兴趣度的度量,分别描述规则a b 的有用性和正确性,当 指定了最小支持度阀值和最小可信度阀值,可提供相对于样本空问t 的类似于 a b 的满足阀值条件的所有规则,这即为关联分析1 1 ”。 按规则中所处理值的类型可分为:布尔关联规则、量化关联规则。布尔关 联规则描述的是子项集a 出现那么子项集b 也出现这样的规则,即可用布尔量 ( 出现为t r u e 或1 ,不出现为f a l s e 或0 ) 来描述在事务集中子项集之间的关系。 如:顾客( 顾客,购买a ) 一顾客( 顾客,购买b ) 。量化关联规则描述的是量化 的项或其属性之间的关联。如:顾客( 顾客,月收入1 0 0 0 0 元以上) 一顾客( 购 买,买经济型轿车) 这样的规则,涉及顾客一个离散化的量收入。 按规则中所涉及项的维数可分为:单维关联规则、多维规则。单维关联规 则涉及项或属性的维数为一或只考虑其一个维的值。如顾客( 顾客,购买商品 a ) 一顾客( 顾客,购买商品b ) 规则,只涉及顾客购买的商品这一个维。多维关 联规则涉及项或其属性的维数不只是一个。如:顾客( 顾客,月收入1 0 0 0 0 元以 上,年龄在3 0 一4 0 岁) 一顾客( 顾客,购买经济型轿车) 这样的规则,涉及顾客 的收入、年龄和购买行为这三个维。 第2 章客户信息获取及分析支持技术研究 按规则中所涉及抽象层可分为:单层关联规则、多层关联规则。单层关联 规则只涉及到项或其属性的一个层次:而在多层的关联规则中,涉及到项或其 属性的多个层次。如: 顾客( 顾客,月收入1 0 0 0 0 元以上) 一顾客( 顾客,购买经济型轿车) 顾客( 顾客,月收入1 0 0 0 0 元以上) 一顾客( 顾客,购买某品牌某型号的轿车) 这样两个规则,分析的购买行为涉及到不同的层次,前者比后者具有更高 的抽象层。如果两条规则属于同一待分析的规则集,则这种规则集由多层关联 规则组成,如果待分析的规则集不涉及不同抽象层,则称这种规则集由单层关 联规则组成。 二、统计分析 统计分析方法是利用统计学、概率论的原理对关系中各属性进行统计分 析,从而找出它们之间的关系和规律。统计分析方法是最基本的数据挖掘技术 之一。常用的统计分析方法有:判别分析、因子分析、相关分析、回归分析、 偏最小二乘回归方法等【1 8 j 。 判别分析:建立一个或多个判别函数,并确定一个判别标准,然后对未知 同性的对象,根据测定的观察值,将其划归已知类别中的一类。 因子分析:它是用较少的综合变量来表达多个观察变量。根据相关性大小 把变量分组,使得各组内的变量之间相关较高,不同组变量间的相关较低。 相关分析:相关分析是用相关系数来度量变量间的相关程度。 回归分析:回归分析是用数学方程来表示变量间的数量关系,方法有线性 回归和非线性回归。 偏最小二乘回归:是一种新型的多元统计数据分析方法,它主要研究的是 多因变量对多自变量的回归建模,特别当各变量内部高度线性相关时,用偏最 小二乘回归更加有效。另外,偏最小二乘回归比较好的解决了样本个数少于变 量个数的问题。 三、分类处理 分类是数据挖掘中应用领域极为广泛的重要技术之一,至今已经提出很多 算法。分类是根据数据集的特点构造个分类器,利用分类器对未知类别的样 本赋予类别的一种技术。构造分类器的过程一般分为训练和测试两个步骤。在 训练阶段,分析训练数据集的特点为每个类别产生一个对相应数据集的准确 描述或模型。在测试阶段,利用类别的描述或模型对测试进行分类,测试其分 类准确度。一般来说,测试阶段的代价远远低于训练阶段。 基于数据库技术的分类算法目前主要有m i n d 和g a c - r d b 算法两种”。 m i n d 采用典型的决策树构造方法构建分类器,它采用数据库提供的u d f 第2 章客户信息获取及分析支持技术研究 ( 用户自定义函数) 方法和s q l 语句实现树的构造,简要的说就是在树的每 层,为每一个属性建立一个维表,存放各属性的每个取值属于各个类别的个数 以及所属的结点编号。根据这些信息可以为当前结点计算每种分裂标准的 i n d e x 值,选出最优的分裂标准,然后据此对结点进行分裂,修改维表中结点 编号的值。上述过程中,对维表的创建和修改需要进行多次,若用s q l 实现, 耗时很多,因此采用u d f 实现。而分类标准的寻找过程则通过创建若干表和视 图,利用连接查询实现。 在决策树的构建过程中,最费时的操作是对属于每个非终端结点的数据集 进行类别分布信息的统计计算,以及利用分裂标准对数据集进行分裂。这两种 操作在m i n d 中都是通过u d f 实现的。该算法的优点是通过来用u d f 实现决 策树的构造过程使得分类算法易于与数据库系统集成。 g a c r d b 算法是一种利用s q l 语句实现的分类算法。g a c r d b 算法采 用一种基于分组记数的方法统计、训练、集中各种属性取值组合的类别分布信 息,通过最小置信度和最小支持度两个阙值找出有意义的分类规则。该算法使 用关系数据库系统提供的聚集运算功能,利用s q l 语句完成主要的计算任务。 在该算法中,首先利用s q l 语句计算利用每个属性进行类别判定的信息含量, 从而选择一个最好的分裂属性,并且按照信息含量的大小对属性进行排序。接 着循环地进行属性的选择、候选分类表的生成、剪裁以及分类误差的计算,直 到满足结束条件为止,如最小误差阙值和误差没有改善为止。 g a c r d b 算法具有的优点如下:该算法将传统的一次一个记录( 元组) 的处 理方式改变为面向集合的关系处理模式,执行速度有较大提高:算法使用标准 的分组聚集统计语句,可以充分利用数据库系统的查询处理功能,使得应用程 序不仅易于与数据库系统集成,而且用户需要编写的程序变得非常简单。 四、聚类处理 聚类分析又称无监督的分类,是完成聚类任务的关键技术。它采用分治术 将大量无序的物理或抽象的对象组织成若干结构( 聚类) ,以简化设计或实现。 聚类分析不依据于预先确定的约束条件,它的目标是将数据分簇,使得同 一簇内的内容的相似度尽可能地大,而不同簇间的相似度尽可能地小,并且根 据聚类的结果不断的丰富知识库。这里使用的主要是基于距离的聚类分析,该 方法假设对于具有k 个字段的数据集,所有数据对应于k 维空间内的一个点, 在用户的参与下对各个维施以加权,构造一个k 维空间的距离函数,如欧氏空 间距离等。j b m s c q u e e n 在1 9 6 7 年发明的k m e a n s 算法是其中一种极有影 响的技术,它的基本思路是:在数据空间中随机产生k 个聚类,在聚类之间移 动点使得该点到所属聚类重心的距离为最小,如此反复直到聚类稳定为止。 第2 章客户信息获取及分析支持技术研究 一般在无先验知识的情况下,聚类分折技术是进行数据挖掘时的首选,当 产生的聚类内部相似程度越高时,使用其它技术对它们进行数据挖掘的效率就 会越高。同时,发现有用的规则或模式的机会也就会越大。对于已挖掘出的知 识再使用聚类分析也可以对产生的模式进行简化,如对关联规则进行聚类分析。 聚类分析容易应用,并且不受数据类型的限制,它的缺点是结果不易表示,算 法中起决定作用的距离函数和权值函数不易确定,算法受初始参数的影响比较 大。 2 3w e b 挖掘技术研究 图2 1w e b 挖掘分类表 w e b 挖掘是从w w w 资源上抽取信息( 或知识) 的过程,它是将数据挖掘 技术和理论应用于对w w 资源进行挖掘的一个新兴的研究领域。w e b 数据有 三种类型:通常所说的w e b 数据如h t m l 标记的w e b 文档,w e b 结构数据如 w e b 文档内的超级链接,用户访问数据如服务器l o g 目志信息。与三种w e b 数 据类型相对应,w e b 挖掘可以分为三类:w e b 内容挖掘、w e b 结构挖掘、w e b 使用( 访问) 挖掘( 如图2 1 所示) 。 2 3 1w 曲内容挖掘 近年来随着w w w 信息的指数增加,那些只维护由关键字和超级链接所构 成的数据库的搜索引擎越来越难以满足人们的需要。一个令人尴尬的事实是, 搜索引擎返回了太多的结果,其中很多是无用或无关的结果,人们往往只浏览 了它的前面若干个结果以后,就无奈地放弃了浏览。实际上,为了找到想要的 结果,浏览上几百条记录是常有的事因此有必要开发出更为有效的技术以支 持w e b 内容挖掘。 w e b 内容挖掘是从数以百万计的w e b 资源中发现信息或资源的过程【2 们。随 第2 章客户信息获取及分析支持技术研究 着i n t e r n e t 进一步扩展,w 曲数据越来越庞大,种类繁多,有早先的g o p h e rf t p u s e n e t 数据,有数字图书馆和政府部门数据,以及各公司自己组建的数据仓库。 这些数据既有文本数据,也有图像、音频、视频等多媒体数据;既有来自于数 据库的结构化数据,也有用h t m l 标记的半结构化数据及无结构的自由文本。 根据实现的方法不同可将w e b 内容挖掘分为基于代理的方法和数据库方 法。而根据挖掘策略的不同又可分为w e b 页概要和搜索引擎结果概要,w e b 页 概要直接挖掘w e b 文档的内容,搜索引擎结果概要用于增强搜索引擎的内容查 询功能2 ”。 一、w e b 内容挖掘方法 基于代理的方法:代理技术是从七十年代末期发展起来的一项人工智能技 术,代理可以通过一定的规则模仿人的行为,用以解决人所无法从事的大量的 信息处理工作。代理是一些软件,它与传统的软件所不同的是其具有自主性, 同时它具有学习功能,因此它的能力可随时间的变化进行调整。代理表示了一 个信息检索元素构成的“分布式”网络,它们可以相互通信,并且无需人的控 制。 基于代理的方法包含了这样的一个人工智能系统,它可以自主或半自主地 为某个特殊的用户服务,以发现和组织基于w e b 的信息。一些智能的w e b 代 理可以利用用户描述文件( u s e rp r o f i l e ) 来查找相关的信息,然后组织和解释这 些被查找到的信息。还有一些代理则利用各种信息检索技术及开放的超文本文 档的特性来组织和过滤检索到的信息。 另外一类代理被设计成可以学习用户的喜好,并利用这些喜好来为那些特 殊的用户查找资源。代理表示了一个由信息值元素构成的“分布式”网络,它 们可以相互通信,并且无需人的控制,通过作用于每个w e b 服务器及相互间的 通信为终端用户提供查询结果。 使用代理的主要缺点是存在隐私泄漏的可能,由于代理具有社会化的特 点,信息的交换是透明的,且代理不会通知某用户它是否正在提交和检索该 用户的信息。实际上,已经有很多关于分布式系统的研究工作,其中之一是: 为了解决互联网在结构上的不足,建议在节点上存储必要的信息。 数据库方法:对w e b 上的异质的、半结构化的数据进行整合和组织,使之 成为结构化较好的、高层的资源集合,然后再对这些组织好的资源进行访问和 分类。目前的数据库方法又可分为多层数据库和w e b 查询系统。 多层数据库是由若干层信息构成的数据库。利用多层数据库,可以提供一 个与用户请求对应的指向目标文档集合的指针列表,其次允许用户交互地浏览 用以指向目标文档集合的详细信息而非目标文档本身。其主要思想是:信息抽 第2 章客户信息获取及分析支持技术研究 取,前提是假定用户不太愿意浏览信息的庞大细节,而更愿意阅读关于信息的 一般性描述。w e b 上元结构或半结构的数据被转化为较小的、结构化的和位置 较近的数据库,该数据库中包含了从层次结构的前一层数据库中抽取出来的信 息,其代价是牺牲了前一层数据库中的细节信息。随着数据分析、变化技术的 发展,使得把w e b 上的各种各样的原始信息变换为有一定结构的、分类的和高 层的信息成为可能,其代表了多数据库层次结构中的第二层,而包含原始的、 半结构化信息的w e b 则属于多层数据库中的第一层。如果需要,还可以从第二 层向上建立更多的层次。 这种方法的优点是:可以充分利用现有的数据库、数据挖掘等技术,提供 高层的查询接口,信息资源的高效管理,提供关于w e b 页内容的全局视图等。 其缺点是需要额外的软件,如:数据库管理软件系统、构建层次的软件及查询 系统,同时处理多媒体对象( 图像、声音、视频) 时也是一个难曩,因为不象从 文本中提取词语那么简单,声音和视频需要用其他的方式进行分类和索引。 w e b 查询系统:利用一个w e b 的简单关系视图,将结构和基于内容的查询 准则以类似于标准的数据库查询语言( 如s q l ) 的方式结合起来,对w e b 上半结 构化的数据进行查询,此类查询系统中采用的都是所谓的声明式查询语句。从 w e b 上查询半结构化的数据需要两个阶段,首先通过生成一个关联数据库来实 现w e b 的关系结构,紧接着进行关键字查询及创建用于把文档特征映射为数据 模型中的实例( 如图或表) 的外壳。 二、w e b 内容挖掘策略 w e b 内容挖掘包括w e b 页概要及搜索引擎结果概要两种策略。 w e b 页概要:互联网上的大量信息通常隐藏于w e b 文档内部j 因此一类重 要的应用就是对w e b 页内容的挖掘。从w e b 文档内部进行有效的信息抽取的 主要障碍是元数据的缺乏及没有一个标准的方法用于描述、操纵及在电子文档 中交换数据。w w w 协会建议的x m l 标准目前己被很多大公司广泛采用,这 为w w w 上的数据挖掘减轻了很大的负担。x m l 提供了灵活的数据标准,它 可以对许多种类的电子文档内容、语义及模式进行编码,其提供的通用数据格 式可以将数据与文档的表示相隔离,并使文档可以利用d t d ( 文档类型定义) 进 行自解释。 由于本课题所开发的软件主要从w e b 网页获取轿车用户在网站所发表的 评论信息,是针对w e b 页内容的挖掘,故采用的策略属于w e b 页概要。 搜索引擎结果概要:对搜索引擎返回的结果进行挖掘是十分必要的,这可 以提供给用户更为准确的查询结果。w w w 文档的异质性和缺乏结构的特点导 致一些研究工作集中于挖掘己知文档的子集或与某一主题相关的文档,一个这 第2 章客户信息获取及分析支持技术研究 样的子集可以是一个搜索引擎的查询结果【22 1 。w w w 文档的异质性和缺乏结构 的特点导致一些研究工作集中于挖掘己知文档的子集或与某一主题相关的文 档,一个这样的子集可以是一个搜索引擎的查询结果。 2 3 2w e b 结构挖掘 w e b 结构挖掘研究的是w e b 文档的链接结构,揭示蕴含在这些文档结构中 的有用模式,处理的数据是w e b 结构数据。文档间的超链反映了文档间的某种 联系,如包含、从属、引用等。由于超文本文档间的关联关系使得w w w 不仅 仅可以指示文档中所包含的信息,同时也可以揭示文档间的关联关系所代表的 信息。例如,指向一个文档的链接体现了该文档的被引用情况( 或普及性) ,而 从一个文档发出的链接则体现了该文档所覆盖的主体的种类( 或文档内容丰富 与否) 。这可以同文献的引用情况相比较,如果某篇文章经常被引用,则说明其 非常重要。 w w w

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论