第七章Web挖掘技术ppt课件_第1页
第七章Web挖掘技术ppt课件_第2页
第七章Web挖掘技术ppt课件_第3页
第七章Web挖掘技术ppt课件_第4页
第七章Web挖掘技术ppt课件_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据发掘原理与算法数据发掘原理与算法第七章第七章 WebWeb发掘技术发掘技术第七章第七章 Web发掘技术发掘技术v7.1 Web发掘的意义发掘的意义v7.2 Web发掘的分类发掘的分类v7.3 Web发掘的含义发掘的含义v7.4 Web发掘的数据来源发掘的数据来源 v7.5 Web内容发掘方法内容发掘方法v7.6 Web访问信息发掘方法访问信息发掘方法 v7.7 Web构造发掘方法构造发掘方法7.1 Web发掘的意义发掘的意义v 从大量的信息中发现用户感兴趣的信息从大量的信息中发现用户感兴趣的信息 :因特网上蕴藏:因特网上蕴藏着大量的信息着大量的信息v 经过简单的阅读或关键词匹配的搜索引擎得

2、到的是孤立而经过简单的阅读或关键词匹配的搜索引擎得到的是孤立而混乱的混乱的“外表信息外表信息 v Web发掘可以发现潜在的、丰富的关联信息。发掘可以发现潜在的、丰富的关联信息。7.1 Web发掘的意义发掘的意义v 将Web上的丰富信息转变成有用的知识:v Web发掘是面向Web数据进展分析和知识提取的。v 因特网中页面内部、页面间、页面链接、页面访问等都包含大量对用户可用的信息,v 而这些信息的深层次含义是很难被用户直接运用的,必需经过浓缩和提炼。7.1 Web发掘的意义发掘的意义v 对用户进展信息个性化:v 网站信息的个性化是未来的开展趋势v 经过Web发掘,可以到达对用户访问行为、频度、内

3、容等的分析v 可以得到关于群体用户访问行为和方式的普遍知识,用以改良Web效力方的设计,提供个性化的效力 第七章第七章 Web发掘技术发掘技术v7.1 Web发掘的意义发掘的意义v7.2 Web发掘的分类发掘的分类v7.3 Web发掘的含义发掘的含义v7.4 Web发掘的数据来源发掘的数据来源 v7.5 Web内容发掘方法内容发掘方法v7.6 Web访问信息发掘方法访问信息发掘方法 v7.7 Web构造发掘方法构造发掘方法7.2 Web发掘的分类发掘的分类vWeb发掘依托它所发掘的信息来源可以分为:发掘依托它所发掘的信息来源可以分为:vWeb内容发掘内容发掘Web Content Mining

4、:v对站点的对站点的Web页面的各类信息进展集成、概化、页面的各类信息进展集成、概化、分类等,发掘某类信息所蕴含的知识方式。分类等,发掘某类信息所蕴含的知识方式。 7.2 Web发掘的分类发掘的分类vWeb发掘依托它所发掘的信息来源可以分为:发掘依托它所发掘的信息来源可以分为:vWeb访问信息发掘访问信息发掘Web Usage Mining:vWeb访问信息发掘是对用户访问访问信息发掘是对用户访问Web时在效力器时在效力器方留下的访问记录进展发掘。方留下的访问记录进展发掘。v经过分析日志记录中的规律,可以识别用户的忠经过分析日志记录中的规律,可以识别用户的忠实度、喜好、称心度,可以发现潜在用户

5、,加强实度、喜好、称心度,可以发现潜在用户,加强站点的效力竞争力。站点的效力竞争力。7.2 Web发掘的分类发掘的分类vWeb发掘依托它所发掘的信息来源可以分为:发掘依托它所发掘的信息来源可以分为:vWeb构造发掘构造发掘Web Structure Mining:vWeb构造发掘是对构造发掘是对Web页面之间的链接构造进展页面之间的链接构造进展发掘。在整个发掘。在整个Web空间里,有用的知识不仅包含空间里,有用的知识不仅包含在在Web页面的内容之中,而且也包含在页面的链页面的内容之中,而且也包含在页面的链接构造之中。接构造之中。v对于给定的对于给定的Web页面集合,经过构造发掘可以发页面集合,

6、经过构造发掘可以发现页面之间的关联信息,页面之间的包含、援用现页面之间的关联信息,页面之间的包含、援用或者从属关系等。或者从属关系等。第七章第七章 Web发掘技术发掘技术v7.1 Web发掘的意义发掘的意义v7.2 Web发掘的分类发掘的分类v7.3 Web发掘的含义发掘的含义v7.4 Web发掘的数据来源发掘的数据来源 v7.5 Web内容发掘方法内容发掘方法v7.6 Web访问信息发掘方法访问信息发掘方法 v7.7 Web构造发掘方法构造发掘方法Web发掘的含义发掘的含义vWeB发掘是一个看广泛的概念,可以简单地描画发掘是一个看广泛的概念,可以简单地描画为:为:v针对包括针对包括Web页面

7、内容、页面之间的构造、用户页面内容、页面之间的构造、用户访问信息、电子商务信息等在内的各种访问信息、电子商务信息等在内的各种Web数据数据v运用数据发掘方法以协助人们从因特网中提取知运用数据发掘方法以协助人们从因特网中提取知识,为访问者、站点运营者以及包括电子商务在识,为访问者、站点运营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。内的基于因特网的商务活动提供决策支持。 Web发掘与信息检索发掘与信息检索v两种截然不同的观念:两种截然不同的观念:vWeb上的信息检索是上的信息检索是Web发掘的一个方面:发掘的一个方面:Web发掘旨在处理信息检索、知识抽取以及更广泛的发掘旨在处理信息

8、检索、知识抽取以及更广泛的商业问题,是商业问题,是Web上上IR技术的延伸。这种观念大技术的延伸。这种观念大多来自于数据发掘研讨领域。多来自于数据发掘研讨领域。vWeb发掘是智能化的信息检索:对于发掘是智能化的信息检索:对于IR领域的研领域的研讨人员来说,讨人员来说, Web发掘是发掘是IR研讨向着智能化的方研讨向着智能化的方向开展的结果。向开展的结果。Web发掘与信息检索发掘与信息检索v信息检索能够经常被说成是Web发掘的初级阶段 v是为了强调Web发掘不是简单的信息索引或关键词匹配技术,而是实现信息浓缩成知识的过程,它可以支持更高级的商业决策和分析。 Web发掘与信息抽取vWeb上的上的I

9、E的研讨目的是希望从众多的的研讨目的是希望从众多的Web文挡文挡中抽取可供分析的信息,与中抽取可供分析的信息,与Web发掘的关系也有发掘的关系也有不同的观念:不同的观念:vIE是是Web发掘整个过程的一部分:这是由于发掘整个过程的一部分:这是由于Web上的数据普通是半构造化或无构造的,因此需求上的数据普通是半构造化或无构造的,因此需求进展规格化的信息抽取这样的预处置。进展规格化的信息抽取这样的预处置。vWeb发掘是发掘是IE的一个特殊技术:既然的一个特殊技术:既然IE是希望把是希望把Web蕴藏的信息抽取出来,那么蕴藏的信息抽取出来,那么Web发掘或者文发掘或者文本发掘只不过是到达这个目的的特殊

10、技术手段。本发掘只不过是到达这个目的的特殊技术手段。Web发掘与信息抽取v信息抽取经常被说成是Web发掘的一个预处置阶段,那是由于在数据发掘领域,Web发掘的更广义的了解应该是一个知识提取的完好过程。 第七章第七章 Web发掘技术发掘技术v7.1 Web发掘的意义发掘的意义v7.2 Web发掘的分类发掘的分类v7.3 Web发掘的含义发掘的含义v7.4 Web发掘的数据来源发掘的数据来源 v7.5 Web内容发掘方法内容发掘方法v7.6 Web访问信息发掘方法访问信息发掘方法 v7.7 Web构造发掘方法构造发掘方法Web发掘的主要数据源发掘的主要数据源vWeb发掘的数据来源是广泛的:凡是在发

11、掘的数据来源是广泛的:凡是在Web站点站点中对用户有价值的数据都可以成为它发掘的数据中对用户有价值的数据都可以成为它发掘的数据源。源。v由于这些对象的数据方式及含义的差别,其发掘由于这些对象的数据方式及含义的差别,其发掘技术会不同。一些比较有代表性的数据源有:技术会不同。一些比较有代表性的数据源有:v效力器日志数据:效力器日志数据:Web访问信息发掘的主要数据访问信息发掘的主要数据源。源。效力器日志数据效力器日志数据v 对对Web效力器的访问,效力器方将会产生效力器的访问,效力器方将会产生3种类型的日志种类型的日志文件:文件:v Server logs:记录用户的访问时间、:记录用户的访问时间

12、、IP地址以及恳求等地址以及恳求等信息。信息。v Error logs:存取恳求失败的数据,例如丧失衔接、授权:存取恳求失败的数据,例如丧失衔接、授权失败或超时等失败或超时等 v Cookie logs:Cookie是由是由web效力器产生的记号并由客效力器产生的记号并由客户端持有,用于识别用户和用户的会话。户端持有,用于识别用户和用户的会话。 FieldDescriptionDateDate, time, and timezone of requestClient IPRemote host IP and / or DNS entryUser nameRemote log name of t

13、he userBytesBytes transferred (sent and received)ServerServer name, IP address and portRequestURI query and stemStatus status code returned to the clientService name Requested service nameTime takenTime taken for transaction to completeProtocol versionVersion of used transfer protocolUser agentServi

14、ce providerCookieCookie IDReferrerPrevious pageServer logs的的一个格式表示一个格式表示在线市场数据v 在线市场数据是指和市场活动相关的信息。例如一个电子商务站点,存储相关的电子商务信息。v 从内容上说,不同目的商务网站有不同的商务信息。但是,这类数据通常是用传统的关系数据库构造来存储数据。v 在线市场数据是业务数据,是进展业务相关分析的主体。用户的发掘目的只需结合在线市场数据分析才干到达目的。Web页面vWeb页面是网站信息的主体,但是它们的主要信息不能够像关系型数据库那样规整,因此Web页面的内容组织方式的分析是研讨Web发掘的详细方

15、法的根底。v目前的Web页面大多满足HTML规范,现有的Web发掘方法大多是针对Web页面开展的。Web页面v 2 0 1 9 年 W W W 社 团 提 出 了 X M L 言 语 规 范eXtensible Markup Language。v 该规范经过把一些描画页面内容的标志tag添加到HTML页面中,用于对HTML页面内容进展自描画。第七章第七章 Web发掘技术发掘技术v7.1 Web发掘的意义发掘的意义v7.2 Web发掘的分类发掘的分类v7.3 Web发掘的含义发掘的含义v7.4 Web发掘的数据来源发掘的数据来源 v7.5 Web内容发掘方法内容发掘方法v7.6 Web访问信息发

16、掘方法访问信息发掘方法 v7.7 Web构造发掘方法构造发掘方法Web内容发掘的主要方法内容发掘的主要方法v一种一种Web内容发掘的分类方法是分为代理人方法内容发掘的分类方法是分为代理人方法和数据库方法。和数据库方法。v代理人方法运用软件系统代理来完成内容发代理人方法运用软件系统代理来完成内容发掘。例如,掘。例如,v智能检索代理超越了简单的检索机制运用经过关智能检索代理超越了简单的检索机制运用经过关键词之外的技术来完成检索,可以利用用户模版键词之外的技术来完成检索,可以利用用户模版或其关怀的知识领域等来实现信息的抽取。或其关怀的知识领域等来实现信息的抽取。v信息过滤利用信息检索技术、衔接构造的

17、知识和信息过滤利用信息检索技术、衔接构造的知识和其他方法来分析和分类文档。其他方法来分析和分类文档。v个性化个性化Web代理运用有关用户的喜好的信息来指代理运用有关用户的喜好的信息来指点它们的检索。点它们的检索。Web内容发掘的主要方法内容发掘的主要方法v一种一种Web内容发掘的分类方法是分为代理人方法内容发掘的分类方法是分为代理人方法和数据库方法。和数据库方法。v数据库方法将一切的数据库方法将一切的Web数据描画为一个数据库数据描画为一个数据库系统。系统。v意味着意味着Web是一个多级的异构的数据库系统,可是一个多级的异构的数据库系统,可以经过多种查询言语来获得以经过多种查询言语来获得Web

18、的信息来完成信的信息来完成信息的抽取。息的抽取。文本发掘是文本发掘是Web内容发掘的根底内容发掘的根底v 文本发掘文本发掘TD的方式和目的的方式和目的是多种多样的,根本层次有:是多种多样的,根本层次有:v 关键词检索:最简单的方式,关键词检索:最简单的方式,它和传统的搜索技术类似。它和传统的搜索技术类似。v 发掘工程关联:聚焦在页面的发掘工程关联:聚焦在页面的信息包括关键词之间的关信息包括关键词之间的关联信息发掘上。联信息发掘上。v 信息分类和聚类:利用数据发信息分类和聚类:利用数据发掘的分类和聚类技术实现页面掘的分类和聚类技术实现页面的分类,将页面在一个更到层的分类,将页面在一个更到层次上进

19、展笼统和整理。次上进展笼统和整理。v 自然言语处置:提示自然言语自然言语处置:提示自然言语处置技术中的语义,实现处置技术中的语义,实现Web内容的更准确处置。内容的更准确处置。 Clusteringion Classification Term association Keyword Natural language processing图7-1文本发掘体系表示搜索引擎与搜索引擎与Web内容发掘内容发掘v 传统的搜索引擎Searching Engine效率低下。v 由于是基于Web中超文本构造分解的:它从一个网页开场的,经过查阅和记录这个网页的一切衔接并把它们陈列起来,然后再从找到的新页面继续

20、开场反复任务。搜索引擎与搜索引擎与Web内容发掘内容发掘v 利用数据发掘技术来改良搜索引擎是有价值的。这种价值表达在许多方面。例如,v 经过对搜索结果进展关联分析或聚类等,对结果进展清洗和浓缩。v 面向主题进展搜索,即只检索与某一主题有关的页面。v 聚焦用户感兴趣的页面,在有限的资源下使有效内容发掘力度提高。搜索引擎与搜索引擎与Web内容发掘内容发掘v 基于搜索引擎的发掘任务有下面一些重要方面:v 利用超文本链接构造进展页面内容分类,使搜索引擎检索的页面符合用户的兴趣。v 有些页面包含很多链接,而这些链接的页面是用户感兴趣的,因此它们需求被检索。v 采用合理而高效的方法对被选择的页面进展内容分

21、析和发掘。虚拟的Web视图v一个有效的处理在一个有效的处理在Web中大量无构造数据的方法是在这中大量无构造数据的方法是在这些数据之上建立一个些数据之上建立一个MLDBMultiple Layered Database。v这个数据库是多层次的,这个数据库是多层次的, 每层索引都比它下一层要小。每层索引都比它下一层要小。v对于最底层来说,需求了解对于最底层来说,需求了解Web文档构造,而最高层那文档构造,而最高层那么有着完善的构造并可以经过类似么有着完善的构造并可以经过类似SQL的查询言语进展的查询言语进展访问或发掘。访问或发掘。虚拟的Web视图v MLDB提供一个被称为VMVVirtual We

22、b View的视图机制,Web中的感兴趣的构造被浓缩在这个视图中。v 等级概念近意词组、词汇和语义联络等将协助归纳过程来架构更高层的MLDB。 个性化与Web内容发掘v 经过个性化,网页的内容和组织将更加适宜用户经过个性化,网页的内容和组织将更加适宜用户的需求。个性化效力是的需求。个性化效力是Web发掘技术的重要目发掘技术的重要目的之一。的之一。v 经过个性化,基于用户所关怀内容的广告会被发经过个性化,基于用户所关怀内容的广告会被发送到潜在的用户。当一个特别的用户访问一个站送到潜在的用户。当一个特别的用户访问一个站点时,会有一个特别为它定制的广告出现,这对点时,会有一个特别为它定制的广告出现,

23、这对那些能够购买的用户来说是一个极大的诱惑。那些能够购买的用户来说是一个极大的诱惑。个性化与Web内容发掘v Web内容发掘的目的之一是基于页面内容类似度进展用户分类或聚类的,个性化的建立是经过用户过去的检索内容分析而建立起来的。v 自动的个性化技术可以经过过去的需求和类似用户的需求来预知特定用户未来的需求。Web页面内文本信息发掘v发掘的目的是对页面进展摘要和分类。发掘的目的是对页面进展摘要和分类。v页面摘要:对每一个页面运用传统的文本摘要方页面摘要:对每一个页面运用传统的文本摘要方法可以得到相应的摘要信息。法可以得到相应的摘要信息。v页面分类:分类器输入的是一个页面分类:分类器输入的是一个

24、Web页面集训页面集训练集,再根据页面文本信息内容进展监视学习,练集,再根据页面文本信息内容进展监视学习,然后就可以把学成的分类器用于分类每一个新输然后就可以把学成的分类器用于分类每一个新输入的页面。入的页面。Web页面内文本信息发掘v 在文本学习中常用的方法是在文本学习中常用的方法是TFIDF向量表示法,它是一种向量表示法,它是一种文档的词集文档的词集Bag-of-Words表示法,一切的词从文档表示法,一切的词从文档中抽取出来,而不思索词间的次序和文本的构造。这种构中抽取出来,而不思索词间的次序和文本的构造。这种构造二维表的方法是:造二维表的方法是:v 每一列为一个词,列集特征集为辞典中的

25、一切有区分每一列为一个词,列集特征集为辞典中的一切有区分价值的词,所以整个列集能够有几十万列之多。价值的词,所以整个列集能够有几十万列之多。v 每一行存储一个页面内词的信息,这时,该页面中的一切每一行存储一个页面内词的信息,这时,该页面中的一切词对应到列集特征集上。词对应到列集特征集上。Web页面内文本信息发掘 对中文页面来说,还需先分词然后再进展以上两步处置。 这样构造的二维表表示的是Web页面集合的词的统计信息,最终就可以采用Naive Bayesian方法或k-Nearest Neighbor等方法进展分类发掘。 在发掘之前,普通要先进展特征子集的选取,以降低维数。Web页面内多媒体信息

26、发掘v多媒体发掘是一个大研讨分支,总的发掘过程是先要运多媒体发掘是一个大研讨分支,总的发掘过程是先要运用多媒体信息特征提取工具,构成特征用多媒体信息特征提取工具,构成特征2维表,然后就维表,然后就可以采用传统的数据发掘方法进展发掘。可以采用传统的数据发掘方法进展发掘。v在特征提取阶段,利用多媒体信息提取工具进展特征提在特征提取阶段,利用多媒体信息提取工具进展特征提取。取。v普通地,信息提取工具可以抽取出普通地,信息提取工具可以抽取出image和和video的文件的文件名、名、URL、父、父URL、类型、键值表、颜色向量等。对这、类型、键值表、颜色向量等。对这些特征可以进展如下发掘操作:些特征可

27、以进展如下发掘操作:Web页面内多媒体信息发掘v 关联规那么发现:例如,假设图像是“大的而且与关键词“天空有关,那么它是蓝色的概率为68%。v 分类:根据提供的某种类标,针对特征集,利用决策树可以进展分类。第七章第七章 Web发掘技术发掘技术v7.1 Web发掘的意义发掘的意义v7.2 Web发掘的分类发掘的分类v7.3 Web发掘的含义发掘的含义v7.4 Web发掘的数据来源发掘的数据来源 v7.5 Web内容发掘方法内容发掘方法v7.6 Web访问信息发掘方法访问信息发掘方法 v7.7 Web构造发掘方法构造发掘方法Web访问信息发掘的特点访问信息发掘的特点v 1 Web访问数据容量大、分

28、布广、内涵丰富和形状多样访问数据容量大、分布广、内涵丰富和形状多样v 一个中等大小的网站每天可以记载几兆的用户访问信息。一个中等大小的网站每天可以记载几兆的用户访问信息。v 广泛分布于世界各处。广泛分布于世界各处。v 访问信息形状多样。访问信息形状多样。v 访问信息具有丰富的内涵。访问信息具有丰富的内涵。Web访问信息发掘的特点访问信息发掘的特点 2 Web访问数据包含决策可用的信息访问数据包含决策可用的信息每个用户的访问特点可以被用来识别该用户和网站访问的特性。每个用户的访问特点可以被用来识别该用户和网站访问的特性。同一类用户的访问,代表同一类用户的个性。同一类用户的访问,代表同一类用户的个

29、性。一段时期的访问数据代表了群体用户的行为和群体用户的共性。一段时期的访问数据代表了群体用户的行为和群体用户的共性。Web访问信息数据是网站的设计者和访问者进展沟通的桥梁。访问信息数据是网站的设计者和访问者进展沟通的桥梁。Web访问信息数据是开展数据发掘研讨的良好的对象。访问信息数据是开展数据发掘研讨的良好的对象。Web访问信息发掘的特点访问信息发掘的特点v 3 Web访问信息发掘对象的特点访问信息发掘对象的特点v 访问事务的元素是访问事务的元素是Web页面,事务元素之间存在着丰富的页面,事务元素之间存在着丰富的构造信息。构造信息。v 访问事务的元素代表的是每个访问者的顺序关系,事务元访问事务

30、的元素代表的是每个访问者的顺序关系,事务元素之间存在着丰富的顺序信息。素之间存在着丰富的顺序信息。v 每个页面的内容可以被笼统出不同的概念,访问顺序和访每个页面的内容可以被笼统出不同的概念,访问顺序和访问量部分决议概念。问量部分决议概念。v 用户对页面存在不同的访问时长,访问长代表了用户的访用户对页面存在不同的访问时长,访问长代表了用户的访问兴趣。问兴趣。 Web访问信息发掘的意义访问信息发掘的意义v经过分析日志文件,可以发现用户访问页面的特征、页面被用户访问的规律、用户频繁访问的页组等,以便其合理、有效地优化站点的构造,最终为用户提供一个方便快捷信息获取环境。有三方面的应器具有代表性:Web

31、访问信息发掘的意义访问信息发掘的意义v第一方面第一方面v Web效力方主要根据本人的领域知识设计效力方主要根据本人的领域知识设计Web页页面的构造,而群体用户根据各自的访问兴趣访问面的构造,而群体用户根据各自的访问兴趣访问这些页面,那么效力方的构造设计能否合理?这些页面,那么效力方的构造设计能否合理?v怎样的设计以便利于群体用户的访问,更加吸引怎样的设计以便利于群体用户的访问,更加吸引访问者?访问者?v这些问题的处理是这些问题的处理是Web访问信息发掘的主要目的。访问信息发掘的主要目的。Web访问信息发掘的意义访问信息发掘的意义v第二方面v群体用户的访问存在哪些特点?v假设掌握了这些特点,那么

32、就可以利用其开展进一步的商务活动。Web访问信息发掘的意义访问信息发掘的意义v第三方面v对于每一个新的Web站点的访问者,都会在曾经访问的群体用户中找到一些最类似的一样的访问者,那么那些访问者的访问就可以给这个新的访问者提供引荐,以便利于该访问者的进一步访问。 典型的商业价值典型的商业价值v 面向群体访问者,可以:面向群体访问者,可以:v 提供高效访问:减少有用信息的检索时间,提高在大负载提供高效访问:减少有用信息的检索时间,提高在大负载下的效力性能。下的效力性能。v 吸引访问者。吸引访问者。v 坚持访问者:假设网站具有更好的构造设计,就能留住用坚持访问者:假设网站具有更好的构造设计,就能留住

33、用户。户。v 防止访问者分开:找到分开缘由,改良网站的构造设计。防止访问者分开:找到分开缘由,改良网站的构造设计。v 地域地域/行业行业/阶层的分析:根据买卖者留下的信息,可以知阶层的分析:根据买卖者留下的信息,可以知道访问者所在的地域、所属的行业或阶层。道访问者所在的地域、所属的行业或阶层。v 防止访问者迷航:访问者不能找到相应的访问目的,或者防止访问者迷航:访问者不能找到相应的访问目的,或者面对复杂的页面构造不知所措,那么遇到了迷航的问题。面对复杂的页面构造不知所措,那么遇到了迷航的问题。改良页面的构造设计是必要的。改良页面的构造设计是必要的。v 群体引荐:针对群体用户的访问偏好,引荐他们

34、感兴趣的群体引荐:针对群体用户的访问偏好,引荐他们感兴趣的东西。东西。v 针对性效力:如在适宜途径上,就可以放置相应内容的广针对性效力:如在适宜途径上,就可以放置相应内容的广告。告。典型的商业价值典型的商业价值v 面向群体每一个访问者,可以:面向群体每一个访问者,可以:v 个性化引荐。个性化引荐。v 用户建模:根据已有群体用户的访问,推断当前用户的特用户建模:根据已有群体用户的访问,推断当前用户的特征。征。v 个性化推销个性化推销Direct Marketing:识别出对某种产品或:识别出对某种产品或效力的能够购买者,对其引荐相应的产品或效力。效力的能够购买者,对其引荐相应的产品或效力。Web

35、访问信息发掘的数据源访问信息发掘的数据源v 由于Web世界的分布性,用户访问行为被广泛地分布记录在Web效力器、用户客户端,和代理效力器中。v 在各个分布地点的不同的用户访问信息表征了不同类型的用户访问行为。v 发掘任务必需针对数据的特点来决议相应的发掘义务。v 用户访问信息的分布简单归结为:Web访问信息发掘的数据源访问信息发掘的数据源v 效力器方:普通地,在一个Web效力器上,效力器日志记录了多个用户对单个站点的用户访问行为。v 客户方:普通地,在客户端计算机上,客户端的代理记录了单个用户对单个站点或单个用户对多个站点的用户访问行为。客户端的Cache记录了用户访问内容。客户端的BookM

36、ark也记录了单个用户对单个站点的访问偏好。v 客户端代理效力器:代理效力器记录了多个用户对多个站点的访问行为,同时代理效力器内部的Cache记录了多个用户对多个站点的访问内容。效力器方访问信息效力器方访问信息v一个一个Web效力器日志效力器日志Server log反映出多个反映出多个用户对单个站点的访问行为。用户对单个站点的访问行为。v一个从实践一个从实践Web效力器上采集的效力器上采集的Log文件片段文件片段: IP AddressUser IDTimeMethod/URI/ProtocolStautsSize159.226.219.52- -10/Dec/2019:12:34:16 -0

37、600GET /images/lchzhi.gif /1.120044851159.226.219.52- -10/Dec/2019:12:34:32 -0600GET /graduate.htm /1.12007403159.226.219.52- -10/Dec/2019:12:34:32 -0600GET /images/sxwys2.jpg /1.120018481203.141.89.99- -10/Dec/2019:12:34:48 -0600GET /result.htm /1.020012302159.226.219.52- -10/Dec/2019:12:34:58 0600

38、GET /structure.htm /1.1200367159.226.219.52- -10/Dec/2019:12:34:58 0600GET /struc-index.htm /1.12004370159.226.219.52- -10/Dec/2019:12:34:58 0600GET /struc-content.htm /1.120012047159.226.219.52- -10/Dec/2019:12:34:58 0600GET /images/znkfsys.jpg /1.120022574代理效力器端访问信息代理效力器端访问信息v代理效力器端的访问信息包括用户访问日志和在

39、代理效力器端的访问信息包括用户访问日志和在Cache中被访问的页面信息。中被访问的页面信息。v一个代理效力器日志的例子基于一个代理效力器日志的例子基于WindowsNT4.0的代理效力器的代理效力器: 200.121.2.88, HEADSWANG, Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28, 15:57:44, W3Proxy, NTPROXY, -, ict.ac, 159.226.39.2, 80, 200, 582, 6, , tcp, GET, ict.ac/cjc/cjcw2.html, -, Inet,

40、304, 0200.121.2.88, HEADSWANG, Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28, 15:57:44, W3Proxy, NTPROXY, -, ict.ac, 159.226.39.2, 80, 270, 2101, 1254, , tcp, GET, ict.ac/cjc/introc.html, -, VCache, 304, 0200.121.2.88, HEADSWANG Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28

41、, 15:57:44, W3Proxy, NTPROXY, -, ict.ac, 159.226.39.2, 80, 171, 449, 1110, , tcp, GET, ict.ac/cjc/star.gif, -, Inet, 304, 0200.121.2.88, HEADSWANG, Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28, 15:57:44, W3Proxy, NTPROXY, -, ict.ac, 159.226.39.2, 80, 211, 455, 826, , tcp, GET, ict.ac/c

42、jc/INTROCG.JPG, -, Inet, 304, 0Web访问信息发掘的预处置访问信息发掘的预处置v Web访问信息发掘的根底和最烦琐的任务是数据的预处置。v 预处置用户访问信息是整个数据预备的中心任务,也是开展下一阶段Web访问信息发掘的根底。v 预处置阶段主要的任务是识别用户访问事务和访问片断。Web访问信息发掘的预处置访问信息发掘的预处置vWeb Usage Mining在预处置阶段主要的任务有:在预处置阶段主要的任务有:v数据清洗:由于数据表示、写入的对象差别以及数据清洗:由于数据表示、写入的对象差别以及用户的兴趣和发掘算法对数据要求的不同,对于用户的兴趣和发掘算法对数据要求

43、的不同,对于Web日志中的数据需求确定合理的数据清洗战略日志中的数据需求确定合理的数据清洗战略 。v识别用户访问事务:在对识别用户访问事务:在对Web日志数据进展数据日志数据进展数据发掘之前,需求把对发掘之前,需求把对Web页的访问序列组织成逻页的访问序列组织成逻辑单元以表征事务或用户会话。辑单元以表征事务或用户会话。数据清洗数据清洗v 合并数据v 剔除不相关的数据数据清洗数据清洗v 代理访问的处置: v 正规化URIUniform Resource Identifier v 数据项解析: 识别用户访问事务识别用户访问事务v 在在Web日志中,用户的访问事务并不是一个显然的结果,日志中,用户的

44、访问事务并不是一个显然的结果,需求专门的算法来进展识别和生成。找到相应的事务集,需求专门的算法来进展识别和生成。找到相应的事务集,才干对这个事务集进展关联规那么和序列方式发现等发掘才干对这个事务集进展关联规那么和序列方式发现等发掘任务。任务。v 时间窗时间窗C大小的界定是一个阅历值有人建议大小的界定是一个阅历值有人建议30分钟较为分钟较为适宜。适宜。定义定义7-1 设设L为用户访问日志,其中的一个项为用户访问日志,其中的一个项lL包括用户的包括用户的IP地址地址l.ip,用户,用户的标识符的标识符l.uid,被存取页的,被存取页的URI地址地址l.url,长度为,长度为l.length以及存取

45、访问的时间以及存取访问的时间l.time,存取访问的时长,存取访问的时长l.timelength,访问事务被定义为:,访问事务被定义为:这里这里C是一个固定的时间窗。是一个固定的时间窗。timeltimeltimelengthlCtimeltimeluiduidlipiplLlmkforwherelengthltimelengthltimelurll.uidl.ipl.lengthlh.timelengtl.timel.urll.uidl.ipluidipttktktktktkttkttktktmtmtmtmtmtmtttttttt.,. ,. ,. , , 1 , ).,.,.,.,( ,.

46、, ),( ,111111111其他信息的预处置技术1导航内容片断导航内容片断 在一些电子商务网站中,需求知道用户到达一个内容在一些电子商务网站中,需求知道用户到达一个内容页之前是阅历哪些导航页的。页之前是阅历哪些导航页的。 例如,一个用户访问事务为:例如,一个用户访问事务为:N1,N2,N3,C1, N4,N5,N6,C2,N7,N8,C3,N9,N10,N11,N12,C4,其中,其中N为导航页,为导航页,C为内容页。识别导航内容片断为内容页。识别导航内容片断就是要从用户访问事务中识别出:就是要从用户访问事务中识别出:片断片断1:N1,N2,N3,C1。片断片断2:N4,N5,N6,C2。

47、片断片断3:N7,N8,C3。片断片断4:N9,N10,N11,N12,C4。其他信息的预处置技术2最大前向访问序列 所谓用户最大前向访问序列是指在用户访问回退之前不断被访问的页面序列。每个最大前向访问序列就构成一个访问片段。定义该片断的优点是有利于发现用户感兴趣的事务。显然在用户访问事务中寻觅最大前向序列必需求根据Web站点的拓扑构造。 在Web访问发掘中的常用技术1途径分析途径分析途径分析最常用的运用是用于断定在一个途径分析最常用的运用是用于断定在一个Web站点中最频繁站点中最频繁访问的途径,这样的知识对于一个电子商务网站或者信息访问的途径,这样的知识对于一个电子商务网站或者信息平安评价是

48、非常重要的。平安评价是非常重要的。2关联规那么发现关联规那么发现运用关联规那么发现方法可以从运用关联规那么发现方法可以从Web访问事务集中,找到普访问事务集中,找到普通性的关联知识。通性的关联知识。 3序列方式发现序列方式发现在时间戳有序的事务集中,序列方式的发现就是指找到那些在时间戳有序的事务集中,序列方式的发现就是指找到那些如如“一些项跟随另一个项这样的内部事务方式。一些项跟随另一个项这样的内部事务方式。 在Web访问发掘中的常用技术4分类分类发现分类规那么可以给出识别一个特殊群体的公共属性的描发现分类规那么可以给出识别一个特殊群体的公共属性的描画。这种描画可以用于分类新的项。画。这种描画

49、可以用于分类新的项。 5聚类聚类可以从可以从Web Usage数据中聚集出具有类似特性的那些客户。数据中聚集出具有类似特性的那些客户。在在Web事务日志中,聚类顾客信息或数据项,就可以便于事务日志中,聚类顾客信息或数据项,就可以便于开发和执行未来的市场战略。开发和执行未来的市场战略。 Web访问信息发掘的要素构成访问信息发掘的要素构成1数据来源数据来源 数据的来源分为效力器,代理效力器,和客户端。数据的来源分为效力器,代理效力器,和客户端。2数据类型数据类型 数据的类型主要分为构造数据的类型主要分为构造,内容内容,访问信息访问信息,用户概貌文件。用户概貌文件。3用户的数量用户的数量 用户的数量

50、表现为:或者数据集只由一个用户的信息构用户的数量表现为:或者数据集只由一个用户的信息构 成,或者数据由多个用户的信息构成。成,或者数据由多个用户的信息构成。4站点的数量站点的数量 在数据集中的在数据集中的Web站点的个数表现为:或者在数据集中站点的个数表现为:或者在数据集中只记录单个站点的信息,或者记录多个站点的信息。只记录单个站点的信息,或者记录多个站点的信息。Web访问信息发掘的要素构成访问信息发掘的要素构成5效力对象效力对象 Web访问信息发掘的结果由访问信息发掘的结果由Web效力方进展运用。运用的效力方进展运用。运用的结果即效力对象可以是当个单个用户,或群体用户。单个结果即效力对象可以

51、是当个单个用户,或群体用户。单个用户即意味着个性化。用户即意味着个性化。6发掘手段发掘手段 Web访问信息发掘所采用的各种数据发掘方法,例如关联访问信息发掘所采用的各种数据发掘方法,例如关联规那么发现,聚类,分类,统计等等。规那么发现,聚类,分类,统计等等。利用利用Web访问信息发掘实现用户建模访问信息发掘实现用户建模v由于Web网站的特性,对网站的运营者和设计者而言,无法直接了解用户的特性。v然而对访问者个人特性和群体用户特性的了解对Web网站的效力方而言显得尤为重要。v侥幸的是可以经过数据发掘的方法得到用户的特性。利用利用Web访问信息发掘实现用户建模访问信息发掘实现用户建模v “用户建模

52、用户建模Modelling Users是指根据访问者对一是指根据访问者对一个个Web站点上站点上Web页面的的访问情况,可以模型化用户的页面的的访问情况,可以模型化用户的本身特性。本身特性。v 在识别出用户的特性后就可以开展针对性的效力。在识别出用户的特性后就可以开展针对性的效力。v 用户建模主要有三种途径。用户建模主要有三种途径。 v 推断匿名访问者的人口统计特性推断匿名访问者的人口统计特性 v 在不打扰用户的情况下,得到用户概貌文件在不打扰用户的情况下,得到用户概貌文件 v 根据用户的访问方式来聚类用户根据用户的访问方式来聚类用户利用利用Web访问信息发掘发现导航方式访问信息发掘发现导航方

53、式v发现导航方式发现导航方式Discovering Navigation Patterns是是Web访问信息发掘的一个重要的研访问信息发掘的一个重要的研讨领域。讨领域。v用户的导航方式是指群体用户对用户的导航方式是指群体用户对Web站点内的页站点内的页面的阅读顺序方式。面的阅读顺序方式。利用利用Web访问信息发掘发现导航方式访问信息发掘发现导航方式v 用户导航方式的主要运用在改良站点设计和个性化推销等用户导航方式的主要运用在改良站点设计和个性化推销等方面。方面。v 1改良改良Web站点的构造设计站点的构造设计v 2个性化行销个性化行销Direct Marketing:v 3利用关联规那么发现算

54、法发现导航方式利用关联规那么发现算法发现导航方式v 4利用模板发现导航方式利用模板发现导航方式v 5利用超文本概率文法发现导航方式利用超文本概率文法发现导航方式利用利用Web访问信息发掘改良访问效率访问信息发掘改良访问效率1Web效力器推送技术效力器推送技术2自顺应网站自顺应网站3运用导航方式的结果改良运用导航方式的结果改良Web站点的访问效率站点的访问效率4改良改良Web效力器的性能效力器的性能利用利用Web访问信息发掘改良访问效率访问信息发掘改良访问效率表表7-107-10改良改良WebWeb站点访问效率方法的比较站点访问效率方法的比较方法特点优点缺点Web服务器推送技术Bin Lan相关

55、的文档会被服务器提前推送到Proxy上。存在冗余推送问题。自适应网站Perkowitz M.通过增加索引页来帮助用户进行访问,以改进访问效率。这些索引页难于被用户理解。应用导航模式的结果改进改进Web站点的访问效率Myra Spiliopoulou 基于规则的动态Web站点。规则需要人工判定。改进Web服务器的性能Cohen E. AlmeidaSchechter通过对页面的特性的挖掘,改进服务器的效率。改进集中于页面这一级,不涉及更高级的逻辑结构改进。利用Web访问信息发掘进展个性化效力在在Web站点开展个性化站点开展个性化Personalization效力的总的思绪效力的总的思绪和步骤是:

56、和步骤是:模型化页面和用户;模型化页面和用户;分类页面和用户;分类页面和用户;在页面和对象之间进展匹配;在页面和对象之间进展匹配;判别当前访问的类别以进展引荐。判别当前访问的类别以进展引荐。而且,个性化系统普通分为两个部分:离线部分和在线部分。而且,个性化系统普通分为两个部分:离线部分和在线部分。利用利用Web访问信息发掘进展个性化效力访问信息发掘进展个性化效力在表表7-11个性化方法的比较个性化方法的比较方法特点缺点离线聚类和动态链接结合可以实时个性化地为用户提供推荐。 随着用户访问长度的增加,可供推荐的元素会趋于零。基于关键词学习引入时间特性为用户提供推荐。需要用户人工干预,无法做到自动。

57、识别感兴趣的链接建立代理服务器识别用户的访问兴趣提供推荐。用户兴趣的实效性考虑不够。自动定制不同用户访问界面利用用户建模技术自动定制不同的用户访问界面。“推论”依赖于用户所在的领域,适应性不好。利用客户端代理进行个性化客户端的代理,完全为个人服务。冗余搜索过大。聚类推荐可以实时个性化地为用户提供推荐。 聚类的个数是人为事先给定的,不能随着每个用户的访问特性而动态调整。利用利用Web访问信息发掘进展商业智能发现访问信息发掘进展商业智能发现表表7-12商业智能方法的比较商业智能方法的比较方法特点Buchner其贡献在于首次在Web访问信息挖掘的基础上提出了商业智能的发现的框架;其不足在于发现的知识

58、局限于用户确实发生的购买行为,而对用户潜在的购买兴趣无法发现。Yun C.优点是挖掘了迁移和购买行为之间的内在关系。缺点是发现的知识局限于用户确实发生的购买行为,对用户潜在购买兴趣无法发现。SurfAid,Accrue,NetGenesis,Aria,Hitlist,WebTrends优点是通过分析页面的点击率来为推断商业智能提供Web流量分析。缺点是无法发现高级的商业职能。利用利用Web访问信息发掘进展用户挪动方式发现访问信息发掘进展用户挪动方式发现 v 在挪动计算环境中,一个新的发掘方法,即用户的挪动方在挪动计算环境中,一个新的发掘方法,即用户的挪动方式发掘被提出。式发掘被提出。v 发掘的

59、结果可以用于开发数据的分配方式以改动挪动系统发掘的结果可以用于开发数据的分配方式以改动挪动系统的总的性能。的总的性能。v 首先,对挪动环境中的一些日志数据进展发掘,可以得到首先,对挪动环境中的一些日志数据进展发掘,可以得到频繁用户挪动方式。频繁用户挪动方式。v 然后,根据发掘结果和数据的特性设定个人数据分配方式。然后,根据发掘结果和数据的特性设定个人数据分配方式。利用利用Web访问信息发掘进展用户挪动方式发现访问信息发掘进展用户挪动方式发现 v 根据不同层次的发掘结果,有两种个人数据分配方式:v 利用集合层次的用户挪动方式DS方式;v 利用途径层次的用户挪动方式DP方式。AGDHCB12345

60、678910Partition1Partition2图7-2在一个挪动计算系统中挪动方式的例子利用利用Web访问信息发掘进展用户挪动方式发现访问信息发掘进展用户挪动方式发现 利用利用Web访问信息发掘进展用户挪动方式发现可访问信息发掘进展用户挪动方式发现可以分为如下三个主要步骤:以分为如下三个主要步骤:数据搜集阶段:从各个效力器的日志集合中判别最数据搜集阶段:从各个效力器的日志集合中判别最大的挪动序列和挪动对的出现次数。大的挪动序列和挪动对的出现次数。发掘阶段:从第一步的结果集中的每发掘阶段:从第一步的结果集中的每w个最大挪动个最大挪动序列中判别大项挪动序列。思索到新近的挪动方序列中判别大项挪

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论