第11章文本挖掘与Web挖掘_第1页
第11章文本挖掘与Web挖掘_第2页
第11章文本挖掘与Web挖掘_第3页
第11章文本挖掘与Web挖掘_第4页
第11章文本挖掘与Web挖掘_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第11章文本挖掘与Web挖掘

目录13.1文本挖掘概述

13.2文本挖掘13.3Web挖掘

13.1文本挖掘概述

13.1.1文本挖掘的基本概念

13.1.2文本特征的表示

13.1.3文本特征的提取

13.1.1文本挖掘的基本概念

文本挖掘一词出现于1998年第十届欧洲机器学习会议上。Kodratoff认为文本挖掘的目的是从文本集合中,试图在一定的理解水平上尽可能多地提取知识。1.概念文本挖掘是一个从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。文本数据包括:技术报告、文本集、新闻、电子邮件、网页、用户手册等。2.主要任务

(1)短语提取提取文本集中所有相关的短语。(2)概念提取(聚类)对这些短语之间的关系,建立一个该文本集中的主要概念

。(3)可视化显示和导航

从多个视角出发进行分析.3.文本挖掘与数据挖掘

数据挖掘文本挖掘研究对象用数字表示的、结构化的数据无结构或者半结构化的文本对象结构关系数据库自由开放的文本目标获取知识,预测以后的状态提取概念和知识方法归纳学习、决策树、神经网络、粗糙集、遗传算法等提取短语、形成概念、关联分析、聚类、分类成熟度从1994年开始得到广泛应用从2000年开始得到广泛应用13.1.2文本特征的表示

文本特征指的是关于文本的元数据:(1)描述性特征,例如文本的名称、日期、大小、类型等;(2)语义性特征,例如文本的作者、机构、标题、内容等。矢量空间模型(VSM)是效果较好的表示文本特征的方法。每个文本d表示为其中的一个规范化特征矢量:V(d)=(t1,w1(d);…;ti,wi(d);…;tn,wn(d))d中出现的所有单词作为ti,或所有短语。wi(d)一般被定义为ti在d中出现频率tfi(d)的函数。

函数wi(d)=Ψ(tfi(d))

,常用的Ψ有:

(1)平方根函数(2)对数函数13.1.3文本特征的提取

特征提取主要是识别文本中代表其特征的词项。文本特征分为一般特征和数字特征,其中一般特征主要包括动词和名词短语,如人名、组织名等;数字特征主要包括日期、时间、货币以及单纯数字信息。

特征项抽取的判断算法(1)该特征项集合包含所有该类中出现的词。(2)对于每个词,计算词Wi和类别Cj的互信息量I(W,C)

(3)对于该类中所有的词,依据上面计算的互信息量排序。(4)抽取互信息量大的词作为特征项。(5)根据抽取的特征项进行向量压缩,精简向量表示。13.2文本挖掘

13.2.1文本挖掘功能层次

13.2.2关联分析

13.2.3文本聚类

13.2.4文本分类13.2.1文本挖掘功能层次

关键词相似检索词语关联分析自然语言处理文本聚类文本分类文本挖掘功能层次(1)关键词检索关键词建立倒排文件索引,与传统的信息检索使用的技术类似。(2)相似检索找到相似内容的文本。(3)词语关联分析聚焦在词语(包括关键词)之间的关联信息分析上。(4)文本聚类和文本分类实现文本的聚类和分类。(5)自然语言处理揭示自然语言处理技术的语义,进行文本语义挖掘。13.2.2关联分析

在文本数据库中,每一文本被视为一个事务,文本中的关键词组可视为事务中的一组事务项。即文本数据库可表示为:{文本编号,关键词集}

文本数据库中关键词关联挖掘的问题就变成事务数据库中事务项的关联挖掘。

关联分析挖掘可以用于找出词或关键词间的关联。

13.2.3文本聚类

层次聚类法对于给定的文本集合D={d1,…,di,…,dn}:(1)将D中的每个文本di看作是一个具有单成员的类ci={di},这些类构成了D的一个聚类:C={c1,…,ci,…,cn};(2)计算C中每对类(ci,cj)之间的相似度sim(ci,cj);(3)选取具有最大相似度的类对,并将ci和cj合并为一个新的类ck=ci∪cj,从而构成了D的一个新的聚类C={c1,…,cn-1};(4)重复上述步骤,直至C中剩下一个类为止。该过程构造出一棵生成树,其中包含了类的层次信息,以及所有类内和类间的相似度。

13.2.4文本分类

首先,把一组预先聚类过的文本作为训练集。然后对训练集进行分析以便得出各类的分类模式。对文本分类的有效方法是基于关联的分类:(1)提出关键词和词组。(2)生成关键词和词组的概念层次,或类层次结构。(3)词关联挖掘方法用于发现关联词,它可以最大化区分一类文本与另一类文本。这导致了对每一类文本,有一组关联规则。11.3Web挖掘13.3.1Web挖掘概述13.3.2

Web内容挖掘13.3.3Web结构挖掘13.3.4Web应用挖掘13.3.5Web日志分析与实例13.3.1Web挖掘概述1.Web信息特点(1)Web信息特别庞大(2)Web信息非常复杂(3)Web信息是动态的(4)Web信息使用者复杂(5)Web信息中的“垃圾”非常多2.Web数据挖掘的意义Web挖掘的实质:从Web页面及其链接和用户对页面的访问中挖掘出用户感兴趣的知识。通过Web数据挖掘,可以从数以亿计存储大量多种多样信息的Web页面及其链接和用户对页面的访问中挖掘出需要的有用知识。Web挖掘的数据来源是网站数据,这些数据包括网页文本信息、网页链接信息、网站的访问记录以及其他可收集的信息。例如:Web日志(服务器日志、错误日志、Cookie日志等)、在线市场数据、Web页面、Web页面超链接以及包括用户注册信息等数据源。3.Web挖掘分类Web挖掘分类(1)Web内容挖掘提取文字、图片或其他组成网页内容成分的信息和知识。

(2)Web结构挖掘提取网络的拓扑信息,即网页之间的链接信息。

(3)Web应用挖掘提取关于客户如何运用浏览器浏览和使用页面链接的信息。(4)区别与联系结构挖掘的表达方式是链接图,提示了哪些页面通过当前页可以几步内到达。内容挖掘的表达方式是一个网络索引,提示了网页的主题。应用挖掘集中于挖掘客户的行为,特别是随着时间的变化。13.3.2Web内容挖掘Web内容挖掘的基本技术是文本挖掘。

1.信息检索信息检索的目标是找到你想要找的,从两个方面来判断该查询的有效性:“召回(recall)”和“精度(precision)”。“精度”回答了“在返回的网页中,正确的标题的比例是多少”;“召回”回答了“返回了多少正确页面”。2.从纯文本中提取信息

通过将纯文本转化为结构化的数据,他们能够直接应用数据挖掘技术做出预测。这种从非结构化数据中创建结构化数据的过程叫做特征抽取。通过以XML标记的形式向网站中添加更结构化的内容,比通过提高从非结构化的文本中提取信息的技术来得更加迅速一些。13.3.3Web结构挖掘结构挖掘可以告诉我们一些站点的受欢迎程度和它同其他站点的距离(通过跳转次数来判定)。万维网(www)是一个有向图G=(V,E),V是页面的集合,E是页面之间的超链接集合。页面抽象为图中的顶点,而页面之间的超链接抽象为图中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其它的页面。Web页面之间的超链接揭示了Web结构。1.网页的引用一篇文章的有用与否在于这篇文章出现在其他文章的参考书目中的次数。特别是作者,会因为他的作品的重复引用而在某个学科出名。网页引用的rank方法:(1)一个页面被多次引用,则这个页面很可能是重要的;(2)一个页面尽管没有被多次引用,但被一个重要页面引用,则这个页面很可能是重要的;(3)一个页面的重要性被传递到它所引用的页面。2、中枢和权威Kleinberg提出:一个链接到许多权威站点的站点叫做中枢(hub);被许多中枢链接的站点叫做权威(authority)。这两个概念放在一起可以辨别出权威和大众化站点(如Yahoo)之间的区别。一种寻找权威的结构化的方法就是:

用其他的站点到该站点的链接数来将它们分级。要给站点分级,不要用指向它们的链接的总数,而是用指向它们的标题相关的中枢的数量来分级。3.导航页

导航页使他们能够很容易地找到他们想要找的网页。

4.目标页目标页给浏览者提供所有的内容。

13.3.4Web应用(访问信息)挖掘在Web应用挖掘中,我们考虑的是对客户的理解,这时客户应用模式就是非常关键的。客户应用模式可以从多个层次检测和挖掘到,即从单个客户在一次对话中的一系列的单击到跨越了几个月或数年的客户群的购买中获取应用模式。1.Web应用挖掘的意义

Web应用挖掘的意义:(1)改进Web站点的效率。

(2)实现个性化服务。(3)商业知识的发现。(4)发现导航模式。(5)抽取访问信息特性。2.Web应用挖掘中的技术Web应用挖掘中的常用技术: (1)路径分析。 (2)关联规则发现。(3)序列模式发现。 (4)分类。 (5)聚类。

3.Web访问日志挖掘(1)对访问日志(WebLog)进行清洗、过滤和转换,从中抽取感兴趣的数据。(2)将资源的类型、大小、请求的时间、停留时间、请求者的域名、用户、服务器状态作为数据立方体的维变量。将对页面和文件请求次数、来自不同域请求次数、事件、会话、错误次数分别作为在这些维变量下的度量变量,建立数据立方体。通过切块、切片分析可以回答:哪些成分或特色被经常或偶尔使用,网络流量随时间的变化规律。(3)利用数据挖掘技术进行Web流量分析、典型的事件序列和用户行为模式分析。4.应用挖掘的作用(1)利用Web应用挖掘可以实现用户建模; (2)利用Web应用挖掘发现导航模式,从而改进Web站点的结构设计,实行个性化推销;(3)利用Web应用挖掘改进访问效率,改进服务器性能; (4)利用Web应用挖掘还可以进行个性化服务;(5)利用Web应用挖掘进行商业知识的发现; (6)利用Web应用挖掘进行用户移动模式的发现。13.3.5Web日志分析与实例1.Web日志数据概述 Web访问日志数据具有如下基本特征: ⑴动态变化性⑵数据量大⑶多维性⑷结构化程度较高⑸包含大量琐碎数据Web日志的记录格式包括如下常用字段: ①每次访问者的客户端机器IP地址。 ②用户访问日期和时间,精确到秒。 ③用户访问的网页名称。 ④用户的本次访问请求是否成功的状态。 ⑤传输文件的字节大小。 ⑥引导用户访问到本站点的前驱URL。 ⑦访问者使用的浏览器版本和操作系统版本 在Web日志分析中,把握动态变化趋势很重要,其内在规律、有用知识可能是稍纵即逝的,如用户访问趋势、访问热点变化、异常访问模式等。流式数据多维查询与挖掘则是实现Web日志分析的有效工具。2.面向Web日志分析的流式数据多维模型(1)时间维度,是流式数据多维模型的基础,其中包含年、月、日、时、分、秒等多个时间粒度层次信息。(2)主题维度,综合网站可划分为滚动新闻、明星新闻、影视新闻等多个子版块,每个子版块关注不同的新闻内容,即不同主题。(3)用户维度,属性取值代表不同地区的访问者,其中的维成员对应于Web访问日志中的访问主机,即访问客户端的IP地址。

(4)度量属性

①请求数:Web访问日志的每一条记录对应一次请求,②页面浏览数:即页面被打开(请求)的次数,是网站分析中最常见的度量。 ③传输数据量:传输数据量可用于统计网站的流量,以及衡量不同用户以及不同周期内的访问情况,需要将所有请求的传输字节数相加得到结果。3.Web日志数据的多维查询

在Web日志分析中,经常需获取某一特定维度视角或数据粒度层次上的聚集信息。下面以流式数据三维视图(小时,城市,视频版块)为例,进行Web日志多维查询。对Web日志查询举例: (1)Q1:对上午6时至12时,查询每个小时的页面浏览数,查询视图为:

(小时,*,*)切块查询条件定义在时间维度上。

Q1查询结果如表13.2所示,结果表明,网站的高峰访问时间段为上午“9-10时”,而其他时段则相对较少。

表13.2Q1查询结果

时间

页面浏览数 5-7时 953 7-8时 1080 8-9时 3295 9-10时5122 10-11时 4270 11-12时 1945 (2)Q2:对工作时间7时至12时之间,查询主要的子版块的页面浏览数,即在上面查询的基础上,下钻到子版块的查询。查询视图为:

(小时,*,子版块)在时间维度和主题维度上定义切块查询。

Q2查询结果如表13.3所示,表明上午工作时间的访问多集中在“滚动新闻”,而其他版块相对较少。表13.3Q2查询结果

时间 子版块 页面浏览数 7-12时 滚动新闻 1945 7-12时图片新闻 5377-12时综艺新闻 8997-12时明星新闻 3747-12时音乐新闻 3427-12时人物访谈 308(3)Q3:对晚间18时至22时之间,查询主要省份的页面浏览数,如北京,上海,广东,湖南,江苏,浙江,辽宁,重庆。查询视图为:

(小时,省,*)在时间维度和用户维度上定义切块查询。

Q3查询目的在于发现访问者的区域分布情况,查询结果如表13.4所示,表明热点访问省级区域为“浙江”和“北京”。 表13.4Q3查询结果

时间 省份 页面浏览数 8-22时 北京 54548-22时上海 5188-22时广东 14158-22时湖南 3348-22时江苏 7058-22时浙江 101018-22时辽宁 2618-22时重庆 165(4)Q4:对浙江省主要城市,查询18点至22点之间的页面浏览数,如杭州市,宁波市,温州市,绍兴市,嘉兴市,金华市。查询视图为:

(小时,城市,*)在时间维度和用户维度上定义切块查询。查询结果如表13.5所示,结果表明网站的访问者大部分来自于杭州市和嘉兴市,而其他城市较少。 表13.5Q4查询结果

时间 省份 城市 页面浏览数 18-22时 浙江 杭州市 338118-22时浙江宁波市 15918-22时浙江温州市 12018-22时浙江绍兴市 8718-22时浙江嘉兴市 113418-22时浙江金华市 33从以上的Web日志数据的多维查询分析,可以得出的结论是:(1)网站上的页面浏览的高峰访问时段是上午9-10时。(2)工作时间访问最多的是滚动新闻(3)晚间访问网站最多的省份是浙江和北京,其中浙江省内访问最多的的用户主要是杭州市和嘉兴市。4.连续查询热点访问信息或异常现象(5)Q5:连续跟踪最近1小时内的每个版块的页面浏览总数变化趋势。查询视图为:

(分钟,*,子版块)时间窗口为60分钟,查询条件分别对应不同版块,包括明星新闻、滚动新闻、图片新闻、影视新闻。

Q5连续的查询结果表明,“滚动新闻”版块的访问量较高,在10-24时间段,访问量相对稳定在900次左右。比其它子版块要高出400-600次,并且在上午9时监测到一个高峰访问周期,迏到1600次,比平均值高出近一倍,这是一个异常情况。(6)Q6:连续跟踪最近1小对内不同城市的访问量变化情况,包括浙江省的杭州市,嘉兴市,丽水市。查询视图为:

(分钟,城市,*)

时间窗口为60分钟,查询条件定义在用户维度上。三城市不同时间访问頁面次数对比表见表13.6。浙江省三城市

不同时间访问頁面次数对比表时间杭州市嘉兴市丽水市02时50150004时3050006时8050008时100180010时210220110012时10019070014时1505080016时6508070018时100150850202303060024时100500800Q6连续的查询是针对杭州市、嘉兴市和丽水市,进行对比分析结果表明:丽水市在8-24时,平均访问量有800次,大大高于其它两个城市(相当于4-6倍)。杭州市平均访问量200次,嘉兴市平均访问量120次。丽水市在上午10时,页面浏览数的访问量达到最高峰1100次。杭州市在下午16时达到最高峰,访问量是700次。嘉兴市在上午9时达到最高峰,访问量是400次。但丽水市清晨时的访问量是0。可见丽水市在浙江省是一个特例。(7)Q7:连续跟踪主要省份对特定版块的访问量变化情况,查询视图为:(分钟, 省,滚动新闻),时间窗口为60分钟,查询条件定义在用户维度上,用户分别对应浙江省、江苏省和上海市,主题维度的子版块定为“滚动新闻”。Q7连续的查询结果,表明浙江省对“滚动新闻”版块关注较多,在0-7小时内,平均访问量有30次左右;在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论