




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第11章,文本挖掘与Web挖掘,目录,11.1 文本挖掘概述 11.2 文本挖掘 11.3 Web挖掘,11.1 文本挖掘概述,11.1.1 文本挖掘的基本概念 11.1.2 文本特征的表示 11.1.3 文本特征的提取,11.1.1 文本挖掘的基本概念,文本挖掘一词出现于1998年第十届欧洲机器学习会议上。 Kodratoff认为文本挖掘的目的是从文本集合中,试图在一定的理解水平上尽可能多地提取知识。,1. 概念,文本挖掘是一个从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。 文本数据包括:技术报告、文本集、新闻、电子邮件、网页、用户手册等。,2.主要任务,(1)短语提
2、取 提取文本集中所有相关的短语 。 (2)概念提取(聚类) 对这些短语之间的关系,建立一个该文本集中的主要概念 。 (3)可视化显示和导航 从多个视角出发进行分析.,3.文本挖掘与数据挖掘,11.1.2 文本特征的表示,文本特征指的是关于文本的元数据: (1)描述性特征,例如文本的名称、日期、大小、类型等; (2)语义性特征,例如文本的作者、机构、标题、内容等。,11.1.2 文本特征的表示,矢量空间模型(VSM)是效果较好的表示文本特征的方法。每个文本d表示为其中的一个规范化特征矢量: V(d)=(t1,w1(d);ti,wi(d);tn,wn(d) d中出现的所有单词作为ti,或所有短语。
3、wi(d)一般被定义为ti在d中出现频率tfi(d)的函数。,函数wi(d)=(tfi(d) ,常用的有: (1)平方根函数 (2)对数函数,11.1.3 文本特征的提取,特征提取主要是识别文本中代表其特征的词项。 文本特征分为一般特征和数字特征,其中一般特征主要包括动词和名词短语,如人名、组织名等; 数字特征主要包括日期、时间、货币以及单纯数字信息。,特征项抽取的判断算法,(1)该特征项集合包含所有该类中出现的词。 (2)对于每个词,计算词Wi和类别Cj的互信息量I(W,C) (3) 对于该类中所有的词,依据上面计算的互信息量排序。 (4)抽取互信息量大的词作为特征项。 (5)根据抽取的特征
4、项进行向量压缩,精简向量表示。,11.2 文本挖掘,11.2.1文本挖掘功能层次 11.2.2关联分析 11.2.3文本聚类 11.2.4文本分类,11.2.1文本挖掘功能层次,文本挖掘功能层次,(1)关键词检索 关键词建立倒排文件索引,与传统的信息检索使用的技术类似。 (2)相似检索 找到相似内容的文本。 (3)词语关联分析 聚焦在词语(包括关键词)之间的关联信息分析上。,(4)文本聚类和文本分类 实现文本的聚类和分类。 (5)自然语言处理 揭示自然语言处理技术的语义,进行文本语义挖掘。,11.2.2 关联分析,在文本数据库中,每一文本被视为一个事务,文本中的关键词组可视为事务中的一组事务项
5、。即文本数据库可表示为: 文本编号, 关键词集 文本数据库中关键词关联挖掘的问题就变成事务数据库中事务项的关联挖掘。 关联分析挖掘可以用于找出词或关键词间的关联。,11.2.3 文本聚类,1层次聚类法 对于给定的文本集合D=d1,di,dn: (1)将D中的每个文本di看作是一个具有单成员的类ci=di,这些类构成了D的一个聚类: C=c1,ci,cn; (2)计算C中每对类(ci,cj)之间的相似度sim(ci,cj); (3)选取具有最大相似度的类对,并将ci和cj合并为一个新的类ck=cicj,从而构成了D的一个新的聚类C=c1,cn-1; (4)重复上述步骤,直至C中剩下一个类为止。
6、该过程构造出一棵生成树,其中包含了类的层次信息,以及所有类内和类间的相似度。,11.2.4 文本分类,首先,把一组预先聚类过的文本作为训练集。然后对训练集进行分析以便得出各类的分类模式。 对文本分类的有效方法是基于关联的分类: (1)提出关键词和词组。 (2)生成关键词和词组的概念层次,或类层次结构。 (3)词关联挖掘方法用于发现关联词,它可以最大化区分一类文本与另一类文本。这导致了对每一类文本,有一组关联规则。,113 Web挖掘,1131 Web挖掘概述 1132 Web内容挖掘 1133 Web结构挖掘 1134 Web应用挖掘,1131 Web挖掘概述,1Web信息特点 (1)Web信
7、息特别庞大 (2)Web信息非常复杂 (3)Web信息是动态的 (4)Web信息使用者复杂 (5)Web信息中的“垃圾”非常多,2Web挖掘分类,Web挖掘分类,2Web挖掘分类,(1)Web内容挖掘 提取文字、图片或其他组成网页内容成分的信息和知识。 (2)Web结构挖掘 提取网络的拓扑信息,即网页之间的链接信息。 (3)Web应用挖掘 提取关于客户如何运用浏览器浏览和使用页面链接的信息。,(4)区别与联系 结构挖掘的表达方式是链接图,提示了哪些页面通过当前页可以几步内到达。 内容挖掘的表达方式是一个网络索引,提示了网页的主题。 应用挖掘集中于挖掘客户的行为,特别是随着时间的变化。,1132
8、 Web内容挖掘,Web内容挖掘的基本技术是文本挖掘。 1信息检索 信息检索的目标是找到你想要找的,从两个方面来判断该查询的有效性:“召回(recall)”和“精度(precision)”。 “精度”回答了“在返回的网页中,正确的标题的比例是多少” ; “召回” 回答了“返回了多少正确页面” 。,1132 Web内容挖掘,2基于内容的分类 “k最近邻(简称k-NN)”,这种方法很好地适用于在网页中利用关键词进行聚类。 在k-NN方法中,每个新的网页与在数据库中预先聚类的例子进行对比。新网页将出现和一些现有的网页非常类似,与另一些非常不同的情况。 通过使用k-NN可以对相同的网页进行聚类。相似度
9、越高,聚类的可信度也就越高。,1132 Web内容挖掘,3从纯文本中提取信息 通过将纯文本转化为结构化的数据,他们能够直接应用数据挖掘技术做出预测。这种从非结构化数据中创建结构化数据的过程叫做特征抽取。 通过以XML标记的形式向网站中添加更结构化的内容,比通过提高从非结构化的文本中提取信息的技术来得更加迅速一些。,1133 Web结构挖掘,结构挖掘可以告诉我们一些站点的受欢迎程度和它同其他站点的距离(通过跳转次数来判定)。 万维网(www)是一个有向图G=(V,E),V是页面的集合,E是页面之间的超链接集合。 页面抽象为图中的顶点,而页面之间的超链接抽象为图中的有向边。顶点v的入边表示对v的引
10、用,出边表示v引用了其它的页面。 Web页面之间的超链接揭示了Web结构。,1133 Web结构挖掘,1. 网页的引用 一篇文章的有用与否在于这篇文章出现在其他文章的参考书目中的次数。特别是作者,会因为他的作品的重复引用而在某个学科出名。 网页引用的Page-rank方法: (1)一个页面被多次引用,则这个页面很可能是重要的; (2)一个页面尽管没有被多次引用,但被一个重要页面引用,则这个页面很可能是重要的; (3)一个页面的重要性被传递到它所引用的页面。,1133 Web结构挖掘,3. 导航页 导航页使他们能够很容易地找到他们想要找的网页。 4 . 目标页 目标页给浏览者提供所有的内容。,1
11、134 Web应用挖掘,应用挖掘从单个客户在一次对话中的一系列的单击到跨越了几个月或数年的客户群的购买模式中,收集信息组成一个特性文件,依次提供当前客户的快照。,1134 Web应用挖掘,1. 点击流分析 用于Web挖掘的有效的最简单的数据就是点击流由一个站点的网络服务器来接受的网页请求。点击流的定义是一个网站浏览者通过点击链接所明确要求的一系列文件。 在网络世界里记录了所有客户的浏览器所请求的文件。,1134 Web应用挖掘,2. 网络日志 点击流的分析始于网络日志。 当客户单击单独的网页时,点击也将通过各种指标予以记录。,1134 Web应用挖掘,3. 应用日志 要求从应用服务器上得到的数据是完整的点击流数据。 只有应用日志知道什么时候一些商品放在商店里,什么时候该拿走,什么时候客户进来,什么时候客户出去。,4. 日志挖掘的基本流程,(1)对访问日志(Web Log)进行清洗、过滤和转换,从中抽取感兴趣的数据。 (2)将资源的类型、大小、请求的时
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 会议危机管理信息化研究-全面剖析
- 产前筛查培训
- 电气培训课件转
- 北师大版数学教师教学计划制定
- 新冠疫苗接种记录中病历问题的整改措施
- 水利工程主要设备材料需求计划
- 教育信息化2.0对学生学习方式的影响心得体会
- 关于学生的实习报告15篇
- 养老诈骗宣传活动总结(15篇)
- 初中语文多元评估计划
- 健康咨询与服务推广协议
- 护士N1晋级N2述职报告
- 中国糖尿病防治指南(2024版)解读
- 食堂食材配送采购投标方案(技术标)
- 山东省汶上县市级名校2025届中考生物全真模拟试卷含解析
- 2025年度智能硬件产品全国区域独家代理合同3篇
- 办公室安全知识培训课件
- 2025年四川省成都市青白江区招聘50人历年高频重点提升(共500题)附带答案详解
- 2025年浙江嘉兴市众业供电服务限公司招聘38人高频重点提升(共500题)附带答案详解
- 【课件】第12课+理想与典范-古希腊与古罗马美术+课件高中美术人教版(2019)美术鉴赏
- 建筑行业安全隐患举报奖励机制
评论
0/150
提交评论