




已阅读5页,还剩66页未读, 继续免费阅读
(计算机系统结构专业论文)基于网页的关键词提取技术研究及其在广告领域的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ab s t r a c t ab s t r a c t w it h t h e d e v e l o p m e n t o f w e b p a g e i n f o r m a t i o n o n t h e n e t w o r k , m e a s u r e s o f u n d e r s ta n d i n g t h e c o n t e n t o f w e b p a g e b e t t e r a n d e x t r a c t i n g m o r e u s e f u l i n f o r m a t i o n h a s b e c o m e o n e o f t h e c o re re s e a r c h s u b j e c ts i n t h e n e t w o r k i n f o r m a t i o n r e t r i e v a l a r e a . a s t h e a d s e n s e c o m m e r c ia l m o d e b e c o m e s p o p u l a r , h o w t o u n d e r s t a n d a d v e r t i s e m e n t s re l a t e d c o n t e n t o f w e b p a g e , a n d e x t r a c t m o re a d v e rt i s i n g - r e l a t e d i n f o r m a t i o n , a l s o h a s b e c o m e a n e w re a s e a r h t o p i c . t h e a d v e r t i s e m e n t k e y w o r d e x t r a c t i o n b a s e d o n w e b p a g e i s f o r t h i s a r e a s re s e a r c h a n d e x p l o r a t i o n , it i s t h e e x t e n s i o n o f k e y w o r d e x t r a c t i o n t e c h n o l o g y o n w e b p a g e a n d a d v e rt i s e m e n t . i n t h i s d i s s e rt a t i o n , i t f i r s t a n a l y z e s t h e t r a d i t i o n a l k e y w o r d e x t r a c t i o n t e c h n o l o g y o f w e b p a g e , b a s e d o n t h i s b r i n g s f o r w a r d t w o d i ff e r e n t a s p e c t s i m p r o v e m e n t s o f k e y w o r d e x t r a c t i o n o n a d v e r t i s e m e n t . o n e o f t h e m i s b a s e d o n m a m b l o c k i m p r o v e m e n t , w h i c h i s f ir s t b a s e d o n c h a r a c t e r i s t i c s o f w e b p a g e s tr u c t u re , d e v i d e s t h e w e b p a g e i n t o f i v e d i ff e r e n t r o l e p a r t s , th e n r e m o v e s t h e i rr e l e v a n t p a r t s o f t h e w e b p a g e a n d r e s e r v e s t h e re l e v a n t p a rt ( ma i n b l o c k ) , a n d f in a l l y e x t r a c t s k e y w o r d s fr o m ma i n b lo c k p a rt . t h e p u r p o s e o f t h i s a p p r o a c h i s t o f i l t e r m o re i rr e l e v a n t p a r t s o f w e b p a g e a n d im p r o v e t h e a c c u r a c y o f k e y w o r d s e x t r a c t i o n ; t h e s e c o n d m e t h o d i s b a s e d o n k e y w o r d s m u l t i - f e a t u r e i m p r o v e m e n t s , w h i c h i s b a s e d o n s e l f - c h a ra c t e r i s t i c s a n a l y s i s o f c a n d id a t e k e y w o r d s , it s f o c u s i s n o t o n t h e k e y w o r d m e a n in g f u l a n a ly s i s , b u t o n c o m b i n i n g t h e k e y w o r d s l o c a t i o n a n d a t t r ib u t e i n t h e w e b p a g e t o c o n f e r k e y w o r d s m o r e f e a u t r e s , t h i s a p p r o a c h s g o a l i s t o i n c re a s e m o r e m e a s u r a b le f a c t o r s w h e n c a l c u l a t i n g k e y w o r d s p r o b a b i l i t y . t h e r e b y t o s o m e e x t e n t , t h i s m e t h o d g u a r a n t e e s m o re e ff i c i e n t l y t o d i s t i n g u i s h t h e r e al k e y w o r d s a n d n o n - k e y w o r d s , a n d f i n a l l y i m p r o v e s t h e a c c u r a c y o f k e y w o r d s e x t r a c t i o n . p r o v e d b y e x p e ri m e n t , t h e i m p r o v e m e n t s o f m a in b l o c k a n d m u l t i - f e a t u r e s c a n h a v e a g o o d p e r f o r m a n c e a n d i n c re a s e t h e a c c u r a c y o f k e y w o r d e x t r a c t io n . k e y w o r d : w e b p a g e , k e y w o r d e x t r a c t i o n , a d v e rt i s m e n t , ma i n b l o c k , m u lt i - f e a t u r e s 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定,同意如下 各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学 位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存 论文;学校有权提供目 录检索以及提供本学位论文全文或者部分的阅览服务; 学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在 不以赢利为目 的的前提下,学校可以适当复制论文的部分或全部内容用于学术 活动。 学 位 论 文 作 者 签 名 : 赵 一 氏 z - o o 7年 5月2 8 日 经指导教师同意,本学位论文属于保密,在年解密后适用本授权书。 指导教师签名:学位论文作者签名: 解密时间:年月日 各密级的最长保密年限及书写格式规定如下: 内部 5 年 ( 最长5 年,可少于5 年) 秘密1 0 年 ( 最长1 0 年,可少于 1 0 年) 机密*2 0 年 ( 最长2 0 年,可少于2 0 年) 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作 所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含 任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉 及的研究工作做出贡献的其他个人和集体,均己 在文中以明确方式标明。本学 位论文原创性声明的法律责任由本人承担。 学 位 论 文 作 者 签 名 : 赵 一 f -v 二 。 d 7 * s月之 宫日 第一章 引言 第一章 引言 近年来, 随着i n t e rn e t 日 益繁荣, i n t e rn e t 上大量的有用信息成为生活中不可 或缺的资源。同时 i n t e rn e t 的总容量也在不断增加,据粗略估计,目前 i n t e rn e t 的总容量己 经超过 2 4 0 0 0 t b 。 因此,最大可能的汇集并使用这些有用的资源, 己成为当前需要解决的至关重要的问题。然而由于网络中大量而繁杂的内容, 从而使得汇集有用信息变得相当的困难,因此,不管是对用户还是搜索引擎来 说,如何以一种简单高效的方法使得计算机可以理解网页内容,进而提取相关 的 信息,已 成为我们研究网 络资 源的核心问 题川 。 基于网页 的关 键词 提 取技 术 ( k e y w o r d e x t r a c t i o n ) 正是 在这样的 需求下 诞生 的。 第一节 研究背景 1 . 1 . 1基于网页的关键词提取技术研究背景 在高度信息化的今天,数据的存贮量越来越大。频繁的数据交换,海量的 数据处理,给计算机领域带了极大的商业契机。在这个时代当中数据库扮演着 重要的角色。 m i c r o s o ft s q l s e r v e r o r a c l e 等正是针对这一需求在不断改 进, 安 全、高效的数据处理一直是数据库不断追求的目 标。然而由于信息的大量增加, 从数据中 挖掘 ( d a t a m i n i n g ) 真正 有效的数据开始逐渐成为 用户关注的 重点.比 如, 在数据库中已 加入了 对x m l的支持,以 便更好的实现常用的d a ta m i n i n g 过程。 而如此丰富的i n t e rn e t 数据往往是以网页的形式呈现, 据统计, 现在互联网 上己经存在超过 2 0亿的网页而且还处于不断变化之中,如何从浩瀚的 we b页 面世界中查找所需要的信息,搜索引擎的出现,为网络信息的查询与获取提供 了极大的便利。 搜索引擎使得用户在i n t e rn e t 的海量数据面前寻找自己 的需求不 再是大浪淘沙。而搜索引擎的关键技术在于:利用网络爬虫获得网页,分析网 页过滤内 容, 提取有用的 关 键 词, p a g e r a n k 技术, 网 页 关键词 索引 等 1 1 1 第一章 引言 然而现在由于存贮介质和索引算法的限制,世界上最好的搜索引擎对 i n t e rn e t 总容量的 缓存都不到其1 %, 在结果并 不理想并且大量的 不相关或相关 度 极低的返回信息不仅给我们的查询带来了极大的不便,同时也极大地降低了获 取信息的速度的情况下,人们需要一种工具,能够提高搜索引擎的查询,人们 设想如果搜索引擎可以理解网页内容,那么更多的与该网页相关的内容将可以 一并奉献给搜索者。这一简单而又极具智慧的思想最终导致了搜索引擎的一项 新的技术的诞生。这就基于网页的关键词提取技术。 . 1 .2基于网页的广告关键词提取技术研究背景 事实证明,虽然世界上的网页很多,但每一个网页真正为用户所关心的关 键词却只占整个网页的很小一部分。在准确高效地分析出关键词,并只对网页 的关键词进行缓存的前提下,搜索引擎的功效将会有大幅度的提高,并使得搜 索引擎公司获得了极高的利润。 2 0 0 4 年1 0 月, g o o g l e 推出了 针对合 作伙伴 网 站的 “ g o o g l e a d s e n s e ” 这一 业 务可以 让各 种规 模的网 站发布 商 在 他们的网 站 上 发 布与网 站内 容相关的 g o o g l e 广 告并 获 取 收 入。 g o o g le 最 新 发 布 的2 0 0 6 年 第 三 季 度 财 报 显 示 , g o o g l e a d s e n s e 服 务为g o o g l 。 带 来了1 0 .4 亿 美 元, 占 总 收 入 的3 9 % 12 1 0 g o o g le a d s e n s e 2 1 正 是 利 用 了 在a i 领 域 的 理 论 研 究 成 果 , 使 得 计 算 机 可以 正确理解网 页内 容,从而在网页上刊登相应的 广告, 这一决策形成了g o o g l e . 网站的发布商,广告提供商三赢的局面,也为广大用户提供了便利。 以上种种商业迹象和产品的更新都证实了计算机理解网页以 及关键词提取 技术的价值。在这种价值的背景下,针对广告的网页关键词提取技术研究除了 表现出在广告词领域的理论研究意义外,而且具有非常强的现实意义。 第二节 基于网页的关键词提取技术及其发展现状 1 . 2 . 1 1 . 2 . 1 . 1 基干网页关键词提取技术理论基础 关键词提取技术 关键词是用以表示文章主题内容、信息、款目的单词或术语,是反映文章 第一章 引言 内容的名词性术语,是从文章题名、摘要、层次标题和征文中提取出来的。 对 文章内 容具有实质性意义的词或词组,是表达文献主题概念的自 然语言 词汇。 它与主题词 ( 也称为叙词) 有一定的区别和联系。相同点是都表达文章主 题,区别在于:主题词经过规范化的词,取自 于主题词表,表达同一主题的叙 词,在任何情况下都具有完全一致的字面形式;而关键词为非规范词,多采用 自 然语言 的形式, 选取较为自 由,表达同一主题的关键词, 往往会呈现多种字 面形式。现代科学技术的飞速发展, 新生词不断出, 如: “ 信息高速公路”等词 在词表中无法查到,因此关键词是一种省时省力高速有效的方法。 关键词提取,就是自 动地选择一个小特征项集来描述单个文档的内容。关 键词的抽取在自 动分类、自 动摘要、自 动标引等方面有着广泛的应用,它不仅 是进行这些工作不可缺少的基础和前提,也是互联网上信息建库的一项重要工 作。关于关键词抽取的常用和经典的方法是统计方法,通过确定候选词的权重, 从中筛选出权重较大者作为最终的关键词。因此,候选词权重的确定就成为文 献关键词抽取的核心。 i .z . t .2关键词提取技术的 方法 目 前,关键词提取技术主要有以下几种:基于主题词表方法,基于词义的 方 法、 基于统计的 方 法与 基于 单 字分析的 方 法 j3 j 1 .基于主题词表方法 基于主题词表的方法的基本思想是,将文献的种类可以 按不同的领域进行 划分。一般而言,有相当一部分词它们表达文献主题的能力受到文献类型的限 制我们将之称为类型词。针对不同类型的文献, 各抽取一定量文本样本,采用 一定的训练算法,提取类型词,建立主题词库,以之作为文献的背景词库。在 提取关键词时,根据类型词库,并综合考虑词频、词长等因素,对文献中出现 的词进行加权,最终按照权重提取关键词,使用这种方法获取的关键词有时也 被人们称之为主题词。这种方法在进行文本自动分类,主题词提取.主题标引 时经常被用到,而且效果显著。 这种方法的特点是:提取准确率较高, 但由于受到背景词库的限制,该方 法的查全率较低,而且提取范围仅限于出现在主题词库中关键词。其提取结果 直接受到背景词库的影响。 2 .基于词义的方法 第一章 引言 基于词义方法的基本思想,给定的文献是按照一定意义对词汇进行排列组 合的符号串,是围绕文献主题有关方面所做的判断、推理、结论等等。一个词 如果是关键词的话,就不可能是孤立的,围绕着它必然会展开论述,主题关键 词之间构成一个语义结构图。词语按照所讨论的关键词形成意义聚类,将这些 语义聚类划分出来,深入挖掘文献中所包含的语义信息,就可以提高关键词的 提取准确率。 基于词义的方法,虽然在一定程度上代表了自 然语言理解的发展方向,但 是这种方法实现结果直接受到用户所建立“ 规则库” 性能的影响, 还需要进行大量 的词义排歧,同义词识别工作。目前计算机在处理这些技术方面还存在着一定 的局限性,同时对于未登录词,也缺乏相应的处理机制,因此这种方法还只能 处于试验阶段。 3 .基于统计的方法 基于统计方法的基本思想是,在表达文章主题时,起主要作用的是名词, 动词等实词.这部分词中出现频率越高,出现位置越特殊。如标题、首段等等 有特殊标记、特殊提示的词。对表达文章的主题越有意义,在进行关键词提取 时可以综合考虑这些因素,通过给词不同特征设置加权因子进行加权法来进行 提取,经常被用于信息挖掘、文本自 动摘要、网络信息建库。 4 .基于单字分析的方法 基于单字分析方法的基本思想,考虑到自 然语言表达形式的多样性,没有 任何一部词典可以 囊括所有的词。因此,以单个汉字为统计对象,统计出现在 文章中的高频字串,再对提取出的高频字串进行相应的长短串处,提取文献关 键词。 1 .2 .2 基干网页的广告词关键词提取技术的发展现状 基于网页关键词提取技术,是专门用于对网页的关键词提取技术,主要通 过对网页内容的分析提取出网页中的关键词,常用技术包括 t f i d f ( t e r m f r e q u e n c y , i n v e r s e d o c u m e n t f r e q u e n c y ) 等, 并且 综 合了 在d a t a m i n i n g , m a c h i n e l e a rn i n g 方面的 理论 成果, 实现了 一种非语义的 简单的关键词提取技术ls l 基于网页的广告关键词提取技术是在此发展起来,除了继承了所有的基于 网页关键词提取技术的方法之外,同时结合了广告词的特点和广告提供商的需 第一章 引言 求,对网页中的关键词进行特定领域的提取。 这里,提到了 基于网页的广告关键词提取技术的这样一个概念,在文章的 后面会一直使用。 但是可能会引起误解,原因是可能会理解为基于网页的 广告 关键词提取技术只提取网页中广告内的关键词,实际上并非如此。基于网页的 广告关键词提取技术,实质上是基于网页的关键词提取技术在广告领域的应用, 也就是说上面提到的技术会在网页中首先提取出 所有类型的关键词,然后再从 这些关键词中寻找其中可能会为广告做贡献的关键词。比如说,即使网页中没 有广告出现,而有s h o e 这样一个单词,那么我们一定会提取出它来,因为它可 能会是广告商关心的词,从而使用这个词在网页上打上相应的广告。因此我们 这里说的广告关键词就是指所有可以作为广告的关键词,而不是广告内的词。 1 , 广告关键词 提取系统( a d s k e x ) a d s k e x系 统 是 关 键词 提取技术 ( k e x ) 在 广告 领域的延 伸, 它主要的 工 作是 尽可能提取网页中的能对广告提供商有贡献的关键词,从而把这些关键词作为 广告的候选词。 z . a d s e n s e p r o g r a m概念 3 1 a d s e n s e p r o g r a m可以自 动投 放根 据网 站 和网 站内 容进 行精确定 位的 文 字 广告和图片广告。 如果网站的主人加入到这个联盟中, a d s e n s e 就会在当前网 站 投放具有针对性的 广告。这种快速简便的方法,可以让各种规模的网站发布商 在他们的网站展示与网站内容相关的广告井获取收入。由于所展示的广告与用 户在您的网 站上浏览的内容相关,或与您网 站内 容所吸引的用户的个性和兴 趣 相符,最终您可以 在充实网页的同时,透过网页获取收益。以最终达到三赢的 目的. 3 . a d s e n s e p r o g r a m的 基本工作原理 以g o o g l e a d s e n s e 为 例, a d s e n s e p r o g r a m是 基于一 个客观认识, 在一 个网 页上刊登一个与该网页相关的广告,更容易引起读者注意,从而增加点击量, 然而世界上如此巨大数量的网页,机器应该如何选择刊登什么样的广告呢? ms r a - a t c ( mic r o s o ft r e s e a r c h a s i a a d v a n c e d t e c h n o l o g y c e n t e r ) a d c e n t e r t e a m 采用了这样的策略, 首先利用k e x系统分析网页的关键词,再利用关键词与商 家提 供的b i d d i n g w o r d s 匹 配, 选择最佳的 匹 配 从 而决定 刊登何种广告, 例如: a d id a s 公 司希 望 在 任何 与s p o rt s s h o e s 有关 的 网 页上刊登自 己 的 广告, 它 便向 m s n提出b i d d i n g w o r d s s p o rt s s h o e s , 今 后m s n如果 在网 页分析过 程中, 发 第一章 引言 现该网页的关键词位 “ s p o r t s s h o e s ,则m s n会在这个网贞 上刊 登a d i d a s 公司 预先提供的广告。 4 . a d s e n s e p r o g r a m的 基 本 框架 结 构 因此, a d s e n s e p r o g r a m的框架可以 简单的 分为前 端和后端, 前 端为网页 爬 虫和显示广告,后端为解析网页,也就是对爬虫得到的网页抽取关键词, 然后 和广告提供商提供的广告数据库进行匹配,把合适的广告发送给前端。而后端 负责关键词抽取的 核心模块就是广告关键词提取系统( 简称a d s k e x系统) , 其 框架图如下: 图1 . 1 a d s e n s e框架图 第三节 本文立意与安排 基于网页的关键词提取技术是当今网络信息检索的核心问题之一, 是信息检 索,数据挖掘和关键词提取技术在网络资源上的应用,尤其是以网页为表现形 式的网络资源。因此它是对网页的内容和结构进行分析,并对网页中的关键词 进行提取的技术。 基于网页的广告关键词提取技术, 是基于网页的关键词提取技术在广告词领 域的应用,从本质上说,它们的唯一区别就是前者针对的关键词是广告关键词, 而后者是网页中的所有关键词。不难知道,它们的核心技术是相同的,在本文 中除了广告词部分的内容外,两者在技术层面上是一致的,也就是本文中基于 网页的广告关键词的提取技术的改进同样适用于基于网页的关键词提取。因此, 在本文中所有涉及技术上问题,两个概念是没有区别的,然而选择基于网页的 广告关键词提取技术的改进作为讨论,是希望能够把基于网页的关键词的提取 第一章 引言 更准确的应用于有限的范围内,从而能更好衡量改进的优劣。 现在比较流行的基于网页的关键词提取技术有,t f i d f ,互信息( m u t r u a l i n f o r m a t i o n ) , 结构信息( s t r u c t u r e i n f o r m a t i o n ) 等, 这些技术都得到了 广泛的应用, 并且取得很不错的效果,但是基于网页的关键词提取技术的准确率几乎是没有 上限的,所以虽然当前的技术能够满足基本的需求,仍然需要不断的完善,同 时存在很大改进的空间。 基于上面的考虑, 本文从两个方面提出了基于网页的广告关键词提取技术的 改进思路,一种是基于 ma i n b l o c k的改进,它是根据网页本身结构的特点进行 分析过滤掉了对关键词提取其不相关的部分,以提高了关键词提取的准确率; 另一种是基于关键词细特征的改进,它是根据候选关键词本身的特点进行分析, 增加判断候选词成为关键词的概率因素,从而更好的判断一个词是否是关键词, 以提高关键词提取的准确率。 本文结构安排如下: 第一章为引言, 主要介绍基于网页的关键词提取技术的研究背景, 接着介绍 了广告关键词提取技术相关领域的发展现状。 第二章重点介绍了当今基于网页的关键词提取领域内主要使用的核心技术, 并根据这些技术实现了 相应的a d s k e x ( a d v e rt i s m e n t k e y w o r d e x t r a c t i o n ) 系统。 第三章为本文核心章节, 介绍了基于网页的广告关键词提取技术的改进, 分 别从两个方面进行了详细介绍,首先介绍了基于 ma i n b l o c k的改进,接着介绍 了基于关键词细特征的改进. 第四 章介绍了基于网页的广告关键词提取技术改进前和改进后的实验情况, 根据改进的不同部分作了相应的实验组合,并对改进前和改进后的准确率等结 构数据进行了相应的分析. 第五章为总结和展望, 总结了本文所实现的基于网页的广告关键词提取技术 的改进的优缺点,并对下一步的研究发展做出了展望. 第二章 基丁网页的) 告关 键词提取技术及实现 第二章基于网页的广告关键词提取技术及实现 基于网页的广告关键词提取,是基于网页的关键词提取在广告领域的延伸, 是网页中的关键词提取技术应用于广告词的产物,因此,这里会从基于网页的 关键词提取技术和在广告词的应用两个方面来讲述基于网页的广告关键词提取 技术。 基于网页的广告词关键词提取技术的表现,则是 a d s k e x ( a d v e rt i s m e n t k e y w o r d e x t r a c t i o n ) 系统, 技术的 各 个细节 分 别 应用于a d s k e x 系 统的 不同 部 分, 使得a d s k e x系统能够正常地工作,因此这里会从a d s k e x系统的设计的角度 来讲述基于网页的广告词关键词提取技术中所包含的每一项技术。 基于上面的考虑, 本章首先介绍a d s k e x系统的整个结构, 以 及每个部分所 包含的内容和作用,然后详细描述每一部分所有涉及到的技术细节,包括算法 和简单的实现,以及技术难点。 第_章 基于网页的) 一 告关键词提取技术及实现 第一节 a d s k e x系统结构 2 . 1 . 1 a d s k e x系统框架图 图 2 . 1 a d s k e x框架图 1 0 第二章 基于 网页的j 告大键词提取技术及实现 2 . 1 .2 a d s k e x系统组成 a d s k e x系统【s -2 0 lp 含h t m l 解析器 ( h t m l p a r s e r ) , 预处理器 ( p r e p r o c e s s o r ) , 提 取器( e x t r a c t o r ) , 排名器 ( r a n k e r ) 四 大主 要模块。因为 每个 模块是 基于网 页的 提取技术在不同阶段的应用。因此基于网页的关键词提取技术实际上可分为: 网页解析,预处理,提取关键词,关键词排名,四大主要步骤。 h t m l 解析器( h t m l p a r s e r ) , 主要工作是解析h t m l 源代码, 把h t m l 解析成一 棵d o m ( d o c u m e n t o b j e c t m o d u l e ) g, 以 树的结构来表示网页, 这使得后面我们 完全不用考虑如何处理原始网页, 而是访问和修改所得到的d o m树, 这使得处 理变得灵活而高效。 预处理器( p r e p r o c e s s o r ) ,主 要工作是对得到的d o m树中不同的结点按照不 同的规则进行预处理工作,包括在结点上添加有用的信息,修改结点的表示, 删除冗余的结点。 从而得到一棵更优的d o m树以及从d o m树上得到的网页内 容矩阵。 提取器( e x t r a c t o r ) , 主要工作是 对优化了 的d o m树中 有用的结点和网页内 容 矩阵按照不同的规则和策略进行关键词的提取工作.这些策略中,包含有关键 词特征的提取,也包含有网页结构特征的提取,最终通过所有策略的结合得到 一 个原始候 选关 键词列表l ; 排名器( r a n k e r ) ,主要工作是对原始候选关键词按照它们的总的分数进行排 名,每个关键词的最终分数,是由它们的特征决定,其中包括 t f ( t e r m f r e q u e n c y ) , d f ( d o c u m e n t f r e q u e n c y ) , m i ( m u t u a l i n f o r m a t i o n ) 等 一 系列的 特征, 这些特征都是关键词提取中不同技术的组成部分。最终我们得到候选关键词以 及它们的最终排名。 第二节 a d ai】系统中的关键词提取技术 2 .2 . 1 h t m l 解析( h t r n l p a r s e r ) h t m l 解析技术12 9 1 主要应用于a d s k e x系 统中的h t m l p a r s e : 部分。 h t m 】 是一种高度结构化的语言。目 前绝大多数网页都是基于这种语言编写 的。利用这样一种结构化信息是a d s k e x系统的关键。 第二章 基于网页的) 一 告关键词提取技术及实现 h t m l p a r s e r 的主要作用是将网页的字节流转换成一个结构化的d o m 树. 之 后的 所有对网页的 计算 处理 都 将 基于d o m树(4 . 3 2 1 。 这样就 可以 方 便 地利用网 页的结构化信息。 2 .2 . 1 . 1 d o m t r e e结构 下面是一个原始网页, 我 们通过对h t m l 中t a g 的分析可以 转化为d o m 树。 a m )a s im ( t i t l e ) f o r d a o t a n o b i l e ( ai t l b ) 伪 n 舀 n o w仆e rr o r 山 ,co n t en t = f m 斌 ( m e i a o n e = d e s c r i 叫. , c on t e n t - 加 .a u t o m o b i l e c a n p a , 二 e t o a a o b i l e 四i n t r o d uct i on t o t h e s e n t (/bfa do w 砚胭比) 佣心 口 m) 加 ) ( 八d 们 1 ) ( t 璐 a c e = f o r d j p 6 a l t = 加 刊
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高一禁毒平台试题及答案
- 韩国邮政面试题及答案
- 针对性考试策略2024年信息系统项目管理师试题及答案
- 马小跳考试题及答案
- 辽宁省凌源市第二高级中学2024-2025学年高考考前模拟物理试题含解析
- 越野滑雪考试试题及答案
- 2025年自然科学研究与试验发展服务合作协议书
- 高效母猪护理技艺的考试题
- 高等数学清华试题及答案
- 药剂学相关技术的进展试题及答案
- 2025-2030中国煤焦油杂酚油行业市场发展趋势与前景展望战略研究报告
- 新版食品安全法培训课件
- 防洪防汛安全教育知识培训
- 2025年高考物理专项复习:电磁感应综合题
- 第13课 亚非拉民族独立运动 课件(共26张)2024-2025学年统编版高中历史(必修)中外历史纲要(下)
- 2020-2025年中国辽宁省风力发电行业发展潜力分析及投资方向研究报告
- 安全车辆测试题及答案
- (二模)咸阳市2025年高考模拟检测(二)语文试卷(含答案)
- 2025高校教资《高等教育法规》核心备考题库(含典型题、重点题)
- sl582-2012水工金属结构制造安装质量检验通则
- 行政事业单位财务知识培训
评论
0/150
提交评论