




已阅读5页,还剩63页未读, 继续免费阅读
(计算机应用技术专业论文)web双语平行语料自动获取及其在统计机器翻译中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
天津师范大学硕七学位论文 摘要 双语平行语料库在自然语言处理领域有很多重要应用,它为统计机器翻译模 型提供不可或缺的训练数据,同时也是词典编纂和跨语言信息检索等应用的重要 基础资源。但是大规模双语平行语料库的获取并不容易,现有的平行语料库在规 模、时效性和领域的平衡性等方面还不能满足处理真实文本的实际需要。随着互 联网的普及和飞速发展,越来越多的双语网站被创建,越来越多的信息以多语言 的形式发布,这就为双语和多语语料库的建设提供了很大的来源。些研究者提 出了基于w e b 的双语或多语平行语料库自动挖掘方法,为双语或多语平行语料 库的自动构建提出了有效的解决途径。本文致力于构建一个基于w c b 的大规模 双语平行语料库自动获取系统。取得主要成果有以下几方面: 1 研究了双语混合网页的自动发现和获取 互联网上的双语平行资源主要分为两类:一类是双语资源分布于两个网页 间,两个网页用不同语言描述内容上是互译的,我们称之为双语平行网页;另一 类是双语资源位于同一网页内,我们称之为双语混合网页。以往的系统主要是基 于双语平行网页的,但是通过观察,我们发现w e b 上存在大量的双语混合网页, 而且双语混合网页上的双语资源对照更为工整,翻译质量较高,是非常宝贵的双 语资源来源。 双语平行网页存在地址或结构上的相似性,处理方法已经很成熟,但这些方 法并不适用于双语混合网页。候选双语混合网页分布通常不确定,缺乏一些常见 的启发信息,获取更为困难。本文提出了一种基于尝试下载策略的自动发现双语 混合网页的方法,运用该方法获取候选混合网站具有较高的正确率。 2 研究了从双语混合网页中抽取平行句对的方法 从双语混合网页中抽取平行旬对的主要任务可以分成三部分:网页噪声过 滤、双语混合网页确认和句子对齐。本文研究并实现了两种网页去噪声方法:专 用的基于模板的方法和通用的基于h t i i l l 标签树的方法。对于双语混合网页的确 认本文分两步实验,分别是基于双语字符数的粗判别和基于词典的细判别。最后, 本文采用基于混合信息的句子对齐方法将篇章级的双语平行文本转化成双语平 行句对。本文解决了上述三个难点问题,实现了个基于双语混合网页的平行语 料自动挖掘系统。 天津师范大学硕士学位论文 3 研究了w e b 双语平行语料在实际中的应用 本文将从w e b 上获取的双语平行句对应用于统计机器翻译的模型训练,提 出了句对质量排序和领域信息检索两种不同的应用策略将w e b 平行语料加载到 训练集中,实验证明本文提出的两种策略可以提高翻译系统性能,在州s l t 评 测任务中b l e u 值可以提高2 到5 个百分点。 关键词:w e b 挖掘,平行语料库,句子对齐,统计机器翻译 天津师范大学硕士学位论文 a b s t r a c t t h e r ea r em a n yi m p o r t a n ta p p l i c a t i o n so fb i l i n g u a lp a r a l l e lc o r p o r ai n n a t l j r a l l a n g u a g ep r o c e s s i n g , w h i c hp r o v i d e se s s e n t i a lt r a i n i n gd a t af 0 r s t a t i s t i c a lm a c h i n e t 豫n s l a t i o n , a n dc a nb e u s e di n l e x i c o 黟a p h y a n d c r o s s - l a n g u a g e i n f o m a t i o nr e t r i e v a l h o w e v e r a c c e s st oal a r g e s c a l e b i l i n g u a lp a r a l l e lc o r p u si sn o te a s y t h ee x i s t i n gp a r a l l e lc o f p o r ac a nn o tm e e t t h ea c t l l a ln e e d si nt e 彻so ft h es c a l e t i m e l i n e s sa n db a l a n c eo ft h ef i e l d s w i t ht h ep o p u l a r i t yo ft h ei n t e m e ta n dr a p i dd e v e l o p m e n t ,m o r e 锄dm o r e b i l i n g u a ls i t e sh a v eb e e nc r e a t e d ,m o r ea n dm o r ei n f o m a t i o ni nm u l t i p l e l a n g i l a g e s h a v eb e e np u b l i s h e d ,w h i c hc a nb et h es o u r c eo fb i l i n g l l a la n d m u l t i - l i n g u a lc o r p u s s o m er e s e a r c h e r sh a v ep r o p o s e ds e v e r a le f l f e c t i v e s o l u t i o n so f ,e b b a s e d b i l i n g u a l o r m u l t i l i n g u a lp a r a n e lc o i p o r a a u t o m a t i c a l l ym i n i n gf o rb u i l d i n gt h eb i l i n g u a lo rm u l t i l i n g u a lp a r a l l e lc o 印u s t h i sp a p e ra i m st ob u i l dal a r g e s c a l ew e b - b a s e da u t o m a t i ca c q u i s i t i o ns y s t e m o fb i l i n g u a lp a r a l l e lc o r p u s t h em a i nc o n t r i b u t i o n sa r ei d e n t i f i e da sf o l l o w s : 1 s t u d yd i s c o v e r y a n da c c e s st o m i x e d - l a n g u a g e sw e bp a g e s a u t o m a t i c a l l y b i l i n g u a lp a r a l l e lr e s o u r c e so nt h ei n t e r n e tc a nb ed i v i d e di n t ot w o c a t e g o r i e s :o n ec a t e g o r yi sab i l i n g u a lr e s o u r c ed i s t r i b u t i o nb e t w e e nt h et w o p a g e s ,t w op a g e sd e s c r i b e di nd i f f e r e n tl a n g u a g e sw i t ht h es 锄em e a n i n g , w h i c ha r ec a n e db i l i n g u a lp a r a l l e lp a g e s ;t h eo t h e ri sb i l i n g u a lr e s o u r c e s l o c a t e di nt h es a m ep a g e ,w h i c ha r ec a l l e d m i x e d l a n g u a g e sp a g e s p r e v i o u s s y s t e m s a r em a i n l yb a s e do nt h ef i r s t c a t e g o r y ; b u tt h r o u g h o b s e r v a t i o n ,w ef o u n dt h a tt h e r ea r eal a r g en u m b e ro fm i x e d - l a n g u a g e sp a g e s o nt h ew e b ,a n dt h ep a r a l l e lt e x t sa r en e a t e ra n dt h et r a n s l a t i o nq u a n t i t yi s h i g h e r ,w h i c ha r ev e r yv a l u a b l er e s o u r c e so fb i l i n g u a lc o f p u s t h eb i l i n g u a l p a r a l l e lp a g e s e x i s ta d d r e s ss i m i l a r i t yo rs t m c t u r a l s i m i l a “t ya n dt h et r e a t m e n t sa r ea l r e a d yv e r ym a t u r e ,b u tt h e s em e t h o d sc a n n o tb ea p p l i e dt om i x e d - l a n g u a g e sp a g e s t h ed i s t r i b u t i o no fc a n d i d a t e m i x e d l a n g u a g e sp a g e si su s u a l l yu n c e r t a i n ,a n dt h el a c ko fs o m ec o m m o n h e u r i s t i ci n f o m a t i o nm a k e st h ed i s c o v e r ym o r ed i f n c u l t t h i sp a p e rp r e s e n t s am e t h o do fd i s c o v e r yt h em i x e d l a n g u a g e sp a g e sa u t o m a t i c a l l yb a s e do nt h e s t r a t e g yo ft e n t a t i v ed o w n l o a d ,u s i n gt h i sm e t h o dt og e tt h ee l i g i b l ec a n d i d a t e m i x e d 一1 a n g u a g e sp a g e sc l o s et o a c c u r a c yo fl0 0 i i i 天津师范大学硕士学位论文 2 s t u d yt h em e t h o do fe x t r a c t i n gb i l i n g l l a lp a r a l l e ls e n t e n c ep a i r s 行o m m i x e d - l a n g u a g e sp a g e s t h em a i nt a s k so fe x t r a c t i n gb i l i n g u a lp a r a l l e ls e n t e n c ep a i r sf r o m m i x e d l a n g u a g e sp a g e sc a nb ed i v i d e di n t ot l l r e ep a r t 8 :w e b - n o i s ef i l t e r i n g , m i x e d - 1 a n g u a g e sp a g e si d e n t i f y i n ga n ds e n t e n c ea l i g n m e n t i nt h i sp a p e r ,w e r e a l i z e dt w ok i n d so fm e t h o dt of i l t e fw e bn o i s e :ad e d i c a t e dt e m p l a t e - b a s e d a p p r o a c h a n dac o n l m o n a p p r o a c h b a s e do nt h eh t m l t a g t r e e t h e i d e n t i f i c a t i o no fm i x e d - l a n g u a g e sp a g e sa r ep e r f 0 咖e dt h r o u g h t w o s t e p e x p e r i m e n t s ,r e s p e c t i v e l y ,t h ef i r s ts t e pi sb a s e do nt h er a t i oo fc h a r a c t e r n u m b e ra n dt h es e c o n di sb a s e do nt h er a t i oo ft r a n s l a t i o n f i n a l l y ;w ec o n v e n t h e p a r a l l e lp a s s a g e s t o p a r a n e l s e n t e n c e s u s i n g t h em e t h o do f h y b r i d i n f o m a t i o n - b a s e da l i g i l m e n t t l l i sp a p e rs o l v e dt h e s et h r e ed i 伍c u l tp r o b l e m sa n dr e a l i z e d 姐a u t o m a t i c m i n i n gs y s t e mb a s e do nm i x e d 一1 a n g u a g e sp a g e s 3 s t u d yt h ea p p l i c a t i o no fw e bb i l i n 9 1 l a lp a r a l l e lc o r p u s w ea p p l yt h eb i l i n g u a lp a r a l l e ls e n t e n c e so b t a i n e d 行o mw e bt ot h e t r a i n i n go fs t a t i s t i c a lm a c h i n et r a n s l a t i o nm o d e l ,d u r i n gw h i c hw ep r o p o s e d t h es e n t e n c eq u a l i t y s o r t i n gm e t h o da n di n f o r i i l a t i o nr e t r i e v a lm e t h o dt o 1 0 a d e dt h ew e bc o r p l l si n t ot h et r a i n i n ge x p e r i m e n t t h er e s u l t p r o v e st h a t t h et w o s t r a t e g i e s c a ni m p r o y et h et r 锄s l a t i o n s y s t e mp e r f b r m 觚c e e x p e f i m e n t sc o n d u c t e do nt h ei w s 【tt a s k ss h o w + 2t o + 5b l e ug a i n so v e f b a s e l i n e k e y w o r d s :w e bm i i l i n g ,p a r a l l e lc o 印o m ,s 衄t e i l c ea l i 即m e n t ,s t a t i s t i c a lm a c h i n e i v 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰 写过的研究成果,也不包含为获得苤鎏! 垂整盘鲎或其它教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 学位论文版权使用授权书 本人完全了解天津师范大学有关保留、使用学位论文的规定,即:学校有权将学位 论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段 保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的论文在解密后应遵守此规定) 签名:趣盗 导师签名:日期:迹啦l 天津师范大学硕士学位论文 1 1 研究背景 第一童引言 统计机器翻译发展到目前为止,有两个里程碑式的工作:一是b r o w n 等在 9 0 、9 3 提出的统计机器翻译框架及其数学基础( 参考文献 1 】、【2 】) ;二是o c h 等 在2 0 0 2 年提出的基于最大熵模型的统计机器翻译框架( 参考文献【3 】、 4 】、【5 】) 。 他们为统计机器翻译奠定了良好的理论基础,这使得其他学者可以在这些框架之 下进行大量的研究实践。基于统计的机器翻译方法使用双语平行语料库作为翻译 知识的来源,翻译知识的获取在翻译之前完成。基于统计的方法需要大规模双语 平行语料( 参考文献 6 】) ,其翻译模型、语言模型参数的准确性直接依赖于语料的 规模,其翻译质量主要取决于概率模型的好坏和语料库的覆盖能力。而就目前来 说,平行语料库的获取途径有很大的限制,主要集中在国际上大型会议的会议记 录( 例如u m t e dn a t i o n sp r o c e e d i n g s ) ,宗教文本( 参考文献 7 】) ,以及软件本地 化的说明文档等。由于获取途径的限制,即使像英语,汉语,法语这些常用的官 方语言间的对照语料,得到的平行语料库就算是有一定的规模,也多半都是很不 平衡的,主要都是政府性或新闻性的题材,其他专业领域的平行语料库则少之又 少,至于其他一些国际上不常用的语言间的平行语料库,也很难获得。 随着互联网的普及和迅速发展,越来越多的双语网站被创建,越来越多的信 息以多语言的形式发布,这就为双语或多语的语料库建设提供了资源。2 0 0 5 年 仅g o o 誉e 网站公布的网页搜索量就已经超过了8 0 亿。互联网是一个取之不尽, 日益增长的信息源,因此是一个潜在的巨大的多语种语料库。研究有效的方法从 互联网上自动挖掘这些海量的、真实的双语文本,无疑是解决双语语料库建设和 翻译知识获取难题的有效途径。 从应用上看,双语平行语料库在开展语言学基础和应用研究中发挥着愈来愈 重要的作用。目前,世界上许多国家和地区已相继建立或正在建立双语平行语料 库,但是双语平行语料库的建设在我国才刚刚起步。所以说,双语语料库的建设 代表了当今语言对比研究的发展趋势,对于促进语言对比研究和翻译研究,改进 天津师范大学硕士学位论文 外语教学( 例如通过大量语料进行词频统计,有利于词汇分级和确定各级学习者 的词汇量) ,提高翻译质量和改进双语词典的编纂等都具有深远的意义,还将为 双语信息检索和机器翻译等相关领域的开发产生重要的影响。 1 2 国内外研究现状 1 2 1 双语语料库建设 双语语料库的建设和应用研究得到了国内外研究者的广泛重视。国际上已经 出现了一些大规模双语语料库,如加拿大的议会会议录( c 锄a d i 趾h a l l s 矾s ) 是非 常著名的英法双语语料库,许多最初的基于双语语料的研究都是在该语料库基础 上进行的。在汉外双语语料建设方面,香港立法委员会的会议录( h o n 对沁n g h 锄s 讪) ,香港法律( h o n 学沁n gl a w s ) ,香港新闻( h o n 对n gn 唧s ) ,新华社 新闻( x i n b u an e w s ) 等是国际上广为应用的汉英双语语料库。可以看到,这些语 料库主要集中在政府文件和新闻法律等特殊领域,双语语料库的这种领域不平衡 性在一定程度上限制了相关研究在面向真实文本时的实际应用水平。虽然国内在 双语语料库建设方面起步较晚,但是近年来相关研究得到了许多研究机构的重 视,也取得了比较可观的进展。如北京大学计算语言学研究所开发了服务于新闻 领域机器翻译的b a b l e 汉英双语语料库。b a b l e 语料库历时约3 年时间实现了2 0 万句对齐( s e n t c c 舢i 舯m e n t ) 汉英双语语料库的采集和标注,是目前报道的 具有详细标注规范、规模最大的语料库之一。其它规模较大的双语语料库包括中 科院计算所开发的用于机器翻译评测2 0 万句对齐的汉英双语语料库;中科院自 动化所开发的1 4 万句对齐的汉英双语语料库;哈尔滨工业大学的l o 万句对齐的 汉英双语语料库等。此外,中科院软件所,清华大学,东北大学,南京师范大学, 国家语委等单位也建立了一定规模的汉英双语语料库。北京大学还建立了2 万句 对齐的汉日双语句对齐语料库。 目前关于双语语料库的建设和研究主要侧重于语料库的对齐加工标注,多级 自动对齐技术以及双语平行语料库在机器翻译和翻译知识获取等方面的应用技 术,而对大规模原始双语语料库的系统性构建这一前提性工作却关注较少。目前 报道的双语语料库主要来源于电子版书籍或报刊的双语文本,部分来源于互联网 2 天津师范大学硕士学位论文 上的双语文本,而在语料库的搜集和处理上大多依赖于人工挑选和判定。这种原 始语料库的获取方式大大限制了双语语料库的建设效率,制约了双语语料库在规 模、领域、语言对上的快速扩展,更是难以达到时效性的要求。各研究单位的中 小规模重复建设也消耗了大量的人力、物力和财力。因此,研究高效的,支持大 规模、多领域,可持续发展的双语资源库建设方案对于减轻人工搜集双语语料库 的困难,推动相关研究发展具有重要的实际意义。 1 2 2 基于w e b 的双语平行资源自动获取 近几年来,基于w c b 的翻译信息获取研究开始引起研究者的关注。目前研 究大多集中在翻译词典获取方面,如基于w e b 的命名实体翻译,未登陆词翻译, 术语翻译,短语翻译获取等。在基于w e b 的双语网页获取方面,也有一些研究 者进行了初步的探索,其中比较著名的研究是加拿大蒙特利尔大学的研究者聂建 云开发的系统盯m i n e r a p a m l l e lt e x tm i i l 砷( 参考文献【8 】) 和美国马里兰大学的研 究者r 蒯k 开发的系统s t ra n d ( s 仃u c t u m lt r a l l s l a t i o n 风煳鲥6 0 i l ,a c q u i r i n g n 删d a t a ) ( 参考文献 9 】、【1 0 】) 。他们所用的挖掘方法都是和具体的语言本身的 一些知识和特性无关的,而是基于对w e b 文档的结构( s t l l 】c t i l r e - b 弱e d ) 分析来 完成挖掘的,也就是说,用他们的方法可以挖掘w e b 上任意语言对之间对应的 平行语料库。他们的共同特点是利用现有的搜索引擎和双语网站中的语言标志作 为启发式信息( 如网站中的“e n 皿i s hv e f s i o n ,“中文版”等) 来获取候选双语平行 网站,然后再利用网页i j l 也地址的相似性( 如f i l ee h 缸】【l l 和6 l cc h 缸1 ) 来获取 双语平行网页。只是在具体的实现上稍有差异,像r e s i l i k 在u r l 匹配时采用了 功能强大的正则表达式匹配,而聂建云他们则只列举出了一些简单的文档的前后 缀来完成。还有另外一种挖掘方法,在网页的采集阶段是基于网页结构相似性的 ( 参考文献 1 1 】、【1 2 】) :通过追踪平行网页上的链接,分析网页之间的h n l l l 标签 结构( d o m 骶e ) 的相似性,再以链接中h t m l 结构相似的网页为种子,不断迭 代发现新的候选平行网页。基于双语平行网页的双语平行资源获取方法取得了很 好的效果,为平行语料库的自动获取提供了有效的解决方案。目前对于双语混合 网页的解决方案仍比较少,一种自适应模式学习的方法最近被提出( 参考文献 【1 3 】) ,该方法首先利用翻译和音译模型找到网页中的翻译词对作为种子,然后利 3 天津师范大学硕士学位论文 用种子学习泛化的模板,最后利用学习到的模板抽取网页中所有的双语平行数 据。目前大部分研究还只是实验阶段,获取双语网页的规模小,还没有真正用于 到大规模双语资源库建设中,并且获取句子级双语平行语料库的研究还处于初步 阶段,获取得到的双语句对的互翻译效果也不尽理想。目前这些工作还存在着一 些不足,需要进一步的研究和探索。 1 - 2 3 现有系统介绍 在基于w e b 的双语平行资源自动获取方面目前已有一个相对可行的获 取方案,国内外也出现了一系列的原型系统,接下来将详细介绍几个著名的系统, 并对其采用的技术与性能加以比较。 p t m i i l c r 加拿大蒙特利尔大学的研究者聂建云开发的系统p t m i n 盯( p a r a l l d t e x tm i i 埘) 。通过搜索引擎查找含有特定锚文本的网站构成双语候选网站,再 依赖预先定义的与语种相关的前后缀表,抽取出具有也命名相似性的候选网 页即如果某一u r l 含有一种语言的前后缀,则将这些前后缀替换为另一种语言 的,构建出一个u r l ,如果这样构建出来的u r l 存在。则找到了一对候选网页 对,最后再根据文本长度,网页的h t m l 标记结构,网页的语言等特征过滤掉 候选网页中不平行的网页对。p tm i i l e r 系统在中英平行网页文本挑出几百对的中 英平行网页对,经过人工的评价,有将近9 0 的准确率。获取到的英文文本有 1 3 7 m ,中文文本有1 1 7 m 。 s t ra n d 美国马里兰大学的研究者r e s n i l 【开发的系统s t r a n d ( s 们l c t l 珊l t r 锄s l a t i o nr e c o 班t i o n ,a c q u i r i n g na _ 哳a 1d a t a ) 也是利用搜索引擎和锚文本信息 得到双语候选网站。同p tm i n e r 相比,s t & 蝌d 在利用u r l 命名相似性来查找 一个网站内的候选网页对时,采取在中、英u r l 中删去预先定义与语言相关的 字符串的方式,如果去除语言相关的字串后,中、英u r l 相等,则说明当前的 中英u r l 是一对双语候选网页。此外,s t 乳心d 更加深入的研究了平行网页在 结构上具有的相似性,采用了一系列基于网页结构的特征来过滤掉双语候选网页 中不是互为翻译的网页对。人工评估了大约4 0 0 对的中英平行网页对,取得了 9 8 的准确率和6 1 的召回率。s t r a n d 系统获取到大约3 ,5 0 0 对中英平行网 页。 4 天津师范大学硕士学位论文 b i t s b i t s ( b i l i n g u a li n t e m e tt e 烈s e a r c l l ) ,这个系统c o m e n tb 部e d 的方 式来获取中英平行网页。首先下载指定域名下的所有网站作为候选网站,然后定 义了中英网页内容之间相似度的计算方式即计算互翻译词占文本总词数的比例, 最后为每个中文网页选择相似度最高的英文网页来构成来中英平行网页对。 p t i 澳大利亚莫纳什大学陈纪淞等人开发的p t i ( 1 1 1 ep a r a l l e lt e x t i d e l l c i 6 c a t i o ns y s t 锄) ( 参考文献【1 4 】) 通过网页采集器下载已知双语网站中大量的 双语网页之后,通过以下两个步骤来获取平行网页对。首先通过了文件名比较模 型即根据i j l 也命名的相似性来得到双语平行网页对( 原理同”删,然后对 剩下的不具备u r l 命名相似性的中英网页通过一个文件内容分析模型( 定义了 计算网页文本内容之间的相似度计算方式,类似b i t s ) ,抽取出互为翻译的网 页对。整合两个步骤得到的结果就得到了双语平行的网页对。p t i 系统总共获取 到1 9 3 对的中英平行文本,其中1 8 0 对是正确的,正确率为9 3 ,召回率为9 6 。 册d e 亚洲微软研究院的吴克等人开发的肿d e ( w 曲p 训l e ld a t a e x 缸僦i o n ) ( 参考文献 1 5 】) 在利用搜索引擎获取候选网站时,不仅利用了锚文本 还采用了图片的a l t 信息。在根据u r l 命名相似性获取候选双语平行网页对时, 采用将u r l 分成p a 吐m a m e 和b 舔e i l 锄e ,如图1 1 所示: w w w f a o o r g n e w s r o o m z l l f i e l d 2 0 0 5 i n d e ) 【- c h t m l ili b b b 饮t 这个命令读取 a a a 仅t 文件,从u t f 8 编码转换为曲2 3 1 2 编码,其输出定向到b b b 瞰文件。使用 i c o n v 命令需要事先知道原文件的编码,而w 曲文档的编码可以通过查找h 砌 源代码中的关键字“c h a r s 咖 来进行匹配。 饥c a :用它不仅可以转换编码,还可以查看文件的原始编码,使用上也比 i c o n v 方便一些,c a 用法如下: e i l c a l 吐c nj f i l e 检查文件的编码 饥c a l 吐c n xu ,i - f 86 l e 将文件编码转换为u r f 8 编码 e i l c a l 吐c n xu t f 8 矗l e 2 转换时不覆盖原文件 除了有检查文件编码的功能以外,e i l c a 还有一个好处就是不需要指定原文件 的编码只需指定目标编码即可,如果文件本来就是待转换的编码,也不会报错, 所以使用起来比i c 0 n v 方便。 1 9 天津师范大学硕士学位论文 4 3 网页噪声过滤 4 3 1 研究现状 网页噪声过滤也称网页内容抽取,是一个非常有意义的课题,它的主要任务 是发现网页中的有用信息,比如新闻网页中的有用信息就是新闻标题,正文部分 等内容,而导航条,广告栏等信息则被视为噪音信息。内容抽取已经在多个领域 获得了应用,典型代表有信息检索,网页数据挖掘,网页自适应、知识获取等。 早期的信息抽取主要基于包装器( w r 印p e r ) ( 参考文献【1 7 】) 来实现,内容抽 取通过一种半自动化的方式实现,需要人工来进行一些标注工作。一个包装器通 常执行一个模式匹配过程( 如某种有限自动机) ,匹配过程的依据是一组抽取规 则。该方法的一个很大的缺点是需要一定的人工干预,而且规则的通用性也常常 局限于特定网站。 在网页内容抽取领域,近年来一个比较流行的解决方案是由蛐( 参考文献 【1 8 】) 提出来的c n m c h 系统。c 眦c h 的主要思想不是直接去抽取网页的内容,而 是采用“去噪”的方式来去除网页的噪音部分。文章中针对网页中常见的噪音信 息,如广告,链接列表等制定了相对应的规则并建立了一系列的过滤器来实现对 噪音信息的过滤,进而实现了对网页内容的抽取。 c a i - n i c 0 1 勰z i e 西e r ( 参考文献 1 9 】) 将网页内容抽取变成分类问题。首先针对 网页的标签类型做针对性的处理从而将网页分成多个子块,之后对各个块进行特 征抽取,分别从语义信息和结构信息上选取了四个特征共八个特征作为块的特 征,然后依据这些特征和对应的阈值就可以判断一个网页块是否是内容块,从而 实现网页的内容抽取。在特征的阈值方面,作者使用p s o ( p a r t i c l es w 釉 c i p t i m i z e r ) 算法选取最佳阈值,从而实现了完全的自动化的处理过程。 t h o m a sg o t t r o n ( 参考文献 2 1 ) 提出了一种更新的网页抽取算法。该算法主要 基于这样的观察:网页的主体内容区域中所包含的文本很长且格式相近,体现在 源代码中就是文本长度很长,而且标签比较少。文章中引入了图像处理中的 b l 嘶n g 算法来处理内容抽取,取得了较好的效果。 在上述各个方法中,影响最大的是c r u n c h 系统,并且已经在实际应用中获 得了不错的效果。考虑到该系统的算法比较简单也很有效,本文也采用了类似的 天津师范大学硕士学位论文 思想,从“去噪的角度进行内容抽取,并且取得了不错的效果。 4 3 2 基于模板的方法 在候选资源获取环节中,我们是以网站为单位进行递归下载的。查看预处 理后的文本,发现每个网站的噪声各异,因为不同网站的编辑规则通常不同, 所以很难定义一组通用的规则来处理所有的候选网站。但是仔细观察,发现同 一个网站内部的噪声分布和内容是大致相似的,如图4 1 所示。 “c o p y r i g h to1 9 9 6 2 0 0 8s i n ac o r p o r a t i o n ,a 1 lr i g h t sr e s e r v e d ” ( 新浪) “中国国际广播电台国际在线版权所有0 1 9 9 7 2 0 0 7 ”( 国际在线) 图4 1 噪音模板示例 所以,我们想到一种基于模板的网页去噪声方法,在每个网站内部自动学习 一部噪声模板,然后每个网站分别参照自身特定的噪声模板进行过滤。 首先,我们对所有候选网页进行了预处理,采用基于规则( 预定义标签) 的 网页预处理方式。具体做法是预先定义一组h t n l l 噪声标签,比如标签 指示着 所有的链接内容,标签 s c 邱伊指示了脚本信息, 指示了图片信息等等。然 后根据预先定义的标签,构造正则表达式以查找这些标签的开始和结束位置,如 果预定义标签是缸【b i dt i d k 吼,那么 开始位置构造为:e x p r e s s i o n = ( ”+ f 0 而i dt o k e n + ”b ) ” 结束位置构造为:c x p r e s s i o n = 打( ,竹+ f 0 1 :b i dt o l 【m + 竹妯) 什 通过堆栈操作便可将这些标签去除并且同时去除标签之间的内容。此外,通 常正文文本相对较长,所以还可以设定文本长度将一些相对短的字符串去除,这 些短串通常也是噪声。最后再将所有的h 仃n l 标签 自身去除,从而将w 曲 文档转换成普通文本。 然后,对普通文本构造模板,具体算法如下: ( 1 ) 将每个网站内部的所有文本扫描一遍,抽取短行。这里短行的定义是小 于文本平均段落长度的行。 ( 2 ) 统计短行的行频,即统计每个短行出现的次数,从高到低排序。 ( 3 ) 将高频( 频率大于某一阈值) 短行记录为噪音集合c l 。 天津师范人学硕士学位论文 ( 4 ) 对中频短行进行最大公共子串提取,得到高频子串,记录为噪音集合c 2 。 ( 5 ) 对低频子串进行变换统计:空格或制表符s ,中文c ,英文e ,数字n ,得到 高频组合,记为噪音c 3 。比如网页噪声“编辑时间:2 0 0 9 0 4 - l o 对应着高频组 合“c c c c :n n n n n n n n 。 基于模板的网页去噪声算法流程如图4 2 所示。 图4 2 基于模板的网页去噪声算法流程图 最终,我们的噪音集合就是c = c 1 斗c 2 斗c 3 。 这种方法运用分而治之的思想,n 个网站就会自动生成n 个噪声模板,然后 每个网站就可以分别参照自身对应的噪音模板进行过滤了。 图 4 3 是 一 个未经过噪声过滤的网页 ( h t t p :、 n ) i 啊k e k e n e t 鲫l 恤a 舶7 0 32 一5 s h 乜n 1 ) ,采用基于模板的方法进行噪声过滤后, 得到结果如图4 4 所示。可见网页中的导航栏、图片和链接等噪音信息都被过滤 掉了,但是标题被保留了下来,因为标题“图文阅读:消逝中的遗产,中国”并 不是噪声模板中的内容。基于模板的方法速执行时间主要消耗在模板的学习过 程,如果一个网站中有一万个网页,则需要扫描一万个文本然后自动抽取噪声模 天津师范= j ;= 学硕士学位论文 板,但是得到模板后,网页噪音过滤的速度特别快,仅仅是简单的字符串匹配过 程。 图4 3 未经过噪声过滤网页 嘲读:褙逝中的遗产,中国 油h “ds 洲d 忏f e r i n 庐p i l 9 n eb a c r e de u e o l r e 0 f f e r i n 笋a tj “c h o r t e n ”a s ,p r e p ”et 0 l kh - n d r e 0 fs t e t _ p o t n ap n a c e u eh ft h ed a l | il ,i tt h e 打明t i r el i u e st oh a 雌t 0 p 即r t 帅l , 蠢寂颦霖! 辣留猎8 ”数百节雠脯他们* 在一座佛塔前焚烧常青植物“祭晶 删i ir 酬nt i b e t a nh 州帅a r i 呻t r a d i t i o n 缸r j c i 叩a t t i r eg a t h e r sh i e r 鲫 v i l l o 驴c o 呻e t i t i u t s i 如o fl b a s o ! 劈毛垂t 萨帮外的村庄,位藏旌的骑手身穿传统的赛马服装,他们相信这样的服饰能够在 匕赛前 幽44 基十模板的刚贝去噪声结粜 433 基于d o m 树的方法 基于模板的网页去噪声方法适用于以网站为单位进行组织的候选资源这种 天津师范大学硕士学位论文 方法并不适用于任意的单一网页,因为单一网页无法自动学习噪音模扳,所以我 们又实现了一种基于h h n l 标签结构的网页去噪声方法,这种方法具有普适性。 从视赏上,一个网页可以划分成若干个区域,有的包含着主题内容,而有的 则包含着噪音内容。网页分块的主要目的是发现网页的内容结构,挖掘网页内部 的语义层次关系,如图45 所示。网页可被划分成若干块,通常一个内容块中的 内容是紧密相关的,这就意味若我们可以以内容块为单位对网页中的内容进行取 舍。 苎堕型二! ! ! ! 竺 潮 m = # 自t * * 删自 蕊j = b b 一、一+ ,】i ,je 曦一 # z “j 埘目t g t + rh t 一hk - t 4 i 睦扩通团 & n ! i b * i ! ! 目哇五盘 d 啦# e l e r h 口鲢 i 口日t m 出a d a 盐 i 自# t ! j 圜 q 一 * 1 _ 一 m e g 目z e s e h ,g t i j g n 日2 e 峦 ! ;! 盟一i h l i + r e 一一。j d 4 碍日4 q pr i i i “_ i ,自on m 通辫 图4 5 同页分块示倒 网页去噪声过程可以分为两个步骤: ( 1 ) 网页内容结构的表示:将h 蛔l 文档映射成标签树。 ( 2 ) 阕页内容块的取舍:对d o m 树剪枝、分块。 h t m l 是一种标识语言,它定义了一套标签来刻画嘲页显示时的页面布局。 因此,对于h t m l 网页最常用的结构表示方法是构造网页的标签树。针对网页 噪声过滤的特殊需求,我们首先对h t m l 规范中的标签按照功能进行分类,进 而提出更加适合网页净化的标签树的构造方法。依据标签的作用可以将h t m l 标签分为两类:一类足规划网页布局的标签。在视觉上,网页是由若 二内容块组 成的,而内容块是由特定的标签( 称之为容器标签) 规划出的。常用的容器标签有 、 、 等。另类是描述显示特点的标签。除了描述 2 4 天津师范大学硕七学位论文 布局结构的标签外,h t m l 标准中还定义了一套标签来描述其包含的内容本身。 比如: 标签说明它所包含的内容要用粗体显示, 标签说明它包含的是 一个图片,等等。由于网页净化是以内容块为单位进行保留和删除的,因此,依 据容器标签构造标签树中的结点是较为合理的。标签树构造完成后,网页噪声过 滤过程就变为对标签树进行剪枝的过程。除了上述基本的标签信息外,我们还可 以归纳计算出以下描述性信息。 w 曲上的网页根据内容可以分为三类:有主题型网页、目录型网页和图片型 网页,三种网页的净化方法各不相同,本文主要实现的是对主题型网页进行噪声 过滤。具体实现包括以下五步: ( 1 ) 网页标准化:h 缸1 1 1 标签使用不规范,比如有“t l e ,没有钏e ,所 以需要补全结束标志。还要将把所有标签转化成小写等等。 ( 2 ) 构造标签树:将h 血l 标签序列转换成h 伽n 1 标签树。 ( 3 ) 对标签树剪枝:去掉g t y l e ,s 嘶p t ,h e a d 等对正文提取无
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 扶沟轻钢民宿施工方案
- 地板恢复施工方案怎么写
- 嘉兴学院《计算方法(I)》2023-2024学年第二学期期末试卷
- 校本课程如皋杖头木偶
- 湛江科技学院《儿童心理行为测评》2023-2024学年第一学期期末试卷
- 景德镇艺术职业大学《玉雕技法(2)》2023-2024学年第二学期期末试卷
- 上海电子信息职业技术学院《植物根际生态学》2023-2024学年第二学期期末试卷
- 2025林地租赁的合同协议书
- 湖南冶金职业技术学院《大数据与风险管理》2023-2024学年第一学期期末试卷
- 仰恩大学《中国现当代文学(四)》2023-2024学年第二学期期末试卷
- 多菌灵安全技术说明书
- 纪检监察工作使用表格目录
- 超声医学简答题(完全版)
- TSDPIA 05-2022 宠物猫砂通用技术规范
- 2023年河南工业和信息化职业学院单招面试题库及答案解析
- 国企治理三会一层详解
- GB/T 788-1999图书和杂志开本及其幅面尺寸
- GB/T 756-2010旋转电机圆柱形轴伸
- GB/T 6172.1-2000六角薄螺母
- GB/T 19189-2011压力容器用调质高强度钢板
- 公司合格供应商清单
评论
0/150
提交评论