(计算机应用技术专业论文)中文网页形式自动分类.pdf_第1页
(计算机应用技术专业论文)中文网页形式自动分类.pdf_第2页
(计算机应用技术专业论文)中文网页形式自动分类.pdf_第3页
(计算机应用技术专业论文)中文网页形式自动分类.pdf_第4页
(计算机应用技术专业论文)中文网页形式自动分类.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 随着网络信息的急剧增长,在搜索引擎中使用确定的查询词检索时,返回结果一般 是一个庞大的相关文档集列表。如何从该列表中快速获得想要的信息就成为一个极具研 究价值的问题,解决该问题的一个重要途径就是对网页进行分类。目前对网页的分类研 究大多数是基于主题或内容的,但有时用户会倾向于按照页面的结构形式信息来浏览结 果集。因此,按形式分类也是一种有效的网页分类方式。目前网页形式分类技术还不够 成熟,特别是中文网页形式分类的研究工作刚刚起步。 本文对网页形式分类进行了深入研究,在此基础上给出了对网页形式分类的理解。 网页形式分类是基于网页的风格、形态和内容对网页进行分类的方法,它允许多类分类, 并允许一个页面隶属于多个类别。 本文参照英文形式分类的相关体系,完成了中文网页形式分类机制的构建。研究选 取1 1 种网络上常见的形式类别,利用基于p a g e r a n k 和锚文本的检索算法,从s e w m 2 0 0 6 提供的c w t 2 0 0 9 语料库中选取网页页面,在此基础上构建网页形式语料库。抽取特征 项时,根据网页形式类别的特征,从网页的u r l 中提取特征项,并利用页面中的风格、 形态和内容特征项,共同组成分类的特征项集合。采用样本决策方法对选定的特征项集 合进行合理性度量,过滤掉区分性不强的特征项,形成最终的分类特征项集。 本文设计了两组特征项集合,即浅层特征、深层特征项综合集和浅层特征项集,利 用s v m 进行分类比较实验。实验结果表明第一组分类精度略高于第二组分类精度,但 两者相差不大,平均精度都在8 0 以上。得到的结论是仅使用浅层特征项能获得与同时 使用深层特征项同样好的分类效果。实验并且证实了中文网页形式分类是可行的,具有 进一步研究的价值。 关键词:网页形式分类;特征提取;样本分布决策;支撵向量机 大连理工大学硕士学位论文 a u t o m a t i cg e n r ec l a s s i f i c a t i o no fc h i n e s ew e b p a g e s a b s t r a c t w i m t h e i n c r e a s e o f i n f o r m a t i o n o n t h e w e b a h u g e l i s t o f r e s u l t a n t w e b d o c u m e n t s w i l l r e t u r ni fs e a r c h i n gaq u e r yb yas e a r c he n g i n e i ti sd i m c u l tt of i n dd e s i r e di n f o r m a t i o n q u i c k l yo u to ft h er e t r i e v e dd o c u m e n t s o n ew a yt os o l v et h i sp r o b l e mi s t oc l a s s i f yw e b d o c u m e n t sa c c o r d i n gt ov a r i o u sc r i t e r i am o s tw e bc l a s s i f i c a t i o nh a sb e e nf o c u s e do na s u b j e c to rat o p i co f a w e bd o c u m e n t 。h o w e v e r , s o m e t i m e su s e r sm a yb ei n c l i n e dt ow a n tt h e d o c u m e n t sw i mc 圮r t a i ng e n r e t h e r e f o r e t h ew e bg e n r ei sa n o t h e rc r i t e r i o nt oc l a s s i f yw e b d o c u m e n t s h o w e v e r , t h i st e c h n o l o g yi sn o tm a t u r ee n o u g h ;e s p e c i a l l yc h i n e w e bg e n r e c l a s s i f i c a t i o ni sa tt h es t a r t sp a p e rg i v e st h ec o m p r e h e n s i o no fw e bg e n r ec l a s s i f i c a t i o nb a s e do nt h ei n - d e p t h r e s e a r c h w 砖g e n r ec l a s s i f i c a t i o ni sat a x o n o m yt h a ti n c o r p o r a t e st h es t y l e f o r ma n dc o n t e n t o ft h ed o c u m e n t , w h i c ha l l o w sm u l t i p l eg e n e sc l a s s i f i c a t i o na n dm a p sm u l t i p l eg e n e st oa s i n g l ed o c u m e n t 1 r h em a j o rc o n t r i b u t i o no ft h i sp a p e ri st op u tf o r w a r dt h ea u t o m a t i cs y s t e mo fc h i n e s e w e bg e n r ec l a s s i f i c a t i o n t h ef i r s ts t e pi st oc h o o s ew e bg e n r e sa n dt ob u i l du pt h er e l e v a n t w e bc o r p u sb a s e d0 nc w t 2 0 0 9 w h i c hi st h ee v a l u a t i o np l a t f o r mo fs e w m 2 0 0 6 t h es e x n n d s t e pi st og e tf e a t u r es e t sw h i c h c o n t a i nt h ef e a t u r e sc x 打a c tf r o mu r la n dt h es t y l e f o r ma n d c o n t e n ti n f o r m a t i o no fw e bd o c u m e n t s 。i nt h i ss t e p ,p a r a m e t r i cd i s t r i b u t i o nm e t h o di su s e dt o e v a l u a t et h ef e a t u r ei l lo r d e rt or e m o v et h ei r r e l e v a n tf e a t u r e s 1 1 1 es y s t e mu s e ss v mt oc l a s s i f yt h ec o r p u s ,t w of e a t u r es e t sa r ed e s i g n e dt 0f i n i s ht h e c o m p a r i s o no fc l a s s i f i c a t i o n 而ec o n c l u s i o ni st h a tt h ep r e c i s i o nb a s e do ns u r f a c ef e a t u r e si s a ss u c c e s s f u la st h ep r e c i s i o nb a s e do nd e e p e rs t r u c t u r a lp r o p e r t i e s t h ee x p e r i m e n ta c h i e v e s b e t t e rr e s u l t , w h i c hp r o v e st h a tg e n r ec l a s s i f i c a t i o no fc h i n e s ew e bp a g e si sf e a s i b l ea n dh a s t h e o r e t i c a lv a l u e k e yw o r d s :w e bg e n r ec l a s s i f i c a t i o n ;f e a t u r ee x t r a c t i o n ;p a r a m e t r i cd i s t r i b u t i o n m e t h o d ;s u p p o r tv e c t o rm a c h i n e i i i - 大连理工大学硕士学位论文 攻读硕士学位期间发表学术论文情况 1 】董静,林鸿飞,杨志豪中文网页形式自动分类第三届学生计算语言学研讨 会论文集,已发表 主办单位:中国中文信息学会 所属章节:论文第三、四、五章 【2 】刘菁菁,董静,叶正,林鸿飞基于锚文本相似度的链接算法研究郑州大学 学报( 国内刊号:c n 4 1 1 3 9 9 t ) ,己录用 主办单位:郑州大学 所属章节:论文第三章第二节 备注:本课题受国家自然科学基金资助( 6 0 3 7 3 0 9 5 ) 作为竞赛组主要成员参加了s e w m 2 0 0 5 中文w e b 信息检索评测。 作为竞赛组组长参加了s e w m 2 0 0 6 中文w e b 信息检索评测。 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名:j 塑 一i i i i i :2 型耋! 幽 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 作者签名:一麴 导师签名: 弛 互丛年旦月目 大连理工大学硕士学位论文 1 绪论 1 1 研究背景 随着互联网的普及,互联网上网页信息的数量正在呈指数级增长。对于网络中杂乱 无章的网页信息资源,人们很难从中准确、充分、快速地挖掘到有用信息。尽管搜索引 擎工具能帮助用户过滤网络中的部分信息,使用户可以利用搜索引擎找到针对特定查询 词的相关文档,但却存在一个困扰用户的问题。该问题就是给定一个确定的关键词查询, 一般会返回一个庞大的相关文档集列表,而其中大部分文档并不是用户所需的。因此需 要一种方法来更准确地确定某个文档是否能满足用户的检索需求。 用户的“检索需求”代表用户真正想要寻找的页面资源。基于这种考虑,可以对网 页进行分类,传统的分类方法都是基于主题来进行的,但是网页可能还会呈现出其他的 特性。用户可能想要寻找网络上某个确定的位置或站点,如某所学校关于某个事件的时 间表。有时候用户也希望获得某种特定版式的信息,如一篇出版了的技术论文、演讲稿 或者是一篇w o r d 文档和p d f 文档。这样说来,满足用户检索需求的文档,其相关性不 仅可以考虑主题,也可以考虑站点地址、地理位置和标题等等信息。 如何决定一个网页是否与检索需求相关是件很困难的事情,因为它是一个主观性的 判断。确定一个文档相关性的问题包括:页面所呈现的格式是否与需求一致;页面内容 体现的学术等级是否满足需求;理解页面的难易程度是否与用户的能力相符;等等。衡 量文档的相关性往往需要综合考虑文档的主题和形式上的特征。 确定相关性的一个重要因素是文档的形式特征。在目前技术下,网页可以成功地根 据主题进行分类,但是这样分类后每类网页的风格依然会存在很大的差异【“。例如,以 主题“禽流感”聚类得到的网页文档就存在很多不同的风格类型,如新闻性页面、图片 集页面、知识性页面等,而在搜索“禽流感”时,医学研究者可能需要关于“禽流感” 产生、防治的一些知识性页面;政府官员可能需要关于“禽流感”的新闻以了解当地的 疫情。虽然主题是一样的,但不同的用户想要的页面形式却是不尽相同的。因此,形式 分类是网页信息主题分类的一个基本扩展。 网页的形式分类不同于主题分类,它是综合网页的风格、形式和内容的分类方法。 目前关于形式方面的分类研究多是基于普通文本来进行的,网页形式分类方面的研究较 少。整体来看,网页形式分类研究还处于全面探索阶段,技术还不够成熟,尤其是针对 中文的研究更是刚刚起步。因此,在网页形式类别的确定、分类特征项的选择等方面都 存在很大的困难。但是,相对来说,国外的相关研究已经展开,我们可以参考利用他们 中文网页形式自动分类 在研究中的经验成果;加上传统汉语语言学界在文本形式的理论研究方面积累了很多经 验和成果;另外,计算语言学对于文本自动分类算法研究已经比较成熟,这些对我们的 研究都提供了帮助。本文就是在借鉴这些成果的基础上,对中文网页的形式分类迸行了 研究探索。 1 2 应用领域 传统分类法是以知识门类的划分来揭示和组织信息的,这种组织信息的方法符合人 类认识事物的逻辑思维方式。在网络环境下,分类法仍然是组织与揭示网络信息资源的 重要方法。它不仅适用于文本信息,而且能解决非文本信息、超文本信息等的组织与揭 示问题。国家信息产业部科学技术司2 0 0 1 年1 1 月在“网络信息分类系统”标准研讨会 上,对北京标杆网络技术公司提出的“网络信息分类系统”进行了认真的评议。认为标 杆公司的“网络信息分类系统”融知识分类、行业分类、产品分类和网站信息分类于一 体,覆盖所有行业、学科和政府公共管理部门,实现了分类语言与主题语言以及规范语 言与自然语言的融合。经过改进后,推荐作为网络信息分类组织的行业标准,即将网络 上的信息分为2 0 类:休闲娱乐、体育健身、医药卫生与健康、生活服务、旅游交通、 新闻媒体、计算机与因特网、聊天室与论坛、下载专区、教育就业、自然科学、社会科 学、人文科学、市场与经济、政法军事、国际和地区、时代、民族、参考资料和综合网 站【2 】。 上述分类体系不是惟一的网络信息分类体系,网络中的许多站点也都提供了网络分 类目录以供用户查询信息。如中文雅虎、搜狐、网易等国内比较有影响力的门户网站都 有自己的分类体系。它们的分类体系都是基于主题、当前的热点问题和用户的兴趣爱好 来建立的,分类体系的好坏能直接影响该网站的访问次数,与经济效益是直接挂钩的, 因此各个网站都致力于提供更方便用户浏览信息的网络分类目录。如新浪 ( h t t p :d i r i a s k e o m o 将所有的网页信息分为娱乐体闲、艺术、生活服务、文学、计算机与 互联网、体育健身等1 8 类。面对网络上海量的、杂乱无章的信息,自动分类技术可以 剔除和过滤无关信息,并使用户能较快的找到自己所需要的话题,这已经是目前广泛被 应用的一项技术。 网页分类除了能直接创造经济利益以外,还能在信息检索、文本生成等自然语言理 解过程中,有效解决存在的难题,产生更为深远的理论价值,启迪我们采用新的思路去 研究和探索。在针对网络的信息检索过程中,形式分类可以作为一种知识的组织工具, 提供更高效的搜索策略和协助它匹配更接近用户兴趣的有效查询结果。例如,用户可能 只关注个人主页类的网页信息,这样他在搜索的时候就会根据形式分类的目录只针对个 大连理工大学硕士学位论文 人主页类的信息进行检索,这样既节省了搜索时间,又大大提高了结果相对于用户的准 确度。此外,在搜索引擎中,网页形式分类可以作为内容分类的一种补充技术来体现用 户的检索需求。例如,用户在检索某个主题时,搜索引擎往往返回一个庞大的结果列表, 而这些并非全部是用户所需要的,用户可能只需要具有某种形式的页面,这时,如果对 搜索引擎返回的这个结果列表按照形式进行分类之后再呈现给用户,这样用户就可以根 据自己的喜好很快地找到相关的页面。网页形式分类研究的深入是中文信息自动处理的 理论系统不断发展和完善的毕经过程。在中文信息处理中收集开放的测试语料库时,形 式分类同时也可为语料库广度问题的改善提供指导。 1 3 本文的工作 中文网页形式分类尚处于初步试验系统验证阶段,本课题选用了计算语言学处理手 段以及知识发现的自动分类技术。由于国内关于网页形式分类的研究较少,本文主要借 鉴了国外网页形式分类的成果,并参考了国内外文本形式分类的一些研究成果,初步探 讨和实现了中文网页形式的自动分类机制,率先在国内实现了中文网页形式自动分类的 实验。 本文通过构建中文网页形式自动分类机制,对网络中普遍存在的几种形式类别进行 形式分类试验,验证了网页按形式自动分类的可行性。它的研究领域隶属于中文信息处 理,是网页分类的子课题,与网页的内容分类是并列的。另外,网页分类又与信息检索、 信息过滤、信息抽取、文本挖掘、问答系统等并列,同属于智能文本处理技术的理论分 支。 本文的工作主要聚焦在三个关键环节上,一是形式类别的确定和语料库的获取;二是 形式类别特征项选取的合理程度,三是分类算法的优劣。这三个环节执行的好坏,能够显 著影响网页形式自动分类的效果,甚至关系到整个研究过程的成败。其中,分类算法尽管 对于结果影响很大,但由于这方面的讨论和研究很多,技术也很成熟,所以我们直接使用 了计算语言学自动分类的技术成果,而没有对分类算法再进行更深入的研究和讨论。但是 另外两个问题则不然。首先对于形式类别的确定和语料库的获取,目前没有关于网页形式 分类的权威的分类体系,因此在类别确定和语料库获取时会有一定的困难;其次在特征项 选取上,由于相关的研究比较少,特别是针对中文的形式分类更少,而且形式分类与按照 内容分类的特征项选取有着截然不同的区别,所以我们不能采用内容、主题、领域自动分 类研究中的特征项选取方法,原先被这些理论研究中广泛使用的先分词,后统计,特征项 选用字或词的办法,在这里完全不适用。基于上述的分析,本文的工作重点就放到了形式 类别的确定、语料库的获取以及特征项的选择上面。 中文网页形式自动分类 最终本文提出的中文网页形式分类机制,是在建立的1 7 2 8 篇共1 1 种形式类别的语 料库基础之上进行的,其分类结果的精度基本达到了预期的效果,研究取得了初步成效, 它从实验的角度证实了这种机制在中文网页形式的自动分类中是可行的。 本文工作只是网页形式分类研究的一个初步尝试,其成果是极为有限的,接下来还 有更多的后续工作需要完成。比如,网页的形式类别需要有一个统一权威的描述;形式 类别语料库的获取也需要有更客观的标准:更合理的特征项需要挖掘和探索;网页形式 分类在搜索引擎、数字图书馆等更多领域的应用研究也需要进一步地探索。 1 4 本文的结构 论文共分为五章,详细阐述了中文网页形式分类的相关问题和中文网页形式分类机 制的设计、实现和评价,具体章节安排如下。 第一章绪论,综述了本研究课题的背景及应用领域,介绍了本文研究的主要工作和 论文的结构安排。 第二章,主要对网页形式分类的相关问题和国内外研究现状做出了阐述。 第三章,完成了网页形式类别的确定工作,介绍了本文网页形式语料库的构建方法 以及网页预处理的内容。 第四章,完成了特征项的抽取及预处理。主要包括特征项的选择,特征项的度量, 特征项的抽取和预处理等工作,并完成了本文实验中两组特征项集合的构建。 第五章,针对两组特征项集合,利用s v m 进行分类测试实验,并对测试结果进行 了全面分析,得出了具有借鉴意义的实验结论。 论文的总结,介绍了本课题的研究内容和主要工作,并阐述了实验结论及下一步的 工作。 大连理工大学硕士学位论文 2 网页形式分类相关知识及研究概述 2 1 网页形式分类的相关知识 网络信息检索的应用如搜索引擎一般依靠主题来匹配用户的检索需求,虽然这是我 们在浏览网络信息时首先想到的方式,但是由于网络上信息的急剧增长,只使用这种关 键词匹配的方法所得到的结果列表一般都很庞大。例如,利用搜索引擎g o o g l e ,以“自 然语言处理”为关键词进行查询,其返回结果就高达4 0 0 多万个。这样庞大的结果一定 不是用户希望得到的,用户在使用搜索引擎的时候希望得到的结果尽可能少且与自己的 查询要求尽可能相关。 在这种情况下,为了使搜索引擎返回的结果令人满意,我们有以下三种选择:使所 有用户学会如何书写表达更清晰更准确的查询;要求网页设计者在设计网页时附加额外 的信息;修改网络信息检索的应用,使之能从庞大的结果列表中区分出满足特定需求的 页面。 !对于第一个选择,不同的人群其写作表达能力的差别很大,如小孩、老人、写作很 差的人以及那些使用外语来搜索的人,让他们书写很精确的查询是不可能的事情;对于 第二个选择,强制网页设计者严格地按照某种规范编写网页也是个难题,因为网页设计 者的技术水平干差万别,况且目前已经存在的但不符合这些规则的那些网页不可能全部 转换过来。如果强制网页设计者按照某个框架来设计网页,那么由于需要更多的时间来 制作网页或者对想要什么内容感到迷茫,很多网页制作者的积极性就会受到影响,而我 们因此会丧失很多页面。这样看来,第二个选择也是不切实际的。 相对来说,第三种选择最现实也最容易被人接受,即优化网络信息检索应用,以使 其更准确地从获得的结果文档中区分出符合用户检索需求的页面。首先识别用户检索需 求中所需要的形式类别,然后找到满足这个形式类别的相关文档。“形式”这个词往往 用来描绘该文档的表达方式,并分析该文档的写作风格、版式、编排以及文档的内容。 2 2 1 网页形式分类基本概念 网页的“形式”是w e b 信息检索的一个重要方面。像r o u s s i n o v t 3 等人描述的,文 档的形式对用户评估文档的相关性、质量、有用性等有很大的价值。这个结论是通过1 8 4 个用户学习得到的。用户学习是指用户解释他们使用搜索引擎的目的,他们提供的形式 类别是检索时对他们最有价值的类别。e i s s e n 等人1 4 1 实施用户学习是为了确定搜索网络 时哪些形式类别是有用的。他们调查了2 8 6 个用户来确定其最喜欢的形式类别,最后得 到了8 种对用户最有帮助的类别:帮助页、文章、讨论页、商店、非个人描述页、个人 中文网页形式自动分类 描述页、链接集类和下载页。y a t e s 和s u m n e r 5 】也发现文档的形式可以帮助用户定位想 要的信息。 ( 1 ) 网页形式概念 我们所说的网页形式与普通文本中的体裁是相对应的,它们均主要考虑文章风格结构 方面的特性,而不仅仅考虑文章的内容。我们引用了国外的w i k i p e d i & c o m 网站关于体裁的 一个定义( w i k i p e d i a e o m 是世界上首家百科全书网站) 。他们的定义是这样的:“在艺术 中,体裁涉及艺术形式的传统界限,即单一的领域( 如文学作品、电影、音乐、绘画、雕 塑、演奏等) 区分于根据针对该类别的准则的各种类型的传统界限”。但是,由于万维网 是新近才发展起来的,且发展速度惊人,每天可能都在增加新的形式类别,因此,对于网 络文档,没有标准的传统界限可参考。 目前在信息检索中使用了网页形式这个词来描述网页文档,o r l i k o w s k i 等人定义形式 为“体现文档的形态和目的性的社会公认的规则”。k e s s l e r 等人【7 】则做了如下定义:形式 是通过交流上的目的或其它功能特性来定义的一种广泛的种类,定义并假设这些功能与某 些官方的或者大众化的线索有关系,且这种类别是可扩展的。r a u b e r n 定义形式分析为:在 一组给定的对象中识别出某些子群,而这些子群内部的各个个体拥有共同的传播形式、意 图和谈论特性。从上面的定义中可以看出,在术语“形式”的定义中出现的三个基本的概 念是:风格,形态和文档内容,而一篇文档的写作意图正是由这三方面来决定。另外考虑 到网页具有u r l 这个特殊的属性,而通过观察比较,这个属性与网页的形式不无关系,因 此在研究网页形式分类时,这个信息是不能忽略的。 下面是本文给出的关于网页形式分类的概念:网页形式分类是基于网页文档的风格、 形态、内容以及一定规则u r l 信息的分类方法,这种分类方法允许多类形式类别的模糊分 类,也允许一个文档隶属于多个类别。这个定义既承认了文档的四个主要的特征要素( u 也、 风格、形态和内容) ,又明确认可同一文档形式的多样性和文档的多类分类。 网页的u r l 是网页中的一个特殊信息,它一定程度上表明了网页属于什么性质的页面。 由于网页的u r l 独立于页面的内容而存在,因此将这类信息与其它的三种信息区分开来。 u r l 中体现的页面站点的域名,u r l 中出现的某些高频的字符串对网页形式类别的判断都 有帮助。 网页的风格描述了作品结构上的特征,比如标点符号的应用,不同长度词的应用以及 完整句子或短语的应用等。举例来说,假设要区分一篇技术性的文章和一首诗歌。技术性 文章可能会使用冒号和分号来延长句子,也可能较多地使用诸如“因此”、“此外”等连 一6 一 大连理工大学硕士学位论文 词,且书写时一般采用完整的句子格式。而对于诗歌,可能根本就不使用标点符号,并倾 向于使用短语来表达,且每行的长度可能会按一定的规则变化。 网页的形态涉及内容呈现的版式和编排。例如,新浪的主页( w w w s i n a c o r n ) 上包含大 量的超链接列表:而新闻类的页面通常包含由一些表格或者数据图界定的大量的成片文本; 教师主页一般会包括一些课程链接、出版物的列表,且通常在页面的顶部会有个人照片1 9 1 。 网页的内容涉及文档的实质。关于内容的分析是基于某种形式类别的文档中出现或不 出现某个词或某些对象如图像,视频,声音,导航条等。例如,很多的f a q 类页面的顶部 或者包含“f a q ”、“常见问题解答”类的词,而图像集类的网页中会出现大量的图片、声 音或视频信息。 由于在制作网页时没有严格的标准或规范可以遵循,因此,网络上的文档在风格和形 态方面存在着很大的差别。有些形式类别相对比较严格,比如出版在期刊上的学术论文, 通常这些论文需要遵循特定的格式,可能包括最大的程度,章节标题,统一的流程( 摘要、 介绍、总结、参考文献) 等。而有些类别几乎不遵循任何的规范,如个人主页类。也有介 于两者之间的类别,如演讲稿,在网页的呈现方式等方面有很大的差异。虽然人能很容易 的辨别出某页面是否为一篇演讲稿,但对于计算机来说却是很困难的。在这种情况下,分 析文档包含的链接文本、u r l 信息以及它们所链向页面的信息是非常重要的。 定义中另一个重要的方面是区分了形式和主题。文档的形式与主题是正交的,意味着 特定主题类的文档中可能会呈现出不同的形式特征,而相同形式类别的页面也会包含不同 的主题内容。文档的形式集中考虑文档的风格、形态和内容。例如,网络中的f a q 类别几 乎覆盖了所有的主题类别。 学者们在分析网页的形式时,也发现许多网页属于多个形式类别嘲【1 0 l 1 1 】。虽然许多文档 只隶属于唯一的形式类别,但依然有很多文档在网页的不同位置呈现出不同的形式特征。 例如,一个关于课程的页面会包含这个课程的信息;本学期的课程表、计划;讲师或助教 的联系信息;相关信息的链接列表。处理这类问题有三种方法:将文档分为多类;确定一 个主要的类别;将文档分为多个部分分别标以类别。虽然很多研究者追求使用最后一种方 法【1 2 】【1 3 】【1 4 1 ,但是将一篇网页文档分段是很困难的。另外确定某种形式类别需要具有哪些特 征是一个很主观的问题,这也成为了网页形式分类的一个难题。正如f i n n 等a t l 5 1 所提到的, 鉴别形式类别的分类方法是一个主观性的问题,用户对某个类别由哪些特征组成,或对形 式类别界定的标准可能会存在异议。y a t e s 等人【1 6 1 也提到,大多数普遍被公认的形式类别也 是最抽象的( 它们的规则、实质、形态是模糊的) 。 中文网页形式自动分类 c 形式类别 形式类别体系的确定是形式分类研究中的一项最基本的问题,如果不能建立合理的 形式类别体系,后面的工作也就无法进行。但是由于形式本身的难以界定性,目前尚没 有公共权威的形式类别体系可供参考,因此形式类别的确定是很棘手的问题。 传统语言学界对于普通文本体裁分类体系的讨论深刻,但分歧广泛。由于网络是新 生的事物,对于形式类别的讨论还较少,而且网络中的信息参差不齐,既有主要以大量 文字为主的主题性页面,又有主要以大量超链接为主的导航性页面,也有主要以图片为 主的图片集页面。这样,对网络中页面分门别类时需要全面考虑网页的这些形式。d c w e 等人【1 7 】将网络上的页面分为1 1 种形式类别,分别是:个人主页类、公共商业主页类、 交互式页面、新闻材料类、报告类、其它运行文本、常见问题解答类、链接集类、其它 列表表格类、讨论类和出错信息类。由于网络上的页面大都采用h t m l 编写,因此在 格式等方面不受语言的限制,因此我们在选取形式类别时参考了国外学者的研究成果, 在后面的章节中会做详细的介绍。 2 i 2 网页形式分类的相关问题 ( 1 ) 语料库问题 语料库如何选择才更为合理是个值得探讨的问题。网页语料库的构建者从公共的网 络资源中搜集到大量的网页文件后,将它们有组织地放置在一起,有的经过了人工编辑, 有的统一了格式,有的加入了标记符号,供实验系统来使用。其选取的语料库出发点不 同,导致的效果也截然不同。如果实验者按设定的理想条件来选取语料,那么就会有利 于排除干扰及提高精度,然而这样做的缺点是缺乏权威性,不便于统一比较和衡量。如 果语料接近真实世界文本,显然会加大实验干扰因素,导致解决问题的难度会成倍增加, 然而这样做的优点是实验结果真实性提高,有可信度。 一般来说,评价和考察一个语料库应该立足于多个角度,全面衡量,综合考虑。常 见的评价指标主要有语料库的加工程度和语料库的覆盖广度。一是关于语料库的加工程 度的讨论。首先,需要考虑语料库是否为未加工语料,也就是“生语料”,即既没有插 入人工标记,又没有其他人工预处理。其次,考察语料库是否为完整语料,即页面既不 受规定长度的限制,又没有遵照实验者所设定的条条框框来选择。最后,需要考察语料 是否直接来源于真实世界,也就是语料样本中可能存在的句法、词汇错误是否仍然保留, 而没有经过校对和处理。二是关于语料库覆盖广度的讨论。网页语料的广度,包括语域 广度和形式广度两个方面。有两个应该主要考虑的因素,首先足语料库的大小,即语料 中包含的网页页面总体所具备的字节大小,由页面内容的长度和个数决定;其次是语料 一8 一 大连理工大学硕士学位论文 库所选择语域种类的广度。目前主要有两种对立的学术见解:一种认为应该选择足够大 的语料库,少数支持大语料库的学者认为,只要语料库足够大,就可以弥补语域覆盖不 够广这个问题;一种认为应该选择足够平衡的语料库,即语料库中包含有网页数量相当 的各种语域种类。 本文实验时强调重视后一种观点,即认为应该充分考虑到语域广度问题,因为事实 上许多实验者更容易忽略第二个因素。如b i b e r 等人【1s 】统计了四种不同语域的文章中每 1 0 0 0 字篇幅中表现在句法结构特性上的平均值。如表2 1 所示。 表2 1 四种语域每1 0 0 0 字特征出现的平均频次值 t a b 2 1m e a nf r e q u e n c i e sp e r1 , 0 0 0w o r d si nf o u rr e g i s t e r s 从表中可以看出,不同语域的文章能够表现出完全不同的特性。因为通常实验人员 在搜集语料时,受到现实条件的局限,导致语料广度受限。 我们认为研究网页形式分类,有助于改善网页语料库广度的自动评价。在评价网页 主题、内容的自动分类体系中,通过网页形式的自动分类,可以简单判定网页形式的覆 盖广度。当然,有时为了实际应用需要和研究问题简化,一些研究者有意限定单一语域。 单语域问题的研究目前也有不少,比如,有些学者致力于研究新闻页面,知识类页面或 只包含大量链接的页面等。我们强调重视语料库的广度问题,并不是否认单领域问题和 受限问题研究的价值和可取性。 ( 2 ) 分类角度问题 网页的分类按照研究的角度不同,有多种分类体系。其中最常见的是按照网页的内 容进行分类,这种分类方法可以体现在大型门户网站上的分类目录上,这些分类目录大 都综合传统的分类标准和网络用户的需求来划分【1 9 】,注重实用性方面的要求。例如,搜 狐网站( h t t p :w w w s o g o u c o m d i r ) 将网络中的信息划分为1 6 个类目:娱乐休闲、工商经 济、公司企业、文学、体育健身、电脑网络、教育培训、卫生健康等。新浪网站将网络 中的信息划分为1 8 个类目:娱乐休闲、生活服务、教育就业、社会文化、求职招聘、 医疗健康、科学技术等。中文雅虎也将网络中的信息划分为休闲娱乐、生活服务、教育 中文网页形式自动分类 培训、旅游交通、电脑科技、健康与医药等多个类目。有些文献中还按照文字的分布情 况将网络中的信息划分为三类:主题型页面、目录型页面和图片页面。还可以按照网页 的形式将网页划分为个人主页、链接集合、常见问题解答页等。除了以上的分类方式外, 还可以按照站点、标题、页面的作者等来进行分类。 ( 3 ) 网页形式分类与网页分类的异同 我们通常说的网页分类一般指按网页的内容或者主题分类,但这里我们所说网页分 类的概念是广泛意义上的网页分类。 网页形式分类隶属于网页分类,它是网页分类的一个研究分支。网页形式分类只是 网页研究的一个方面,是网页分类的一个研究角度,它主要用于研究网页的外在表现形 式,而不单纯考虑页面的内容。而网页分类泛指一切关于网页分类的研究,包括主题分 类、站点分类、形式分类等各种分类研究。 网页形式分类与网页分类是部分和总体的关系,也是个别与一般的关系。所以,网 页形式分类与网页分类的理论基础是相同,一般可以直接使用网页分类的分类流程、分 类模型、分类算法和分类评估方法等等。常见的基于规则的分类、基于统计的分类、基 于神经网络的分类、基于知识的分类方法在研究过程中都可以被包括网页形式在内的各 种分类研究所采用。目前大多数的网页分类方法都是建立在语料库的统计概率基础上进 行的。 两者比较明显的区别主要集中在两点:分类体系和特征项的选取。分类体系的差别 是显而易见的,由于分类的角度不同,那么整个类别体系也必然不同。以网页形式分类 和网页主题分类为例。按网页形式分类的分类体系一般为常见问题解答、图像集类、链 接集类、个人主页类等,而按主题分类的分类体系一般为娱乐、财经、体育、科技等。 另外,在特征项的选取上,差别也比较明显。网页形式分类主要选用一些句法风格、结 构位置方面的特征项信息,而主题分类主要选用字、词作为特征项。 2 2 网页形式分类的研究概述 目前大部分的网页分类都是基于主题来进行的,基于形式的分类相对较少,且大部 分针对普通文本的形式风格进行。本节主要介绍网页形式分类的研究现状和发展前景。 由于网页形式分类与普通文本的体裁分类在分类特征上有共同点,两者都是挖掘文本结 构上的特征,只是两者针对的研究对象的特点不同。而普通文本体裁分类的研究相对较 多,因此我们将普通文本的体裁分类作为基础来研究。鉴于这个原因,我们首先讨论普 通文本体裁分类的研究情况。 大连理工大学硕士学位论文 2 2 1 文本体裁分类的研究 b i b e t i 埽】最早采用定量方法研究体裁,是风格统计学研究领域杰出的代表之一。他 的工作研究重点集中在文本的格式、外形分析上,主要方向是口头语与书面语的差别。 他通过6 7 个特征要素,即时态与外观标注、地点及时间副词、前置动词、介词短语、 形容词、副词、词汇特征、词汇类别( 比如避免正面回答、断然肯定的) 、语态、专用 动词类型、简约形式、不间断结构、被动、状态词形式、非独立从句、并列关系、疑问 旬等分析不同体裁文本的句法与词汇方面的特征,从而构造出下列维度:作者涉及在内 的作品信息类作品、叙述参与无叙述参与、精确参照情景附属的参照、公开措辞说服、 抽象信息非抽象信息、即时信息阐述等维度,直观地将体裁类别排列在多为空间内。 他提出的维度是通过对特征参数的协方差进行聚类后得到的。1 9 8 8 年的工作中他解释了 1 5 种形式4 8 1 个文本的语言特征变异,这些形式类别分别是印刷报告、社论、印刷评论、 宗教、大众常识、技能和爱好、传记和散文、政府文章、学术文章、小说( 一般、怪诞、 科幻、冒险、浪漫) 、幽默。b u r r o w s l 2 0 1 也是一位风格统计学研究的先驱。他选择了训 练语料中的5 0 个高频词,而后统计这些高频词在英语文本中发生的频次,并进一步提 出了统计高频词时的四个限制条件。这种方法的典型特点是计算代价小,并且对于作者 风格的识别比较有效。 后继学者对体裁分类有贡献的学者还有k e s s l e r 、s t a m a t a t o s 、d e w d n e y 、r a u b e r 、 k a r l g r e n 等人,他们对选取什么样的体裁特征项进行了实验比较和归纳总结。k e s s l e r t t l 认为利用浅层线索来分类体裁能够取得和深层线索一样好的结果。他把判别体裁的特征 项分为四种:句法结构线索、词汇线索、字符级线索、派生线索。他在实验中主要采用 了后三种共5 5 个线索。没有采用第一种线索的原因是结构线索需要标注和解析文本, 不便于处理。他们采用了报告体、社论体、科技体、法律体、非小说体、小说体六种体 裁类别,语料库规模为4 0 2 个手工分类的训练文本。使用了对数回归和人工神经网络作 为分类学习算法。分类精度前者在7 5 8 9 之间,后者在8 1 附近。 s t a m a t a t o s 等人】认识到需要一种容易在新领域传递的分类器。他们选用华尔街日 报的4 种体裁各4 0 篇文本作为语料库,选用的特征项集合是从b n c 中获得的5 0 个高 频词和8 个高频标点符号( 句号、逗号、冒号、分号、引号等) 。他指出标点符号包含 着界定体裁的非常有用的信息,能够提高文本体裁分类的效果,并指出在探测体裁时使 用部分停用词比使用高频词更有帮助。在分类时使用了判别分析作为分类算法。 d e w d e y 等人1 2 2 1 研究了形式在普通文本体裁分类中作用。他们在研究中使用了两类 特征项集:词汇包和句法布局方面的要素。后一类特征项集合中共有8 9 个特征项,包 括版面上的特征( 如行间隔、表格等) ,语言学上的特征( 如形容词等词性的使用、句 中文网页形式自动分类 子复杂性) ,动词时态,有限元素集合( 如星期几、十二宫图符号) 以及其他类( 如大 小写字符的使用) 。最后得出的结论是使用前一类特征项集合的效果不如后一类特征项 集合好。 r a u b e r 等人【8 1 选取了基于4 种类型的2 0 0 个特征项,包括文本复杂性( 由文本统计 量如每句中的平均单词数、平均词长、段数和句数来描述) ;特殊字符和标点符号的个 数( 用来决定文本的风格信息,包括标点符号、连字号、数学符号、版权、段落符号等) ; 能表示特征的关键词( 包括词汇包和停用词的分析) ,标记符号( 包括图像的个数、表 格、等式、参考文献等) 。 k a r l 辨n 等人【2 3 】在一个手工分类的布朗语料库中用大量的实验分析了不同体裁文本 的风格变异。他们选用的类别分为三个层次:信息类文章,又分为出版物( 报道类、社 论、评论) ,各种知识类( 宗教、技能和爱好、通俗知识、纯文学类) ,非小说类( 政 府报告、学术性文章) ;虚构类文章,即小说类( 通俗小说、神话、科技小说、西方文 学、传奇文学、诙谐小说) 。研究中使用的特征项有:字符数、长单词数、前置词数、 平均句长、句子数等,使用了判别分析来进行分类。研究中分析了在2 种类别、4 种类 别、l o 种类别( 不区分小说类下面的6 个子类) 、1 5 种类别下的分类精度,错误率依 次增大。他们在后续的工作中洲,分析了被检索到的和不被检索到的文档以及相关文档 和不相关文档之间的关系,使用简单的统计量如句长、词长以及句法复杂度如解析树的 平均深度等作为特征项。 国内关于这方面的研究较少,方鸷飞等人【2 5 】选用了五类典型文本体裁,即政论体、 文艺体、公务体、科技体和新闻体。他在研究中将特征项归纳为七种线索:句法结构线 索,文本符号线索,非字符线索,文本格式线索,深层分析级线索等,具体使用的特征 项有平均句长、感叹号频次、公文题目、情感象声词汇频次、政论词汇频次等1 3 个特 征项。实验采用了支撑向量机作为分类器,语料库使用搜集到的2 2 0 0 篇文本。 2 2 2 国外网页形式分类的研究 本节主要介绍关于国外网页形式分类方面的研究情况,这是由于国外的相关研究较 多,他们的研究成果值得我们借鉴。 1 9 9 7 年,b r e t a n 等人【2 6 】提出了关于在搜索引擎接口的检索结果的详细的描述。他们 的方法综合了主题聚类和形式聚类,并使用了词性信息和文本统计量作为特征项。用 c 4 5 算法进行训练,但是没有系统分类精度的相关报道。 关于网页形式分类的最早且较系统的研究是d e w e 等人【1 7 1 做出的。他们首先通过用 户学习将网络中的页面划分为个人主页类、交互式页面、链接集类、其他列表表格类、 大连理工大学硕士学位论文 错误信息类、报告类等1 1 种形式类别。分类语料库是从网络上检索一定数量的页面并 通过手工标注得到的。自动分类时,采用了b i b c r 在风格分类时用到的特征项,如人称 代词、强调旬等的频率;还使用了更通用的文本和形式相关的特征项,如数字的个数、 平

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论