利用分块重要度进行中文网页分类的研究.ppt_第1页
利用分块重要度进行中文网页分类的研究.ppt_第2页
利用分块重要度进行中文网页分类的研究.ppt_第3页
利用分块重要度进行中文网页分类的研究.ppt_第4页
利用分块重要度进行中文网页分类的研究.ppt_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

利用分块重要度进行中文网页分类的研究,段 昕 山东大学计算机学院,第1页,引 言,互联网的发展和信息量俱增使得人们对于主题网页(以下简称“网页”)自动分类的要求越来越迫切。 传统网页分类将整个网页看作一个原子单元进行整体处理,但是由于网页中一些“噪声”信息的存在,不仅增加了处理的复杂度,还影响了网页自动分类的效果,因而需要一种分类质量更高的网页分类方法。,第2页,网页分块,网页中的信息并不都是具有相同的重要度的,比如大字标题就要比导航条更加引人注目。网页中的不同信息由于所处的位置、占据的空间大小或者内容不同而具有不同的重要度。所以,我们可以将网页按照内容分块,利用分块的一些特征来进行网页分类,从而提高分类的质量。,第3页,第4页,网页分块方法(1),基于位置关系的分块法,利用网页页面的布局进行分块,将一个网页分成上、下、左、右和中间5个部分,再根据这5个部分的特征进行分类;,实际的网页结构要复杂得多,这种基于网页布局的方法并不能适用于所有的网页;,这种方法切分的网页粒度比较粗,有可能破坏网页本身的内在特征,难以充分包括真个网页的语义特征。,第5页,网页分块方法(2),基于文档对象模型(DOM)的分块法,找出网页HTML文档里的特定标签,利用标签项将HTML文档表示成一个DOM树的结构;,特定标签包括heading、table、paragraph和list等;,在许多情况下,文档对象模型不是用来表示网页内容结构的,所以利用它不能够准确地对网页中各分块的语义信息进行辨别。,第6页,网页分块方法(3),基于视觉特征网页分块法(VIPS),利用字体、颜色、大小等网页版面特征,根据一定的语义关联,将整个网页表示成一棵HTML DOM树;,利用横竖线条将DOM树节点所对应的分块在网页中分隔开来,构成网页的标准分块;,每个节点通过一致度(DOC)来衡量它与其它节点的语义相关性,从而将相关的分块聚集在一起;,利用预先设定的一致度(PDOC)作为阈值控制分割粒度,当所有网页的DOC都不小于PDOC时,网页分割就可以停止了。,第7页,网页分块重要度的标定,利用网页的空间和内容特征可以对分块进行重要度的标注,共分为4个级别:,级别一 广告、版权等噪声信息 级别二 导航条、网站目录等与网页标题相关 性不大但有一定用处的信息 级别三 与网页主题一致但并不是十分突出的 信息,如相关标题、标题索引等 级别四 大字标题、正文等 网页中最突出部 分的信息,第8页,第9页,实 验,为了检验利用网页分块技术进行中文主题网页分类的质量,我们将其与传统网页分类法进行了比较。选取政治、艺术、医药、体育、军事、经济、教育、交通、计算机、环境等10大类共计3000篇主题网页进行实验,其中训练集2000篇,测试集1000篇。,第10页,在进行特征提取时,采用了开方检验( test, CHI)特征提取法,计算特征项t和类别c的相关性如下:,第11页,分类时采用SVM分类器,核函数采用径向基函数: 最通用的判定规则是采用高斯函数:,第12页,实验描述,首先将整篇网页看作一个原子单元,在训练过程中,训练集实例经过中文分词和特征选取处理后被表示成向量形式,用来描述类别模式,在分类过程中使用。 在分类过程中,一个待分类的中文网页,经过中文分词并表示成向量后,应用分类算法与训练过程得到的类别模式逐一比较,得到候选类别列表,然后同训练过程中得到的每个类别的阈值相比较,保留大于阈值的类别,并作为该网页的分类结果。,第13页,实验描述,然后利用VIPS法对网页进行分块,并根据4条标准对分块进行标注,利用级别较高的分块提取文本,重复第一步工作,得到利用分块法的分类结果。,第14页,实验结果,在分类系统中,查全率和查准率反映了分类质量的两个不同方面,两者必须综合考虑,表示为F1测试值。本实验用F1值来衡量最终的分类质量。其中:,第15页,传统方法 分块方法,查全率(%) 查准率(%) F1(%) 查全率(%) 查准率(%) F1(%),政 治 93.413 89.143 91.228 95.210 92.442 93.806,艺 术 93.902 98.718 96.250 96.341 98.750 97.531,医 药 91.176 95.673 93.370 91.176 100.00 95.384,体 育 99.329 98.013 98.667 100.00 98.026 99.003,军 事 86.747 85.714 86.227 90.361 87.209 88.757,经 济 95.370 91.964 93.636 96.296 94.545 95.412,教 育 91.781 94.366 93.056 93.151 97.143 95.105,交 通 94.366 94.429 94.398 95.775 97.143 96.454,计算机 91.463 96.154 93.750 98.485 97.015 97.744,环 境 91.045 96.825 93.846 94.030 96.923 95.455,总体评估(F1) 94.004 95.503,第16页,两种分类法的分类质量(F1值)曲线:,第17页,实验分析,实验数据中,查准率和查全率的值都比较高,这是因为我们的实验中数据集数量不是很大,并且大多采用的是较为简单的网页,广告等噪声信息相对较少的缘故。也正是因为这个原因,造成两种分类方法的分类质量差异不如理想值(5%10%),但可以证明,基于分块重要度的网页分类法在分类质量上是要优于传统的网页分类法的。,第18页,实验分析,实验数据中,各类的F1值不太均衡,这跟每一类训练样本的数目有关。艺术、体育等类训练样本较多,则反映该类的特征就比较全面,SVM分类器通过学习获得的知识就比较多,所以其F1评估值就较高。而政治、军事等类,由于训练样本相对较少,分类器学习所得知识要少一些,从而影响了分类的质量,造成了F1评

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论