基于结构与内容的网页主题信息提取研究_第1页
基于结构与内容的网页主题信息提取研究_第2页
基于结构与内容的网页主题信息提取研究_第3页
基于结构与内容的网页主题信息提取研究_第4页
基于结构与内容的网页主题信息提取研究_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于结构与内容的网页主题信息提取研究,作者:吴鹏飞,孟祥增,刘俊晓,马凤娟,2006-7-21,山东师范大学传播学院,宣讲:吴鹏飞邮箱:wupengfei_2000,主要内容,前言相关研究工作系统分层流程图映射表网页结构分析网页内容分析实验结果总结,前言,导航区,交互区,主题标签区,主题文本区,噪音区,相关研究工作网页结构分析,*DOM网页标记树法,*页面显示实体坐标位置法,*基于映射表的网页结构内容分析法,网页主题信息提取分层流程图,HTML文档映射表主要是对头部和主体部分中文本条映射,即头部映射、文本条内容映射、文本条属性(视觉、结构、语义)映射。对HTML文档提取关键信息从而生成关于HTML文档的内容属性映射表,即:f(Di,in),其中Di为HTML文档集,Ti为对应的每个文档的内容属性映射表。,HTML网页映射表,表1HTML网页映射表Tab.1MappingtableofHTMLpage,HTML网页映射表,网页结构分析结构生成,网页结构生成方法及表示形式,*基于栈的网页结构生成方法,*语义字符串分级表示,如A23123,其中A表示主体中第一个表格,如果网页中还有其他同层次表格分别记为B,C,D等,2、3分别为第一个表格的内嵌行标记、单元格标记;1表示第一个表格A的嵌套表格,2、3分别为嵌套表格行标记、单元格标记。,网页结构分析区域分割,网页区域特征,根据网页的区域结构布局特征,设页面P=(A1,A2An),其中网页区域Ai=(TextItemi1,TextItemi2TextItemij),TextItemij=(TextAbttributeMap,TextContentMap),TextAbttributeMap为文本条的结构、视觉和语义属性映射,TextContentMap为文本条内容映射。在一个网页内,每个区域可以用5个变量来表达其语义特征:CountRatio:区域内有链接与无链接文本条内字符总个数的比值LinkAvgCount:有链接文本条内字符的平均个数(均值)FormalDegree:字符的方差(方差)AvgCountDiff:无链接与有链接文本条内字符平均个数的差值CharMaxCount:区域内文本条字符的最大个数。,启发式规则,IFCountRatio2ANDLinkAvgCount=15ANDAvgCountDiff=5)THENAi为主题文本区ELSEAi为主题标签区,启发式规则设计如下(规则中的数据是通过大量不同网页观察与实验得到),网页内容分析区域内容量化,区域内容量化表示采用向量空间模型。向量空间模型(VSM)是一种较为常用的信息获取模型。对于一个网页各区域内向量权重计算,采用TF方法,如公式(1),其中tfi是第i个关键词在该区域中的出现频率,n为区域内关键词的个数。假设两个区域U,V,两者的相似度可用向量之间的夹角来度量,相似度计算如公式(2)。,Wi=,(1),Sim(V,U)=cos(V,U)=,(2),网页标题与网页的上一级链接文本,具有高度的主题概括性,将二者组成新的区域S,利用公式(1)计算S的特征向量的权重。非主题相关标签过滤:利用公式(2)分别计算每一个主题标签区Ai与S的相似度,把高于相似度阈值的主题标签区保留,其余滤除。版权区过滤:最后一个区域一般为版权区,通过在此区域查询“版权所有”等文本向量,如果有,并且主题文本区不唯一,则将其滤除。导航区过滤:判断如果区域Ai为导航区,直接将其滤除。,网页内容分析滤除噪音,实验,数据集:为了验证我们方法的有效性,实验时分别从新浪、搜狐、雅虎、齐鲁热线等大型门户网站中人工挑选了500个有着复杂结构与分布的网页作为测试数据进行测试。,评价标准:采用人工判断网页区域分割与识别结果和网页主题信息提取结果,其中500个网页一共分割出4205个区域,平均每个网页有8个区域。,网页分割与识别结果Resultofwebpagessegmentationandidentification,实验结果,实验结果,网页主题信息提取结果Resultofwebpagestopicalinformationextraction,实验结果分析,实验结果表明该方法对大多数网页区域分割与识别结果和网页主题信息提取结果较好。区域分割与识别错误主要是由于网页HTML文档中不含及其内嵌标记,或者使用了此标记,但是由于设计者安排的内容有着特殊的作用,在主题文本区域内会有少量噪音。区域分割与识别结果决定了网页主题信息提取结果的好坏。,总结,本文结合HTML网页内部特征与外部的结构布局,尝试了采用映射表这种网页映射模式对网页视图进行变换,基于结构与启发式规则对网页进行区域分割与识别,并利用向量空间模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论