版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、整理课件基于结构与内容的网页主题信息提取研究 2006-7-21整理课件主要内容前言相关研究工作系统分层流程图映射表网页结构分析网页内容分析实验结果总结整理课件前言导航区交互区主题标签区主题文本区噪音区整理课件相关研究工作网页结构分析* DOM网页标记树法 * 页面显示实体坐标位置法 * 基于映射表的网页结构内容分析法整理课件提取层识别层分割层解析层顺序读文件映射表结构聚类网页区域解析器区域特征提取启发式规则区域识别语义区域内容量化滤除噪音网页主题信息网页主题信息提取分层流程图整理课件 HTML文档映射表主要是对头部和主体部分中文本条映射,即头部映射、文本条内容映射、文本条属性(视觉、结构、语
2、义)映射。对HTML文档提取关键信息从而生成关于HTML文档的内容属性映射表,即:f(Di ,in),其中Di为HTML文档集,Ti为对应的每个文档的内容属性映射表。 HTML网页映射表 整理课件类型字段名称描述头 部Title网页标题Keywords关键词Description网页内容描述 文本条属性TextAtrributeId属性标识号TextStructure文本条结构TextIsAHref有无超级链接TextCharCount文本条内字符的个数TextCharFontType文本条内字体的类型文本条内容TextContentId文本条内容标识号与属性标识号一致TextContent文
3、本条内容TextAHref文本条超级链接HTML网页映射表 整理课件网页结构分析结构生成 网页结构生成方法及表示形式* 基于栈的网页结构生成方法基于栈的网页结构生成方法* 语义字符串分级表示语义字符串分级表示 如A23123,其中A表示主体中第一个表格,如果网页中还有其他同层次表格分别记为B,C,D等,2、3分别为第一个表格的内嵌行标记、单元格标记;1表示第一个表格A的嵌套表格,2、3分别为嵌套表格行标记、单元格标记。 整理课件网页结构分析区域分割 ID网页结构网页内容8A23123123首页9A23123123关于我们10A23123123荣誉证书11A23123123产品展示21C2312
4、3123123产品列表22C23123123123摩托罗拉23C23123123123诺基24C23123123123索爱51C23123123123123产品名称:三星SGH-W21952C23123123123123产品型号:三星SGH-W21953C23123123123123产地:54C23123123123123付款方式:3860元整理课件网页区域特征 根据网页的区域结构布局特征,设页面P=(A1,A2An),其中网页区域Ai=(TextItemi1,TextItemi2 TextItemij),TextItemij=(TextAbttributeMap,TextContentMap
5、),TextAbttributeMap为文本条的结构、视觉和语义属性映射,TextContentMap为文本条内容映射。 在一个网页内,每个区域可以用5个变量来表达其语义特征: CountRatio:区域内有链接与无链接文本条内字符总个数的比值 LinkAvgCount:有链接文本条内字符的平均个数(均值) FormalDegree:字符的方差(方差) AvgCountDiff:无链接与有链接文本条内字符平均个数的差值 CharMaxCount:区域内文本条字符的最大个数。 整理课件启发式规则IF CountRatio2 AND LinkAvgCount=6 AND FormalDegree=
6、2 THEN Ai为导航区ELSE IF CountRatio0.5 OR(0.5=CountRatio=15 AND AvgCountDiff=5) THEN Ai为主题文本区ELSE Ai为主题标签区 启发式规则设计如下(规则中的数据是通过大量不同网页观察与实验得到) 整理课件网页内容分析区域内容量化 区域内容量化表示采用向量空间模型。向量空间模型(VSM)是一种较为常用的信息获取模型。对于一个网页各区域内向量权重计算,采用TF方法,如公式(1),其中tfi是第i个关键词在该区域中的出现频率,n为区域内关键词的个数。假设两个区域U,V,两者的相似度可用向量之间的夹角来度量,相似度计算如公式
7、(2)。Wi= njjitftf1(1) Sim(V,U)=cos(V,U) = nkuknkvknkukvkWWWW12121(2)整理课件 网页标题与网页的上一级链接文本,具有高度的主题概括性,将二者组成新的区域S,利用公式(1)计算S的特征向量的权重。 非主题相关标签过滤:利用公式(2)分别计算每一个主题标签区Ai与S的相似度,把高于相似度阈值的主题标签区保留,其余滤除。 版权区过滤:最后一个区域一般为版权区,通过在此区域查询 “版权所有”等文本向量,如果有,并且主题文本区不唯一,则将其滤除。 导航区过滤:判断如果区域Ai为导航区,直接将其滤除。 网页内容分析滤除噪音 整理课件实验 数据
8、集:为了验证我们方法的有效性,实验时分别从新浪、搜狐、雅虎、齐鲁热线等大型门户网站中人工挑选了500个有着复杂结构与分布的网页作为测试数据进行测试 。 评价标准:采用人工判断网页区域分割与识别结果和网页主题信息提取结果,其中500个网页一共分割出4205个区域,平均每个网页有8个区域。整理课件网页区域程序处理区域个数人工判别正确个数正确率导航区1851183199%主题标签区1261118594%主题文本区109397289%网页分割与识别结果Result of web pages segmentation and identification实验结果整理课件实验结果网页总数提取正确的网页数提取错误的网页数正确率5004346687% 网页主题信息提取结果 Result of web pages topical information extraction整理课件实验结果分析 实验结果表明该方法对大多数网页区域分割与识别结果和网页主题信息提取结果较好。区域分割与识别错误主要是由于网页HTML文档中不含及其内嵌标记,或者使用了此标记,但是由于设计者安排的内容有着特殊的作用,在主题文本区域内会有少量噪音。区域分割与识别结果决定了网页主题信息提取结果的好坏。整理课件总结 本文结合HTML网页内部特征与外部的结构布局,尝试了采用映射表这种网页映射模式对网页视图
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 4706.124-2024家用和类似用途电器的安全第124部分:商用真空包装器具的特殊要求
- GB/T 44783-2024大口径空间天文望远镜光学成像质量地面评价方法
- 图案形态课件教学课件
- 第二章 相互作用-力的合成与分解 2025年高考物理基础专项复习
- 5.2 课时2 共价键 分子间作用力 课件 高一上学期化学苏教版(2019)必修第一册
- 3.3盐类的水解 第一课时 课件高二上学期化学人教版(2019)选择性必修1
- 糖尿病与感染综合管理
- 糖尿病足换药技术
- 医药总监年度规划
- 白血病病人的护理讲课
- 汉语拼音默写表及拼读专练
- GB/T 625-2024化学试剂硫酸
- QCT1177-2022汽车空调用冷凝器
- 24春国家开放大学《学前儿童美术教育活动指导》期末大作业参考答案
- 数字化时代背景下教师角色的思考
- 和谐相处之道心理健康课件
- 医院应急演练:食物中毒
- 二年级数学22-分物游戏-优秀课件
- 2021版特种设备目录
- 中国综合卒中中心评分标准
- 3.14×1~100的乘法表格
评论
0/150
提交评论