基于机器学习的主题Web挖掘技术_第1页
基于机器学习的主题Web挖掘技术_第2页
基于机器学习的主题Web挖掘技术_第3页
基于机器学习的主题Web挖掘技术_第4页
基于机器学习的主题Web挖掘技术_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于机器学习的主题Web挖掘技术摘要:本文研究和分析了Web挖掘技术和机器学习理论。机器学习是人工智能领域的一个重要分支,它主要研究电脑怎样模拟或实现人类的学习行为,有目的地自动增进其性能,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能本中主要研究了机器学习理论,对机器学习的模型、分类、及发展历程作了介绍同时,对机器学习在Web挖掘领域的应用前景作了描述。Web页面重要性的计算是进行Web挖掘的一个重要问题本文在原有HITS算法的基础上,加入了内容相关度的计算,提出了一种新的计算页面重要性的算法一HITS算法。关键字:A: Web挖掘;B:机器学习;C :HITSThe T

2、echnology of Topical Web Mining Based on Machine LearningThis article studies and analyses Web Mining and Machine Learning.Machine Learning is an important branch of the field of artificial intelligenceThis paper presents the model of Machine Learning,classification,and the development process。Meanw

3、hile,chine Learning in the field of Web Mining application is described The calculation of Web pages authority radio is an important issue for Web MiningBased on the HITS algorithm,we advance a new algorithmfor calculating the importancethe WHITS algorithm Keylrords:A: Web Mining; B:Machine Learning

4、; A: HITS引言: 随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,获取潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。但当用户面对这个海量、异构、半结构化的信息库时,常常发现要查找到所需的信息要消耗大量的时间和精力,甚至难以找到,造成了“信息过载、知识匮乏”的现象。主题Web挖掘是近几年内兴起的一个被广泛关注的研究课题。它利用主题页面在Web上的分布特点,根据用户或系统定义的目标主题,以智能的方法在线爬行Web页面,收集与目标主题相关的页面,并对收集到的页面进行智能分析和处理,最后将处理的页面集合以灵活方便的检索方式提供应用户使用。许多项目的研究

5、结果说明,主题Web挖掘方法能够保持较高的主题相关度,提高查询的精度这为提高用户查询效率,提供了一个新的研究方向1.绪论11研究背景随着因特网(Internet)的迅速发展,网络对我们的影响已经越来越大,日渐成为人们获得信息的必要途径和重要手段而在网上发展最为迅猛的WWW(World Wide Web)技术,以其直观、方便的使用方式和丰富的表达能力,己经发展成为一个全球化信息发展空间。随着信息时代的到来和发展,Web上的信息如雨后春笋般迅速增长起来。2007年23日, 中国互联网络信息中心(CNNIC)在北京发布第十九次中国互联网络发展状况统计报告。报告显示,截止到2006年12月31日,我国

6、网民人数到达了13700万人,与去年同期相比增长了234,其中宽带上网网民人数己突破一亿目前,我国网民数和宽居世界第二”然而面对这个分散无序的海量信息库,Web用户经常发现难以找到能满足他们需要的息,造成“信息过载,知识匮乏”的现状一方面网上的信息多种多样、丰富多彩,一方面用户却找不到他们所需要信息这一矛盾的主要原因是人们在如此大的信息库里, 很难用浏览的方式找到自己所需的信息。这一现象促使一种以Web搜索引擎为主的,用于提取网络有效资源的信息检索技术应运而生了。Google,Infoseek,Baidu,AltaVista、天网等国内外知名的搜索引擎正是人们为了解决网上信息检索的难题,而在信

7、息检索领域进行大量研究后的成果。12 Web挖掘与相关研究内容Web挖掘1就是从Web页面和Web用户访问活动中发现、抽取感兴趣的潜在的模式和隐藏的信息。它是以从Web上挖掘有用知识为目标,以数据挖掘、文本挖掘、体挖掘为基础,并综合运用电脑网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术,将传统的数据挖掘技术与Web结合起来的一门新兴学科。介绍一下Web挖掘相关领域的研究,以及它们与Web挖掘的联系。2.Web挖掘理论简介万维网作为一个巨大的、分布广泛的全球性信息服务中心,服务内容不仅涉及新闻、消费信息、金融管理、教育、政府、电子商务等许多其它服务信息,而且还包括丰富的超

8、链接信息,和访问信息。一人们将数据挖掘技术应用到半结构化的Web数据上,使其能够针对Web数据的特点进行知识发现,这为数据挖掘开辟一个新的研究领域,即Web挖掘。21 Web挖掘的定义Web挖掘睁”1是一项综合技术,涉及Web、数据挖掘、电脑语言学、信息学等多个领域。不同研究者从自身的研究领域出发,对Web挖掘的含义有着不同的理解。例如,有些专家认为:Web挖掘就是利用数据挖掘技术,自动地从网络文档以及服务中发现和抽取信息的过程。有些学者将网络环境下的数据挖掘归入网络信息检索和网络信息内容的开发。而有些专家从电脑语言学角度考虑,认为Web文档为自然语言理解提供了丰富的语料,可以从中自动地学习词

9、语的意义,以进行词义辨析或确定词语所属的概念Web挖掘以万维网上的资源(如网页内容、Web网站结构、用户访问数据等)作为数据源,是数据挖掘在Web上的应用所以,Web挖掘的定义为从与w孵相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息。典型Web挖掘隅“1的处理流程包括如下四个步骤:资源发现、信息选择和预处理、模式发现、模式分析。(1)资源发现系统使用网络爬虫在线收集Web文档,并从中得到相应数据。值得注意的是信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组、网站的日志数据,甚至是通过Web形成的交易数据库中的数据。(2)信息选择和预处理系统从取得的Web资源中剔除无用信息

10、,并将信息进行必要的整理例如Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段、将数据组织成规整的逻辑形式、英文单词的词干提取、高额低频词的过滤等。(3)模式发现系统自动地进行模式发现,可以在同一个站点内部或多个站点之间进行,以自动发现Web站点的共有模式。(4)模式分析系统验证并解释上一步骤产生的模式,对其进行可视化表示。可以是机器自动完成,也可以是与分析人员进行交互完成。3.机器学习理论简介机器学习是人工智能领域的一个重要分支,它主要研究电脑怎样模拟或实现人类的学习行为,有目的地自动增进其性能,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。学习是人类

11、具有的一种重要智能行为,机器学习的核心内容就是学习。学习是一种多侧面、综合性的心理活动,它与记忆、思维、知觉、感觉等多种心理行为都有着密切的联系,使得人们难以把握学习的机理与实现。目前,国内外关于学习还没有一个精确、公认的定义。其中,影响较大的是H Simor的观点:学习是系统中的任何改良行为,这种改良使得系统在重复同样的工作或进行类似的工作时,能完成得更好。学习的基本模型就是基于这一观点建立起来的当一个电脑系统在一段时间内,能自行改良而提高问题求解的能力,我们则称该系统具备学习能力。这种性能的提高可表现在多个方面,如加快解决问题的速度、处理范围的扩张、运算精度的提高等4.总结与展望随着网络信

12、息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,获取潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。Web挖掘技术以Web资源为研究对象,挖掘Web中有趣的,潜在的、有用的模式及隐藏的信息。这为提高用户的查询效率,提供了一个新的研究方向 本文研究和分析了Web挖掘技术和机器学习理论。Web挖掘根据挖掘对象的不同被分为三大类,Web内容挖掘、Web结构挖掘、Web使用记录挖掘主题Web挖掘则是利用主题页面在Web上的分布特点,以智能的方法收集与目标主题相关的页面,并对收集到的页面进行智能分析和处理。Web爬虫是一类可以通过下载Web页面、分析页面内容、并跟随其中的链

13、接来递归的遍历Web的电脑程序。如何有效地控制爬虫爬行策略是影响Web挖掘是否成功的最重要因素之一本文结合强化学习和贝叶斯学习技术,引入反例样本学习理念。提出一种新的主题爬虫爬行策略。实验证明该策略能有效的提高查询的查准率同时对于系统收集起来的主题页面进行进一步的筛选,利用Web页面问的结构特征,计算主题页面的重要性和Hub性,从而使那些与主题相关且重要的页面被反应给用户在此基础上,本文提出了基于机器学习的主题Web资源挖掘系统的概念设计,并对各个模块的作用进行了介绍。该系统能够根据用户的查询请求进行页面收集,对收集到的页面计算其重要性,最后把主题相关且重要的页面反应给用户同时,可根据用户的反应信息,进行进一步的系统调整参考文献1中国互联网络信息中心:中国互联网络发展状况统计报告(2007年1月2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论