基于RSS信息采集技术的实际应用_第1页
基于RSS信息采集技术的实际应用_第2页
基于RSS信息采集技术的实际应用_第3页
基于RSS信息采集技术的实际应用_第4页
基于RSS信息采集技术的实际应用_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于RSS信息采集技术的实际应用院系:园林学院姓名:范轩豪学号:150205124内容摘要RSS是一种基于XML(可拓展标记语言)标准,在当下时代的互联网中人们广泛使用的内容包装和投递协议。RSS的优势在于它能够及时的描述或是打包原网站的更新或者更新中的某一部分然后再投递给使用者,是目前使用最广泛的XML应用。RSS构建了一个能够让信息得以迅速传播的平台,每个人都可以成为它潜在的信息提供者。例如当你发布一个RSS文件后,这个RSSFeed(后文中会有详细解释)中包含的信息就能直接被其他站点调用,而且由于这些数据都是标准的XML格式,所以也能在其他的终端和服务中使用,RSS现在有如下的三个解释:ReallySimpleSyndication;RDF(ResourceDescriptionFramework)SiteSummaryRichSiteSummary。但其实这三个解释都是指同一种Syndication的技术。(关于这三种解释的历史原因也会在下文中提及)RSS目前广泛用于网上新闻频道,blog和wiki,主要的版本有0.91,1.0,2.0。使用RSS订阅能更精准地获取信息,网站提供RSS输出,有利于让用户获取网站内容的最新更新。网络用户可以在客户端借助于支持RSS的聚合工具软件,在不打开网站内容页面的情况下阅读支持RSS输出的网站内容。关键词:RSS信息采集高效率目录引言2TOC\o"1-5"\h\z一、关于RSS2二、RSS版本类型3三、RSS的延伸4四、常见的使用RSS方式4五、如何使用RSS采集信息5参考文献6引言:信息具有时效性与动态性,其使用价值会随着时间的流逝而衰减,因此无论在任何时候,及时获取最新信息的重要性都毋庸置疑,毫无疑问,许多搜索引擎都可以为我们提供信息,但是与此同时,搜索引擎中信息真假优劣混杂,许多信息过时无法使用的问题同样也给信息采集者造成极大的困扰。据统计,一个科研人员花费在查找和消化科技资料上的时间需占全部科研时间的51%,其中计划思考占8%,实验研究占32%,书面总结占9%。由上述数字可以看出,信息采集过程是科研中非常重要并且无可替代的一环,而采集信息需要从外界的信息源中进行筛选,如前文所述,外界的信息源数量多,范围广,种类繁多鱼龙混杂,在大量的无用信息中筛选出所需要的信息会大大增加信息采集者的工作量,降低其工作效率。这篇论文会讨论RSS在信息采集中的优势以及告诉我们如何使用RSS技术来采集我们所需要的信息正文:.关于RSSRSS(ReallySimpleSyndication或RDFSiteSummary)是网络在线共享知识和信息的一种简单方式,它可以通过订阅的方式将源网址的更新呈递给订阅者,将订阅者从随时检查有无更新的麻烦中解放出来,同时,专一的信息输出也可以提高信息采集的效率。下面让我们更好的了解RSS,了解它相比于其他信息采集方式的优势之处RSS提供的是一种个性化的聚合方式,它根据用户的喜好定制内容,有着较强的针对性,减轻了人们在无穷无尽的信息海中筛选信息的麻烦。人们通常使用RSS订阅时效性比较强的信息,RSS的推送特性,决定了人们会从中采集到最新的信息,可以最大程度的避免用户因为采集到旧的或者过时的信息而犯错甚至造成不必要的损失。.RSS具有无垃圾信息,可以很方便的直接进行本地管理的特点,用户可以从定期得到的专一信息中进行方便的二次筛选,筛选出自己真正需要的信息,而这一切的过程都在自己本地进行,方便快捷而且十分安全,避免了当下网络上大量有害信息中所隐藏的病毒木马给自己的电脑所造成的安全隐患。.RSS的版本类型RSS现行的版本有0.91、1.0和2.0等。这与其历史发展有着密切的原因,早期的RSS是以新闻推送的形式存在,但很遗憾,这种新闻推送始终没有找到合适的商业模型,RSS也没有定下统一的标准,这里我们不作多余的赘述。然而后来新闻推送消失但RSS被保留了下来,再后来博客从一个专业群体开始,逐步成为了网络上最热门的新话题。而RSS成为了描述Blog主题和更新信息的基本方法。于是RSS这项久远的技术被著名Blogger/Geek戴夫温那(DaveWinner)的公司重新接手,开发新的版本,以适应新的网络应用需要。这种新的应用就是Blog,通过戴夫温那的努力,RSS升级到了0.91版,后来更是达到0.92版,并且也在各种Blog中得到了应用,被各种的专业新闻网站支持。但是在这广泛的应用过程中,专业人士们认识到需要建立一个有效的组织,把RSS发展成为一个通用规范,进一步标准化。一个联合小组根据W3c新一代的技术RDF对RSS进行了重新定义,并在此基础上发布了RSS1.0,RSS也被定义为“RDFSiteSummary”但由于这项工作没有与戴夫温那进行过有效的沟通,戴夫则坚持在自己设想的方向上进一步开发RSS的后续版本,也并不承认RSS1.0的有效性。RSS由此开始分化形成了RSS0.9x/2.0和RSS1.0两个阵营,也由此引起了在专业人群中的广泛争论。因为争论的存在,直到今天,RSS1.0仍然没有成为真正的标准。而戴夫温那却在2002年9月独自把RSS升级到了2.0版本,与之前版本定义完全不同,并没有任何RSS1.0的影子。这种行为引起众多人士的广泛争议,究竟是让一个这样一种普及度越来越高的数据格式成为一个开放标准,还是被一家公司所定义和控制,则成为了争议的焦点。RSS0.91和1.0版截然不同,而0.91版和2.0版则是有诸多相似之处。世界虽有很多种不同的RSS,但都是这两个重要的支干的分支。下面我们将对这两个版本进行简单的介绍RSS0.91是一种更为精简的RSS形式,由美国网景公司所发布,同时也是原创的排行第一的版本编号,该版本被称为RichSiteSummary但是相对其他版本而言比较不方便使用。RSS2.0.1是国内版本编号2.0。RSS2.0.1虽被声称冻结,但是依然可以在网页上快速下载,之后再声称没有后续版本编号。RSS现今代表着简易供稿系统。目前,大多数网站都可以兼容两种模式分支。.关于RSSFeedRSSReaderRSSSyndicationRSSAggregator和OPMLRSSFeed是一个用XML语言编写的文档,是对不同信息进行描述的元数据文档。信息的服务者为RSSFeed分配一个固定的网址,用户从中订阅,服务者则根据信息的变化情况及时修正文档内容。目前,绝大部分信息门户网站,如搜狐、新浪等,者B提供RSSFeed同时,博客和社区交流网站也提供RSSFeedRSSReade是可以接受RSSFeed±档的软件,形式从单机版到网络版不一而足,同时也支持多种平台,Windows、Linux、MacOS、PDA等操作系统下都能正常使用,使用者只要在RSSReade叶输入RSSFeed文档网址,并执行订阅功能,就可以接受到该网址定期发送的新信息。用户不需要再次打开RSS网站就能直接接收到更新的内容。RSSSyndication,即RSS的联合。由于RSSFeed中包含的信息都是标准的XML格式,其他站点或设备也可以直接调用,所以网站联盟希望通过互相调阅彼此的RSSFeed档案来自动显示网站联盟中其他站点上的最新信息,以供信息采集者使用。RSSAggregato诩于将多个RSSFeed放置在一起提供服务。通过RSSAggregator人们可以将多个RSSFeedM在一个界面实现阅读功能。PML(OutlineProcessorMarkupLanguage足大纲处理标记语言”,是一种构建在XML上的保存格式。在RSS中,实际就是订阅列表;使用OPML文件,可以实现RSS的批量订阅。OPML文件下载与网址很多有RSS服务的网址都会提供,方便用户添加到阅读器中实现批量订阅。.常见的使用RSS的方式RSS有其独特的使用方式,区别于传统搜索引擎所使用的DirectoryRobotMeta三种技术,RSS是一种更加多元化的搜索方式,与基于博客和社区的信息采集方法有些类似,但毫无疑问RSS技术具有更好的定制化功能,你可以完全根据自己的需求来进行RSS订阅,当你不需要的时候,同样也可以退订RSS以免麻烦自己的生活,下面就介绍两种常见的使用RSS的方式订阅blog可以订阅工作中所需的技术文章,也可以订阅与你有共同爱好的作者的blog。总之,想要订阅什么就可以订阅什么。这种订阅大多被应用于工作中,可以及时为信息采集者反馈最新的消息,免除了信息采集者随时去网页查看有无更新的麻烦,如果有新信息,RSS会自动推送给订阅用户。、订阅新闻无论是奇闻轶事、明星八卦、体坛咨询,只要是感兴趣的,都可以进行订阅。不需要一个网站一个网站,一个网页一个网页去寻找感兴趣的内容。只要这将你需要的内容订阅在一个RSS阅读器中,这些内容就会自动出现你的阅读器里,你也不必为了一个急切想知道的消息而不断的刷新网页,RSS阅读器会在有最新消息的第一时间自己通知你。.如何使用RSS采集信息上述内容中我们介绍了关于RSS的种种特点,但是如果不知道如何去通过RSS获取信息那么所说的一切都没有意义,而这恰恰是许多想想要使用RSS的人所不了解的,下面内容将就如何使用RSS给出一点帮助要订阅RSS内容要先在网页中安装一个RSS阅读器。然后将提供RSS服务的网站加入到RSS阅读器的频道。具体如下选择有彳/T值的RSS信息源(称作RSS源)。这个RSS源将是日后为你提供各种最新信息的源头启动RSS阅读器,将RSS源添加到自己的RSS阅读器或者在线RSS中,只有进行了这一步,推送的信息才能够在你的RSS阅读器中呈现出来接收并获取定制的RSS信息。当不需要继续接受消息的时候可以去网页取消定制的RSS信息这样以后就不会再有该网址的一切推送信息。结论:人类已经进入信息社会,在当今的社会,只要是正常人,就离不开对信息的采集,有时候这种采集时为了达到某种目的,更多的时候甚至只是在无意识中就已经进行了信息的采集,那么,掌握一种好的信息采集方式,无疑是对自身意义的升华,通过对这门课的学习,我不仅是对RSSW了更多的了解,更重要的是明白了信息采集的意义以及其必

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论