第二讲搜索引擎及免费网络资源_第1页
第二讲搜索引擎及免费网络资源_第2页
第二讲搜索引擎及免费网络资源_第3页
第二讲搜索引擎及免费网络资源_第4页
第二讲搜索引擎及免费网络资源_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

搜索引擎及免费网络资源主要内容搜索引擎搜索引擎概论(发展\分类\排名)搜索引擎使用技巧百度资源利用GoogleScholar使用介绍免费网络资源(学术)与本学科相关的免费学术资源利用预印本系统与OpenAccess搜索引擎发展史1990ArchieAlanEmtageftp搜索系统蒙特利尔大学1994Yahoo超级目录索引WebCrawler杨致远DavidFilo深入人心1993ALIWEB系统网站自己提交索引信息Yahoo前身1993年底Spider搜索引擎出现19947月Lycos网页自动摘要1995元搜索引擎MetaCrawler199512月Altavista自然语言搜索高级搜索语法搜索引擎发展史1997天网ftp搜索主题搜索1998Google谢尔盖·布林拉里·佩奇Pagerank动态摘要网页快照等。1999Fast/AllTheWebODP自动分类2001Teoma自动分类的RefineBaidu最大中文发展史代表最早的搜索引擎出现在1994年4月。斯坦福大学的两名博士生,美籍华人杨致远和美国人DavidFilo共同创办了超级目录索引雅虎(Yahoo),并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。1998年,Google创始人谢尔盖·布林和拉里·佩奇,两位斯坦福大学计算机系的学生在宿舍里创建了互联网搜索引擎Google。发展史代表1999年底,怀抱“科技改变人们的生活”的梦想,李彦宏回国创办百度。经过多年努力,百度已经成为中国人最常使用的中文网站,全球最大的中文搜索引擎,同时也是全球最大的中文网站。2005年8月,百度在美国纳斯达克成功上市,成为全球资本市场最受关注的上市公司之一。

Google和Baidu的神话全球互联网搜索份额美国市场:Google占52% 是Yahoo的2倍,Msn的4倍英国市场:Google占有四分之三德国市场:Google占91%中国市场:Baidu+Google≥80%Google的市值已经超越800亿美元 超过世界上所有媒体公司(时代华纳)Baidu的市值50亿美元左右Google名字由来Baidu梦里寻他千百度“Googol”

10的100次方辛弃疾《青玉案元夕》创立在三年搜索引擎的合作研究技术基础上创立Google1998年两位StanfordUniv.的计算机专业博士生LarryPage和SergeyBrin两位携风险资金从硅谷回中国闯荡的年轻人李彦宏、徐勇2000年在李彦宏的专利搜索技术推出Baidu中文搜索引擎Baidu的神话2000年,两个年轻人李彦宏、徐勇携风险资金从硅谷回到中关村,推出Baidu中文搜索引擎2001年,为Sina、Sohu、Tom等提供搜索引擎2005年,在Nasdaq正式挂牌交易 李彦宏身价超过9亿美元。Baidu的今天百度是世界上规模最大的中文搜索引擎收录中文网页超过9000万拥有全球最大的中文网页库每天处理来自一百多个国家的超过一亿人次的搜索请求Google的神话1998年,两位StanfordUniv.的计算机专业博士生 LarryPage和SergeyBrin在三年合作研究搜索引擎的基础技术上创立了Google2000年,被Yahoo选作搜索引擎的东风,一飞冲天2004年,在Nasdaq正式挂牌交易2005年,股价多次突破300美元大关Google的今天日搜索量为2亿人次 支持80种语言 包括全球4亿幅图片和20多亿个网页最近一个月以来,用户登录Google的时间总计达到1300万小时出台中文的新闻搜索,它的优势开始向全方位发展了Google向Microsoft发出挑战MicrosoftPKGooglePC时代PKInternet时代 产品竞争人才竞争历史事件回放:2005年7月18日,微软全球副总裁李开复跳槽Google,担任中国区总裁Microsoft与Google的竞争 代表两个时代的竞争 PC时代vs互联网时代

李开复跳槽事件已经超出了微软与Google两家公司对一位技术人才的争夺本身。这是一场PC时代巨人和互联网时代巨人对于未来霸主地位的争夺预言——以微软为代表的PC时代正在加速没落,而Google正在显示一个新时代引领者的形象搜索引擎(SearchEngine)的定义搜索引擎是指通过网络搜索软件或网站登陆等方式,将互联网上大量网站的页面收集到本地,经过加工处理而建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。SearchEngine,常常是用户利用网上资源的第一途径。搜索引擎原理搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎也不能真正理解网页上的内容,它只能机械的匹配网页上的文字。基于目录索引的搜索引擎原理 实际上是按目录分类的网站链接列表网站所有者向搜索引擎提交网站,并人工填写网站简介信息,手工操作超级目录索引。 例如:yahoo

标准的搜索引擎工作原理从互联网抓取网页建立索引数据库检索排序自动信息收集功能定期搜索,派出spider程序对一定范围内的网站进行检索,发现新的或更新后的网站会自动提取网站信息加入数据库。网站所有者主动向搜索引擎提交网址,然后搜索引擎在一定时间内派出spider程序搜集有关信息加入数据库。(天网)检索与排序技术索引信息检索全文检索超链分析技术超链分析技术除了分析网页本身内容,还分析所有指向该网页的链接的url、文本甚至链接周围的文字。松花湖风光介绍A…….湖泊…………B…….湖泊…………C…….湖泊…………D…….湖泊…………E…….湖泊…………搜索引擎高级检索技巧利用“”的基本用法

检索类:「“”」语意:查询符合引号间的语句全体的网页资料(强迫搜寻完整词组)基本查询语法:「“关键词”」使用时机:当想要进行确定短语,而不进行自动关键词拆分的检索范例:”计算机系统模拟“作为完整的关键词来查询注意事项:无——「+」或「空格」的基本用法

检索类:「空格」或*语意:与基本查询语法:「关键词1」+「空格」+「关键词2」使用时机:想要查询两个关键词都包含的网页范例:苹果计算机或苹果*计算机可以找到有关苹果计算机相关资料的极大值例子:公路灾害预警系统「OR」的基本用法(适用google)

检索类:「OR」语意:或者基本查询语法:「关键词1」+「空格」+「OR」+「空格」+「关键词2」使用时机:查询与关键词1与关键词2的相关数据范例:四级ORCET4,会按照「四级」→「CET4」→「四级CET4」这样的检索词顺序显示检索结果注意事项:OR一定要大写「siteorInsite」的基本用法

检索类:site基本查询语法:「关键词」+「site」+「:」「网站名称」or「国别」使用时机:1.查询单一网站中的资料2.限定查询资料的网页国籍范例:CET4site:,在教育网中查找有关CET4的网页资源,或在新浪网站上查找嫦娥一号的相关内容:嫦娥一号site:注意事项:在查询的网站前面不可加上「http」以及「www」的网址部份连结的网页「inurl」的基本用法检索类:inurl基本查询语法:「inurl」+「:」+「关键词1」+「空格」+「关键词2」使用时机:想要更精确定位在网页中的资料,针对特定连结做搜寻范例:inurl:白桦林,检索出所有资源URL中含有白桦林的网页资源注意事项:其实质是URL字段对关键词的包含关系,「inurl」后面续接的关键词不可以有空格inurl,拆开来,就是inurl,它的作用是限定在url中搜索。URL,全称UniformResourceLocator,中文译为“统一资源定位器”,就是地址栏里的内容。

——「intitle」的基本用法

检索类:intiltle基本查询语法:「intitle」+「:」+「关键词1」+「空格」+「关键词2」使用时机:查询特定标题网页中的资料范例:intitle:免费软件下载,检索出所有资源网页Title中含有免费软件下载的网页资源注意事项:「intitle」检索语与关键词间不可以有空格「filetype」的基本用法

检索类:filetype基本查询语法:「filetype」+「:」+「档案类型」+「空格」+「关键词1」使用时机:查询特定类别的文献资料范例:filetype:DOC保先教育,检索出所有资源内容包含保先教育的Word文档资源注意事项:适用此检索方式之前,确定其网的文献资源的扩展名查找的文档类型“filetype:”是搜索引擎开发的非常强大实用的一个搜索语法。也就是说,搜索引擎不仅能搜索一般的文字页面,还能对某些二进制文档进行检索。目前,Google已经能检索微软的Office文档如.xls、.ppt、.doc,.rtf,WordPerfect文档,Lotus1-2-3文档,Adobe的.pdf文档,ShockWave的.swf文档(Flash动画)等。其中最实用的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。目前google检索的PDF文档大约有2500万左右,大约占所有索引的二进制文档数量的80%。PDF文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。例子数据仓库filetype:doc数据挖掘filetype:ppt网站策划书filetype:pdfFDIfiletype:pdfGoogle图片类型搜索Google支持不同格式的图片搜索Jpg\gif\bmp\png等例子:搜索嫦娥一号jpg格式的相关图片嫦娥一号filetype:jpg查找友情链接“link:”(英文单字link后加冒号)用于搜索链接到某个URL地址的网页。可以了解有哪些网页把链接指向你的网页。例如,“link:”表示搜索有链接指向《羊城晚报》的网页。link:百度部分功能百度指数百度行业报告百度新闻订阅百度学术资源图书搜索百科国学教育网站专利搜索文档搜索法律Google资源GoogleScholar通过GoogleScholar可以过滤掉普通搜索结果中的大量垃圾信息,帮助人们快速寻找各种学术资料,如专家评审文献、论文、书籍、预印本、摘要以及技术报告等。目前,Google公司与许多科学和学术出版商进行了合作,中文信息来源包括万方数据资源系统、维普、主要大学发表的学术期刊、公开的学术期刊、中国大学的论文以及网上可以搜索到的各类文章。

除公开免费的资源外,GoogleScholar搜索的文章大部分只能看到摘要信息,全文需要购买才能看到。GoogleScholar与Google相比之下的特点可通过作者检索检索某一作者发表的文章;可以限定文章发表的刊物;提供被检索文章的引用信息,说明一篇文章在学术文献中被引用的频率;提供检索文章的图书馆馆藏的链接信息;结果页面不包含广告GoogleScholar中文学术高级搜索举例查找2005以来论述HBV的相关文献检索结果查看文章的摘要信息查看引用该篇文章的文章信息链接中科院国家图书馆馆藏信息GoogleBooks二网上免费资源国家科技图书文献中心/newprint/index.jsp中国预印本系统/eprint/index.jspOpenAccess中文资源/英语开放期刊检索:/coop/cse?cx=004223467171690464973%3Acqqyzzlqjd8/中国计算机行业协会\学会//开放程序网站:/OpenAccessOpenAccess(简称“OA”)可译为“开放存取”、“开放获取”。本报告采用“开放获取”的汉译。“开放获取”是指“可以在公共因特网上免费地获取文献,允许任何的用户阅读、下载、复制、发布、打印和查找

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论