信息搜索及文本处理(共18页)_第1页
信息搜索及文本处理(共18页)_第2页
信息搜索及文本处理(共18页)_第3页
信息搜索及文本处理(共18页)_第4页
信息搜索及文本处理(共18页)_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、江苏省苏州市实验中学 高一(6) 娄之正 PAGE 29 目录(ml) TOC o 1-3 p h z HYPERLINK l _Toc430854796 壹 PAGEREF _Toc430854796 h 3 HYPERLINK l _Toc430854797 1.搜索引擎的历史(lsh) PAGEREF _Toc430854797 h 3 HYPERLINK l _Toc430854798 2.搜索引擎的发展(fzhn) PAGEREF _Toc430854798 h 7 HYPERLINK l _Toc430854799 第一阶段:分类目录时代(人工时代) PAGEREF _Toc430

2、854799 h 7 HYPERLINK l _Toc430854800 第二阶段:文本检索时代(海量自动获取与排序清单) PAGEREF _Toc430854800 h 7 HYPERLINK l _Toc430854801 第三阶段:整合分析时代(立体搜索与结果整合) PAGEREF _Toc430854801 h 7 HYPERLINK l _Toc430854802 第四阶段:用户中心时代(以移动互联网为标志的个人需求精准搜索) PAGEREF _Toc430854802 h 7 HYPERLINK l _Toc430854803 第五阶段:生活生态圈搜索时代(以物联网为标志的实体搜索

3、) PAGEREF _Toc430854803 h 8 HYPERLINK l _Toc430854804 贰 PAGEREF _Toc430854804 h 9 HYPERLINK l _Toc430854805 1搜索引擎的分类 PAGEREF _Toc430854805 h 9 HYPERLINK l _Toc430854806 1.全文索引 PAGEREF _Toc430854806 h 9 HYPERLINK l _Toc430854807 2.目录索引 PAGEREF _Toc430854807 h 9 HYPERLINK l _Toc430854808 2.搜索引擎的工作原理 P

4、AGEREF _Toc430854808 h 11 HYPERLINK l _Toc430854809 1抓取网页。 PAGEREF _Toc430854809 h 11 HYPERLINK l _Toc430854810 2处理网页。 PAGEREF _Toc430854810 h 11 HYPERLINK l _Toc430854811 3提供检索服务。 PAGEREF _Toc430854811 h 11 HYPERLINK l _Toc430854812 叁 PAGEREF _Toc430854812 h 12 HYPERLINK l _Toc430854813 1.苏州笔记本厂家 P

5、AGEREF _Toc430854813 h 12 HYPERLINK l _Toc430854814 1.苏州精本堂文具礼品有限公司(yu xin n s) PAGEREF _Toc430854814 h 12 HYPERLINK l _Toc430854815 2.苏州奥佳文具礼品有限公司(yu xin n s) PAGEREF _Toc430854815 h 12 HYPERLINK l _Toc430854816 2.苏州福鑫堂文具礼品有限公司(yu xin n s) PAGEREF _Toc430854816 h 13 HYPERLINK l _Toc430854817 2.关于“马

6、”的濒危动物 PAGEREF _Toc430854817 h 14 HYPERLINK l _Toc430854818 1.格利威斑马 PAGEREF _Toc430854818 h 14 HYPERLINK l _Toc430854819 2.山斑马 PAGEREF _Toc430854819 h 14 HYPERLINK l _Toc430854820 3.马鹿 PAGEREF _Toc430854820 h 15壹1.搜索引擎的历史1990年以前,没有任何人能搜索互联网。 所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、P

7、eter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。当时World Wide Web还未出现。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列 表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个

8、Gopher搜索工具。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider (Spider FAQ)程序。世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。与Wanderer相对应,1993年10月Martijn Koster创建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相当于

9、Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自 己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:Scotland的JumpStation、Colorado 大学Oliver McBryan的The World Wide Web Worm(First Mention of McBryans World Wide Web Worm)、NASA的Repository-Based Software Engineering (RBSE) sp

10、ider。1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。这就是Excite。后 来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线。除了网站搜索,它还支持Gopher和Telnet搜索。1994年4月,Stanford两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yaho

11、o目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能 真正被归为搜索引擎,事实上只是一个可搜索的目录。搜索效率明显提高。(Yahoo以后陆续使用Altavista、Inktomi、Google提供搜 索引擎服务)1994年初,Washington大学CS学生Brian Pinkerton开始了他的小项目WebCrawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一 个支持搜索文

12、件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。(后来 webcrawler陆续被AOL和Excite收购,现在和excite一样改用元搜索引擎Dogpile)Lycos(Carnegie Mellon University Center for Machine Translation Announces Lycos )是搜索引擎史上又一个重要的进步。Carnegie Mellon University的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。1994年

13、7月20日,数据量为54,000的Lycos正式发布。除了相关性 排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量: 1994年8月394,000 documents;1995年1月1.5 million documents;1996年11月over 60 million documents。(注:1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服务)Infoseek(Steve Kirsch Announces Free Demos Of the Infoseek Sear

14、ch Engine)是另一个重要的搜索引擎,虽然公司声称1994年1月已创立,但直到年底它的搜索引擎才与公众见面。起初,Infoseek只是一个不起眼 的搜索引擎,它沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。但是它的发展史和后来受到的众口称赞证明,起初第一个登台并不总是很重要。 Infoseek友善的用户界面、大量附加服务(such as UPS tracking, News, a directory, and the like) 使它声望日隆。而1995年12月与Netscape的战略性协议,使它成为一个强势搜索引擎:当用户点击Netscape浏览器上的搜索按钮时,弹出 In

15、foseek的搜索服务,而此前由Yahoo!提供该服务。(注:Infoseek后来曾以相关性闻名,2001年2月,Infoseek停止了自己 的搜索引擎,开始改用Overture的搜索结果)1995年,一种新的搜索引擎形式出现了元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果, 集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引

16、擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。DEC的AltaVista(2001年夏季起部分网友需通过p-roxy访问,无p-roxy可用qbseach单选altavista搜 索,只能显示第一页搜索结果)是一个迟到者,1995年12月才登场亮相(AltaVista Public Beta Press Release )。但是,大量的创新功能使它迅速到达当时搜索引擎的顶峰。Altavista最突出的优势是它的速度(搜索引擎9238:比较搞笑,设计 altavista的目的,据说只是为了展示DEC Alpha芯片的强大运算能力)。而Altavista的另一些新功能,则

17、永远改变了搜索引擎的定义。AltaVista是第一个支持自然语言搜索的 搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。用户可以用AltaVista搜索Newsgroups(新闻组)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索 Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有 趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了

18、大量革新。它在搜索框区域下放了“tips”以帮 助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引 擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。然后到来的是HotBot。1995年9月26日,加州伯克利分校CS助教Eric Brewer、博士生Paul Gauthier创立了Inktomi(UC Berkeley Announces Inktomi),1996年5月20日,Inktomi公司成立,强大的HotBot出现

19、在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其 它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。(Hotbot曾是随后几年最受欢迎的搜索引擎之一,后被 Lycos收购)Northernlight 公司于1995年9月成立于马萨诸塞州剑桥,1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有 Stop Words,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。(2002年1月16日,Nort

20、hernlight公共搜索引擎 关闭,随后被divine收购,但在Nlresearch,选中World Wide Web only,仍可使用Northernlight搜索引擎)1998年10月之前,Google只是Stanford大学的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。 Google公司则把1998年9

21、月27日认作自己的生日。Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。在2000年中以前,Google虽然以搜索准确性备受赞誉,但因为数据库不如其它搜索引擎大,缺乏高级搜索语法,所以使用价值不是很高,推广并不快。直到2000年中数据库升级后,又借被Yahoo选作搜索引擎的东风,才一飞冲天。Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎 All

22、TheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP自动分 类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。Teoma 起源于1998年Rutgers大学的一个项目。Apostolos Gerasoulis教授带领华裔Tao Yang教授等人创立Teoma于新泽西Piscataway,2001年春初次登场,2001年9月被提问式搜索引擎Ask Jeeves收购,2002年4月再次发布。Teoma的数据库目前仍偏小,但有两个出彩的功能:

23、支持类似自动分类的Refine;同时提供专业链接目录 的Resources。Wisenut 由韩裔Yeogirl Yun创立。2001年春季发布Beta版,2001年9月5日发布正式版,2002年4月被分类目录提供商looksmart收购。wisenut也有 两个出彩的功能:包含类似自动分类和相关检索词的WiseGuide;预览搜索结果的Sneak-a-Peek。Gigablast 由前Infoseek工程师Matt Wells创立,2002年3月展示pre-beta版,2002年7月21日发布Beta版。Gigablast的数据库目前仍偏小,但也提供网页快 照,一个特色功能是即时索引网页,你

24、的网页刚提交它就能搜索(注:这个spammers的肉包子功能暂已关闭)。Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,曾经是最好的中文搜索引擎,鼎盛 时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重 新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域,此后技术 升级明显加快。北大天网 是国家九五重点科技攻关项

25、目中文编码和分布式中英文信息发现的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正 式在CERNET上提供服务。2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教 育网优势,有强大的ftp搜索功能。Baidu 2000年1月,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士)在北京中关村创立了百度(Baidu)公司。 2001年8月发布B搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式 发布Baidu搜索

26、引擎。Baidu虽然只提供中文搜索,但目前收录中文网页超过9000万,可能是最大的的中文数据库。Baidu搜索引擎的其它特色包 括:网页快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、Flash搜索、信息快递搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。2.搜索引擎的发展(fzhn)第一阶段:分类目录时代(shdi)(人工时代)不知道大家时候在自己的搜索引擎首页是否有设置过导航网站这个网址作为自己的首页呢?其实这个网址就是搜索引擎第一代的代表。我们可以从这个导航网站这个网站里面看到,里面几乎都是一些分类网址,几乎在互联网上的,这个网

27、站里面都一应俱全(y yng j qun),从这里我们可以看出,这个网站是一个导航网站,也可以说分类目录网站,用户可以从这个分类目录里找到自己想要的东西,这就是搜索引擎第一代。第二阶段:文本检索时代(海量(hiling)自动获取与排序清单)到了这一代,搜索引擎查询信息的方法(fngf)则是通过用户所输入的查询信息提交给服务器, HYPERLINK /view/899.htm t _blank 服务器通过查阅,返回给用户一些相关程度高的信息。这代的搜索引擎的信息检索模型主要包括例如布尔模型、概率模型或者向量空间模型。通过这些模型来计算用户输入的查询信息是否与网页内容相关程度高低,将相关度高的则返

28、回给用户。采取这种模式的搜索引擎主要是一些早期(zoq)的搜索引擎,例如像Alta Vista、Excite等等。这就是搜索引擎第二代。第三阶段:整合分析时代(立体搜索与结果整合) 这一代的搜索引擎所使用的方法大概是和我们今天的网站的外部链接形式基本相同,在当时,外部链接代表的是一种推荐的含义,通过每个网站的推荐链接的数量来判断一个网站的流行性和重要性。然后搜索引擎再结合网页内容的重要性来和相似程度来改善用户搜索的信息质量。这种模式的首先使用者是google,google不仅为首次使用并且大获成功,这一成就在当时引起了学术界和其他商业搜索引擎的极度关注。后来,学术界以此成就为基础,提出了更多的

29、改进的链接分析算法。大多数的主流搜索引擎都在使用分析链接技术算法。这就是第三代搜索引擎将用户输入关键字,反馈回来的海量信息,智能整合成一个门户网站式的界面,让用户感觉每个关键字,都是一个完整的信息世界。而不是第二代一样返回一个清单,整个清单夹杂着大量用户不关心、且没有分类的链接。第三代搜索引擎的典型特征就是:智慧整合第二代返回的信息为立体的界面。让用户能轻易地一眼进入到最相关的分类区域去获取信息第四阶段:用户中心时代(以移动互联网为标志的个人需求精准搜索) 第四代,也就是我们所用的搜索引擎技术也是互联网上面用的最普遍的。主要是以用户为中心。当客户输入查询的请求时候,同一个查询的请求关键词在用户

30、的背后可能是不同查询要求。例如用户输入的是“苹果”,那么作为一个想要购买iPhone的用户和一个果农来说,那么要求就是大大的不一样。甚至是同一个用户,所查询的关键词一样,也会因为所在的时间和所在的场合不同而返回的结果不同的所有主流搜索引擎,都在致力于解决同一个问题:怎样才能从用户所输入的一个简短的关键词来判断用户的真正查询请求。这一代搜索引擎主要是以用户为中心。这就是第四代搜索引擎。移动设备的使用者,即使不向移动搜索互联网授权任何特征信息,移动搜索互联网仍然可以通过移动设备使用者在的搜索时的大量特征,比如上网的时间习惯,操作习惯,内容归类去逐渐勾勒出这人使用者的特征信息,这种“推测式”算法的可

31、能性也是由于移动设备具有唯一性、随身性而产生的。这好比是警察可能通过“嫌疑人”的行为习惯,去推测出他的“作案动机”与“体貌特征”一样。那么,这些使用者的蛛丝马迹,都是未来移动互联网搜索引擎进行“商业数据挖掘”的巨大宝藏。移动互联网搜索的必然使命,就是:提供精准到个人的搜索。可以说前三代搜索引擎,都是基于PC互联网的搜索,而精准到个人需求的移动互联网搜索,为“第四代搜索引擎”,那么,最有可能实现这个第四代搜索引擎的人才,可能不来自于百度,甚至不来自于GOOGLE,而很有可能来自于亚马逊、淘宝这些掌握了大量个人信息的商业巨头,或者来自于跨界研究行为心理学、消费心理学、社会心理学等背景的IT研究机构

32、或IT创业团队,因为这些公司或机构,对人们的行为习惯背后的“动机”与“特征”更加了如指掌。第五(d w)阶段:生活(shnghu)生态圈搜索时代(以物联网为标志的实体搜索) 第五代搜索引擎应该是基于物联网的搜索,物联网搜索拥有更广阔的搜索空间,现在能预测到物联网一个最典型的应用就是:找东西!比如远程看管小孩、老人,或搜索走失小孩,包括精确到厘米的GPS定位,比如你去一个陌生的地方,找厕所,找窗口,甚至找警察。同时,不仅仅是你找东西,甚至还有可能东西找你,比如泊车后超过某个时间点,让车主动呼叫你,饭煮好了,电饭堡呼叫你,提前打开的空调使用室温(sh wn)保持到预定温度后,空调呼叫你等等。 近期

33、搜索引擎发展贰1搜索引擎的分类(fn li)1.全文索引 搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集(suj)功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般(ybn)是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。随着搜索引擎索引规则发生很大变化,主动提交网址

34、并不保证你的网站能进入搜索引擎数据库,最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。这种引擎的特点是搜全率比较高。2.目录索引 目录索引也称为:分类检索,是因特网上最早提供WWW资源(zyun)查询的服务,主要通过搜集和整理因特网的资源,根据搜索到网页的内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成

35、像图书馆目录一样的分类树形结构索引。目录索引无需输入任何文字,只要根据网站提供的主题分类目录,层层点击进入,便可查到所需的网络信息资源。虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已(r y)。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。 与全文搜索引擎相比(xin b),目录索引有许多不同之处。 首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。其次,搜索引擎收录网站时,只要网站本身没

36、有违反有关的规则,一般都能登录成功;而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其像Yahoo这样的超级索引,登录更是困难。 此外,在登录搜索引擎时,一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。 最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。 搜索引擎与目录索引有相互融合渗透的趋势。一些纯粹的

37、全文搜索引擎也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而像Yahoo! ;这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如中国的搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。这种引擎的特点是找的准确率比较高。3.元搜索 元搜索引擎(METASearch Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎

38、。在搜索结果排列(pili)方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。 2.搜索引擎的工作(gngzu)原理1抓取网页(wn y)。每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。2处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。

39、其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。3提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。叁苏州笔记本厂家(chn ji)1.苏州精本堂文具礼品有限公司(yu xin n s)地址(dzh):相城区相城大道789号1-7030室联系人:白先生电 话 机 州记事本定做,苏州记事本批发,苏州记事本定制,苏州记事本厂家 专业生产各种规格苏州记事本、多功能记事本,仿皮记事本、高

40、档记事本、商务记事本、活页笔记薄、万用手册,常年供应(gngyng)欢迎订购!各种高级商务记事本,本册礼品各类广告记事本上百种。 笔记本,记事本可以长期有力的宣传企业形象、品牌宣传、产品宣传,又可以做为商务、会议、促销礼品。一举两得,物超所值,已经成为宣传企业文化一块重要的阵地。 版面内容:1.可以加上公司LOGO,2.可以加产品宣传,3.可以做专版内容,4.可以做到长期的广告,个人资料、年日历、国内直拨区号及邮编、国际长途区号、地铁交通图、记事录、通讯录注产品可根据客户要求更改皮料及大小) 广告工艺:可根据公司单位名称烫金/烫银/烙印/烫蓝金/烫红金/丝印 风格:时尚型,经济型 用途:商务馈

41、赠,办公使用,广告宣传,也可做为送礼,表彰,会议的最佳产品 注:本册材料、内芯均可由客户提供样品、样搞订做 制作精美的高档笔记本、记事本有他的实用价值和精美的装帧设计,还能与企业文化和产品宣传结合在一起。企业自己制作的高档笔记本和精装记事本不仅可以内部员工使用,可以达到强化企业文化,增强企业内部凝聚力,也可赠送客户,增加客户对企业的认同感。2.苏州奥佳文具礼品有限公司(yu xin n s)地址(dzh):苏州市城北西路1558号86幢522室邮政编码:215003网址:/suzhou/co/354740.htm苏州奥佳文具礼品有限公司,主要经营许可经营项目:一般经营项目:销售:工艺礼品、纸制

42、品、皮革制品、玻璃制品、塑料制品、酒店用品、数码产品、电子产品、办公用品、日用百货;图文设计与制作。,于2012年8月23日在苏州工商局登记注册,业务经理是宗国标,公司注册资本50万元(万),我公司的办公地址位于中国园林之城,人间天堂苏州,苏州市城北西路1558号86幢522室,我们有最好的产品和专业的销售和技术团队,在公司发展壮大的3年里,我们为客户提供最好的产品、良好的技术支持、健全的售后服务,苏州奥佳文具礼品有限公司是苏州礼品工艺品行业知名企业苏州福鑫堂文具礼品有限公司地址:苏州市相城区相城大道789号凯翔大厦南楼13034室网址(wn zh): 电话(dinhu):0512-68853

43、128 传真手机(shu j)18012778520公司Q Q:22997803 厂家Q Q:570185414利博文具(礼品)有限公司是一家专业生产日记本等办公用品的企业,有十多年的皮具、文具生产经验,拥有厂房1500多平方米,员工180多人,年产各类记事本200多万份,并于在温州、苏州、深圳等地设立了公司及办事处,生产基地在于温州。我们的主要产品有:记事本、万用手册、线圈本、便笺盒、工商日志、文件夹、相册、名片册、礼品套装及各种真皮皮件等。 我们致力于本册产品的设计开发与精细加工,在多年的努力开发与生产中,积累了很多成熟经验与优秀产品

44、,我们不但注重产品的工艺精良,更加着力于产品的材料及工艺的设计开发,我们的产品广泛应用于会议、促销、乔迁、庆典、馈赠、福利等活动。 公司的销售业务己拓展到欧美、中东、东南亚等地区,销售网络涵盖日本、美国、韩国、新加坡、阿联酋、马来西亚、意大利等国家和地区,我们致力于为客户提供最优质的产品和服务,并相继与国际采购集团建立了业务往来关系,加快了开拓国际市场的步伐。我们的产品不但销售到以上地区,还长期为美国、日本、中东、欧州等世界级办公用品企业承做OEM订单,具备OEM方式下进行生产、交付的成熟经验与能力,并获得了较高的评价。凭借雄厚的技术力量、高效率的生产设备,不断为客户提供设计合理、做工精致、美

45、观实用之综合办公用品。目前,我们的产品己畅销中国内地并与各地礼品公司、外贸公司、企事业单位、文具批发商等建立了良好的合作关系。本着诚信第一、质量第一,以工艺创新、品质领先的企业宗旨,始终如一地以客户的需求为己任,愿与广大经销商密切协作,共创厂、商双赢的合作新局面。现诚征办公文具用品经销代理商。并欢迎来电索取产品目录本及样品。2.关于“马”的濒危动物格利威斑马保护等级:一级保护动物格利威斑马全身包含四肢(szh)都是黑白相间的条纹,非常细密,腹部则为白色,与查普曼斑马相比,他们躯干的后半部仍为垂直条纹,是最大也是最漂亮的一种斑马,头部比较大,身材苗条,腿长,耳大,鬃毛长而直立。斑马最与众不同的特

46、点就是它们的斑纹,然而,直到今天也没有人能够说清它们究竟为什么会有斑纹。解释有很多种:也许是伪装术,保护自身不受蚊虫叮咬,避免被捕杀,甚至还可能是为了保持体表的舒适感觉。黑色部分比白色部分吸收的热量多,体表温度的不同便可造成空气流动。直至今天,斑纹还戴着一层神秘的面纱。今天,斑马中最大的群体有20万之众,它们与羚羊一起在塞伦盖蒂繁茂的草原上不断迁徙。 斑马的种群十分庞大,遍布肯尼亚北部高原干旱的莱基比亚地区。北部广阔的平原到处都有斑马的身影。数千年前,许多种类的斑马徜徉在地中海到好望角的广阔大陆上。而今天,只剩下三种。这便是其中之一的格利威斑马,它们为了生存正在不断抗争。格利威斑马通常成群活动

47、,主要栖息於半沙漠的乾燥草原及灌丛草原。成熟的雄斑马具有领域性,它们会利用粪便(fnbin)来标示自己的领域,斑马的领域是草食动物中面积最大的,他们为了要吸引雌斑马来交配,才会维持这麼大的领域。格利威斑马目前数量已经非常稀少,估计仅有6,500只。山斑马(bnm)保护等级:易危物种山斑马(学名:Equus zebra)是斑马中体型最小的一种,也是最早被命名的斑马。肩高约120厘米。它耳朵狭长,鬃毛很短,尾部棕黄色,身上的条纹粗而少。它们栖息在山岳地带,习惯爬山越岭,很少走下山来。每群斑马有领队,有哨兵轮流站岗,发现敌情,立即发出“警报”合群逃跑。主要分布于非洲的西南部地区,如南非、纳米比亚和安

48、哥拉。山斑马,是现存的三种斑马之一,主要分布于非洲的西南部地区,如南非、纳米比亚和安哥拉。是日行性的动物,主要的活动时间是早晨及黄昏,通常栖息在炎热、干燥山区的草原。以草食为主,也吃嫩叶。1 山斑马头体长:210-260厘米;尾长:40-55厘米;肩高:116-150厘米;重量:240-372公斤。山斑马全身都是黑白相间的条纹,身体部分的条纹比臀部窄,尾巴与臀部交接处上方的花纹非常特别,条纹黑白分明,没有淡灰色的条纹;腹部为白色,喉部有垂肉。与其它两种斑马不同的是,它有一对象驴似的(sh de)大长耳朵;身上条纹细密,臀部条纹很宽,其上方脊柱处有一片铁格架子似的条纹;它的喉部有一喉袋。2 山斑

49、马和其他两种斑马的比较 头躯干长2100-2600mm,尾长400-550mm,肩高1160-1500mm,体重240-372kg。马鹿(m l)保护(boh)等级:中国国家级保护动物。马鹿(学名:Cervus elaphus)是仅次于 HYPERLINK /view/28675.htm t _blank 驼鹿的大型鹿类,共有10个亚种,因为体形似骏马而得名,身体呈深褐色,背部及两侧有一些白色斑点。雄性有角,一般分为6叉,最多8个叉,茸角的第二叉紧靠于眉叉。夏毛较短,没有绒毛,一般为赤褐色,背面较深,腹面较浅,故有“赤鹿”之称。马鹿生活于高山森林或草原地区。喜欢群居。夏季多在夜间和清晨活动,冬

50、季多在白天活动。善于奔跑和游泳。以各种草、树叶、嫩枝、树皮和果实等为食,喜欢舔食盐碱。9-10月份发情交配,孕期8个多月,每胎1仔。分布于亚洲、欧洲、北美洲和北非。马鹿的祖先最早出现在中新世期间的欧亚大陆,化石记录在1200万年以前。源自一种已经灭绝的被称为爱尔兰麋鹿(Megaloceros)的物种。从化石记录知道,马鹿是鹿科动物中最大的成员。早期的系统发育分析支持黇鹿和爱尔兰麋鹿之间的具有姐妹群关系。然而,新的形态学研究证明,爱尔兰麋鹿与马鹿更密切相关,其现代的地理区域对应。因此,在一些出版物中是用“巨鹿”(Giant Dee)命名。马鹿最早在亚洲西南部(小亚细亚及高加索地区),北非和欧洲发现。在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论