



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Google与Baidu搜索引擎比较研究21世纪是信息的时代,也是网络的时代,不断通畅与进步的互联网在给人们带来浩如烟海的网络信息的同时,也容易使人们在查询自己所需的有用的相关信息时陷入迷茫。据权威机构统计,网上约有数十亿的网页,甚至有些专家宣称网页总数已达5500亿,而且正在以每月近千万的数量增长。要想在信息量庞大的互联网上获得有价值的信息,就必须使用搜索引擎。搜索引擎是指以网络的各种信息资源为对象,以信息检索的方式提供用户所需信息的数据库服务系统。中文搜索引擎起步较晚,但发展的速度很快,行业竞争格局初步形成,、Google、雅虎、中搜等几家搜索引擎企业已经稳定了自己在市场和网民中的地位,这
2、几家将在未来的搜索引擎市场占据较大部分份额,搜索引擎企业间的合作与参股,构成了国内市场“Google”与“baidu+(雅虎,一搜,3721)”的两大阵营。Google和Baidu都是当今最优秀的搜索引擎,二者既有很多相同之处,又有很大不同。它们依靠其先进的技术,强大的功能和方便快捷的检索方式赢得了广大用户的青睐,成为国内外最受欢迎的搜索引擎。一、Google与Baidu两种搜索引擎的比较1Google与Baidu简介Google是一个功能强大、网络信息资源非常丰富的搜索引擎,由斯坦福大学计算机科学系Larry Page和Sergey Brine博士于1998年创建。Google现已拥有30多
3、亿网页,支持30多种语言检索,包括中文检体和中文繁体,并有中文Google网页。Google原意是表示1后面带有100个零的数字,使用这个词代表公司想征服网上无穷无尽资料的雄心。正如其所期望,许多权威机构都将其评为最佳搜索引擎,全世界平均每天上网人次高达1.5亿。Baidu是目前全球最优秀的中文信息检索与传递技术供应商。它在中文互联网拥有天然优势,支持搜索1亿3千万中文网页,是世界上最大的中文搜索引擎。中国所有提供搜索引擎的门户网站中,超过80%以上都由提供搜索引擎技术支持。1999年底,成立于美国硅谷,它的创建者是在美国硅谷有多年成功经验的李彦宏先生及徐勇先生。2000年公司回国发展。的起名
4、,来自于众里寻她千的灵感,它寄托着公司对自身技术的信心。2Google与Baidu的功能特点比较Google与Baidu都具有自动纠错功能,其错别字改正软件系统会对输入的关键字进行自动扫描,检查有没有错别字。Baidu独特的功能与特点Baidu搜索引擎自如的可扩展性和采用ASP(APPLICATION SERVICE PROVIDER)商业服务模式是它的两个最鲜明的特点。可扩展的搜索技术保证最快最多地收集网络信息,构建大规模索引库。一些搜索引擎网站可能遇到过这样的情况,当有少量的用户登陆他们所使用的搜索引擎时,系统工作得非常好,但是一旦用户数量到达高峰时,整个系统就接近瘫痪了,这是因为他们的搜
5、索引擎不具备真正的可扩展性,而Baidu就可以承受所有高峰的负荷而不会在性能方面有任何偏差。Baidu在国际互联网届首开先河,在目前世界上没有一家公司的搜索引擎支持动态网页的情况下,成功解决了动态网页的收集和索引问题。Google独特的功能与特点Google具有语言转换功能。在主页点击右侧的语言工具,可选择搜索特定语言或国家的网页。在翻译选项中选择将网页翻译的语种,在使用偏好内,可将所有网页内容转换成用户所熟悉的语言,还可提供中文简体和繁体文本之间的自动“翻译”转换。如果你想找一个指定的网站,还可以用到Google的一击即中的独门绝技“手气不错”,非常方便用户。3Google与Baidu的搜索
6、引擎排序技术比较Baidu采用全文检索方式,其检索系统采用高性能的“网络蜘蛛”程序(spider)自动在互联网中搜索信息,有可定制、高扩展性的高度算法,使得搜索器能在极短的时间内收集到最大数量的互联网信息。采用了先进的“链接分析(Link Analysis)”技术,将传统情报学中的引文索引技术同web中最重要的东西“超级连接分析”的技术相结合,在查找的准确性、查全率、更新时间、响应时间等方面与其他技术相比都有很大的优势。超链分析技术,是新一代搜索引擎的关键技术,已为世界各大搜索引擎普遍采用,总裁李彦宏就是超链分析专利的唯一持有人。在学术界,一篇论文被引用得越多就说明其越好,学术价值就越高。超链
7、分析就是通过分析链接网站的多少来评价被链接的网站质量,这保证了用户在搜索时,越受用户欢迎的内容排名越靠前。Google打破了传统网络分类概念,以Open Directory Project为类目基础,采用独树一帜的网页级别(Page Rank)新技术,根据互联网本身的链接结构对相关网站用自动方法进行分类,任何网页均可迅速直接地链接到另一网页,并将网页链接数量和相连网页的重要性作为网页级别的综合指标,重要的、高质量的网页可获得较高的网页级别,从而在搜索结果中获得较高的排位,大大提高网页目录查询的准确性。4Google与Baidu的信息收录范围比较Baidu在中国各地和美国均设有服务器,搜索范围涵
8、盖了中国大陆、香港、台湾、澳门、新加坡等华语地区以及北美、欧洲的部分站点。搜索引擎拥有目前世界上最大的中文信息库,它能根据中文网页的特点,自动地在整个互联网上收集资源,同时还可以消除一些已经不能够再用的网页,目前的数据库总量达到一亿页以上,并且还在以每天超过30万页的速度不断增长。Google的搜索引擎可以在几秒钟内精确定位想要查找的信息,公司下属的3个巨型服务器现在每天大约要处理一亿条查询。Google支持多达132种语言,包括简体中文和繁体中文;搜索速度极快,据说有8000多台服务器,200多条T3级宽带。5Google与Baidu报道内容更新速度Baidu搜索引擎是目前更新时间最快、数据
9、量最大的中文搜索引擎,我们知道,互联网用户对新信息的查询是一个很大的需求,在Baidu搜索引擎推出之前,最快的信息更新时间是30天左右,而Baidu 搜索引擎的信息更新时间能做到一周一次,这样更加方便了互联网用户对新信息的查询。Google的不足之处是其数据的更新速度无法进一步提高,由于数据量庞大,使Google搜索引擎的数据更新无法早于30天,在一定程度上影响了用户对信息的时效需求。6Google与Baidu的高级检索Google提供的高级检索功能包括:可以将检索结(下转第858页)G oog le与Ba i du搜索引擎比较研究曾定山(广东培正学院图书馆广东广州510830)【摘要】随着互
10、联网上信息的急剧膨胀,用户对网上信息的检索要求也在不断增长,于是各种基于web的搜索引擎应运而生。本文简要阐述了搜索引擎的涵义和发展现状,对常用的Google和Baidu这两种优秀搜索引擎进行比较和评价。【关键词】搜索引擎;Google;Baidu;评价标准;信息检索Comparative Study of Search Engine between Google and BaiduZeng Ding-shan(Guangdong Peizheng College Library,Gougzhou,Guangdong510830)【Abstract】With the rapid expansi
11、on of information on internet,the retrieval demands of user for information on internet have increased and many kinds of web based search engines have emerged.This paper firstly briefly reviewed the situation of searching engine,sets forth the meaning of searching engine.Then gives introductions and
12、 appraisal for two elegant search enginesgoogle and baidu.【Key words】Search engine;Baidu;Google;Evaluating standard;Information retrieva科TLB地址转换控制器根据配置进行地址转换并给出TLB命中或者转换完成的信号,如果地址转换机制没有使能,就进行直接映射控制器接到地址转换完成的信号后,访问Cache和检视权限检查的结果;如果权限检查通过且Cache关闭或者相应的数据被标记为不可放入Cache,控制器会直接进入外部访问状态EXT_FINISH。图2MMU控制器状
13、态机3性能对比仿真测试在实际运行过程中,处理器的运行状态十分复杂,为了在仿真测试中更接近实际运行的状态,采用圆周率计算程序和BasicMath标准测试程序作为设计整体功能和性能的基准测试程序。圆周率计算程序和BasicMath测试程序采用C语言编写,主体部分是一个由固定顺序指令构成的循环体实现的计算过程,其结果表现为在固定次数下微处理器执行该循环体所用的时间以及计算结果的正确性。系统分为两组,SoC平台分别被配置为仅包含ARM7TDMI处理器、存储管理单元(包含TLB和Cache)和ARM7TDMI处理器组成的兼容ARM720T的处理器。下面仅以BasicMath测试程序为例,展示对两种处理器
14、的仿真测试结果,如图3所示。图3不同计算量下的系统相对性能(BasicMath)4结论针对日益复杂化的嵌入式应用对存储管理提出的需求,本文基于ARM7TDMI嵌入式处理器,以自行设计的SoC平台为实现平台,设计开发了兼容ARM720T处理器的缓存和存储管理单元。经过整合仿真,结果证实了设计的正确性和性能的较大提高。更深入的研究可以在进一步降低功耗、提高性能和配置灵活性方面上继续进行。【参考文献】1William Stallings.操作系统:内核与设计原理M.(第四版).魏迎梅,王涌等译.北京:电子工业出版社,2001.P.226-2772ARM Co.Ltd.ARM7TDMI Technic
15、al Reference ManunalZ.2003.P71-1223Mark Digital Design:A Comprehensive Guide to Digital Electronics and Computer System ArchitectureM.北京:清华大学出版,2004.P. 149-1614Steve Furber.ARM SoC体系结构M.(第二版).田泽于敦山等译北京:北京航空航天大学出版社,2002.228-266作者简介:张萌(1964),男,硕士,副教授,主要从事数字信号处理、VLSI 设计等方面的教学与科研工作。汤佳健(1985),男,硕士生,主要从事V
16、LSI信号处理方面的设计工作。方信昀(1985),男,硕士生,主要从事VLSI信号处理方面的设计工作。责任编辑:田瑞鑫(上接第852页)果局限在一个网站上;可以排除某个特定站点的网页;可以对网页以及检索结果页面的语言类型进行限制;可以检索链向某一个网页的所有页面;可以检索与某一个网页相关的所有网页。高级检索语法有:site,link,inurl,allinurl。“site”表示搜索结果局限于某个具体网站,“link”语法返回所有指向某个页面或者网站的网页。“allinurl”语法返回的网页的链接中包含所有查询关键字。“inurl”语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接
17、中或者网页文档中。“inurl:”后面不能有空格,Google也不对URL符号如“/”进行搜索,对类似“cgi-bin/phf”中的“/”当成空格处理。Google的特有高级搜索语法还有:related,cache,info。“related”用来搜索在结构、内容方面相似的网页。“cache”用来搜索Google服务器上某页面的缓存,这个功能同“网页快照”。“info”用来显示与某链接相关的一系列搜索,提供cache,link,related 和完全包含该链接的网页的功能。Baidu提供的高级搜索语法有:把搜索范围限定在网页标题中intitle把搜索范围限定在特定站点中site把搜索范围限定在
18、url链接中inurl精确匹配双引号和书名号7Google与Baidu的图像搜索引擎Google图像搜索的工作原理是利用网络蜘蛛(Smart Spider)技术,通过分析页面上图像附近的文字、图像标题以及许多其他元素来确定图像内容,并使用复杂的算法删除重复信息,并确保在搜索结果中首先显示质量最好的图像。Google图像搜索引擎可以搜索超过3.9亿个图像图像搜索是Baidu的新增功能,它从一亿五千万个中文网页中提取各类图片,建成世界第一的中文图片库,库存图片26万件。它的“图片搜索分类目录”和两个“指南”颇具特色。“明星、人物图片搜索指南”将知名度或查询率较高的文娱明星和中外政治、文化、科技人物分类列目。“风景图片搜索指南”按地区列举图内名胜古迹,国外著名景观不分国别直接罗列。【参考文献】1费志勇.搜索引擎Baidu()研究.现代情报,2003.9.2吴娱.中文搜索引擎的现
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司电子档案管理制度
- 河北省邯郸市2024-2025学年高二下册3月月考数学试卷(实验班)附解析
- 贵州省贵阳市部分学校2023−2024学年高二下册期末联考数学试卷附解析
- 福建省福州市2024学年高一下册期末联考数学试卷附解析
- 2025年中考语文(长沙用)课件:微专题精讲 跨学科学习
- 综合训练与检测生活与哲学
- 2024年陇南宕昌县有关单位招聘公益性岗位真题
- 社区社区服务设施维护保养管理基础知识点归纳
- 石大学前儿童保育学课外必读:6-2各类卫生
- 石大学前儿童保育学课件1-3循环系统
- 2024年甘肃兰州中考满分作文《根深叶茂:成长的双重旋律》
- 化验员述职3个月转正报告
- 英语单词表必修二
- 消防课件自觉争做忠诚履职执法为民的合格消防军人
- 2025年医学影像科工作计划
- 金融企业呆账核销管理办法
- 2025年吉林省国资委出资企业招聘笔试参考题库含答案解析
- 中国食物成分表标准版第6版
- 自身免疫性脑炎课件
- 广东省广州市广大附中教育集团2022-2023学年九年级上学期自主招生数学试题
- 精神专科知识应知应会试题题库及答案
评论
0/150
提交评论