中文智能搜索引擎技术研究_第1页
中文智能搜索引擎技术研究_第2页
中文智能搜索引擎技术研究_第3页
中文智能搜索引擎技术研究_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中文智能搜索引擎技术研究中文智能搜索引擎技术研究引言随着互联网的快速开展,网络信息量不断增加。面对数量庞大,种类多样的信息,一般搜索引擎无法为用户提供准确的检索结果,开发新的搜索引擎势在必行。智能搜索引擎不仅要进步信息检索准确性和全面性,还要满足用户个性等搜索信息需求。搜索引擎与智能代理相结合的智能化搜索引擎技术可以比拟好的实现这一目的。1搜索引擎1.1搜索引擎根本原理搜索引擎由信息搜集系统、文件处理系统、索引系统和检索系统组成。信息搜集系统通过网页抓取程序spider在网络中顺着网页的超链接抓取网页,搜集文档的根本信息并下载至搜索引擎本地,然后将文档和其根本信息分开,并保存到原始文档数据库和

2、文档信息数据库中。文件处理系统负责将需要索引的文件转换成具有统一编码格式的文本文件。信息搜集系统从网络上下载文件,保存到本地供索引器索引。文件文本格式种类繁多,如纯文本文件、htl格式文件、rd文件、pdf文档等,文本格式一样的文件,字符编码方式也不尽一样。文件的异构性要求文件处理系统将各种不同格式的类文本文件转换成纯文本文件。索引系统将程序搜集到的文件进展处理,建立索引库和索引。相关处理还包括去除重复网页、分词中文、判断网页类型、分析超链接,计算网页的重要度、丰富度等。检索系统通过用户输入的关键词从索引数据库中找到与关键词匹配的网页,并按照文档得分的上下依次显示在用户阅读器中。1.2传统搜索

3、引擎的局限性面对浩如烟海的网络信息,用户想要通过一般搜索引擎获取准确和全面的信息较困难。其局限性表如今:1信息检索方式单一。搜索引擎一般提供网站分类查询和关键词全文检索两种方式,这两种方法均容易造成信息丧失,不能全面检索用户需要的信息;不能对用户输入的关键词进展词意分析和词意扩展。如今信息的多样化要求搜索引擎不仅要检索出文档,还要检索需要的图片、视频、音频等。2不能个性化制定。传统搜索引擎提供一样的界面和检索策略,不能提供用户信息定制,不同用户输入一样的查询条件返回的结果一样。不同领域的用户对同一个关键词的搜索返回的检索结果应该不一样,智能搜索引擎能根据用户专业背景和网页阅读历史检索出用户需求

4、的信息。3对信息的标引深度不够。搜索引擎检索的结果往往只提供线形的网址和包括关键词的网页信息,或者返回过多的无用信息,特别是对特定文献数据库的检索更显得无能为力1。4信息更新才能低。搜索引擎信息搜集和查询是两个别离的过程,缺少有机结合。网络信息资源呈分布式、动态、快速增长,搜索引擎的集中化架构不能跟上文档的扩张速度,也就不能有规律地及时更新数据库,用户检索到的结果可能不是最新信息。2智能搜索引擎智能搜索引擎应摆脱传统搜索引擎的局限性,更加智能化,更具主动性,提供多元化的检索方式,为用户提供个性化制定,检索出满足用户个性需求。2.1智能搜索引擎主本文由论文联盟搜集整理要特征1智能性。智能化搜索引

5、擎网络蜘蛛通过自主启发式学习选择最有效的搜索策略和最正确时机,在特定站点或者整个因特网搜集和整理信息。智能化搜索引擎可以将多个引擎的搜索结果进展整合,作为一个整体存放到数据库中。2个性化。智能化搜索引擎提供个性化制定效劳,用户注册根本信息,如年龄、专业背景、工作方向等,通过分析用户根本信息及平时阅读网页的记录制定出用户兴趣模块,检索出来的信息和用户兴趣相关,不同兴趣的用户输入同一个关键词返回的结果可能不同。3多元化。智能化搜索引擎有多元化的检索方式,提供基于群众的搜索分析,基于自然语言、关键词、概念和上下文,通过相关反应技术检索可选择查询途径。对关键词进展词意扩展和词意派生,实现准确的分词,从

6、而更加准确地把握用户的搜索需求。4协作性。智能化搜索引擎能通过各种通信协议和其它智能代理进展信息交流,并可以互相协调共同完成复杂任务2。2.2智能搜索引擎技术要实现智能化搜索引擎,当前要特别加强对汉语分词技术、短语识别技术、同义词处理技术、知识库与推理机应有技术和人机对话智能技术的研究。智能化搜索引擎对语义的理解主要表达在以下两个方面:一是对用户输入的关键词的理解;二是对网页信息内容的理解。传统搜索引擎对关键字的识别是较机械的匹配方式,容易造成信息不准确和丧失。智能化搜索引擎可对用户输入的关键词进展语义理解,并返回用户想要的信息。自然语言语义理解的技术主要有4种:汉语分词技术。中国文化博大精深

7、,语句是由各种词语按照一定的语序组成的。汉语对词语的划分相对英文来说复杂得多,汉语词语可以是由一个字或者多个字组成。汉语分词技术主要有基于字典、词库匹配的分词、基于词频度和基于知识理解的分词,通过这些方法准确把握用户输入关键词的含义;短语识别技术。短语是由词语所构成的,是句子中根本的识别单位,在汉语句法分析和语义分析中具有重大意义。用户搜索有时需要对关键词加一定的修饰词,例如关键字为搜索,参加修饰词可为个性化的搜索,前者就是词语,后者为短语。需要通过短语识别技术对关键词进展正确的分词,从而准确理解用户的查询需求;同义词处理技术。包括基于词汇字面相似度算法、基于词素的语义相似度算法以及基于?同义

8、词词林?、?知网?等语义词典的语义相似度算法。主要依靠人工方式构造同义词库等辅助词库,利用搜索引擎主动联想技术实现对同义词的联想,准确把握用户关键词语义;知识库构建技术。知识库包含各种词典,词典按其功能不同可分成定义词词典、同名词词典、派生词词典等,词典按词确实定性又可分成系统词典与用户词典。这些词典构成了一个庞大而复杂的知识库。人机接口智能化主要有以下技术:人机交互界面技术。智能化搜索引擎界面具有智能化、多元化、个性化等特点。其技术主要包括搜索恳求提交技术、搜索结果表现技术、搜索向导技术、搜索行为分析技术。其中,搜索行为分析技术是个性化搜索的关键技术,它通过分析用户的阅读记录和搜索习惯来进步搜索效率;关联式综合搜索。将图片、新闻等各种有关联的信息呈如今同一界面上,用户搜索时只需查询一次,即可在同一界面得到各种有关联的查询结果。随着云技术的出现,智能搜索引擎将全球效劳器当作一个云系统,从而极大提升从数据库中提取信息速度。云技术的成熟可以有效提升搜索引擎的算法速度,进步智能搜索引擎的运行速度3。3结语智能化搜索引擎技术的开展首先应该解决目前搜索引擎的局限性,然后再添加智能搜索。智能搜索引擎应该在以下几个方面寻求开展:提供友好的查询界面;多元化的检索方式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论