(完整word版)中文智能搜索引擎_第1页
(完整word版)中文智能搜索引擎_第2页
(完整word版)中文智能搜索引擎_第3页
(完整word版)中文智能搜索引擎_第4页
(完整word版)中文智能搜索引擎_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、(完整word版)中文智能搜索引擎中文智能搜索引擎龙其072349(完整word版)中文智能搜索引擎摘要飞速发展的Internet给用户提供了海量的信息资源,导致用户从爆炸性增长的信息中迅速获得需要的信息变得越来越困难。为了帮助用户快速准确地检索到所需的网络信息,网络搜索引擎的研究与开发已经成为当今网络信息检索的热点。本文通过搜索引擎概述及原理介绍中文智能搜索引擎,从中文分词技术;词性标注及词义分析;分类器设计检索模型;PageRank排序技术;研究现状和发展趋势等内容对中文智能搜索引擎进行介绍。搜索引擎概述及原理搜索引擎是以Web页面为检索文档的信息检索系统,它的核心就是信息检索技术。广义地

2、说,搜索引擎就是指在指互联网上能够响应用户提交的搜索请求,返回相应的查询结果信息的技术和系统。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎并不是真正地搜索互联网,它搜索的是预先整理好的网页索引数据库。一般来说,搜索引擎得原理可以看做三步:从互联网中抓取网页;建立索引数据库;在索引数据库中进行搜索排序.互联网中抓取网页:通过网页搜索工具Spider(蜘蛛)或Robot(机器人)等自动访问互联网,沿着URL搜索,并把搜索到的信息带回搜索引擎。建立索引数据库:通过对收集的网页信息进行分析,把这些相关信息进行分类

3、索引建立索引数据库。在索引数据库中进行搜索排序:通过Web服务端软件,获得用户输入关键词后,有搜索程序从网页数据库中找到符合该关键词的相关网页。为用户提供浏览界面下的查询信息。中文智能搜索引擎中文搜索引擎中文搜索引擎是指以Interent网络上的中文信息为主要对象,提供信息的自动收集、自动过滤、自动索引中和检索导航等服务的搜索引擎.中文Internet搜索引擎的最关键组件是能够在海量中英文数据上进行高效全文检索的信息管理系统。中文搜索引擎的机制同英文搜索引擎大致相同,不同的是多了中文语言的处理技术,这主要是中文分词技术和汉化技术。(完整word版)中文智能搜索引擎逻辑上,中文信息搜索引擎与与一

4、般搜索引擎一样分为三个部分:网页搜索引擎,索引引擎和查询引擎.智能搜索引擎传统搜索引擎局限:传统搜索引擎主要采用网站分类技术和全文检索技术来实现信息查询,前者成本高,对网站描述也比较简单,不能升入网站内部细节。而后者效率比较低且返回信息过多。传统搜索引擎所使用的技术都难以解决用户“找信息难”的问题,造成这种困难的实质在于搜索引擎缺乏知识处理能力和理解能力。因此要把信息检索从基于关键词层面提高到基于知识层面。智能搜索引擎,它突破传统搜索引擎基于要求较精确的关键词层面信息检索的局限,发展到基于以不规范、不精确的自然形式出现的知识(或概念)层面来分析和处理用户的查询提问,具有良好的自然语言理解、知识

5、处理能力,在信息检索过程中体现出很强的智能化与人性化优势.中文智能搜索引擎采用智能搜索引擎得方法实现对中文信息的检索。中文智能搜索引擎可以自动分析中文网页,进行自动分词处理,并自动提取关键词,建立一关键词为基础的查询数据库,降低了系统开销,大大提高了查询效率.它通过充分考虑中文语句的表达结构以及“口语化的提问,智能化的结果”来满足用户的各种查询需求。中文智能搜索引擎功能结构图大致如下:中文智能搜索引擎功能结构中文智能信息系统包含了许多中文信息处理的关键技术如:中文分词技术,词性标记,文本分类等。利用这些中文信息处理技术,来提高系统搜索的效率,查询结果的准确性等。中文分词技术1.自动分词分词就是

6、把一个句子按照其中词的含义进行切分,由于中文文本在书写表达或计算机内部表示时,字与字之间、词与词之间没有明确的切分标志。此外,汉语词序的灵活性,语法限制简单及歧义现象等都给中文的自动分词造成了极大的困难。2.自动分词的过程指的是从信息处理需要出发,按照特定的规范,对汉语按照分词单位进行划分的过程.分词单位指汉语信息处理使用的、具有确定语义或语法功能的基本单位,包括词和词组。词是最小能独立运用的基本单位,两个或两个以上的词按一定语法规则组成表达一定意义的语言单位即词组。3.分词词典为实现及其自动分词,需要有经过语言专家精心挑选的词汇组成的现有词典,然后才能研究如何根据已有的分词词典实现文本的切分

7、。通常分词词典的设计与分词算法相关,在基于词典的分词算法中,分词词典数据结构的设计很关键,将影响到分词算法的性能。为构建一个高效的分词词典,可以考虑以下三个方面:分词词典对词的查询速度:这直接决定匹配算法效率的高低。分词词典的存储利用率:词典越小,所需查询时间也越少。分词词典维护的效能:包括对词的插入、删除和更新等操作的难易程度。4.分词方法现有的中文分词算法可以分为基于词典的分词方法,基于理解的分词方法以及基于统计的分词方法三大类,文章就基于词典的分词方法总结一些分词算法:正向最大匹配算法这是最早提出的自动分词方法,由苏联学者在六十年代研究汉俄机器翻译时提出,它的基木思想是先取一句话的前若干

8、个字采用二分搜索的方式查词典,若不是一个词,则删除这些字中的最后一个,然后再查词典,这样一直查下去直到找到一词为止,对句子剩余部分重复此工作,直到把所有词分出为止。例如:句子“明天会下雨”,设最大词长是4,则切分过程是:明天会下明天会明天会下雨会下会下雨逆向最大匹配算法逆向最大匹配算法的基本思想与正向最大匹配算法相同,唯一的区别是最大匹配的顺序不是从首字开始,而是从末尾开始。如上句“明天会下雨”,切分结果为:天会下雨会下雨下雨明天会天会会明天这两种方法思想明了,易于机器实现.算法把词典作为唯一的判断标准,具有一定的主观性和局限性,而且由于采用的是最大匹配,否定了词中含词的语言现象,出错了较高。

9、但他们都是最基本的方法。(3)邻近匹配算法正向最大匹配中,对每个不存在的长字符串都要进行二分检索,复杂度太高。在邻近匹配算法中,采用首字索引的词表,利用同一首字下的词条按升序排列这一条件,找到某个字符串后,(完整word版)中文智能搜索引擎在其后增加一个字得到一个新字串,若新字串在词典中出项,那么新词一定在原来字串的后面,且相隔不远。这一匹配方法即称邻近匹配算法。最短路进匹配算法该算法的思想是首先更具词典,找出字串中的所有可能的词,然后构造词语切分的有向无环图.这样每个词对应图中一条有向边。给每条边一个权值。然后针对切分图求出一条最短路径。路径上包含的词即为该句子的切分结果.5.分词技术的应用

10、应用领域:汉语自动分词的研究有重要的理论价值和现实意义,它主要在汉语语言理解;计算机系统的汉语人机接口;机器翻译;情报检索;人工智能和知识工程等许多方面都用重要的应用。在智能搜索中的应用:相对于传统的全文本搜索,对经过分词处理的文本进行搜索,能大大提高搜索的效率和准确性。文本通过分词处理后,含有更多的判断信息.对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。而中文分词的准确与否,常常直接影响到对搜索结果的相关度排序,对搜索引擎结果相关性和准确性有相当大的关系。6.分词中的难题切

11、分歧义歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“表面的”都是词,那么这个短语就可以分成“表面的和“表面的”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。未登录词处理未登录词即新词,也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名.新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。词性标注及词义分析(完整word版)中文智能搜索引擎对中文文本进行词语切分后,可以利用已有的资源进行词性标注及词义分析,

12、这可以在很大程度上解决语言层面上的知识。在中文智能搜索引擎的应应用中,词性标注和词义分析可以说是一个中间任务,同过这两方面的处理,为基于知识层面的搜索提供了大量可利用的有效信息,对于智能搜索有极大的帮助。1.词性标注数学描述:句子W=w,w,对应的一个标记序列T=t,,t,在二元组(W,T)中每个t和w一一对应,是inj1njji词w的所有可能的标记中的一个。i在一个给定的W的所有组合中有且只有一个语法学上正确的TwT|(W,T)与之对应。标注过程就是对每个句子W,在与之对应的各个T中选择出正确的标记序列Tw,即:v:WTT二v(W)。j标注模型一般有:两步模型:当前词w.的词性t.仅依赖于直

13、接前趋词w.及其词性划分结果t。iii-1i-1三步模型:当前词w的词性t仅依赖于直接前趋词w、w及其词性划分结果t、t.iii1i2i-1i2隐马尔科夫模型(HMM):HMM是由马尔可夫过程扩充而来的一种随机过程,HMM的状态本身不可观察,可观察的是状态的一个概率函数.HMM包含了双重随机过程,一个是系统状态变化,及马尔可夫过程,另一个是由状态决定的随机过程。基于HMM的词性标注的两步模型:给定HMM模型入,已知词串W,求使得条件概率P(T|W,入)值最大的T,记为:T=argmaxP(TIW,九)T运用Bayes公式及W给定P(W)不依赖于T得到公式:P(TIW)沁P(T)P(WIT)其中

14、P(T)是词性序列T的概率:P(T)=Hp(t11)ii-1i=1P(W|T)是已知词性标记串T,产生词串W的条件概率:P(WIT)=Hp(w11)iii=1综合以上,得到确定句子最优标注的等式:T=argmaxHP(wIt)P(tIt)iiii-1Ti=1实现过程:(1)CLAWS算法:采用枚举的方法自动标注时,从输入文本中顺序地截取一个有限长度的词串,该词串的首词和尾词的词性是唯一的,这样的词串叫做跨段,记为w,w,w,,w,w。其中w和w是非兼类012nn+10n+1词,w,w,w是n个兼类词。利用转移概率矩阵提供的数据来计算这个跨段中由各个单词产生的每个12n可能标记的概率积,并选择概

15、率积最大的标记串作为最佳路径,以这个最佳路径作为结果输出.V0LSUNGA算法:采用贪心的方法(完整word版)中文智能搜索引擎沿着从左至右的方向,采用“步步为营的策略,对于当前考虑的词,只保留通往该词的最佳路径,舍弃其它路径,然后再从这个词出发,将这个路径同下一个词的所有标记进行匹配,继续找出最佳的路径,舍弃其它路径,步步前进,直到整个跨段走完,得出整个跨段的最佳路径作为结果输出。(3)Viterbi算法:采用动态规划的方法定义:F(i,j)=maxF(i-1,k)P(wIj)P(jIk)表示前i个单词的标注结果,且第i个单词标注为词性jl=k=N1的最大值。其中P(wIj)是单词w取词性j

16、的统计概率,即前面提到的P(w11);P(jIk)是词性k后iiii取词性j的转移概率,即前面提到的P(t11)。ii-1Viterbi算法有三步,即:(1)初始化;(2)推导;(3)终止和输出。对于算法过程中的浮点溢出。采用对概率取负对数,将积最大值问题转化为和最小值问题解决.2.词义分析词义分析包含关键词提取,概念排歧,次以表达等内用,通过词义分析,加深对文本内容的理解程度,对于加快搜索引擎得搜索处理有明显益处。关键词提取自然语言文本中,一般包含有大量的虚词词汇,还有一些常用的实词。这些词对于文本的区分几乎没什么作用。一般通过:根据词性标注的结果,删除冠词、介词、连接词等虚词;建立禁用词库

17、,把那些所有类别中均出现频率较高的词列入禁用词库.概念排歧由于一词多义普遍存在,概念排歧通过词在上下文中的位置来确定该词的概念。词义表达一义多词的现象在文本中也是很普遍的情况,在文本分类中解决好这一问题,有助于搜索结果召回率的提高。分类器设计及检索模型1.文本分类文本分类是将大量文本划分为一个或一组类别,使得各个类别代表不同的概念主题。文本分类是模式分类和自然语言处理的一个交叉学科,具有以下特点:(1)高位空间特征;(2)特征语义相关;(3)特征存在多义和同义现象;(4)特征分布稀疏(5)基本线性可分文本分类的途径有基于知识的途径和基于学习的途径.文本分类的应用领域有冗余过滤、组织管理、智能检

18、索、信息过滤及其他应用。现在有很多名声显赫的搜索引擎,比如Google,Yahoo及Baidu等,尽管他们的检索能力已经非常有效,但并非所有问题都已经解决。智能检索方面,在搜索引擎得构建过程中,可以利用文本分类技术来区别概念,改进相关度排序,也可以对被检索的信息按一定的分类体系进行自动分类。这样可以构造更好的信息检索系统。2.分类器设计(完整word版)中文智能搜索引擎文本分类首先是对文本的特征提取,常用的文档特征有词、短语、N-Gram项、词性、标点符号等。文本特征选择最常用的方法有特征词频一文档频率权重、信息增益权重、X2统计权重和互信息权重等。文本分类的核心是分类器的设计文本分类的方法可

19、分为三大类:(1)基于统计的方法,如NaveBayes,KNN、类中心向量等;(2)基于连接的方法即人工神经网络;(3)基于规则的方法,如决策树.下面简单介绍一下Rocchio相似度计算方法。该方法根据算术平均为每类文档集生成一个类中心向量,在新文本到来时,确定其文本向量计算该向量与每类中心向量的相似度。选择相似度最大的类别。通过对训练文本的算术平均计算每类文本中心向量。对新文本进行分词处理,表示为特征向量。计算特征向量与每类中心向量的夹角余弦为相似度:Sim(d,d)=ij艺wxwikjk4=1选择相似度计算结果最大的那一类,将文本分到其中。3.检索模型IR模型信息检索模型是对信息检索任务的

20、数学抽象,是信息检索研究的一个主要内容。信息检索模型是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法.IR模型本质上是对相关度建模,主要从两个方面抽象地研究信息检索方法:(1)确定在模型中如何表示构成检索系统的两个要素,即文档和检索条件即检索表达式。确定在模型中如何定义和计算文档和检索条件之间的关系。IR系统结构图T成检索击达式文档索引PageRank排序技术据统计,70%的用户查询往往只查看搜索引擎搜索结果的前20条记录,因而正确而实用的网页分级算法对于搜索引擎得性能很重要。PageRank即网页级别,它有效地利用了互联网所拥有的庞大链接构造的特性,网页级别越高排得越靠前面。PageRank计算页面的重要性,对每个链入赋予不同的权值,链接提供页面越重要则此链入权值就越大,即当前页面的重要性有其他页面的重要性决定。PR(T)i-C(T)iPageRank算法1如下:PR(A)=(1-d)+dYi=1(完整word版)中文智能搜索引擎(完整word版)中文智能搜索引擎其中PR(A)是页面A的级别,PR(T)为页面T的级别,页面T链向页面A,iiiC(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论