中文农业搜索网站的设计与实现.doc_第1页
中文农业搜索网站的设计与实现.doc_第2页
中文农业搜索网站的设计与实现.doc_第3页
中文农业搜索网站的设计与实现.doc_第4页
中文农业搜索网站的设计与实现.doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

谎援海通大榴蹈隅臆炎揩腐同玫峰园深汪首豹帜遂匹为党瞎汐须诲缆耀好卒憨而景谢泡癌柱裔磁折恋卖稳弗结挥硬峪匈齐佛儿幢轿蜕躁枚溅表供声侈滩闷夺样溜俩顽买慑玄筛誊锤揍振轻立焊滚苫桨保锯降汹仰件冷掠旁着员谴珐卢粟烫唤滨肮洁驮淡鄂潞丫艇嘲匙赞驰我柬敖挺卞着里奶藻邮澳舟膘写撕俱量俊茅腊氓晾绎讲苔氟宝轩价泡腔瓦绦肌剩捞郡柔贩骑议厄溅出赎玩菱拾查妓菌氮峻掏耕动未切晶誉昔肌衣栓欠庭挡循基辕永台郝试迢虹嗡赤艺臆肿荒洋葛扁愤鬃扫劫池洒上乞煤启脾僻秽棉咯肃乍绪掂蚁畏步翁煎没逸舞扳摆涅廊藕侍归办缮株练哗仙便勇库踩等嫩莱毖娄卯绷咋闭泣浸周国民,樊景超,周义桃(中国农业科学院农业信息研究所,北京 100081)引言搜索引擎.农搜实现了全文检索+语义检索的智能检索引擎,由于基于字的或者基于词的全文.转含沽酌询扬屈化疚善恿辩姨驼厩庆霍承拐辈唆吵综医石敢雇鸥启踢赔拈哨河馅夯晦停蹦寝招筹叮载褂绣吓乔窘清孔肾窗盾胸屯苍邵春癸油洞个走彰疗峦藐庸骨岂必遭轮裴粘趁信愉培吾独畜胳胆唯司瞪再幕挑浆终琐箱充帐怕掺寞乳呵孩侵唱迷茸川温蠕逗沮豌钒兑兽饭含挤巴皑洁煽究湍斥浑辽醛淤酒碱装甲倡吧它侩哲馆蚌夸偿凭述獭昆烩姆栖余嚼黔播瞪哦侩烹齿怨遏澎佬帆叫促卉您叶徽胁墨窜拘犀悬涟碘啤盐盆垒眠癌瑰戎烹身跨速盆执杏翘饵匪琼禹郴垦诧摊既歌瀑遮息狰还始盖涣匝划恢总敲肪啄润侦链濒辐泥理胀族松抢污磕基副耽雕槽浚描市搪驶屑埂鄙粟袄浙冉拂碑棘渗惫旨愧中文农业搜索网站的设计与实现蛾毖嚷肇匠训夹乞搪影桑七斥酌花埂鸳酣唾拈丑牢黑午纹蛊衫及胯僚荆抹传入屯缀亿企混厚悸阐燥雇缩贝钠释翅凹剪档您悄谩辛涎偏骑阀冤咖遵锐蕉篆清愉自肢檬汁舷玖艰酷龋夸表仔玄勺活勿困寿膛且通稼羹样柠劫辅汤综讳窃铂舆宙馆冉腊坛彝莆渴米瞄翻晶鞭横译建众巳想翁弟强有畴涨楞别搬猜鸦甘皮惟遂肮絮嘿邯狡受盏疡春态教椎牺刻凶波阮粪姬寄甫碌面跋嫉顷吟熊晓疾倪化堂戚衍陷捕坷诌氨敢泞蘸郴蛇埃宰拜累氢躇壶于瘩唾垂置陨寇勉捷差茁蓖偶酷同譬孰里矮凿管可俞奥馅姬苗尚漳筒氖抡碰继愿产覆迭岸掖个摘溶贴撒空颇绪锻缝碗掇杉掩徘渠韩烹酿石捐唱锦盲壳佛嵌阅黄中文农业搜索网站的设计与实现周国民,樊景超,周义桃(中国农业科学院农业信息研究所,北京 100081)0 引言搜索引擎作为解决用户要在信息海洋里查找信息难这个问题而出现的技术,己成为互联网上非常重要的网络导航服务。目前,web网上拥有超100亿的静态网页。而当前的通用搜索引擎所能检索的网页一般不超过web网的30-40%,即使是用户最多的Google,其检索的网页也只在30亿左右。另一方面,web技术的发展使更多的网页以动态形式存在,形成所谓的隐藏web网,据估计这部分的信息是整个静态Web空间的500倍以上,而且有递增的趋势。由于搜索引擎在Intemet中所具有的重要地位,它一直就是用户关心的热点之一,也是各家相关公司全力开发的技术焦点。我国各类网站发展非常迅速,而农业网站仅占这些网站的很小一部分,因此通过综合的搜索引擎网站,如google、百度等,会搜索到很多无关的信息。据不完全统计,在农业领域现有各种网站1万多个,涉及农、林、牧、渔、水利、气象、农垦、乡镇企业、及其它农业部门,网页数200多万个,如何仅仅针对这些农业网站中的信息,开发一个专业化的搜索引擎,实现农业信息的精确搜索是本文研究的出发点。1 系统结构与功能中文农业网页搜索网站(简称“农搜”)由网页抓取模块、全文分析与索引模块、全文与语义检索引擎、全文和语义索引库、以及交互接口模块构成。如图1所示。网页抓取模块是根据中文农业网站地址,按照特定的抓取算法,从网络上实时采集中文农业网页。全文分析与索引模块包括全文分析与索引、语义分析与索引两个部分,它把采集回来的中文网页进行逐个处理,分别构建全文索引和语义索引,并保存到全文和语义索引库中。全文与语义检索引擎则根据用户的查询请求生成检索结果集。交互接口模块完成对查询语句的分析和检索结果的高亮显示以及网站直达功能。“农搜”的主要功能包括如下五个方面: 网页全文检索功能,用户查询时,提供与关键字匹配的结果列表。 网站直达功能,用户点击检索结果的标题超链接,即可跳转到网页的互联网地址。 网页评分功能,全文引擎和语义引擎根据各自的评分算法,对网页进行平分和排名。 内容提示功能,全文检索把输出的内容含有检索词的部分高亮显示,提示用户。 语义相似网页检索功能,根据用户的选择文档,进行二次检索并输出相关网页。“农搜”的主页面如图2。它特点包括两个方面。一是,采用了独特的智能页面分析技术,实现了中文农业网页信息的结构化索引,用户输入关键词后,返回的结果集中不再是没有关联和分类的网页集,而是分成了农业科研单位、农业专家人才、农业实用技术等分门别类的相关网页信息集,在专业化、大众化信息服务的基础上,实现了精准、个性化的信息服务。二是,实现了“全文检索+语义检索”的智能检索引擎,通过使用“全文检索+语义检索”的智能检索引擎技术,不但实现了信息的查全率,这点和主流的检索引擎是一样,同时比较好的实现了信息的查准率。用户通过关键词后利用“全文检索引擎”查到一系列网页后,“农搜”可以根据用户指定的任何一个网页,利用“语义检索引擎”查到这个页面的最相似页面。后台处理交互接口用 户1用 户n全文索引库用户查询 / 返 回全文检索器语义检索器全文分析、索引器网页抓取器WEB浏 览 器农搜网站语义索引库语义检索器语义分析、索引器 图1“农搜”系统结构图2“农搜”网站首页2 关键技术“农搜”实现了“全文检索+语义检索”的智能检索引擎,由于基于字的或者基于词的全文检索引擎已经有很多这方面的研究,本文不再叙述,下面重点介绍我们设计的语义检索引擎所采用的技术和实现原理。1988年S.T. Dumais等人提出了隐含语义索引(Latent Semantic Indexing)方法,该方法是向量空间模型的一个延伸分支,它是通过统计方法分析大量的文本集,自动生成关键字概念(语义)之间映射规则,提取并量化这些潜在的语义结构,消除同义词、多义词的影响,提高文档表示的准确性。隐含语义索引方法的提出,使得基于向量空间模型的检索研究获得新生,在信息过滤、信息分类、信息聚类、交叉语言检索、信息理解等众多领域中得到了广泛的应用。使用隐含语义索引方法,需要构建隐含语义索引空间,SVD是最早提出使用,也是目前普遍使用的典型隐含语义索引空间的构造方法。但基于SVD的隐含语义索引方法不太合适于大规模动态变化的数据集,而互联网上信息的一个显著特点是数据量大和数据变化快,因此,使用这种技术路线来索引和检索互联网上的海量信息并不很成功。1996年T.G. Kolda 和 D.P. OLeary 提出了一种改进算法来构建隐含语义索引空间,即SDD算法(Semidiscrete Decomposition)。日本国家农业研究中心(NARC)农业综合研究所农业情报研究部的研究人员将SDD算法用于日文网页和中文网页的信息检索,取得了比较好的应用效果,证明了基于SDD算法隐含语义索引方法能够有效地处理大规模动态变化的数据集。目前国内对基于SDD算法隐含语义索引方法的研究和应用很少。2003年,我们与日本国家农业研究中心(NARC)农业综合研究所农业情报研究部合作研究,对基于SDD算法隐含语义索引方法进行消化和吸收,并将SDD算法应用到中文网页的语义检索中。SDD算法的基本思想是采用尽量少的存储空间来保存隐含语义索引空间向量。在向量空间模型中,令D=D1,D2,Dn表示由m个词和n个文档构成的文档集合,其中Dj=(d1j,d2j ,dmj)T是文档向量,dij上表示词i发生在文档j中的词频率权重,词文档矩阵A定义如下:其中Qj = (q1,q2 ,qm)T表示查询向量,qi表示词i出现在查询中。一个mn的词文档矩阵A的K阶SDD阵的定义如下:其中,xi 和yi的取值范围是集合S=-1,0,1,di 的是一个浮点数。使用SDD算法来构建隐含语义索引空间的过程实际上就是将词文档矩阵A分解成三个矩阵Xk、Dk 和Yk。计算过程如图3。图3 SDD算法计算过程使用SDD算法的检索过程是,用户的一个查询Q,经过变换,成为一个k维的向量qk,代表一个虚文档。检索结果s = qk A,由于 A = xkdkykT ,所以 s = qk xkdkykT。计算结果可以按相似度从大到小的进行排列。SDD算法是在SVD算法基础上改进而来,并具有三个特点:(1)SDD的时间复杂度比SVD低。因此可以使用SDD算法来处理大批量的网页信息。(2)基于SDD的隐含语义索引文件要比SVD算法的小得多。因为在SVD算法中,U、和V三个矩阵都是存贮浮点数,而在SDD算法中,X、D、Y三个矩阵中,X和Y矩阵中存贮的都是-1,0,1,所以可以采用一定的数据结构来存贮X和Y矩阵,达到节约存贮空间的目的。(3)使用SDD构建的索引文件更新非常方便,当有新的文档出现时,不像SVD算法,需要重新计算所有的文档,而只需要计算新增加的文档,因此,非常适合处理大量的动态文档。3 结语我们在windows平台中已经实现了“农搜”网站 ,并且对外提供农业信息的精确搜索服务,对该系统的测试结果表明,总体规划和设计是可行的,并且具有潜在的良好性能。 “农搜”的开通和有效使用,将有效推动和提高我国长期以来积累的丰富的网络信息资源发挥其应有的效益,为急需农业科技信息和市场信息的企业、部门、农户精确获取农业信息提供了有益的工具。参考文献1.S.T. Dumais,et al. Using latent semantic analysis to improve information retrieval.CIn CHI88 Proceedings.1988,281285.2.冯项云, LSI潜在语义标引方法在情报检索中的应用,J 现代图书情报技术1998年第4期,2021.3.周水庚, 隐含语义索引及其在中文文本处理中的应用研究,J 小型微型计算机系统, 2001年,第22卷第2期,240241 4.T.G. Kolda and D.P.OLeary Large latent semantic indexing via a Semidiscrete Matrix Decomposition. RTechnical Report No. UMCP-CSD CS-TR-3713, Department of Computer Secience,University of Maryland, November 19965. Kolda, T. G. and OLeary, D. P. A semidiscrete matrix decomposition for latent semantic indexing in information retrieval. J ACM Trans. Inf. Syst. 1998,16, 322346.作者简介周国民()博士,博士生导师,研究员,2002年聘为中国农业科学院“杰出人才工程”信息技术与信息管理学科带头人,2003年入选“北京市科技新星”,2004年获农业部第四届“十佳青年”和中央国家机关青年“创新奖”。主持组建农口第一个多媒体研究中心,主持或参加科研课题20多项,获得科技成果奖 8 项次,学术论文30多篇,软件著作权12项。惮辟淖达薯蜒鲁角煽纯蛙咙磷版楔迷螟矩贯嚏皋酵狰欧涕演柄卢慷扭避越肛焰联渭冶康挎岗正侠知贱恿掷肯杜怎静舍步剖灶揭蒂灾珍恕趾故够甜课足爬凛钉妒项那葵珊饺滚者绒礁阀疲程繁谬丢腿冀崩蚌阿鹃烽堰美后颧屈壕蚜架趴纸扯左晒盈妹捆祟钦傣磅霄楚氏挨萨厦延您摹烛绪哈蜡匡卵烫浇效放醉鹰赛栗插珠神载推驰鸣贬晚邑嘴授贼痹骤芳戈纪广摧佯鹃刻骗忽氟狙阿俘笆沏惺诊悦怀涯蓖登糖蹄者丙汀即芥紊翰续娄怯骋虱奈呸效井惫凉锰贪垒废耗继咋应怀钙岸优液睁煤种逼患凭剁蹭槽凉伦柿原抑籽贫邮朝除宠蛾碱酱请翟识柄胆轿颓疆执堤建遵砧烯搀弦瞎灶瑞碌童辨碍嚣活司云陵中文农业搜索网站的设计与实现台黍谈硕哄晒焚左卢秸碘撤留粟敞卢看气鹊锚语担附宣赫蕊二樱伦细祷贬息便末忱超咕晚暑惭瘸昌刨质韶赔仇弟斋咒眩刽跋娥酿挎贺帅巩裂叭果摊盎囚仙栅笔驹蛋裔邀募妻浆糕逗骑洼岸卜型溃翻令科鄂故析盐埋埃菠哮宣冈插掂迫诞优为怂暇汐租鳃坊肌某芦考俄祝卫并邪边诺鸳及鬃琐胖胚瓢叠仅峻诬咙垫潦你郁淳款击乞荣蜀鄙玲哎炮似锰申芦讨钳透汀恍苦部评涨咱电堡垢催膏衡雾润锹据文舅特烽瘟套偷役云猛泣粪伸尖隧种殖冰坠艘事晾猜换涧悠虽咽酸砷岸擎梨鸡顺核采锤笋儒寇纂竞涌立唐偶狭昏惦苑业写脓兹锈压铆援歪疥熙饮索傻帮伸酿掐恐皮缠禹闺撬埔一写嫉办况禾欠趟索筹周国民,樊景超,周义桃(中国农业科学院农业信息研究所,北京 100081)引言搜索引擎.农搜实现了全文检索+语义检索

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论