




已阅读5页,还剩66页未读, 继续免费阅读
(管理科学与工程专业论文)基于本体的我国电子信息产品TBT预警信息搜索研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
、a 独创性声明 4 m 1 1 1 1 1 1 1 1 1 1 1 1 i l l m 洲! ! ! i y 17 8 8 3 8 9 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 ( 厂 已在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 加l o 舌1 l 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 舟,、 摘要 摘要 技术性贸易壁垒( t e c h n i c a lb a r r i e r st ot r a d e ,简称t b t ) 已经成为影 响我国外贸出口的最重要的贸易壁垒。建立并优化关于t b t 的预警信息搜集系统 变得十分重要。提供实时、准确、有效的预警信息,使企业、政府能够及早发现 警情,及时采取有效对策,最大限度地避免外贸出口受进口国t b t 的影响,最大 程度地减少由这些影响所造成的损失,是我们建立预警信息搜集系统的目的。 但是当前的信息检索机制存在着一些缺陷,对于用户提交的查询请求语义识 别能力不强,以致整个系统的智能化程度不高,无法保证用户对于信息的查准率 与查全率要求。针对这一问题,本文从以下几个方面展开研究: 1 ) 通过仔细研读国内外关于本体构建及信息搜索技术最新的研究成果,总 结出适合本文的本体构建以及信息搜索的方法。 2 ) 运用解释结构模型( i n t e r p r e t a t i v es t r u c t u r a lm o d e l i n g ,简称i s m ) 的方法,分析电子信息产品领域技术性贸易壁垒实施的主要影响因素,从中找出 各因素之间的内在结构关系。根据各因素的重要程度,确定该领域的顶层本体因 素,为下一步完善电子信息产品领域本体,建立更加可靠的基于本体的电子信息 产品t b t 预警信息搜集系统奠定了基础。 3 ) 通过改进传统的骨架法,设计了电子信息产品领域的技术性贸易壁垒预 警本体结构和该领域本体所应用的预警信息搜索系统的框架,提出了系统所必须 的语义推理以及搜索结果排序、自动文档摘要的算法,并开发了系统原型。试验 结果表明:该系统在保证查准率的同时,较大程度的提高了搜索结果的查全率。 关键词电子信息产品;技术性贸易壁垒;领域本体;信息搜索;原型实验 北京t 业大学管理学硕十学位论文 a b s t r a c t a b s t r a c t t e c l m i c a lb a r r i e r st 0 r r a d eh a sb e c o m em em o s t 佃1 p 0 1 t a n t 仃a d eb 狐e r st 1 1 a t a 腩c to u rc o 咖se x p o r t n sv e 巧i n l p o r t a n tt 0e s 协t ) l i s ha i l do p t 硫娩en l e e a r l y w 锄i l l gi 1 1 f o 衄a t i o n a r c hs y s t e ma b o u tt b t t h a ts y s t e m 埘1 1p r o v i d er e a l 劬e ,a c c l l r a t e ,e 丘b c t i v ee a r l y - w 枷n gi 1 1 i o n n a t i o 玛m a k ee n t 唧r i s e ,g o v e 如啦e n tf i n d t h ea l 锄弱e a r l y 弱p o s s i b l e ,t a l m ee 日e c t i v er n e a s u r e si nt i i n e ,a v o i d 也ei n f l u e n c e b yt b t ,l o w e r 恤l o s si nm a x i m 哪1 1 1 e s ea r eo u rp u r p o t 0e 鼬l i s h 骶 i i l f o 彻a t i o ns e a r c hs y s t e m b u tt h ec u n e n ti i 曲m a t i o ns e 锄hm e c h a 血s mh a ss o l n ed e f - e c t n ss e m 觚t i c r e c o 鲥t i o na _ b o u ti n q u i r ys d b m i t t e db yu s e ri sw e a k s 0t h ei 1 1 t e l l i g e n c el e v e lo f l e w h o l es y s t e mw 勰n o tl l i g l l c 觚n te n s u r et i l er e c a l lr a t i o 锄dp r e c i s i o n t bs 0 1 v et l l i s p r o b l e m ,t h j sp 印e rs t a r tr e s e a r c hi i l 廿l ef o l l o 讹g 唧e c t s 1 ) s 1 1 n 埘耐z et l l em e t l l o da _ b o u te 嘲b l i s ho n t o l o g ya n di n 】b m a t i o ns e 锄c 量l ,b y r e a d i i l g l er e s e a r c ha b o u tn l e s e a r e a 2 ) ,1 1 1 i sp a p e ra n a l y s e dm ee 毹c tf k t o r so ft l l et e c l 血c a lb a r r i e r st o 位a d ei 1 1t l :屺 d o m a i no fe l e c 仃0 1 1 i ci i 曲m a t i o np r o d u c t sb yi n t e 印r e t i v es t r u c 删m o d e l i n g ,f o u n d m ei n :h e r e mr e l a t i o n 蛳p 锄o n gt h e s ef 撕o r s ,d e f i n e dm et o p - l e v e lo m o l o g yi n 衄s d o m a 旭e 航c t i v e l yr e s o l v e d 血es u b j e c “时i l l 1 i sp r o c e s s ,l a y 吐屺f o u i l d a t i o nf o rt 1 1 e c o m p l e t eo m o l o g yi i lt l l ed o m 血o f e l e c 仃o i l i ci 1 1 f o m a t i o np r o d u c t s 锄d l er e l i a b l e e 矾y - w 觚血gi o 加帽t i o ns e a r c hs y s t e m 3 ) 恤d e v e l o p e dm e 砌i t i o 砌s k e l e t o nm e t h o d ,廿l i sp 印e rd e s i 印e d 雠 e a d y - w a m i i l go n t o l o g yc o n s f 】r u c t i o no ft e c i l i l i c a lb a 玎i e r st 0 妞a d ei i l t 王l ed o m 豳o f e l e c 仃d i l i ci i l f o m l a t i o np r 0 山l c t s ,锄dm e 仔锄e 、0 r ko ft h ee a j l y - 删n gi o 衄a t i o n s e a r c hs y s t e mw l l i c hu s e dt h j so n t 0 1 0 9 y t h ep 印e ra l s 0g a v et i l ea l g o r i t t l 】 no f s e m 锄t i ci n f e r e n c e ,t h es o r o fs e a r c hr e s u l t sa n da u t o m a t i cd o c 啪e n ts n m 龇y , d e v e l o p e dt h ep r o t o 帅es y s t e m t h et e s tr e s l l l ts h o w s t 1 1 a t 吐1 i sm e t l l o di i i l l ) m v e st h e s e a r c he 伍c i e n c y 嬲、v e u 弱e n s u r e st h ep r e c i s i o n k ey i r d se l e c 仃d i l i c 砌a m a t i o np r o d u c t s ; 1 1 3 t ;d o m 血o n t o l o g y ;i 晌n n a t i o n r e s e a r c h ;e x p e r i m e n t a lp r o t o t ) r p e i 北京t 业大学管理学硕十学位论文 一 目录 目录 摘要i a b s t r a c t i i i 第1 章绪论卜 1 1 选题的背景及意义卜 1 1 1 选题的背景卜 1 1 2 选题的意义2 1 2t b t 预警系统及信息搜索技术的研究现状3 1 2 1t b t 预警系统研究现状3 1 2 2 信息搜索技术的研究现状3 1 2 3 面向t b t 领域的搜索引擎研究5 1 3 本文的研究内容以及研究思路6 1 3 1 主要研究内容6 1 3 2 研究框架6 1 4 本章小结7 第2 章基于本体的信息搜索技术9 2 1 搜索引擎技术9 2 1 1 搜索引擎的分类9 2 1 2 现有的搜索引擎的缺陷1 0 2 2 页面排序算法1 1 2 2 1p a g e r a n k 算法1 1 2 2 2h i t s 算法1 2 2 2 3s a l s a 算法1 3 2 3 基于本体的信息搜索技术1 3 2 3 1 本体的概念1 4 2 3 2 本体内的代数系统1 5 2 3 3 本体描述语言1 6 2 3 4 本体的评价1 7 2 3 5 本体的应用1 7 2 3 6 基于本体的信息搜索步骤1 8 2 3 7 本体论工程方法学1 8 2 4 本章小结1 9 第3 章基于is m 的电子信息产品领域顶层本体分析2 卜 3 1 顶层本体概念2 卜 3 1 1 顶层本体的定义2 卜 3 1 2 顶层本体的作用2 1 - 3 2 关于解释结构模型2 2 3 2 1 解释结构模型的工作程序2 2 3 2 2 相关定义2 2 3 3 基于解释结构模型的电子信息产品顶层本体分析2 4 3 3 1 实施t b t 的影响因素2 4 3 3 2 基于解释结构模型的分析过程2 4 v 北京工业大学管理学硕十学位论文 3 3 3 对于模型的解读2 8 3 3 4 顶层本体因素分析2 8 3 4 本章小结2 9 第4 章电子信息产品领域的本体构建3 卜 4 1 改进的骨架法3 卜 4 2 领域本体的构建3 卜 4 2 1 领域本体的构建编辑工具3 卜 4 2 2 领域本体的规划以及分析设计3 4 4 2 3 领域本体的表示3 6 4 3 本章小结4 0 第5 章基于本体的t b t 预警信息搜集系统原型展示4 卜 5 1 基于本体的t b t 预警信息搜索系统简介4 卜 5 1 1 用户登录模块4 1 - 5 1 2 用户输入及分析模块4 2 5 1 3 查询分析模块4 2 5 1 4 领域本体库4 2 5 1 5 网页信息抓取模块4 2 5 1 6 网页信息检索模块4 3 5 1 7 结果反馈模块4 4 5 2 主要实现技术4 4 5 2 1j e n a 对本体的解析4 4 5 2 2 查询结果的排序4 5 5 2 3 查询结果的自动摘要4 6 5 3 预警信息搜索系统原型展示4 7 5 3 1 原型实验4 7 5 3 2 原型系统评估4 8 5 4 本章小结5 0 结论与展望5 l - 参考文献5 3 攻读硕士学位期间所发表的学术论文5 7 攻读硕士学位期间参与的项目5 9 致谢6 1 第1 章绪论 1 1 选题的背景及意义 第1 章绪论 1 1 1 选题的背景 当前,世界经济的主要特征是经济全球化与区域经济一体化,各国之间的贸 易联系愈发紧密。在这样的大背景下,国际贸易壁垒的种类以及形式也在随之发 生着变化:由传统的关税壁垒向更加灵活、隐蔽的技术性贸易壁垒转变,并且, 技术性贸易壁垒在整个贸易壁垒中所占的比重越来越大。 技术性贸易壁垒( t e c h n i c a lb a r r i e r st ot r a d e ,简称t b t ) 又称为技术 性贸易措施或者技术壁垒,是指一个国家或地区通过颁布法律法规、技术标准、 认证体系、合格评定程序等形式,以保护环境、保障人类以及动植物的健康和安 全、保证产品质量等为由制定的一些强制性及非强制性的贸易障碍n 1 。由于这些 贸易壁垒大多数是在“技术层面”提出的,拥有合法的外衣,是当前国际贸易中 最为隐蔽、最难以对付的贸易壁垒,因此,成为各个国家地区限制进口的主要手 段之一。 技术性贸易壁垒已经给我国的进出口造成了很大的影响。据统计,自从加入 w t 0 以来,在我国所遭遇的三大贸易壁垒中( 通关环节壁垒、检验检疫措施和技 术性贸易壁垒) ,技术性贸易壁垒占到八成,其已经取代反倾销,成为影响我国 出口的第一大贸易壁垒。受技术性贸易壁垒影响的出口企业占到出口企业总数的 6 0 9 6 。每年受技术性贸易壁垒影响的出口额占全国总出口额的比重已经超过了 2 5 。 再来看一下我国电子信息产业的发展现状。根据电子信息产业经济运行公报 显示,我国电子信息产业销售收入从0 3 年至0 8 年实现了较快速度的增长,受国 际金融危机的影响,近两年来销售收入有所回落,如图卜1 所示。我国是世界电 子产品第一制造大国,手机、微型计算机、彩电、数码相机、激光视盘机产量分 别占全球的4 9 9 、6 0 9 、4 8 3 、8 0 9 6 、8 5 ,电子信息产品贸易额占全球的1 5 以上。然而,繁荣的背后并不能掩盖问题的所在。贸易摩擦和产业安全的形势不 容乐观。随着市场份额和国际影响日益扩大,我国电子信息产业已成为国际贸易 摩擦的焦点领域,国外运用技术性贸易壁垒阻碍我国产品出口的趋势日益明显, 跨国公司频频利用专利收费和知识产权诉讼打压国内企业,尤其是在当前经济危 机的背景下,这种趋势愈演愈烈。欧盟在实施w e e e 和r o h s 指令后,又于2 0 0 7 年8 月1 1 日提出了e u p ( e n e r g y u s i n gp r o d u c t s ) 标准,这些都对我国相关产 品出口提出了新的要求,对产业安全形势敲响了警钟,加强这方面的工作势在必 行。 北京t 业大学管理学硕一 :学位论文 图卜1 近年来电子信息产业销售收入额 f i g u r e1 1t h e 锄o u n to fs a l e sr e v e 肌ea b o u te l e c t r o n i ci n f o 瑚a t i o ni n d u s t r yi n r e c e n ty e a r s 1 1 2 选题的意义 从上面的论述中,我们可以看到,频繁而且种类繁多的技术性贸易壁垒,对 于我国电子信息产业乃至整个国民经济的发展,都造成了严重的影响。因此,如 何降低技术性贸易壁垒带来的损失,成为我们急需解决的问题,有必要针对这个 问题进行深入的研究。我们把研究的重点,放在对于技术性贸易壁垒的预警上。 预警的成败,在于相关信息的搜集。及时、准确的信息,尤其是w t o 咨询站点上 通报的信息,对于我们的预警工作至关重要。由于信息搜集的滞后,我国已经为 此付出了沉重的代价瞳1 。因此,一个及时准确有效的t b t 预警信息搜集系统,针 对相关的通报信息做到及时监测、提前发现、尽早预警,这对于减少由技术性贸 易壁垒引起的损失,起着非常重要的作用。 但是,我们也意识到,当前的信息检索机制存在着一些不足。比如:按关键 字进行搜索,结果返回一大堆与期望无关的结果;对于语义匹配的支持能力较差 等等。因此,我们有必要对其进行改善,把信息检索从目前基于关键字( 词) 的层 面提高到基于知识( 或概念) 的层面,即将搜索引擎智能化。在这里将用到本体 ( o n t o l o g y ) 技术。本体是概念化的精确描述,提供对某个领域知识的共同理解, 从不同层次的形式化模式上给出这些概念和概念之间的相关关系的明确定义,能 够提供基于语义的信息获取和信息共享,能够挖掘大量的网络信息资源中的隐含 信息和知识,使检索出的信息更能符合用户的需求。 因此,结合北京市自然科学基金项目基于m u l t i _ a g e n t 的电子信息产品t b t 预警系统,我们把本体论理念引入信息搜索领域,构建基于本体的预警信息搜 集平台,再将这个智能的信息搜集平台作用于我国的电子信息产品技术性贸易壁 垒的预警体系中,希望我们的研究,能够对电子信息产品出口企业有所帮助。国 外对我国的技术性贸易壁垒不可避免,但是我们希望,通过我们的努力,将损失 降到最低的程度。 第l 章绪论 1 2t b t 预警系统及信息搜索技术的研究现状 1 2 1t b t 预警系统研究现状 t b t 的特点决定着,为了减少技术性贸易壁垒所带来的损失,仅仅从自身做 好是远远不够的,我们必须建立一套高效的预警机制。由于我国频繁遭受国外的 技术性贸易壁垒,因此国内诸多学者都在这个领域展开研究,主要的研究成果大 致可以分为以下两类:一类是通过定性与定量分析相结合的手段,构建t b t 预警 指标体系,通过指标体系来对警情进行预警,这部分研究主要利用基于案例推理 的c b r 模型、径向基函数网络、模糊综合评价以及证据理论等方法时1 ;另一类 紧密结合当前信息技术的发展,利用数据挖掘、信息获取、多代理以及本体技术 口删,通过对发布的相关信息进行整理、鉴别,对相关领域提出警情通报。这些 研究给t b t 预测预警工作奠定了良好的基础,为今后的工作指明了研究方向,推 动着t b t 预测预警工作的发展。但同时,这些研究运用定性分析的方法比较多, 相关的预警模型多处于理论阶段,与实际需求还存在着一定的差距,如何将理论 成果具体实施还需要进一步的研究。 国外学者对于技术性贸易壁垒的研究主要集中于对t b t 影响的定量分析以 及相应的评估研究上睁1 们。与理论研究相比较,他们更多的是把注意力放在实际 应用方面。目前,发达国家的t b t 体系发展较为完善。代表性的法案有欧共体( 现 欧盟的前身) 颁布的消除商品贸易中技术壁垒的一般纲领以及关贸总协定( 现 世界贸易组织的前身) 颁布的技术性贸易壁垒协定。 1 2 2 信息搜索技术的研究现状 随着信息技术的发展,信息搜索技术也在不断地进步,以满足用户多方位的 需求。目前,国内外的学者主要在以下几个方面做了比较深入的研究。 ( 1 ) 个性化搜索。随着信息技术的发展,用户对于个性化的需求愈发强烈。 目前,实现个性化搜索的方式主要有两种,一种是借助用户所提供的个性化资料 和用户平时的搜索习惯,另一种是使用自动聚类的方式。国内学者针对该领域, 运用多领域本体、用户访问模式、类层次结构以及多关键词n 卜”3 等方式,为用户 提供个性化的搜索服务。国外学者也通过智能a g e n t 、构建用户档案n 纠硼等方式, 推进个性化搜索的发展。 在商用领域,个性化搜索也是一个热点。亚马逊推出的a 9 搜索、g o 0 9 1 e 的 “基于用户兴趣 的个性化功能以及g i g a b l a s t 推出的定制主题搜索“c u s t o m t o p i cs e a r c h ( c t s ) 工具,都是将“个性化 做为其产品的主要特点。但是, 现在针对个性化搜索的产品仍存在不足,它们距离真正成熟的个性化搜索尚有一 段距离。 北京t 业大学管理学硕上学位论文 ( 2 ) 基于知识发现方法的智能搜索。数据挖掘( d a t am i n i n g ) ,在人工智能 领域,习惯上称之为数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e , l ( d d ) ,就是指从存放在数据库、数据仓库或者其他信息库中的大量数据中获得有 效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。w e b 数据挖掘技 术主要是对信息分析模块实施改进,挖掘所搜集资料的深层次信息。利用w e b 数据挖掘技术,可以提高对于信息搜索准确性,并可以对用户搜索得到的结果再 进行相关处理,提高整个系统的查准率和查全率,因此,可以在搜索引擎中加以 应用。 ( 3 ) 基于本体的智能搜索。随着科学技术的快速发展,万维网上的信息量正 在呈几何级数增长,这一现象被形象的称为“信息爆炸”。在庞大的信息量面前, 提高信息检索效率( i n f o r l i l a t i o nr e t r i e v a l ,i r ) 变得越来越重要。近年来, 把本体论引入信息搜索领域,提高信息检索效率,成为信息搜索领域的一个发展 趋势。 国外学者应用语义网以及本体技术n 7 1 ,构建概念模型,解决了信息搜索过 程中信息丢失等问题,实现了基于本体的信息检索系统。国内学者也在这一领域 做了一系列研究,基于本体技术,利用m o b i l e a g e n t 、m u l t i a g e n t 以及改进信 息检索方法等方式n 蝴1 ,提高了对于信息检索的效率。 在分析顶层本体的研究中,已有学者通过从相对有影响的文献中抽取出有代 表性的词汇,在领域专家的帮助下确立顶层本体概念乜别;通过列举系统生命周期 中涉及的主要对象类型,搭建系统静态连接和动态运行中各元素的关系框架来划 分顶层本体1 。但是却暴露出在分析项层本体因素的过程中主观性较强的问题, 对于影响因素之间深层次的关系考虑不足,这些问题直接影响基于此建立的领域 本体的全面性以及领域本体的复用。 目前基于本体的研究国内外学者都做了大量工作,但是大部分研究都只是提 出了理论化的结论,对于将本体真正的应用到搜索实践中还存在较大的差距,因 此今后的研究工作的重点将集中在本体的实际应用中,此外,本体的编制规范以 及标准也将是研究热点。 ( 4 ) 基于p 2 p 技术的智能搜索。p 2 p 是p e a rt op e a r 的意思,可将其译为 “端对端 ,“点对点 或者“对等 。它是一种用于不同p c 用户之间,不经过 中介设备直接交换数据或服务的技术,允许网络用户交换文件。p 2 p 能使用户深 度搜索文档,强调以用户为中心,且无需通过服务器,也可以不受信息文档格式 和宿主设备的限制,来进行文件数据的交换。 p 2 p 的检索过程分为以下几个阶段:每个节点在加入网络的时候,会对存 储在本节点上的内容进行索引,以满足本地内容检索的目的。然后按某种预定的 规则选择一些节点作为自己的邻居,加入到p 2 p 网络当中;发起者p 提出检 第1 帝绪论 索请求q ,并将q 发送给自己的邻居;p 的邻居收到q 后,再按照某种策略 转发给它在网络中的其它邻居节点。这样,q 就在整个网络中传播开来,如图 卜2 所示: 图卜2p 2 p 的检索过程 f ig u r e1 2r e t r ie v a lp r o c e s so fp 2 p 基于p 2 p 技术的智能搜索也是今后信息搜索发展的一个热点。h i r o y u k i 等 人给出了p 2 p 分布式主题驱动搜索系统中的w e b 存储结构汹1 ,并据此建立了 “m o n d o n ( r c a a u ) 系统,推动了该技术在信息检索领域的发展。 1 2 3 面向t b t 领域的搜索引擎研究 根据t b t 预测预警工作对于信息搜集的需要,结合当前信息搜索技术的最新 研究成果,国内学者开展了面向t b t 领域的搜索引擎研究,对当前搜索引擎及搜 索机制提出了一系列的改进措施,如图卜3 所示。其中文献 2 5 从理论上描述了 t b t 监测预警系统的结构,各功能模块的特征以及整个预警系统应该如何实施。 文献 2 6 提出了基于a g e n t 和o n t 0 1 0 9 y 的搜索系统设计,将多代理和本体理论 引入对于技术性贸易壁垒的预测预警领域中来,但是该文只是简单的提出了基于 o n t o l o g y 的研究思路,对于如何进行具体实施并未深入研究。文献 2 7 在之前 的研究基础之上提出了基于o n t o l o g y 的智能搜索技术的设计,提出了o n t o l o g y 库的理论及其设计,在一定程度上提高了信息搜索的查全率和准确率。但是对 t b t 领域本体库的建立还远远不够完备,类别划分不够细,导致t b t 信息获取不 够准确等。以上的这些研究,对于t b t 的预测预警工作,起到了重要的推动作用, 在理论模型研究的基础上实现实际应用,将是今后工作的重点。 北京工业大学管理学硕十学位论文 l 同络信皇检囊i - 囫一 z - k 黝! 如! 韬 一,、一 l 惘页翩蹑取尊魄j lt 脚 - - _ _ - _ , 数 一 匝三 _ 专页信息蟹謦利 据 匿p 品吲 传 叠 广l 1 竺竺竺! 竺i 幽 囡 图卜3 面向t b t 领域的预警系统知识框架 f i g u r e1 3t h ek n o w l e d g ef r a m e w o r ko ft b te a r l y w a r n i n gs y s t e m 1 3 本文的研究内容以及研究思路 1 3 1 主要研究内容 综上所述,技术性贸易壁垒,已经对我国的外贸出口,造成了比较严重的影 响,尤其是在电子信息产品领域。我国每年的t b t 通报数量,电子信息产品行业 都位居前列。因此,我们有必要针对电子信息产品领域,建立一个高效、实时、 准确的预警信息搜集平台。 本文的研究目标,就是在这个领域有所突破,仔细研究国内外关于本体理论 和智能信息搜索技术的最新发展状况,综合前人的研究成果,设计电子信息产品 领域的t b t 预警本体,基于此领域本体构建电子信息产品t b t 预警信息搜集系 统,以此来提高对t b t 预警信息搜索的准确性,并设计原型来验证这个系统的有 效性。 1 3 2 研究框架 本文的研究框架如图卜4 所示: 第1 章绪论 国内外搜索技术的ii 国内外本体技术的 ll 国内外关于电子信息产品 现状研究 ii 现状研究 il 领域t b t 预警的现状研究 排序算法的优化 查询结果的自动摘要 项层本体概念的确定 领域本体的构建 基于本体的智能搜索技术研究 我国电子信息产品t b t 预警信息搜集系统的实现 图卜4 本文的研究框架 f i g u r e1 - 4r e s e a r c hf r 锄e w o r ko ft h i sp a p e r 1 4 本章小结 本章从近年来技术性贸易壁垒对我国外贸出口以及电子信息产业的影响出 发,阐述了建立及时、有效的电子信息产品技术性贸易壁垒预测预警系统的重要 性,并结合当前t b t 预警以及信息搜索领域的相关研究,明确了本文的研究内容 为构建电子信息产品领域t b t 预警本体以及基于此领域本体建立t b t 预警信息搜 集系统,在此基础上,给出了本文的研究思路。 北京丁业大学管理学硕十学位论文 第2 章基于本体的信息搜索技术 第2 章基于本体的信息搜索技术 2 1 搜索引擎技术 2 1 1 搜索引擎的分类 随着信息技术的进步和互联网技术的发展,搜索引擎已经深入人们生活的方 方面面,成为我们在工作、学习、生活中不可或缺的工具。据调查,访问搜索引 擎已成为8 8 的w e b 会话中的第一步。搜索引擎是一个多学科相互结合的成功范 例,主要融合了当前的计算机、因特网技术以及索引理论嘲。 搜索引擎按其工作方式主要可以分为三种,分别是全文搜索引擎、目录索引 搜索引擎和元搜索引擎。 ( 1 ) 全文搜索引擎( f u l lt e x ts e a r c he n g i n e ) 。全文搜索引擎是名副其 实的搜索引擎,是从由互联网上提取的各个网站的信息而建立的数据库中,检索 与用户查询条件相匹配的有关记录,然后按一定的排列顺序将结果返回给用户。 在此类搜索引擎中,国外具有代表性的有g o o g l e 、f a s t a 1 l t h e w e b 、a l t a v i s t a 、 i n k t o m i 、t e o i a 、w i s e n u t 等,国内著名的有百度( b a i d u ) 。 从搜索结果来源来看,此种搜索引擎又可进一步分为两类,一类是租用其他 搜索引擎的数据库,按照自己定义的格式对搜索结果进行排列,比如l y c o s 搜索 引擎;另一类是拥有自己的检索程序( i n d e x e r ) ,又称为蜘蛛程序( s p i d e r ) 或 机器人程序( r o b o t ) ,这类搜索引擎自建网页数据库,直接从自己的数据库中调 用搜索结果,如之前提到的g o o g l e 、b a i d u 。 全文搜索引擎具有全文搜索、检索功能强、信息更新速度快等优点,但同时 也有其不足之处,它提供的信息虽然多而且全,但是可供选择的信息太多反而降 低了相应的命中率,即查准率不足,并且其提供的查询结果重复链接较多,层次 结构不清晰,给人一种繁多杂乱的感觉。 ( 2 ) 目录索引类搜索引擎( s e a r c hi n d e x d i r e c t o r ye n g i n e ) 。这种搜索 引擎虽然拥有搜索功能,但是从严格意义上来讲,并不能算是真正的搜索引擎, 它仅仅是按照目录分类的网站链接列表而已。用户仅靠分类目录就可以找到需要 的信息,而不必借助于关键字查询。此类搜索引擎的代表是雅虎( y a h o o ) ,其他 著名的还有o p e nd i r e c t o r yp r o j e c t ( d m o z ) 、l o o k s m a r t 、a b o u t 等。 目录索引类搜索引擎与全文搜索引擎的区别在于它是由人工建立的,通过人 工方式将站点进行了分类,首先将网站划分到某个分类下,再记录一些摘要信息, 对该网站进行概述性的简要介绍,用户提出搜索请求时,搜索引擎只在网站的简 介中搜索。 目录索引类搜索引擎的主要优点有:层次结构清晰、易于查找;多级目录, 便于查询到具体明确的主题;在内容提要、分类目录下有简明扼要的内容,可以 北京工业大学管理学硕十学位论文 使用户一目了然。缺点是搜索范围较小、更新速度慢、查询交叉类目时容易遗漏、 对于信息检索的查全率不足等等。 ( 3 ) 元搜索引擎( m e t as e a r c he n g i n e ) 。元搜索引擎可以看成是一种多个 搜索引擎的集合,它的工作原理是:当用户输入查询内容时,它同时调用多个其 他独立的搜索引擎进行检索,然后将返回的所有结果进行整理、排序,消除重复 消息,并将结果提交给用户。典型的元搜索引擎有i n f o s p a c e 、d o g p i l e 、v i v i s i m o 等,中文元搜素引擎中最具代表性的是搜星搜索引擎。 除上述三大类搜索引擎外,目前还存在以下几种形式: ( 1 ) 集合式搜索引擎。如h o t b o t 在2 0 0 2 年底推出的搜索引擎。该引擎类 似元搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供 的4 个引擎之中选择,因此称之为集合式搜索引擎更确切些。 ( 2 ) 门户搜索引擎。如a o ls e a r c h 、m s ns e a r c h 等虽然提供搜索服务, 但自身既没有分类目录也没有网页数据库,其搜索结果完全来自于其他搜索引 擎。 ( 3 ) 免费链接列表。这类网站一般只简单地滚动排列链接条目,少部分有 简单的分类目录,不过规模比起y a h o o 等目录索引来说要小得多。 2 1 2 现有的搜索引擎的缺陷 如今,随着i n t e r n e t 的快速发展,传统的信息共享越来越倾向于通过网络 这种媒介。我们可以利用现有的搜索引擎,人工或者自动的搜集我们想要的资料。 目前,信息检索主要依靠基于关键字检索以及面向主题分类两种方式来实现,前 者是拿用户输入的查询信息与之前建立的文档倒排索引进行对比,将与之匹配的 信息返还给用户;后者按照信息资源的主题性质进行分类,从主题分类树中逐层 逐点进行检索例。 但是,随着信息技术的飞速发展,互联网上的信息量成倍的增加,上述基于 关键字和主题分类的信息检索机制逐渐暴露出了一些缺陷,具体表现为以下四个 方面: ( 1 ) 查准率( p r e c i s i o n ) 和查全率( r e c a l l ) 不高。当前的信息检索主要 依靠关键字和主题分类,加之只是机械的和索引进行匹配,所得的结果中必然 在着大量与期望无关的结果;而且,机械匹配的另一弊端是,不能对用户提交 查询信息进行智能化处理,容易遗漏许多相关的有用信息,这些直接影响到了 息检索的查准率与查全率。 ( 2 ) 个性化服务提供不足。如今,个性化检索的需求与日俱增,但是目前 信息检索机制针对此问题的解决还有待改善。 ( 3 ) 简单的机械匹配,对于语义匹配的支持较差,智能化程度不高。对于 第2 章基于本体的信息搜索技术 户提交的查询内容,无法很好地进行语义扩展,简单的机械匹配影响了信息检索 的精度。 ( 4 ) 检索结果的重用性和共享性较差。对于用户的提问,搜索引擎无法从正 面予以解决,只是返回大量相关的网址信息,并且,返回的结果中很可能还包含 许多对于用户来说是无用的信息。用户若想在这些结果中找到自己想要的资料, 往往还需要花费大量的时间。如果对于查询结果能够做进一步的整理,那么对于 信息搜索效率来说将是一个很大的提高。 2 2 页面排序算法 将搜索引擎检索得到的结果,进行排序,使相对重要的页面排在前列,是各 个搜索引擎都在努力使之完善的重要步骤。目前,已经存在多种页面排序算法, 比如p a g e r a n k ,s a l s a ,p h i t s ,b a y e s i a n 等算法,这些算法都在实践中验证 了它们的有效性,下面简要介绍其中的三种算法。 2 2 1p a g e r a n k 算法 p a g e r a n k 算法是由搜索引擎巨头g o o g l e 公司在其商业搜索引擎中应用的一 种链接分析技术口h 别。这种算法的理论基础是每一个网页都应该具有一个量化的 “价值 ,并且对用户有价值的网页应该具有很高的“价值 ,这个“价值 在该 算法中用p a g e r a n k 值来衡量。 p a g e r a n k 是反映网页的重要程度的综合性指标,得到了高评价的重要网页 会被赋予较高的p a g e r a n k 值,因此,在检索结果中的排序名次也会提高。 p a g e r a n k 具体的计算公式是: p r ( 彳) = ( 1 一d ) + d ( 尸:r ( 丁1 ) c ( r1 ) + + 尸_ r ( 砌) c ( 砌) ) ( 2 1 ) 其中,咫( 彳) 是网页a 的页面权值,反映了网页a 的重要程度。互是指向网 页a 的其他网页,咫( i ) 是网页z 的页面权值。c ( 乃) 是从网页互中向外链出的 链接个数。参数d 是一个大于0 小于1 的衰减系数,一般取值o 8 5 ,表明用户 在z 继续浏览的平均概率。参数d 的引入,是因为用户不可能无限地点击链接, 可能会随机跳入另一个页面。d 的值越高,继续点击链接的概率就越大。由此, 所有页面的网页等级权值形成了一个概率分布,所有页面的网页等级权值之和是 1 。由上式可见,链接指向a 的网页越多,a 的权值越高;链接指向a 的网页z 的 权值越高,a 的权值也越高;链接指向a 的网页z 中,链出的个数越多,a 的级 北京t 业大学管理学硕上学位论文 别越低。 对于公式来说,若网页较少时,可以通过解方程计算。但面对因特网海量的 网页,只能采用一种迭代的方法计算,也就是先给每个网页一个初始值,然后利 用上面的公式,循环进行有限次迭代运算得到近似的网页权值。在迭代的过程中, 每个网页的网页权值的和收敛于整个网络的网页总数。p a g e r a n k 给出每一页面 的网页等级权值,作为搜索引擎的结果排序的一个参考,权值越高的页面排序越 靠前。g 0 0 9 1 e 就是利用p a g e r a n k 和词频统计等因素相结合的方法对搜索出的大 量结果进行相关度排序,将等级权值高的网页排在前面。 国际上很多学者也在实践中对p a g e r a n k 算法进行改进,目前,已在结合链 接和内容信息1 、基于主题敏感m 3 、效率提升瞵1 等方面取得了一定的成效。 2 2 2 t s 算法 j k 1 e i n b e r g 认为,p a g e r a n k 算法中的一些缺陷,比如每个向外链接的权 值贡献都是平均的,这一点和现实情况不符,他认为,用户输入的查询主题,是 确定网页重要程度的因素之一。据此,他提出了h i t s ( h y p e r l i n k i n d u c e dt o p i c s e a r c h ) 算法,并在该算法中提出了a u t h o r i t y 网页和h u b 网页的概念。两者是 相互对应的,其中,a u t h o r i t y 网页是指拥有大量的网页所指向,或者说被大众 所认可的网页,而提供指向a u t h o r i t y 网页的链接的页面,就被称为h u b 页面。 对用户来说,有价值的h u b 网页,一定包含着许多有价值的a u t h o r i t y 网页的链 接;另一方面,有价值的a u t h o r i t y 网页,也一定被许多有价值的h u b 网页所指 向。它们之间的这种联系,有利于发现互联网上的a u t h o r i t y 网页,这也是h i t s 排序算法的理论基础。 通过对a u t h o r i t y
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 吉林省长春市名校调研系列卷(市命题)2024-2025学年初三总复习质量检测试题(一)生物试题含解析
- 山西机电职业技术学院《代数学》2023-2024学年第一学期期末试卷
- 西藏林芝地区第一中学2025届高三全真模拟试卷生物试题含解析
- 西藏藏医药大学《播音主持语音与发声》2023-2024学年第二学期期末试卷
- 九江职业大学《刑法分论专题》2023-2024学年第二学期期末试卷
- 江苏省苏州市高新区达标名校2025届初三第二次质量监测英语试题含答案
- 上海市嘉定区封浜高中2025届高考原创信息试卷物理试题(四)含解析
- 山东省滨州邹平市2024-2025学年六年级下学期调研数学试卷含解析
- 浙江省嘉兴市嘉善高级中学2025届高三3月月考化学试题(A卷)试卷含解析
- 潍坊市昌乐县2025届五下数学期末质量跟踪监视试题含答案
- 内河船客运培训课件
- 2024-2025学年统编版七年级历史下册期中评估测试卷 (含答案)
- 2023-2029年中国鸡尾酒行业市场运行态势及投资战略规划报告
- 玻璃更换施工方案
- 煤矿防冲细则课件
- 2025-2030中国静电仪行业市场现状分析及竞争格局与投资发展研究报告
- 工贸企业重大事故隐患判定标准解读20240902
- NSA2000变频器使用说明书
- 人教版小学四年级语文下册2024-2025学年度第二学期第三单元质量检测试卷含参考答案
- 2025年度国人饮水电器白皮书-TMIC天猫新品创新中心
- 合作合同范本 英文
评论
0/150
提交评论