模糊理论在信息检索中的应用(人工智能)_第1页
模糊理论在信息检索中的应用(人工智能)_第2页
模糊理论在信息检索中的应用(人工智能)_第3页
模糊理论在信息检索中的应用(人工智能)_第4页
模糊理论在信息检索中的应用(人工智能)_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、安徽三联学院课程论文无线网络技术课程(论文) 题 目: 模糊理论在信息检索中的应用 学生姓名 1: 孟朋朋 学 号: 130101062 学生姓名 2: 王磊 学 号: 130101063 所在系院: 计算机工程学院 专业班级: 13计科2班 指导教师姓名: 裴培 职称/学位: 助教 硕士 完成时间: 2016 年 6 月计算机工程学院 制摘要:模糊理论是为了解决真实世界中普遍存在的模糊现象而发展的一门学问。模糊理论以模糊集合为基础 ,基本精神是接受模糊性现象存在的事实 ,而以处理概念模糊不确定的事物为其研究目标 ,并积极地将其严密量化成计算机可以处理的信息。本文首先简介模糊理论 ,而后将模糊

2、理论在信息检索上的应用做一探讨。希望通过本文 ,使大学对模糊理论有更深入的了解 ,并且思考如何将之更广泛地应用于图书信息学上。关键词:模糊理论模糊集合 信息检索1对模糊理论的一般解释 基于康托经典集合论的精确数学要求: 一个元素 a 和一个集合 A 的关系只存在 aA 和 aA 两种情况 。集合可以通过特征函数描述,每个集合 A 都有一个特征函数 C A ( a) ,其定义用下式表示 : 1 当 a AC A ( a) = 0 当 a A该式表明, 经典集合论容不得模糊概念。这对现实世界存在的大量模糊现象的解释造成困难。针对这一情况, 美国自动控制专家查德( L. A. Zaden) 于 60

3、 年代初提出了“模糊集合”( Fuzzy set) 概念。其基本出发点是用“隶属函数”概念来描述差异的中间过渡。这是首次从精确性向模糊性的逼进 。通过隶属函数对经典集合论中的特征函数加以推广 ,并由此引入了“模糊子集”概念。模糊子集定义如下 : 设给定论域 u,u 到闭区间 0 ,1 的任一映射 A 为: A : u 0 ,1确定 u 的一个模糊子集 A , A 为 A 的隶属度 。正如经典集合论是传统精确数学的基础一样, 模糊子集论也正是模糊理论的基础 ,同样也可以定义模糊子集上的运算。总之, 模糊理论可以将传统的二值逻辑 0, 1 ,推广至可取 0,1 闭区间任意值即无穷多个值的连续值逻辑

4、。2. 信息检索中引入模糊理论的必要性 2.1传统信息检索方法存在的问题 2.11 通过检索语与索引语的精确匹配来进行检索, 只能检索到二者完全相同的信息。 传统的信息检索以精确数学、普通的集合理论为基础, 检索系统主要基于三种经典检索模型:布尔模型、 向量空间模型和概率模型。 这三种模型的检索过程是通过检索者输入的关键词 ( 或称检索语) 与信息所登录的关键字 ( 或称索引语)之间的精确匹配来完成的, 只能检索到检索语与索引语完全相同的信息, 而对于二者在一定程度上一致或意义相近、 相关的信息却无法查询。 2.12传统的检索方式中检索者虽然可以利用检索语之间的逻辑运算及其组合来表达检索要求,

5、 但却无法描述检索者对检索语的重视程度以及检索语对信息是否贴切等许多问题。 2.13 只能对一些具有确定含义的信息进行访问和处理。在客观世界中, 许多事物都表现出其不完全或不精确的一面, 例如, 我们常说的 “ 高与矮”、“ 胖与瘦” 、 “ 美与丑”,这些词都是属于模糊概念, 既难以准确地加以度量, 也难以明确地划分界限。 在检索此类信息时传统的检索方法无法进行。2.2信息发展的模糊性2.21 信息的模糊性 现代科学技术的发展及其渗透, 许多新兴学科、 边缘学科、 交叉学科不断涌现, 使学科的分类呈现出模糊性。如 “ 生物电子学”, 它既涉及到生物学范畴, 又与电子学有关, 在对文献进行学科

6、分类时, 只能根据文献对这两门学科的侧重点多少来大概划分是属于生物学还是属于电子学方面。 在情报学范畴, 学科分类的模糊性必将反映到分类法和叙词表中, 使分类类目和叙词表达范围变得模糊。 因此, 随着科学技术的发展, 信息也呈现出模糊性。2.22 信息检索结果评判的模糊性 我们经常用 “ 文献是否相关”、 “ 文献是否切题” 来对信息检索的结果进行评判, 相应的 “ 相关性” 、 “ 切题性”也就成了评判信息检索结果的两个重要指标。“相关性” 是指信息检索时检索系统中被命中文献与用户需求文献相吻合的程度。文献的相关与不相关不是绝对的, 它本身就是模糊的, 且它们之间没有明确的界限。对用户来说,

7、 由于受多种因素 ( 比如表达信息要求不完整, 或表达不够明确,或在检索过程中对所需信息有所调整等)的影响, 检索出的文献与实际需求只有一定程度的主题相关。 而用户检索出的相关文献并不一定意味着所检文献与用户的需求相吻 合。 信息需求与文献相符的性质称为切题性。 切题性体现了用户在作判定时, 文献满足用户需求的程度, 是否切题只有在用户阅读后才能确定。 其原因在于 :提问一般是固定不变的, 而信息需求是不稳定的、 可变的。 在检索过程中, 用户阅读已获文献可能会影响他原来的信息需求, 从而影响他对后来检索出文献的切题性判断。 因此, 判断文献是否切题也没有严格的界限, 它更具模糊性、 主观性。

8、3模糊理论在信息检索中的应用 针对传统信息检索方法存在的问题和现代信息发展的特点, 许多学者对如何利用模糊集合理论来完善和改进信息检索方法做了大量的研究, 使检索效果更理想, 检索过程更具人性化。3.1对信息检索结果进行模糊聚类分析 该分析方法建立在下述假设基础上: ( 1)信息集合中任一单元都可以用若干标引词 t i (i =1, 2, , n)表示; ( 2)一篇文献中抽取的各个标引词对原文内容的揭示程度存在差异; ( 3)一篇文献中所使用的标引词个数和各标引词的数值, 可以作为反映文献信息主要内容的有用数据。具体步骤如下: ( 1)确定相似系数。 确定相似系数的方法有多种, 一般常用的有

9、贴近度法、 绝对值减数法和余弦计算法。 ( 2)利用相似系数, 建立模糊相似矩阵 R。 所建立的模糊相似矩阵 R , 一般具有自反性、 对称性。 ( 3)模糊聚类分析。 有两种方法:利用模糊等价关系进行模糊聚类分析将模糊相似矩阵 R 根据传递闭包法改造成模糊等价矩阵t( R), 然后进行分类。 使用模糊集的 水平截集来实现模糊集与普通集之间的相互转化。 对于任意给定的置信水平 0, 1 , 则模糊等价矩阵的 截矩阵t( R) 只有 0 和1 两种结果 ( 当相似系数大于或等于 时结果为 1, 反之当相似系数小于 时结果为 0) 。 因此, 对不同的置信水平,可以得到不同的水平截集, 从而得到不

10、同的 截矩阵。 当从 1 降至 0时, 按 所得的分类结果将由细变粗, 逐步归并 , 从而形成一个动态的聚类图。 这样, 就可根据实际情况和置信水平来鉴别文献之间的接近程度, 并把彼此接近的文献归为一类。利用最大树方法进行模糊聚类分析将相似系数从大到小排列, 以所有文档作为顶点, 将相似系数相同的顶点连接, 并在相应的线段上注明该相似系数作为该边的权( 不能出现相交线)。若在连接某两个顶点时出现回路, 则不连接此边, 直到全部对象连通为止,从而得到了最大树( 此树不一定惟一)。通过这种方法得到的树, 其边的权最大, 所以称为最大树。 取 0, 1 ,去掉线段上值小于 的连线, 就可得到一个不连

11、通的图,而剩下互相连接的连通分支就在水平 上聚于一类。 根据不同的 , 可以得到结果不同的聚类图, 再根据实际情形,分析得到聚类结果。3.2对自然语言的加权标引 自然语言表示中带有大量含有模糊性的词汇, 为了描述这些模糊词汇, 首先需要为之建立表现其含义的隶属函数, 在具体运用中, 由于事物本身具有的不确定性和人们认识事物的局限性, 所以只能建立近似的隶属函数表示。隶属函数的确定方法有多种, 其中利用模糊分布函数去逼近隶属函数的方法使用最为广泛, 常用的几种最主要的模糊函数分布为:( 1)左大右小的偏小型下降函数 1 X C (x)= 1+a(x-c)b -1 X >C其中:C 是论域U

12、 中任意一点, a 和 b 是两个参数,且 a>0, b>0。( 2)右大左小的偏小型上升函数 1 X C (x)= 1+a(x-c)b (-1) X <C其中:C 是论域U 中任意一点, a 和 b 是两个参数,且 a>0, b>0。( 3)对称中间型正态凸函数 (x) =e -k(x-c)2其中:C 是论域U 中任意一点, k 是参数, 且 k >0。用自然语言来描述的信息是模糊的, 但有时模糊词汇的程度不同也会引起表示含义的不同, 例如,“漂亮” 与“很漂亮 ”两个模糊词汇表示的含义是有所区别的。 因此,为了更好地表述自然语言, 需要对模糊词汇作定量分

13、析,以区分和确定模糊性的不同程度, 常见的修饰词如:非常、特别、 很、 比较、 相当、 有点、 稍微、 大略、 大约等, 称为语言算子, 并分为三类:( 1)语气算子用来描述模糊词汇的表示程度, 一种为集中化算子,如: “ 很”、 “ 极” 等, 具有强化作用, 可以使隶属函数的分布呈尖锐化 ;另一种为松散化算子, 如: “ 较”、“ 稍微”等, 具有使隶属函数分布趋于平坦化的作用, 带有语气算子的模糊词汇隶属函数表示为: HA ( X)= A ( X) 其中:A 为模糊词汇, H 为语气算子。 可以假设:H 4代表 “极” , 定义为描述的模糊词汇的 4 次方;H 2 代表“很”,定义为描述

14、的模糊词汇的 2 次方;H 1/2 代表 “ 稍微有点” , 定义为描述的模糊词汇的1/ 2次方。由于集中化算子的幂次大于 1( >1) , 经过乘方运算后, 隶属函数曲线向中央集中, 幂次越高分布越集中, 表示的范围越狭窄;相反, 松散化算子的幂次小于 1 (<1), 经过乘方运算后, 隶属函数曲线向两边散开, 幂次越低分布越平坦, 表示的范围越宽广。( 2)模糊化算子用于将肯定词汇转为模糊词汇或将模糊词汇变得更加模糊 , 如:“ 大约”、 “ 近似于”、 “ 约等于” 等修饰词都属于模糊化算子, 带有模糊化算子的模糊词汇隶属函数表示为: FA ( X)= EA ( X)= vy

15、 U ( E (x, y) T A ( y) ( 或 A ( X) ) )其中:A 若为精确词汇, 其特征函数为 T A (x), 若为模糊词汇, 其隶属函数为 A (x);F 为模糊化算子;E 是论域U 上的一个相似关系; E (x , y)=e-x-y20 x -y ( >0)为参数, 用于调节模糊词汇的表示范围。( 3)判定化算子与模糊化算子具有相反作用, 如:修饰词 “ 倾向于” 、“ 偏向于” 等, 是将模糊词汇进行肯定化处理并作出倾向性判断 , 具体处理方法有点类似于 “ 四舍五入” , 判定化算子在实际应用中并不多见。2. 3提高用户需求提问与检索系统输入的相关性 由于传统

16、的检索模型对不确定性知识的处理有其固有的局限性, 在文档信息或是用户查询具有模糊性的时候,它就不能很好地满足用户的查询需求。 为了克服这一缺点,可以采用基于模糊语言方法的信息检索系统模型, 通过引入语言变量的概念, 在信息表示中考虑语言值权重, 用语言值权重替代数值权重, 而在文档表示上 , 引入了数值权重。 权重系数语言变量采用有序语言值集合 S , 假设 S =s i , i 0, 1, 2, , N为一语言值集合。 其中的每个元素均为描述某个语言变量的同种类型的语言值, 该集合中元素的个数称为集合的势, 势表征了语言值集合描述语言变量信息模糊程度大小的粒度, 势值越小, 则语言值集合描述

17、该语言变量越模糊, 反之, 越精细。 但该值越大,所需的计算量也越大, 综合权衡, 取势值的大小为 7 或 9。若 S 具有下列性质:如果 i j, 有 s i s j 。 其中 s i 、 s j 为语言值在 0, 1 上所代表的模糊数。 则称 S 为有序语言集合。如果其元素在 0, 1 上呈对称分布, 则它满足如下运算:( 1)求极大:MAX( s i , s j )=s i , 如果 s i s j ;( 2)求极小:MIN(s i , s j ) =s j , 如果 s i s j ;( 3)求反:Neg(s i )=s j , 其中 j=N -i。随着科技发展的多元化和现代信息发展的

18、特点, 模糊集合理论在信息检索中的应用日趋广泛, 因此许多学者对此进行了大量的研究, 取得了一些成果, 但绝大部分的研究仅仅是局限于理论研究, 目前我们所使用的数据库检索系统仍然主要是基于传统的集合理论, 对于如何将模糊集合理论的优势有效的运用于实际信息检索之中, 还是一个亟需解决的问题。4模糊理论在信息检索中应用现状的分析 综上所述, 模糊检索对用户查询的检索结果是一个建立在文献集上,且其隶属函数就是文献信息对用户查询的相关程度的模糊子集。就目前的水平来说, 隶属函数在很大程度上并没能完全反映出文献对用户查询相关度的真实情况。其主要原因是: (1)在对文献信息进行加权标引时 ,设定文献信息是

19、标引词集上的模糊子集, 它假定了标引词集中各个标引词之间是相互独立的 ,这符合模糊理论的要求 ,但由于概念相关的模糊性 ,两个标引词在不同程度上总存在着语义上的关联 。另外, 上述模糊子集的隶属函数虽然反映了文献信息对标引词的论述深度 ,但还没有十分有效的方法精确地确定这个隶属函数 。目前可以知道 ,确定这个隶属函数的依据是文献对标引词 t 的论述程度与标引词 t 在文献信息中的出现频数存在着某种一致性 。 (2)提问匹配中引入的模糊算子是 Max 和 Min 算子 ,它们虽然简易计算 ,却不能很好地反映真实的匹配过程。目前人们也定义了一些所谓的“广义模糊算子” ,但由于它们也只能在一定程度上反映匹配过程 ,且计算复杂 ,因而还没有被广泛地应用。5模糊理论应用于信息检索领域的进一步发展 应该说 ,模糊理论应用于信息检索应包括两个阶段: 理论探讨阶段和实际应用阶段 。目前,模糊理论应用于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论