版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、模糊数学在信息检索中的应用模糊数学在信息检索中的应用 摘摘 要要:本文从模糊集出发,以信息检索为应用背景,逐步引入模糊数学理论,并 以提高信息检索的准确率和检索效率为目的,提出以下思想方法: (1)为了提高检索准确率,根据模糊集理论,提出了基于文档和查询词的模糊 集表示法. (2)通过利用模糊聚类分析理论,研究了基于模糊集文档的模糊聚类方法,并 得到了分类的文档簇,同时研究了文档簇的模糊集表示法,为后续研究做铺垫. (3)为了提高检索效率,可以通过缩小检索范围来实现,据此提出了基于文档 簇的模糊信息检索模型,从而得到满足条件的文档簇. (4)为了对满足条件的文档簇中的文档进行排序,提出了基于文
2、档的模糊信息 检索模型,从而完成了检索的剩余工作,并形成完整的检索过程. (5)通过提出算例,分两种情况进行了分析:当文档集和查询项都是用模糊集 表示的,分析了基于模糊集的模糊信息检索模型;当文档集是模糊集表示,查询项 是确定的布尔类型,分析了基于模糊集的扩展布尔检索模型. 关键词关键词:模糊集;聚类分析;信息检索;检索模型;布尔检索 fuzzy mathematics application in information retrieval abstract: for improving the information retrieval accuracy and efficiency of
3、 searching, this paper, which puts information retrieval as application background and gradually introduces the fuzzy mathematical theory, puts forward the following thoughts and methods: (1) in order to improve retrieval accuracy, this paper, according to the fuzzy sets theory, put forward the fuzz
4、y sets representations, based on both the inquiry word and the document. (2) through fuzzy clustering analysis theory, we study the fuzzy clustering analysis method based on the document cluster and acquire the classification of the cluster. and we also study the representation of the document class
5、ification, based on the fuzzy sets. it is laying groundwork for the follow-up study. (3) in order to improve the search efficiency, we can do it through narrowing the searching range. so the paper puts forward the fuzzy information retrieval model, which is based on the document cluster. then we get
6、 meet the satisfied document clusters. (4) in order to sort the satisfied document clusters, we put forward the fuzzy information retrieval model, which is based on the document. thus we complete the surplus work of retrieval, forming a complete search process. (5) by presenting examples, two cases
7、were analyzed: when the sets of documents and query terms are represented by fuzzy sets, we analyze the fuzzy information retrieval model based on the fuzzy sets; when the set of documents is fuzzy set and the set of the query terms is the boolean sets, we analyze the boolean information retrieval m
8、odel based on the fuzzy sets. keywords: fuzzy sets;clustering analysis;information retrieval;retrieval model;boolean retrieval 目目 录录 1 绪论.1 1.1 论文研究的背景及意义.1 1.1.1 论文研究的背景及目的.1 1.1.2 国内外研究现状.1 1.1.3 论文研究的意义.1 1.1.4 论文研究采用的方法及理论依据.2 1.2 论文构成及研究内容.2 1.3 模糊集的基本概念.2 1.4 模糊理论的数学基础.2 1.4.1 经典集合.2 1.4.2 模糊集
9、合.3 1.4.3 归属函数.3 1.5 模糊子集及其运算.3 1.5.1 模糊集的相关定义.4 1.5.2 模糊集的运算.5 1.5.3 模糊集的其他运算.5 1.6 模糊集的基本定理.6 2模糊聚类检索策略.7 2.1 相关概念.7 2.2 模糊聚类分析.7 2.2.1 选择模糊聚类方法.8 2.2.2 词频矩阵.8 2.3 基于编网法的模糊聚类分析模型.9 2.3.1 构造模糊相似矩阵.9 2.3.2 模糊聚类之编网法.10 2.3.3 基于文档集合的模糊聚类编网法的应用.10 2.4 文档簇的模糊表示法.11 3 模糊概念网络.12 3.1 模糊概念网络的结构.12 3.2 基于文档的
10、模糊概念网络的构建.12 3.3 基于文档簇的模糊概念网络的构建.14 4 基于文档簇和文档的信息检索模型.15 4.1 基于文档簇的模糊信息检索模型.15 4.1.1 文档簇和查询项的模糊集表示.15 4.1.2 相关性.15 4.1.3 检索方法.17 4.2 基于文档的模糊信息检索模型.18 4.2.1 文档和查询项的模糊集表示.18 4.2.2 相关性.18 4.3 检索方法.18 4.3.1 基于模糊集的扩展布尔检索.18 4.3.2 基于模糊集的模糊检索.20 5模糊信息检索模型实例分析.23 5.1 基于模糊集的扩展布尔检索实例分析.23 5.2 基于模糊集的模糊检索实例分析.2
11、4 6 结论.26 参考文献参考文献.28 致致 谢谢.29 1 绪论绪论 1.1 论文研究的背景及意义论文研究的背景及意义 1.1.1 论文研究的背景论文研究的背景及目的及目的 自从美国著名控制论专家、加利福尼亚大学l.a.zadeh教授1965年建立模糊集理 以来,在各国学者的共同努力和不断探索下,模糊集理论及其应用的研究成果 1 论 已非常丰富.它不仅发展和扩充了经典数学的研究领域,使数学学科的研究体系发生 了重大变革,而且能有效地解决经典数学难以解决的大系的复杂性问题,以及在自 然界和日常生活中普遍存在而无法解决的模糊性问题,比如信息检索. 模糊数学理提出后,信息检索领域的学者就尝试将
12、其应用于信息检索中, 2 论 并且取得了长足的发展,产生了一大批优秀的模糊信息检索应用理论,为模糊数学 的应用开拓了新的领域,比如:模糊聚类分析在信息检索中的应用、模糊集在信息 检索中的应用、模糊推理在信息检索中的应用等.总体来看,这些应用理论为模糊数 学发展开辟了新的空间,增添了新的活力. 本文以模糊数学理论为基础,提出了一套新的信息检索应用方法.此方法的提出 主要希望达到一下目的: (1) 为了提高信息检索的准确性,提出了基于模糊集的信息检索模型; (2) 为了提高信息检索的效率,提出了基于文档簇的模糊信息检索模型,并 将“基于模糊聚类分析的检索策略”应用到模型上. 1.1.2 国内外研究
13、现状国内外研究现状 目前,信息检索发展迅速,并产生了优秀的检索模型:向量空间模型,概率模 型,语言模型,推理网路模型,布尔检索,lsi,神经网络方法,遗传算法,模糊集 检索模型等.同时,也促进了提高模型性能的检索策略的探索和发展,常用的检索策 略:相关反馈,聚类,基于片段的检索,语言解析,n元语法,同义词表,n元语法, 语义网路,回归分析. 由于检索效率及稳定性的瓶颈,使得模糊信息检索实际应用发展缓慢,其在信 息检索领域的应用还比较有限.从国外来看,模糊数学应用到信息检索的案例还很少, 大多数相关应用都处于实验阶段;从国内来看,模糊数学的信息检索应用案例几乎 没有.总体来看,都是由于其不稳定及
14、效率问题决定的,所以实现效率及稳定性的突 破就显的很重要了. 1.1.3 论文研究的意义论文研究的意义 模糊数学自身的理论研究进展迅速.我国模糊数学自身的理论研究仍占模糊数学 及其应用学科的主导地位,所取得的研究成果在模糊数学 、 模糊系统与数学 等数十种学术期刊和全国高校学报中经常可见,模糊聚类分析理论、模糊神经网络 理论和各种新的模糊定理及算法不断取得进展. 通过研究模糊数学在信息检索中的应用,提出一种新的方法,来提高模糊信息 检索的效率.同时,使得模糊数学的应用分支更丰富. 1.1.4 论文研究采用的方法及论文研究采用的方法及理论依据理论依据 (1)通过提出模糊集和模糊聚类分析理论,首先
15、将样本文档表示成模糊集,并 利用模糊聚类分析方法对文档模糊集进行模糊聚类,同时提出了分类文档簇的模糊 集表示方法,从而建立了文档簇的模糊集. (2)通过基于词项概念和文档簇的模糊概念网图,为建立模糊信息检索模型, 提供了直观的检索对象关系图. (3)通过建立基于文档类簇的模糊信息检索模型,得到满足条件的文档簇,从 而为后续处理缩小检索范围,这在一定程度上提高了检索效率. (4)针对得到的文档簇集中的文档,建立基于文档的模糊信息检索模型,从而 得到排序的检索结果. (5)为了直观描述模糊信息检索模型,添加了模型的实例分析. 1.2 论文构成及研究内容论文构成及研究内容 论文主要内容主要包括:1.
16、介绍了模糊数学的信息检索应用现状,研究该课题 的意义、目的、提出的方法及实现模型;初步阐述了模糊数学在信息检索的应用;2.介 绍模糊聚类检索策略,根据制定的阈值,将样本文档分为一些类簇,并且为满足条 件的文档簇建立其模糊量集度量方法,为下面的研究做铺垫;3.介绍模糊概念网络 图的建立,使得研究变的更加直观;4.介绍基于文档类簇的模糊信息检索模型,从 而得到簇类的检索结果,减小了检索的范围,在一定程度上提高了检索效率;5.介 绍基于文档的模糊信息检索模型的实例分析. 1.3 模糊集的基本概念模糊集的基本概念 模糊理论是为了解决真实世界中普遍存在的模糊现象而发展的一门学问.模糊理 论以模糊集合为基
17、础,基本精神是接受模糊性现象存在的事实,而以处理概念模糊 不确定的事物为其研究目标,并积极地将其严密量化成计算机处理可以处理的信息. 实际上,模糊理论是模糊集合,模糊关系,模糊逻辑,模糊控制,模糊测量等理论 的泛称,我们通常称之为模糊数学. 1.4 模糊理论的数学基础模糊理论的数学基础 1.4.1 经典集合经典集合 模糊理论的基础是模糊集合和归属函数,所谓集合是一些具有某种共同特质事 物汇总起来的组织,用来归纳一群具有相同特征事物.一般而言,传统意义上的集合 具有下列共同的特点:同一集合中的元素具有某种相同的性质;集合是元素组成的 整体,元素之间可以互相区别;集合里的元素是确定的.然而经典集合
18、具有两条基本 属性:元素彼此相异,即无重复性;范围边界分明,即一个元素 x 要么属于集合 a(记 作 xa),要么不属于集合(记作 xa),二者必居其一. 1.4.2 模糊集合模糊集合 模糊数学是研究和处理模糊性现象的数学方法.众所周知,经典数学是以精确性 为特征的.但与精确形相悖的模糊性并不完全是消极的,没有价值的.甚至可以说,有 时模糊性比精确性还要好. 例如我们要给“偶数”这个集和下定义时,我们很明确的知道这个集合中的每个 元素,对于任何给定的数值,我们都清楚的知道它是否属于这个集合.但是当我们为 “中年人”这个集合下定义时,多少会遇到困难,因为具体的所谓中年,指的是几岁 到几岁?相信每
19、个人对中年的定义都是不同,假定从满 35 岁起到满 55 岁为止定义 为中年,那么 34 岁的人还未迈入中年,只要增加一岁的那个瞬间就马上变成中年. 另外,过完 55 岁迈入 56 岁生日的瞬间又已不再是中年人.基本上,这是相当不合理 的方式.前述“中年”定义之所以会不自然,是因其界线太过清楚所致,当界线缓和一 些,则不自然会消失.因此,如果以“中年程度”来考虑或许会比较适当.譬如 说 30 岁的中年程度是 0.6,35 岁的中年程度是 0.65,随着不同年龄,其程度也徐徐变 化,而此问题也就能获得根本上的解决. 此种重新扩张定义的集合,由 l.a.zadeh 教授提出,称之为模糊集合. 1.
20、4.3 归属函数归属函数 把传统的集合论特征函数从非 0 即 1 的二值选择,推广为可从 0 到 1 之间的任 何值来做出选择,此新型的特征函数,称之为归属函数.归属函数是模糊理论中最基 本的概念,而我们可以用归属函数来表示模糊集合:在域上的模糊集合,由归ua 属函数来表征,在区间中取值,值的大小反映了元素对于)(x a )(x a 1 , 0)(x a x 模糊集合的归属程度.的值越接近 1,就表示元素属于的程度越高.当a)(x a x a 就是上限,表示完全属于.反之,若的值越接近 0,就表示属于 a 1x a a x 的程度越低.当就是下限,表示完全不属于.对于来说,距离 a 0 a x
21、 a 5 . 0 a “完全属于”和“完全不属于”最远,所以它的模糊度也最高.因此,模糊集合也被定义 为元素与归属函数的组成集合. 1.5 模糊子集模糊子集及其运算及其运算 模糊集最早出现于文献1,12-18.模糊集提出了使用隶属函数来标明元素在集合 中的隶属度,而不是假设元素是某个集合的成员.对于信息检索,模糊集是非常有效 的,因为它可以描述一篇文档是“关于”什么内容的.描述文档关于什么内容的一组元 素的集合本身就具有不确定性.关于“交通”且与诉讼之间间接相关的文档,或许可能 是关于“交通事故”的文档.尽管将“交通事故”作为集合的一个元素实际上并不精确, 但是将其从集合中排除掉也是不精确的.
22、模糊集就是一种隶属度,其中每个元素的隶 属力度本来就精确.在这个例子中,描述文档概念的集合的形式如下: )5 . 0()0 . 1(诉讼案,交通,c 由于每个元素还附带其隶属度,所以集合 c 是一个模糊集.在模糊集 中包含的概念可以形式化地表示为:,., 21n cccc nnnaa cfccfccfca ,2 . 2 11 ,.)(, 其中:表示隶属函数,用于标识集合中元素的隶属度.对于有限集合, a f 1 , 0c 模糊集表示为: .a n naaa c cf c cf c cf a,., 2 2 1 1 接下来我们给出了模糊集的基本操作:求交集和并集.从根本上说,求交集的方法是 取相同
23、元素的两个隶属度函数的最小值,并集就是取相同元素的两个隶属函数的最 大值.模糊集的交集、并集和补集的定义: cccfcfmincf iibiaiba ),(),( cccfcfmaxcf iibiaiba ,),( cccfcf iiaia ),(1)( 1.5.1 模糊集的相关定义模糊集的相关定义 定义 1 论域上的一个模糊集合是由上的一个隶属函数来uau: )(xa 1 , 0u 表示,其中(有时用表示)表示元素隶属于模糊集合的程度.一般地,)(xa)(x a xa 如果论域是有限集合或可数集合,那么一个模糊集可以表示为:ua . )( ii xaxa 定义 2 主导隶属度函数关系:当且仅
24、当对于所有.ba )()(xx ba x 定义 3 设是论域,称映射 确定了一个上的模糊子集,u: )(xa 1 , 0uua 映射称为的隶属函数,它表示对的隶属程度.使的点称为的)(xaaxa5 . 0)(xaxa 过渡点,此点最具模糊性.当映射只取 0 或 1 时,模糊子集就是经典子集,而)(xaa 就是它的特征函数.可见经典子集是模糊子集的特殊情形.)(xa 3 例 设论域(单位:)190(),180(),170(),160(),150(),140( 654321 xxxxxxu )表示人的身高,那么上的一个模糊子集的隶属函数可定义为cmua)(xa 140190 140 )( x xa
25、 100200 100 )( x xa 也可用 zadeh 表示法: 1 0 x a 2 2 . 0 x 6543 18 . 06 . 04 . 0 xxxx 654321 9 . 08 . 06 . 042 . 0 2 . 015 . 0 xxxxxx a 1.5.2 模糊集的运算模糊集的运算 模糊集的并、交、余运算性质 幂等律:aaaaaa, 交换律:abbaabba, 结合律:)()(cbacba )()(cbacba 吸收律:abaaabaa)(,)( 分配律:)()()(cbcacba )()()(cbcacba 还原律:aa cc )( 对偶律: ccc baba)( ccc ba
26、ba)( 模糊集的运算性质基本上与经典集合一致,除了排中律以外,即 ,uaa c c aa 1.5.3 模糊集的其他运算模糊集的其他运算 模糊集不再具有非此即彼的特点,这正是模糊性带来的本质特征. 相等:)()(xbxaba 包含:)()(xbxaba 并:的隶属函数为 ba)()()(xbxaxba 交:的隶属函数为 ba)()()(xbxaxba 余:的隶属函数为 c a)(1)(xaxac 例 设论域(商品集) ,在上定义两个模糊集:=“商品质量 54321 ,xxxxxu ua 好”,=“商品质量坏”,并设b ) 1 , 3 . 0 , 0 ,55. 0 , 8 . 0(a )0 ,
27、6 . 0 ,86. 0 ,21. 0 , 1 . 0(b 则 =“商品质量不好”,=“商品质量不坏”, c a c b )0 , 7 . 0 , 1 ,45. 0 , 2 . 0( c a = c b) 1 , 4 . 0 ,14. 0 , 79. 0 , 9 . 0( 可见abba cc , 又 uaa c ) 1 , 7 . 0 , 1 ,55. 0 , 8 . 0( )0 , 3 . 0 , 0 ,45. 0 , 2 . 0( c aa 1.6 模糊集的基本定理模糊集的基本定理 定理 1 模糊集的基本定理 -截集 4 )()(xaxaa 模糊集的-截集是一个经典集合,由隶属度不小于的成
28、员构成. a 若论域(学生集) ,他们的成绩依次为 654321 ,uuuuuuu 50,60,70,80,90,95,=“学生成绩好的学生”的隶属度分别为a 0.5,0.6,0.7,0.8,0.9,0.95. 则 (90 分以上者)=,(60 分以上者)=. 9 . 0 a 65,u u 6 . 0 a 65432 ,uuuuu 性质:设(是论域的两个模糊子集) ,于是对-截集)(,ubaba,u 1 , 0, 有:(1) baba (2) aa (3) , baba)( baba)( 定理 2 (分解定理) 设,则)(uaax axxa,1 , 0,)( 定理 3 (扩张原理) 设映射:,
29、定义fyx yxfxayaf)(),()( 2模糊聚类检索策略模糊聚类检索策略 所谓聚类分析是根据事物间的不同特征,亲疏程度和相似性等关系,对它们进 行分类的一种数学方法,其数学基础是数理统计中的多元分析.模糊聚类分析就是建 立在模糊数学理论基础上的聚类分析,模糊聚类分析的方法有好几种(模糊传递 5 闭包法,直接聚类法,最大树法,编网法),根据信息检索的特征,此处介绍的是 利用模糊相似矩阵和编网法进行聚类的方法,其特点是能在分类数不确定的情况下 进行分类,可以根据不同的要求对事物,文档进行聚类,而且结果直观、简捷. 2.1 相关概念相关概念 为了描述信息检索的模糊聚类分析模型,我们使用以下术语
30、以及记号. (1)标引词,这是由若干个标引词组成的集合; n tttt., , 21 (2)文献信息,其中是标引词在该文献中出现 tttttd in ),(,.),( 21 )( n t i t 的频率,使用统计分析可以计算出标引词的隶属度. i t)( id t (3)文献信息库可表示为:;tttttddd inddd ),().(),( 21 (4)分类文献信息集,这是将要被分类的文献信息集;dddddu in ,., 21 (5)相似度,其中按照它描述文献信息和之间的相关程 jiij ddr, ji dd , i d j d 度,这里选用最大,最小法贴近度来表示和)().(),( 21n
31、dddi tttd iii 的相关程度,则其严格贴近度为)().(),( 21ndddj tttd jjj (2-1) n k kdkd n k kdkd jiij tt tt ddr ji ji 1 1 )()( )()( ),( 其中“”表示“取小”运算,“”表示“取大运算”. (6)模糊相似矩阵,其中是相似度.相似矩阵是以分类文献信息集 nmij rr )( ij rr 中和之间的相似度构造出来的,它刻画的是 n dddu., 21 i d j d ij r 信息之间相关程度. n dddu., 21 2.2 模糊聚类分析模糊聚类分析 在实际课题中,不同的数据可能有不同的量纲.为了不使不
32、同量纲的数据也能进 行比较,需要对数据进行适当的变换,根据模糊矩阵的要求将数据压缩到区间0,1. 数据变换:设论域为被分类的对象,每个元素又由个数据表示, n uuuu,., 21 m 对第 个元素有 .i imiii xxxu,., 21 ),.,2 , 1(ni (1)标准差变换 (2-2) k kik ik s xx x * ).,2 , 1;,.2 , 1(mkni (2-3 n i ikk x n x 1 1 n xx s n i kik k 1 2 )( ) 经过变换后,每个变量的均值为 0,标准差为 1,并可以消除量纲的影响,但不一定 在0,1区间上. (2)级差变换 (2-4)
33、 ik ni ik ik ni ik ik xx xx x 1 1 minmax min ),.,2 , 1(nk 经过级差变换后有,且消除了量纲的影响.10ik n x 2.2.1 选择模糊聚类方法选择模糊聚类方法 聚类可以分为两种,一种是模糊等价矩阵聚类.它有两种方法,传递闭包法和布 尔矩阵法.另一种是直接聚类,它包括直接聚类法、最大树法和编网法.在实际的聚类 问题中,通过建立上的模糊关系,常常是模糊相似的关系.因为论域是有限集,这x 个模糊相似关系可表示为一个模糊相似矩阵,即对角线上的元素为 1 的对称模糊方 阵.r 可以选择的模糊聚类方法通常有四种(由文献5,23-36可知):模糊传递
34、闭包 法、直接聚类法、最大树法和编网法.模糊传递闭包法是从模糊相似矩阵 出发,构造一个新的模糊等价矩阵(即模糊相似矩阵的传递闭包), nnij rr )(r)(rt 该矩阵满足自反性、对称性、以及传递性三个性质.因此,可以根据模糊等价矩阵进 行聚类.直接聚类法不计算模糊相似矩阵的传递闭包,而是直接用模糊相似矩r)(rt 阵进行聚类,具体步骤如下 :r (1) 将模糊相似矩阵中的所有不同元素从大到小的顺序编排,设为r . n .1 21 (2) 以为置信水平,选取,直接在模糊相似矩阵上找出),.2 , 1(mk k k r 水平上的相似类,并进行归并,即得到水平上的等价分类.寻找相似类和归并的
35、k k 原则:若,则将和分为一类.设是水平上的两个类,若 kij r i d j d 21,b b k ,则称它们是相似的.将所有相似的类合并成一类,最后得到的分类就是 21 bb 水平上的等价分类.k 2.2.2 词频矩阵词频矩阵 为确定一组相关文本间的相关度,建立文本间的模糊相似关系,首先要构造一个词 频矩阵,它是一个二维表,表示关键词在文档中出现的次数,假设这一组数f i wtj 据中有个文档和 个关键词,则是一个的矩阵,将每一个关键字视为一个dtftd 维空间上的一个向量 , 的个坐标是一个数字,表示第个文本与所给的关t d rvvjj 键字间的相关度,当文档不含有该词时,其值为零,否
36、则设为一个非零的正值,定 义为为文档中关键词出现的次数(即频率) ,再利用绝对值减数法建立模糊 ij ftj i w 相似矩阵,当时,;否则,当时,其中,rji 1 ij rji t k jkikij ffcr 1 10 c 为一常数,可根据实际情况选定,使得,由该定义可知,为一主对角元 1 , 0 ij rr 均为 1 的对称阵. 2.3 基于编网法的模糊聚类分析模型基于编网法的模糊聚类分析模型 在一个合适的分类中,同一类中的对象应该自反性、对称性以及传递性三个性 质.模糊数学的理论告诉我们,如果相似度选择合适,相似矩阵具有自 ij r nmij rr )( 反性和对称性,但是大多数相似矩阵
37、一般不具备传递性.因此,仅依赖相似矩阵来r 对分类文档信息集进行分类是不够的.模糊聚类分析就是根据dddddu in ,., 21 相似矩阵来寻找一个等价关系进行分类,其主要步骤如下:r 2.3.1 构造模糊相似矩阵构造模糊相似矩阵 聚类是按某种标准来鉴别中元素之间的接近程度,把彼此接近的对象归为一x 类.为此,我们用中的数来表示中的元素和的接近或相似程度,称为相 1 , 0 ij rx i x j x 似系数.相似系数构成的模糊矩阵是上的模糊关系.确定相似系数的方 ij r ij r mnij r )(x 法很多,可以分为三类:1.相似系数法 2.距离法 3.主观评分法. 最常见的是距离法中
38、的贴近度法. 不妨假定,如若不然, 1 , 0 k x 可以通过公式: (2-5) kk kk k mm mx x ).2 , 1(),.2 , 1(mkni (其中分别是各个的第个特征的最大、最小值) kk mm , i xk 将转换为.当时,可以认为是一 k x 1 , 0 k x 1 , 0 k xni.2 , 1 imiii xxxx,., 21 个模糊向量,也就是可以看成以个特征指标构成的集合为论域的模糊集,于是m 的贴近度可以作为它们的相似程度.即.当取距离贴近度时, 1 x),( 21 xxn jiij xxnr,n (2-6) m k jkikij xxcr 1 1 把所有的组
39、成的矩阵为模糊相似矩阵,命名为.).2 , 1(),.2 , 1(mjnirij 6 r 针对的分类文献集,选择一个计算相似度dddddu in ,., 21 的算法,可以计算出相似矩阵. jiij ddr, ij rr 2.3.2 模糊聚类之编网法模糊聚类之编网法 编网法是由我国学者赵汝怀提出的,其特点是在模糊相似矩阵的截集上直接r 进行聚类.因此,使用起来更为直观简单.具体步骤如下: (1)适当选取,求出截矩阵,且去掉的主对角线右上半部分的所有 1 , 0 r r 元素; (2)将主对角线上的“1”对应地用其对象的标号来代替; i (3)将主对角线左下方的“0”去掉,而用“*”代替“1”,
40、称* 所在的位置为结点; (4)用竖直线与横直线将结点与对角线上的序号连接,即编网.通过如此打结而连 接的对象归为同一类,从而实现了等价分类. (5)画出动态聚类图. 通过以上步骤即可完成对文档集的分类. 2.3.3 基于文档集合的模糊聚类编网法的应用基于文档集合的模糊聚类编网法的应用 如果我们现在要检索混凝土断裂方面的文献,可选关键词有多个,且利用每个 关键词都可以得上百篇文献,检索过程中,每篇文献都详细阅读是不贴实际的,因 此我们需要通过聚类筛选出相关度高的几篇或者几十篇文献. 设标引词集为:混凝土、断裂韧度、尺度效应、虚拟裂缝模型同 4321 ,ttttt 时设d为某信息库,从该信息库中
41、选出5篇文档进行分析,则.根 54321 ,dddddd 据各关键词在相应文献中的出现频率,使用模糊统计分析可计算出每个关键词的隶 属度.从而每篇文献在检索中的表示记为: )5 . 0 , 3 . 0 , 1 . 0 , 1 . 0()(),(),(),( 43211 1111 ttttd dddd )3 . 0 , 1 . 0 , 4 . 0 , 2 . 0()(),(),(),( 43212 2222 ttttd dddd ) 1 . 0 , 3 . 0 , 5 . 0 , 2 . 0()(),(),(),( 43213 3 3 33 ttttd dddd ) 1 . 0 , 3 . 0
42、, 5 . 0 , 2 . 0()(),(),(),( 43214 4444 ttttd dddd ) 1 . 0 , 3 . 0 , 4 . 0 , 2 . 0()(),(),(),( 43215 4444 ttttd dddd 故根据(2-1)可得模糊相似矩阵为 180 . 0 82 . 0 70 . 0 33 . 0 80 . 0 182 . 0 67 . 0 33 . 0 82 . 0 82 . 0 167 . 0 43 . 0 70 . 0 67 . 0 67 . 0 143 . 0 43 . 0 33 . 0 43 . 0 43 . 0 1 r 对r中的元素进行排序为: 10.82
43、0.80.670.430.33 从而,的截矩阵为截矩阵为r8 . 0 8 . 0 8 . 0 8 . 0 11100 11100 11100 00010 00001 8 . 0, 0 8 . 0, 1 )()(r r r rrt ij ij ij 这时u被分为3类: 54321 ,ddddd 2.4 文档簇的模糊表示法文档簇的模糊表示法 通过上节的模糊聚类分析方法,可得到分类的文档簇,本部分将介绍一种模糊 度量方法来量化这些文档簇. 任意一篇文档可表示为,则文献集的度量可表示为,则文)().(),( 21ndddi tttd iii 献集的度量可表示为dddddu in ,., 21 d (2
44、-7))().(),( )().(),( 21 1 21 n ddd n i nddd ttt n ttt d iii 通过以上讨论,得到了文档簇的模糊表示法,这为之后的讨论提供了基础依据, 且对应于文档集的文档簇集可表示为:,dddddu in ,., 21 ,., 21m dddu 其中为聚类数.从而.)(),.(),( 21n ddd i tttd iii 3 模糊概念网络模糊概念网络 3.1 模糊概念网络的结构模糊概念网络的结构 模糊概念网络的结构是由节点和弧构成.网络包括两种类型的节点:概念节点和 文档节点.连接节点的弧表达了节点之间的相关关系,并用模糊权值对关系的强弱进 行量化.设
45、概念节点集合 c=(c ,c ,.c ),文档节点集合 d=(,.) . 12n1 d 2 d n d 表示和的相关度权重为,也可表示为表 i c j c i c j c,),( ji ccf i d j c 示和概念的相关权重为,也可表示为,)=. i d j c i df ( j c 规则 1 如果存在节点,和,其,且的关系权值为 i c j c k caccf ki ),( jk ccf, ( ,)min( , ) ik f c ca a . 规则 2 如果节点和之间存在多条路径连接,和间的关系值为最大的路径权 i c j c i c j c 重. 图 3-1 如下,给出了一个典型模糊概
46、念网络实例.其中节点和相关关系权重为 3 c 4 c .1 . 0)7 . 0 , 1 . 0(, 43 maxccf 图图3-1 模糊概念网路实例模糊概念网路实例 3.2 基于文档的模糊概念网络的构建基于文档的模糊概念网络的构建 模糊概念网络可以通过领域专家手工建立,但需要大量的手工劳动,并受限于 领域专家的个人水平.为了突破这种限制,文献2提出了模糊概念网络的自动构建方 法,本部分将对此作以详细阐述. 将一个文档表示成关键词集.统计词表中每个关键词在正文、标题、 n tttt,., 21 关键词、超链、超链描述中出现的概率,表示为 , )( 正文i ttf)( 标题i ttf)( 关键词i
47、 ttf 和.关键词频率计算公式为)( 超链i ttf)( 超链描述i ttf i t )( i ttf)( 正文i ttf 1 a)( 标题i ttf 2 a)( 关键词i ttf 3 a)( 超链i ttf 4 a)( 超链描述i ttf 其中,和是调整系数.计算特征词在文档中的权重公式为: 1 a 2 a 3 a 4 a (3-1))5 . 0 )( log()(),( i itdi tdf n ttfdtw 其中,表示关键词的文档数目,n表示总的文档数.词是概念的表现方式,同)( i tdf i t 一个概念节点可能包含多个对应词.设概念节点对应的词够构成集 i c 表示成向量形式,其
48、中表示关键词在概念节点,., 21m tttt iniii wwwc,., 21 ij w j t 中的权重.计算文档d与概念之间的相关度为 j c i c (3-2) 2*)(),( ),(),( ),( 1 i ijct m j jdt icd ctndtnmax ctwdtw cdrel 式中,表示在中的权重,表示文档d中所有关键词的权重之和,),( ijct ctw j t i c)(dtn 表示概念节点包含的关键词的权重之和.)( i ctn i c 统一文档中包含的词语之间存在语义上的关联关系,这种关联关系从形式上表现 为词与词的共现.利用这些现象,挖掘概念之间的相关关系.选取部分
49、样本构成样本集 s,m为文档树.设概念节点集合计算样本中文档与 m ssss,., 21 m cccc,., 21 概念节点之间的相关度.对于概念节点,它与文档的相关度可以表示成向量形式: i c ,表示文档与概念节点的相关度.概念节点和之间的相 miiii eeec,., 21 ji e j d i c i c j c 关度的计算公式为 (3- m k kj m k ki m k kjki jicc ee ee ccrel 1 2 1 2 1 ),( 3) 模糊概念网络中概念节点的产生,可以通过两种方式:聚类方法和逐步添加方 法,这里主要介绍聚类方法.采用聚类方法时,初始阶段每个关键词对应独
50、立的概念 节点.计算概念节点的相关度,根据设定的阈值,相关度超过特定阈值的概念节点被 合并为新的节点. 3.3 基于文档簇的模糊概念网络的构建基于文档簇的模糊概念网络的构建 通过3.2节的介绍,可知模糊概念网络的构建方法,但其是基于概念节点和文档 节点,而本节将引入基于概念节点和文档簇节点的模糊概念网络,如下图3-2所示: 图图3-2 基于模糊簇的模糊概念网络基于模糊簇的模糊概念网络 从而可得到模糊集簇和概念之间的模糊概念网络,其建立了文档簇和概念之间 的相关关系,从而使得检索所需处理的文档数从整体上减少,可以提高检索的效率. 同时,通过模糊概念网络图的建立,使得文档的检索原理更加直观,为后续
51、处理提 供了方便. 4 基于文档簇和文档的信息检索模型基于文档簇和文档的信息检索模型 通过以上的讨论,我们得到由文档簇和概念组成的模糊概念网络,其为建立基 于 文档簇的模糊信息检索模型提供了方便.基于文档簇的模糊信息检索模型,在效率上 有明显的优势,其从整体上减少了检索中所涉及的文档数量.其需要完成两个步骤: (1)通过基于文档簇的信息检索,选出满足条件的文档簇; (2)针对选出的文档簇,再次使用模糊信息检索模型,对该文档簇的文档进行排序, 将其作为检索结果输出. 4.1 基于文档簇的模糊信息检索模型基于文档簇的模糊信息检索模型 4.1.1 文档簇和查询项的模糊集表示文档簇和查询项的模糊集表示
52、 通过的以上的讨论,我们可以得到文档簇的模糊集表示方法: )(,).(,( ,)(, 2211n d n d d i ttttttd ii i 设查询项的模糊集表示为: )(,),.(,(),(,( 2211nn ttttttq 其中的为查询项的相关程度,其是通过频率及统计方法计算得到的词项隶属)( i t i t 度.即得到了文档簇和查询项的模糊集表示,从而为后面的讨论奠定了基础. 4.1.2 相关性相关性 为了比较查询项和文档簇的相似度,人们提出了很多比较查询模糊向量和文q 档簇模糊向量的方法,这些方法都经过了证明.以下我们做以快速回顾: i d 7 (1)最常见的方法是余弦方法,也就是计
53、算查询向量和文档簇向量之间的q i d 余弦值: (4-1) n j n j j d j n j j d j i tt tt dqsc i i 11 22 1 )(.)( )().( ),( 因为在计算每篇文档时都会出现,向量内积除以文档向量大小后, n j j t 1 2 )( 余弦系数应该给出相同的相关性结果.我们注意到余弦方法通过考虑文档长度来归一 化结果.通过内及方法,一个较长的文档可能会得到一个比较高的分数,仅仅因为文 档比较长,因此有更多的机会包含查询词并一定因为文档是相关的. die系数定义为: (4-2) n j n j j d j n j j d j i tt tt dqsc
54、 i i 11 22 1 )(.)( )().(2 ),( jaccard系数定义为: (4-3) n j n j n j j d jj d j n j j d j i tttt tt dqsc ii i 111 22 1 )().(_)()( )().( ),( 余弦方法通过将向量内积除以文档向量的长度来实现不同文档长度的归一化.余 弦方法中假定文档长度对查询没有影响.排除归一化因素,较长的文档更容易被认定 为相关的,仅仅因长文档包含的词多,所以增加了包含查询词的可能性.除以文档向 量长度就是不考虑文档长度. (2)模糊集之间的贴近度 chebyshev贴近度 (4-4)()(max1),(
55、 1j d ji ttdq i hamming贴近度 (4-5) n j j d ji tt n dq i 1 2 )()( 1 1),( euclid贴近度 (4-6) 2 1 1 2 3 )()( 1 (1),( n j j d ji tt n dq i minkowski贴近度 (4-7) 1,)( 1 (1),( 1 1 4 ptt n dq p p n j j d ji i lambert贴近度 (4-8) n j j d j j d j i tt tt n dq i i 1 5 )()( )()( 1 1),( 绝对和差贴近度 (4-9) n j j d j n j j d j i
56、 tt tt dq i i 1 1 6 )()( )()( 1),( 最大最小贴近度 (4-10) n j j d j n j j d j i tt tt dq i i 1 1 7 )()( )()( ),( 算术平均最小贴近度 (4-11) n j j d j n j j d j i tt tt dq i i 1 1 8 )()( 2 1 )()( ),( 几何平均最小贴近度 (4-12) n j j d j n j j d j i tt tt dq i i 1 1 7 )().( )()( ),( 4.1.3 检索方法检索方法 在4.1.2中,我们讨论了衡量文档簇和查询项相近度的两种方法,
57、因此利用这两 种方法可以得到文档簇和查询项的相近度度量方法.这样就可以得到文档簇和查询项 相似度,利用相似度可以对查询结果进行排序.同时,在排序过程中,选择合适的相 似度阈值,满足该阈值的文档簇进行排序,不满足阈值的文档不排序,这样可以提 供检索效率,具体实现步骤如下: (1)求出各个文档簇和查询项之间的相似度或者贴近度; (2)选出符合指定阈值的文档簇; (3)将满足要求的文档簇按照相关性大小进行排序. 4.2 基于文档的模糊信息检索模型基于文档的模糊信息检索模型 通过4.1的讨论,我们得到了满足相似度要求的文档簇集.这样就缩小了检索的文 档范围,从而提高了检索效率,下面将阐述基于文档的模糊
58、检索. 4.2.1 文档和查询项的模糊集表示文档和查询项的模糊集表示 类似于4.1.1中的文档簇和查询项的模糊集表示,我们可以得到文档的模糊集表 示方法: )(,).(,(),(,( 2211ndnddi ttttttd iii 查询项的模糊集表示为: )(,(),.,(,(),(,( 2211nn ttttttq 其中的为查询项的相关程度,其是通过频率及统计方法计算得到的词项隶属度. 4.2.2 相关性相关性 为了比较查询项和文档簇的相似度,人们提出了很多比较查询模糊向量和文q 档簇模糊向量的方法,这些方法都经过了证明.以下我们做以快速回顾: i d 最常见的方法是余弦方法,也就是计算查询向
59、量和文档簇向量之间的余弦q i d 值: n j n j j d j n j j d j i tt tt dqsc i i 11 22 1 )(.)( )().( ),( 因为在计算每篇文档时都会出现,向量内积除以文档向量大小后, n j j t 1 2 )( 余弦系数应该给出相同的相关性结果.我们注意到余弦方法通过考虑文档长度来归一 化结果.通过内及方法,一个较长的文档可能会得到一个比较高的分数,仅仅因为文 档比较长,因此有更多的机会包含查询词并一定因为文档时相关的. 4.3 检索方法检索方法 通过计算各个文档的相似度或者贴近度,并根据相关性进行排序,最后将排序 结果作为检索结果输出. 4.
60、3.1 基于模糊集的扩展布尔检索基于模糊集的扩展布尔检索 在20世纪70年代末期,研究人员对布尔检索进行了扩展,提出了模糊集检索.我 们可以将文档中的词看成模糊集来计算布尔的相似度,这是因为这些词在文档中出 现的频率可视为隶属度. 下面我们考虑有文档集中所有文档组成的集合.模糊集可以看作描述所有包d t d 含词 的文档的集合.这个集合可以记作=.这表明文档包含词td t d)5 . 0 ,( ,8 . 0 , 21 ddd ,且其隶属度为0.8;文档包含词 且其隶属度为0.5. t 2 dt 类似地,集合可以定义为所有包含词 的文档.这个集合可以记作: t ds )4 . 0 ,( ,5 .
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 42596.4-2024机床安全压力机第4部分:气动压力机安全要求
- 技术经济学课件-不确定性分析
- 妊娠合并甲状腺功能减退的临床护理
- 类丹毒的临床护理
- 《机械设计基础》课件-第10章
- 银屑病的临床护理
- 《证券经纪人培训》课件
- JJF(陕) 010-2019 标准厚度块校准规范
- 《计算器定时器》课件
- 制定图文并茂的工作计划
- GB/T 5534-2024动植物油脂皂化值的测定
- 幼儿园手足口病教师培训
- 超市安保人员工作管理制度
- 2024时事政治考试100题及参考答案
- 2024年职业健康素养考试题库及答案
- 2024年山东省青岛市中考地理试题卷(含答案及解析)
- 《技术规程》范本
- 重点语法清单2024-2025学年人教版英语八年级上册
- 红色简约中国英雄人物李大钊课件
- 人民日报出版社有限责任公司招聘笔试题库2024
- 2024年煤矿事故汇编
评论
0/150
提交评论