管理学信息检索课件_第1页
管理学信息检索课件_第2页
管理学信息检索课件_第3页
管理学信息检索课件_第4页
管理学信息检索课件_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息检索模型信息检索模型检索系统的基本模式网页互联网匹配检索结果用户需求网页采集分析处理第三讲检索模型建立索引索引库检索系统的基本模式网页互联网匹配检索结果用户需求网页采集分第信息检索模型模型对真实的处理过程的理想化的抽象的描述。数学模型用数学语言和数学方法来描述过程研究过程的属性、作出判断、得到结论信息检索模型是一个形式框架,该框架支持信息检索过程的所有主要阶段,包括:文本表示、用户需求表示需求与文本的匹配检索到的文本排序信息检索模型模型信息检索模型的定义一个四元组:D,Q,F,R(qi,dj)D是文献的逻辑视图(文献的表示)Q是用户需求的逻辑视图(查询)F是一种机制,用于构建D、Q和它们之间的关系R(qi,dj)是排序函数,输出一个与查询qi和文献表示dj有关的实数信息检索模型的定义一个四元组:D,Q,F,R(qi,d基本概念文献(Document)泛指各种机器可读的记录,通常指一篇文章特征项(IndexTerm)也称为索引项、标引词等从一篇文本(查询)抽出的代表该文本(查询)内容的基本语言单位让我们高举中国特色社会主义伟大旗帜,更加紧密地团结在党中央周围,万众一心,开拓奋进,为夺取全面建设小康社会新胜利、谱写人民美好生活新篇章而努力奋斗!让、我们、高举、中国特色、社会主义、伟大、旗帜、更加、紧密地、团结、在、党中央、周围、万众一心、开拓、奋进、为、夺取、全面、建设、小康、社会、新、胜利、谱写、人民、美好、生活、新、篇章、而、努力、奋斗基本概念文献(Document)让我们高举中国特色社会让、我基本概念权重不是所有的词对于表示文本内容具有同样的重要性wi,j表示文本dj中的标引词ki的权值(假设独立)ki表示标引词,t是系统中标引词的数目K所有标引词的集合,K={k1,k2,…,kt}wi,j=0表示ki在dj中没有出现文本dj可以用标引词向量来表示,dj={w1,j,w2,j,…,wt,j}gi(dj)返回t维向量dj中标引词ki的权重,gi(dj)=wi,j基本概念权重模型的分类按所使用的数学方法分类基于集合论布尔模型基于线性代数向量空间模型基于概率论概率模型模型的分类按所使用的数学方法分类布尔模型(基于集合论)D(文献表示)表示为不带权重的标引词的集合,或者说,二值的标引词权重wi,j=0或者wi,j=1Q(查询)表示为标引词的布尔表达式用and、or、not连接标引词构成查询F(联系机制)布尔表达式转换为集合表达式布尔算子and(∧)、or(∨)、not(¬)替换为交(∩)、并(∪)、补(¯)R(排序)对于每个标引词ki,得到一个文本的集合Dki={dj|wi,j=1}在结果集合里的文本是相关的,其他是不相关的布尔模型(基于集合论)D(文献表示)布尔模型举例布尔模型举例布尔模型评价简单,定义清晰文本或者相关或者不相关,没有强弱之分将文本分为两个集合,相关的,不相关的,因此不需要排序可能会导致结果非常少或者非常多布尔模型评价简单,定义清晰布尔模型的实现输入:各种文档(PDF,DOC,TXT,HTML,XML…)输出:索引表处理过程格式转换文档编号结构分析检索最小单元识别细结构化构建索引空间保存文件布尔模型的实现输入:各种文档(PDF,DOC,TXT,向量空间模型(基于线性代数)D(文献表示)文本表示为带权重的标引词的集合,dj={w1,j,w2,j,…,wt,j}权重表示该标引词与该文本的相关程度Q(查询)查询也表示为带权重的标引词的集合,q={w1,q,w2,q,…,wt,q}权重表示标引词与用户需求的相关程度F(联系机制)文本和查询有同样的表示(t维空间的向量)查询被当作为假想的文本向量空间模型(基于线性代数)D(文献表示)向量空间模型(基于线性代数)R(排序)用向量夹角的余弦计算dj和q的相似度向量空间模型(基于线性代数)R(排序)从文本到向量空间从文本到向量空间文本的向量表示示例文本的向量表示示例夹角余弦计算举例夹角余弦计算举例常用的相似度计算方法常用的相似度计算方法特征项的权重设定索引过程首先要从文献中抽取重要词,把它们映射到特征项集中,进行权重计算。由于文献中不同词汇的出现频率随文章的内容和作者的习惯而不同,因此,最初的索引系统都是从应用词频开始的。实际应用中显得有些粗糙为什么中频词好?两个阈值怎么选取?但是,这些思想为信息检索系统中项的选取奠定了基础特征项的权重设定索引过程首先要从文献中抽取重要词,把它们映射为什么中频词好简单地把所有的词汇都作为文献的特征项,检索效果并不很好不同的词汇对文献的表示作用不同一般说来,常用词在所有文献中都有着较高的频率,区分度低罕用词在文献集中的出现次数较少,难以确定它们的统计规律,相关度低而中等频率的词汇常常与文献所表示的主题相关,区分度较高,表示能力最强,最有价值。为什么中频词好简单地把所有的词汇都作为文献的特征项,检索效果有价值的特征项有价值的特征项应具备以下特征:相关度与文献内容有关,以便在需要时进行索引项的检索区分度能将一篇文献与其它文献区分开怎么度量项频率tf(文献内频率)反比文献频率idf(inversedocumentfrequency)有价值的特征项有价值的特征项应具备以下特征:项频率tf一个项的重要性随着它在文献中的出现频率的提高而提高我们应该采用某种依项的出现频率单调递增函数来估算权重项在文献中出现的次数称为项频率(termfrequency,tf),根据项频率计算项的重要性的函数称为项频率因子,简称tf因子。项频率tf一个项的重要性随着它在文献中的出现频率的提高而提常用的tf因子原始tf因子:直接用项频率tf作为tf因子对数tf因子:1+ln(tf)二元tf因子:不考虑项频率tf,其值根据项是否在文献中出现为1或0(出现时为1,否则为0)。改进的tf因子:0.5+0.5*tf/文献中的最大tf大规模的测试表明,对数tf因子的效果最好常用的tf因子原始tf因子:直接用项频率tf作为tf因子反比文献频率idf在许多篇文献中出现的项的区分度小于仅在很少几篇文献中出现的项这表明应该用一个依项在其中出现的文献数目单调递减函数来评估项的重要性基于这个原因,人们提出反比文献频率因子,简称idf因子一般用log(N/nk)或各种变形来计算。其中,N是文献总数,nk是第k个特征项在其中出现的文献数,称为项的文献频率反比文献频率idf在许多篇文献中出现的项的区分度小于仅在很少tf.idftf.idftf.idftf.idftf.idf示例tf.idf示例tf.idf示例tf.idf示例向量空间模型评价使用了更高级的数学工具,同样清晰标引词加权相似度有强弱之分可以排序结果数量可控top10,top20,…布尔模型简单,定义清晰相似度没有强弱之分不排序可能会导致结果非常少或者非常多向量空间模型评价使用了更高级的数学工具,同样清晰布尔模型向量空间模型评价项之间线性无关的假设在自然语言中,词或短语之间存在着十分密切的联系,即存在“斜交”现象,很难满足假定条件,对计算结果的可靠性造成一定的影响将复杂的语义关系,归结为简单的向量结构,丢失了许多有价值的线索向量空间模型评价项之间线性无关的假设布尔模型(基于集合论)D(文献表示)表示为不带权重的标引词的集合,或者说,二值的标引词权重wi,j=0或者wi,j=1Q(查询)表示为标引词的布尔表达式用and、or、not连接标引词构成查询F(联系机制)布尔表达式转换为集合表达式布尔算子and(∧)、or(∨)、not(¬)替换为交(∩)、并(∪)、补(¯)R(排序)对于每个标引词ki,得到一个文本的集合Dki={dj|wi,j=1}在结果集合里的文本是相关的,其他是不相关的布尔模型(基于集合论)D(文献表示)基本概念文献(Document)泛指各种机器可读的记录,通常指一篇文章特征项(IndexTerm)也称为索引项、标引词等从一篇文本(查询)抽出的代表该文本(查询)内容的基本语言单位让我们高举中国特色社会主义伟大旗帜,更加紧密地团结在党中央周围,万众一心,开拓奋进,为夺取全面建设小康社会新胜利、谱写人民美好生活新篇章而努力奋斗!让、我们、高举、中国特色、社会主义、伟大、旗帜、更加、紧密地、团结、在、党中央、周围、万众一心、开拓、奋进、为、夺取、全面、建设、小康、社会、新、胜利、谱写、人民、美好、生活、新、篇章、而、努力、奋斗基本概念文献(Document)让我们高举中国特色社会让、我模糊集模糊集的运算模糊集模糊集的运算向量空间模型评价使用了更高级的数学工具,同样清晰标引词加权相似度有强弱之分可以排序结果数量可控top10,top20,…标引词相互独立当今最流行的检索模型布尔模型简单,定义清晰相似度没有强弱之分不排序可能会导致结果非常少或者非常多独立吗?向量空间模型评价使用了更高级的数学工具,同样清晰布尔模型独立广义向量空间模型标引词并不独立标引词之间如何联系正交变换标准正交基广义向量空间模型标引词并不独立从文本到向量空间—多少维的向量?从文本到向量空间—多少维的向量?维数急剧上升随着数据库表的记录的增大,特征值会变得很大。对应的文档向量空间大小的维数会急剧上升。如:对于一个含有100个记录的表来说,其文档向量空间大小的维数达到1000是很正常的但如此大或更大维数的向量之间运算的时间复杂度会很高,直接影响查快率。维数急剧上升随着数据库表的记录的增大,特征值会变得很大。对应奇异值分解第一个矩阵X中的每一行表示意思相关的一类词,其中的每个非零元素表示这类词中每个词的重要性(或者说相关性),数值越大越相关。最后一个矩阵Y中的每一列表示同一主题一类文章,其中每个元素表示这类文章中每篇文章的相关性。中间的矩阵则表示类词和文章类之间的相关性。因此,只要对关联矩阵A进行一次奇异值分解,就可以同时完成了近义词分类和文章的分类。(同时得到每类文章和每类词的相关性)。奇异值分解第一个矩阵X中的每一行表示意思相关的一类词,其中的检索系统的基本模式网页互联网匹配检索结果用户需求网页采集分析处理建立索引索引库检索系统的基本模式网页互联网匹配检索结果用户需求网页采集分建相关反馈Dr:检索出的文献中,用户认可的Dn:检索出的文献中,用户没有认可的相关反馈Dr:检索出的文献中,用户认可的概率模型(基于概率论)D(文献表示)文本表示为带权重的标引词的集合,dj={w1,j,w2,j,…,wt,j}二值的标引词权重wi,j=0或者wi,j=1Q(查询)查询也表示为带权重的标引词的集合,q={w1,q,w2,q,…,wt,q}二值的标引词权重wi,q=0或者wi,q=1F(联系机制)理想结果集R条件概率概率模型(基于概率论)D(文献表示)概率模型(基于概率论)R(排序)概率模型(基于概率论)R(排序)概率模型评价标引词只有二值权重标引词相互独立R的确定人工干预随机概率模型评价标引词只有二值权重[管理学]信息检索课件信息检索模型信息检索模型检索系统的基本模式网页互联网匹配检索结果用户需求网页采集分析处理第三讲检索模型建立索引索引库检索系统的基本模式网页互联网匹配检索结果用户需求网页采集分第信息检索模型模型对真实的处理过程的理想化的抽象的描述。数学模型用数学语言和数学方法来描述过程研究过程的属性、作出判断、得到结论信息检索模型是一个形式框架,该框架支持信息检索过程的所有主要阶段,包括:文本表示、用户需求表示需求与文本的匹配检索到的文本排序信息检索模型模型信息检索模型的定义一个四元组:D,Q,F,R(qi,dj)D是文献的逻辑视图(文献的表示)Q是用户需求的逻辑视图(查询)F是一种机制,用于构建D、Q和它们之间的关系R(qi,dj)是排序函数,输出一个与查询qi和文献表示dj有关的实数信息检索模型的定义一个四元组:D,Q,F,R(qi,d基本概念文献(Document)泛指各种机器可读的记录,通常指一篇文章特征项(IndexTerm)也称为索引项、标引词等从一篇文本(查询)抽出的代表该文本(查询)内容的基本语言单位让我们高举中国特色社会主义伟大旗帜,更加紧密地团结在党中央周围,万众一心,开拓奋进,为夺取全面建设小康社会新胜利、谱写人民美好生活新篇章而努力奋斗!让、我们、高举、中国特色、社会主义、伟大、旗帜、更加、紧密地、团结、在、党中央、周围、万众一心、开拓、奋进、为、夺取、全面、建设、小康、社会、新、胜利、谱写、人民、美好、生活、新、篇章、而、努力、奋斗基本概念文献(Document)让我们高举中国特色社会让、我基本概念权重不是所有的词对于表示文本内容具有同样的重要性wi,j表示文本dj中的标引词ki的权值(假设独立)ki表示标引词,t是系统中标引词的数目K所有标引词的集合,K={k1,k2,…,kt}wi,j=0表示ki在dj中没有出现文本dj可以用标引词向量来表示,dj={w1,j,w2,j,…,wt,j}gi(dj)返回t维向量dj中标引词ki的权重,gi(dj)=wi,j基本概念权重模型的分类按所使用的数学方法分类基于集合论布尔模型基于线性代数向量空间模型基于概率论概率模型模型的分类按所使用的数学方法分类布尔模型(基于集合论)D(文献表示)表示为不带权重的标引词的集合,或者说,二值的标引词权重wi,j=0或者wi,j=1Q(查询)表示为标引词的布尔表达式用and、or、not连接标引词构成查询F(联系机制)布尔表达式转换为集合表达式布尔算子and(∧)、or(∨)、not(¬)替换为交(∩)、并(∪)、补(¯)R(排序)对于每个标引词ki,得到一个文本的集合Dki={dj|wi,j=1}在结果集合里的文本是相关的,其他是不相关的布尔模型(基于集合论)D(文献表示)布尔模型举例布尔模型举例布尔模型评价简单,定义清晰文本或者相关或者不相关,没有强弱之分将文本分为两个集合,相关的,不相关的,因此不需要排序可能会导致结果非常少或者非常多布尔模型评价简单,定义清晰布尔模型的实现输入:各种文档(PDF,DOC,TXT,HTML,XML…)输出:索引表处理过程格式转换文档编号结构分析检索最小单元识别细结构化构建索引空间保存文件布尔模型的实现输入:各种文档(PDF,DOC,TXT,向量空间模型(基于线性代数)D(文献表示)文本表示为带权重的标引词的集合,dj={w1,j,w2,j,…,wt,j}权重表示该标引词与该文本的相关程度Q(查询)查询也表示为带权重的标引词的集合,q={w1,q,w2,q,…,wt,q}权重表示标引词与用户需求的相关程度F(联系机制)文本和查询有同样的表示(t维空间的向量)查询被当作为假想的文本向量空间模型(基于线性代数)D(文献表示)向量空间模型(基于线性代数)R(排序)用向量夹角的余弦计算dj和q的相似度向量空间模型(基于线性代数)R(排序)从文本到向量空间从文本到向量空间文本的向量表示示例文本的向量表示示例夹角余弦计算举例夹角余弦计算举例常用的相似度计算方法常用的相似度计算方法特征项的权重设定索引过程首先要从文献中抽取重要词,把它们映射到特征项集中,进行权重计算。由于文献中不同词汇的出现频率随文章的内容和作者的习惯而不同,因此,最初的索引系统都是从应用词频开始的。实际应用中显得有些粗糙为什么中频词好?两个阈值怎么选取?但是,这些思想为信息检索系统中项的选取奠定了基础特征项的权重设定索引过程首先要从文献中抽取重要词,把它们映射为什么中频词好简单地把所有的词汇都作为文献的特征项,检索效果并不很好不同的词汇对文献的表示作用不同一般说来,常用词在所有文献中都有着较高的频率,区分度低罕用词在文献集中的出现次数较少,难以确定它们的统计规律,相关度低而中等频率的词汇常常与文献所表示的主题相关,区分度较高,表示能力最强,最有价值。为什么中频词好简单地把所有的词汇都作为文献的特征项,检索效果有价值的特征项有价值的特征项应具备以下特征:相关度与文献内容有关,以便在需要时进行索引项的检索区分度能将一篇文献与其它文献区分开怎么度量项频率tf(文献内频率)反比文献频率idf(inversedocumentfrequency)有价值的特征项有价值的特征项应具备以下特征:项频率tf一个项的重要性随着它在文献中的出现频率的提高而提高我们应该采用某种依项的出现频率单调递增函数来估算权重项在文献中出现的次数称为项频率(termfrequency,tf),根据项频率计算项的重要性的函数称为项频率因子,简称tf因子。项频率tf一个项的重要性随着它在文献中的出现频率的提高而提常用的tf因子原始tf因子:直接用项频率tf作为tf因子对数tf因子:1+ln(tf)二元tf因子:不考虑项频率tf,其值根据项是否在文献中出现为1或0(出现时为1,否则为0)。改进的tf因子:0.5+0.5*tf/文献中的最大tf大规模的测试表明,对数tf因子的效果最好常用的tf因子原始tf因子:直接用项频率tf作为tf因子反比文献频率idf在许多篇文献中出现的项的区分度小于仅在很少几篇文献中出现的项这表明应该用一个依项在其中出现的文献数目单调递减函数来评估项的重要性基于这个原因,人们提出反比文献频率因子,简称idf因子一般用log(N/nk)或各种变形来计算。其中,N是文献总数,nk是第k个特征项在其中出现的文献数,称为项的文献频率反比文献频率idf在许多篇文献中出现的项的区分度小于仅在很少tf.idftf.idftf.idftf.idftf.idf示例tf.idf示例tf.idf示例tf.idf示例向量空间模型评价使用了更高级的数学工具,同样清晰标引词加权相似度有强弱之分可以排序结果数量可控top10,top20,…布尔模型简单,定义清晰相似度没有强弱之分不排序可能会导致结果非常少或者非常多向量空间模型评价使用了更高级的数学工具,同样清晰布尔模型向量空间模型评价项之间线性无关的假设在自然语言中,词或短语之间存在着十分密切的联系,即存在“斜交”现象,很难满足假定条件,对计算结果的可靠性造成一定的影响将复杂的语义关系,归结为简单的向量结构,丢失了许多有价值的线索向量空间模型评价项之间线性无关的假设布尔模型(基于集合论)D(文献表示)表示为不带权重的标引词的集合,或者说,二值的标引词权重wi,j=0或者wi,j=1Q(查询)表示为标引词的布尔表达式用and、or、not连接标引词构成查询F(联系机制)布尔表达式转换为集合表达式布尔算子and(∧)、or(∨)、not(¬)替换为交(∩)、并(∪)、补(¯)R(排序)对于每个标引词ki,得到一个文本的集合Dki={dj|wi,j=1}在结果集合里的文本是相关的,其他是不相关的布尔模型(基于集合论)D(文献表示)基本概念文献(Document)泛指各种机器可读的记录,通常指一篇文章特征项(IndexTerm)也称为索引项、标引词等从一篇文本(查询)抽出的代表该文本(查询)内容的基本语言单位让我们高举中国特色社会主义伟大旗帜,更加紧密地团结在党中央周围,万众一心,开拓奋进,为夺取全面建设小康社会新胜利、谱写人民美好生活新篇章而努力奋斗!让、我们、高举、中国特色、社会主义、伟大、旗帜、更加、紧密地、团结、在、党中央、周围、万众一心、开拓、奋进、为、夺取、全面、建设、小康、社会、新、胜利、谱写、人民、美好、生活、新、篇章、而、努力、奋斗基本概念文献(Document)让我们高举中国特色社会让、我模糊集模糊集的运算模糊集模糊集的运算向量空间模型评价使用了更高级的数学工具,同样清晰标引词加权相似度有强弱之分可以排序结果数量可控top10,top20,…标引词相互独立当今最流行的检索模型布尔模型简单,定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论