




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
美国信息检索技术研究会议sigir简介
1sigir对新的基础理论的研究西吉r是美国计算机协会的一个特殊组织,负责信息存储、研究策略、计划和评估系统。随着科技的飞速发展,SIGIR又扩展到对新的基础理论的研究如全球计算机信息网络定位技术、数字图书馆以及如何整合信息检索系统与其他应用系统。从1973年开始,SIGIR每年都举行一次国际信息检索技术研究会议,截至2006年共举办了29届。全球的研究组织都通过这个会议来展示自己的研究成果。因此,SIGIR可以说是当今信息检索研究的一面旗帜。在2006年年会上SIGIR共收到了超过35个国家的399篇论文。有超过74%的论文被接受。从地区来看,49%来自美洲,11%来自欧洲,14%来自亚洲,可以说汇集了当今信息检索最尖端的研究课题和研究方向。本次会议上的研究内容分布在24个不同的研究方向上,下面简要介绍其中的一些研究方向。2sigir的最新研究趋势2.1简化的检索流程由于音频数据(基于内容和语义)与传统的文本数据(基于文本)不同,文本检索中的相关技术不能简单地应用到音频信息检索中。即:用户提交的检索要求往往是对于音频数据的语义描述,从原始数据中抽取检索项的这种用于文本检索的方法并不适用于音频数据这样的数字信号。通常,我们可以将音频数据分为语音、音乐和噪声等类型,而不同类型的音频数据可以用不同的方式进行处理和索引。2.1.1语音识别系统的适用性将语音识别成文本,再利用文本检索技术就可以初步实现对语音内容的检索。语音识别的研究已经经历了比较长的时间,技术发展也相对成熟,已经达到实用的阶段,如IBM公司推出的ViaVoice语音识别系统。实践证明,尽管在一些比较特殊的条件下(如背景噪音很低,说话人语音很清晰、标准等),语音识别系统可以得到很好的结果,但对于大词汇量和自然情况下的语音识别,其效果还不是十分理想,即使是美国最先进的大词汇连续语音识别系统,其产生的错误率都高达30%以上。正如当今广为应用的语音服务,我们从呼叫中心的语音资料库中进行资料检索,而这个资料是自动录音系统记录的,语音质量或者通话质量不佳等都可能导致音质比较低,最终影响语音检索的效果。因此,先进的语音检索系统应该不仅能够输出文本,还应该能够进行错误识别和纠错,如何减少错误并且提高检索效率成为未来所要攻克的重点。2.1.2关于所使用的调式音频压缩由于人们对于人类的听觉系统认识有限,并且音乐是组成最复杂的音频类型,因此相对语音来说,音乐在基于语义检索的技术方面还有相当的差距,还处在比较初级的阶段。目前主要有两种解决方式:其一,基于音调的音乐检索。由于音乐的每个音符都由它的音调表示,检索时以查询音乐和每个存储音乐片段相应的音调串之间的相似性为基础。常用的查询请求形式是哼唱,再利用字串匹配技术将音符映射成字符,然后进行检索。但是,这种性能的好坏依赖于哼唱输入信号的音调跟踪的准确性;其二,针对结构化音乐进行检索。最常见的结构化音乐是MIDI,它是一种合成音乐,把音乐表示成大量的音符和控制指令。由于结构化音乐的特性,可以比较直接地从音频信号中抽取特征,因此结构化音频更便于检索。2.2空间通信联当前主流的反垃圾邮件技术包括:黑名单技术、白名单技术、邮件过滤器技术、客户端反垃圾邮件技术、贝叶斯过滤技术。黑名单过滤技术:将已知的垃圾邮件地址存放在一个列表(黑名单)中,系统会自动过滤黑名单中的邮件。白名单过滤技术:将可靠的邮件地址存放在一个列表(白名单)中,系统会自动对其进行接受。由于白名单技术花费时间相对较短,所以白名单过滤一般在黑名单过滤执行后,其他过滤方法执行前进行。邮件过滤器技术:针对未知地址的邮件进行过滤。按照一定的规则把垃圾邮件过滤掉,主要过滤发件人、收件人、邮件头、邮件主题、邮件这五部分内容。贝叶斯IBayes过滤技术(贝叶斯过滤系统需维护下列三个表):正常哈希表(goodhashtable):存储已出现的单元串在正常邮件中的出现次数。垃圾哈希表(badhashtable):存储已出现的单元串在垃圾邮件中的出现次数。概率哈希表(probabilityhashtable):存储在邮件中出现过的单元串在垃圾邮件中出现的概率值。基于贝叶斯技术来实现反垃圾邮件系统是当今趋势。在2006年年会上就有一篇论文提到了基于本技术开发的一套垃圾邮件过滤系统,它整合了其他简单的过滤方式来达到远远超过任何一个单独过滤器的过滤效果。在TREC(TextRetrievalConference),美国国家技术标准局(NationalInstituteofStandardsandTechnology,简称NIST)和美国国防部高等研究计划署(DefenseAdvancedResearchProjectsAgency,简称DARPA)共同举办的文本检索会议,2005年的垃圾邮件过滤研究项目中,一共收到了53个过滤器研究作品,而该作者的作品在评估中获得了最佳的成绩。2.3设计一种多语言信息系统跨语言信息检索(CrossLanguageInformationRetrieval,简称CLIR)是指用某一种语言提出检索要求,计算机在其他不同语种的信息资料中进行自动搜索,得到的检索结果甚至可以翻译成用户指定的特定语种。跨语言信息检索结合了传统文本信息检索技术和机器翻译(MachineTranslation,简称MT)技术。设计一套多语言信息系统,必须考虑下列四项要素:(1)数据输入:数据输入的方法;(2)数据表现和传输方式:牵涉到字符集合,编码系统和传输规范;(3)数据运算:例如信息检索;(4)数据输出:信息的呈现。在这四项要素中,数据输入、表现和输出技术上都已经很成熟,可以直接引用现有的系统。在跨语言信息检索中需要面对和解决的几个主要的问题有:(1)询问与文件分属不同语言。这是跨语言信息检索的主要特征,因此询问与文件之间,必须有一个对应,翻译是重要的运算之一。(2)询问中的词可能是多义。原始询问的歧义性,必须辅以歧义性分析机制。(3)询问通常很简短。由于使用者的习惯,输入的询问一般比较简短,这样就增大了歧义性分析和翻译的困难度,进而影响检索的效率。适度的询问扩张是可能考虑的方向。(4)询问中如何断词。一些语言例如中文、日文、韩文等,词与词之间没有明显的分隔符号,断词也是一个难题。(5)文件的多语性。由于目标文件的多语言特征,提供语言识别是跨语言检索的基本工作。(6)输出结果的呈现。如何合并所得的多语言文件的检索结果,呈现在使用者面前,也是跨语言检索必须面对的挑战。2.4分布式控制模块分布式信息检索(DistributedInformationRetrieva1)是信息检索的一种类型,它是针对网络环境下信息分布存储而产生的一种检索形式,常见的有跨库和跨服务器检索。在网络环境下,信息资源往往存储在地理上分散的多个不同场地(即结点)中。这些结点具有资源建设的自主性和独立性,如果将其相互连接,形成一个彼此协调的系统,便成为分布式处理系统(DistributedProcessingSystem)。而分布式系统已经越来越频繁地应用于当今的社会中,因此基于分布式系统的检索将是一个非常重要的课题。下面简要介绍两个主要的研究方向:2.4.1测量集的测量本身计算公式与实验物测试集合是指一种在规范化环境中测试系统效能的机制,包括测试问题、测试文件集及相关判断等三个部分。其研究设计的概念是假设在给定的查询问句与文件集中,某些文件是与查询问句相关的。系统研究的目的是检索出相关的文件,并拒绝不相关的文件,通常采用回收率及精确率作为测量准则。现代分布式的信息检索技术需要准确地掌握测试集合的大小。在一个分布式的环境中统计出详细的测试集几乎是不可能的,虽然已经有一些估算测试集合大小的方法,但是实验分析证明这些方法的准确率还是比较低的。2006年SIGIR就有研究成果建议了两种方法来估算测试集合的大小,并且作者在其文章中证明了自己的方法比其他方法能提供更准确的精度,能更有效地利用资源。2.4.2p2p搜索技术P2P(PeerToPeer)计算技术出现的目的就是希望能够充分利用互联网中所蕴含的潜在计算资源。P2P中文称为对等网络,是指分布式系统中的各个节点是逻辑对等的(与目前互联网上比较流行的C/S计算模型不同,P2P计算模型中不再区分服务器以及客户端),系统中的各个节点之间可以直接进行数据通信而不需要通过中间的服务器。采用P2P的搜索技术可以有效地跟踪数据的更新速度、提高访问的有效性以及检索的效率。随着如Emule及Napster等P2P信息共享应用程序的流行,P2P计算技术受到人们越来越多的关注,因此基于P2P的信息检索技术也是研究的热点。而其主要的搜索方式有:(1)基于DHT网络(结构化P2P网络)的搜索技术。(2)非结构化P2P网络的搜索技术:Flooding搜索方法、Modified-BFS方法、IterativeDeepening搜索方法、RandomWalk搜索方法、Gnutella2搜索方法、基于移动Agent的搜索方法及QueryRouting方法。2.5新主题及其应用2.5.1检索内容的问题信息图形是我们现在运用到的用来描述属性或者实体关系的图片如饼状图、柱状图及线图等。这种信息图形能从直观上表示各种统计信息的结果并有广泛的应用,因此它逐渐形成了一种语言,也应该能在数字图书馆中检索到这些宝贵的知识资源。但是这个基于信息图形检索的技术还没有运用到现在的数字图书馆检索中。如果要做到这一点,必须正确理解信息图形所表达的内容。有研究者提出了用贝叶斯系统来识别简单的饼状图的关联信息并且指出了用来检索这些信息图形的潜在的应用及解决方案。2.5.2广告投放成本与效益的关系网络广告的泛滥给我们提出了一些新的研究课题。举个例子,如何设计一个排名机制来让网站经营者及广告商们知道他们的哪个广告点击率高而且能给他们带来经济效益,这样,广告商就能有的放矢地去投放广告,降低成本,同时也可以适当地减少广告数量,净化我们的网络环境。已有研究针对网上广告提出一个新的基于GeneticPogramming(GP)的框架,旨在优化整体排名的准确性以及最小程度地减小误差等。由于运用真实的广告数据以及真实的网页信息作为测试集,这个框架的准确度已获得了很高的评价。2.5.3从远超前沿的身份关联起来在网络世界中,人们乐于展现出自己的不同方面:你可能会用一个假名在一个你的Blog上面措辞激烈地评价一部电影,当然你也可能会用你的真实姓名参加一个学术讨论,不过将这些不同的身份联系起来是极有可能的。因为在你提到的电影、杂志或者作者等信息中,总是有些蛛丝马迹可以将他们关联起来确定你的身份。但是这些动作违背了人们的意愿,侵犯了人们的隐私,并且有着消极的影响。现在就有研究分析如何来保证我们的隐私不受到侵犯。2.5.4跨网站链接的随机补充技术网站是网络中最重要的组织结构,如何有效地进行网站排名对于一些网络程序来说是很重要的。为了得到网站的排名,研究者过去习惯用一种叫做HostGraph的结构图来描述跨网站链接。在这个结构图中节点表示网站,交界则表示链接是跨网站的,再采用随机模型对这个结构图进行评估。但是,这种随机的模型是不合理的,因为它不符合网民的真实浏
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 五年级下册数学教案-分数除法(一) 北师大版
- 高效的物流安全措施
- 2025年中国交通警示停车场专用标准防护栏市场调查研究报告
- 2025年中国五十陈酿金箔酒市场调查研究报告
- 高中数学选修知识
- 2025年中国中间接触器市场调查研究报告
- 2025年中国不锈钢轮椅数据监测报告
- 2025年中国三用汽艇数据监测报告
- 技术引进合同经典(2025年版)
- 2024-2025学年一年级下学期数学好玩《分扣子》(教案)
- GB/T 11766-2008小米
- 2022年锦泰财产保险股份有限公司校园招聘笔试试题及答案解析
- 妊娠期VTE的防治课件
- (完整版)钢琴五线谱(A4打印)
- 2023辽宁医药职业学院单招数学模拟试题(附答案解析)
- 48个英语国际音标表
- 前列腺穿刺技术
- 小班语言《我会变》课件
- 毕业论文中期报告模板范文5篇
- 上海市高考语文名著阅读《红楼梦》分章回练习:第八回(无答案)
- Q∕HN-1-0000.08.005-2018 风力发电场金属监督标准
评论
0/150
提交评论