版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、信 息 科 学 与 技 术 学 院毕 业 设 计 开 题 报 告音乐领域语义搜索引擎设计与实现学 号: 20100147 姓 名: 刘妍 班 级: 通信三班 专 业: 通信工程 指导老师: 贾真 职 称: 讲师 2014年3 月 17 日开题报告的内容应包括(1) 本课题的目的、意义。(2) 本课题国内外研究现状(国内外文献综述,给出参考文献)。(3) 本课题设计任务与要求。(4) 拟采取的技术路线与试验方案。(5) 预期成果(包括预期能够完成的设计或者理论研究成果,拟提交的软件、硬件、仿真程序等)。(6) 设计进度安排。注:(1)开题报告工作由毕业设计指导小组组织实施,目的是帮助学生执行选题
2、论证。 (2)毕业设计指导小组的论证意见以“通过”、“不通过”结论。通过者按计划开展论文工作。不通过者,整改后重新提交开题报告,如果仍然不通过则取消毕业设计资格。 开 题 报 告 主 要 内 容1. 本课题的目的、意义音乐领域语义搜索引擎主要功能包括理解用户自然语言问句意图、对于播放歌曲等等查询能够直接给出答案。 从Web诞生发展至今,Web上的网页数量呈现指数级数的增长。据统计截止2010 年底,Google拥有约90万台服务器,每天处理20PB的数据。网络信息数据量的迅猛发展表明搜索引擎技术将是一门越来越重要的技术,将成为信息技术发展中不可或缺的一个工具。当前,不管门户网站,电子商务网站还
3、是局部领域网络、地域信息网络都具有一定的信息搜索能力。然而,当前绝大部分搜索系统都是基于关键字的检索系统。虽然某些网站,如百度,Google等,通过一定的技术,使得其检索具有了一定的语义特征。但是从用户体验的角度来讲,在某些检索需求上还远远不能够达到理解用户想所需的要求因此,基于语义的捜索引擎的研究具有重要的现实意义,提高搜索引擎对用户的语义理解和支持是未来搜索技术的发展方向。2、本课题国内外研究现状(国内外文献综述,给出参考文献)2.1浅层语义由Deerwester等人提出的浅层语义索引1 (Latent sernantic indexing),其利用统计学上相关词的统一性来使检索获得一定的
4、语义性。他假设在大量文档的随机词汇下隐藏着语义结构,然后利用奇异值分解2(singular value decomposition:SVD)的统计学方法来估算这种语义结构,获得基于SVD方法的隐藏语义结构的词汇表达和文档。这种结构也叫隐藏概念空间,其关联词义相近的词汇和文档。在检索和索引的过程中利用隐藏概念空间的变形词汇取代原先的词汇,从而使检索获得语义性。2.2语义网虽然当前Web存在着海量的信息,但是当前Web存在着一系列的缺陷。首先,Web内容使提供给人来理解和浏览的,由于Web内容没有采用形式化表示,缺乏明确的语义表示,使得计算机理解的仅为Web内容的二进制表示。从而导致计算机不能够理
5、解Web内容的含义。其次,网页中链接使通过URL来实现,由于URL也不具备语义特征。使得网页之间只是内容的堆积,而没有语义层面的关系,从而导致信息检索过程中不能够挖掘关眹的信息。最后,由于当前各种智能信息终端,如:平板电脑,智能手机等飞速发展,使得其也有必要获取web上的信息进行智能交互,当前的互联网也不具备这样的功能。考虑到以上问题,为了使计算机能够理解和处理网页内容,迅速准确地从海量网页中査找所需要的内容,1998年Berners-Lee提出了语义网(Sernantic Web)3,意图让信息以计算机可理解和可处理的方式建立起来,并且在网络条件下普及,从而实现网络环境下的检索和推理。然而,
6、由于语义网尚面临着诸多问题,导致其迟迟得不到大规模应用, 数据问题,衧能问题,安全问题是浯义网面临的主要问题。(1) 数据问题数据问题是当前语义网最核心的问题。考虑到网络数据的多样性,多领域性。语义网络的数据标记方式必须是灵活的,可扩展的。目前,W3C(world wide web consortium)定义了一些语义网数据规范,如:RDF(resource description framework)4,RDFS(RDF scbema)5/OWL(web oritology language)6等。但是当前上的绝大部分内容都没有符合语义网规范的标记,为当前web添加语义标注除了数据的多样性带
7、来的标注方式难以统一的问题,同时也面临着巨大的成本问题。(2)智能问题语义网面临的另外一个重要的技术难题是如何能够是计算机"推理"。由于现实世界中具有诸多的不确定性和动态性,内容表述具有的模糊性,使得对推理规则逻辑的设定具有相当的技术难度,同时,自然语言理解技术的相对不成熟也是计算机获得"推理" 能力的一个障碍。(3)安全问題在通过语义网络链接各种异构的信息源,实现信息互通的同时,也是如个人私密信息,涉密机构及计划的信息可能泄漏的问题,这可能导致严重的后果。注意到这一点, 研究人员正在发展一些技术或机制来增强语义网的安全性。2.3基于本体的信息检索本体7
8、作为一种能够在语义和知识层次上描述信息系统的概念模型工具,自提出来以来就引起了国内外研究人员的关注,并且在信息检索与获取、软件工程、自然语言处理等方面有很重要的应用8910。基于本体的语义检索主要强调利用本体自身的特征实现査询扩展和文档的语义处理。早在1994年,Voorhees就提出基于本体的査询扩展1112,使用本体中的概念进行查洵扩展,并得出利用本体中的同义词和相关概念的子类关系进行扩展。Maki在2003 年提出了基于本体结构的查询扩展方法,将概念用联通的路径表示,通过路径的长短、方式来获取概念的相似度。Navigli于2004年提出了基于本体注释的查询扩展方法,利用在本体中相似的概念
9、或者相似的术I吾使用相同的定义注释,在计算概念相似时,根据概念注释词汇的对比来确认其相似程度。J.Bhogal等研究人员于2007在文献12分析基于本体的查询扩展并且分析了各种査询扩展的方法。在本体方面,Ludger van Elst等在2002在文献13中分析了本体在基于叫agent的计算、分布式系统、专家系统中的应用,并且分析了本体的规范、稳定性以及其共享的特征。王进于2006年在文献11中提出基于本体的语义检索模型。于娟在文献14中分析了基于文本的领域本体学习方法等。总体来说,基于本体的浯义搜索研究主要有三个方面的问题,基于本体的查询扩展1516对文档的语义处理1718以及本体的构建方式
10、与学习。2.4研究现状小结上文基于SVD方法在一定程度上可以使检索具有语义性,但是在面向海量数据时, 该方法面对的将是一个趋向于无穷大矩阵的极大运算量。在现实的使用中,该方法会占用很大的资源,具有较大的不可行性。对于语义网来说,当前网站和用户都是使用基于关键字的检索,大规模的使用语义网亦不符合当前用户的使用习惯。现有的基于本体的信息检索研究中11,无论是采用结构化的方法描述文档,还是采用自动标注的方法进行处理,都是在本体的概念层次基础上进行的,这些方式较常规的文档处理方法如标引词抽取、页面标签标引、同义词相关词典等已经有了很大的进步, 能够有助于提取文档的语义内容方面,在用户査询扩展方面,基于
11、本体的方法也取得了很大的进展。总体说来,语义检索主要是基于概念匹配的检索方法,把传统方法中从用户查询和文档抽取出来关键司替换为含有语义的概念,以此把关键字级的检索提升到概念级别的检索,并采用同义字典和近义字典对概念的语义进行补充,这种方式去除了无意义的关键字千扰,从一定程度上对有意义关键词的语义提取起到积极作用:部分语义检索的研究也考虑到了概念和概念之间的关系,利用概念的层次结构等刻画概念两两之间的距离和相似度,这种方式对早期的检索效果有较大提升22,具有相当的参考价值和实践意义。然而,这些方法的侧重点要么是针对文档中出现的浯义概念,要么是对用户査询所涉及的本体概念,而没有充分利用到本体中的概
12、念的属性和其它内在关系,并且缺乏对文档语义概念和查询语义概念的相似度比较,这样直接导致了在检索过程中的语义相似度计算方面,仍然延续传统的计算方法,对概念的出现次数和频率进行考虑。如果能够把这些出现在文档和用户查询中的概念、实例、关系以及属性甚至在文档中出现的位置等信息综合考虑,并使它们的价值在检索过程中得到体现,就能够更进一步把语义检索的作用发挥出来,这正是我们研究的目的所在。此外,在实际应用中,由于领域本体的构建1920主要采用人工或者半自动的方式, 领域本体的不完备性21是一直存在的问题。目前设计的算法大都是基于可获得的领域本体,忽略了当领域本体知识缺失时对系统造成的影响。参考文献:1S.
13、Deerwester,S.T.Domais,G.W.Furnas,et al.Indexing by Latent Semantic AnalysisJ.Joural of the American Society for Information Science.1990,41:391-407. 2余勇,薛贵荣,韩定一.Web数据挖掘M.淸华大学出版社.2009.3Berners-Lee T,Hendler J,Lassila O.The semantic web-a new form of web content that is meaningful to computers will un
14、leash a revolution of new possibilitiesJ.Scientific American,2001.4Klyne G,Garrol J J.Resource description framework(RDF):concepts and abstract syntaxEB/OL.W3C,2004.5Brickley D,Guha R V.RDF vocabulary descripton language 1.0:RDF schemaEB/OL.W3C,2004.6McGuinness D L,Harmelen F V.OWL web ontology lang
15、uage overviewEB/OL.W3C,2004.7李善平,尹奇,胡玉杰,等.本体论研究综述J.计算机研究与发展,2004,Vol.141,No.17:1041-1051. 8袁方.面向智能信息检索的挖掘关键技术研究,博士学位论文.沈阳:东北大学,2006.9黄磊.多专业领域本体的构造及语义检索研究,博士学位论文.北京:北京交通大学,2009.10ANTONIO Jimeno-Yepes, Rafael Berlanga-Llavori,Dietrich Rebholz-Schuhmann A.Ontology refinement for improved information re
16、trievalJ.Information Processing and Management.2010,46:426-435.11王进.基于本体的语义信息检索研究,博士学位论文.合肥:中国科学技术大学,2009.12J.B hogal,A.Macfarlane,P.Smith.A review of ontology based query expansionJ,Information Processing and Management.2007,43:866-886.13Ontologies for information management: balancing formality, s
17、tability, and sharing scope.14BorstWN.Construction of Engineering Ontologies for Knowledge Sharing and Reuse.PhDthesis,University of Twente,Enschede,1997.15M.C. Diaz-Galiano,M.T Martin-Valdivia,L.A. Urena-Lopez.Query expansion with a medical ontology to improve a multimodal information retrieval sys
18、temJ.Computers in Biology and Mesicine.2009,39:396-403.16Mehul Bhatt,Wenny Rahayu,Sury Prakash Soni,et al.Ontology driven semantic profiling and retrieval in medical information systemsJ.Web Semantics:Science and Agents on the World Wide Web,2009,7:317-331.17邹国兵.向阳.基于领域本体的信息检索模型J.同济大学学报(自然科学版),2009,
19、37(4):545-549.18Fuji Ren,David B.Bracewell.Advanced Information RetrievalJ.Electronic Notes in Theoretical Computer Science 225 (2009) 303-317.19Fuchuan Peng,Xiangji Huang,Dale Schuurmans,et al.Investigating the Relationship between Word Segmentation Performance and Retrieval Performance in Chinese IRC.Proceedings of the Nineteenth International Conference on Computational Lingusitics(COLING-02).20Du XY,Li M,Wang S.A survey on ontology learning researchJ.Journal of Software,2006,I7(9):1837-1847.21马明宝,马静,施秀丽,等.领域本体在信息检索中的应用研究J.情报学报,2010,29(2):215-222.22Geir Solskinsbkk,J
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 科技创新贷款服务合同
- 建筑合同的财务管理与审计
- 建筑施工合同审查
- 新常用二手房购买合同范本
- 家居装饰工程承揽合同书参考
- 教师实习合同范例参考
- 2024年度旅游服务合同:个性化定制旅行服务及规划
- 快递员合同协议书模板
- 工会集体合同模板
- 家庭雇佣家政工合同示例
- 入职申请表(完整版)
- 中西医治疗高血压
- 中医学课件五脏-心
- 组合机床动力滑台液压系统设计
- 深基坑土方开挖专家论证方案样本
- 医院重点学科建设方案
- 老年科2024年度工作总结及计划
- 2024年医药卫生考试-整形美容知识笔试历年真题荟萃含答案
- 购物新时代虚拟现实技术在电商行业的创新应用
- 海南鑫海锋旧电器回收有限公司废旧电器回收拆解项目 环评报告
- 赣美版美术一年级上册第课红星闪闪内嵌音视频
评论
0/150
提交评论