智能化学术分享搜索平台开题报告_第1页
智能化学术分享搜索平台开题报告_第2页
智能化学术分享搜索平台开题报告_第3页
智能化学术分享搜索平台开题报告_第4页
智能化学术分享搜索平台开题报告_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、南京航空航天大学计算机科学与技术学院 大学生科技创新基金项目申报书项目名称: 智能化学术分享搜索平台 申 报 人: 吕民晟 郁裕杰 王钟毓 所在专业: 软件培优班 手 机:指导教师: 陈海燕 办公电话: 手 机: 计算机科学与技术学院大学生科技创新基金管理办公室填表日期: 2013 年 09 月 16 日项目名称智能化学术分享搜索平台起止日期 申请经费 申请者情况学 号姓 名平均绩点E-mail电 话签名161210423吕民晟161220115郁裕杰161210125王钟毓指导老师姓名单位职称签名项目负责人获奖情况项目编号(评审用,办公室填写)研究内容提要(限200

2、字以内)1. 建立一个智能化学术搜索引擎,在提供高效搜索服务的同时,为用户提供定制化服务,根据用户搜索行为制定推荐系统。2. 添加知识分享平台,让用户去评论、分享自己感兴趣的知识,并为有相似研究方向的用户提供一个交流学习的途径,为这个平台增加社交化的要素,打造一个方便实用的“知识中心”。研究的目的和意义(限500-1000字)学术论文是我们学习研究时获得最新最前沿知识的一个重要途径,随着大学学习的深入,大学生学习知识时对于学术论文的需求日渐增多,这时就需要一个学术搜索引擎,我们通过它,可以搜索我们学习时所需的学术论文,同时,搜索结果和我们的需求越匹配越好,能极大地减少人工检索过程,为学习提供便

3、利的信息来源。如今市场上已经出现有不少关于学术论文搜索的专业引擎比如Google Scholar,Microsoft Academic Search Engine,通过搜索关键字,提供一些匹配度最高的学术论文,提供很多便利。然而,学术搜索引擎是一个比较通用的工具,很多功能都太死板有待完善。比如,如果用户搜索同一个词,那么它给出的Ranking List都是相同的,不会像别的购物网站,如淘宝,一样根据用户的浏览记录给出个性化的推荐,让用户能更快更便捷的找到自己需要的论文。同时,这些学术搜索引擎也缺少社区互动,无法方便用户们进行知识的分享和交流。对于这些缺陷,我们的项目的目的就是建立一个带有智能化

4、个性化的推荐模式的学术搜索引擎,可以根据用户的不同给予他们不同的推荐,减少人工搜索时间,同时添加知识分享平台,让用户去评论、分享自己感兴趣的知识,并为有相似研究方向的用户提供一个交流学习的途径,为这个平台增加社交化的要素,打造一个方便实用的“知识中心”。国内外本项目的研究状况(800字左右,附不少于4篇的参考文献)1 学术分享搜索平台:现在与学术相关的搜索引擎,比如Google Scholar,Microsoft Academic Search Engine,中国知网等等这些学术搜索引擎各有优势和缺点:Microsoft Academic Search EngineGoogle Scholar

5、中国知网优点1对于特定的会议、杂志, MSAS能快速准确地找到相应文章,并且能提供这些顶级的会议、杂志详细的资料,同时还提供了一些重要学术名会议的日历来提醒用户。 2允许用户对相关信息进行编辑和补充。3引入了Co-Author选项,使用户检索某位学者信息时可以了解该领域其他学者的相关信息,便于用户把握该领域的最新动向。4用户界面相对比较美观。免费,能可以动态的查询文章的被引用次数,以及某作者的所有文章在某段时间的引用次数从检索字段来看,中国期刊网提供多种字段检索可以二次检索,并可以多次进行二次检索缺点1数据库小。搜索算法不理想,搜索得到的结果不符合用户的期望。 2没有提供多语言界面和检索的支持

6、。 3人机交互不方便,也就是操作不够简易。数据来源有一定的不完整性,收录的数据比较杂。局限中国的学术圈,从检索结果的显示来看,中国期刊网只有一种格式2.有推荐功能的社交平台:现在我们身边有许多具有推荐功能的网页或者社交平台,像微博,人人,豆瓣,淘宝网等等,它们会根据每个人不同的特点来推荐同学朋友的信息,帮助大家找到可能认识的人,喜欢的书,爱看的电影或者感兴趣想买的东西,提供定制化服务。目前的学术搜索引擎功能过于死板,对于相同的搜索词给出相同的搜索结果页面,无法根据用户的浏览记录给出个性化的推荐,让用户能更快更便捷的找到自己需要的论文。同时,这些学术搜索引擎也缺少社区互动,无法方便用户们进行知识

7、的分享和交流。参考文献:1个性化推荐系统的研究进展自然科学进展,2009年1月15日2 Microsoft Academic Search Engine:研究内容、研究方案(研究方法、技术路线)(1000字左右)整个项目大体分为六大模块,针对各个模块,我们提出了各自的研究方案:1. 数据爬取数据需求是计算机科学方面的学者和论文元数据,所以爬取需求是定向的网络爬取,而不是通用的爬取。在调研、使用和对比了Nutch,Heritrix,Scrapy这些爬虫工具之后,决定采用Scrapy来做数据的爬取。解决方案Scrapy是一个Python写的爬虫框架,高效简单,代码量少,定制方便,而且是一个企业级的

8、开源爬虫。相对于Nutch,Heritrix要轻量级很多,基本没有配置。它使用Python库中Twisted这个优秀的异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活完成各种需求。Scrapy支持以json形式存储和读取爬取到的内容,将把json对象存入MongoDB内.2.数据存储 “学者”的数据大致包含以下一些字段:全名,工作地,个人主页,研究领域(多字段),论文列表(多字段)。“论文”的元数据信息大致包含:题目,摘要,作者(多字段),期刊,下载链接。如果让传统的面向行的关系型数据库,如MySQL,来存取数据,多字段会需要多张表之间的join操作,表之间需要外键关联,

9、会影响查询性能。此外,可以适当放宽数据查询的一致性,只要满足CAP中的A和P。所以理想的存取方式是非结构化的存储,并且具备可用性和分布式可扩展性,达到最终一致性。解决方案 运用MongoDB这种面向文档的NoSQL,通过pymongo驱动能和Scrapy轻松连接,并直接将json形式的数据存入数据库中。同时用MongoDB自带的GridFS存储文件。3.搜索服务 搜索是平台提供的最主要服务,需要对学者,论文两块的元数据,以及论文的全文数据建立高效的索引,提供各个维度的搜索需求。考虑到论文也是结构比较清晰的一类全文数据,对于论文内部的各个章节的数据也需要工具来定向提取和分析处理,然后建立到索引内

10、提供搜索。索引内可以存储部分数据,而大量的全文内容还是要存储在数据库内,所以索引和数据库之间也存在连结和交互。解决方案 Lucene是一个java语言的搜索引擎库,为开发者提供了索引建立,搜索两块搜索引擎需要具备的基本功能。使用Lucene来自己定制索引块内的文档结构,为学者和论文定制索引,使用lucene的排序,高亮等功能,能搭建一套搜索原型了。 Solr兼容Lucene,将Lucene库进行了包装,封装成了一个可用的配置型搜索服务。在servlet容器(Tomcat,或者更轻量级的Jetty)中启动即可成为一个Http接口的搜索服务,能让搜索模块与网站隔离并且方便调用。 除此之外,Apac

11、he Tika是一个内容抽取工具,使用Tika来抽取pdf内的论文全文内容,并进行处理和分析,将全文内容建立索引并存入MongoDB内,这些全文内容还可以服务于进一步挖掘论文之间的关系,涉及到相关推荐模块。4.网站搭建 提供用户注册登陆,提供搜索框和搜索结果界面,提供用户上传和分享pdf或者url链接的页面,前端网站的内容主要用于与用户的交互。解决方案 考虑上述有比较多的java模块衔接,除了搜索可以作为服务外,别的小的模块还是需要融入到整个平台的代码里,对比了J2EE和Django后采用Spring+Struts2的框架来搭建这个平台。前台的技术和库基本上还是bootstrap,带上一些CS

12、S3的东西。5. 推荐系统 针对不同的搜索进行相应的系统推荐。解决方案 鉴于自身知识体系的局限性,这一部分只能暂时提出低层次的想法。系统推荐部分使用PageRank来在一堆论文数据中计算出论文排名。思路是基于论文之间的相似度计算,用哈希+余弦距离的方式定义论文之间的初始pagerank值,进行若干次迭代之后得到一个排序。技术指标:1. 完成数据爬取、数据存储、搜索服务、网站搭建、推荐系统这5大模块的基本功能。2. 在推荐系统上进行进一步的探索,不断提高推荐的准确度。研究计划及预期成果主要研究阶段(起止时间)阶段预期成果成果形式前期中期后期最终研究成果最终成果名称最终成果形式提示:科技论文、技术报告、软件著作权、专利等系统应用软件及

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论