在抄袭检测中的研究进展课件_第1页
在抄袭检测中的研究进展课件_第2页
在抄袭检测中的研究进展课件_第3页
在抄袭检测中的研究进展课件_第4页
在抄袭检测中的研究进展课件_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Heilongjiang Institute of TechnologyKong Leilei1抄袭检测Heilongjiang Institute of TechnologyKong Leilei2“I am translating the black and whiteimpressions into another language that of colour”黑龙江工程学院在抄袭检测中的研究进展 报告人:孔蕾蕾报告人简介黑龙江工程学院计算机科学与技术学院信息管理与信息系统系副主任黑龙江工程学院云计算与大数据工程技术中心成员哈尔滨工程大学信息与通信工程专业在读博士5黑龙江工程学院云计算

2、与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PANCLEF 2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测系统”介绍“鹰眼抄袭检测系统”在PANCLEF 2012、2013上的性能未来的工作报告内容6黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PANCLEF 2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测系统”介绍“鹰眼抄袭检测系统”在PANCLEF 2012、2013上的性能未来的工作报告内容工程技术中心简介2012年成立,学校投入150万元进行了环境改造、设备更新其前身是2007年成立的校自然语言处理实

3、验室主要研究人员齐浩亮 ,教授,博士,中心主任韩中元,副教授,在读博士,软件工程系副主任安波,副教授,计算机科学与技术系主任王亚东,副教授,物联网系(筹)主任李军,副教授,软件工程系主任孔蕾蕾,讲师,在读博士,信息管理与信息系统系副主任研究方向信息检索信息过滤抄袭检测 云 计 算大数据处理中心主任简介齐浩亮,1972年2月生,博士,教授校自然语言处理实验室主任、计算机应用技术研究所 所长中国中文信息学会,理事中国中文信息学会国际专委会,委员中国中文信息学会社会媒体处理专委会,委员YOCSEF(中国计算机学会青年论坛)哈尔滨2009、2010、2011,副主席黑龙江省首届教学新秀2008年获“黑

4、龙江省杰出(优秀)青年科技创新奖”近期通过了龙江学者初评承担的国家自然科学基金项目项目类型项目名称主持国家自然科学基金面上项目基于双语文档反馈的跨语言信息检索研究国家自然科学基金国际合作项目亚洲语言处理国际会议2010参与国家自然科学基金青年项目面向垃圾邮件过滤的优化目标、建模及顺序回归研究国家自然科学基金面上项目基于用户反馈的多策略翻译在线融合研究国家自然科学基金重点项目下一代信息检索研究主要评测成绩评测名称任务名称评测成绩说明TREC 2012微博检索微博过滤第一哈工大是参赛队,中心主任齐浩亮教授作为指导教师参与了该项目,中心的韩中元老师作为哈工大的在读博士生参与了该项目CLEF2012/

5、2013抄袭检测第一2012详细比对任务/2013高模糊抄袭、翻译抄袭SEWM 2012/2011/2009/2008垃圾邮件过滤第一CEAS 08垃圾邮件过滤主动学习第一微软主办12黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PANCLEF 2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测系统”介绍“鹰眼抄袭检测系统”在PANCLEF 2012、2013上的性能未来的工作报告内容13黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PANCLEF 2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测

6、系统”介绍“鹰眼抄袭检测系统”在PANCLEF 2012、2013上的性能未来工作报告内容Heilongjiang Institute of TechnologyKong Leilei14国内外研究现状抄袭的一般模式2012-10-9Heilongjiang Institute of TechnologyKong Leilei15国内外研究现状抄袭检测:术语抄袭,一般理解为将他人作品的全部或部分,以或多或少改变形式或内容的方式,当作自己的作品发表1。剽窃,主要指将他人的语言文字或研究观点当作自己的成果而不加引用的公开发表2。抄袭检测,定义s=(splg, dplg,ssrc,dsrc),其中,

7、splg为文档dplg中的一段,splg抄袭了文档dsrc中的某个段ssrc。定义r=(rplg, dplg, rsrc, dsrc),如果splgrplg, ssrcrsrc, dsrcdsrc,则称r检测出了s,这个过程称为抄袭检测2。1世界知识产权组织,版权和邻接权法律术语词汇,1980.2Martin Potthast, Andreas Eiselt, Alberto Barrn Cedeo, Benno Stein1, and Paolo Rosso2. Overview of the 3rd International Competition on Plagiarism Detec

8、tion. Overview for PAN at CLEF 2011. Heilongjiang Institute of TechnologyKong Leilei16国内外研究现状目前,文本抄袭检测的研究主要分为两类:内部抄袭检测外部抄袭检测Heilongjiang Institute of TechnologyKong Leilei17内部抄袭检测给定一篇文章,在不借助任何外界参考资料的情况下(假设参考资料集合不能预先获得或不能自由获取),判定该文章是否抄袭、剽窃或复制于一篇或多篇文章的内容。写作风格模型、异常值检测算法等为主流方法。国内外研究现状Heilongjiang Instit

9、ute of TechnologyKong Leilei18外部抄袭检测外部抄袭检测假定存在一个封闭的参考资料集合,在此前提下,给定一篇待检测文本,从参考文档集合中检索与待检测文本相似度超过一定阈值的文本。 国内外研究现状Heilongjiang Institute of TechnologyKong Leilei19抄袭的分类:简单抄袭和高模糊度的抄袭3简单抄袭:原文复制、近似复制、修改复制。高模糊度的抄袭:意译抄袭、总结抄袭、翻译抄袭、观点抄袭。国内外研究现状3 Salha M. Alzahrani, Naomie Salim, Ajith Abraham. Understanding P

10、lagiarism Linguistic Patterns, Textual Features, and Detection Methods. IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICSPART C: APPLICATIONS AND REVIEWS, VOL. 42, NO. 2, MARCH 2012.Heilongjiang Institute of TechnologyKong Leilei20简单抄袭国内外研究现状Heilongjiang Institute of TechnologyKong Leilei21意译(parap

11、hrasing)抄袭国内外研究现状Heilongjiang Institute of TechnologyKong Leilei22总结抄袭国内外研究现状Heilongjiang Institute of TechnologyKong Leilei23翻译抄袭国内外研究现状Heilongjiang Institute of TechnologyKong Leilei24学术论文的观点(idea)抄袭国内外研究现状Heilongjiang Institute of TechnologyKong Leilei25抄袭检测常用的文本特征词汇特征句法特征语义特征结构特征国内外研究现状Heilongji

12、ang Institute of TechnologyKong Leilei26PANCLEF 抄袭检测评测CLEF(Cross-Language Evaluation Forum):是在欧盟数字图书馆计划支持下举办的跨语言信息检索开放评测平台。CLEF于2000年开始举办,现已成为最著名的国际信息检索评测会议之一。PAN(Plagiarism detection, Author identification, Author Profiling)致力于抄袭检测算法的评估2010年加入CLEF国内外研究现状Heilongjiang Institute of TechnologyKong Leil

13、ei27PAN近4年在抄袭检测方面的评测任务备选文档检索详细比对内部抄袭检测外部抄袭检测201020112012源检索文本对齐2013内部抄袭检测外部抄袭检测国内外研究现状Heilongjiang Institute of TechnologyKong Leilei28源检索 提交的查询数目需要下载的网页数目 精确率和召回率找到第一个抄袭源时提交的查询的数目找到第一个抄袭源时下载的网页的数目抄袭源在检索结果中的排序文本对齐召回率精确率granplagdetPANCLEF 抄袭检测评估方法29黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PANCLEF

14、 2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测系统”介绍“鹰眼抄袭检测系统”在PANCLEF 2012、2013上的性能未来工作报告内容Heilongjiang Institute of TechnologyKong Leilei30PANCLEF2012详细比对子任务第一名PANCLEF2013文本对齐高模糊抄袭检测第一名文本对齐翻译抄袭检测第一名源检索任务:召回率及找到第一个抄袭源时提交的查询的数目两个指标上第一名中心在PANCLEF4 http:/pan.webis.de31黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PANCLEF

15、 2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测系统”介绍“鹰眼抄袭检测系统”在PANCLEF 2012、2013上的性能未来工作报告内容Heilongjiang Institute of TechnologyKong Leilei32源检索备选文档集可详 疑细 片信 段息 文档集合待检测文档海量网络资源系统处理过程框架文本对齐Heilongjiang Institute of TechnologyKong Leilei33源检索备选文档集可详 疑细 片信 段息 文档集合待检测文档海量网络资源系统处理过程框架文本对齐Heilongjiang Institute of Technolog

16、yKong Leilei34在源检索中 多种可疑文档查询关键词提取方法查询关键词的排序备选文档的筛选系统处理过程框架Heilongjiang Institute of TechnologyKong Leilei35源检索备选文档集可详 疑细 片信 段息 文档集合待检测文档海量网络资源系统处理过程框架文本对齐Heilongjiang Institute of TechnologyKong Leilei36在文本对齐中:匹配与合并匹配预处理合并系统处理过程框架Heilongjiang Institute of TechnologyKong Leilei37匹配预处理合并双向交替合并算法(Bilat

17、eral Alternating Merging Arithmetic)基于图的最大联通路径系统处理过程框架在文本对齐中:匹配与合并38黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PANCLEF 2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测系统”介绍“鹰眼抄袭检测系统”在PANCLEF 2012、2013上的性能未来的工作报告内容Heilongjiang Institute of TechnologyKong Leilei39“鹰眼抄袭检测系统”在 PANCLEF2012子任务: 备选文档检索44 http:/pan.webis.deHe

18、ilongjiang Institute of TechnologyKong Leilei40子任务: 详细比对44 http:/pan.webis.de“鹰眼抄袭检测系统”在 PANCLEF2012Heilongjiang Institute of TechnologyKong Leilei41 子任务: 文本对齐高模糊抄袭的检测44 http:/pan.webis.de“鹰眼抄袭检测系统”在 PANCLEF2013Heilongjiang Institute of TechnologyKong Leilei42 子任务: 文本对齐翻译抄袭的检测44 http:/pan.webis.de“鹰眼抄袭检测系统”在 PANCLEF2013Heilongjiang Institute of TechnologyKong Leilei43 子任务: 源检索44 http:/pan.webis.de“鹰眼抄袭检测系统”在 PANCLEF2013评测指标结果提交的查询数目 48.5召回率 0.65找到第一个抄袭源时提交的查询的数目 2.46抄袭源在检索结果中的排序344黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PANCLEF 2012、2013上的成绩黑龙江工程学院

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论