云计算与大数据工程技术研发中心汇报ppt课件_第1页
云计算与大数据工程技术研发中心汇报ppt课件_第2页
云计算与大数据工程技术研发中心汇报ppt课件_第3页
云计算与大数据工程技术研发中心汇报ppt课件_第4页
云计算与大数据工程技术研发中心汇报ppt课件_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1抄袭检测2“I am translating the black and whiteimpressions into another language that of colour黑龙江工程学院在抄袭检测中的研讨进展 报告人:孔蕾蕾报告人简介黑龙江工程学院计算机科学与技术学院信息管理与信息系统系副主任黑龙江工程学院云计算与大数据工程技术中心成员哈尔滨工程大学信息与通讯工程专业在读博士5黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研讨现状中心在PANCLEF 2021、2021上的成果黑龙江工程学院“鹰眼抄袭检测系统引见“鹰眼抄袭检测系统在PANCLEF 202

2、1、2021上的性能未来的任务报告内容6黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研讨现状中心在PANCLEF 2021、2021上的成果黑龙江工程学院“鹰眼抄袭检测系统引见“鹰眼抄袭检测系统在PANCLEF 2021、2021上的性能未来的任务报告内容工程技术中心简介2021年成立,学校投入150万元进展了环境改造、设备更新其前身是2007年成立的校自然言语处置实验室主要研讨人员齐浩亮 ,教授,博士,中心主任韩中元,副教授,在读博士,软件工程系副主任安波,副教授,计算机科学与技术系主任王亚东,副教授,物联网系筹主任李军,副教授,软件工程系主任孔蕾蕾,讲师,在

3、读博士,信息管理与信息系统系副主任研讨方向信息检索信息过滤抄袭检测 云 计 算大数据处置中心主任简介齐浩亮,1972年2月生,博士,教授校自然言语处置实验室主任、计算机运用技术研讨所 所长中国中文信息学会,理事中国中文信息学会国际专委会,委员中国中文信息学会社会媒体处置专委会,委员YOCSEF中国计算机学会青年论坛哈尔滨2021、2021、2021,副主席黑龙江省首届教学新秀2021年获“黑龙江省出色优秀青年科技创新奖近期经过了龙江学者初评承当的国家自然科学基金工程项目类型项目名称主持国家自然科学基金面上项目基于双语文档反馈的跨语言信息检索研究国家自然科学基金国际合作项目亚洲语言处理国际会议2

4、010参与国家自然科学基金青年项目面向垃圾邮件过滤的优化目标、建模及顺序回归研究国家自然科学基金面上项目基于用户反馈的多策略翻译在线融合研究国家自然科学基金重点项目下一代信息检索研究主要评测成果评测名称任务名称评测成绩说明TREC 2012微博检索微博过滤第一哈工大是参赛队,中心主任齐浩亮教授作为指导教师参与了该项目,中心的韩中元老师作为哈工大的在读博士生参与了该项目CLEF2012/2013抄袭检测第一2012详细比对任务/2013高模糊抄袭、翻译抄袭SEWM 2012/2011/2009/2008垃圾邮件过滤第一CEAS 08垃圾邮件过滤主动学习第一微软主办12黑龙江工程学院云计算与大数据

5、工程技术中心简介中心在抄袭检测上的最新进展国内外研讨现状中心在PANCLEF 2021、2021上的成果黑龙江工程学院“鹰眼抄袭检测系统引见“鹰眼抄袭检测系统在PANCLEF 2021、2021上的性能未来的任务报告内容13黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研讨现状中心在PANCLEF 2021、2021上的成果黑龙江工程学院“鹰眼抄袭检测系统引见“鹰眼抄袭检测系统在PANCLEF 2021、2021上的性能未来任务报告内容Heilongjiang Institute of TechnologyKong Leilei14国内外研讨现状抄袭的普通方式20

6、21-10-9Heilongjiang Institute of TechnologyKong Leilei15国内外研讨现状抄袭检测:术语抄袭,普通了解为将他人作品的全部或部分,以或多或少改动方式或内容的方式,当作本人的作品发表1。剽窃,主要指将他人的言语文字或研讨观念当作本人的成果而不加援用的公开发表2。抄袭检测,定义s=(splg, dplg,ssrc,dsrc),其中,splg为文档dplg中的一段,splg抄袭了文档dsrc中的某个段ssrc。定义r=(rplg, dplg, rsrc, dsrc),假设splgrplg, ssrcrsrc, dsrcdsrc,那么称r检测出了s,这

7、个过程称为抄袭检测2。1世界知识产权组织,1980.2Martin Potthast, Andreas Eiselt, Alberto Barrn Cedeo, Benno Stein1, and Paolo Rosso2. Overview of the 3rd International Competition on Plagiarism Detection. Overview for PAN at CLEF 2021. Heilongjiang Institute of TechnologyKong Leilei16国内外研讨现状目前,文本抄袭检测的研讨主要分为两类:内部抄袭检测外部抄袭

8、检测Heilongjiang Institute of TechnologyKong Leilei17内部抄袭检测给定一篇文章,在不借助任何外界参考资料的情况下假设参考资料集合不能预先获得或不能自在获取,断定该文章能否抄袭、剽窃或复制于一篇或多篇文章的内容。写作风格模型、异常值检测算法等为主流方法。国内外研讨现状Heilongjiang Institute of TechnologyKong Leilei18外部抄袭检测外部抄袭检测假定存在一个封锁的参考资料集合,在此前提下,给定一篇待检测文本,从参考文档集合中检索与待检测文本类似度超越一定阈值的文本。 国内外研讨现状Heilongjiang

9、Institute of TechnologyKong Leilei19抄袭的分类:简单抄袭和高模糊度的抄袭3简单抄袭:原文复制、近似复制、修正复制。高模糊度的抄袭:意译抄袭、总结抄袭、翻译抄袭、观念抄袭。国内外研讨现状3 Salha M. Alzahrani, Naomie Salim, Ajith Abraham. Understanding Plagiarism Linguistic Patterns, Textual Features, and Detection Methods. IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICSPA

10、RT C: APPLICATIONS AND REVIEWS, VOL. 42, NO. 2, MARCH 2021.Heilongjiang Institute of TechnologyKong Leilei20简单抄袭国内外研讨现状Heilongjiang Institute of TechnologyKong Leilei21意译(paraphrasing)抄袭国内外研讨现状Heilongjiang Institute of TechnologyKong Leilei22总结抄袭国内外研讨现状Heilongjiang Institute of TechnologyKong Leilei

11、23翻译抄袭国内外研讨现状Heilongjiang Institute of TechnologyKong Leilei24学术论文的观念(idea)抄袭国内外研讨现状Heilongjiang Institute of TechnologyKong Leilei25抄袭检测常用的文本特征词汇特征句法特征语义特征构造特征国内外研讨现状Heilongjiang Institute of TechnologyKong Leilei26PANCLEF 抄袭检测评测CLEF(Cross-Language Evaluation Forum):是在欧盟数字图书馆方案支持下举行的跨言语信息检索开放评测平台。C

12、LEF于2000年开场举行,现已成为最著名的国际信息检索评测会议之一。PAN(Plagiarism detection, Author identification, Author Profiling)努力于抄袭检测算法的评价2021年参与CLEF国内外研讨现状Heilongjiang Institute of TechnologyKong Leilei27PAN近4年在抄袭检测方面的评测义务备选文档检索详细比对内部抄袭检测外部抄袭检测202120212021源检索文本对齐2021内部抄袭检测外部抄袭检测国内外研讨现状Heilongjiang Institute of TechnologyKo

13、ng Leilei28源检索 提交的查询数目需求下载的网页数目 准确率和召回率找到第一个抄袭源时提交的查询的数目找到第一个抄袭源时下载的网页的数目抄袭源在检索结果中的排序文本对齐召回率准确率granplagdetPANCLEF 抄袭检测评价方法29黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研讨现状中心在PANCLEF 2021、2021上的成果黑龙江工程学院“鹰眼抄袭检测系统引见“鹰眼抄袭检测系统在PANCLEF 2021、2021上的性能未来任务报告内容Heilongjiang Institute of TechnologyKong Leilei30PANC

14、LEF2021详细比对子义务第一名PANCLEF2021文本对齐高模糊抄袭检测第一名文本对齐翻译抄袭检测第一名源检索义务:召回率及找到第一个抄袭源时提交的查询的数目两个目的上第一名中心在PANCLEF4 pan.webis.de31黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研讨现状中心在PANCLEF 2021、2021上的成果黑龙江工程学院“鹰眼抄袭检测系统引见“鹰眼抄袭检测系统在PANCLEF 2021、2021上的性能未来任务报告内容Heilongjiang Institute of TechnologyKong Leilei32源检索备选文档集可详 疑

15、细 片信 段息 文档集合待检测文档海量网络资源系统处置过程框架文本对齐Heilongjiang Institute of TechnologyKong Leilei33源检索备选文档集可详 疑细 片信 段息 文档集合待检测文档海量网络资源系统处置过程框架文本对齐Heilongjiang Institute of TechnologyKong Leilei34在源检索中 多种可疑文档查询关键词提取方法查询关键词的排序备选文档的挑选系统处置过程框架Heilongjiang Institute of TechnologyKong Leilei35源检索备选文档集可详 疑细 片信 段息 文档集合待检测

16、文档海量网络资源系统处置过程框架文本对齐Heilongjiang Institute of TechnologyKong Leilei36在文本对齐中:匹配与合并匹配预处置合并系统处置过程框架Heilongjiang Institute of TechnologyKong Leilei37匹配预处置合并双向交替合并算法(Bilateral Alternating Merging Arithmetic)基于图的最大联通途径系统处置过程框架在文本对齐中:匹配与合并38黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研讨现状中心在PANCLEF 2021、2021上的成果

17、黑龙江工程学院“鹰眼抄袭检测系统引见“鹰眼抄袭检测系统在PANCLEF 2021、2021上的性能未来的任务报告内容Heilongjiang Institute of TechnologyKong Leilei39“鹰眼抄袭检测系统在 PANCLEF2021子义务: 备选文档检索44 pan.webis.deHeilongjiang Institute of TechnologyKong Leilei40子义务: 详细比对44 pan.webis.de“鹰眼抄袭检测系统在 PANCLEF2021Heilongjiang Institute of TechnologyKong Leilei41

18、子义务: 文本对齐高模糊抄袭的检测44 pan.webis.de“鹰眼抄袭检测系统在 PANCLEF2021Heilongjiang Institute of TechnologyKong Leilei42 子义务: 文本对齐翻译抄袭的检测44 pan.webis.de“鹰眼抄袭检测系统在 PANCLEF2021Heilongjiang Institute of TechnologyKong Leilei43 子义务: 源检索44 pan.webis.de“鹰眼抄袭检测系统在 PANCLEF2021评测指标结果提交的查询数目 48.5召回率 0.65找到第一个抄袭源时提交的查询的数目 2.46抄袭源在检索结果中的排序344黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研讨现状中心在PANCLEF 2021、2021上的成果黑龙江工程学院“鹰眼抄

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论