版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1基于(jy)指纹的中文文档复制检测系统学生(xu sheng):孙金冉 指导教师:王柠共二十三页2主要(zhyo)内容应用背景1研究意义2研究方法3共二十三页3应用(yngyng)背景文档剽窃Internet为人们提供了前所未有的便利,我们可以方便、快捷获得和传递信息,它推动着高科技不断向前发展。但是,信息资源的易获性和开放性也有不利方面,它使剽窃有机可乘,剽窃越来越容易,越来越猖獗;剽窃侵犯了著作者的著作权,严重影响了科学文化(wnhu)的健康发展。TitleAdd your textTitleAdd your text互联网重复网页互联网上的信息资源正在以指数级增长,重复网页日益增多,很
2、多网页都存在多个版本。因此搜索引擎经常检索出具有相同信息的重复网页。这样既浪费了查询者很多宝贵的查询时间,降低了检索效率.去除重复网页成为了搜索引擎技术中一项很有意义的工作.共二十三页4研究(ynji)意义在数字图书馆里文档主要以电子形式存在,所以很容易被拷贝,经常出现剽窃论文的现象,这种现象必须解决,否则信息所有者不愿意将宝贵的信息发布到图书馆中,而且这些剽窃的文档占有存储空间。在数字图书馆中加入复制检测技术可以检测出剽窃文档,保护(boh)信息所有者的知识产权。信息检索在进行信息检索时总是希望尽快找到准确的内容,一篇文档很有可能以多种格式存在,检索时可能返回多个结果,这就降低了检索效率且浪
3、费网络资源。如果在提交此结果之前我们先加入一个复制检测系统来优先索引网页,如果新的网页被发现与已经索引的网页相似度很大,那么不再提交此网页。 网上论文提交 现在存在很多网上论文提交系统,在论文提交后,编辑们要处理两个问题:一是提交的论文与别人在以前的会议、杂志、学术报告上有多大的相似性;另外,还要检查现在提交的论文与作者本人以前发表论文有多少不同。 数字图书馆共二十三页5复制检测又称剽窃检测(plagiarism detection),就是判断一个文件的内容是否抄袭、剽窃或者复制于另外一个或者多个文件,剽窃不仅仅意味着原封不动地照搬还包括对原文内容的移位交换、同义词替换(t hun)、改变说法
4、重述等。复制(fzh)检测的定义共二十三页62006年,Namoh Kang等从剽窃模式的角度进行文本复制检测(jin c)的研究,描述了文本复制检测(jin c)从难到易的检测(jin c)层次(如下面图),该模式按照难易程度将文本复制检测(jin c)分为各个层次的检测(jin c),提出一个基于剽窃模式的更为精确的文本复制检测(jin c)系统。易文档复制段落复制句子复制词的移位变换句子结构(jigu)改变改变说法重述文档复制检测的难易程度难共二十三页7现有(xin yu)的文档复制检测方法基于词频统计的方法(fngf)基于hash文本块的方法基于语义知识的方法共二十三页8研究(ynji
5、)现状基于词频统计的文档复制检测方法(fngf) 把文档表示成以词为元素组成的向量,根据每个词出现的频率与逆文本频率赋以相应的权值,再通过点积或者余弦等方式度量文档间的相似度。具有代表性的词频统计方法为1995年美国Stanford大学提出的SCAM (Stanford Copy Analysis Method)模型、1997年香港理工大学建立的CHECK原型、西安交通大学2001年提出的CDSDG(Copying Detection System of Digital Goods)系统和2006年提出的高频模型HFM(Heavy Frequency Model)。缺点: (1)基于词频统计的
6、文档复制检测方法虽然广泛应用于文本聚类、信息检索等领域,但是它并不适用于文档复制检测技术; (2)只能检测出两篇文档之间的相似度,不能发现一篇文档同时复制多篇文档的行为; (3) 检测结果准确率不高,误差大。 共二十三页9研究(ynji)现状基于Hash文本块的文档复制检测方法 从文档中选取一些字符串,然后把字符串映射为Hash表中的数值,这些数值被称为“指纹(zhwn)”。通过统计Hash表中相同的指纹数目或者比率来得出文档间的重叠度。具有代表性的Hash文本块方法为1994年ARIZONA亚利桑那州立大学提出的Sif工具、1995年Stanford大学开发的COPS(COPy detect
7、ion System)系统、2000年Monostori等人建立的MDR(Match Detect Reveal)原型系统和2003年芝加哥大学提出的Winnowing算法。优点:算法简单、运算速度快缺点: 该类方法实际上只是进行简单的字符串匹配,因此只能检测出完全相同的全部或部分复制文本,以及移位变换的复制文本,无法发现复杂复制方式,如同义词替换、改变说法重述等。 共二十三页10研究(ynji)现状基于语义知识的文档复制检测方法 从计算语言学领域出发,试图通过各种形式化的方法表示出文本的语义特征,从而度量文档间的重叠(chngdi)度。 现存的基于语义知识的文档复制检测方法为2005年大连理
8、工大学金博等人提出的基于语义理解的文本相似度算法。该算法以知网的概念描述为基础,改进了现存的词语相似度的计算公式,并将词语相似度计算推广到段落范围,进而将这种段落相似度计算推广到篇章相似度计算。 缺点:能够发现的文档复制方式有限,检测结果的准确率不理想。共二十三页11基于指纹的文档复制(fzh)检测系统计算(j sun)指纹比较指纹分词文档按段落分块按句子分块计算句子指纹计算段落指纹计算文档指纹文档指纹相同文档1各粒度指纹文档2各粒度指纹句子指纹相同段落指纹相同分词NNN文档1与2完全相同文档1与2段落相同文档1与2句子相同YYY共二十三页12基于指纹(zhwn)的文档复制检测系统E.G. 高
9、校是培养人才的基地。大学生是高校思想政治教育的主体。以人为(rnwi)本是高校思想政治工作必备的理念。 以人为本是社会主义市场经济和时代发展的需要。现代社会是政治经济科技教育文化和生活变化发展极其迅捷的时代。造成了更加激烈的社会竞争,现代社会知识经济初见端倪。 高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。 以人为本/是/社会主义/市场经济/和/时代/发展/的/需要。现代/社会/是/政治经济科技/教育/文化/和/生活/变化发展/极其/迅捷/的/时代。造成/了/更加/激烈/的/社会/竞争,现代/社会/知识经济/初见端倪
10、。 分词按照段落划分共二十三页13基于指纹(zhwn)的文档复制检测方法 高校/是/培养/人才/的/基地。大学生/是/高校/思想(sxing)政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。 以人为本/是/社会主义/市场经济/和/时代/发展/的/需要。现代/社会/是/政治经济科技/教育/文化/和/生活/变化发展/极其/迅捷/的/时代。造成/了/更加/激烈/的/社会/竞争,现代/社会/知识经济/初见端倪。 高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。 高校/是/培养/人才/的/基地。大学生/是/
11、高校/思想政治教育/的/主体。按照句子划分以人为本/是/高校/思想政治工作/必备/的/理念。 共二十三页14基于指纹(zhwn)的文档复制检测方法高校/是/培养/人才(rnci)/的/基地。令asc(高校)=0; asc(是)=1; asc(培养)=2; asc(人才)=3; asc(的)=4; asc(基地)=5; 计算句子指纹Hp(w1w2wn)=(w1bn-1+w2bn-2+wn-1b1+wn) mod p 令b=2,p=最大的素数, n=6Hp(高校/是/培养/人才/的/基地)=025+ 124 + 223 + 322 + 421 + 520= 52Hp(大学生/是/高校/思想政治教育
12、/的/主体)=30大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。 Hp(以人为本/是/高校/思想政治工作/必备/的/理念)=20共二十三页15基于(jy)指纹的文档复制检测方法段落指纹(zhwn):Hp(s1s2sn)=(s1bn-1+s2bn-2+sn-1b1+wn) mod p 令b=2,p=最大的素数。Hp(s1)= 52, Hp(s1)= 30, Hp(s1)= 20, P1: 高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。 Hp(P1)=(s1bn-1+s2bn
13、-2+sn-1b1+sn) mod p = 5222+ 3021 + 2020 = 308 以人为本/是/社会主义/市场经济/和/时代/发展/的/需要。现代/社会/是/政治经济科技/教育/文化/和/生活/变化发展/极其/迅捷/的/时代。造成/了/更加/激烈/的/社会/竞争,现代/社会/知识经济/初见端倪。 P2:Hp(P2)=566计算段落指纹共二十三页16基于指纹的文档复制(fzh)检测方法P1: 高校/是/培养(piyng)/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。 以人为本/是/社会主义/市场经济/和/时代/发展/的/需
14、要。现代/社会/是/政治经济科技/教育/文化/和/生活/变化发展/极其/迅捷/的/时代。造成/了/更加/激烈/的/社会/竞争,现代/社会/知识经济/初见端倪。 P2:Hp(P2)=566Hp(P1P2)=(P1bn-1+P2bn-2+Pn-1b1+Pn) mod p = 3082+56620 = 1182计算文档指纹Hp(P1)=308共二十三页17中文文本指纹提取(tq)系统共二十三页18中文文本指纹(zhwn)提取系统共二十三页19中文文本指纹提取(tq)系统共二十三页20中文文本指纹提取(tq)系统共二十三页21中文文本(wnbn)指纹提取系统共二十三页22Thank You !共二十三页内容摘要1。在数字图书馆中加入复制检测技术可以检测出剽窃文档,保护信息所有者的知识产权。如果在提交此结果之前我们先加入一个复制检测系统来优先索引网页,如果新的网页被发现(fxin)与已经索引的网页相似
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025水电承包合同的示例文本
- 2025珠海市塑料交易所PVC货物交割合同范本
- 2024年度四川省公共营养师之四级营养师模拟预测参考题库及答案
- 2024财务公司行业分析报告
- 2025FIDIC合同条件与国际工程合同
- 铁水罐项目可行性研究报告
- 中国八宝粥行业市场发展现状及前景趋势与投资分析研究报告(2024-2030版)
- 关于编制钒铁生产建设项目可行性研究报告编制说明
- 2025柜台租赁合同范本介绍
- 2025年中国旅游景点市场运行态势及投资战略咨询研究报告
- 2021年新疆乌鲁木齐市中考化学一模试卷(附答案详解)
- 张家爷爷的小花狗2
- 高中思想政治-高三一轮复习讲评课教学课件设计
- 自动喷水灭火系统的设计计算
- 教师评职称个人综述
- LSI-阵列卡操作手册
- 汉字文化解密(华中师范大学)超星尔雅学习通网课章节测试答案
- 黑龙江省哈尔滨市八年级上学期物理期末考试试卷及答案
- 商业综合体设计说明书
- GB/T 19587-2017气体吸附BET法测定固态物质比表面积
- 比赛车门凹陷修复
评论
0/150
提交评论