(计算机应用技术专业论文)基于文本挖掘技术的论文抄袭判定研究.pdf_第1页
(计算机应用技术专业论文)基于文本挖掘技术的论文抄袭判定研究.pdf_第2页
(计算机应用技术专业论文)基于文本挖掘技术的论文抄袭判定研究.pdf_第3页
(计算机应用技术专业论文)基于文本挖掘技术的论文抄袭判定研究.pdf_第4页
(计算机应用技术专业论文)基于文本挖掘技术的论文抄袭判定研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)基于文本挖掘技术的论文抄袭判定研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于文本挖掘技术的论文抄袭判定研究 摘要 自2 0 世纪9 0 年代学术界提出反对学术腐败以来,被揭露出来的学术腐 败事件最多的是学术造假,其中又以学术著作和论文的抄袭为最。解决论文抄 袭的判定问题不但对于保护知识产权、提高学术论文质量、净化学术领域、防 止学术腐败都有很重要的意义,而且可以有效的防止一稿多投和减轻审稿人员 的工作负担。 文本挖掘是数据挖掘研究面向非结构化和半结构化文本数据的自然延伸。 人们日常生活和工作中接触到的信息有大多数都是以文本形式出现的,文本挖 掘是从文本或文本集中发现和挖掘归纳性的有效、创新、有用和最终可理解的 模式、模型、趋势、规则等知识的非平凡过程。文本挖掘是利用智能算法,并 结合文字处理技术,分析大量的非结构化文本源( 如文档、电子表格、电子邮 件、书籍、网页等) 抽取或标记关键字概念,文字间的关系,并按照内容对分 档进行分类,获取有用的知识和信息。 如何将文本挖掘中的主要技术应用于论文抄袭判定中,这是本文的主要研 究目的。主要研究成果工作如下: ( 1 ) 依据论文抄袭界定的法律,分析归纳了论文抄袭的类型和论文抄袭判定 的主要技术,包括数字指纹技术和词频统计技术; ( 2 ) 探讨和研究了文本挖掘中涉及的信息检索与信息抽取技术以及文本挖掘 的主要方法( 关联分析、文本分类、文本聚类、自动文摘等) ; ( 3 ) 在分析各种文本相似度计算主要方法的基础上,设计和实现了基于文本 分类的文档相似度计算和基于段落词频统计的文档相似度计算,在实际测试中, 效果较好; ( 4 ) 结合全文相似度计算、段落相似度计算和语句相似度计算的技巧,设计 并实现一个基于文本分类思想的论文抄袭判定系统。 关键词:文本挖掘;抄袭判定;文本分类;文本相似度;词频统计 a s t u d yo fh o wt oju d g ep l a g i a r i s mi nt h ea c a d e m i ct h e s e s b a s e do nt h et e c h n o l o g yo ft e x tm i n i n g a bs t r a c t t h ei n c i d e n t sa b o u ta c a d e m i cc o r r u p t i o nm a i n l yh a v er e f e r r e dt oa c a d e m i cm i s c o n d u c t s , e s p e c i a l l yp l a g i a r i s mi na c a d e m i cw o r k sa n dt h e s e ss i n c et h ea c a d e m i ap r o t e s t e da g a i n s t a c a d e m i cc o r r u p t i o ni n19 9 0 s s o l u t i o n st oj u d g i n gp l a g i a r i s mi nt h ea c a d e m i ct h e s e sc a nn o t o n l yh a v et h ei m p o r t a n ts i g n i f i c a n c ei np r o t e c t i n gi n t e l l e c t u a lp r o p e r t y , i m p r o v i n ga c a d e m i c t h e s e s q u a l i t y , p u r i l y i n ga c a d e m i cf i e l d sa n dp r e v e n t i n ga c a d e m i cc o r r u p t i o n ,b u ta l s oa v o i d d e l i v e r i n gt h es a m em a n u s c r i p tt od i f f e r e n tm a g a z i n e sa n dl i g h t e na r t i c l ee d i t o r s w o r kl o a d t e x tm i n i n gi st h ee x t e n s i o nf r o md a t am i n i n gt ou n s t r u c t u r e da n ds e m i - s t r u c t u r e dt e x t d a t a m o s to ft h ei n f o r m a t i o ni no u rd a i l yl i f ei sp r e s e n t e di nt h ef o r mo ft e x tm o d e t e x t m i n i n gi sa nu n u s u a lp r o c e s sa n di tc a nd i s c o v e rs o m ee f f e c t i v e ,i n n o v a t i v e ,u s e f u la n d u n d e r s t a n d a b l ep a t t e r n s ,m o d e l s ,t r e n d sf r o mt h et e x t t e x tm i n i n gc a ng e tt h eu s e f u l i n f o r m a t i o na n dk n o w l e d g e b ym a k i n g u s eo fs m a r t a l g o r i t h m ,c o m b i n i n g w i t h w o r d - p r o c e s s i n gt e c h n o l o g y , a n a l y z i n gal a r g en u m b e ro fu n s t r u c t u r e dt e x ts o u r c e s ( s u c ha s t e x t s ,e x c e l s ,e - m a i l s ,b o o k s ,w e bp a g e s ,e t c ) ,t a k i n go u to rm a r k i n gt h er e l a t i o nb e t w e e n w o r d s ,a n dc l a s s i f y i n gf i l e sa c c o r d i n gt ot h ec o n t e n t s t h ea i mo ft h i st h e s i si sa b o u th o wt oa p p l yt h et e c h n o l o g yo ft e x tm i n i n gt ot h eo f p l a g i a r i s mi nt h ea c a d e m i ct h e s e s t h em a j o rr e s e a r c ht a s k sc a nb el i s t e da sf o l l o w s : ( 1 ) t oa n a l y z ea n ds u m u pt h et y p e so fp l a g i a r i s ma n dt h et e c h n o l o g yo f j u d g m e n t ( s u c h a s d i g i t a lp r i n ta n dw o r d f r e q u e n c ys t a t i s t i c s ) b a s e do nt h el a w ; ( 2 ) t od oar e s e a r c ho ni n f o r m a t i o nr e t r i e v a l ,i n f o r m a t i o ne x t r a c t i o n ,a n dt h em a i nm e t h o d s a b o u tt e x tm i n i n g ( c o r r e l a t i o na n a l y s i s ,t e x tc a t e g o r i z a t i o n ,t e x tc l u s t e r i n g ,a u t o m a t i cd i g e s t , e t c ) ; ( 3 ) t oc a r r yo u tt h e t e c h n o l o g yo fc a l c u l a t i o n b a s e do ns i m i l a r i t yi nt e x ta n d w o r d f r e q u e n c ys t a t i s t i c sa n dp r o d u c eas o u n de f f e c t ; ( 4 ) t ow o r ko u tt h e s e sp l a g i a r i s mj u d g m e n ts y s t e mb a s e do nt e x tc a t e g o r i z a t i o na c c o r d i n g t ot h et e c h n o l o g yo fc a l c u l a t i o nb a s e d0 ns i m i l a r i t yi nw h o l et e x t ,p a r a g r a p h sa n ds e n t e n c e s k e yw o r d s :t e x tm i n i n g ,p l a g i a r i s mj u d g m e n t ,t e x tc a t e g o r i z a t i o n ,s i m i l a r i t y i n t e x t , w o r d - f r e q u e n c ys t a t i s t i c s 插图清单 图3 1 信息检索过程13 图3 2 信息抽取过程16 图3 3 文本分类过程18 图3 4 自动文档分类算法l8 图3 5 自动文摘的处理过程2 3 图4 1 属性重心剖分模型33 图4 2 文本d 与查询q 的属性坐标表示3 4 图4 3 文档的相似度计算过程36 图5 1c b t p j s 系统处理过程流程图4 0 图5 2 分词工具界面4 2 图5 3 文本分类器界面4 2 图5 4 全文相似比较界面4 3 图5 5 段落相似比较界面4 3 表格清单 表4 1 不同特征维数下文档d 1 ,d 2 ,d 3 与指定文档的相似度值3 4 表4 2 不同特征维数下设定的阈值和超过阈值的文档数3 4 表4 3 不同阈值下的查准率、查全率和f l 值3 7 表5 1 不同特征维数下超过阂值的文档数和用时4 4 表5 2 不同阈值下查准率、查全率和f 1 值的情况4 4 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成 果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得 金8 曼王些太堂 或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 学位论文作者签名: 者爱荔签字日期:加。弓年歹月;口日 学位论文版权使用授权书 本学位论文作者完全了解佥目里王些太堂有关保留、使用学位论文的规定,有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授 权金目墨王些盔堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:丧巧量壶 签字日期:弘呷年;月尸。日 学位论文作者毕业后去向: 工作单位; 通讯地址: 导师签名 签字日期: 电话; 邮编: 日 致谢 本文从选题、定纲、修改到定稿,无不倾注了导师胡学钢教授的心血,在 此感谢胡老师在论文指导过程中以及在研究生学习的几年时间里所给予的关心 和教导。胡老师博大精深的学识、精益求精的风格以及诲人不倦的教育态度给 我留下深刻的印象,将激励我在今后的工作、学习中刻苦钻研、追求上进。同 时,感谢计算机与信息学院在职研究生班的授课老师,他们的谆谆教导让我对 专业知识有了更深的了解,为我的进一步学习打下坚实的基础。论文的完成也 离不开谢飞博士的支持和帮助。最后,借此机会感谢我的父母和爱人,是他们 的无微不至的支持和关爱给了我最坚实的后盾和不断追求进步的动力。 本文采用了中国科学院计算所软件研究室的汉语词法分析系统i c t c l a s 以及复旦大学计算机与信息技术系李荣陆制作的文本自动分类器s v m c l s 2 0 ,在这里表示感谢。 作者:赵俊杰 2 0 0 9 年3 月 第一章绪论 本章主要介绍本文的研究背景和研究意义、国内外研究现状、本文的主要 研究内容和全文的结构。 1 1 研究背景和研究意义 随着计算机技术和网络技术的飞速发展,特别是i n t e r n e t 应用的普及, 互联网已经成为人们传递和交流信息的重要平台。在网上信息量迅速膨胀的同 时,网络搜索引擎、自动分类、信息抽取等信息技术也在研究和成熟之中,为 人们高效、准确地获取信息提供了有利的保证。网络信息资源以文本、图像、 视频、音频等形式存在,在我国,据中国互联网发展统计报告,文本信息占网 上资源的7 0 。这些电子形式的数据为广大学者和师生提供丰富的信息资源和 便利的交流机会,促进科学技术的发展。与此同时,电子资源获取的便利及电 子资源本身简单的“复制 “粘贴 功能,为学术论文的抄袭与剽窃等不道德行 为提供了方便。 我国近年来,学术论文的抄袭与剽窃事件迭起,因抄袭他人论著而被曝光, 甚至走上法庭被告席的案件屡有发生。这种行为不仅侵害了作者的权益,而且 严重破坏了学术发展的生态环境,损害了学术共同体的尊严,还影响到我国科 研水平和科技竞争力的提高,损害了国家和公众的利益。因此,学风问题已成 为全社会众矢之的,“学术打假 的呼声日甚。 1 2 国内外研究现状 在国外,自从1 9 9 1 年用于查询重复基金申请书的w o r d c h e c k 软件应用以后, 自然语言文本的抄袭识别技术有了较大的发展,出现了多个抄袭识别系统。1 9 9 4 年,m a n d e r 开发了用于大规模文件系统中相似文件查询的s i f f i 具叩1 。s i f 馆皂够 查询二进制和文本文件,率先使用数字指纹技术来计算文件相似度,为抄袭论 文识别技术提供了新思路。19 9 5 年,s h i v a k u m a r 等采用相关频率模型开发了复 制检测系统s c a m 口3 ,s c a m 借鉴了信息检索技术中的向量空间模型,采用了改 进的余弦法来计算文档相似度。2 0 0 1 年,f i n k e l h l 提出s e ( s i g n a t u r ee x t r a c t i o n ) 方 法检测文档的重叠度,s e 方法包括文本分割、挑拣、摘要、排序和比较等步骤, 识别精确度较高。2 0 0 2 年,h o a d 和z o b e l 综合采用了词频统计和数字指纹方 法来解决衍生文档的识别问题晦1 ,通过对大量x m l 数据和l i n u x 文件的测试以寻 找较好的抄袭识别算法。2 0 0 3 年,s c h l e i m e r 等阳1 提出了基于数字指纹的 w i n n o w i n g 算法来精确识别文档复制问题,并应用于抄袭识别在线服务网站 m o s s 上。 在国内,2 0 0 1 年,西安交通大学宋擒豹等人提出了c d s d g ( c o p y i n g d e t e c t i o ns y s t e mo fd i g i t a lg o o d s ) 系统 3 ,这是为了解决数字商品非法复制和扩 散问题而开发的一个基于注册的复制监测原型系统。此系统通过对数字正文的 多层次、多粒度表示来构建基于统计的重叠度度量算法,取得了较好的效果。 晋耀红( 2 0 0 4 ) 等人提出了基于语境框架的文本相似度计算哺1 ,在语境框架 的基础上,计算文本的相似度。算法从概念层面入手,充分考虑了文本的领域 和对象的语义角色对相似度的影响,重点针对文本中的歧义、多义、概念组合 现象,以及语言中的褒贬倾向,实现了文本间语义相似程度的量化。算法已经 应用到文本过滤系统中,用以比较用户过滤要求和待过滤文本之间的相似度。 霍华、冯博琴( 2 0 0 5 ) 提出的基于压缩稀疏矩阵矢量相乘的文本相似度计算 方法3 ,能够减少计算和存储空间的开销。该方法仅对非零元素存储和表示, 然后用压缩稀疏矩阵矢量相乘的方法计算文本和查询的相似度,可通过给定相 似度阐值来判定一个文本是否和查询相似。 余刚、裴仰军、朱征宇( 2 0 0 6 ) 等提出的基于词汇语义计算的文本相似度 研究0 1 。采用了基于知网的词汇语义计算方法来计算两篇文章向量的相关性, 并用最大匹配算法来获得这两篇文章的相似度,通过该计算过程达到揭示文本 所涉及概念的目的。 化柏林( 2 0 0 7 ) 开发了一个基于句子匹配的文章自写度测试系统3 ,句子是 组成文章的重要单位,也是表明作者行文观点的最小单位,所以对于任意一篇 稿子,利用句子匹配分析可以得到文章的自写度( 自写不一定为创新,但相同 可能为抄袭或引用) 。对每一个句子都有匹配度,审核人员可以一目了然地看 清有哪些句子是抄的,哪些句子是参考别人的,哪些句子是自己写的。 金博( 2 0 0 7 ) 等人还从论文的篇章结构相似度出发提出了基于篇章结构相 似度的复制检测算法n2 】。它是在学术论文理解的基础上,针对学术论文的特有 结构,对学术论文进行篇章结构分析,再通过数字指纹和词频统计等方法计算 出学术论文之间的相似度,从而找出抄袭的现象。但此算法只是针对书写格式 规范的学术论文抄袭情况的判定。 高茂庭( 2 0 0 8 ) 等提出了基于文档标引图模型的文本相似度策略3 1 ,它是 基于文档标引图特征模型,提出文档相似度计算加法策略和乘法策略,采用变 换函数对文档相似度值进行调整,增强文档之间的可区分性,改进文本聚类和 分类等处理的性能。 各种论文抄袭判定方法在实际应用中都取得了一定的效果,但还都存在着 缺点与不足,尚需进一步加以改进。 1 3 本文研究内容 我们正处在一个信息爆炸的时代,根据1 9 9 8 年的统计结果,全世界每年 出版大约15 6 0 0 0 种期刊,而且这一数字以每年1 2 0 0 0 种的速度递增 14 o 面对 如此庞大的信息海洋,如何快速、准确、全面地从中找出涉嫌抄袭的文档,多 年以来,国内外专家不断探索新的方法和技术。本文研究的目的就是如何将先 进的文本挖掘技术应用于论文抄袭判定中,开发出一个比较高效、精确的论文 抄袭判定系统。 现有的复制检测或者抄袭判定系统大多只能处理全文抄袭或大篇幅抄袭 等情况,而对于个别段落的抄袭,尤其是从多篇文章进行段落摘抄的情况,容 易疏漏。另外,在基于段落相似度比较判定时,由于很多情况下抄袭者也不是 整段一字不动的抄袭,有的是调整语序,有的摘抄段落的一部分,还有的是对 某些段落进行合并,扩充或者压缩等,所以判定时很容易漏查或误查。针对以 上情况,本人认为应该从分类出发,先进行全篇相似度计算,经过初步筛选, 然后对筛选结果再进行精确比较,即进行段落相似度计算,为此本人设计了一 个基于分类思想的论文抄袭判定系统( c b t p j s ) ,可以在分类结果的基础上进 行比较精确的抄袭判定并输出抄袭段落中的具体抄袭内容。 1 4 本文结构 全文共分六个章节: 第一章绪论,主要介绍了本文研究的背景和研究意义、问题的描述、国 内外研究现状和本文研究的主要内容等。 第二章论文抄袭问题概述,主要介绍了论文抄袭的定义和界定、论文抄 袭的主要类型以及论文抄袭判定的常用方法。 第三章文本挖掘技术概述,主要介绍了文本挖掘的概念、信息检索与信 息抽取的概念和文本挖掘的主要方法:关联分析、文档分类、文档聚类和自动 摘要。 第四章文本相似度的计算,主要介绍了文本相似度的概念、文本相似度 计算的主要方法,提出了两种新的文档相似度计算方法:基于文本分类的文档 相似度和基于段落词频统计的文档相似度计算。 第五章基于分类思想的论文抄袭判定系统的设计于实现,主要介绍了该 系统的设计思路、总体框架、主要关键技术、系统的实现和实验结果及分析等。 第六章总结与展望,主要是对全文的总结,以及一些后续工作。 1 5 本章小结 本章首先对本文的研究背景和研究意义进行了概述:随着互联网的发展, 电子资源获取的便利为学术论文的抄袭与剽窃提供了方便。这种行为不仅侵害 了作者的权益,而且严重破坏了学术发展的生态环境,损害了学术共同体的尊 严,还影响到我国科研水平和科技竞争力的提高,损害了国家和公众的利益。 接着概述了国内外研究的现状,并对本文的主要研究内容做简要介绍:如 何将先进的文本挖掘技术应用于论文抄袭判定中,开发出一个比较高效、精确 的论文抄袭判定系统。最后给出全文的结构。 第二章论文抄袭问题概述 本章首先对论文抄袭的法律界定标准进行探讨,接着对论文抄袭的类型进 行归纳总结,最后分别介绍针对不同抄袭情况其对应的论文抄袭判定常用方法。 2 1 论文抄袭的法律依据 所谓抄袭,现代汉语词典对抄袭的定义是:“把别人的作品或语句抄 来当作自己的”。在学术著作中,“抄袭是指将他人作品或者作品的片段窃为 己有。 更准确地说,抄袭是指将他人作品或者作品的片段窃为己有并公开发 表n 引。抄袭侵权与其他侵权行为一样,需具备四个要件:( 1 ) 行为具有违法 性;( 2 ) 有损害的客观事实存在;( 3 ) 和损害事实有因果关系;( 4 ) 行为人 有过错。由于抄袭物需发表才产生侵权后果,即有损害的客观事实,所以通常 在认定抄袭时都指已经发表的抄袭物。因此,更准确地说应当是,抄袭是指将 他人作品或者作品的片段窃为己有并公开发表。 对于论文抄袭的界定主要分为两种情况: 是论点抄袭,即抄袭他人的论点,自己另行论证,虽然内容不同,但仍 应判定为抄袭。这种情况是从质的角度来界定,主要是看是否引用他入作品作 为自己作品的主要部分或实质部分。如果引用他人作品中的某一部分作为自己 作品中的主要部分或实质部分,因该引用部分有可能起到代替原著或干扰原著 销售的作用,则超出了合理使用范围。例如抄袭他人的创意、主要的观点以及 核心思想等,不过至今还没有统一的、具体的界定标准; 二是内容抄袭,主要是从量和形式的角度来界定。在西方国家,“直接引 用他人的原话在三个连续句以上,就要使用直接引号,若无直接引号,即使注 明出处,仍被视为抄袭 。另外,如果作品中存在不合理引用的地方,即只要 抄袭论文中有一定比例或具体字数的文字与被抄袭论文相同,就认定抄袭成立。 这里要注意合理引用与抄袭的区分,例如俄罗斯共和国在其著作权基本条例实 施细则中规定:一般作品( 3 0 万字以下) 引用不得超过1 万个印刷符号。在英国, 作家协会与出版家协会所签定的协议规定:一部散文作品一次引用不得超过4 0 0 个单词,二次或多次引用不得超过8 0 0 个单词。我国著作权法实施条例第二 十七条第二款规定“所引用部分不能构成引用人作品的主要部分 ,1 9 8 5 年文 化部发布图书、期刊版权保护实施条例实施细则第1 5 条规定:“引用非诗词 类作品不得超过两千五百字或被引用作品的十分之一,如果多次引用同一部长 篇非诗词类作品,总字数不得超一万字 ;“凡引用一人或多人的作品,所引 用的总量不得超过本人创作作品总量的十分之一,但专题评论文章和古体诗词 除外 n 6 1 。 2 2 论文抄袭的类型 学术论文抄袭的形式和手段多种多样,包括直接将他人论文全盘复制,只 改动题目和署名;东拼西凑,抄袭多篇论文的部分段落和语句;抄袭论文的图、 表与公式等。根据论文抄袭界定的依据,论文抄袭类型总体说来也分为两大类: 论点抄袭和内容抄袭,对每种类型还可以具体分成若干种类。 2 2 1 论点抄袭 即对他人论文的核心思想、创意或论点等加以抄袭,这种抄袭有可能不是 整篇整段的抄袭,抄袭的数量也可能不超过i 1 0 ,但这属于实质性的抄袭,不 能简单的以抄袭的量加以衡量。这种抄袭比较隐蔽,一般难以直接判定。不过 这种抄袭形式所占比例比较小,因此在这里不做详细研究。 2 2 2 内容抄袭 内容抄袭是指对论文的文字、图像、表格、数据、模型与公式等具体内容 加以抄袭,主要包括以下几种: ( 1 ) 文本抄袭 文本部分的抄袭可能是对整篇论文进行直接复制,基本不做改动;也可能 是对部分段落和语句抄袭,而且在抄袭过程中颠倒语序,或者增减词语、更换 词语等。另外,还可能是将引用的外文资料翻译成中文或者将引用的中文资料 翻译成外文,不加以说明,作为自己论文的一部分。文本抄袭的形式占大多数。 ( 2 ) 算法与程序代码抄袭 对于程序代码的抄袭,有的是直接复制或稍加改动,例如修改变量的名称, 修改输入、输出语句的格式,添加、删除或修改注释内容、改变代码块的顺序、 改变数据类型、添加冗余语句或变量、将控制结构用等价的结构代替等等。有 的改动较大,例如抄袭者采用另一种程序设计语言进行实现而不做说明,其实 算法是相同的,这属于算法的抄袭。算法的表示形式有很多种,包括程序流程 图、n s 图、过程设计语言等,对于某种算法用另一种形式进行描述,或者用 另一种语言进行实现,这实际是抄袭了他人的核心思想。 ( 3 ) 数据与表格抄袭 对他人论文中的实验数据或表格内容直接使用而不加说明,这也构成抄 袭。如果直接复制数据或表格内容比较容易判定,若加以改动,例如调整表格 列或行的顺序,篡改部分数值等。由于数据与表格所占比重较小,如果只是按 照文本抄袭比例进行判定,就可能视为没有抄袭,但直接引用他人的数据与表 格而未加说明,也应该视为抄袭。 ( 4 ) 图片抄袭 图片抄袭是指对他人论文中的图片直接插入到自己的论文中作为自己成 果的一部分。图片不做处理,也可能稍加处理。这种抄袭从量上也可能不足 1 1 0 ,但实际上也构成了抄袭。例如复旦大学附属五官科医院某教授在中华 耳鼻咽喉一头颈外科杂志2 0 0 6 年2 月第4 1 卷第2 期第1 3 2 页一文中,实验 结果中的图片涉及造假、剽窃。 ( 5 ) 模型与公式的抄袭 论文中涉及到的模型与公式也可能被别人抄袭,这部分内容可能只占很少 的篇幅,不超过论文内容的1 1 0 ,但这可能是论文的精华部分和亮点,因此这 也属于抄袭的一种形式。 2 3 论文抄袭判定常用方法 对于不同的学术论文抄袭形式其判定方法也必然不同,下面根据前面提到 的各种论文抄袭形式介绍其常用的判定方法。 2 3 1 论点抄袭的判定方法 论点抄袭一般难以直接断定出来,因为论点抄袭不一定能从文字抄袭的数 量上体现出来。可行的方法是先借助某种模式识别方法,在怀疑抄袭论文与相 似论文之间进行比较,如果相似度超过一定的域值,则给出可能抄袭的初步判 定。由于可能会出现误判,所以还需要进一步进行人工判定。 晋耀红等人提出了基于语境框架的文本相似度计算隋3 ,语境框架是一个三 维的语义描述,它把文本内容抽象成领域( 静态范畴) 、情景( 动态描述) 、背景( 褒 贬、参照等) 三个侧面。在语境框架的基础上,计算文本的相似度。算法从概念 层面入手,充分考虑了文本的领域和对象的语义角色对相似度的影响,重点针 对文本中的歧义、多义、概念组合现象,以及语言中的褒贬倾向,实现了文本 间语义相似程度的量化。算法已经应用到文本过滤系统中,用以比较用户过滤 要求和待过滤文本之间的相似度。 另外,还可以从论文的篇章结构相似度出发进行判定,例如金博等人提出 了基于篇章结构相似度的复制检测算法n2 】。此算法是在学术论文理解的基础 上,针对学术论文的特有结构,对学术论文进行篇章结构分析。文章的篇章结 构用数据库表可以表示为编号、全文特征值、发表时间、标题、作者、单位、 摘要、关键词集合、中图分类号、段落集合、参考文献集合等。其中全文特征 值是对某篇论文的全文进行h a s h 处理得到的整数值。接着再通过数字指纹和 词频统计等方法计算出学术论文之间的相似度,从而找出抄袭的现象。不过此 算法只针对书写格式规范的学术论文的抄袭现象。 2 3 2 内容抄袭的判定方法 ( 1 ) 文本抄袭的判定方法 文本内容抄袭包括中文、英文( 程序代码另行判别) 和数据的抄袭,现在 所采用的判定方法主要有两种:数字指纹法和词频统计法。 数字指纹 数字指纹是通过某种选取策略对论文中的有些特征进行h a s h 计算而生成 的,这些h a s h 函数可以为论文的每一特征语句或段落产生惟一整数值,通过 比较指纹来计算论文间的相似程度心1 。例如,当比较论文a 与b 时,先生成a 和 b 各自的数字指纹,再对这些数字指纹进行匹配,根据a 和b 中指纹匹配的数 量来计算其相似程度。 数字指纹技术应用于抄袭识别过程中,有四个方面需要考虑引:从论文段 落或语句生成指纹的h a s h 函数( 即指纹的生成) ;从论文中选取的段落或语句 的长度( 即指纹粒度) ;体现论文特征所用指纹的数量( 即指纹分辨率) ;从论文 中选取段落或语句的方法( 即选取策略) 。这四个方面的不同会产生不同的指纹 算法,得到不同的识别效果。 a 指纹的生成。指纹的生成( f i n g e r p r i n tg e n e r a t i o n ) 过程对于数字指纹技术的 效率有重要影响。为了保证数字指纹技术的速度和精确性,指纹生成过程必须 满足以下要求:可再现性,相同的字符串在不同的运行时刻应该产生相同的指 纹;高速度,每篇论文需要生成大量的指纹,因此对指纹生成速度要求很高; 指纹的高度分布性,为了防止不同字符串产生相同的指纹,指纹的h a s h 值应 该在0 到一个很大的整数值的区间中分布,降低冲突的可能性。 b 指纹粒度。从论文中选取的用来生成指纹的字符串长度称为指纹粒度 ( f i n g e r p r i n tg r a n u l a r i t y ) ,其对数字指纹技术的精确度有重要影响。指纹粒度有 很多种确定方法,比如论文的几个句子的长度、字符串的字符个数和字符串中 词的个数等。如果指纹粒度选得很大,那么生成的指纹就比较少,可能匹配的 指纹就很少。如果指纹粒度选得过小,生成的指纹就会过多,计算量增大,而 且也会失去词语的特征信息( 例如词的先后顺序等) 。因此指纹粒度需要通过计 算确定一个合适的值,h o a d 等的大量计算结果表明,英文论文取3 - - - 5 个字符 比较好。 c 指纹分辨率。指纹分辨率( f i n g e r p r i n tr e s o l u t i o n ) 是能够表达论文特征所 生成的指纹数量。理论上来说,两篇论文的指纹分辨率越大,越容易计算论文 之间的关系。不过分辨率的增大会需要更多的存储空间和计算量。指纹分辨率 又可以分为固定( f i x e d ) 和可变分辨率( v a r i a b l e ) 两种,前者对每篇论文取同样 大小的分辨率,后者根据论文长度变化。可变分辨率使得较长论文更容易被检 索出,因为较长论文的指纹会较多,从而更容易被匹配。因此,需要根据具体 情况慎重确定指纹分辨率。 d 指纹选取策略。指纹选取策略( s e l e c t i o ns t r a t e g y ) 是指从论文中选取 t o k e n 的方法,它对数字指纹技术的效率和精度都有显著影响。目前存在很多 种选取策略,有些方法适合固定分辨率,有些方法适合可变分别率。这些选取 策略可以分为四类:全指纹选取、基于位置选取、基于频率选取和基于结构选 取。 词频统计 基于词频统计的论文抄袭判定是借鉴信息检索领域的向量空间模型来进 行文本表示,将自然语言文本表示成文本空间的一个向量,向量的每个元素是 文档中提取的有代表性的特征项的权值,文本的特征项包括字、词语,句子等 不同粒度的文本单位,通过计算向量的夹角余弦或距离来进行文本间的相似度 。向量空间模型应用到文本抄袭检测,改变了以往的直接进语句匹配的思想, 从不同的粒度来进行文本抄袭,当文本的相似度大于一定阈值是就判断存在抄 袭现象,从一定程度上避免了漏判的错误。词频统计常采用的计算公式包括点 积法、余弦法和相关频率模型法等。 词频统计技术随着信息检索技术的发展不断完善,但抄袭判定毕竟有其特 殊性,例如待检索判定的不是词语,而应是语篇,乃至整篇论文。如何更好应 用词频统计技术于抄袭识别领域,仍是一个有待探索的课题。在实际应用中应 注意以下问题:1 ) 统计对象,词频统计应该统计的是能够表达篇章语义的实词, 对于虚词、停用词、高频词等不应作为统计对象,这样可以提高计算效率。2 ) 统计范围,词频统计应统计整篇文章还是分别统计篇章中的各个部分,最后再 将结果综合起来,需要实验来确定。3 ) 统计方法,词频统计使用什么样的方法 对计算结果有很大的影响,因此应对不同的词赋予不同的权值,以此控制统计 的准确率。词频统计技术特点是准确率高,通过对算法和计算公式的改进可以 进一步提高准确率;但使用词频统计方法在速度上较使用数字指纹方法慢,目 前还无法应用在超大规模的计算中,另外词频统计技术在中文的应用较困难, 将涉及到中文分词的问题u 引。 ( 2 ) 算法与程序代码的抄袭判定方法 程序代码相似度的度量是指用计算机实现自动度量,即通过计算机计算两 个程序代码文件的接近程度引,根据计算结果在一定范围内给出一个度量值, 用户可以根据这个值迸一步检测程序代码是否存在抄袭,也可以根据这个值判 断学生所写程序代码的标准化程度。 程序代码相似度描述 国外对程序代码相似度的度量研究主要集中在程序代码的抄袭检测上。判 断一个程序是否是从另外一个程序复制而来,实质上是对这两个程序的相似性 进行度量,根据度量的结果给出一个相似度的数值表示,再由这个数值判断这 两个程序之间是否存在抄袭。对于两个软件p 和q ,p 由元素p 。,p 。,p 组 成,用集合表示为 p 。,p :,p 。 ;q 由元素q 。,q 。,q 。组成,用集合表 示为 q 。,q :,q 。) 这里的元素p 。,p z ,p 和q 。,q z ,q 。可以是软 件p 和q 中的文件或代码行。假设能够求出p ;与q j ( 1 i m ,1 j f 1 ) 之 间的匹配,所有匹配对( p 。,q ,) 的集合用r ;( r 。p q ) 表示,与r 。相关的p 和q 的相似性定义为n 引: s ( p ,q ) :! _ ! 到鱼! :堡狸里! 【纠蚓鱼! _ ! 堡! ! 堕l( 公式2 1 ) “ ipi + iq 此定义表明,p 和q 之间的相似性是一个比值,这个比值是由r 。中的元 素个数除以p 和q 中元素个数的总和得到的。若r 。较小,则s 将减小,若 r 。= 矽,则s = 0 ,当p 和q 完全相同时,p 。( p ;,q j ) r 。,s = l 。 程序代码的相似度与软件系统的相似度定义类似,可以将其作为程序代码 相似度度量的一个依据。 程序代码相似度度量技术 早在2 0 世纪7 0 年代初,就有学者开始研究防止程序抄袭的软件。到目 前为止,程序代码相似度的度量方法被分成两类:属性计数技术和结构度量技术 【1 9 】 a 属性计数( a t t r i b u t ec o u n t i n g ) 技术。这是最先被提出和使用的程序代码抄 袭检测技术,它的主要思想是对程序的一些统计属性进行处理,而不考虑程序 的内部结构。 h a l s t e a d 最早把属性计数法用于自动检测程序代码的抄袭。在该方法中, 统计每个程序的如下4 个值: 1 。= 单一操作符的数量;1 1 := 单一操作数的数量; n 。= 所有操作符的总数;n 2 所有操作数的总数。根据这4 个基本属性,定义 1 1 = 1 1 。+ 1 1 :为词汇量,n = n + n :为执行长度,再依此计算出程序的容量v = n l o g :( 1 1 ) ,然后将这些信息组合生成一个特征向量h ( 1 1 ,n ,v ) 为每个待检测 其相似性的程序生成一个特征向量之后,再计算每两个向量之间的距离( 如欧几 里德距离) ,若两个程序的特征向量之间的距离很小,就可以认为这两个程序很 相似,需要对这两个程序之间是否存在抄袭做进一步的检查。 b 结构度量( s t r u c t u r em e t r i c s ) 技术。这种方法根据程序的结构来度量两个 程序之间的相似度,它需要对程序的内部结构,如控制流、嵌套深度等进行分 析。该方法首先分析每个程序的结构,根据所使用程序语言中的各种元素,将 程序转换成标记( t o k e n ) 序列。这样,每个程序代码将减小到一个字符串,然 后根据某种算法比较这些字符串,再根据比较的结果判断两个程序是否相似。 这种技术的难点有两个,一个是如何用标记字符串序列表示程序语言中的各种 元素,另一个是选择一种合适的字符串比较算法。 结构度量技术所使用的方法很多,m c c a b e 提出圈复杂度的结构度量技术, 它是通过计算执行路径的数量来度量程序中的控制流。这种技术需要对程序进 行预处理,给出程序的控制流图,控制流图中的边或弧是执行路径,节点表示 一个处理语句或一个判断的入口。根据得到的控制流图,计算:e = 控制流图中 的边数;n = 控制流图中的节点数;p = 控制流图中的模块数( 只有一个模块时 p = 1 ) 。圈复杂度v ( g ) = e n + 2 p 。v ( g ) 只给出了程序的一个结构特征,很多时候 需要与其他特征结合使用。此外,其他结构度量技术有计算代码嵌套深度、分 析控制结构、分析数据依赖关系等。 程序代码相似度度量技术已基本成熟,目前的抄袭检测系统大部分使用了 结构度量技术,即系统通过比较表示程序结构的字符串来检测抄袭,但表示程 序结构的字符串不需要精确匹配。也有的系统混合使用了结构度量技术和属性 计数技术。 由于算法可能以不同形式表示,直接判定不易,因此可以考虑把算法通过 某种工具,如c a s e 工具,转换成统一的形式,例如伪码或p a d 图等,然后再 进一步比较伪码或图形。 ( 3 ) 图片抄袭的判定方法 对于论文中的图片抄袭问题,一般借助图像匹配方法进行判定。图像匹配 是指通过一定的匹配算法在两幅或多幅图像之间识别同名点。图像匹配主要包 括以灰度为基础的匹配和以特征为基础的匹配。即使抄袭者对图片进行了少量 修改,通过此方法也能判断出来。 ( 4 ) 公式抄袭的判定方法 由于公式不同于普通文本,如果采用一般的文本抄袭判定方法可能判断不 出公式是否被抄袭。因为抄袭者可能会更改变量名、调整表达式中常量、变量 或函数等成份位置等,而且公式中还使用了很多专用数学符号。因此,对于公 式的抄袭判定要采用特殊的方法。一种方法是把公式当作图片,采用前面提到 的图像匹配技术,即使有所改动也能大致判断出来是否涉嫌抄袭;另一种方法 是采用特定技术把两个公式中的数学符号、常量、变量、函数等分别抽取出来, 然后对比,从使用的个数及顺序的相似程度上进行判定是否涉嫌抄袭。当然这 两种方法都存在一定的缺陷,可能会误判,进一步人工判定还是必要的。 2 4 本章小结 本章对论文抄袭问题进行了概述,首先论述了论文抄袭的法律界定问题, 接着对论文抄袭的类型进行归纳,总体分为两类,即论点抄袭和内容抄袭,其 中内容抄袭又包括文本抄袭、算法与程序代码抄袭、数据与表格抄袭、图片抄 袭、模型与公式的抄袭。最后针对不同形式的抄袭介绍其常见的判定方法。其 中重点介绍了文本抄袭判定的方法,主要包括数字指纹技术和词频统计技术; 以及程序代码抄袭的判定方法,主要包括属性计数技术和结构度量技术。 第三章文本挖掘技术概述 本章首先给出文本挖掘的概念,接着阐述信息检索和信息抽取的概念以及 他们之间的区别和联系,最后对文本挖掘的主要方法进行介绍。 3 1 文本挖掘概念 随着信息技术的快速发展,特别是网络的普及,以文本形式表示的信息越 来越多。如何在繁杂的信息海洋中找到自己需要的有用信息,在这样的需求驱 动下,文本挖掘作为一个新的数据挖掘领域出现了。 文本挖掘是数据挖掘研究面向非结构化和半结构化文本数据的自然延伸 心。所谓半结构化数据( s e m i s t r u c t u r e dd a t a ) 是将标题、摘要、关键词、正 文分别存储;非结构化数据( u n s t r u c t u r e dd a t a ,u s d ) 是指对标题、摘要、关 键词、正文部分不加区分而存储在一起心。研究表明,8 0 以上的数据是以非 结构化的文本形式存在的乜引。大规模的文本数量为文本挖掘及建立在其基础上 的文本管理带来了严重的挑战。 文本挖掘( t e x tm i n i n g ,t m ) 是从文本或文本集中发现和挖掘归纳性的 有效、创新、有用和最终可理解的模式、模型、趋势、规则等知识的非平凡过 程乜驯。文本挖掘是利用智能算法,如神经网络、基于案例的推理、可能性推理 等,并结合文字处理技术,分析大量的非结构化文本源( 如文档、电子表格、 电子邮件、书籍、网页等) 抽取或标记关键字概念,文字间的关系,并按照内 容对分档进行分类,获取有用的知识和信息。 文本挖掘涵盖了多种技术,包括信息抽取、信息检索、自然语言处理、机

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论