文档相似度检测系统设计——毕业设计论文_第1页
文档相似度检测系统设计——毕业设计论文_第2页
文档相似度检测系统设计——毕业设计论文_第3页
文档相似度检测系统设计——毕业设计论文_第4页
文档相似度检测系统设计——毕业设计论文_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、文档相似度检测系统设计毕业设计论文 仲恺农业工程学院毕 业 论 文文档相似度检测系统姓 名院系专业年级学 号指导教师职 称论文答辩日期 2 仲恺农业工程学院教务处制毕业论文设计任务书填表日期20年12月21日 学院系学生姓名专业班级学号指导教师职称学历学位论文题目文档相似度检测系统起止日期200826 200415一目的及意义在高校的专业课程中涉及专业知识常常需要进行相关设计或实验在做出设计或实验之后需要根据其中的过程和结果撰写实验报告然后提交报告给老师但是由于学生课程紧张积极性低或课外工作多而没时间的原因有时候学生为了应付老师会出现一些抄袭的现象比如没有动手做设计或实验就只是把别人的报告或论

2、文修改一下就提交了如果这种现象长此下去不仅会导致得不到理想的实验效果而且老师也不能很好把握到学生专业学习的学习情况或进度进而还会使大学良好的学习氛围受到影响甚至会伤害一些认真完成要求的同学的积极性针对上述问题和要求本系统的开发主要是为老师们提供一个检测实验报告的方法和依据在老师的督促之下减少报告的抄袭现象网络上能找到的论文检测系统如于2008年3月推出可以精确的检测出提交的论文与互联网资源的相似度的互联网论文资源数据库仅收录了互联网上的部分2004陈平褶华软件设计师教程清华大学出版社2004叶俊民 编著软件工程清华大学出版社2006毕硕本卢柱香 编著软件工程案例北京北京大学出版社2007com

3、Database system implementation机械工业出版社2000程序员月刊中国社会科学院院系主任签章年 月 日备注1任务书填写一式三份学生教师院系各存一份2本表由指导教师填写经系主任审定后下发学生摘 要近年来学术抄袭行为的危害性已经引起人们的注意而在高校中学生经常为了应付教师布置作业而进行抄袭把别人报告修改一下然后提交上去这种现象非常普遍如果长期下去高校学生诚信度受到质疑进而还会使良好的学习氛围受到影响甚至会伤害一些积极的同学的积极性因而需要把抄袭作业查找出来从而抑制抄袭现象如果依靠教师人工检测作业抄袭行为效率低下而不可行目前的检测系统主要是基于网络功能单一只能针对一对一检测

4、不具实用性本次设计是一套软件采用模块化程序设计方法采用现有软件环境及先进的距离编辑算法学生承诺书1前言12绪论221开发背景222研究目的223研究意义224设计相关介绍33系统开发工具简介431 C语言简介432 C语言的特点433 C语言的主要特性534 Access简介64系统设计概述741 系统功能需求概述7com 系统的三大功能模块7com 系统检测的基本思路7com 使用系统检测时需要注意的几个问题842 功能模块划分843 系统主要算法的简介944 系统的优缺点10com 系统的优点10com 系统的缺点1045 系统的类结构1146 数据库的设计12com 表的结构设计12co

5、m SQL语句的使用145系统实现1451 功能界面14com NN检测功能介绍14com 1N检测功能介绍16com 11检测功能介绍2052 信息界面2153 检测历史保存2354 系统实现的关键代码23com LD算法的关键代码23com 非TXT格式文档转成TXT文档的关键代码25com 把检测记录写入TXT文本中的关键代码266结语27参 考 文 献28Abstract29致 谢31仲恺农业工程学院毕业论文设计成绩评定表32前言近年来恶劣学术不端事件时有发生给整个学术界的声誉造成了极坏的影响学术界长期形成的科学诚实追求真理的象牙之塔的形象受到社会大众的质疑有人认为学术界本来是社会道德

6、的最后一道防线可惜现在这最后一道防线已经被攻破学术界面临前所未有的学术诚信危机比如清华大学某教授伪造个人学术成果和北京大学某教授著作涉嫌抄袭他人作品等事件学术不端的问题不仅在中国在世界范围内同样是一个令学界头痛不已的学界肿瘤比如2002年曝光的简亨德里克舍恩造假事件2005年轰动全球科学界黄禹锡造假事件浙江大学贺海波论文造假事件2008年3月推出可以精确的检测出提交的论文与互联网资源的相似度的互联网论文资源数据库仅收录了互联网上的部分Longest-common-subsequence LCS算法LCS算法就是求两个字符串的公共子串的最大可能长度例如字符集S A C G T GCTAT 和 C

7、GATTA 的最长公共子串为 GTT 其长度为32余弦定理 向量空间算法这是利用余弦定理和广义Jaccard系数来计算文本相似度3距离编辑算法Levenshtein DistanceLD算法距离编辑的定义是将字符串A转换为字符串B所用的最少字符操作数本系统采用的是距离编辑算法本论文在第四部分系统设计概述中会进行简单介绍系统开发工具简介31 C语言简介C语言是在CC和Java语言基础上重新构造的语法与C和Java语言都比较相似的基于NET框架的一种完全面向对象的类型安全的编程语言也是NET的首选编程语言从开发效率来讲C语言为应用程序开发人员提供了快速的开发手段但又不牺牲C语言的特点和优势从继承性

8、来讲C语言在更高层次上重新实现了C和C语言从语法形式和易用性来讲C语言几乎综合了目前流行的所有高级语言的优点提供了一种语法优雅功能完善而又容易使用的外在表现形式在经历CC之后C终于登场了微软公司在20世纪90年代末开发了CC的祖父是C又建立在C定义的对象模型基础上并加以改进C并不是源于JavaC和Java都源于C和C但是发展道路不同学习C和Java许多知识是相同或相似的Microsoft Visual Studio NET是Microsoft 公司为适应Internet高速发展的需要而推出的新的开发平台2003年Microsoft公司发布了VSNET 2003提供了在Windows操作系统下开

9、发各类基于NET框架11的全新的应用程序开发平台2005年底Microsoft公司又发布了基于NET框架20的VS2005开发平台植入了适用于大型团队开发的各种优秀的复杂功能并于2006年1月发布了VS2005 Professional 简体中文版2008年3月17发布VS2008随后又发布了vs2010C语言是NET平台上的第一语言自发布以来不断增强已经成为目前功能最强大的通用语言之一432 C语言的特点20世纪80年代以来C和C一直是使用最为广泛的商业应用开发语言这两种语言在带来强大控制能力和高度灵活性的同时代价是相对较长的学习周期和较低的开发效率同时对控制能力和灵活性的滥用也给程序的安全

10、性带来了潜在的威胁C语言过度的功能扩张也破坏了面向对象的设计理念软件行业迫切地需要一种全新的现代程序设计语言它能够在控制能力与生产效率之间求得良好的平衡特别是将快速应用开发与对底层平台所有功能的访问紧密结合在一起并与Web标准保持同步C读作C-Sharp语言就是这一历史使命的承担者4C语言从C和C发展而来它汲取了包括CCJava在内的多种语言的精华是一种简单完备类型安全和完全面向对象的高级程序设计语言它的设计目标就是在继承C和C强大功能的同时兼有RADRapid Application Development快速应用程序开发语言的简易和高效5作为NET的核心编程语言C充分享受了公共语言运行时所

11、提供的优势能够与其他应用程序方便地集成和交互33 C语言的主要特性Architects Central Constructional Engineering Surveying Service作一定的介绍Access 是微软公司推出的基于Windows的桌面关系数据库管理系统RDBMS即Relational Database Management System是Office系列应用软件之一它提供了表查询窗体报表页宏模块7种用来建立数据库系统的对象提供了多种向导生成器模板把数据存储数据查询界面设计报表生成等操作规范化为建立功能完善的数据库管理系统提供了方便也使得普通用户不必编写代码就可以完成大部

12、分数据管理的任务其主要特点如下完善地管理各种数据库对象具有强大的数据组织用户管理安全检查等功能强大的数据处理功能在一个工作组级别的网络环境中使用Access开发的多用户数据库管理系统具有传统的XBASEDBASEFoxBASE的统称数据库系统所无法实现的客户服务器CientServer结构和相应的数据库安全机制Access具备了许多先进的大型数据库管理系统所具备的特征如事务处理出错回滚能力等可以方便地生成各种数据对象利用存储的数据建立窗体和报表可视性好 作为Office套件的一部分可以与Office集成实现无缝连接能够利用Web检索和发布数据实现与Internet的连接 Access主要适用于

13、中小型应用系统或作为客户机服务器系统中的客户端数据库8系统设计概述41 系统功能需求概述本课题设计的文档相似度检测系统主要针对的是本地文档的检测无需使用到网络每一次检测的对象都是在同一个文件夹下对文档的相似度进行迅速的判别在检测开始的时候需要把各种很高文档转成文本形式然后再进行一一比对本系统对图片是不进行识别和检测的本系统是基于C语言和Access数据库技术采用模块化程序设计方法采用现有软件环境及先进的模块图 1 基本流程图使用系统检测时需要注意的几个问题本系统检测的文档包括TXTDOC和RTF 3种格式的文档在对文档进行检测的过程中涉及到把非TXT文档转换成TXT形式这是因为本系统只是检测文字不包括检测图片等而在本系统支持的三种文档格式中DOC和RTF文档可能会包含图片等所以检测这两种文档时需要先把这两种文档转换成TXT形式同时在检测过程中涉及到用句子分割符来分割文本默认的句子分割符是 n 其中不包括和n表示段落分割符内含中英文两种格式的符号在1N检测当中可以根据用户的需要进行句子分割符的设置其余两个功能的句子分割符是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论