![智能文档对比分析系统_第1页](http://file4.renrendoc.com/view/b7dfabeb5241a07634b2a94c329406da/b7dfabeb5241a07634b2a94c329406da1.gif)
![智能文档对比分析系统_第2页](http://file4.renrendoc.com/view/b7dfabeb5241a07634b2a94c329406da/b7dfabeb5241a07634b2a94c329406da2.gif)
![智能文档对比分析系统_第3页](http://file4.renrendoc.com/view/b7dfabeb5241a07634b2a94c329406da/b7dfabeb5241a07634b2a94c329406da3.gif)
![智能文档对比分析系统_第4页](http://file4.renrendoc.com/view/b7dfabeb5241a07634b2a94c329406da/b7dfabeb5241a07634b2a94c329406da4.gif)
![智能文档对比分析系统_第5页](http://file4.renrendoc.com/view/b7dfabeb5241a07634b2a94c329406da/b7dfabeb5241a07634b2a94c329406da5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
智能文档对比分析系统【摘要】为了提高文本类工作办公效率,利用技术手段对文档、论文和标书等文本进行对比分析得出对比结果,方便客户可以更加清晰地看到两份文档的异同。本系统对多项传统查重技术进行了实现,并引入深度学习模型Sentence-BERT进行语义判断进一步增强查重可靠度、准确度。通过技术手段来解决了一些社会实际问题,如标书串标问题、文档各个版本快速找出异同。可以大大减轻人工审阅查重的工作量,减少查重时间有效帮助企业减少在项目投标过程中多家公司串标造成的经济损失事件的发生。【关键词】自然语言处理,文本对比,智能分析,文本相似度IntelligentcontractcomparativeanalysissystemAbstract:Inordertoimprovetheefficiencyoftextwork,technicalmeansareusedtocompareandanalyzethetextofcontracts,papersandbiddingdocumentstoobtainthecomparativeresults,sothatcustomerscanseethesimilaritiesanddifferencesbetweenthetwodocumentsmoreclearly.Inthissystem,multipletextduplicationcheckingtechnologiesareusedforimplementation,andthedeeplearningmodelSentence-Bertisintroducedforsemanticjudgmenttofurtherenhancethereliabilityandaccuracyofduplicationchecking.Throughtechnicalmeanstosolvesomesocialpracticalproblems,suchasbiddingdocumentseries,textintelligentanalysis,contractversionsquicklyfindoutthesimilaritiesanddifferences.Itcangreatlyreducetheworkloadofmanualreviewandinspection,reducethetimeofinspection,reducethebadsocialatmospherecausedbyacademicfraud,andeffectivelyhelpenterprisestoreducetheeconomiclosscausedbymultiplecompaniesinthebiddingprocessoftheproject.KeyWords:Naturallanguageprocessing,textcontrast,intelligentanalysis,textsimilarity1系统开发背景及概述当今社会各类办公文本越发复杂多样,人工审核查阅需要通篇阅读,需要大量时间人力物力,文本智能化处理势在必行,但目前市场这样成熟功能的网站稀缺。随着计算硬件产品计算能力的提高以及自然语言处理技术的发展,使得原来只能存在于书本纸质的文本得到了数字化。而且随着社会的进步,在项目投标过程中多家企业进行的串标并非法取得中标的社会问题也变得越来越严重。根据广州市委市政府的调查报告结果统计显示,从2004年开始以来,就“围标”、“串标”相关案件占招投标违法违规案件的占比高达将近百分之七十(准确值:69%),串标会造成企业经济损失,是一种欺诈行为,检测投标过程标书的雷同程度可以有效防止串标事件发生。随着时代进步,文本查重技术也被广泛使用在多个应用场景,最为凸显的是学术论文查重。对于论文抄袭或者引用,知网查重时会预先设定了一个阈值(5%),即规定了以论文的一个章节的字数来算,如果其中与对比库中重复的内容不超过字数的5%,就不会被判定为抄袭。一般将论文提交给知网后,会检索你论文的章节设置与知网内置的是否匹配,如果匹配就会按照你论文的章节来检测不匹配则会自动给你的论文分段,然后再进行检测。在前面提到的章节阈值检测规定下,如果连续有13个汉字或者以上的相同内容就都会被判定为抄袭。这样就存在一定的缺陷:不能够通过语义来判断语句是否为相同意思,存在一定缺陷2系统开发目的和意义现在我国的文档修改审阅等工作都需要大量的人力物力,虽然有金山公司的WPS和微软公司的office这样的基本语句校验辅助工具却没有成型的文本对比、智能分析这样的软件工具可以使用。相比较数字化的如今社会已经属于是比较落后的领域了,使用传统的纸质方法或者人工审阅以及管理的模式需要消耗大量的人力物力以及浪费大量的时间。在人工智能技术和大数据技术飞速发展的今天,各行各业许多人工体力劳动已经在潜移默化被人工智能所取代,在当今时代传统的文本管理手段和审批手段也一定会被计算机程序所取代。3系统结构设计与核心模块实现3.1总体设计图4-1系统架构图3.2前端部分前端部分主要采用Vue框架以及饿了么Element-UI组件库搭建,Element-UI组件库是饿了么公司出品成型的全套Vue组件库,其包含了基本的组件样式,引入Element-UI其目的是减少大量时间浪费在前端页面的样式上,将大量时间用在核心业务处理和算法模型训练上。在网站接口说明文档方面统一采用Markdown格式撰写,撰写完成以后使用MarkdownPreviewEnhanced工具将Markdown转为HTML文件,通过在Vue页面引入外部组件直接在页面中显示。在请求后端接口方面采用axios库来完成,将axios挂载为全局,后面统一进行访问,允许跨域请求,因为后端算法模块处理较慢,所以设置请求超时为30000毫秒。3.3后端部分后端部分主要是业务逻辑的处理,主要包括common包、config包、controller包、exception包、mapper包、pojo包、service包以及util包。Common包下主要编写了接口返回的封装类,返回状态的枚举类型。Config包下包括权限拦截配置、跨域请求配置类以及文件上传时一个合法性校验配置类。Controller控制层主要处理业务逻辑,主要为收到前端请求后做接口参数校验、业务逻辑等,mapper下主要是编写对MySQL数据的操作,该项目采用MybatisPlus技术,通过继承Mybatisplus的BaseMapper泛型接口来生成基本数据库操作语句,节省了大量开发时间。Pojo包下主要是该项目所用到的数据库表对应的实体类,无业务逻辑侵入。Service编写一些服务类,util包主要包含了文件操作工具类、华为云OBS工具类、百度API工具类以及Java语言调用python代码所需要的方法以适配各种业务场景。3.4算法模块该模块统一采用python语言编写,其中包括语义识别的深度学习模型以及传统的统计学计算文本相似度的算法实现。深度模型包括:Bert、Bert_Adversarial、Bert_attention、Bert_dynamic、Roberta、Sentence-BERT。均在前端页面调用使用,但前五个模型计算速度较慢,Sentence-BERT模型一般会在2分钟之内得到结果,传统的相似度计算方法基本在1000毫秒以内得到计算结果。3.4.1余弦相似度余弦相似度算法主要是通过测量两个向量之间夹角的余弦值来计算其的相似度。如果被测量的两个向量夹角为90°时,结果会得到余弦相似度的值为0;如果被两个向量有相同的指向时,其计算结果的余弦相似度的值为1;如果被测量两个向量指向的方向是完全相反的两个方向时,其结果计算出来是-1。余弦相似度算法的计算是与向量本身的长度无关的,只与向量的指向方向相关[1]。余弦相似度算法通常用于正空间,所以计算结果的区间在0到1之间。其数学表达式为:_A*B’宀—~-(3-1)拿到文本首先对于两段文本A和B,对其进行分词,得到两个词列表,对两个词列表进行合并去重,得到输入样本的所有词,选取词频作为特征值。最后进行向量化计算余弦值[2]。3.4.2Jaccard相似度Jaccard相似系数(Jaccardsimilaritycoefficient)用于比较有限样本集之间的相似性与差异性。当Jaccard系数的数值越大,说明样本相似度越高。另外一种说法是用jaccard距离表示相似度即:1J(A,B)1-J(A,B)1-J(A,B),但其本质一样,jaccard距离越大相似度越小。jaccard系数反映了两个向量间的关系3。jaccard系数很适合用来分析多个维度间的相似性,也多被用于推荐系统中用来给用户推荐相似的产品或业务。虽然jaccard主要是在维度分析这样的稀疏向量中作用比较大,但是在文本相似度计算时也可用jaccard。并且Jaccard系数的应的场景也有很多,比如:过滤相似度很高的新闻、网页去重、考试防作弊系统或者论文查重系统。首先拿到文本后首先进行分词,后进行求交集与并集,然后再进行做除法运算,得到jaccard系数,而jaccard距离为1-jaccard系数。-JiA⑻二空-二_輕_-(3-2)3.4.3编辑距离相似度编辑距离EditDistance(ED),是指将一个字符串A转化为另外一个目标字符串B所需的修改最少操作数。主要是指增删改三种操作,本质是一个递归问题,即对于两个长度为a的文本一和长度为b的文本二,要计算整个文本的最-编辑距离,就要算出文本一-1和文本二的编辑距离。然后再加1,这里加1针对增加操作的情况,添加最后一个字符,或者算出文本一和文本二各减一的编辑距离[5]。然后再加1针对修改操作的情况,修改一个字符,然后取这三个的最小值作为上一步的最小编辑距离,以此类推到第一个字符[4]。增加操作:』-丨(3-3)删除操作:-1(3—4)修改操作:d-血凶-丄,场-】3厂町林门(仏一1,6-1严1(气工6;「(3—5)TF-Idf相似度TF-IDF(词频一逆向文件频率)技术多用于信息检索与文本挖掘。TF-IDF算法其本身是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度[5]。主要是指单词的重要性与在文档中出现的次数成正比但与此同时在语料库中出现的频率则成反比。TF-IDF的主要思想是:TF-IDF有两个指标,第一个是指词在文本中出现的频率,如果该词在文本反复出现,出现的次数越多,这个词就越重要。第二个是指该词在所有文本中出现的频率都很高,比如“我们”这个词。但是这个词显然就没那么地重要。TF-IDF就是从这两个指标出发来判断该词在本文中的重要性。用这个方法计算出来的值就是tfidf值,tfidf值与df值成反比。转换为数学公式:TF-IDF=TF(词频)*IDF(逆文档频率)[6]。使用TF-IDF算法求取文章相似度的具体流程如下:首先分别对两篇文章或文本进行分词,然后计算两篇文章或短文的TF-IDF值,再对其求相似度,如果相似度值越大就表示越相似。BERT模型BERT:双向编码器表示用于改进基于微调的方法。BERT受到在完型填空任务中的启发,使用“掩码语言模型”的预训练目标来减轻上述单向约束。掩蔽语言模型随机掩蔽一些输入符号,以便预测掩蔽语言的原始词汇,单词仅基于上下文。与“左右”语言模型预测训练不同,MLM(MaskedLanguageModeling)旨在表达融合上下文的能力,这使我们可以预先训练深度双向转换器。除了使用掩盖语言模型之外,在“下一个句子预测”任务中还使用了联合预处理文本对表示,这说明了对语言表示进行双向预训练的重要性。与Radford等人使用单向语言模型进行预训练不同,BERT使用掩蔽语言模型来实现预训练的深度双向表示。这也与Peters等人形成对比,Peters等人使用独立训练的从左侧到右侧和从右侧到左侧的LMs进行浅层连接[7]。结果表明预先训练的表示减少了许多大量工程特定任务架构的需求。BERT是第一个基于精细调优的表示模型,它在大量句子级和标记级任务上实现了最先进的性能,优于许多特定于任务的架构。BERT为11个NLP任务推进了最先进的技术。由于模型使用了Transformer中的编码器,因此为了考虑单词顺序信息,将位置矢量添加到了嵌入层。令牌嵌入表示单词向量;第一个单词是[CLS]标记,表示整个句子的开头,它表示模型预训练和微调过程中句子的语义信息,用于文本等任务分类;[SEP]标志用于分割句子;段嵌入用于区分两个句子,并用于输入两个句子的相关任务。[SEP]标志用来分割句子,其中PositionEmbeddings是位置向量,用来捕捉单词的词序信息[8]。Sentence-BERT模型Sentence-BERT是BERT网络的一种改进,使用孪生和三元网络,能够导出语义上有意义的句子嵌入。这使得BERT能够用于某些新的任务,这些任务到目前为止还不适用于BERT。BERT在各种句子分类和句子对回归任务上设置了新的最先进的性能。BERT使用交叉编码器:两个句子被传递到变压器网络,目标值被预测。然而,由于可能的组合太多,这种设置不适合各种成对回归任务[9]。为了缓解这个问题,开发了SBERT。孪生网络体系结构使输入句子的固定大小向量能够被导出,使用余弦相似度或曼哈顿/欧几里德距离等相似度量,可以找到语义相似的句子。3.5数据层数据层主要包括持久存储和临时存储两方面,持久存储采用MySQL数据库和华为云OBS对象存储进行存储,MySQL存储这块一方面是为了扩大后期训练集,另外一方面是为了项目后续扩展做准备。华为云OBS存储主要是为了解决用户上传的大量文件原文件需要进行保存,存放到本地会越来越多服务器硬盘一般容量较小,出于安全性和经济发面考虑采用华为云OBS存储。临时存储主要包括一些用户上传文件后保存到本地服务器,再使用python进行访问处理,临时文件用完就删除,不会浪费本地空间资源。4结论智能文档对比分析系统在企业管理和现代化、自动化办公有着其独特的优点,可以进行帮助客户提高在进行文档相关工作中的工作效率,并且该系统加入了前沿技术Bert模型进行语义相似性比较,这使得文档对比更加准确,更加合理,使用Sentence-BERT来做句子相似度匹配使得查找速度成倍减少。参考文献1.朱浩,连德富,左志宏,颜凯.余弦相似度在高校综合信息系统中的应用[J].东南大学学报(自然科学版),2017,47(Sl):1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年调脂抗动脉粥样硬化药项目提案报告模范
- 2025年输注延长管项目申请报告模板
- 2025年卫生巾供应合同格式
- 2025年加工服务协作协议模板
- 2025年合作研发新范本协议书
- 2025年个人房产购买协议标准文本
- 2025年农村住宅用地互易协议标准化
- 2025年电气安装工程策划合作框架协议范本提供
- 2025年修理厂技术师傅指导学徒合同
- 2025年信用卡消费抵押贷款协议书
- 2025版职业院校与企业合作育人合同3篇
- 自动化设备项目评估报告模板范文
- DB32T 4969-2024大型医用设备使用监督管理平台基础数据采集规范
- 2025年广东广州市海珠区官洲街道办事处政府雇员招聘5人高频重点提升(共500题)附带答案详解
- 《道路交通安全法》课件完整版
- 初中2025教学工作计划
- 部编版教科版三年级科学下册全册教案【统编教材】
- 2024年度市政工程项目三方合作协议3篇
- 【大学课件】机电设备管理技术概论
- 切削加工中的刀具路径规划算法考核试卷
- 《推拿学》期末考试复习题库(含答案)
评论
0/150
提交评论