智能文档分析平台产品白皮书-百度智能云_第1页
智能文档分析平台产品白皮书-百度智能云_第2页
智能文档分析平台产品白皮书-百度智能云_第3页
智能文档分析平台产品白皮书-百度智能云_第4页
智能文档分析平台产品白皮书-百度智能云_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

百度智能云百度智能云智能文档分析平台产品白皮书目录 01 011.3深入挖掘和利用企业文档中的数据 022.1产品架构概述 03 04 04 062.3平台应用能力 2.3.1文档分类与标签应用:帮助企业提升内容管理与使用效率 2.3.2文档内容比对:精准发现版本间差异,防篡改 2.3.3文档内容审查:多维度内容纠错与合规性审查,减少内容风险 2.3.4文档内容查重:跨文档发掘相似点,防范抄袭及重复立项等现象 2.4典型场景化方案 09 2.4.2贸易&物流单证校验 3.3.1跨模态预训练大模型 3.3.1.1布局知识增强文档预训练大模型ERNIE-Layout 3.3.1.2中英文大规模OCR结构化预训练大模型VIMER-StrucTexT 3.3.1.3基于视觉和语义多模态预训练大模型VIMER-MaskOCR 20 21 22 2 24 26 26 26 26 27 29 29 29 29 30 305.1.2解决方案 315.2.2解决方案 325.2.3客户价值 32 325.3.2解决方案 33 345.4.2解决方案 34 与外部发生业务往来时产生的(如合同,物流单等),这些文档中90%为非结构化数据,需要大量人工处理对象核心功能应用场景文档分析智能化加速企业业务流程的数字化转型智能文档分析平台TextMind2.1产品架构概述能源能源金融物流政务传媒合同贸易&物流购销金融智能审查单证校验合规审查业务审查文档分类与标签文档内容比对文档内容查重文本内容审查预置场景模型数据标注AI大模型2.2智能文档分析引擎2.2.1文档解析2.2.2数据标注2.2.3抽取模型训练型效果比传统方案提升10%-20%。以银行回单抽取场景举例,相较于传统训练方案,信息抽取模型的F1值提升10%+2.2.3.1文档预处理降噪文字遮盖导致的检测问题比较常见,在实际场景中,印章、水印等遮挡导致底层文字检测失效的情况时有发生。文档预处理降噪技术不仅能识别印章内容,还能擦除印章和水印,提升文字识别准确率。同时,平台自带的旋转检测与自动修正功能,避免因旋转角度问题影响OCR识别,用户提交文档时无需对旋转问题进行人工核查。m本e2.2.3.2文档布局理解0联、跨页/栏布局要素关联(图2.2.3.2:引入跨模态视觉特征识别,提升文档语义理解能力)2.2.3.3大模型训练调优2.2.4人机协同机制用户业务系统模迭代数据回流数据回流选代2.3平台应用能力2.3.1文档分类与标签应用:帮助企业提升内容管理与使用效率2.3.2文档内容比对:精准发现版本间差异,防篡改能够识别分块/分栏/页首尾等布局;100+页多模态文档的比对时长<3min,平均1s+/页!2.3.3文档内容审查:多维度内容纠错与合规性审查,减少内容风险2.3.4文档内容查重:跨文档发掘相似点,防范抄袭及重复立项等现象2.4典型场景化方案2.4.1合同智能审查防误用范本合同免审比对责任、免责条款、解除和终止条是否用了模糊描述,如“很、比(图2.4.1-2:智能审查维度)u2.4.2贸易&物流单证校验10+属性/关系秒级别/份快速选型高效性能银行回单纳税证明银行回单纳税证明收入证明银行流水理财APP截图3.1技术架构智能文档分析平台技术架构依托于K8S云原生技术为基础底座,基于K8S构建智能文档领域场景化云原生应用。智能文档分析平台从技术架构分层看包括基础设施层、服务层、组件层、算法层、平台层、应用层、接入层等7层架构。接入层接入层应用层平台层MySQL基础设施层组件层算法层服务层算法层,主要以百度NLP、CV大模型为算法底座,基于布局知识增强文档预训练大模型 Cpu-node1Cpu-node2Cpu-node3Gpu-node1分布式文件存储(NAS或Glusterfs)生产级生产级(图3.2:平台物理部署架构图)网络部署架构图:用户用户Internet其他业务系统其他业务系统生产环境测试环境(图3.2-2:平台网络部署架构图)【生产环境】CPU:32C、64G内存*6台GPU【生产环境】CPU:32C、64G内存*6台GPU:64C、128G内存、32G显存、4卡*2台【存储资源】分布式存储:2T(至少)MySQL:100G(至少)【基础环境】【测试环境】CPU:32C、64G内存*3台GPU:64C、128G内存、32G显存、4卡*1台3.3关键技术3.3.1跨模态预训练大模型2020-06-13自四HumanPerformance0.98110.97560.98250.97802021-02-12日四2020-12-22LayoutLM2.0(singlemodel)0.82020-08-16目AlibabaDAMONLP0.85060.66500.88090.85520.87330.8392020-05-16自PingAn-OneConnect-Gammalab-DQA0.84840.60590.90210.84630.87300.8331231pluss37,500obllgatedgs7nwmozxpEmpiTum233.3.1.2中英文大规模OCR结构化预训练大模型VIMER-StrucTexTMethod2021-11-24日StrucTexT98.70%98.70%98.70%2022-03-18日Character-AwareCNN+Highway+BiLSTM2021-07-20日Linklogis_BeeAl97.05%99.34%98.18%2021-01-02目Applica.aiLambert2.0+ExcludingOCRErors+Fixingtotalentity96.83%99.56%98.17%2021-06-02日MultimodalTransformerforInformationExtraction96.76%99.56%98.2021-02-16日Applica.aiTILT+ExcludingOCRErors3.3.1.3基于视觉和语义多模态预训练大模型VIMER-MaskOCR中文-网图中文-文档中文-手写ICPR2022图表文字识别冠军87.1%3.3.2信息抽取技术平台技术框架立足于业界领先的飞桨PaddlePaddle深度学习框架,先后研发了文档布局分析 3.3.2.1文档布局分析DocParser格式解析格式解析布局解析(图3.3.2.1:文档布局分析DocParser)3.3.2.2开放域文档抽取问答DocPrompt1.无固定Schema,支持开放场景,可实现零样本能力Prompt范式优点2.易对齐预训练任3.表述形式灵活,便于实现多任务统一食合食食从技术架构来看:在数据层面,用户可以构建自己的标签体系,提供文档集合并标标签数据实现标签能力定制化。在策略层面,依托百度大数据,可以帮助用户构建标签体系、预标注训练样本,并极大减少用户标注数据量,辅助用户建设标签能力;同时,针对用户构建时期不同,提供了预置标签模型、冷启动模型和热启动模型,多种组合策略。在标签层面,包括了实体标签、观点标签、主题标签和信息抽取3.3.3.1可定制文本分类标签技术基于深度神经网络的对话理解技术,旨在利用样本数据,使得开发者能够定制化开发分类标签能力。基于文心ERNIE的分类神经网络,仅需要用户提供少量样本进行finetune,就可以取得较好的标签效果。该能力可实现主题标签解析。规则分类模型中的“规则”,既可以基于样本自动生成,也可以人工定义,支持快速构建分类能力,从而更好的实现模型冷启动。此外,规则的可控性强,实际应用价值高。CNN分类模型,能够提升分类标签的泛化能力,通过与文心ERNIE的结合,支持在用户少量样本上进行finetune,进一步提升分类标签效果。poolingfixedlength(图3.3.3.1:卷积神经网络结构)3.3.3.2可定制关键词标签技术3.3.4文档比对技术电子文电子文档扫描文档目标检测模型差异结果再校正文档比对文档解析布局分析前端界面文档解析布局分析前端界面文档预训练模型文档预训练模型文档信息抽取文档信息抽取(图3.3.4:内容比对技术架构)3.3.4.2目标检测模型3.3.4.3文档预训练模型3.3.4.4差异结果校正3.4部分技术专利列表技术方向申请号专利名「发明」段落抽取方法、装置和电子设「发明」文档信息抽取模型的训练方法、装置及电子设及びコンビュータプロタラム「发明」表格的处理方法和装「发明」表格的处理方法和装「发明」文档处理方法、装置、电子设备及存储介质「发明」文档比对方法、装置、电子设备及可读存储介质「发明」数据处理方法、装置、电子设备及介质「发明」文档目录生成方法及装置、电子设备和介质「发明」文本信息的抽取方法、装置、电子设备和存储介质「发明」情報抽出方法、装置、電子デパイス及び可読記憶媒体「发明」文本中数值内容的纠错方法、装置及电子设备「发明」数据标注方法、装置、电子设备及计算机可读存储介质「发明」信息抽取方法、装置、电子设备和可读存储介质「发明」表格数据的处理方法、装置、电子设备和存储介质「发明」INFORMATIONEXTRACTIONMETHODANDAPPARATUS,ELECTRONICDEVICEANDR「发明」文本信息的抽取方法、装置、电子设备及存储介质「发明」用于信息处理的方法、装置、电子设备和存储介质「发明」文档处理模型训练方法、文档处理方法、装置及设备「发明」文吉処理モデルのトレーニング方法、装置、機器、記憶媒体及び「发明」文档处理模型的训练方法、装置、设备、存储介质及程序「发明」神经网络训练方法、文档图像理解方法、装置和设备「发明」文档处理及文档模型的训练方法、装置、设备和存储介质「发明」用于阅读任务的预训练模型训练方法、装置及其电子设备「发明」文档分类方法、装置及电子「发明」数据集蒸馏方法、装置、电子设备及存储介质「发明」文档图像的处理方法、装置及电子设备「发明」图像问答方法、装置、计算机设备和介质4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论