版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
智能会议转写系统解决方案第2页r^TOC\o"1-5"\h\z\o"CurrentDocument"1背景概述 3\o"CurrentDocument"2系统架构 4\o"CurrentDocument"逻辑架构 4\o"CurrentDocument"物理架构 5\o"CurrentDocument"3功能描述 6\o"CurrentDocument"灵云智能会议转写系统 6\o"CurrentDocument"创建会议 6\o"CurrentDocument"关键词优化 7\o"CurrentDocument"会议实时转写 8\o"CurrentDocument"历史会议记录回听 9\o"CurrentDocument"会议状态控制 10\o"CurrentDocument"会议信息自动播报 10\o"CurrentDocument"导出/打印/保存 11\o"CurrentDocument"灵云全智能能力平台介绍 12\o"CurrentDocument"语音合成 12\o"CurrentDocument"语音识别 13\o"CurrentDocument"4系统的益处与价值 15\o"CurrentDocument"5技术要求 16\o"CurrentDocument"软硬件配置清单 16\o"CurrentDocument"软硬件性能要求 16\o"CurrentDocument"软件参数 16\o"CurrentDocument"硬件参数 171背景概述当前,随着人工智能技术的不断发展和应用普及,针对多人连续语音的识别应用已经十分成熟。将人工智能应用到会议室实时识别转写场景下,改变当前的会议纪要模式,实现在会议过程中对会议的发起方、参与方、主席、主持人、秘书等将各方发言的内容自动实时识别成文字,能够成倍提升会议的效率,并将大幅减轻会议记录员的工作强度和压力。而且部分会议信息量大、讨论问题多、会议时间长等要素,人工记录很难做到完全保存会议信息,这时灵云智能会议转写系统能够做到记录整个会议过程全量信息,从而体现出巨大的实用价值。2系统架构2.1逻辑架构图1系统逻辑架构系统依托于灵云全智能能力平台提供的语音识别(ASR)和语音合成(TTS)能力,主要包括采音模块、业务系统和存储模块三部分:1)采音模块:主要通过麦克风及USB声卡等硬件采集会议音频数据。2)业务系统:该系统为会议速记员等提供实时的语音识别文本展现、相关资料展现和会议流程中各种基础处理功能,便于相关人员便捷实用系统,提高工作效率。3)存储模块:将业务相关数据存储于Redis数据库、Oracle数据库和文件服务器中,根据实际业务情况提供能力支撑和应用服务。
2.2物理架构灵云智能会议转写系统的物理框架如下图所示。^会议———会议 ,麦克麦克卡侬线多通道USB日服务器会议室秘书电濒流灵云盒子手机1手机N无线路由器灵云盒子USB电缆,,,会议室秘书电无线
路由器会议室秘书电^会议———会议 ,麦克麦克卡侬线多通道USB日服务器会议室秘书电濒流灵云盒子手机1手机N无线路由器灵云盒子USB电缆,,,会议室秘书电无线
路由器会议室秘书电 脑一,—代 脑 网线语音能力平台服务器图2系统部署架构系统物理框架首先需要在公司内网服务器上搭建语音平台,并且针对单个会议室需要新增一台专用采集设备和一台Windows电脑,Windows电脑要能够与语音能力平台服务器相连接。具体系统流程如下:1)会议室内的N个麦克风通过并线连接采音设备,采音设备实现将模拟信号音频转换为数字信号,通过USB连线与局域网内的Windows电脑相连接,将音频输出到台式机上。2)在速记员电脑上安装录音软件负责把采音设备采集到的数字信号通过公司内网发送给后台语音识别服务器。3)语音识别服务器负责将音频识别为文字,发送给速记员电脑上的网页端会议系统。4)速记员通过网页端会议系统可以实时查看、编辑、修改识别出的文字内容。
第6页3功能描述灵云智能会议转写系统产品结构图:折线图会设数量统计创建会议功能描述:速记员创建会议的时候,在网页上选择会议室,系统会自动关联到对应会议室的麦克风,速记员即可对麦克风的角色姓名进行编辑,从而在会议转写的直播过程中来达到区分角色的效果。此外,在网页界面上支持对当前会议的编号、名称、开会时间、开会地点等信息进行编辑设置,方便会后整理和查阅。
业务流程图:界面效果图:叁双宿赵世曾开金*也中去。客国至盛・■国或克珥g*A:位・#在世者尿强值时1河2017-03-1E生情人度三出旧国王一,至艮星看五・西金川A业务流程图:界面效果图:叁双宿赵世曾开金*也中去。客国至盛・■国或克珥g*A:位・#在世者尿强值时1河2017-03-1E生情人度三出旧国王一,至艮星看五・西金川Aft-6:"荏关键词优化功能描述:针对会议转写过程中,某些个性化或者生僻的词语(例如人名、公司名、地名等)可能出现错误的情况,速记员可以提前输入一些关键词来优化语言识别模型,以便在后面的实时转写过程中,系统自动修正这些文字的转写结果,提高识别准确率,从而减少速记员修改识别结果的工作量,提高会议效率。业务流程图:界面效果图:0・页工理遇点出弗也育识曲巳时会者国・■鹿界面效果图:0・页工理遇点出弗也育识曲巳时会者国・■鹿熙班・薛壬・1・恬牝B-ZEHSHHi山配但矗9.1室艮济13案开班区五・直丽・由DE■摩国》中外开H台&矗工作见W4g9I.标■■#也EBEI7N搪Wnl*型酶万iliK*5理逵施市■内w.■用理ivy粕恬营墙段立.-匐*《IAE集一Bfl』任『(1国切■疗班(TUI|起是h的衽里布.EXH^HHHVfl号工打强防鼻如.由席制瓦事事用时♦势国■一«・.—”m叫困本设2・司•力市旺内•[)£■对廿相♦的酶mw.(HMM兔KiiFFHZa日星刘17甲所对以零CHUR为三Ti™:3HT亚GnH^W^KmfXBH12Ci1J^3fl233S201T^flTBS.曲1厘学切JRF-B2玷珏441-5H.1rm上布■苗■屁.好mu可E5产K*上BEEA*出的1翱屿修前8后石.神♦肋£*:力灯■fi增肥羯,蜡扭杆璃分F■我NfT网mA闻埴时全■■L&E£3tflra*aSMnMH4MVF艮燃*本区皿Eln电■工f,第二IMG.K±9S:iEHQirraMI3aI刘仃叫M日日・30q军4耀20日D-406市日it生*元理・arnwitn iC-iT^riBKsa.而置*设品性■人苗餐囱芯中昆汗也«*»=*■/*Ri的■田,占Ets窜M-9L配色国卫主出!■鼻的曲电・工*■可回rrM再也A玄■,电曲行・安对血总母痼事挑中出国的理住•酎住问H洞愕餐时聚抵110幅41值.茸11优周定弟的3M:坨MtifligT1?1面』事正■OM®i?的注&・会议实时转写功能描述:灵云智能会议系统自动识别出来的文字内容虽然具有很高的识别率,但仍可能存在小部分的错误问题,速记员通过网页可以进行实时的修订、保存操作,并且支持复制粘贴、删除替换等操作,实现会议记录的快速修正、生成。具体提供以下功能操作:1)普通修改:按照正常word操作习惯提供正常的增删改、复制、粘贴的功能、删除替换等。2)个性化词汇添加/快捷替换:速记员可以通过会议记录页面快速添加个性化词汇,增强识别效果,同时可以通过双击个性化词汇列表,可将对应的个性化词汇快捷地替换掉转写输出的错误文本。业务流程图:界面效果图:贪卬・玩 八开台餐也由已用寿通有圉接会国吉・国系蜕贪卬・玩 八开台餐也由已用寿通有圉接会国吉・国系蜕HE1££■«01^3:46 HbemMi7«A»• ,a--ita■ji»■a-*- *n-者出直事曰$1e.&J3E■部金轶、北摩&汨£常胃茶或白比喇尾:主修・本希即酬■开■再单・丁仲利■■照¥.增・¥号.如6理EW膜加喇到8时于快做新翼欣电杆至爷HQB用加布■!:出口啰台段甲m而守0日・,f崎HEttfi由石式it*抬■由京宴・遂事股!fLTfi比限一累■・健,尤塞小6抵史出.・苏在卜啊Hi,FE..EUEKEM■flaw好工我国开II电查市更•盘革U临时的付SA曲Ittf二.就・2W式城充阳1刈《域内•的硒牙开西面的氢门片用-ltimKftKii.'iRfl230a2Ol/配1肝作1B„拶中❽窗的七三十MJS.M—KH.用miffliH.©无和□日23日=2口iraa/BO-岳)■上L指门即・修福・情昂.7IWWJTVT-;f«IS.爱用用❿打“话,尸帼・让国明炳此章墨财IfiiMlEX,即IW4吉方丈t・期I稠E.0肝■撵・盼1月理时录1««1嚣.■菅同EWJA.出*11史■!!•酒国度K#革*WIR(W号吟事写.席舍审回速写明军・/怡・T汴才事.KZKS.国=3=35・七』忖地开・话■口布日j・*Lt堂Q.,密■a~JM<4■广彳玉干M醒力啦巾0曲曲・工件的・加1.W,t■民■•制I国•人层♦E+/EE疗典mb1白■■卡^kshummh=青区屿tt三M*maiir二忙,门闽e陶&金耳■・加Ektr・,窝胃加工整。胃中出眦:循“n.■回忤FfflL网IFftPIfW修懵毕!».词”工B19口Iltft4fld£HCthAB无帏■国到mu附历史会议记录回听功能描述:速记员在会议记录过程中,因记录不及时、发言人语速过快的情况,通过转写过程中打点标记相应的位置,在闭会时,可以通过回听会议音频,再快速修正记录内容。业务流程图:
第10页界面效果图:施明云量呼翻诅睡马而醉i9B41^善国■管理举:境■理#tW4.a01fW3fllie 第10页界面效果图:施明云量呼翻诅睡马而醉i9B41^善国■管理举:境■理#tW4.a01fW3fllie 街睨点:Bt^JE修设/第 &知*号tr^JudU 0辿君景:32U 曰勤事~.HHwfXMi「3 ・dU'-・■■4・*,■■孑・R■目区艮蛇革奥■.陶囹庭■员.北覃隰fl!**讦置区扰雁革力0・本nwWHZI帆E*TE/*WEE.£■叫革而国灯即阅的《事即\・乩幽卅把热HE会苒E因升事昆咖仟5古国』?■!!■£■.—.崔旭用呼访我啦!t投即E-也皆.m.mt?不由肿FEi谢1W>@d段姓.W.员岁事M・PtiflninSlij-ftiFffM:,茶宴吊打而削苫仁超■-二.曲・网am同本次启・何・力市案号内岩舟汉革EiEWu曲fl町其内加17限3月?3日0刘订单13¥到日.*型03为三制NI国■TTiET而整・事・题口国田一工国胤(刘1T年m月7组显翔”叫月T曰J$因上思行机杓开网端・n•H.了3s畸4.球.发比问.■ftTjiW曲尸赖h卜&Wg出里崖乐闻HTM亍声.5Ml玄W方或凡9毋母用的.电尸评”»%*及理WH霸的后.蝌吉即构人为通常空UHW良牯为祕mEM再出■工防5RLKHUft.EWMttWIiiWJIIittSMI?取岷日咽ITIMKffiJT««屿1t£«、市婚aapffmf汨=跖建口41期1;二・工En-ai事,砧.■过■陋选值片・八第■:恒百星斤加硝=*v『甑M・WWm>L配育出於史ft甘。«刑1=■■工CFj对如TW9或B若跟窜押片警号.发现罩・居题过附也琬曲I剧.叫住回■.■4HV正■Ki hB1»然|屁拉lift HQ3■问南金山 -会议状态控制功能描述:速记员通过网页端能够实现对整个会议节奏的控制,当前系统提供三种会议状态:“开会”、“休会”、“闭会”。界面效果图:BhEwem.sspaswewaw.配若田卫里世e鎏・什磔苫ars工汗T却sei啊理—现班狂看电戈区草声芟丽呼p出球宙4隹.*即修月吧.蜕司H哥普箱喝江HER:.会议信息自动播报功能描述:对于开会需要宣读的会议纪律、基本会议背景、与会人员等内容,能够通过网页端自动播报,并且支持播报速度调整及音色自由选择。业务流程图:界面效果图:导出/打印/保存功能描述:速记员在整个会议结束后,可以从系统的网页端将会议生成的笔录导出为Word文档,支持在网页端中直接进行打印操作,并且可以将会议笔录保存至会议记录管理系统。业务流程图:开始导出 打印 保存**_导出文本文件I标簟丽打印预览结束界面效果图:01:23:46ftFjfGaf丈 >Iy际♦-工■A■.告区及粕改革姜.襦山发展过革委、:1密坛讲技术开发区推彼改M同:为乐诲古市医笠分开将自&<1作平稳醺利实施.隹理皆导本市区疔优恂港实价喀欢地银行情况,酮究决定在至市范田内开展国式分开怎告改堆饰格营项皿■:r,桧宣的维安方式此次松克任市盟席由单委%TB绢,统一部署“按照门博市帕格行政把罚目辅办法》的艇,市,区裒展区革委报据宵情分工分别开屉牡亘,市发僦革委将又挪分区,点恒芭二.粒百对族和时间
第12页UK风3・餐»r*-1农・过也*■自.,・王:!kW第12页UK风3・餐»r*-1农・过也*■自.,・王:!kW・仇■&?!,,w.fK,■•不曲立青.K"*.Al.M■卡,鼻5*国-岸・•・EIM4V.比口彳・■-:,IEAlil:.■「■・内।»£*¥■•1li-tiUfKtirnM**,=*情■崂L■t.l±qFNi».U.«k«l!«-a.曜4方港包irifl-』+---・■重-f.«fr-jeiifl.ijivr-a.ifTip-at«<-J:(*・,*■*f*l*C「片■哥r击黄41雪■■:i■忧..,南Figsft-V.B'ki^jiFuihM;占比•M:HTrr-m-ii+比**r4*房・I.皆於*LAe■孙■/,・七:%ftl-f-■_*e息・・量几,■.frE^TIA*4*r3.2灵云全智能能力平台介绍全智能能力平台是基于服务器硬件和软件,提供捷通华声科技股份有限公司最新的语音合成、语音识别、声纹识别等多项核心技术能力,并在此基础上构建语音应用。语音合成语音合成(TexttoSpeech,TTS),是将文本信息转化为语音数据的技术。语音平台集成的语音合成引擎是业界领先的文语转化引擎,采用最先进的中文文本、韵律分析算法和大语料库的合成方法,合成语音已经接近真人的自然效果。其主要功能有:1)高质量语音,将输入文本实时转换为流畅、清晰、自然和具有表现力的语音数据;2)多语种服务,整合了多语种语音合成引擎,可提供中文、英文、粤语、维语等语音合成服务;3)多音色服务,提供丰富、风格多样化的音色选择,如浑厚淳正的男声,温柔甜美的女声,天真烂漫的童声等等;多字符集支持,支持输入GB2312、GBK、Big5、Unicode和UTF-8等多种字符集,普通文本和带有CSSML标注等多种格式的文本信息;5)多种数据输出格式,支持输出多种采用率的线性WAV,A/U率WAV和VOX等格式的语音数据;6)语音调整功能,开发接口提供了音量、语速、音高(基频)等多种合成参数动态调整功能;7)配置和管理工具,合成引擎提供了统一进行配置和管理的工具,完成了全局参数配置、用户词典、用户规则管理等功能;8)效果优化,合成引擎提供了以定制资源包和CSSML为代表的多种针对实际应用环境进行合成效果优化的方法;一致的访问方式,能以方式访问远程的语音合成服务,并且提供与本地调用相同的开发接口,实第13页现了完全透明的访问;10)背景音和预录音,提供了背景音和预录音的功能,大大提高了合成语音的自然度和表现力。语音识别语音识别技术(AutoSpeechRecognize,简称ASR)所要解决的问题是让机器能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来,相当于给机器安装上“耳朵”,使其具备“能听”的功能。其主要功能有:A.前端语音处理前端语音处理指利用信号处理的方法对说话人语音进行检测、降噪等预处理,以便得到最适合识别引擎处理的语音。主要功能有:1)端点检测端点检测是对输入的音频流进行分析,确定用户说话的起始和终止的处理过程。一旦检测到用户开始说话,语音开始流向识别引擎,直到检测到用户说话结束。这种方式使识别引擎在用户在说话的同时即开始进行识别处理。2)噪音消除语音识别系统具备高效的噪音消除能力,以适应用户在千差万别的环境中应用的要求。3)智能打断智能打断功能使用户可以在自助语音服务的提示语播放过程中随时说出自己的需求,而无需等待播放结束,系统能够自动进行判断,立即停止提示语的播放,对用户的语音指示做出响应。该功能使人机交互更加高效、快捷、自然,有助于增强客户体验。B.后端识别处理后端识别处理对说话人语音进行识别,得到最适合的结果,主要特性有:1)大词汇量、独立于说话人的健壮识别功能系统满足大词汇量、与说话人无关的识别要求,可以支持数万条语法规模的词汇量;并能适应不同年龄、不同地域、不同人群、不同信道、不同终端和不同噪声环境的应用环境。2)连续语音识别连续语音识别是指能够把用户说的任意语音转换成对应的文字信息,支持中文和中英文混读的常见语句听写,对于日常使用的常用对话有着很高的识别准确率,包含日常用语,如短信类、生活、交通、娱乐、科技、数字数值、名人、互联网热词、新闻、金融等领域的词库更新。3)智能标点添加连续语音识别支持中文标点智能预测,使用超大规模的语言模型,对识别结果语句智能预测其对话语第14页境,提供智能断句和标点符号的预测。4)置信度输出置信度反映了识别结果的可信程度。语音识别引擎可以在返回识别结果时会携带该识别结果的置信度,应用程序可以通过置信度的值进行分析和后续处理。5)多识别结果又称多候选技术,在某些识别过程中,识别引擎可以通过置信度判决的结果向应用程序返回满足条件的多个识别结果,而不是唯一的结果。识别系统提供了可能的识别结果列表,并按置信度结果从高到低进行排列。在业务设计中,可以根据应用要求向用户提供这些结果,供用户进行二次选择。通过置信度判决和多识别结果输出技术可以开发更加灵活、更加人性化的业务流程。6)说话人自适应当用户与语音识别系统进行多次会话过程中,系统能够在线提取通话的语音特征,自动调整识别参数,使识别效果得到持续优化。7)多槽识别语音识别的槽(Slot)代表一个关键字,即在一次会话过程中可以识别说话人语音中包含的多个关键字,这可以提高语音识别应用的效率,增强用户体验。8)热词识别热词识别使得语音识别应用程序能够在说话者说话的同时检测一个特定的词或短语,当说话者说到这个短语的时候,识别引擎会把控制权交还给应用程序。在应用程序使用该功能可以使识别器能够在后台监听输入的语音,直到用户说出特定的短语进行请求时才与用户交互。9)智能调整识别策略能够自动根据系统运行情况动态调整语音识别策略,在系统较忙时(CPU占用较高),采用计算量较小但具有足够精度的策略以保证系统的响应速度;在系统不忙时(CPU占用较低),采用精度更高的策略以达到更优的识别效果。10)语音录入允许用户通过语音方式动态增加识别语法。该功能使用户可以更加灵活的维护语法,扩展语音识别范围,并且能够提高识别系统对用户语音的适应能力,提高识别的准确率。11)识别日志语音识别的日志在系统中有着非常重要的作用,该日志记录输入的音频、加载的语法、识别过程的中间结果、识别模块识别过程、识别使用的各种参数、识别结果以及当时的系统环境信息。第15页4系统的益处与价值系统不但节省人力成本、减少人工出错率,而且给客户带来诸多益处或价值。1)超高的语音识别准确率灵云智能会议转写系统识别准确率达到92%以上,会议前的关键词优化,可以提升识别率到95%。2)能够大幅缩短会议时长由人工录入120字/分钟上升至机器转录300字/分钟以上,普通会议时间缩短20%,速记员熟练使用系统后将可以节约会议时间将近50%。3)会议纪录完整度会议过程全程留痕,笔录完整度高达100%/r/
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第一章第一节区域和区域差异教案
- 《马路上的红绿灯》教案设计
- 《液压与气动》教案
- 商品房销售客户体验优化
- 交通事故调解程序
- 岱岳区园艺作业外伤防护指南
- 福建林地生态旅游开发新机遇
- 旅游景点供电合同细则
- 住宅装修项目招投标归档
- 区块链技术法律顾问服务协议
- 道德与法治三年级上册+阶段性(期中)综合素养评价(部编版)
- 1-2《光的传播》(教学设计)苏教版五年级科学上册
- 2024-2030年中国新型电力系统行业发展展望及投资前景预测研究报告
- 2024自动导引车AGV技术规范
- 广东某办公楼改造装饰工程施工组织设计方案
- 2024-2030年冬虫夏草行业市场深度调研及发展趋势与投资战略研究报告
- 《20世纪的科学伟人爱因斯坦》参考课件2
- 八年级道德与法治上册 第一单元 走进社会生活 单元复习课件
- 设计师会议管理制度
- 三年级上册数学说课稿《5.笔算多位数乘一位数(连续进位)》人教新课标
- 行贿受贿检讨书
评论
0/150
提交评论