【通用】听见智能会议系统建设方案设计(一体机)_第1页
【通用】听见智能会议系统建设方案设计(一体机)_第2页
【通用】听见智能会议系统建设方案设计(一体机)_第3页
【通用】听见智能会议系统建设方案设计(一体机)_第4页
【通用】听见智能会议系统建设方案设计(一体机)_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

...wd......wd......wd...听见智能会议系统建设方案安徽听见科技2016年10月目录TOC\o"1-4"\h\z\u1.工程概述11.1.建设背景11.2.建设重要性12.建设内容及目标13.产品施工条件24.系统连线图25.建设方案45.1.系统概述45.2.软件详细配置65.2.1.中文语音转写引擎65.2.2.应用系统基本功能75.2.2.1.用户管理75.2.2.2.音频采集处理75.2.2.3.实时语音转写75.2.2.4.历史语音转写75.2.2.5.内容编辑85.2.2.6.效果优化95.2.2.7.内容展示95.2.2.8.内容管理105.2.2.9.全文检索105.3.硬件设备配置115.3.1.一体式智能会议主机115.3.2.应用端主控电脑126.工程报价12工程概述建设背景随着信息时代的到来,海量语音的获取和存储能力愈发强大,基于会议办公的实际场景,会存在需要大量的人力投入、工作效率不高的情况、语音技术在会议场景中的应用质量和效果不高。因此,结合会议会务场景对语音技术的实际应用需求,开展了基于会议场景下的语音技术应用关键技术研究,突破语音合成、语音识别、语音转写等核心技术,提升语音技术在会议会务场景中的应用水平,切实提升日常会议办公的工作效率和效果。建设重要性语音识别〔SpeechRecognize〕技术,是让机器通过识别和理解过程使之听懂人类语言的技术。语音识别技术是信息技术中人机交互的关键技术,目前已经在呼叫中心、电信增值业务、企业信息化系统中有了广泛的应用。随着语音识别在语音搜索、语音控制等全新应用领域的深入应用,语音识别技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。近年来,语音识别技术取得了长足的进步。智能会议系统是基于语音识别技术所研发,可满足会议演讲、会议研讨、沟通交流、大型会议等一系列需要进展实时文字转写的场景。此局部工程的实施主要解决会议记要整理时间长、会议中心思想因记录人员的理解而可能出现的偏差、会议录音及关键点难以查找等问题。工程建成后当天即可完成所有相关会议记要的整理工作,同时,每一个人的发言均可记录在纪要当中,可有效减少因不同原因造成的会议中心内容理解的偏差,提升纪要整理的效率。建设内容及目标本工程方案选取1个会议室分别部署单机版听见智能会议系统,进展基于会议场景下的新型语音转写技术的应用,实现会议过程中音频实时转写成文字,辅助会议记录人员进展纪要的整理与校正,实现快速成稿,在整体上打造样板化智能语音转写会议室。产品施工条件环境要求单机版智能会议系统采用专业定制一体机的硬件形态,一体机的安装机柜需要6U空间,安装于正常室外室内即可,设备深度为500MM,系统本身局域网组建自带,网络带宽在100M以上,主控PC需要连接局域网下使用,整套设备局域网下运行即可。同时需要1.5KW电源。音视频需求该系统是基于音频根基上实现语音转写,麦克风等音响设备利用会议室现有环境。为实现对现场音频的采集,需要现场音响设备〔调音台或相关音频设备〕提供会议话筒音频供转写,同时设备接口支持卡侬公、大三芯〔6.5〕、双莲花输入;如需单独外接显示,支持接口为HDMI或VGA。如有展板上屏需求,需要会议室内配有投影仪或者电视机,且具备VGA或者HDMI接口任意一种,展板通过连接投影仪或者电视机进展投屏展示。系统连线图本工程拟购的一体式智能会议系统,其硬件形态为:通过国家CCC认证和专业定制一体机+编辑段主控电脑。教室现场的发言音频输出给一体机,同时如需显示,一体机支持显示输出,主控电脑通过网线与一体机连接,整套产品即可使用。一体机整体外观图示意如下:一体机机器后面板及接口图示意如下:参数说明:整机电源:AC100-240V700W;服务器节点:XEON2.6G20M2011P8CORE,E5-2620V3*2;32GDDR4REG/ECC;接口2*千网口〔IntelI210AT〕,1*RS232,GPIO,Watchdog,VGA->切换器;USB:6*USB(前置1*USB2.0+后置〔2*USB2.0/2*USB3.0〕;应用节点:CORE3.2G6M1151P4COREI5-6500;8GDDR4,2*千兆网口〔Intel82579V〕1*千兆网口〔Intel82579V〕,1*RS232,1*VGA,1*PS2,外接:DVI转HDMI;坦克声卡:一个麦克风输入并自带音量增益旋钮,XLR/6.3mm混合式接头一个乐器输入并自带音量增益旋钮,6.3mm接头4个模拟输入(RCA接头)一组唱盘输入并内建RIAA等化放大及自带音量增益旋钮6个模拟输出(RCA接头)一个耳机接孔(6.3mm接头)并自带音量增益旋钮一个光纤数字输出/输入一个同轴数字输出/输入一组MIDII/O连线说明:本产品为一体机形态,只需要接通一根电源线、一根音频线、一根视频线,并通过一根网线连接主控,就可使用。建设方案系统概述听见智能会议系统由软件、硬件共同构成,实现在会议场景下的实时音频或录音采集,并通过语音识别技术实时转化为文字。用户可以通过系统提供延时播放、按句回听、重点标记等功能方便快速整理出会议材料;并且通过系统提供的语气词过滤、自动分段等功能自动优化文字结果;同时,用户可以使用全文检索功能方便检索历史音频。系统具备会议音频管理、即时校对编辑、敏感词屏蔽、转写文字实时直播等基本功能。系统整体配置清单如下:类别描述数量单位软件语音识别转写引擎智能中文连续语音识别转写引擎,实现对普通话连续语音的实时转写,并提供对已转写文字的后处理及字音同步对齐能力1套会议管理系统智能会议管理系统应用软件,实现历史音频转写、实时编辑、自动分段、关键词优化、禁忌词屏蔽、语气词过滤、全文检索、重点内容标记、按句回听、用户权限管理、会议信息管理、内容导出等功能1套硬件一体机专业定制一体式会议主机。NODE1:2*E5-2620V32.6GHZ/32G/800G*3SATA10Krpm+raid5/1*USBkey+3*USB2.0/1000MNIC;NODE2:IntelCorei5/8G内存/500GSATA7200rpm/VGA+HDMI\DVI\DP/3*USB2.0/1000MNIC;DMX6FireUSB\FastTrackUltra8RUSB音频接口Route:3*LAN接口+1*WAN1台套应用端主控电脑华硕PRO453U,Intel®Core®i5-6200U2.3GHz/8GB/Intel500GBSATA/Intel®HDGraphics520集显+NvidiaGeForce920M2GB独显1台服务1、提供首次上门安装、调试;2、提供系统使用培训;3、两次通过软件升级的方式提供效果优化;4、提供大会服务和移机安装服务。1年/套软件详细配置中文语音转写引擎听见智能会议系统需要解决语音转换成文字的问题。机器语音识别技术是一种实现从“声音〞到“文字〞转换的技术,通过将人的语音直接转换成相应的文本。语音识别技术的研究工作开场于上世纪五十年代。Bell实验室的研究人员利用模拟元器件提取了语音信号元音共振峰频率变化的信息,有史以来第一次实现了识别十个英文数字的语音识别系统-Audry系统。八十年代,Bell实验室的Rabiner等科学家将原本晦涩难懂的隐马尔科夫模型〔HiddenMarkovModel-HMM〕理论工程化,形成了较为完善的概率统计模型体系,识别性能也得到了很大的提高。2006年以来DeepLearning理论和技术成为了模式识别领域的一个热门研究方向,G.E.Hinton等深入研究了深度置信网络〔DeepBeliefNetwork-DBN〕以及深度神经网络〔DeepNeuralNetwork-DNN〕等模型构造,微软通过与Hinton合作率先将DNN应用于语音识别任务,识别性能取得了显著提升。此后谷歌、蒙特利尔,以及IBM又将循环神经网络〔RecurrentNeuralNetwok-RNN〕成功应用于语音识别领域,特别是长短时记忆〔Long-ShortTermMemory〕神经网络构造,取得非常出色的语音识别性能。加上目前图形处理器〔GPU〕计算能力的提升,以及互联网时代大规模标注数据获取成为可能,基于深度学习的语音识别技术已经在多个领域到达实用水平。传统的语音识别技术主要用于解决人与机器的交互问题。而在会议场景需要需要转成文字的音频内容是人与人之间交互,听见智能会议系统需要基于机器语音识别技术构建语音转写引擎。听见智能会议系统构建的语音转写引擎需要能够实时、高效的把人与人之间交流的语音转换为文字的能力,具体包括中文语音转写引擎与英文语音转写引擎,本系统需要完成中文语音转写引擎的建设。应用系统基本功能听见智能会议系统,可以实现在会议、教学、演讲等场景下的实时音频或录音采集,并通过语音识别技术实时转化为文字。用户可以通过系统提供延时播放、按句回听、重点标记等功能方便快速整理出会议材料;并且通过系统提供的语气词过滤、自动分段等功能自动优化文字结果,可人工进展角色别离;同时,用户可以使用全文检索功能方便检索历史音频。用户管理听见智能会议系统采用账号密码登录,在提升用户安全体验的同时,分账号进展管理;系统可根据需要配置提供管理员账号和普通账号,管理员账号可查看全部列表内容,普通账号仅支持查看当前账号下的内容。不同账号间的数据进展逻辑和物理隔离,保证数据安全性和私密性;满足用户不同用户、不同权限的管理需求。音频采集处理听见智能会议系统需要通过对实时音频流信号的处理完成从信号获取、转换、处理、识别、输出、展示等一整套流程动作,需要由强大的音频采集处理模块。系统讲通过使用特定的录音服务,通过麦克风收集后,送达后台服务端完成编码工作,实时上传到系统,供后续的转写文字等功能使用,同时保存到内容管理模块中。实时语音转写系统通过专业麦克风对会议全程进展高保真录音,并针对连续中文语流进展实时语音转写识别,并持续进展转写结果文本内容的输出。历史语音转写相比于实时语音转写模块,历史语音转写模块提供对于已经录制好的历史音频需要转写情况下的解决能力;用户可以通过系统提供的功能按钮,导入历史音频并实现快速离线转写;支持音频批量导入。图:历史音频转写编辑效果图内容编辑在实时语音转写过程中用户可以实时对转写出的文本结果进展编辑,并进展重点内容标记。在实时编辑的过程中采用延时播放的策略,用户可以在查看到转写文本之后及时根据听到的音频进展文本校对编辑。用户也可不戴耳机直接听现场的实时音频。支持选择查看原始结果,比照修改,方便快捷,会议完毕后即可直接成稿,并根据重点内容,整理导出会议纪要。具体功能包括:延时播放:在实时语音转写过程中,识别结果展现之后再开场连续播放音频,即用户在看到转写文本的时候,同步听到对应的音频,使得校对和编辑更加便利。重点内容标记:在实时语音转写过程中或者暂停和完毕时,用户均可以选中文本来进展重点内容的标记,已标记的文本也可以进展修改和标记取消,方便整理会议纪要,会议完毕会后即可或直接成稿。音字对照:在实时语音转写暂停的时候,用户如果对于有些内容没有听清,对于文本内容不确定的情况下,双击原始结果即可听到文本对应的音频,方便用户对写结果进展编辑,尤其是不小心误删除了编辑文本,可以通过回听原始结果来进展回溯。实时语音转写完毕状态时,原始结果及编辑结果均可双击进展音频回听。图:实时语音转写效果图效果优化在实时语音转写过程中,听见智能会议系统通过提供语气词过滤、自动分段等功能自动优化文字转写和显示结果。具体包括:自动分段:在会议内容实时语音转写成文字的过程中,为了方便用户编辑何查看,系统提供根据VAD+固定字数和VAD+固定关键词两种自动分段方式。系统提供最正确的默认自动分段方式,用户也可根据实际情况进展设置。语气词过滤:用户可以在实时语音转写开场前或者进展文稿整理时可以根据需要选择是否开启语气词过滤按钮,假设开启按钮可将语气词和多余的词汇去除,以保证文稿的规整。语气词过滤只针对新转写的结果,已经修改正的内容不支持过滤。关键词优化:用户可通过关键词优化功能将此次会议相关的关键词进展添加,能有效提升该关键词的识别准确率。实时转写过程中用户也可添加关键词,并且可以实时生效,后续识别结果可得到有效优化。内容展示系统通过提供展板上屏等形式进展实时语音转写结果的展示。具体功能包括:实时上屏:通过展板上屏展示中实时语音转写结果。并且,字体颜色和展板背景颜色可以根据实际情况需要进展调整。图:展板效果图上屏后台修改:如果在实时转写过程中使用了实时上屏功能,希望保障上屏效果,那么可以使用上屏后台修改功能进展展板端的结果纠正。在开场时点击展板按钮,调出展板,此时该展板端会同步出现识别文字。如果在转写过程中出现明显错误或不适宜展示的词语,那么可以在主控端进展展板编辑,可以修改或删除,修改之后按Enter键那么修改的内容会同步到现场的投影屏幕上。内容管理所有通过听见智能会议系统转写的实时录制的音频文本数据和本地上传的音频文本数据系统都会以列表形式进展管理,后台通过分布式存储集群实现高效安全存储,整个过程用户无感知。用户可以通过内容管理模块随时查看和编辑,并且可以根据名称等信息快速检索。此外,编辑后的全文本、重点文本以及音频、某一角色的文本,用户都可以快速导出,方便快捷。全文检索系统通过自然语言理解、语音识别和语义分析技术理解用户意图,执行用户的检索指令〔包括语音、文本等〕,实现资源文本内容的语音搜索服务能力,不仅能检索文本资源,也能根据文件名对音视频内容进展搜索。该服务在传统的文字输入搜索方式根基上,不仅能支持搜索语音时的相对自由表述,也应当能够支持传统文字检索时的相对自由表述。硬件设备配置听见智能会议系统的配套硬件设备,具体包括:一体式智能会议主机、应用端主控电脑。一体式智能会议主机专业定制一体式智能会议主机,提供4U设备形态,集成了包括服务节点、应用节点、声卡、显示器、路由器等部件。产品型号:讯飞听见产品参数:NODE1:2*E5-2620V32.6GHZ/32G/800G*3SATA10Krpm+raid5/1*USBkey+3*USB2.0/1000MNIC;NODE2:IntelCorei5/8G内存/500GSATA7200rpm/VGA+HDMI\DVI\DP/3*USB2.0/1000MNIC;DMX6FireUSB\FastTrackUltra8RUSB音频接口Route:3*LAN接口+1*WAN产品尺寸:整机箱尺寸:426mm*477.4mm*177mm键盘托架尺寸:426mm*480mm*47mm产品图片:应用端主控电脑与一体机配合展示转写结果,接收主控台的音频转写结果,通过投影仪将转写结果展示在大屏幕上,提供实时及离线会议语音转写功能。产品型号:华硕PRO453U产品参数:In

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论