下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、#2014.50(8)Computer Engineering and Applications计算机工程与应用内窥镜自动定位语音识别系统马 宁,陈晓冬,李亚楠,尹青云,汪毅,郁道银MA Ning, CHEN Xiaodo ng, LI Yanan, YIN Qingyun, WANG Yi, Y U Daoyi n天津大学 精密仪器与光电子工程学院天津300072College of Precision Instruments & Opto-electronics Engineering, Tianjin University, Tianjin 300072, ChinaMA NIn
2、g, CHEN Xlaodong, LI Yanan, et al. Speech recognition for endoscopic automatic positioning system. Computer Engineering and Applications, 2014,50(8):207-210.Abstract: A novel system for minimally invasive surgery is presented in this paper. The system utilizes an Endoscopic Automatic Positioner(EAP)
3、 controlled by speech recognition engine io Implement the clamping and dynamical positioning of the laparoscope. The motion instructions of the EAP are transformed from voice commands of specific doctor recog nized by speaker dependent speech recognition algorithm named Dynamic Time Warping(DTW ) Th
4、e DTW recognizes particular commands and rejects irrelevant items by enhancing the performance of the reference template. An A RM-core embedded plattorm is designed to run the DTW on Windows CE operating system. And on that basis, the performance of DTW is demonstrated by 1250 groups of experiments
5、from 10 individual speakers Compared with the traditional algo rithm, the enhanced algorithm can improve the recog nition rate by 3.16% and shorte n the time of calculation by 51% The results demonstrate the availability of the enhanced algorithm and its ability to satisfy the real time requirement
6、in embed ded system.Key words: endoscopic; dynamic time warping; reference template; speaker dependent; embedded system摘 要:提出一种基于特定人的内窥镜自动定位语音识别系统,通过识别特定医生的语音控制口令实现内窥镜的定 位,为手持内窥傥操作提供更加智能化的解决方案.在识别算法上提出了券考模板归一化平均的动态时间规划 (Normalized Average-Dynamic Time Warping.NA-DTW)算法.可获得更高的识別丰,系统以片上Windows CE操作 系统
7、和ARM作为系统的软硬件平台.实验通过对10个不同测试人的共1 250组测试哉擴进行识别检测,NA-DTW 算法与传统DTW算法相比,识别率从96.6%提高到99.76%,运算时间从469 ms缩短到241 ms.脸证了 NA-DTW算 法可以完成基于特定人、孤立词的语音识别功能,并满足嵌入式系统中的实时检测条件.关犍词:内窥钱;动态时间规整;参考模板;特定人;嵌入式系统文献标志码:A 中图分类号汀 P391.4 doi : 10.3778/j.issn.1002-8331.1205-029871994-2014 China Academic Journal Electronic Publis
8、hing House. All rights reserved. httD:/#2014.50(8)Computer Engineering and Applications计算机工程与应用71994-2014 China Academic Journal Electronic Publishing House. All rights reserved. httD:/2092014.50(8)Computer Engineering and Applications计算机工程与应用基金项目:国家H然科学基金仪器&项(NO.60827005),作音简介;马宁M989-) 女.硕丄研究生.
9、主耍研穽力向为语音识别和智能系统;陈晓冬(1975).男.副敦授.宙上生导师;李亚仙(1989-).女顾士研究生;尹青云(1989-).女.硕士研究生;汪»(1981-),女讲师;郁逍银(1945-).男,教授博士生导 Wi E-mail:c 叩 s5收稿日期:2012-05-28 條回日期:2012-08-13 文章编号:1002-8331 (2014)08-0207-04CNKI 网络优先出版:2012-09-17, 1引言微创手术是目前十分普遍的外科手术形式它将手 术器械和内窥镜通过体衣1.的微创孔送入人体.对人体 内腔器官实施乎术其关键技术之一是内窥镜的稳定定 位和对焦。传统
10、的人匸手持方式虽然在操作灵活性方 面具有优势但人工操作堆以长时间维持某一固定姿 势,从而导致图像抖动和模糊,影响医生正常诊断和治疗:为提供更加种能化的解决方案本文提出了基于特 定人语音识别的内窥镜自动定位系统,将语音识别技术 引入外科手术当屮c医生通过发出特定的音命令,控 制内窥鏡自动定位系统的机械结构实现内窥鏡的移动 和定位操作以保证内窥镜的稳定成像 因此语音命 令的准确、迅速识别是系统设计的关键。音识别技术的研究已有近30年的历史3 1978年.H.Sakoe等提岀了基于模式匹配的动态时间观整 (Dynamic Time Warping,DTW)算法 对特定人、小词 汇量右较好的识别效果但
11、要提高识別率,需要多组参 考模板,导致内存资源和计算时间的增加由。T.Zaharia 等提出利用VQ技术获得一组稳定的参考模板减小了 汁算时间但获得参考模板需要经过大呈数据训练叫 Itakura在标准DTW算法的基础上提岀全局路径限制 条件,右效减少汁荒戢提高算法速度但识别率有所下 降(勺Baker ft Jelinek等将隐马尔科夫模型理论应用到 语音识別中冋,该算法在非特定人、大词汇量条件下有较 好的识别效果但是算法识别依赖于训练数据在训 练数据不充分的睛况下识别率低于DTW算法叫H.算 法相对复杂,汁覓量大。本文针对手术室的使用环境研究基于特定人、孤 立词、小词汇蜀语音识别方法提出了参考
12、模板归一化 平均的动态时间规划(Normalized Average-Dynamic Time Warpi叩.NA-DTW)克法该算法通过少就的训 练数据获得一组最优参考模板训练方法简单R约内 存资源和计算时间,并解决了由路径限制引起的识别率 下降间题 同时,算法只识别特定主治医生的语音口 令,忽略其他人的语音命令保障了仪器使用的安全性. 避免误操作。2内窥镜定位系统机械平台设计内窥镜定位系统由马达驱动机械臂來实现3个自 由度的运动通过机械皆夹持内窥镜來完成内窥镜的运 动及定位。如图1所示。01自动定位系统机械示童图及三个自由度的运动使用时将定位装置匱于病患腹部上方,山支撑臂 夹持,支撐臂的另
13、一端可沿手术台扶手的任何位胃进行 固定,定位装置用于固定电子内镜装置I:包含三个马 达驱动器,分别实现水平、垂直方向的旋转.以及一个力 向的步进,以提供三个自山度的运动。3内窥镜定位系统硬件平台设计定位系统以ARM芯片作为硕件平台,识别算法及 控制程序采用C软件实现并在硬件系统上进行实时测 试系统控制屮心将语音识别出的结果作为控制命令. 通过总线接【控制三个马达工作 系统硕件主要由下 面儿个部分组成:ARM核心处理模块语音采集模块.A/D转换器,存储S FLASH fU SDRAM,T FT液晶显示 模块,:系统硬件框图如图2所示。;液晶软件界面i4ARM S3C24404.涪音 识别RS23
14、2 申口电滋:定位系统主机I电机模块录音电路芒田2系统硬件16图系统工作的基本原理为:启动系统后麦克风接收 测试人员发出的语音指令并将其传入定位系统主机. 语音识别软件对数字语音信号进行识别处理 根据识 别结果将其转换为电机控制指令包含两方面内容:(1) 应进行运动的电机编号;(2)电机运动方式 然后. 再通过RS232串口将电机控制指令发送给电机.控制电 机转动.带动机械彗完成内窥镜的移动与定位 同时. 系统还将识别结果显示在液晶屏to4内窥镜定位系统软件平台设计在软件设计方面,系统以Windows CE作为软件平 台利用Embeded Visual C+編程软件进行软件设汁 和调试叭设计图
15、形用户界面并在TFT液晶屏上显示。 丿F启语音控制功能后调用语音识别算法应用程序,实现 语音识别工作°4.1语音识别定位系统对手术屮内窥镜进行移动及定位由于特 殊的应用环境 価音识别控制必须满足安全性及实时性 要求系统选择动态时间规幣(DTW)算法作为核心识 别算法选择宰于谱爛的端点检测算法提高端点检测 对环境噪茁的抑制厲,选择基FMel频率側谱系数(Mel Frequency Cepstrum Coefficient.MFCC)作为i吾音信号 的特征参数叫语音识别的基本流程如图3所示03语音识别基本诫程动态时间观整(DTW)W法是把时间规幣和间距测 議汁算结合起來的一种非线性规整技
16、术该算法基于 动态规划(D P)的思想.解决了语音们y-时间氏短不一 的匹配问题测试的语音参数共右M帧矢S. ifij参考 模板有N帧矢录,H. M工N.则DTW就是寻找一个时间 归整函数j = w(i).它将测试矢量的时间轴M非线性地71994-2014 China Academic Journal Electronic Publishing House. All rights reserved. httD:/2014.50(8)209马 宁陈晓冬李亚楠等:内窥镜自动定位语音识别系统71994-2014 China Academic Journal Electronic Publishing
17、 House. All rights reserved. htto:/71994-2014 China Academic Journal Electronic Publishing House. All rights reserved. htto:/映射到模板的时间轴N I:并使该函数满足第i帧测试 矢量和第j帧模板矢蜀之间的距离测度城小:D = m/nfdT(i).(w(i)(D|«1其中T(i)表示测试语音矢量,K(w(i)表示测试时间轴 的第i帧信号经过时间规整函数后对应于模板语音的 矢量,式中dr(i)./?(w(i)是第i帧测试矢量口)和第j 帧模板矢戢R: j)之间的距离
18、测度 D则是在最优情况 下的两个矢量之间的匹配路径。为了进一步减小汁算 a.算法屮采用了全局路径限制如图4所示°传统的DTW为减小汁算量采用全局路径限制条 件血然右效提离程序运行速度但会适成识别率下降叫 山于语音信号具仃随机性和不稳定性,一般通过使用多 组参考模板进行识别的方法提高识别率.但会导致内存 资源和计算时间的增加同。为了解决以上两个间题,本 文提出了 NA-DTW算法,首先对每个识别也词进行多 次采集(45次)计算出每个训练样本的长度求取长 度的平均值作为归一化长度然后利用归一化算法将 所仃训练样本的反度规整为平均长度,对反度规整云的 训练样本取平均处理作为巌终参考模板NA
19、-DTW? 法不仅能补偿由路径限制带來的识别率下降.同时还提 供更加稳定的参考模板。算法实现步骤:(1)对每个识别进行多次采集(45次)每个训练 样本的氏度为弘,每个识别单词的归一化长度为:其屮,叫丧爪第i个识别词汇的第j个训练样本的长 度,N表示第i个识别诃汇的归一化长度,J表示训练 样本的个数,Lx表示取不大于x的城大整数,(2) 通过线性菱值将训练样本的氏度规整为I丿一化 长度:% (E) = (1 - s) % (皿)+ 8( % (W + 1). (T严 1 2,,叫 其屮:(Nd-1)n,i= (K-1) + 14)個-1) N-1s=(D + 1-nM(5)伽-1)"R
20、和R分别表示规整前后第i个识别词汇的第j个训练样本。(3) 对第i个识别词汇的j个训练样本取平均作为最终参考模板:R( = ER.i/J05改进算法櫃图4.2控制软件流程控制软件完成对信号的采集、处理以及命令发送 控制软件的基本工作流程为如图6所示。06语音识别软件流程语音识别软件具有两类功能一是语音入库,将需 要识别的语音词汇存储到语音数据库中,作为识别时所 需的参考模板二是语音识别将待识别语音进行语音 识别处理获得识别结果 训I练及识别和通过外皆麦克 进行实时i吾音数据的采集.采集到的语音信号进行端点 检测特征提取处理.训练阶段特征向量存入语音数据 库识别阶段直接与参考模板进行模式匹配获得
21、识别 结果后控制内窥镜移动及定位C5实验结果与讨论实脸中信号的采样率为16 000 Hz,量化率16 bit、 声道数1 channel采用汉明窗分帧帧氏为256个采样 点,報间重叠为128个采样点.识别单诃为“前进、后 71994-2014 China Academic Journal Electronic Publishing House. All rights reserved. htto:/2102014.50(8)Computer Engineering and Applications计算机工程与应用退、左转、右转、停止”。实验选取10个不同的人进行测 试先分别对每人采集5组训练样
22、本进行训练训练后 再进行5组i吾音命令测试。识别次数为1 250(10x5x 25)次。表 1、表 2 表示了 Sakoe DTW算法、Itakura DTW"算法利本文中的NA-DTW算法在识别率和运行 时间上的对比结果。其屮系统运行时间定义为每个识 别於词与一组参考模板比对一次的时间。识别率结果後(%)测试人Sakoe DTWItakura DTWNA-DTW193.684.00100.00299.288.00100.00396.896.0099.20499.292.00100.00599.298.40100.0069&496.8099.20790.487.20100.0
23、0896.088.90100.0099&499.00100.001094.490.4099.20平均值96.692.0799.76表2运行时间结果ms测试人Sakoe DTWItakura DTWNA-DTW13131251472354158176331211815643742182285750344344640621820875002502508562282344971831434410406220218平均值469225241通过衣1实验结果可知,在识别率i:.ltaRura DTW 算法的识别率眾低因为路径限制条件会引起识別率下 降NA-DTWH法与Sakoe DTW算法相比识别
24、率提 高了 3.16% 传统的Sakoe DTW算法采用随机选取参 浙模版的方法山于语音信号具右随机性每次发芦长 短、i吾调都会右一定程度的走界随机选取就会造成参 考模板的不稳定影响识别率 但在改进算法屮通过 多次采集模板数据,采用归一化平均算法减小了参考模 板随机选取时的不稳定W素仃效提高了识别率 在运 算速度h.NA-DTW算法运行时间比Sakoe DTW算法 缩短了 228 ms,-Wltakura DTW 算法只相羞了 16 ms. 实验验证了采用归一化平均算法后,不仅保障系统的运 行速度同时解决了由路径限制带來的识别率下降问 题识别性能明显优于前两种算法。6总结将自动定位系统引入内窥
25、镜手术屮可为手术提供 更加楮确利稳定的操作环境同时将语音识别技术引入 定位系统屮可为内窥镜手术提供更加智能化的操作方 式为保证乎术的安全性,系统必须满足特定人、高识别 率、实时性的条件 本文提出了NA-DTW算法该算法 通过少呈的参考样本获得一组赧优参考模板,与其他识 别算法相比训练方法简单.需要的训练样本少 同时解 决了山路径限制带來的识別率下降问题在提高识别率 的悄况下保i正了算法在嵌入式系统中的实时实现参考文献:1 Schuller B. Can S, Feussner H.et al.Speech control in sirgery: a field analysis and $trategies(C/Proc ICME. 2009:1214-1217.2 Zhang Yuxin.Miyanaga Y.An improved dynamic time warping algorithm employing nonlinear median filteringC IEEE Conferences on Communications and Information Technologies( ISCIT).H angzhou.2011 : 439-442. Zaha
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 44709-2024旅游景区雷电灾害防御技术规范
- 铝业加工厂二零二四年租赁合同
- 三峡课文的知识课件
- 轮胎企业市场营销策划与实施合同(二零二四年度)
- 全新集体合同模板
- 2024版艺术品交易居间协议3篇
- 2024年度原材料采购长期供货协议3篇
- 介绍英国汽车课件
- 化工原理实验下:吸收实验511
- 人教版九年级化学第一单元复习课件
- 概率论与数理统计10大案例
- 六人英语话剧《三打白骨精》剧本
- 食品安全法-食品安全法基本内容课件
- 胎心监护及判读-课件
- CJT121再生树脂复合材料检查井盖
- 油菜人工割晒一机械脱粒收获技术
- 2023年重庆市旅游业统计公报要点
- 789乘法练习题【模板】
- 真菌性脓毒症诊治对策
- 纺织非遗:让世界读懂中国之美智慧树知到答案章节测试2023年天津工业大学
- GB/T 8905-2012六氟化硫电气设备中气体管理和检测导则
评论
0/150
提交评论