面向电力行业的语音语料库设计与构建_第1页
面向电力行业的语音语料库设计与构建_第2页
面向电力行业的语音语料库设计与构建_第3页
面向电力行业的语音语料库设计与构建_第4页
面向电力行业的语音语料库设计与构建_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    面向电力行业的语音语料库设计与构建    于安迎刘中涛项鸿雁高玉领卢凤摘 要:为增强语音识别技术在不同行业的应用,需要针对不同行业建设相应的语料库。目前,中文语料库构建尚处于起始阶段,以thchs-30语料库为代表的大众新闻语料初步投入应用。本文面向电力行业设计、构建电力行业语音语料,提出电力行业语料库设计规范并建立电力行业初级语料库,填补电力行业中文语料库的空白。本文分别实现语料音频录制和文本语料构成规范分析,完成包括发音、录制及存储等的录制和包括语料及词典的编制规范。采用音频标注技术,完成长音频切分以及短语料标注,实现文字和音素的两层级标注,

2、建立电力音频标注规范。最后对语料库进行准确度测试,语料标注平均准确率为99.75%,满足语料库应用需求。关键词:电力行业;语料库;语音标注;词库:tp391.1 :a :1671-2064(2018)16-0148-031 概述随着人工智能(ai, artificial intelligence)技术1的推广和深入,以带电作业机器人、ai控制器为代表的一批智能产品已率先进入电力行业,并发挥了极大的效用。因此,将人工智能技术与电力、能源等行业相结合,促进传统行业的转型升级,是研究人员重点关注的领域之一。语音作为人类最自然、最有效地交流方式,使得语音识别技术成为当下热门研究方向。目前,电力行业语音

3、识别应用主要集中在移动作业、语音报警和智能调度等2短语音指令交互控制的基础应用层面,鲜少研究具有电力行业特性的大规模商用级语音识别服务。运用大规模语料训練dnn、cnn语音识别模型是现阶段实现较高语音识别率的有效方法之一,那么构建足够大的语音语料库就至关重要。目前,开源的语音语料库大多是大众新闻3等语料为主。但该类语料库几乎不涉及电力系统相关音频和专业词汇,对电力系统的适用性较差,有较大的专业隔阂,语音识别率较低。因此本文研究分析中文语料库构建现状和电力行业语料特点,提出面向电力行业的语音语料库设计方案,构建包含17小时的电力行业音频语料库,为电力系统音频语料的研究提供数据支持。2 中文语料库

4、构建分析如今语音识别技术已经广泛应用于各行各业,车载语音、语音助手等产品也已较为成熟。但是,绝大部分研究机构尚不具备大规模商用级中文语料库,这就制约了语音识别技术的深入研究和推广。目前,中文语料库构建尚处于起始阶段:2016年清华大学语音与语言研究中心开源了thchs-30语料库4,该语料库由40人完成录制,时长约30小时;2017年北京希尔贝壳科技有限公司开源了aishell -asr0009-os1语料库5,该语料库录制时长178小时,由400名来自中国不同口音区域的发言人参与录制。随着智能家居等系列语音产品的上线,其对应领域语料库也随之更新。清华大学的thchs-30语料库由大众新闻语料

5、构成。与thchs-30语料库相比,北京希尔贝壳科技有限公司的aishell-asr0009-os1语料库行业覆盖虽然更为广泛,由50万条常用语料构成,但是涉及领域也以智能家居、无人驾驶、工业生产等语音识别产品覆盖领域为主。因此,现有中文语料库开源资源较为有限,数据量较少。且语料库文本大多集中在新闻类语料、经济、科技等常见语料,对特定专业领域语料覆盖较少或基本无覆盖。因此,构建适用于某一特定行业的专用语料库,对丰富现有中文语料库具有重要意义。本文面向电力行业,综合考虑电力行业语料特点,设计、构建电力行业专用语料库,实现科技进步与传统行业的有效结合,对促进电力行业语音识别等技术的推广具有重要的意

6、义。3 语料库构建现有开源中文语料库基本不包括电力行业通用语料,并且电力行业语料库研究大多集中在电力客服情感分析以及电力英文语料的构建上6。本文提出一套电力行业语料库设计规范,构建17小时面向电力行业语音识别的语音语料库,填补了电力行业语料库的空白。分别从音频语料录制、文本语料设计及音频标注阐述语料库设计规范。3.1 音频语料录制3.1.1 录音规范面向电力行业的语音语料库由17小时多通道中文普通话音频语料构成。由12名来自不同口音区域发音人录制。其中,男性发音人有7人,女性发音人5人。录制过程中保持安静的室内环境,采用高保真麦克风(44.1khz,16bit)采集音频。语音语料库设定音频频率

7、为16khz,16bit wav格式录音,满足音频识别应用主流设置。发音人和麦克风距离保持在30cm左右,保证语音采集清晰、不失真。3.1.2 数据集语料库数据集有训练集、开发集和测试集构成。训练集由8人录制10511条电力行业语料构成,录制时长约为13.5小时。开发集由2人录制1459条语料构成,录制时长约为2小时。测试集由2人录制1030条语料构成,测试音频语料约为1.5小时。语料库数据结构如表1所示。3.2 文本语料设计3.2.1 语料规范面向电力行业的语料库文本覆盖电力发电、电网输配电及电能消耗等电力生产、应用具体环节,由1.3万条电力行业各个环节常用语料构成,文本语料信息如表2所示。

8、本语料库对电力行业中涉及数字、单位、特殊符号等进行了处理,均以汉字进行描述,如“1kv”的汉字表述为“一千伏”。3.2.2 专用词库构建本文在实现构建电力行业的语料库基础上,完成对电力行业语料的自然语言处理实现语料分词,生成电力行业专用词典7。该词典由1.3万条语料分析提取而成,电力词汇覆盖发电、输电、配电和用电等电力系统主要应用场景。本文首先采用自然语言处理技术实现对1电力语料的分词处理,得到常用电力词汇约1.2万个,基本覆盖电力行业日常用词。为保证电力行业专用词典的通用性、增强对通用音频词汇的匹配度,本文对电力行业专用词库新增13万个通用领域常用词,提高词库适用性。同时,本文采用音素标注技

9、术,完成词语发音音素的标注处理。通过音素标注实现对音频信号、音素和文字词汇的准确匹配,为语音识别训练和解码8提供基础数据。3.3 语料库标注语音标注是语料库构建的重要环节。为了有效避免发音人机械式表达,保证电力系统采集音频表达连续性和发音人状态自然有效,本语料库采取对长文本统一录音,再按语义结构进行切分、标注的方法,保证录制语料流畅、自然。本文采用中文拼音和音素9相结合的方式,运用开源软件praat实现多层级音频有效标注。最大程度反应发音人讲话状态,保留语气词、叹气、咳声等多种录音信息。对发音人录制的长达半小时或一小时以上的长音频首先运用praat工具10,按语义进行语句切分。设置语音标注te

10、xtgrid为一层,即标注出每条音频对应文字内容。然后,通过编写超长音频切分脚本,对标注音频进行批处理切分。最终得到以语句为单位,长度约为3s10s的标准wav音频。超长音频标注结果如图1所示。4 测试结果为保证语料库的正确性,本文随机抽取1000条测试語料,对语音切分及标注的准确性进行测试。对测试语料原文利用自然语言处理技术进行分词处理,以词语为单位计算语音标注的准确度。通过测试得出电力行业语料库准确率约为99.75%,满足语料库应用需求,如表3所示为部分测试结果。5 结语本文面向电力行业完成电力行业语音语料库的设计和构建,提出电力行业语音标注规范。通过对现有中文语料库的分析,分析构建电力行

11、业语料库的必要性。在对电力行业语料特点进行分析后,介绍音频语料录制及文本语料录制和采集规则。从超长音频切分和短语料标注阐述语音标注实现方法。电力行业语料库的构建从一定程度上丰富了电力行业音频数据库,为电力行业语音识别的深入研究提供了真实数据。在研究过程中发现,本语料库与其他语料库相比,录制音频相对较少,下一步将继续丰富电力行业语料库数据。参考文献1郑南宁.人工智能面临的挑战j.自动化学报,2016,(05):641-642.2杨朴,游大海.电力系统中的语音应用技术研究j.计算机仿真,2004,21(03):91-93.3蒋泰,张林军.语音识别自适应算法在智能家居中的应用j.计算机系统应用,20

12、17,26(03):150-155.4dong wang, xuewei zhang. thchs-30: a free chinese speech corpusc. cslt technical report-20150016 2016.02.5hui bu, jiayu du, xingyu na, bengu wu, hao zheng. aishell-1: an open-source mandarin soeech corpus and a speech recognition baseline. in proc. oriental cocosda,2017.6奚雪峰,褚晓敏,孙庆英.汉语篇章微观话题结构建模与语料库构建j.计算机研究与发展,2017,54(08):1833-1852.7杨皓东,江凌,李国俊.国内自然语言处理研究热点分析基于共词分析j.图书

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论