一种基于AI的全媒体灾情受理系统设计方案范文_第1页
一种基于AI的全媒体灾情受理系统设计方案范文_第2页
一种基于AI的全媒体灾情受理系统设计方案范文_第3页
一种基于AI的全媒体灾情受理系统设计方案范文_第4页
一种基于AI的全媒体灾情受理系统设计方案范文_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一种基于AI的全媒体灾情受理系统设计方案范文打开文本图片集摘要:灾情受理是消防救援队伍灭火救援行动的首要步环节,关系着救援行动的成败和群众生命的安危。然而,在实际接警中,由于单纯语音沟通的局限性和表达描述的口头性,灾情定位和事故类型等关键要素需要反复确认任然极易出现偏差,导致调派效率低下,装备力量不准,甚至贻误战机,严重威胁到国家与人民群众的生命财产安全。本文基于AI语音语义识别、AI文本转换优化的关键信息智能提取等多种技术,提出一种新型智能化灾情受理系统的设计方案。关键词:AI;全媒体;灾情受理系统Keyword: AI;Allthemedia;Diateracceptanceytem1刖言

2、现如今,人工智能技术的飞速发展,在各种行业都有应用,基于AI语音语义识别,文本转换等技术有效的提取信息,能减少或避免传统的灾情受理靠成延误或无效接警。2总体目标3研究内容3、1AI语音语义识别:包括以语言学、计算机语言等学科为背景的,对自然语言进行词语解析、信息抽取、时间因果、情绪判断等等技术处理,最终达到让计算机“懂人类的语言的自然语言认知,以及把计算机数据转化为自然语言的自然语言生成。词语解析与信息抽取:包括分词、词性标注、命名实体识别和词义消歧,从给定文本中抽取重要的信息。句法解析与语篇理解:对篇章结构的一系列连续的子句、句子和语段间一定层次结构和语义关系的分析,包括时间、事件、因果关系

3、等,甚至于文本所携带的情绪识别。自然语言生成:从结构化数据中以可读地方式自动生成文本的过程。包括三个阶段:文本规划完成结构化数据中基础内容的规划、语句规划从结构化数据中组合语句,来表达信息流、实现产生语法通顺的语句来表达文。词典、数据集、语料库、知识图谱,以及外部世界常识性知识等都是语义识别算法模型的基础。模式匹配部是语音识别系统的关键组成部分,它一般采用“基于模式匹配方式的语音识别技术或者采用“基于统计模型方式的语音识别技术。前者主要是指“动态时间规整DTW法,后者主要是指“隐马尔可夫HMM 法。隐马尔可夫模型HMM是语音信号处理中的一种统计模型,是由Markov 演变来的,所以它是基于参数

4、模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本,且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出,因此是较理想的语音识别模型。动态时间归整算法:在孤立词语音识别中,最为简单有效的方法是采用DTW DynamicTimeWarping,动态时间归整算法,该算法基于动态规划DP的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法,用于孤立词识别。HMM算法在训练阶段需要提供大量的语音数据,通过反复计算才能得到模型参数,而DTW算法的训练中几乎不需

5、要额外的计算。所以在孤立词语音识别中,DTW算法仍然得到广泛的应用。3、2AI文字文本转换:Ocr:光学字符识别(英语:OpticalCharacterRecognition)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。将彩色图像中的三分量的亮度作为三个灰度图像的灰度值,可根据应用需要选取一种灰度图像。根据重要性及其它指标,将三个分量以不同的权值进行加权平均。由于人眼对绿色的敏感最高,对蓝色敏感最低,因此,按下式对RGB三分量进行加权平均能得到较合理的灰度图像。F (i, j) =0。30R (i, j

6、) +0。59G (i, j) +0。11B (i, j)(1)对图像进行二值化处理。图像的二值化处理就是将图像上的点的灰度置为0或255,也就是将整个图像呈现出明显的黑白效果。即将256个亮度等级的灰度图像通过适当的阈值选取而获得仍然可以反映图像整体和局部特征的二值化图像。在数字图像处理中,二值图像占有非常重要的地位,特别是在实用的图像处理中,以二值图像处理实现而构成的系统是很多的,要进行二值图像的处理与分析,首先要把灰度图像二值化,得到二值化圃像,这样子有利于在对图像做进一步处理时,图像的集合性质只与像素值为0或255的点的位置有关,不再涉及像素的多级值,使处理变得简单,而且数据的处理和压

7、缩量小。为了得到理想的二值图像,一般采用封闭、连通的边界定义不交叠的区域。所有灰度大于或等于阈值的像素被判定为属于特定物体,其灰度值为255表示,否则这些像素点被排除在物体区域以外,灰度值为0,表示背景或者例外的物体区域。如果特定物体在内部有均匀一致的灰度值,并且其处在一个具有其他等级灰度值的均匀背景下,使用阈值法就可以得到比较的分割效果。如果物体同背景的差别表现不在灰度值上比如纹理不同,可以将这个差别特征转换为灰度的差别,然后利用阈值选取技术来分割该图像。2对图像进行腐蚀处理原理。特征提取和降维:特征是用来识别文字的关键信息,每个不同的文字都能通过特征来和其他文字进行区分。对于数字和英文字母

8、来说,这个特征提取是比较容易的,因为数字只有10个,英文字母只有52个,都是小字符集。对于汉字来说,特征提取比较困难,因为首先汉字是大字符集,国标中光是最常用的第一级汉字就有3755个;第二个汉字结构复杂,形近字多。在确定了使用何种特征后,视情况而定,还有可能要进行特征降维,这种情况就是如果特征的维数太高特征一般用一个向量表示,维数即该向量的分量数,分类器的效率会受到很大的影响,为了提高识别速率,往往就要进行降维,这个过程也很重要,既要降低维数吧,又得使得减少维数后的特征向量还保留了足够的信息量以区分不同的文字。分类器设计、训练和实际识别:分类器是用来进行识别的,就是对于第二步,对一个文字图像

9、,提取出特征给,丢给分类器,分类器就对其进行分类,告诉你这个特征该识别成哪个文字。3、3智能灾情分析和出警信息调度。终端设备采集数据信息,对历史出警数据快速分析,以找到最有效的出警调度信息。3、4精确定位。GPS+北斗+基站定位+WiFi的混合定位模式进行定位,以达到更准确的定位。4技术路线4、1MFCC提取一般流程。预滤波:CODEC前端带宽为300-3400Hz的抗混叠滤波器。A、D变换:8kHz的采样频率,12bit的线性量化精度。预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中

10、选取的语音帧长为32m,帧叠为16m。加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响。快速傅立叶变换(FatFourierTranformation, FFT):将时域信号变换成为信号的功率谱。三角窗滤波:用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应。求对数:三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。离散余弦变换(DicreteCoineTranformation, DCT):去除各维信号之间的相关性,将信号映射到低维空间。谱加权:由于倒谱的低阶参

11、数易受说话人特性、信道特性等的影响,而高阶参数的分辨能力比较低,所以需要进行谱加权,抑制其低阶和高阶参数。倒谱均值减(CeptrumMeanSubtraction, CMS): CMS可以有效地减小语音输入信道对特征参数的影响。差分参数:大量实验表明,在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能。在本系统中,我们也用到了 MFCC参数的一阶差分参数和二阶差分参数。短时能量:语音的短时能量也是重要的特征参数,本系统中我们采用了语音的短时归一化对数能量及其一阶差分、二阶差分参数。4、2模式匹配和语言处理。通过语音特征分析以后接下来就是模式匹配和语言处理。声学模型是识别系统的底

12、层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计

13、语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。语音识别过程实际上是一种认识过程。就像人们听语音时,并不把语音和语言的语法结构、语义结构分开来,因为当语音发音模糊时人们可以用这些知识来指导对语言的理解过程,但是对机器来说,识别系统也要利用这些方面的知识,只是如何有效地描述这些语法和语义还有困难:小词汇量语音识别系统。通常包括几十个词的语音识别系统。中等词汇量的语音识别系统。通常包括几百个词至上千个词的识别系统。大词汇量语音识别系统。通常包括几千至几万个词的语音识别系统。这些不同的限制也确定了语音识别系统的

14、困难度。模式匹配部是语音识别系统的关键组成部分,它一般采用“基于模式匹配方式的语音识别技术或者采用“基于统计模型方式的语音识别技术。5实施方案以下所述包括前端AI云端引擎服务、地图定位服务、AI前端信息采集系统,三个主要部分组成;所述前端AI信息采集系统通过retful接口与AI研判引擎系统相连接,将自动化采集到的信息发送引擎进行处理;所述AI研判引擎系统通过retful接口与后台AI云端引擎服务相连接,将灾情处理的研判结果发送调度系统,辅助调度人员的灾情研判。本发明结合AI技术,利用计算机视觉处理、声音识别对报警信息自动化采集、处理,实现信关键信息,报警信息传送后计算机系统自动化辅助分析判断

15、,极大地提高灾情受理的及时性、便捷性与处置效率。5、1AI云端引擎服务开发开发Ai调试引擎服务,监控文本和语音服务,将音频或文字交附给对对应的AI语音服务和AI文本服务。对应的服务快速提取关键信息并迅速反馈。目前市场语音语义解析产品解决方案AIUI, AIUI是科大讯飞推出的一套以语音为核心的人机交互解决方案,意在使应用和设备能够快速具备能听会说,能理解会思考的能力。支持语音唤醒,高唤醒率,低配置需求,低功耗。支持语音识别:识别结果响应时间低于200m,支持中文、英文、粤语、四川话等,依托机器学习和积累的海量数据,识别复杂主义,作出精准响应。构建文字检测和识别服务可以考虑OpenCV。Open

16、CV是一个基于BSD许可开源发行的跨平台计算机视觉库,可以运行在Linu、Window、Android和MacOS操作系统上。它轻量级而且高效,由一系列C函数和少量C+类构成,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。文字检测:OpenCV的文字检测模块tetDetectorCNN中使用了 TetBoe:具有单个深度神经网络的快速文本检测器链接地址为:文字识别:OCRHoliticWordRecognizer类提供了分段词语的功能。给定预定义的词汇表,使用DictNet来选择给定输入图像的最可能的词。5、2地图定位服务。定位SDK通过GPS+基站定位+WiFi的混合定位模式进行定位

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论