人工智能技术 课件 16NLP自然语言处理、17语音中的噪声_第1页
人工智能技术 课件 16NLP自然语言处理、17语音中的噪声_第2页
人工智能技术 课件 16NLP自然语言处理、17语音中的噪声_第3页
人工智能技术 课件 16NLP自然语言处理、17语音中的噪声_第4页
人工智能技术 课件 16NLP自然语言处理、17语音中的噪声_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

理处言语然自NLP目录/Contents0405NLP算法设计文本数据标注管理与质量检验010203语言的形态中文分词原理统计语言模型01语言的形态NLP(NaturalLanguageProcessing)是人工智能(AI)的一个子领域语言形态学又称“词汇形态学”或“词法”,是语言学的一个分支,研究词的内部结构,包括屈折变化和构词法两个部分。由于词具有语音特征、句法特征和语义特征,形态学处于音位学、句法学合格语义学的结合部位,所以形态学是每个语言学家都要关注的一门学科。一、语言的形态分类(一)语言的形态-概念一、语言的形态分类(二)语言的形态-分类1.孤立语2.屈折语3.黏着语4.多式综合语(三)自然语言与编程语言的区别1.词汇量2.结构化3.歧义性4.容错性5.易变性6.简略性02中文分词原理分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。二、中文分词原理(一)分词的概念1.未登录词(训练过程中从未出现过的词)的识别由于个性化词汇的存在以及新词再生能力强,不存在一个词表能收录所有的词汇,比如“周星是一个勤奋且有天赋的程序员”,这里的“周星”是个人名,应当作为一个词,但是很可能计算机的词库中没有“周星”,因此会切分成“周/星/是/一个/勤奋/且/有/天赋/的/程序员”。2.词的界限没有统一标准比如“重庆电子工程职业学院”可以看作一个词语,也可以看作三个词语:“重庆/电子工程/职业学院”,因此很多中文词汇本身存在分词歧义性。3.切词产生歧义比如“乒乓球拍卖完了”可以切分为“乒乓球拍/卖/完了”或者“乒乓球/拍卖/完了”,这两句话在语法上都逻辑正确,但是需要一定的生活常识或者联系上下文才能断定到底哪种分词模式更正确。二、中文分词原理(二)中文分词的难点1.机械分词法2.基于N-gram的分词法3.基于隐马尔可夫模型(HiddenMarkovModel,HMM)的分词法4.基于条件随机场(ConditionalRandomField,CRF)的分词法5.基于深度学习的分词法二、中文分词原理(三)常见中文分词方法在实际应用中,很多工具都提供了现成的中文分词功能。1.StanfordCoreNLP:是由斯坦福大学研发的自然语言处理工具,其中提供了中文分词接口。2.Hanlp:由大快搜索主导开发,包含了一系列自然语言操作。3.THULAC:由清华大学研发的具有中文词汇分析功能的自然语言处理工具。4.SnowNLP:是用于中文自然语言处理的工具,主要用于分词、情感分析等。5.Jieba:是一个专门针对中文分词的应用工具,提供了多种分词模式,包括全模式、精确模式、搜索引擎模式,还可以加入自定义的词汇以修正分词效果。全模式会将语句所有可以组合的词都分出来,精确模式只是将语句进行正常分词,而搜索模式则在精确模式的基础上,对长词再次划分。二、中文分词原理(四)常见中文分词工具03统计语言模型统计语言模型是自然语言处理(NaturalLanguageProcessing,NLP)的基础模型,是从概率统计角度出发,解决自然语言上下文相关的特性的数学模型。统计语言模型的核心就是判断一个句子在文本中出现的概率。三、统计语言模型(一)概念三、统计语言模型(二)模型三、统计语言模型(三)参数计算04NLP算法设计完全切分:完全切分指的是,找出一段文本中所有单词,无论这个词在这个句子中是否是一个词。朴素的完全切分算法的实现逻辑,是遍历文本中所有的连续序列,并查询该序列是否存在于词典中。四、NLP算法设计(一)切分算法正向最长正向最大匹配(MaximumMatchMethod,MM法)的基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理。如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文档被扫描完为止。四、NLP算法设计(二)正向最长正向最大匹配逆向最大匹配(ReverseMaximumMatchMethod,RMM法)的基本原理与MM法相同,不同的是分词切分的方向与MM法相反。逆向最大匹配法从被处理文档的末端开始匹配扫描,每次取最末端的i个字符(i为词典中最长词数)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。相应地,它使用的分词词典是逆序词典,其中的每个词条都将按逆序方式存放。四、NLP算法设计(三)逆向最长匹配双向最大匹配法(Bi-directctionMatchingmethod)是将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较,然后按照最大匹配原则,选取词数切分最少的作为结果。据SunM.S.和BenjaminK.T.(1995)的研究表明,中文中90.0%左右的句子,正向最大匹配法和逆向最大匹配法完全重合且正确,只有大概9.0%的句子两种切分方法得到的结果不一样,但其中必有一个是正确的(歧义检测成功),只有不到1.0%的句子,使用正向最大匹配法和逆向最大匹配法的切分虽重合却是错的,或者正向最大匹配法和逆向最大匹配法切分不同但两个都不对(歧义检测失败)。这正是双向最大匹配法在实用中文信息处理系统中得以广泛使用的原因。四、NLP算法设计(四)双向最长匹配05文本数据标注管理与质量检验文本数据标注分类(1)数据标注定义数据标注是通过数据加工人员借助类似于BasicFinder这样的标记工具,对人工智能学习数据进行加工的一种行为。通常数据标注的类型包括:图像标注、语音标注、文本标注、视频标注等种类。标记的基本形式有:标注画框、3D画框、文本转录、图像打点、目标物体轮廓线等。文本数据标注分类(2)文本数据标注主要类型情绪标注意图标注语义标注命名实体标注文本数据标注分类(3)文本数据标注方法文本分类标注1、对文本阅读后直接判别2、对文本进行关键词提取文本抽取标注对非结构化的文本内容中所需要的信息字段进行提取关键点:一定要标注正确文本数据标注分类(4)文本数据标注过程3、过程管理:一方面需要进行多层的质量控制,另一方面需要对标注工具进行优化,如果是平台,就优化平台使用的流畅度,如果是表格,就根据标注任务的特征想办法减少这项标注任务中浪费掉的时间。1、数据清洗:先做一个数据库,将数据导入到数据库中,输入所需要的内容的相关关键词词库。例如我要从海量的微博数据中查找游戏行业的微博,我们将现有的所有数据导入到数据中,再将游戏行业相关的关键词词库输入,从数据库中搜索出来需要的微博段落。然后开始人工进行标注。2、数据标注:现在我们开始进行人工标注,对分类出来的语料导出到标注平台或者excel中,制定标注规则,标注员按照规则对数据进行标注。文本数据标注应用(1)文本数据标注平台京东众智百度众测figure-eight文本数据标注应用文本的标注应用的行业有:客服、舆情、医疗、教育,应用类型大概有语义识别、情绪识别、实体识别、场景识别、数据清洗、应答识别。(2)文本数据标注应用客服行业的标注主要集中在场景识别和应答识别这两块,以国内某知名电商的智能客服机器人为例。一句话的在机器里的经历文本数据标注应用(2)文本数据标注应用在建立这个应答体系的初期,需要对海量的用户咨询语料进行分类,把对应的用户咨询的问题标记号,放进对应的模型中(其他应答类机器人同理),类似于这样:例举的语料的分类文本数据标注应用(2)文本数据标注应用客服类分类标注举例标注的方式主要有线上平台标注和线下表格标注两种,根据企业自身情况有所不同,以金融行业某企业的标注的线下表格标注内容举例:文本数据标注应用(2)文本数据标注应用医疗行业的自然语言处理标注医疗标注举例这样标注的目的在于让机器去识别病历中的每一个词,通过大量的数据标注之后机器能够认识到一个词有哪些属性,在句子中扮演什么角色,在这个语境情况下这个词扮演什么角色,并且教会机器去拆词,识别哪些词是有用的,哪些词是无用的。文本数据标注质量标准

多音字标注:标注全部读音,包括方言发音,因此质量检验时需要借助专业性工具

语义标注:标注词语或句子的寓意,在检验中分为以下三种情况:针对单独词语或语句进行检验针对上下文的情景环境进行检验针对语音数据中的语音语调进行检验语义标注质检除了借助专业性工具外,还要对上下文的情景环境及语音语调进行理解文本数据标注质量标准保证文本数据质量1、提升标注员素质目前的数据标注行业仍然是劳动密集型行业,人力在其中扮演者着至关重要的角色。2、规范标注流程规范标注流程,建立实时筛查体系。3、使用高质量的标注工具AI预标注技术可以在很大程度上避免纯人工标注过程中出现的各种问题,提升标注效率与准确率。文本数据标注质量检验方法1、实时检验实时检验是现场检验和流动检验的一种方式,一般安排在数据标注任务进行过程中。①实时检验方法的优点:能及时发现问题并解决问题能够有效减少标注过程中重复错误的重复出现能够保证整体标注任务的流畅性能够实时掌握数据标注的任务进度②实时检验方法的缺点:对人员的配备及管理要求较高一般1质检员负责实时检验5~10名标注员③检查内容:标注员的标注方法熟练度准确度检查时间点为标注员完成一个阶段的标注任务后(数据集分段标注)实时检验流程文本数据标注质量检验方法2、全样检验全样检验是标注任务交付前必不可少的过程数据标注员已完成标注数据质检员全样检查是否合格已合格数据集不合格,返工①全样检验的优点:能够对数据集做到无遗漏检验可以对数据集进行准确率评估②全样检验的缺点:需要耗费大量的人力精力集中进行全样检验流程文本数据标注质量检验方法3、抽样检验抽样检验是产品生产中一种辅助性检验方法,将抽样检验方式进行叠加,形成多重抽样检验方法。此方法可以辅助实时检验或全样检验,具体如下:辅助实时检验适用情况:出现在数据标注任务需要采用实时检验,但质检员和标注员比例失衡,标注员过多的情况。方法:全样合格就抽样(减少50%),抽样合格就继续减少50%,不合格就全样文本数据标注质量检验方法辅助全样检验使用情况:主要作用是减少全样检验中的疏漏方法:全样合格后,进行抽样,抽样合格就减半,不合格就加倍。多轮抽样均不合格,需要重新全样,多轮抽样没有或只有一轮不合格,就认定为合格,仅需改正抽样发现的不合格标注即可①多重抽样检验方法的优点:能合理调配质检员的工作重心有效地弥补其他检验方法的疏漏提高数据标注质量检验的正确性②多重抽样加纳方法的缺点:只能辅助其他检验方法,如果单独实施,会出现疏漏听聆谢谢的中音语噪声目录概述语音特性及噪声特性噪声处理技术content010203代码案例04概述01概述(1)语音即语言的物质外壳,是语言的外部形式,是最直接地记录人的思维活动的符号体系。语音作为一种搭载着特定的信息模拟信号,已成为人们社会生活中获取信息和传播信息的重要的手段。概述(2)语音信号

语音信号产生的时域模型语音信号的数字模型由三个部分组成:激励模型、声道模型、辐射模型。激励模型:发浊音时声带的不断开启和关闭将产生间歇的脉冲波。声道模型:声道部分的数学模型目前有两种观点,一种是将声道视为多个不同截面积的管子串联而形成的系统,即“声管模型”,另一种是将声道视为一个谐振腔,即“共振峰模型”。辐射模型:辐射模型表征口和唇的辐射效应和圆形头部的绕射效应。概述语音信号作为信息的最普遍最直接的表达方式,在许多领域具有广泛的应用前景。现实生活中的语音不可避免的要受到环境的影响,随即产生噪声。噪声是指一切干扰正常信号特征的信号,即信号中不需要的特征。(3)语音噪声语音特性及噪声特性02语音特性及噪声特性(1)语音特性语音信号是一种非平稳的随机信号。任何语言的语音都有元音和辅音两种音素,根据发音机理的不同,辅音又可以分为清辅音和浊辅音。语音信号,作为非平稳、非遍历随机过程的样本函数,其短时谱的统计特性在语音增强中又有着举足轻重的作用(据中心极限定理,语音的短时谱的统计特性服从高斯分布)。(2)语音噪声特性及分类噪声统计特性随时间变化的程度缓变噪声平稳噪声宽带噪声噪声对语音频谱的干扰方式加性噪声乘性噪声语音特性及噪声特性对噪声进行划分的标准很多,各种分类方法分析角度不同,介绍一下下面两种分类方法:语音特性及噪声特性(2)语音噪声特性及分类根据噪声统计特性随时间变化的程度:缓变噪声是在实际场合经常遇到的噪声,这种噪声的统计特性会随时间缓慢变化。人群噪声是典型的缓变噪声。平稳噪声平稳噪声是指噪声的统计特性不随时间发生变化。由于噪声源的复杂性,在日常生活中所遇到的噪声大多不是平稳的,但对平稳噪声的研究确是重要的基础。冲击噪声呈突发状,常由外界因素引起;其噪声幅度可能相当大,无法靠提高信噪比来避免,是传输中的主要差错。语音特性及噪声特性(2)语音噪声特性及分类根据噪声对语音频谱的干扰方式:加性噪声:当噪声对语音的千扰表现为两者信号在时域进行相加时该噪声被称为加性噪声,显然噪声和语音在频域也为相加关系。例:冲激噪声、周期噪声、宽带噪声、语音干扰乘性噪声:乘性噪声是指噪声和语音在频谱是相乘的关系在时域和语音则是卷积的关系。例残响及传输网络的电路噪声(非加性噪声往往可以通过某种变换,如同态滤波,转为加性噪声)语音特性及噪声特性(3)语音信号与噪音信号的区别噪声处理技术03噪声处理技术(1)语音增强通过语音增强技术来改善语音质量的过程:语音增强的主要目的是从带噪的语音信号中尽可能地恢复出纯净的语音信号。主要介绍下面两种增强方法:减谱法Weiner滤波法噪声处理技术(1)语音增强减谱法(SS)语音增强技术减谱法是处理宽带噪声较为传统和有效的方法。其基本思想是在假定加性噪声与短时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为纯净的语音频谱。如果设是s(t)为纯净语音信号,n(t)为噪声信号,y(t)为带噪语音信号,则有:

用Y(ω)、S(ω)、N(ω)分别表示y(t)、s(t)、n(t)的傅里叶变换,则可得:

由于假定语音信号与加性噪声是相互独立的,因此有:

因此,如果用Py(ω)、Ps(ω)、Pn(ω)分别表示y(t)、s(t)、n(t)的功率谱,则有:

而由于平稳噪声的功率谱在发声前和发声期间可以认为基本没有变化,这样可以通过发声前的所谓的“寂静段”(认为在这一段里没有语音只有噪声)来估计噪声的功率谱Pn(ω),从而有:

噪声处理技术(1)语音增强

减谱法语音增强技术的基本原理图如图所示:图中所示的频域处理过程中只考虑了功率谱的变换,而最后IFFT(快速傅里叶反变换)需要借助相位谱来恢复降噪后的语音时域信号。依据人耳对相位变化不敏感这一特点,这时可用原带噪声语音信号的相位谱来代替估计之后的语音信号y(t)的相位谱来恢复降噪后的语音时域信号。噪声处理技术(1)语音增强本质是使估计误差(定义为期望响应与滤波器实际输出之差)均方值最小化。Weiner滤波法(1)有限长滤波器

对于一列输入信号x,一般的无限长线性滤波器输出为:y(n)=Σh(m)x(n-m)m=0…ꝏ实际中,滤波器的长度,即阶数是有限长的,设为M,则有:y(n)=Σh(m)x(n-m)m=0…M即滤波器的当前时刻输出为前M个时刻的值经过加权之后得到的。

为便于书写与理解,上式可以写为矩阵形式:y(n)=H(m)*X(n)如果期望信号d已知,则可以计算输出与期望信号之间的误差:e(n)=d(n)-y(n)=d(n)-H(m)*X(n)m=0…MWiener滤波的目标就是,如何确定一个长为M的系数序列H,使得上述误差值最小。算法原理:噪声处理技术(1)语音增强(2)最小均方误差滤波

根据目标函数的不同,又可以将滤波算法细分为不同的类别,一般来说有最小均方误差,最小二乘误差等等,这里只讨论最小均方误差。

令目标函数为:MinE[e(n)^2]=E[(d(n)-H(m)*X(n))^2]当滤波器的系数最优时,目标函数对系数的倒数应该为0,即:dE[e(n)^2]/dH=02E[(d(n)-H(m)X(n))]

X(n)=0E[(d(n)X(n))-H(m)E[X(n)X(n)]=0根据随机过程的知识,上式可以表达为:Rxd-H*Rxx=0其中Rxd与Rxx分别为输入信号与期望信号的相关矩阵与输入信号的自相关矩阵。

从而有:H=Rxx-1*Rxd噪声处理技术(2)特征补偿技术主要通过信号的统计特性将带噪语音特征参数中的噪声部分去除,消除噪声影响,得到干净的语音特征参数以进行语音系统处理。该方法包括CDCN、SDCN

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论