![《文本进行预处理的相关理论和技术综述》7900字_第1页](http://file4.renrendoc.com/view6/M03/12/09/wKhkGWdytz-AdT9SAAMI_twWDSE386.jpg)
![《文本进行预处理的相关理论和技术综述》7900字_第2页](http://file4.renrendoc.com/view6/M03/12/09/wKhkGWdytz-AdT9SAAMI_twWDSE3862.jpg)
![《文本进行预处理的相关理论和技术综述》7900字_第3页](http://file4.renrendoc.com/view6/M03/12/09/wKhkGWdytz-AdT9SAAMI_twWDSE3863.jpg)
![《文本进行预处理的相关理论和技术综述》7900字_第4页](http://file4.renrendoc.com/view6/M03/12/09/wKhkGWdytz-AdT9SAAMI_twWDSE3864.jpg)
![《文本进行预处理的相关理论和技术综述》7900字_第5页](http://file4.renrendoc.com/view6/M03/12/09/wKhkGWdytz-AdT9SAAMI_twWDSE3865.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
文本进行预处理的相关理论和技术综述目录TOC\o"1-2"\h\u3281文本进行预处理的相关理论和技术综述 1302211.1文本预处理 142761.1.1数据收集 1170501.1.2文本分词 2226641.1.3文本去噪 3164621.1.4文本特征处理 4181731.1.5文本向量化 522631.2基于情感词典的情感分类 7209341.3基于机器学习的情感分类 8232811.3.1支持向量机分类算法 895281.3.2朴素贝叶斯 1081931.3.3逻辑回归 11168911.4基于深度学习的情感分类 1119171.4.1卷积神经网络 11198021.4.2循环神经网络 12本章主要介绍本文所涉及和使用的相关理论基础,包括对文本进行预处理的相关理论和技术,基于兴趣词典的情感分类方法,基于机器学习的情感分类方法以及基于深度学习的情感分类方法。在文本预处理部分主要介绍了文本特点、数据收集、文本去噪、文本特征处理以及文本向量化所涉及的关键技术。情感分类是近年来自然语言处理领域中较为火热的研究领域,加之深度学习理论的不断发展和完善,运用深度学习的方法进行情感分类研究逐渐受到研究者的青睐。本章主要从兴趣词典方向、机器学习方向和当下深度学习背景下情感分类使用到的主要方法与相关理论,包括支持向量机、朴素贝叶斯、逻辑回归、神经网络、长短时记忆神经网络(卷积神经网络)、以及循环神经网络。1.1文本预处理文本预处理主要作用是去除一些会影响分类器性能的无用文本并将输入文本处理成可以识别的格式,而在目前自然语言处理领域中,这些步骤被划分为正则化、分词、去停用词、特征处理以及文本向量化。下面将分别介绍这些步骤涉及的基本理论及主要方法。1.1.1数据收集巧妇难为无米之炊,数据的收集工作是进行自然语言处理相关研究的首要工作,可能也会耗费相当长一段时间。获得数据集的方式无非就是两种,使用开源的数据集和自己构建数据集。在进行机器学习或深度学习任务时大概率会遇到需要自建数据集的情况。自建数据集时,通常使用爬虫的方式获取原始数据,爬虫的过程可以简述为使用技术手段获取带有目标数据的HTML原始数据,然后对HTML数据进行解析并提取出目标数据。有很多开源的爬虫工具库可供使用,如分布式爬虫框架Scrapy和解析工具BeautifulSoup库。爬取到的数据比较原始,到形成数据集还需经过多次文本处理操作。1.1.2文本分词文本分词即将语句切分成若干单元的过程,无论是基于哪种情感分类方法,都要先对语句进行一定的处理,将一句话转换为多个词语,是将自然语言转化到数学语言进行处理的必要步骤。按照分词的算法原理可以将分词算法划分为传统的词典匹配、基于概率统计的分词算法和基于语义理解的分词算法[8]。基于词典的分词方法简单粗暴,在覆盖度和灵活性上面欠佳。基于概率统计的分词算法目前使用的最为广泛,效果也很不错,如常用的jieba分词工具就是基于这种方法。基于语义理解的分词算法,就是训练具有语义理解功能的算法模型,基于模型对语句语义的理解,切分出构成语句的最小单元。Jieba分词是一个国产的优秀开源分词工具,也是目前中文环境下最优秀的分词工具之一,该分词工具基于Trie树结构来快速的构建出所有可能的词组合,并使用快速的路径查找算法寻找出现频率最高的词组合。其分词的过程可以做如下描述,jieba使用相关算法将输入字符串切分出多种可能的词序列,然后进行寻找最优的词组,数学表达如下:(1.1)计算条件概率和,然后将概率大的值作切分方案。由贝叶斯公式可得式(1.2):(1.2)在求某个切分方案中,为了使最大,首先假设每个词之间的概率上下无关,则可得式(1.3):(1.3)对于不同的s,m的值也不同,即文本中分出的词m越多,P(S)的概率越小,当多个很小的概率相乘时,会出现向下溢出变为0的情况,因此需要取单调递增函数,即如下式:(1.4)其中,,因此可得式(1.5):(1.5)1.1.3文本去噪文本去噪是找到数据集中对于情感分类无意义的信息并删除。由于情感分类技术是通过对于文本中的情感词进行情感分类的,而直接获取的文本中通常含有大量无用信息,如URL代码以及无用标签等,或者是一些无用的标点符号、无意义的助词,这些信息不属于情感词,但是对于实际情感分类却构成了干扰,所以找到这些信息并去除十分必要。文本去噪目前主要包含以下步骤,去除标点符号,去除停用词,去除URL,去除不必要的标签。其中包含的各种方法如下:去除标点符号:主要通过检测各种非空格非汉字的字符,一旦检测到便被去除,并将其用空格替换,并检测经过该处理后的空格是否连续,将连续空格进行合并。去除停用词:在文本中存在着这么一类词语,它们出现频率高但却对文本表达的含义没有主要贡献,只起到起承转合或优化结构的作用,这类词语在进行情感分类任务中大量存在会对任务带来噪声影响,因此需要通过一些手段将这些词语过滤掉。基于停用词库进行过滤是最常用的一种方式,其实现简单且存在较多开源的停用词库可供使用。去除URL:由于URL的头部具有明显特征,只能是http或https,因此可通过正则表达式对URL进行匹配后去除并将其用空格替代。去除不必要的标签:对于不同的消息平台,往往会有一些特殊形式的文本用于实现某个功能,如微博文本中的“@+用户ID”用来在文本中通知指定用户,其并没有含有任何情感信息,因此它也算是对情感分类过程中形成的干扰,可通过正则表达式进行匹配并去除。经过文本分词、去噪,数据集基本排除了影响情感分类的常见干扰,但分类器不能直接接受中文输入,所以需要对分词、去噪后的文本进行数字化,也就是文本向量化,下文将提到。1.1.4文本特征处理文本数据的特征处理是预处理过程中非常重要的步骤。虽然不能肯定文本中的某个词语就能完全表达这篇文章的意思,但却能在某种程度上表达该篇文章,常见的文本数据的特征处理方法有以下几种:(1)基于频率(DF)的方法按照对词语统计的范围和统计的维度,分为特征频率(Termfrequency,TF)和文本频率(Documentfrequency,DF)。特征频率的统计范围在当前文档中,每个词语在当前文档中出现的次数决定其对文档的影响程度,并决定了是否会被滤除。(2)基于TF-IDF的方法TF-TDF中两个重要组成部分TF和IDF分别代表该词语在当前文档中的表达能力和在外部文档库中的表达能力。该算法基于这样一种假设:在当前文档和外部文档库中出现频率都很高的词汇能体现文档的共性,而在当前文档中出现频率高、在其他文档出出现频率低的词汇能体现出当前文档的特点,则认为这样的词汇在该文档中的重要程度高。基于这样一种思想,对于一个长序列文本,可以通过计算每个词语的TF-IDF值,取数值最高的若干词语代表整个文本,以达到提取特征的目的。TF和IDF的计算方式分别如公式(1.6)和公式(1.7)所示:(1.6)(1.7)其中代表的是词语在文档中的出现次数,分母为在文档中所有词语的出现次数之和。当TF值较高的词出现时,如果它在其他文档中也频繁出现,那么其IDF就很低,该词的权重TF×IDF反而不高,从而它能全局识别高频无意义词并将其过滤掉,例如“他们”、“这些”。只有当词频较高、而在其他文档中不频繁出现,那么该词的权重就会很高,从而区分各词的重要性。在计算文本之间的相似度的任务中,也可以通过提取文档中TF-IDF值较高的词语,然后比较各个文档提取出的词语的相似度,用来表示文档之间的相似程度。在进行情感分类任务时,尤其是使用机器学习算法进行分类时,对输入特征的要求较高,为保证输入特征具有代表性,可以通过对各词的TF-IDF值进行排序,然后抽取文本中最重要的词作为输入特征。通过分析TF-IDF的计算过程发现,该值与词语的位置无关,也和上下文无关,因此用这种方法提取出的特征也是互相孤立的。(3)基于N-gram的方法N-gram是一种基于概率统计模型的算法,该算法以长度为N的窗口在文本上进行滑动并截取窗口下的片段,生成若干长度为N的字符片段,其中每个片段称之为gram,将最终生成的所有gram进行统计,基于出现频率进行筛选生成gram列表,也随即构成特征空间。这种构建特征空间的方法构造过程简单,对文本语言没有要求。1.1.5文本向量化对自然语言进行处理时,不能直接以文本形式输入至各种模型,需要将文本处理成数值的形式以进行后续的计算和分析。将文本进行数值化存在着多种方式,例如:one-hot编码方法通过预先构建全体词汇的样本序列,然后基于样本序列,在对应的位置使用0和1标记出对应的词语,实现词语向数值的映射,显然这种方式生成的特征矩阵非常稀疏并且割断了词语之间的联系,因此这种方式在文本情感分类中是不太合理的。词向量模型的主要思想就是将词语从上述的稀疏高维空间映射到固定的低维稠密的向量空间中来,每个词向量在构建的向量空间中具有数学意义,也就可以通过向量间的数学关系表示词语间的联系。word2Vec是一种被广泛使用的以深度学习算法思想为基础,进行词向量模型训练的工具[5]。主要是利用神经网络计算模型,采用无监督的方式,通过训练大量文本、语料,从大量文本中学习语义知识,将文本中的词用向量形式表示。通过这种词向量模型将词语转换成词向量后,我们就可以通过计算两个词的词向量之间的距离,从而得知两个词之间的联系。Word2Vec的出现,提出了一种分布式的词向量表示方法,将词向量表达带到了新的高度,与传统构建词向量的方式相比,无论是在词向量的空间维度上还是其携带的信息量上都是一个巨大的进步。Word2Vec是基于神经网络进行构建词向量模型的,准确的说,这种词向量模型其实是训练神经网络的附产物,因为其获取的只是训练神经网络过程中产生的权重,而不是输出层的结果。Word2Vec根据模型的架构划分出了Skip-Gram(ContinuousSkip-GramModel)和CBOW(ContinuousBag-of-WordsModel)这两种架构,二者的主要差别在于对目标词的预测方式,二者的结构示意图分别下图所示:图1.1CBOW模型图图1.2Skip-Gram模型图1.2基于情感词典的情感分类 使用情感词典进行情感分类是比较早使用的一种情感分类方法。其进行分类的思路比较简单,即使用语言学相关的知识形成某些规则,按照这些规则构建出包含积极和消极两类的词语集合,最后基于该集合查找出目标词语的情感极性,最后按照某种计算方式将这些词语的情感极性进行综合,最后得出语句的情感极性[3],其分类过程如图1.3所示:图1.3基于情感词典的情感分类流程图 可以将基于情感词典分类的方法分为两种:一种是基于情感词典统计出待分类语句中积极性词汇和消极性词汇的个数,然后由个数占优势的词汇极性决定文本极性,这种方式简单粗暴,往往会带来比较大的偏差;相比于第一种的情感词典,第二种中的情感词典中加上了每个词语的情感极性强度,以数值的形式进行表示,正数代表正向,负数代表负向,然后查找出待分类文本中每个词语的情感极性强度数值,最后将每个词语数值相加或者其他计算方式进行计算,使用计算结果代表文本的情感极性。 在这种情感分类方法中,核心是情感词典的构建,情感词典的构建方法分为人工的构建方式和自动化的构建方式。人工构建更多的是依靠人的语言学知识和经验,然后进行归纳和整理,这种人工的方式效率比较低且对人的专业要求较高。因此,更多的是使用算法技术进行自动化构建,这种方式降低了人工的工作量,相对具有更强的扩展性[9]。1.3基于机器学习的情感分类相对于前述基于词典的方法,机器学习算法会自动的从训练数据中获得判断情感极性的规则,而不是基于设定的规则。基于机器学习的方法进一步的降低了人工的工作量,自动从历史数据的特征中学习并训练出判断模型,在准确率上也更胜一筹。以下介绍了几种在情感分类中常用到的机器学习算法。1.3.1支持向量机分类算法支持向量机是一种二分类模型,与其他分类算法所不同的是,支持向量机在整个分类过程中,没有对数据进行必要的前提假设,其主要思想是寻找确定搜索空间中的分割线,以分割出不同的类别,以图1.4为例,该算法的目的就是让所有点到超平面的距离大于一定的距离,即让所有的分类点要在各自类别的支持向量两边。如图1.4所示:图1.4支持向量机分类算法模型为了能够使得黑色的曲线远远地偏离任意白球和黑球,使得两者之间的距离达到最大化,我们必须找到一条最优曲线。如果我们假设这些白色球不是放置在一张球桌上,而是被抛向空中,即在多维空间下,我们仍然会需要将其中的白球和黑球分开,这时就会需要一个超平面,而且我们还会因此需要这个超平面仍然能够满足跟所有任意一个白球和黑球的空中间距最大化的超平面。用数学公式表示为(1.8):(1.8)一般情况下取函数间隔为1,这样优化函数的定义为(1.9):(1.9)也就是说,在约束条件下,最大化可得支持向量,固定分子优化分母,并且加上了支持向量机的限制条件。由于的最大化等同于的最优化,于是我们就可以得到支持向量机的优化函数(1.10):(1.10)由于目标函数是一个凸函数,又有约束条件加以限制,由凸优化理论可知,使用拉格朗日函数将目标函数进行转换,成为无约束函数,即:(1.11)加入拉格朗日函数后,优化目标变为:(1.12)根据拉格朗日对偶原理,可以将优化问题转化为等价的对偶问题求解,即要求:(1.13)由上式,先求基于w和b的极小值,即:(1.14)从上面可以看出,通过对w,b极小化以后,目标优化函数只有向量作参数,因此:(1.15)1.3.2朴素贝叶斯朴素贝叶斯算法是一种基于数学概率的算法,它的模型比较简单,实现的前提是假设数据之间是相互独立的,也因此比较稳定。它的适用范围比较广泛,主要被用于人工智能机器学习系统中的分类问题,如对垃圾邮件进行分类、帮助医生诊断病人种类、根据人体特征判断性别等。基于朴素贝叶斯的分类器训练过程也比较简单易操作,先对训练数据集统计出先验的数据,得到在各种特征情况下样本的分布状态,然后通过简单的贝叶斯公式对其进行计算,就可以直接得到它想要的最优解[3],与复杂的梯度下降等算法相比,实现起来相对比较容易。其计算公式如下:(1.16)(1.17)其中(1.16)为条件概率公式,(1.17)为贝叶斯公式,P(A)是指A的先验概率,即不用考虑B的任何情况下A的概率,P(B)为B的先验概率,是指B发生后A发生的概率,后验概率指B发生后A发生的概率。在贝叶斯分类算法中,朴素贝叶斯分类器算是比较简单、稳定的一种,正是基于这一点,在技术更新换代如此快速的时代,朴素贝叶斯算法在分类算法中还能占据着重要的地位。它所需要的数据应该相互独立互不干涉,构造出的算法也必须依赖于这一较强的假设,在实际应用中这也是其最大的限制性。1.3.3逻辑回归科学研究中,少不了和函数打交道,那必然就少不了对变量进行研究,变量之间的关系一般分为两类,一类是直接可以用函数表达式来表达的,比如在物理学中的重力与质量的关系,一个物体所受的重力只与它本身的质量有关,这种关系是确定关系;除此之外变量间还有另外一种重要的关系,称之为相关关系,有这种关系的变量之间往往受多种因素的影响,因此没有办法构建确定的函数来表达。例如:房子的位置与房价的高低,位置越好房价越高,但是房价不仅仅受位置的影响。总之,变量之间相关关系的存在是普遍存在的,要想对两个变量X、Y之间的相关关系进行全面的分析,必须要明确Y随X取值变化而变化的情况。在一元逻辑回归中,为它的表达式,其中c、d称之为回归系数,x为自变量。从数学角度来说,它表达了变量y与x的统计规律性。Logistic回归可以是二分类,此时分类只有“0”和“1”两个属性,比如可以设置中奖为1,未中奖为0;也可以是多分类,如设置患者的病情严重程度,重度为1,中度为2,轻度为3等。通常来说,我们使用二分类的情况比较多。1.4基于深度学习的情感分类相对于基于机器学习的情感分类算法,深度学习最显著的特点是自动提取数据特征,而不是通过人工、通过某些算法进行提取,并且可以提取到更深层次的特征,从而也是获得了目前分类效果的最高水准。深度学习的核心是其神经网络这一数学模型,也是能够提取深层特征的关键。目前人们根据不同场景的特点,设计出了多种神经网络结构,如CNN、RNN以及各种相关的变体。其中CNN具有较强的特征提取能力,RNN相关算法则注重解决长依赖问题,这两种结构在情感分类领域都有非常重要的应用。1.4.1卷积神经网络人工神经网络(ArtificialNeuralNetwork,ANN)是一种用于复杂计算的数学模型,该模型由三部分组成,分别是输入层、隐藏层和输出层。该模型以节点为计算单元,节点之间层层连接,构建出一种类似于动物神经的网络结构。在每个计算单元上有相应的信息计算规则,即存在一个激活函数,对其他计算单元发送过来的信息进行运算,并将结果输出,这种计算与结果传递的方式是人工神经网络进行复杂计算的基础。卷积神经网络也是人工神经网络的一种,它不但可以进行非线性计算,而且并行处理能力也比较强大,在一些方面也比其他模型表现的更为优秀,比如对数据进行特征提取更加精细和对结果进行预测更加准确,目前卷积神经网络已经逐渐渗透到各个领域,并发挥着重要的作用。卷积神经网络相对于传统的神经网络模型有两个很大的不同之处,即神经元的局部连接和参数共享。基于这两个特点,卷积神经网络可以很大程度的简化运算,降低模型的复杂程度。卷积神经网络的核心是在神经网络中引入了卷积运算,并引入了卷积核的概念,这个概念可以通俗的理解为进行卷积运算的窗口,它通过在数据上来回滑动,对所有的数据进行卷积运算,通过这样一个过程产生的结果就是经过卷积运算的一个更深层次的特征,由于其卷积时移不变性的特点,卷积运算之后的特征仍然对原数据有很强的表达性。通过分析其核心运算的计算方式可以发现,这种运算更适合在网格化的数据上,比如图像、文本序列等。卷积神经网络最开始和最成功的应用领域也是机器视觉领域,后来将这种技术引入到了自然语言处理的领域中,也被证明了其在自然语言处理上的有效性。在处理文本序列时,一般需要将卷积核的长度对应于词向量的长度,这从侧面说明使用卷积神经网络进行文本数据处理时,词向量的维度也决定了模型计算的复杂度。卷积神经网络在自然语言处理领域中主要应用在文本分类相关的任务中。1.4.2循环神经网络循环神经网络(RNN)是对时序数据更加友好的结构,时间序列数据是一种样本间存在顺序关系,每个样本和它之前的样本存在关联的数据结构。RNN与CNN相比,增加了记忆功能,可以记住“前辈”的输出,因此它的用途也比较广泛,包括语音识别如微信的语音转文字功能、机器翻译如腾讯翻译、视频识别行为等方面。而LSTM则是基于循环神经网络RNN的改进,由Hochreiter提出,其目的是为了避免RNN由于长期依赖而造成的预测精度下降,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度建筑材料国际贸易代理服务合同
- 舟山2025年浙江舟山市普陀海洋产业研究中心招聘紧缺高端人才笔试历年参考题库附带答案详解
- 温州2025年浙江温州平阳县企事业单位面向全球引进博士10人笔试历年参考题库附带答案详解
- 浙江2025年浙江省第七地质大队选调专业技术人员笔试历年参考题库附带答案详解
- 江门广东江门台山市卫生健康局下属公益一类事业单位招聘编外人员11人笔试历年参考题库附带答案详解
- 2025年中国家具喷漆房市场调查研究报告
- 惠州2025年上半年广东惠州市技师学院人才派遣人员招聘笔试历年参考题库附带答案详解
- 2025年中国2-溴丙酰溴市场调查研究报告
- 广州2025年广东广州市天河区金燕幼儿园编外教辅人员招聘笔试历年参考题库附带答案详解
- 2025年织带印花机项目可行性研究报告
- 2025年买卖个人房屋合同(4篇)
- 武汉2025年湖北武汉理工大学管理人员招聘笔试历年参考题库附带答案详解
- 使用错误评估报告(可用性工程)模版
- 高中英语新课程标准解读课件
- TZSA 158-2023 双引擎分布式视频处理器技术规范
- 客服人员绩效考核评分表
- 江苏宿迁家乡介绍旅游课件
- 莎士比亚十四行诗之十八课件
- 文化差异与跨文化交际课件(完整版)
- 臭和味检测原始记录表
- 变压器检修风险分析及管控措施
评论
0/150
提交评论