文本特征提取技术_第1页
文本特征提取技术_第2页
文本特征提取技术_第3页
文本特征提取技术_第4页
文本特征提取技术_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文本特征提取2023/9/2五校联合大数据分析硕士培养非结构化数据分析主要内容2023/9/2非结构化数据分析文本表示特征提取特征权重文本表示第一讲:文本挖掘简介2023/9/2非结构化数据分析文本表示及文本预处理2023/9/2非结构化数据分析去掉html一些tag标记停用词(stopwords)去除、词根还原(stemming)(中文)分词、词性标注、短语识别、…词频统计(TFIDF)数据清洗:去掉噪声文档或文档内垃圾数据向量空间模型[G.Salton,1971]2023/9/2非结构化数据分析向量空间模型(VectorSpaceModel)自然语言处理常用模型基本概念文档(Document):句子、段落、整篇文章特征项(Term/Feature):词根/词/短语/其他项的权重(Weight):每个特征项在文档中的重要程度。

VSM示意图—数据结构化一般思路2023/9/2非结构化数据分析特征词1特征词2特征词3……特征词n文档1权重11权重12权重13……权重1n文档2权重21权重22权重23……权重2n文档3权重31权重32权重33……权重3n文档4权重41权重42权重43……权重4n………………………………文档m权重m1权重m2权重m3……权重mnVSM示意图相似度比较内积计算Cosine计算2023/9/2非结构化数据分析

文本表示注解2023/9/2非结构化数据分析文本表示注解2023/9/2非结构化数据分析用单个汉字(对应英语语系中的字符串)做特征,不考虑词语的含义。直接利用汉字在文本中出现的统计特性对文本进行划分;直观明了,且操作简单,尤其对于英文文本或其他西语文本的划分非常容易,计算机可以直接利用空格进行分隔。但是基于单个汉字表示方法往往无法很好的代表语义信息。比较之下,使用词做特征成为一种更好的选择。词是中文语义的最小信息单位,词可以更好的反映句子中的信息,但是分析难度也提升了。以中文文本为例,词与词之间没有明确的分隔标记,计算机无法自动识别词语的边界,因此正确分词是这种表示方法的关键。该方法比较常用。文本表示注解2023/9/2非结构化数据分析词性(PartOfSpeech,POS)作为特征可以更好的识别词语之间的关系。让计算机来自动地给文本中的词标注词性,然后利用词性进行词义分析。如:什么样的名词经常和什么样的动词同时出现,这对于词语之间关系的研究开拓了新的思路。词性标注技术的成熟为词组组块(PhraseChunking)的界定与实体及关系(EntitiesandRelationship)的识别打下了良好的基础,有利于我们更深入的探索文本语义的信息。且词组的形式提高了特征向量的语义含量,使得向量更稀疏。近年来,词性标注(POS-tagging)、词组组块(PhraseChunking)、实体及关系(EntitiesandRelationship)相关的研究也开展了很多,取得了很多可喜的成果,有兴趣的读者可以参考后面所附的文献进行深入学习。特征权重2023/9/2非结构化数据分析特征权重2023/9/2非结构化数据分析衡量某个特征项在文档表示中的重要程度或者区分能力的强弱更好的对文本进行表示一般利用文本的统计信息:词频常用的权重计算方法2023/9/2非结构化数据分析

TF-IDF例子(Saltonetal.,1983)2023/9/2非结构化数据分析假设抓取了来自门户网站“经济”“娱乐”“科技”三个版块各300篇文章,其中有一篇文章,共有100个词,其中“粒子”“和”“应用”三个词分别出现了5次、35次和15次,我们想将该文档进行归类,看它属于“经济”“娱乐”“科技”文档中的哪一类。初步分析认为,“粒子”、“应用”两个词应该对文章分类的作用较大,而“和”对于文章的分析意义不大。更进一步的,如果目标是进行文档的归类,有理由认为“粒子”一词对于该文章的归属的贡献要高于“应用”。“应用”一词的专业性不及“粒子”。TF-IDF

应用举例2023/9/2非结构化数据分析词语词频(TF)文档频率(DF)文档逆频率(IDF)权重(TF*IDF)粒子0.05509000.063和0.359009000应用0.154509000.045但是如果只关注词频

,“应用”一词的权重更高。这时候,可以利用IDF的计算公式进行权重的处理,计算三个词的文档频率和文档逆频率,假设50篇文章中出现了“粒子”一词,450篇文章中出现了“应用”一词,900篇文章中均出现了“和”这个词语。那么采用TF*IDF方法计算得到的权重如下:特征权重注解2023/9/2非结构化数据分析特征加权方法最初用于信息检索,特征加权主要有三个层次,局部加权、全局加权和标准化(Chisholmetal.,1999)。一般化的特征加权表示式如下:

是词语w在文档d中的局部权重。

是词语w在文档集合中的全局权重,

是文档d的标准化因子。局部加权仅使用词语在文档中出现的统计量,而全局加权则使用整个数据集中的统计量进行计算。特征提取2023/9/2非结构化数据分析特征提取的意义2023/9/2非结构化数据分析文本集合包含的特征太多10,000–1,000,000uniquewords…andmore特征减少后,某些算法才能使用有些分类方法无法处理1,000,000以上的特征减少训练时间有些分类方法的训练时间与特征个数的平方成正比,或更糟使预测模型更快、更小能提升总体性能EliminatesnoisefeaturesAvoidsoverfitting特征提取思路2023/9/2非结构化数据分析特征选择(FeatureSelection)文档频率信息增益卡方统计量互信息特征重构(Re-parameterisation)潜在语义分析文档频率(DocumentFrequency,DF)2023/9/2非结构化数据分析文档频率(DF)指文本数据中包含某个词条的文档的个数。通过文档频率进行特征选择就是按照文档频率的大小对词条进行排序,将文档频率小于某一阈值的词删除,从而降低特征空间的维数。文档频率2023/9/2非结构化数据分析基于DF的启发式要点太频繁的词项没有区分度,DF大于某个阈值去掉太稀有的词项独立表达的类别信息不强稀有词项的全局影响力不大在训练集中,某些文档如果有某个稀有词项,它们通常也会有一些常见词项(对那一类)和通常信息获取观念有些抵触:稀有的更有代表性(这是一种adhoc方法,不依据什么理论)最容易实现,可扩展性好文档频率2023/9/2非结构化数据分析Baeza-YatesandRibeiro-Neto(1990)研究表明,若一个特征在语料集80%的文档中都出现了,它对于分类来说是无意义的。这样的词语主要是指停用词等,通过对这部分词语的压缩,可以使特征向量空间压缩到原始的40%或者更多。对于出现频率过低的词语,考虑到增加一个变量对于现实带来的成本,一般不利用这样的词语,而是尽可能少的选取其他词条。YangandPedersen(1997)试验表明:在分类效果没有变差的前提下将特征空间的维数约减为原来的1/10是可能的,约减为1/100所带来的损失很小。熵2023/9/2非结构化数据分析对分类系统来说,文档类别C的可能取值是每一个类别出现的概率是

为类别的总数,熵定义为:熵/平均熵2023/9/2非结构化数据分析在观察到特征项

以后,文档落入某个文档类的概率就应该是条件概率此时系统的熵为:该特征项的熵:该值越大,说明分布越均匀,越有可能出现在较多的类别中;该值越小,说明分布越倾斜,特征项可能出现在较少的类别中信息增益(InformationGain,IG)2023/9/2非结构化数据分析该term为整个分类所能提供的信息量特征项出现与否导致的熵的变化考虑和不考虑特征的熵的差值

信息增益2023/9/2非结构化数据分析信息增益2023/9/2非结构化数据分析信息量与变量可能的变化有关,跟变量具体的取值没有任何关系,只和变量所取的种类多少以及发生概率有关),种类和发生概率决定了信息量的大小。Quinlan提到了这一点,信息增益的方法总是倾向于选择有多种属性的特征。只能考察特征对整个系统的贡献,而不能具体到某个类别上,这就使得它只适合用来做所谓“全局”的特征选择(指所有的类都使用相同的特征集合),而无法做“局部”的特征选择(每个类别有自己的特征集合,因为有的词,对这个类别很有区分度,对另一个类别则无足轻重)。χ2统计量2023/9/2非结构化数据分析基本思想通过观察实际值与理论值的偏差来确定理论的正确与否。假设两个变量确实是独立的,然后观察实际值与理论值的偏差程度。如果偏差足够小,认为误差是很自然的样本误差,两者确实独立;如果偏差大到一定程度,使得这样的误差不太可能是偶然产生或者测量不精确所致,认为两者相关。2023/9/2非结构化数据分析那么偏差为:χ2统计量2023/9/2非结构化数据分析χ2统计量2023/9/2非结构化数据分析卡方度量两者(term和类别)独立性的缺乏程度χ2越大,独立性越小,相关性越大若AD<BC,则类和词独立,N=A+B+C+D低频词缺陷2023/9/2非结构化数据分析只统计文档中是否出现词条T,却忽略了词条T在文档中出现频率的信息,使得卡方检验对低频词有所偏袒,这就夸大了低频词的作用。如果某一特征只在一类文档中频繁出现,通过卡方法计算出来的卡方统计量很低,在特征选择时这种特征词就会被排除掉,但是这种在少量文档中频繁出现的特征词很有可能对分类的贡献很大,比如专指概念。互信息法(MutualInformation,MI)2023/9/2非结构化数据分析MI越大,特征项t和c共现程度越大(N=A+B+C+D)互信息特点2023/9/2非结构化数据分析MI(t,C)的值越大,t对于C的区分能力越强对同一个类,不同的词项,在同样P(t|C)情况下,相对稀有的t会得到较大的值,即MI受到词条边际概率的影响,从下面的公式中可得:

潜在语义分析

(LatentSemanticAnalysis,LSA)2023/9/2非结构化数据分析特征重构方法SVD分解是LSA的数学基础特征值与特征向量实对称矩阵的正交化SVD矩阵分解低阶近似特征值/特征向量设A是n阶方阵,如果数和n维非零列向量,使:

成立,则称数为方阵A的一个特征值,非零列向量称为A的对应于特征值的特征向量(或称为A的属于特征值的特征向量)。具体步骤为

将特征向量正交化;3.再将特征向量单位化.4.利用正交矩阵将实对称矩阵对角化这样共可得到m个两两正交的单位特征向量有5.以为列向量构成正交矩阵实对称矩阵正交化由可得其中Q的列为矩阵A的单位正交特征向量,仍表示对角矩阵,其中对角线上的值为A的特征值,按从大到小排列。最后,QT=Q-1,因为正交矩阵的逆等于其转置。实对称矩阵对角化

已知矩阵A,寻找行空间的一组标准正交基记为V,通过A作用到行空间的这组标准正交基上AV,得到列空间的一组基向量,记为B,把B标准化后得U,这里就可以得到用分量的形式表示:

奇异值分解SVD对于

,方程两边同乘,可以得到,由于V是标准正交基构成的矩阵,有,因此可得:

U,V求解?

由,可以得到:

为对称非负定矩阵,为对角矩阵,可以得到为的特征向量构成的矩阵。

低阶近似和F-范数2023/9/2非结构化数据分析令

表示一个

阶的原始数据矩阵,矩阵的秩为

为了不失一般性,我们假定

的均值为0,SVD奇异值分解可以表示成下面的过程:根据著名EckartandYoung(1936)年的结果,对于任意的有:在Frobenius范数下,SVD的前r个元素给出了矩阵的秩为r的一个最优估计。,,

潜在语义分析(LatentSemanticAnalysis,LSA,1990,Deerwesteret.al)2023/9/2非结构化数据分析LSA是文本分析中一种常用的降维技术。该方法以文档词频矩阵为基础进行分析,得到了向量空间模型中文档的高维表示,并通过投影形成文档在潜在语义空间中的低维表示。理论依据是我们认为有一种潜在的语义结构隐含在文档中词语的上下文使用模式中,而文档词频共现矩阵在一定程度上可以反映出词和不同主题之间的关系。潜在语义分析方法很好的解决了同义词和一词多义等现象给文本分析造成的困难。LSA被提出后,被广泛用于文本检索和聚、分类技术中。LSA理解2023/9/2非结构化数据分析

X表示一个文档和词语的共现频率矩阵,X的每一行均代表一个文档向量,每一列代表词语向量。LSA将每个文本视为以词语(特征)为维度的空间中的一个点,认为一个包含语义的文本出现在这种空间中,它的分布不是随机的,而是应该服从某种语义结构。同样地,也将每个词语视为以文档为维度的空间中的一个点。文档是由词语组成的,而词语又要放到文本中去理解,体现了一种“词语-文档”之间的双重概率关系。LSA示意图2023/9/2非结构化数据分析2023/9/2非结构化数据分析性质2023/9/2非结构化数据分析从数据压缩的角度看,“近似矩阵”是秩为

K的前提下矩阵X的最小二乘意义下的最佳近似。LSA不同于向量空间模型中文本和词语的高维表示,它将文本和词语的高维表示投影在低维的潜在语义空间中,缩小了问题的规模,得到词语和文本的相对不那么稀疏的低维表示,同时这种低维表示揭示出了“文档-语义-词语”之间的联系。K值的选择2023/9/2非结构化数据分析k值过大则会使运算量增大,一般选特征值个数

时,对于,可令满足贡献率不等式:

可取40%,50%....)潜语义分析缺点2023/9/2非结构化数据分析但是可以注意到

分解的两个向量元素,可以为正值,也可以为负值,这些性质导致

总是很难解释。潜在语义分析过程中奇异值分解的物理意义不够明确,较难控制词义聚类的效果;此外该算法涉及高维且复杂的矩阵运算,这使得其在计算机上的实现也存在一定的困难。LSI应用例子2023/9/2非结构化数据分析编号

文本Doc1我们学习了探索性数据分析课程。Doc2数据分析是指用适当的统计分析方法对收集来的大量数据进行分析。Doc3数据分析:一般要分析的目标比较明确,分析条件也比较清楚。Doc4数据分析可帮助人们作出判断,以便采取适当行动。Doc5数据挖掘一般指从大量的数据中通过算法搜索隐藏于其中的信息的过程。Doc6数据挖掘:目标不是很清晰,要依靠挖掘算法来找出隐藏在大量数据中的规则、模式、规律等。处理稀疏词汇后—文本矩阵2023/9/2非结构化数据分析词汇Doc1Doc2Doc3Doc4Doc5Doc6方法010000分析132100目标000001判断000100数据021112算法000011挖掘000012隐藏000010利用VSM得到相似度2023/9/2非结构化数据分析上述实例文本字数较少,我们采用余弦公式计算相似度。在VSM中是把每一行作为对应词汇的词汇向量的,则通过计算“数据”和“分析”的相似度为0.700,“数据”和“挖掘”的相似度为0.674,“分析”和“挖掘”的相似度为0,可见在VSM中,“分析”和“挖掘”没有任何关系的,但是,事实究竟是怎样的呢

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论