文本预处理与特征选择

上传人：给*** IP属地：江西上传时间：2022-02-14 格式：DOC 页数：5 大小：123.57KB 积分：12 举报 版权申诉

全文预览已结束

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、我们运用爬虫在网页上抓取文本数据，经过文本切分得出1000个中文文本。由于爬下来的文本中有很多html的标签，因此首先我们要去除这些非文本的内容。接下来，我们就要进行真正的文本预处理。一、文本预处理1、文本分词中文分词中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程，中文分词是文本挖掘的基础。中文分词所要解决的关键问题就是通用词表和切分规范、切分歧义和登录词识别（人名、地名等），中文分词方法可以大致分为3类：1.1机械分词方法机械分词方法又叫作基于字符串匹配的分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机械词典

2、中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。目前机械分词有三种方法：a、正向最大匹配法（由左到右）b、逆向最大匹配法（由右到左）c、最少切分（使每一句中切出的词数最小）主要过程：“我要去南京师范大学”。对于这句话，运用正向最大匹配法。首先，“最大”是指我们每次都取最大词长进行匹配。假设词典中最长次长度为4，从左向右取4个字就是“我要去南”，然后与词典中的词条进行匹配，显然词典中没有这个词，我们将最后一个字去掉变成“我要去”，同样再到词典中进行匹配，一直到“我”匹配成功，就可以将句子切分开：“我/要去南”。接下俩从下一个字继续取4个字“要去南京”作为一个词到词典中进行匹配，重复

3、上述步骤，就可以将整个句子切分为：“我/要/去/南京/师范大学”。由此我们也可以类推出逆向最大匹配法。切出来的句子为：“我/要/去/南京/师范大学”。缺点：长度限制最大匹配法必须要先设定一个最长词长进行匹配。若词长过短，长词会被切错，比如词长为5，“中华人民共和国”这样7词长的词就会被错切；若词长过长，效率会较低，假设最大词长为100，我们必须将词从100开始一直往下匹配到要找到所要查的词，这意味着要有很大的工作量。掩盖分词歧义中文的句子构成成分很复杂，所以正向匹配和逆向匹配会出现结果不同的情况。比如“有意见分歧”正向最大匹配：“有意/见/分歧”逆向最大匹配：“有/意见/分歧”最大匹配的不一定

4、是想要的分词方式机械分词基于找到最大的匹配词，但有时候除了最大词外，我们想要的只是这个词的一部分。1.2基于统计分词方法基于统计分词方法就是先切分出与词表匹配的所有可能的词，然后运用统计语言模型和决策算法来决定最优的切分结果。主要步骤：获取候选词构造前趋词寻找最佳前趋词确定最优路径缺点：不能解决交集型和组合型歧义问题。1.3基于规则和基于统计相结合的方法我们选择的中文分词方法是机械分词方法。2、过滤虚词过滤掉文本中一些没有意义的虚词和标点符号3、同义词合并二、特征选择1、卡方检验（CHI）卡方检验是以X2分布为基础的一种常用假设检验方法，它的无效假设H0是观察频数与期望频数没有差别（有

5、效假设为H1，即两者之间有差别）。公式：主要思想：X2指实际值与理论值的差异，A为实际值，T为理论值。首先假设H0成立，基于此前提计算出x2的值。x2值越小，观察频数与期望频数之间差别越小，H0成立；反之H1成立。主要过程：例：选取一堆新闻标题，标题中含有吴亦凡的与该条新闻属于娱乐新闻是否有关。观察值：属于娱乐新闻不属于娱乐新闻合计不包含吴亦凡203252包含吴亦凡361248合计5644100首先假设标题是否含有吴亦凡和新闻是否是娱乐新闻是无关的（无关性假设 H0）。随机抽取一条标题，是娱乐新闻的概率为：P=56/100=56%根据无关性假设H0生成期望的表格期望值：属于娱乐新闻不属于娱乐新

6、闻合计不包含吴亦凡52*0.56=29.1252*0.44=22.8852包含吴亦凡48*0.56=26.8848*0.44=21.1248如果两个变量无关，那么实际值与理论值的差异会很小，即无关性假设 H0成立。根据公式可以算出：X2=（20-29.12）2/29.12+（32-22.88）222.88+（36-26.88）2/26.88+（12-21.12）2/21.12=12.93得出卡方值为12.93。确定自由度为（2-1）（2-1）=1，选择显著水平=0.05，利用Excel提供的CHIINV函数计算显著水平为0.05，自由度为1卡方分布的临界值，将临界值与统计值x2比较，若统计值小

7、于临界值，则H0成立，反之不成立。缺点：卡方检验只统计了是否包含或者是否存在，对包含或存在的次数没有要求，尽管有些词条在文本中出现，但是由于该词条出现次数少，不能代表这类文本的特征。2、信息增益（IG）信息增益指在某一个确定的条件下，信息的不确定性减少的程度。信息增益=熵-条件熵（熵：随机变量的不确定性，条件熵：在某一个条件下，随机变量的不确定性）主要思想：对于一个特征条件t，系统在有它和没有它的情况下信息量是多少，两者的差值就是条件t给系统带来的信息量，即信息增益。根据信息增益可以确定是否可以按照条件t来给数据进行分类。缺点：信息增益只能考察特征条件t对整个系统的影响程度，而不能具体到某个

8、类别上，它只适合用来做整个系统的特征选择，也就是所有类别的文本都使用相同的特征集合。但每个类别的文本都有自己的特征集合，有的词对某一类别很有区分度，但对其他类别的影响却很小。3、互信息（MI）表示两个变量X和Y之间是否有关系，以及关系的强弱。简单说俩就是X由于Y减少的不确定性。公式：互信息与信息增益的原理相近，只是互信息不考虑特征条件t不出现的情况。缺点：互信息只考虑了词条的存在对某一类别文本的影响，没有考虑到该词条的词频对文本的影响因素。4、文档频率（DF）文档频率指在文档集合中出现特征词条的文档数，根据它可以衡量特征词的重要程度。主要思想：首先设定最小和最大文档频率阈值，然后计算每个特

9、征词条的文档频率。如果该词条的文档频率不在阈值范围区间内则删除，否则保留。优点：最简单的降低特征空间维数的方法。缺点：文档频率的特征选择方法属于无监督的学习算法，仅仅只考虑的词条的频率因素，而没有考虑到类别因素。比如中文词条中“的”、“是”等无意义的词条，它们在各类文本中出现频率都很高，但本身没有多大意义。而某些文档频率低的词由于本身的特殊性，其实对文本的影响很大，若用文档频率来进行特征选择，会误删这些低频的有意义的词条。5、 TF-IDFTF-IDF指某一特征词在文本中的重要程度。如果某个词或短语在一篇文本中出现的频率TF高，并且在其他文本中很少出现，即IDF越大（分母越小），则认为此词或者短语具有很好的类别区分能力，适合用来分类。公式： TF=在所有文本中特征词t出现的次数/文本中所有词条的数目IDF=log(文本库中的文本总数包含特征词t的文本数+1)缺点：同样，TF-IDF只单纯以词频来衡量一个特征词的重要程度，忽略了某些重要的特征词出现次数少的情况。同时，如果在某一类文本中，特征词t在该类的几篇文档中出现，而在其

人人文库> 全部分类> 教育资料 > 课设设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

文本预处理与特征选择

文档简介

温馨提示

最新文档

评论

文本预处理与特征选择

文档简介

温馨提示

最新文档

评论

相关文档