《机器学习建模分析案例综述》3200字_第1页
《机器学习建模分析案例综述》3200字_第2页
《机器学习建模分析案例综述》3200字_第3页
《机器学习建模分析案例综述》3200字_第4页
《机器学习建模分析案例综述》3200字_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习建模分析案例综述1.1数据预处理本文数据集是来自于数据平台,但数据平台所得数据是通过网上爬虫获得的微博情感数据,这些数据往往不标准,里面含有很多的符号,表情等噪音。如果不将其去掉,就会使得数据不准确,分析的效果变差。具体的过程如下图3.3所示。图3.3文本预处理(1)文本正则化为了降低噪声数据对文本的影响,本文利用python下的re模块对中文微博文本进行正则匹配,做了以下清洗处理:①去除网址的url链接,去掉不在所有中文、大小写字母、数字范围内的非法字符②去掉一些微博常用的评论转发痕迹:“转发微博”、“0网络链接?”、“?展开全文c”等,将它们置为空字符③通过爬虫爬取的微博用户评论的文本信息同时也记录了其他人对某事的看法,为了保留转发者真实的情感,将其之前的转发内容进行删除。表3-1是对其中两条语料进行处理的案例。表3-1文本正则化含有噪声的原始语料正则化后的文本发烧情头吗@二花女士2西宁?发烧情头吗二花女士西宁#元旦快乐##枇杷手法小结#每个娃都是有故事的娃。每个大人也是有故事的大人。小枇杷有茶有手法,静待每个有需求的大人和孩子的到来~开始记?展开全文c元旦快乐枇杷手法小结#每个娃都是有故事的娃每个大人也是有故事的大人小枇杷有茶有手法静待每个有需求的大人和孩子的到来(2)文本分词中文分词REF_Ref68557661\r\h[43]是把完整句子拆分开来,打个比方:我来自湖南,经过切分后就变成了我、来自、湖南三个词语。在情感词库上进行的分词是较为简单的,而且学者也可以自己去更新情感词库,使得分词更加准确,比如:中华人民共和国,我们可以把这个词定义为一个词,但是如果你不定义,他就可能切分为中华、人民、共和国。而基于统计的分词REF_Ref68557674\r\h[44]主要是根据相邻字的共现频率来进行分词,一起出现得越多,关联程度就越大。比较经典的分词方法就是jieba分词,这个方法的理论就是动态算法找到对应的分词路线。Jieba分别有搜索引擎模型和全模式,以及文本所用的精确模式,精确模式顾名思义就是用嘴精细的方法切分,颗粒度比较小。本文将采用基于统计的结巴分词技术,具体的分词效果如表3-2。表3-2文本分词示例表原文(分词前)分词后写在年末冬初孩子流感的第五天新年的第一天感冒又发烧的也太衰了写/在/年末/冬初/孩子/流感/的/第五天新年/的/第一天/感冒/又/发烧/的/也/太衰/了(3)去除停用词停用词就是大多为一下语气助词,没有实际意义,只是为了句子的一个连贯性以及完整度而存在。比如:“额”,“的”,“咦”等。就是主要是这些没什么意思的词语,但是当这些词出现很多的时候,对本文有多多少少的影响。本文主要研究中文文本情感分析。停用词版本很多,本文用哈工大停用词。利用分词技术将所需要处理的文本进行切分,去停用词就是把分出来的词与停用词表做比对,相同的就去掉,如果当前词语在停用词表中没有出现,就保留改词语,本文自己添加了网络词汇等特定场景词。具体清洗效果如表3-3。表3-3数据清洗过程示例原始语料发烧情头吗@二花女士2西宁?正则化后的语料分词后的语料去停用词后的语料发烧情头吗二花女士西宁发烧/情头/吗/二花/女士/西宁发烧/情头/二花/女士/西宁通过对本文的微博数据集进行预处理结束后,可以绘制如图3.4所示的词云图。图3.4微博数据集词云图1.2特征处理(1)词袋模型词袋模型就是把句子混在一起,不考虑顺序。打个比方:,文本1:“小明喜欢足球,小王也喜欢”,文本2:“小明可能也喜欢打篮球”。下面构造出词典:{1:“小明”,2:“喜欢”,3:“足球”,4:“可能”,5:“也”,6:“小王”,7:“打”,8:“篮球”}。上面两个文本一共包含7个词语,对于每个词语都有唯一的索引,那么对于两个文本我们有如下的表示方法:文本1:[1,2,1,0,1,1,0,0];文本2:[1,1,0,1,1,0,1,1]。词袋很适合离散、高维、稀疏的数据,但是也存在三个问题:1、维度灾难,可以看到每个不同的词语都需要一个维度。两万个词就需要两万个维度;2、无法保留词序信息,对于文本处理来说,上文和下文的信息对这个词语的判断是很重要的,而词袋模型直接去掉了这个信息;3、存在语义鸿沟的问题。(2)TF-IDFTF-IDF算法[51]用来量化词语重要性。词的重要性就是在这个文本出现得多,但是在其他文本中少,那么这个词语对于这个文本的作用性很大,那么tf-idf就是这么一个作用,利用这些重要词汇去区分开这些文本,所以tf-idf的应用原理就是上述所说。计算如3.1式。(3.1)其中:为词语出现次数,为词总和数。IDF逆文档频率,计算如下。(3.2)其中:为反文档频率,为所有文件数,为含的总文件数。(3)特征提取方法和特征选择方法特征提取方法较多,这里不一一介绍,仅仅介绍文本所用的4种特征提取方法:1.把所有词作为特征,记为bag_of_words;2.把双词搭配作为特征,双词搭配的好处及时考虑了上文逻辑,如:我喜欢中国,分词之后是:我/来自/湖南省,那么我/喜欢作为一个词;3.把所有词和双词搭配一起作为特征;4.使用结巴分词作为特征。特征选择是计算没个词的信息量,并且按照信息量从大到小进行排列,最后设置向量维度就可以从高往低选取所设置的值数。1.3评价指标的建立评价指标的目的就是为了去判断所用模型的好坏,针对不同的实际情形,采用不同评价指标。(1)基本性能评价指标评价指标有很多,本文主要使用的评价指标是准确率和F1值表3-4二分类混淆矩阵PositiveNegativeTrueTPTNFalseFPFN其中:为真正类,表示真实值和实际值一样;真负类,真实值是正类却被分为负类;假正类,真实值是负类却预测为正类;假负类,真实值是正类,预测为负类。准确率指正确值除以总数,其定义如(3.3)所示。(3.3)精准率表示的是预测为正样本中正样本比例,其定义如(3.4)所示。(3.4)召回率表示预测正确比例,其定义如(3.5)所示。(3.5)F-Measure是和的加权平均,其定义如(3.6)所示。(3.6)1.4机器学习模型建立有关模型的理论已在第二章重点介绍,这里不再赘叙。下面将重点介绍机器学习模型的具体建立。(1)特征选取特征就是一个事物独特的地方,能让我们判断其所属类别。打个比方,我看到一个中年人,穿着短袖,戴着安全帽,身上还有很多的灰尘,我们肯定会觉得他是一个工人,而“安全帽”、“灰尘”都是我们的判断依据。但是不是所有特征都有用,比如中年人这个无法让我们判断他的职业,只能说他让我们考虑是工作的可能性更大,换成是个孩子,我肯定只会判断为他是去锻炼或者去工地玩了。所以不是所有特征都有用,但是每个特征都会成为我们判断的依据。而在情感分类中,一般从“词”这个层次来选择特征。例如:米饭香甜可口。我们在判断其类别的时候可以分为很多种,比如从可口判断为吃的,从米饭这个名词判断为主食,所以每个词都对其分类情况有所影响,都可以作为判断类别的依据。所以从几个词语来说,都可以看出是正类积极的。同样的,如果使用的是双词搭配。比如“米饭香甜”,“香甜可口”,“可口!”以上搭配都可以作为分类特征。(2)特征降维特征降维最简单来说就是让特征数量减少降低。对于特征数量减少意义非常重大,第一个就是我可以让噪声减少,提高分类准确率,但是不是说越少越好,虽然特征维度越少,噪声越少,但是有用信息也会丢失很多。第二个意义就是减少计算量,让速度加快。(3)特征表示在使用机器学习算法时,需要把所有原始文本用计算机所能识别的方式表示出来。(4)切分数据集数据集的切分使用python中的sklearn进行切分,数据集总共39300条,划分为训练集和测试集,按照0.75:0.25比例划分,具体划分效果如图3.4。图3.5数据划分图(5)构建分类器本文采用了支持向量机,朴素贝叶斯,XGBoost以及KNN算法四种经典机器学习算法作为分类器,并对其准确率在不同特征提取方法和特征维度上作对比。具体步骤如下:1.使用分类算法训练其测试集,得出分类器。2用分类器得出测试

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论