版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
朴素贝叶斯算法在微博分类中的应用研究目录TOC\o"1-3"\h\u1引言 12常见的文本分类算法 22.1简单向量距离分类法 22.2KNN算法 22.3贝叶斯算法 22.4其他分类方法 33加权的朴素贝叶斯分类器 53.1TF-IDF加权法 53.2DC-TF-IDF加权法 63.3加权朴素贝叶斯分类器 74朴素贝叶斯在微博分类中的应用 84.1爬取数据 84.2文本清洗 84.3数据预处理 84.4文本分类环节 84.5交叉验证 95结论 13参考文献 14引言在信息技术的影响下,大众足不出户,利用网络信息技术就能实时了解热点政事、体育和娱乐等信息,同时也能依赖网络信息技术将自身遇到的一些新鲜事、趣事发布到网络平台上。2019年公布的《中国互联网络发展状况统计报告》中,我国的互联网普及率达到了64.3%,现有网民7.9亿,其中有7.2亿经常使用手机的网民。因此,移动互联网已经深入渗透到我国居民生活中的各个方面。而为作为其中的网络社交平台之一,因其即时性、简短性和瞬时性等优点受到了众多人们的欢迎,也为人们带来了极大的方便。微博中的各项信息内容种类较多,内容量大,具有巨大的分析价值和商业价值[1]。微博这一社交平台的网络关系建立在用户的兴趣爱好上,注册用户按照自身的兴趣爱好关注其他的微博账号,并根据自己的想法发布各种各样的内容。在这一背景下,使微博其他用户寻找其他有价值信息的难度也是越来越大。朴素贝叶斯算法的原理简单,对数据的适应性强,所以本文选取朴素贝叶斯算法对于微博文本数据进行分类,帮助人们获取到更有价值的信息。常见的文本分类算法2.1简单向量距离分类法简单向量距离分类法是根据算术平均为生成相应代表每类文本的中心向量,当有新类型的文本产生后,生成相应的新中心向量。之后,通过计算新中心向量与原有各个中心向量的距离(相似度),得出文本属于与距离值最小的类型文本[2]。简单向量距离分类法的计算步骤一共分为四点,如下所示:第一步,利用简单的算术平均计算各类文本集的中心向量;第二步,当新文本到来时,分词,把此项新文本表示为特征向量;第三步,计算特征向量与原有各个类型中心向量的相似度第四步,分别比较特征向量与原有各个类型中心向量的相似度后,选择相似度最大的数值,并将新文本分类到相应的文本类型中。2.2KNN算法KNN算法,也叫作K最近邻居算法。KNN算法的文本分类方式是在查询与新例子相似的原有例子后,判断新例子是否与已知例子属于一种类型。近邻算法分为很多种,但是它们的思路通常都是先将一部分例子或者全部例子进行储存。以相似性函数对测试例子和已经储存例子的距离进行计算,决定测试例子是属于哪一类别[3]。在模式识别领域中,KNN算法是知名度比较高的一种统计算法,最初在文本分类的研究开始展开时,KNN算法就已被广泛地应用在文档分类的方面。同时,相关实验研究也已经证明,KNN算法是优的文本分类算法。2.3贝叶斯算法贝叶斯算法是文本分类算法的其中一种。贝叶斯算法是将研究对象的已有认识-先验概率作为辅助判断因素,之后再得出更加精确的分类结论。和其他文本分类算法相比,贝叶斯算法的出错率教较小,所以较多地是应用在误判率和风险要求较小的相关分类研究中[4]。然而,贝叶斯算法在真正的计算时,往往需要根据已知条件概率进行计算,所以就需要获得这一数据,但是其决策面通常形状比较复杂,对于计算的难度比较大[5]。通常情况下,朴素贝叶斯算法被广泛地应用于大型的数据库中。在大型数据库中,贝叶斯算法能够快速、准确地得出相应的结论[6]。这种算法是通过一个假定,也就是通过条件独立来得出结论,即假定一个属性值对给定类的影响独立于其他属性的值。朴素贝叶斯算法的计算步骤如下所示:第一步,将每一数据样本用n维特征向量表示,分别对n个属性的相应度量进行描述;第二步,假设一共有m个类(C1,C2,...,Cm),一个没有类标号的数据样本为X,预测X属于具有最高后验概率的类。也就是利用朴素贝叶斯算法将X样本分配给Ci,,当且仅当P(CiIX)>P(CjIX),1≤j≤m,j≠i,最大化P(CiIX)。P(CiIX)中最大的类Ci就是最大后第三步,因为对于所有的类,P(X)为常数,只需要P(XICi)P(Ci)最大。当类的先验概率仍是未知项,通常会假定这些类具有相同的概率[7]。第四步,如果给定的数据集属性非常多,计算P(XICi)的过程也比较繁琐,开销可能较大。因此为了减少这种开销,通常假定数据集的属性相互独立。第五步,对于未知的数据样本X,对每个类Ci计算P(XICi)P(Ci)。朴素贝叶斯算法的计算思想,主要是将利用词和类别的联合概率来估计未知数据属于各个类别的概率[8]。朴素贝叶斯算法给出假设,一个词具有独立性,与其他属性之间不存在依赖关系,一个西在给定类别的条件概率独立于该类其他词的概率[9]。在这个假设的基础上,朴素贝叶斯分类器在计算时具有较高的效率,在分类的精度方面也较强。2.4其他分类方法除了常见的简单向量距离分类法、KNN算法和贝叶斯算法之外,决策树、神经网络算法和支持向量机等算法在文本分类中也比较常见。决策树是通过一系列的决策函数将某一个未知样本确定为某一个类别。决策树利用“分隔解决”的多层分类器,最终将一组没有次序和规律性的例子中推理出以决策树表示形式的分类规则[10]。决策树是一种自上而下的传递方式,通过比较决策树中每一个节点,在判断各自节点的属性后,确定各节点向下而传递的分支,最终在叶节点处得出结论。神经网络算法利用感知算法对文本进行分类。在神经网络算法的模型中,一些分类的依据和知识等被保存在连接的权值中,在迭代算法的作用下得出权值向量[11]。如果说最终网络输出被判定是无误的,权值向量不变,反之,则对权值向量进行相应的增减调整。支持向量机利用线形分类器,把样本的空间进行划分。如果遇到线形分类器不能划分的模式,通常是利用一个核函数将样本映射到高维空间中,之后即可用线形分类器进行划分[12]。加权的朴素贝叶斯分类器朴素贝叶斯的改进方法方面,通常可以分成以下五种类型:第一,扩展结构,利用有向便表达属性之间的依赖关系。第二,在属性选择时,在原始属性空间中搜索一个最佳的属性规约子集。第三,赋予各个属性以各自的权值。第四,实例选择,利用局部学习原理测试实力的邻域,并构建相应的朴素贝叶斯分类器。第五,赋予各个训练实例以各自的权值[14]。3.1TF-IDF加权法对于传统的朴素贝叶斯算法,是未考虑不同属性对于不同类别的影响。然而,实际文本中每一属性对不同类别的重要程度不同,这就需要在对文本进行分类时,需要更准确地描述特征与文本类别间的联系,所以应在不同类别的各个属性间赋予不同的权值。通常情况下,特征算法就是在考虑特征和类别之间的相关程度进行计算的,这种关联性恰好可以衡量特征与类别之间的关联性,所以在朴素贝叶斯算法中,可以将特征算法中特征与类别之间的相关程度结果引入到属性的权值中。就像互信息和信息增异熵一样[15]。TF-IDF就是目前比较成熟的特征权重计算方法。TF-IDF方法,即频数-逆文档频次法。其中的TF代表词频,IDF代表逆文档频率。最终得出的值越大,就说明特征越重要。TF-IDF加权法提出了一点假设,即对于文本分类的最重要特征词在此类别中的出现频率大,在其他类别中的出现频率小,而且特征词具有区分不同类别文本的能力[16]。TF-IDF加权法的主要思想是利用特征词在文本中的出现频率,出现频率越小,区分类别的能力越大。基于此,需要用TF、IDF之积来作为选取特征的指标。关于TF和IDF乘积(TF-IDF)的定义如下所示:Ny的意思为文本中特征y出现的数量,N表示为总特征的个数,nc表示数据集的总文本数。由于公式中出现log1时,会导致最终的TF和IDF乘积(TF-IDF)数值为0。为了避免这种情况,通常会加入“1”这个数,这里的公式表示为:实际上,IDF是对TF进行调整的数值,是为了进一步突出重要的特征词而出现的。但是从本身的性质上看,IDF是为了抑制噪音的加权,同时文本的频数越小,说明特征词就越是重要,反之,文本频数越大的特征词重要程度就越小。很明显,从本质角度看的这种说法不是完全正确的。IDF的结构简单,也轻易能够理解,但是还是不能有效地反映出特征词的大致分布。这就导致后续想要对TF进行调整时,也比较难。因此,可以得出TF-IDF加权法的结果精度仍待进一步提升。3.2DC-TF-IDF加权法相比TF-IDF加权法容易忽视在类内和内间均匀分布的缺点,DC-TF-IDF加权法在这一方面是比较成熟的。将特征在类内和类间的影响作为考虑的因素时,某一特征在某类别中含有的类别信息与均匀分布在很多类中含有的信息多。同时,相同类别中的特征在多个文本中均匀分布就会产生更多的类别信息,所以特征项的均匀分布程度,对文本分类的影响也是比较大的。为了便于表达两者的关系,引进类间集中度(CD)和类内分散度(DD)[17]。类间集中度(CD)指特征项在每一类别均匀分布的程度。如果特征项在某一个类别中的分布程度越集中,就说明该类别中的信息越多,能够代表该类别的也就越多。类内分散度(DD)指某一个类别中特征项分布的均匀程度,文本中特征项越多说明特征越分散,这一特征就能做出更多对于分类的贡献。关于类间集中度(CD)和类内分散度(DD)的定义如下:Nciy为特征y在ci类别中的文本数,ny表示y在数据库中的文本数,Ci的文本数为nci。对于计算类间集中度和分散度的时候,不能只考虑一个值。如果只考虑一个值,很可能导致最终的特征自己不能很好代表原有信息的分类,甚至对最终的特征选择造成干扰。例如:有20封邮件,A和B各占一半,特征C只在B邮件中出现一次,而特征D在两个类中各自出现7次。特征分布表如下表2-1所示:表1特征分布表类别特征C特征D是否是否A1973B01073由于特征C只是一个稀有项,不能代表B的信息,所以在特征选择时可以不选择C项。如果说只考虑类间的集中度,特征C的类间集中度是1,对于后续特征选择可能产生干扰。而对于特征D,不能将类比进行区分,在特征选择的时候,同样应该被忽略。而如果只考虑类内分散度的指标,由于该特征在各个类别的分散度相同,也会对特征选择产生干扰。基于此,可以得出类间集中度和类内分散度需要同时被考虑。上文提到TF-IDF加权法未考虑特征在类内和类间均匀分布的程度,所以可以在TF-IDF加权法中引入CD和DD的这一个整体,从而实现对特征在类内和类间均匀分布程度的考虑。CD和DD合成的函数为:最终合成的DC-TF-IDF函数表示为:3.3加权朴素贝叶斯分类器经典朴素贝叶斯分类器的定义为:可以发现,其中每一属性的重要程度没有区分。为了更好地区分不同特征对于不同类别的重要程度,为各个类别的不同属性引进DC-TF-IDF权系数,得出加权朴素贝叶斯分类器朴素贝叶斯在微博分类中的应用4.1爬取数据目前,无论是借助统计软件获取数据,还是直接到第三方软件中获取数据,技术都比较发达,获取数据也比较地方便。本文研究朴素贝叶斯在微博分类中的应用,主要是采用后裔采集器,对微博中2020年8月18日到8月21日的《再见,陌生人》电影影评数据21124条进行直接抓取。关于爬取数据的结构,包括用户名、时间、星级和影评等四项。4.2文本清洗在利用数据采集器成功获取到微博的影评数据后,将这部分数据进行简单清洗、整理、去除格式、补齐缺失数据、删除重复和空白数据。比如,获取到的数据有的是在评论中以一些不规律的符号出现的,在后续对文本进行分类时无法发挥数据作用,所以在文本清洗的环节中,直接将这部分数据删除。4.3数据预处理当文本清洗完毕后,剩余微博评论影评31440条。在此基础上,选择其中的7000条影评数据,并利用朴素贝叶斯模型对这部分文本进行分类。4.4文本分类环节在文本分类的环节中,本文采用jiebaR中文分词包,利用R软件对选取的7000条影评数据进行分词处理。通过上网下载停用词库,并在分词处理结果的基础上更新停用词库,从而进一步实现适合自身的分词对象。并且更新自定义词典,满足一些个性化需求。由于本次研究所用到的数据是7000条影评数据,在分词后对词频进行统计,截取部分结果如下表2所示。表2词频统计表词条词频电影2014好看1766搞笑1734中国1530喜剧1090通过对上表2的观察,可以发现“电影”这一词条出现的频率达到了2014次。尽管出现的次数较多,但是这一词条并不是本次分类需要的选项。因此,将“电影”放在停用词库,对数据进行再次分词。同时,词条中的“个人英雄主义”是对电影形象的评价,但是在检测的结果中通常是出现“个人”和“英雄主义”,所以将“个人英雄主义”自主加入到自定义词典中,并进行再次分词处理,直到最终产生一个满意的状态。对分词进行处理的时候,经常会出现评论的分词结果是0条分词。但是当对原始评论数据查看时,发现评论数据本身的表达就有问题。例如,用户对“为什么写影评”没有表达。还有类似的一些影评评论,如下表3所示,这样的评论直接作删除处理。最终剩下影评6530条。表3部分删除影评数据影评分词结果为什么写影评/非常**/对词频数小于5的词条进行删除,得出最终1200个词条,部分分词结果见表4。表4部分分词结果词条词频电影1766好看1728搞笑1528中国1090剧情1087值得976支持718好626不错577国产5594.5交叉验证因为分词结束完成后,得到1200个词条,如果直接利用这些词条进行建模,是需要花费较多精力的,这就需要人为地进行属性降维。具体是在这些词条中选取对结果影响比较大的特征,并纳入特征子集,再利用特征子集的数据进行建模。通过随机选取总数中70%的影评作为训练集,30%的影评作为测试集,进行属性选择和分类模型训练。通过利用R语言的caret包,对属性进行选择。由于样本量过大,所以采用随机森林函数和10重交叉验证抽样方法对属性进行选择,结果如表5所示。在过滤后选取274个属性作为最终的属性集,对数据进行建模。表5属性选择结果表AccuracyKappaAccuracySDKappaSD0.7920.6520.0200.031通过对上表3-4的观察,可以发现在选择了274个属性后,模型分类的正确率达到79.2%。尽管正确率不是特别高,但是却在一定程度上减小了属性集的维度,增加了运算速度。部分属性表如下表6所示。表6部分属性表属性表演棒逼真不敢相信不足差距不喜欢标杆通过将确定的属性子集作为本次文本分类的特征集,并利用朴素贝叶斯方法对微博评论中的影评数据进行分类建模。对模型进行学习和训练后用测试集对模型进行检验,分别计算微平均F1-测评值。传统朴素贝叶斯模型预测结果下表7所示。表7传统朴素贝叶斯模型预测结果真实值预测值jmtzj75421451m394227t20227722z180654487微平均F1-测评值的计算方法如下:其中,a代表真实类别为yes且预测值也为yes的文本数,b代表真实类别为no且预测值也为yes的文本数,c代表真实类别为yes且预测值也为no的文本数,d代表真实类别为no且预测值也为no的文本数。所有被正确分类的文本数记为aall所有被错误分类的文本数记为ball,所有应该被正确分类但误分的记作Call。经过计算后,得出微平均F1-测评值为79.63%。这个数值不是特别高,所以接着在每个类别的各属性添加一个权系数。得到的TF-IDF值如下表8所示。表8TF-IDF值特征类别jmtz表演0.010600.00170.0174不足0.0022000.0080棒0.00860.005500.0065差距00.013300.0016在此基础上,对传统的朴素贝叶斯分类器进行简单的加权改进,重新计算,得到数据如下表9所示。表9TF-IDF权重模型预测结果表真实值预测值jmtzj77001833m315234t15029214z186670465如上表9所示,在引入TF-IDF权系数后,可再次计算微平均F1-测评值为80.60%,与原来的79.63%有了明显增加。因此,说明引入TF-IDF权系数是有效的。为了进一步提升模型的分类效率,计算部分DC-TF-IDF值如下表10所示。表10DC-TF-IDF值特征类别jmtz表演9.61E-0604.68E-083.17E-04不足1.84E-07006.05E-05棒2.65E-053.43E-0604.49E-08差距00.013300.0016接着用DC-TF-IDF作为属性权系数重新建模,得到数据如下表11所示。表11DC-TF-IDF权重模型预测结果表真实值预测值jmtzj653319146m1353123t7023876z53032642用表11中的数据计算微平均F1-测评值,为80.96%,比TF-IDF中的微平均F1-测评值80.60%高,说明对模型预测分类有明显帮助。对微博评论中的影评数据进行分类,可以发现对属性引入权系数后,模型的分类效果得到增强。如下表12所示。表12各权重下的微平均F1-测评值(MiF1)权重微平均F1-测评值(MiF1)无79.63%TF-IDF80.60%DC-TF-IDF80.96%结论本文利用朴素贝叶斯方法对微博评论中的影评数据进行分类,给朴素贝叶斯模型引入权系数并进行建模,通过对比模型的微平均F1一评测值,确定模型对影评数据进行分类预测。在使用朴素贝叶斯方法建模时,分别采用传统的朴素贝叶斯模型、TF-IDF加权朴素贝叶斯模型以及DC-TF-IDF加权朴素贝叶斯模型对数据进行训练和测试,最终发现DC-TF-IDF加权朴素贝叶斯分类器的微平均F1一评测值都是最高的。从某种程度上讲,通过合理的分类简化影评内容,丰富影片信息,多角度对影片进行评价,给消费者提供更加直接、清晰、明了的参考依据。
参考文献[1]郭树强,黄蕊,李卿.改进加权朴素贝叶斯的软件缺陷预测算法[J].控制工程,2021,28(03):600-605.[2]王红卫,董鹏宇,陈游,周一鹏,肖冰松.半监督条件下基于朴素贝叶斯和Choi-Williams时频分布能量积累的雷达信号识别[J].电子与信息学报,2021,43(03):589-597.[3]张春英,冯晓泽,刘洋,马逸涛,刘凤春,高瑞艳,任静.一种新的三支扩展TAN贝叶斯分类器[J].小型微型计算机系统,2021,42(03):485-490.[4]杨超,李卫民.朴素贝叶斯小样本金融客户分类方法与分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房屋转让买卖合同
- 华南理工大学《数字化运营》2022-2023学年第一学期期末试卷
- 华南理工大学《机器人理论及技术》2021-2022学年第一学期期末试卷
- 华南理工大学《弹性力学与有限元法》2023-2024学年第一学期期末试卷
- 农田灌溉设施防雷方案
- 初中学习策略培训实施方案
- 面点培训配方课程设计
- 市政工程现浇箱梁施工方案
- 体育赛事疫情防控工作实施方案
- 临边安全防护施工方案
- 2024年教师普通话培训心得体会范文3篇
- 统编版五年级上册语文第六单元《口语交际父母之爱》公开课一等奖创新教学设计
- 《经济学基础》课件:项目一 揭开经济学的面纱
- 2024年T8联考高三第二次学业质量语文试题答案讲评课件
- 环形电流的磁场强度
- 消防科普教育馆管理制度及流程
- 磁力泵安全操作及维护培训课件
- JJG 643-2024标准表法流量标准装置
- 单位办理ETC授权书
- 一起电动自行车火灾事故原因认定和分析
- 广东省广州市2023-2024学年高一上学期1月期末英语英语试题(解析版)
评论
0/150
提交评论