《基于TF-IDF算法的在线评论情感分类方法研究10000字(论文)》_第1页
《基于TF-IDF算法的在线评论情感分类方法研究10000字(论文)》_第2页
《基于TF-IDF算法的在线评论情感分类方法研究10000字(论文)》_第3页
《基于TF-IDF算法的在线评论情感分类方法研究10000字(论文)》_第4页
《基于TF-IDF算法的在线评论情感分类方法研究10000字(论文)》_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于TF-IDF算法的在线评论情感分类方法研究摘要在线评论中的用户情感信息,可能会产生舆论,因此,评论文本情感分类成为公安工作的重点。为高效、快捷地进行文本情感分类,本文提出基于TF–IDF的在线评论情感分类方法。首先,提出TF–IDF算法,以新闻评论文本为研究对象,利用八爪鱼采集器对在线评论文本进行爬取;其次,利用jieba对评论文本进行分词,导入情感词,利用TF–IDF算法计算情感词的TF–IDF值,选取TF–IDF前五名的情感词与情感词典对比,进而进行评论文本情感分类;最后,研究新闻评论的情感倾向。结果表明,基于TF–IDF的在线评论情感分类方法可快速实现评论文本的情感分类。公安机关根据情感偏向,预测新闻事件的舆论走向,制定应对措施,控制事态,推动公安工作有序进行。关键词:在线评论;情感分类;TF–IDF算法;jieba目录TOC\o"1-2"\h\u86481引言 引言研究背景及意义互联网出现后,经历了多次技术革命,普及范围越来越广,网络用户数量越来越多。后来,开发者研究出各类软件和APP,使得用户登上了线上评论平台。用户通过线上评论来表达自己在享受服务过程中的感受,因此网站每天积累了大量的评论信息[1]。到了5G时代,越来越多的领域开始借助大数据来进行日常运转,用户评论的信息爆发出前所未有的价值[2],例如:随着电子商务业的发展和网络购物平台的兴起,商家根据用户对产品的在线反馈和评价,汲取经验,优化产品。各大新闻网站也纷纷研究出自己的APP,将收集到的原始新闻资料在最短的时间内编辑成实时新闻,发布到APP上,传播社会正能量。用户通过登录APP账号,在线发表自己的观点,体现自己的情感倾向。而这些能够表达情感倾向的评论,往往可以体现舆情走向,而对舆情走向进行判断是公安机关的重要工作。想要对在线评论进行舆论的判断,就要对在线评论文本进行情感分类,因此,就需要一种方法来完成在线评论的情感分类。在线评论情感分类,指的是利用计算机技术,自动对评论文本进行情感判别,根据文本的情感偏向对文本进行分类。但是现阶段,公安机关缺少对在线评论的收集和研究,如果公安机关能够对这些含有情感倾向的评论进行收集、分类、分析,就能判断用户的情感倾向,预测未来是否会产生舆论。若评论文本会产生舆论,公安机关可根据舆论的方向提前制定应对措施,对用户加以引导,消除消极情绪,回应积极反响,控制舆论,维护社会治安,减轻事件对社会的影响,推动公安工作有序进行。然而,用户发表的评论文本数量增长速度极快,如果靠公安机关工作人员人工搜索收集,工作量极大,时间长、效率低,且不容易进行分类分析。因此,采用计算机技术实现评论文本情感分类的自动化,可在短时间内实现评论文本情感分类,高效、便捷,减轻公安机关工作人员的工作压力,便于评论文本的后续情感分析。1.2国内外研究现状目前,在线评论情感分类的研究主要集中在基于情感词典的分类方法、基于情感值分类的方法、基于机器学习的分类方法三个方面[3]。为了更加合理化地判别在线评论所表达的情感,应对情感信息碎和杂的特性,理清在线评论的情感类属,国内外学者对在线评论情感分类方法展开研究。1.2.1基于情感词典的分类方法情感词典是在线评论文本中情感词的汇集库,是供在线评论情感分类的检索基础,利用情感词典对收集到的在线评论文本进行识别,再根据一定的规则对文本的情感偏向进行计算和判断。现阶段,存在的情感词典类型包括:基础情感词典、否定词词典、程度副词词典、扩充词典[4]。我国已经研究过的情感词典有:知网HowNet情感词典[5]、台湾大学NTSUD情感词典[6]、大连理工大学信息检索研究室的情感词汇本体[7]、领域情感词典[8-9]等。此外,毛超群[10]利用改进的情感词典对在线评论文本进行分类研究,是对情感词典的扩展,使得分类更加准确。在情感词典领域,国外的学者们也有很多研究成果,主要包括:WordNet词典[11]、SentiWordNet词典[12],这些研究对在线评论情感分类领域贡献重大。基于情感词典的分类方法优缺分明,优点为:方法简单有效,便于使用和分析;缺点为:需要人工建立情感词典,工作量极大,且需要及时更新,因此,情感词典的质量对情感分类的结果影响重大。1.2.2基于情感值的分类方法基于情感值的分类方法,是以情感极性为依据,以情感词为研究对象,对在线评论文本进行情感分类。评论文本中的情感词包括:褒义词、贬义词、中性词。很多研究中,情感词的情感强度用-1至1之间的数值来表示。其中,当情感值为0时,则表示情感词的词性为中性。在这个领域中,国内的赵军和王根在研究独立于上下文的情感倾向性的基础上提出词语极性的极坐标计算方法[13];朱嫣岚等提出了基于语义相关场和基于语义相似度两种HowNet基础上的词语情感倾向计算方法[14],两种方法相结合的实验结果比单一的方法的实验结果更加准确。国外的梅尔维尔、格里克、劳伦斯[15]利用词汇知识和文本分类,对在线评论主观情感倾向进行统计分类,并将情感分类细化。1.2.3基于机器学习的分类方法基于机器学习的分类方法计算量小,建模方便简单,但却在复杂问题上的泛化能力受到限制,受到数据训练量和文本特征选择的限制。基于机器学习分类方法中,最具有代表性的是深度学习分类方法[16]。深度学习分类算法通过学习底层数据的组合方式,组建深层神经网络[17-18],实现数据的分布式表示。深度学习分类算法,比传统的机器学习分类算法在复杂问题上的泛性能力更强。卡文卡克林[19]利用机器学习,对在线评论情感词进行提取、分类,并对机器不断训练,实现高效自动化在线评论情感分类。1.3研究的基本内容在线评论情感分类是互联网兴起以后,对互联网文本的重要情感偏向性研究,掌握在线评论文本的情感偏向,可对社会事件、新闻舆论做出趋势预测。公安机关工作中,根据情感偏向、事件趋势预测,提前做出应对措施,对事件发展加以引导,减少对社会的影响。本文中研究的主要内容主要包括:1.对已有的在线评论情感分类方法进行学习、介绍,并设计算法本文介绍了基于词向量和情感本体的评论文本情感分类算法和深度学习分类算法。明白这两种算法的具体原理和操作流程,清楚在线评论情感分类的具体思路,改进TF-IDF算法,对本文后面的研究和实验打下基础。2.文本的预处理首先利用网络爬虫技术,对在线评论文本的进行数据获取,其次,去除文本中的停用词、表情符号,随后进行分词,提取情感特征词,为文本情感分类、文本情感偏向性分析做准备。在线评论文本一般短小精悍、言简意赅,但却能准确地表达出评论者对此新闻事件的情感偏向,具有很明显的褒贬性或中立性。3.文本情感分类模型根据在线文本情感分类的特征,设计文本情感分类模型,并以此为基础,进行后续的实验。4.实验验证本文以在线新闻评论为研究对象,对爬取到的在线评论文本进行分词、去停用词,利用文本情感分类模型进行在线新闻评论文本的情感分类,根据得到的数据进行文本情感偏向分析,最后得到结论。1.4研究方法本文中运用的研究方法主要包括:文献法、实验法、比较法。1.文献法:指的是参考已经发表的国内外文献来研究自己的课题的方法。通过收集、阅读、整理相关文献资料,了解国内外在在线评论情感分类方法研究方面的成果,学习在线评论情感分类方法研究的知识,并以此为基础进行创新和突破。2.实验法:指的是利用网络文本数据,将算法进行实验分析,并结合具体案例深入分析的方法。通过计算机工具、编程方法收集实验数据或关键词,根据资料找出在线评论情感分类的方法,利用收集的数据,进行实验测试,得到实验结果,对新闻事件进行情感偏向性分析。3.比较法:将同类元素进行大小、特性、特定元素等方面的对比,鲜明的比较出两者或多者的优势和不同,有利于得到实验结果。比较在线评论的情感分数,得到评论的情感偏向,表明大众对新闻事件的态度,有利于公安机关对舆论进行预测,便于提前制定应对措施,防患于未然,预防舆论的产生或减轻社会舆论事件对社会的影响。2文本情感分类基础现阶段,在线评论文本一般分为三类:正面评论、负面评论、中性评论。对于此三类评论所表达的情感,当今世界有众多方法,每种方法都有自己的优势和分析思路。2.1在线评论情感分类相关研究表明,在线评论比从其他途径获取来的信息更加真实准确,研究在线评论可以得到大量情感信息,进而分析用户的情感走向。在线评论可以从不同角度进行分类,表达积极情感的为正面评论,表达消极情感的为负面评论,除此之外的是中性评论。1.正面评论正面评论指的是正面评价信息。它赞扬事件传播的正能量,对事件参与者表达积极支持,号召大众向其学习的评论。2.负面评论负面评论是指对事件的负面评价。它否定此事件中的有违背伦理道德的行为,对此作出相关批评,告诫大众不要有类似做法,可能会指出正确做法的评论。3.中性评论中性评论是指,在评论中,不带有积极或消极的情感偏向,或者分别从积极或消极两个角度表达观点的评论。其中,符号、图片、动画表情是情感的间接表达方式,本文将它们分类到中性评论。根据已存在的研究成果可以看出,评论文本中的积极倾向多余消极倾向。这是因为人们越来越乐观,越来越积极向上,想要通过正面评论传递更多的正能量,营造良好的社会氛围。2.2常用算法常用的在线评论情感分类算法有:基于词向量和情感本体的评论文本情感分类算法、深度学习分类算法、TF-IDF方法三种方法作出分析研究。2.2.1基于词向量和情感本体的评论文本情感分类算法大连理工大学的林鸿飞教授带领团队,从情感类别、词语词性种类、情感强度及极性等多个方面对短语或词语进行描述,完成了中文情感词汇本体库的构建。由于情感词更新速度快,在不同语境中,同一个情感词可能会表达不同的情感,会影响评论文本的情感倾向,且中文情感词汇本体库中收编的情感词汇更新速度未能及时跟上情感词的产生速度,社交平台上的表情符号和表情图片未能全部收录和情感分类,导致未能收录的词汇、符号、图片不能通过系统直接判别情感种类。图1、图2是微博评论区的评论,这些评论中就包括符号。图片中文本内容:绽放昆仑的雪莲[棒][爱心][红花]图片中文本内容:绽放昆仑的雪莲[棒][爱心][红花]图1在线文本样例图片中文本内容:雪域绽放雪莲花,无悔诗歌与远方。巾帼戍边英姿飒,致敬当代花木兰。[国旗][棒]图片中文本内容:雪域绽放雪莲花,无悔诗歌与远方。巾帼戍边英姿飒,致敬当代花木兰。[国旗][棒]图2在线文本样例图1、图2中的[棒]、[爱心]、[红花]、[国旗]属于符号数据,是间接的情感表达方式,将其中重复的表情符号去重,并进行进一步的筛选。因此,对收集到的在线评论文本进行文本去重、机械压缩去词、短句删除、文本分词,结合Word2Vec的词向量生成,如图3所示,实现文本分类。其中,w为输入的内容以及C(w)为w对应的词向量。图3Word2Vec的词向量生成原理图利用词向量和情感本体结合的分类方法,如图4所示,便可实现对评论文本的去重和情感分类。图4词向量和情感本体结合的分类流程图2.2.2深度学习分类算法深度学习分类算法是经过数据预处理、文本特征提取与向量化表示、模型分类与评估三个步骤的机器深度学习算法,如图5所示。模型分类与评估文本特征与向量化数据预处理模型分类与评估文本特征与向量化数据预处理图5深度学习分类算法流程图2.2.3TF-IDF算法TF-IDF(TermFrequency-InverseEocumentFrequency)算法是词频-逆文档频率算法,是在线评论在线评论情感分类方法之一,利用此方法可得知文本中特定词语对整个评论文本的重要程度。其中,TF(词频)是指某一词语在其所在评论文本中的出现次数,TF值和特定词语的出现次数成正比。IDF(逆文档频率)指的是包含特定词语的在线评论文本越少,IDF的值就越大,说明词条具有很好地类别区分能力。TF-IDF值等于TF值与IDF值的乘积。特定词语的TF-IDF值就越大,说明这个特定词语越重要,就越能成为文本情感分类的关键词。TF-IDF算法方便快捷,便于理解和操作,数据清晰直观,因此,本文在TF-IDF算法的基础上进行改进,并进行实验操作和验证。3基于TF-IDF的在线评论文本情感分类在线评论文本的分类首先要对评论文本进行获取,利用八爪鱼采集器便可实现对位版本的爬取;然后将文本中爬取的内容用jieba进行分词,获得实验所需要的情感表达词,建立情感词词典,去除停用词、重复词;利用TF-IDF算法将文本中的情感词进行分类,进而实现对评论文本整体的情感分类。3.1新闻文本内容的获取在新闻网站中,除了用户客户端发表的评论以外,还有新闻文稿本身,这些新闻文稿在提取时也会保存在文档中,对此,一定要对正文文本和评论文本进行区分。因此,确定新闻评论文本的范围十分重要。3.1.1新闻评论客户端评论文本的产生新闻网站诞生以后,从一开始的只能浏览新闻,到后来新闻客户端用户也可发表在线评论,实现了新闻发布者与用户之间的互动、为用户与用户之间的讨论提供了平台。在5G时代,新闻网站、新闻APP成为重要的社会事件评论参与平台,很多网络使用者、新闻浏览者都会通过这些平台发表自己的观点,成为社会舆论的集中产生地。用户会通过在评论区留言的方式,表达自己对社会事件的看法,如图6所示。图6评论区的评论在这些评论中,部分用户表达积极观点,部分用户表达消极的观点,还有部分用户从正反两个角度表达观点,或者在表达观点时不掺杂感情色彩,而我们要做的,就是对这些新闻评论进行收集,对其表达的情感进行分类。3.1.2新闻文本内容的提取方法以在线新闻评论文本为研究对象,进行文本的提取。要进行在线评论文本的情感分类,首先要进行评论文本的收集。在对文本收集的过程中,有Python语言爬取和采集器爬取两种方法。但使用Python语言进行网络爬取时,编写爬取语言难度大,部分网站因广告、不能全部加载等干扰因素导致无法有效采集评论文本,增加前期工作难度。比如爬取微博的评论文本,一次爬取的文本数量有限,想要爬取更多的文本,需要手动拖动滚动条来加载更多的评论。使用数据采集器对在线新闻评论文本进行文本采集,在采集文本的过程中,操作流程可视化,可对文字图片进行采集,方便高效,利于采集。现有的数据采集器有:Wireshark、八爪鱼采集器等。Wireshark软件操作较复杂,且分析爬取的数据时,对专业知识储备要求较高。本文中我们使用的网络采集器软件是八爪鱼采集器,如图7所示。图7八爪鱼采集器主页在爬去评论文本时,具体操作为:进入八爪鱼采集器,将要采集评论文本的网址输入到采集器中,点击“开始采集”,进入网址对应的网页;点击页面中要爬取的内容,确定无误后点击“采集”;保存采集之后选择“本地采集”,采集出的数据可以导出,一般导出的格式为Excel。针对抓取内容不准确的地方,我们要缩小范围进行抓取。3.2文本的预处理在获取文本内容后,要对文本内容进行预处理,这个过程包括:设计算法实现文本的分词、去停用词、设计情感词典等内容。3.2.1评论文本分词评论文本分词是指,将爬取到的文本中的段落、句子或短语按照已经制定好的规则分成词序列的过程,简化文本,便于归类或分析。本文中,我们将利用jieba对获得的新闻评论文本进行分词。jieba是运用Python语言的第三方分词库,支持精确检索、全检索和引擎搜索。分词原理是依据词库判断汉字之间的关联概率,最大可能的组成词组,并且用户可以根据自己的需求来添加自定义词典。首先,我们下载好Python语言,为jieba库的安装搭建好环境。打开命令提示符,输入pipinstalljieba便可实现jieba库的下载,如图8所示。图8jieba库下载成功打开Python,输入importjieba便可从Python进入jieba库,也可以检验jieba库是否下载成功,如图9所示。图9从Python进入jieba通过Python语句来实现全模式分词和精准模式分词,如图10、11所示。图10全模式、精准模式分词实现代码图11全模式、精准模式分词效果图还可以将自己设计的词典加入到jieba算法中,具体的实现的语句为:jieba.load_userdict(file_name)。括号中的内容式词典的名称,但是需要注意的是字典的格式是记事本,即txt格式。新闻评论文本中的情感词提取是新闻文本情感分析的关键,对公安机关了解民众意见、化解矛盾、提前做出应对措施避免事态扩大进而引起社会舆论起到重要的作用。在后面的实验中,我们也将使用jieba算法对新闻文本进行分词。3.2.2情感词典的设计情感词典是对收集到的情感表示词按照积极、消极或中性的分类规则进行归纳分类,方便实验时的数据库调用和比对。现阶段,我国常用的情感词典包括:台湾大学中文情感极性词典NTUSD(NTUSentimentDictionary)、知网Hownet情感词典、SentiWordNet公式。其中,台湾大学中文情感极性词典NTUSD是根据情感的极性,将情感词分为正极极性和负极极性;知网Hownet情感词典是以汉语和英语为研究对象,根据已经明确作出解释的词语之间的联系进行分类。随着5G时代的到来,评论者创造出越来越多的情感词,其中,传统的情感词包括:积极:开心、高兴、兴奋、幸福、眉开眼笑;消极:生无可恋、生气、低落、消沉;中性:看戏、无所谓、无感、不关我的事。很多现阶段的情感词没有被收录到情感词典中,这就需要我们在实验前对情感词典进行扩充,如图12所示,以满足实验的要求。例如:积极:天秀、秀得天花乱坠、给力、点赞、洪荒之力;消极:交际花、我凑、奇葩、杠精、醉了、无语子、菜鸡;中性:佛系少女、雨女无瓜、吃瓜群众。将这些新产生的网络流行语加入到现有的情感词典中,以此来满足在线评论情感分类的方法研究。图12情感词典扩充3.2.3去停用词去停用词指的是,在文本预处理时,对收集到的文本进行过滤,去除掉某些词或字,方便检索,节省存储空间,提高文本情感分类的效率。在进行新闻评论情感分类之前,需要将语气词、符号等对文本分类造成准确性影响的词语去除掉,也就是去停用词。对此,我们需要设计停用词表stopword,如图13所示。图13停用词表部分展示3.3基于TF-IDF算法的情感分类方法对收集到的新闻评论文本进行文本分词、去停用词后,便要进入核心的一步,文本情感分类。此处,我们设计的方法是基于TF-IDF算法的情感分类方法。TF-IDF(TermFrequency-InverseEocumentFrequency,词频-逆文档频率),是在线评论情感分类方法之一,利用此方法可得知文本中特定词语对整个评论文本的重要程度。TF(词频)是指某一词语在其所在评论文本中的出现次数。见公式(3.1)TFα=一句评论文本中词语α出现的次数该评论文本中所有词语的个数由公式(3.2)得知,TF值和词语α的出现次数成正比,当评论文本中的词语个数一定时,α的出现次数越多,TF值就越大。IDF(逆文档频率)指的是包含特定词语α的在线评论文本越少,IDF的值就越大,说明词条具有很好地类别区分能力。见公式(3.2)IDF=log语料库的文本总数包含特定词语α的文本数+1因此,一个特定词语的TF-IDF值等于TF值与IDF值的乘积。见公式(3.3)TF−IDF=TF∗IDF(3.3)过滤评论文本中的停用词后,利用TF-IDF算法计算特定词语的TF-IDF值,将得到的数据按照降序进行排列,选取TF-IDF值前五名到前十名词语进行情感分析。特定词语的TF-IDF值越大,该词语就越能影响文本的情感偏向。就越能成为一篇新闻的关键词。用Python实现TF-IDF算法,如图14、15、16所示。图14情感词的导入图15TF-IDF算法实现代码图16TF-IDF算法运行结果4在线新闻评论的情感分类实验在前文中,我们讲到利用八爪鱼采集器爬取在线新闻评论文本内容,设计新的情感词典,利用算法来实现在线新闻评论文本中情感词的提取和分类,为了验证TF-IDF算法实现分类的可行性,本章将通过设计实验从新闻网站中获取在线评论文本来验证基于TF-IDF算法的情感分类算法的有效性。4.1实验内容打开微博,找到一例与公安工作有关的案例——“男子网上投资:赚了60,被骗了60000”案件,收集与此案例有关的用户评论,用jieba将评论文本进行分词,再结合停用词表去停用词,将预处理的结果导入TF-IDF算法,计算每个情感词的TF-IDF值,最后进行评论整体分析,结合公安工作实际得出结论。4.2实验过程实验的具体步骤为:1.获取新闻评论文本的内容;2.将评论文本进行分词、去停用词;3.经预处理的结果导入TF-IDF算法中,计算每个情感词的TF-IDF值,找到评论中的情感关键词;4.将情感关键词与情感词典进行比对,分析评论者对案件的情感偏向;5.根据实验数据,得到公安机关应对此案件注意的事项和后续的应对措施。4.2.1新闻评论文本内容的获取打开“男子网上投资:赚了60,被骗了60000”新闻网页,使用八爪鱼采集器采集数据,在采集器的地址框中输入此案件的网址——https:///2711488952/KaQxijuL3?type=comment,点击“开始采集”,从采集器中进入该案件网页,选取要采集的评论,去除与案件无关的信息;点击“采集”选项,利用本地采集,生成采集的文本,最后以Excel的形式导出采集文本。如图17、18、19所示。我们将采集器采集到的文本数据保存为txt格式,为后面的实验步骤做准备,便于后续实验的进行。图17八爪鱼采集案件评论文本数据图18八爪鱼采集案件评论文本数据图19八爪鱼采集器导出的文本数据4.2.2新闻文本内容的预处理利用jieba实现评论文本的分词,使用Python语言进行jieba库的运行实现。把八爪鱼采集器采集到的文本保存到记事本“news.txt”中,在建立一个记事本“results.txt”,用于保存jieba分词后的结果。用jieba实现文本分词的代码如图20所示,分词结果如图21所示。图20jieba算法实现文本分词的代码图21分词结果使用jieba分词后,再利用stopword(停用词表),对文本文档“results.txt”进行去停用词处理,去除文本中的无意义符号和语气词。4.2.3新闻文本分类使用TF-IDF算法进行情感词的分类,计算TF-IDF值,结果图如图22所示。图22计算TF–IDF值结果图由图4-6可以看出,“骗”“傻子”“骗子”“被骗”“受害者”“捏造事实”的TF-IDF值比较高,有次实验可以说明,“男子网上投资:赚了60,被骗了60000”案件评论中,关键词为“骗”“傻子”“骗子”“被骗”“受害者”“捏造事实”,通过对比情感词典,得出“骗”“傻子”“骗子”“被骗”“受害者”“捏造事实”都为消极的情感词,因此,评论者们对此案件持有消极态度甚至是反对观点,公安机关应该重视起来,积极侦破案件,制定相关应对措施,引导群众,预防社会舆论的产生,减轻案件对社会的影响。4.3实验总结实验证明,基于TF-IDF的在线评论情感分类方法,相比于基于词向量和情感本体的评论文本情感分类算法和深度学习分类算法,更加简便、高效,容易理解,便于使用操作;得到的数据使用降序的方法进行排列,数值大小对比直观,容易找到评论文本的关键词,便于判断用户的情感倾向,方便后续的情感分析。基于词向量和情感本体的评论文本情感分类算法和深度学习分类算法不易理解其中的原理,且深度学习分类算法涉及机器训练,专业性强,操作难度大,不便掌握。因此本文采用TF-IDF算法。TF-IDF算法可以实现对评论文本的情感分类,可以帮助公安机关有效地获取评论者们对事件的态度,通过TF-IDF值对情感进行排序,有利于公安机关掌握大众的情感偏向,预测舆论的产生,提前做出应对措施,对公安机关破案有着积极地作用。5总结与展望5.1总结在线评论情感分类领域中,研究人员有众多方法,对在线评论情感词进行多种分类,各有千秋。本文中,基于TF-IDF算法的在线评论情感分类方法,同样实现了对在线评论文本的细致分类,使得情感偏向研究、文本情感分类高效,准确。主要的研究内容如下:1.研究现存的在线评论情感分类方法,掌握文本情感分类的思路;2.利用网络爬虫技术,使用八爪鱼采集器对在线评论文本进行爬取,获得初步数据;3.研究TF-IDF算法,掌握算法原理和运行机制,使用Python语言、jieba分词对收集到的文本进行预处理,随后结合TF-IDF算法进行文本情感分类,完成实验验证;4.将基于TF-IDF算法的在线评论情感分类方法应用于公安大数据中,通过收集在线评论文本,对其进行情感分类,进而对舆情预测与预防提供便利。5.2展望在5G时代,人们越来越倾向于大数据、云计算,在视频、图片等下方的公开评论文本中,评论文本中一些情感词的出现便可能会引起此事件的社会舆论,对社会治安产生影响。对此,对基于TF-IDF算法的在线评论情感分类方法未来的展望为:结合公安大数据,通过在线评论情感分类对事件进行判别,预测此事件是否能够在未来产生社会舆论,若不能,减少对此事件的关注度,若能,及时制定相关舆论防控措施,并根据事件的动态发展积极应对,减轻或消除此事件对社会的影响。参考文献[1]李佳儒,王玉珍,丁申宇.基于逻辑回归的在线评论情感分类方法研究[J].东莞理工学院学报,2020,27(5):50-54.[2]贺洋.基于证据推理的汽车评论情感分类与评价研究[M].合肥工业大学,2020.[3]魏万恒.电子商务在线评论情感分类方法研究[M].北京邮电大学,2019.[4]王涛.基于情感分类的酒店评论文本挖掘研究[M].重庆师范大学,2019.[5]知网.《知网》情感分析用词语集(Bata版)[EB/OL].[2007-10-22][2021-01-23].http//www.keenage.com/.[6]KhamFH,ChenHH.MillingopinionsfromtheWeb:Beyondrelevanceretrieval[J].JournaloftheAmericanSocietyforInformationScienceandTechnology,2007,58(12):1838-1850.[7]徐琳宏等.情感

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论