基于机器学习的抖音短视频用户分析_第1页
基于机器学习的抖音短视频用户分析_第2页
基于机器学习的抖音短视频用户分析_第3页
基于机器学习的抖音短视频用户分析_第4页
基于机器学习的抖音短视频用户分析_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

[键入文字]基于机器学习的抖音短视频用户分析Useranalysisofdouyinshortvideobasedonmachinelearning内容摘要随着社会的发展。抖音短视频APP的碎片化时间娱乐,进行抖音短视频APP的用户数据分析,有利于不同用户的选择以及创作者的内容创作。针对短视频用户分析是建立在抖音App上的用户评论数据分析,进行抖音用户数据的爬虫,然后进行数据的分析。基于抖音短视频App的用户分析,使用机器学习的情感分析算法进行用户数据的区分以及分析。在本次研究中,情感分析算法使用贝叶斯模型进行语句的情感分析预测。使用jieba分词系统用于对视频内容进行分类区分。使用机器学习算法中的snownlp库进行中文语句的判断预测,snownlp库可以为中文语句的情绪判断进行预测。当判断返回值越接近1的时候,表示为正面情绪,越接近0的时候表示负面情绪。在本研究中,采取了百度AI情感分析以及本研究使用的基于贝叶斯模型的snownlp库情感分析的对比数据测试,从数据样本中随机抽取1000条数据进行准确度测试。经过测试分析,本研究使用的情感分析算法与百度AI得出的情感分析的准确率达到85%。通过数据测试,证明本研究所使用的情感分析算法准确率可以得到有效的保证以及可信度。关键词:数据分析;机器学习算法;数据爬虫;分词AbstractWiththedevelopmentofsociety.ThefragmentedtimeentertAInmentofDouyinShortVideoAPP,userdataanalysisofDouyinShortVideoAPPisbeneficialtothechoiceofdifferentusersandthecontentcreationofcreators.TheanalysisofshortvideousersisbasedontheanalysisofusercommentdataontheDouyinApp,crawlingtheuserdataofDouyin,andthenanalyzingthedata.BasedonuseranalysisofDouyinShortVideoApp,machinelearningsentimentanalysisalgorithmisusedtodistinguishandanalyzeuserdata.Inthisstudy,thesentimentanalysisalgorithmusesBayesianmodelstopredictsentimentanalysisofsentences.Usejiebawordsegmentationsystemtoclassifyvideocontent.UsethesnownlplibraryinthemachinelearningalgorithmtojudgeandpredictChinesesentences.ThesnownlplibrarycanpredictthesentimentjudgmentofChinesesentences.Whenitisjudgedthatthereturnvalueiscloserto1,itrepresentspositiveemotions,andthecloseritisto0,itrepresentsnegativeemotions.Inthisstudy,BAIduAIsentimentanalysisandthecomparativedatatestbasedonBayesianmodel-basedsnownlplibrarysentimentanalysiswereused,and1,000datawererandomlyselectedfromthedatasamplesforaccuracytesting.Aftertestingandanalysis,thesentimentanalysisalgorithmusedinthisstudyandBAIduAI'ssentimentanalysisaccuracyratereached85%.Thedatatestprovesthattheaccuracyofthesentimentanalysisalgorithmusedinthisresearchcanbeeffectivelyguaranteedandcredible.Keywords:Dataanalysis;machinelearningalgorithms;datacrawlers;wordsegmentation广东东软学院本科毕业设计(论文)目录第一章绪论 11.1研究的目的和意义 11.2国内研究现状 31.3研究的主要内容 4第二章抖音用户数据爬虫 52.1爬虫方法 52.2抖音短视频用户数据爬虫原理 82.3用户数据爬虫模块分析 10第三章用户数据分析 123.1用户数据分析方法 123.1.1短视频内容分类方法 123.1.2用户评论分析方法 133.2用户数据分析原理 143.2.1短视频内容分类原理 143.2.2用户评论数据情感分析原理 15第四章用户数据分析研究结果 18第五章总结 24致谢: 25参考文献: 26第一章绪论1.1研究的目的和意义本研究的目的是因为现在的短视频可以让更加多的用户利用自身的碎片化时间进行碎片化的娱乐,也可以通过短视频的一些碎片化的知识来丰富自身的一些底蕴知识。目前的很多国家官方平台,例如央视CCTV,共青团等等的国家官方性组织,也已经进驻了很多的短视频平台,抖音短视频平台现在已经集合了很多的官方平台以及很多优秀的视频创作者,但是由于现在的视频创作者对于现在的大部分的短视频App用户更容易接受的视频内容的定位以及类型,没有足够的数据分析以及专业的平台进行用户的数据的收集分析。以至于现在的视频创作者对于自身的视频创作受到了很大局限,视频创者作无法根据现在的大部分用户对不同类型的视频的喜欢程度以及接受度进行针对性的创作,也在一定程度上让短视频创作这一个行业,以及自媒体的从业者,在内容的创作上很容易陷入一定程度的创作困难。现在的短视频平台App因为视频拍摄简单。从而也导致很多对于喜欢视频创作,想通过视频创作而向着自媒体这一行业进行转行的人,但是因为现在并没有完善的平台进行短视频用户的数据进行分析,无法让一些新加入的短视频创作者通过现如今的短视频App用户的分析,针对现在的用户对于视频的类型的喜欢程度以及接受度比较高,进行一个针对性的创作,可以在转行做自媒体的视频创作初期,可以得到一个比较好的发展以及能够积累观众以及用户粉丝。而且进行短视频App的用户数据分析的研究,也可以让一些在学习短视频创作的创作者提供灵感,这样也可以减少现在短视频App平台的一个很重要的短板。那就是现在的短视频创作内容参差不齐,有一些高质量的内容,有一些比较优秀的短视频创作者由于前期的视频创作中,没有切入现今大部分的用户的接受度高的点,导致用户粉丝以及关注度不够高,从而会导致这一部分的高质量的优秀的视频创作者会在创作的过程中,渐渐地失去了对高质量的视频创作的热情以及对自身的对视频创作的质量的下降,这无疑将会是对于自媒体的短视频创作者的这一行业有者极大的冲击,以及也会是对自媒体这一新兴行业的一个打击。这样将会不利于一个新兴行业的可持续发展,也会降低了很多对于自媒体行业,短视频创作者的有着浓厚兴趣以及希望加入这一行业的爱好者的积极度。所以进行本研究的目的就是为了为一些高质量的优秀的自媒体工作者以及短视频的创作者提供有效的,有力的数据分析。支持自媒体行业以及短视频创作者的这一新兴行业的可持续发展,以及为短视频App的用户清除一些不良的视频内容。本文研究的意义在于可以为现在的自媒体行业的工作者以及短视频的创作者提供有效的数据,因为现在的短视频创作者的质量参差不齐,有一些视频创作者为了吸取短视频App用户的关注,进行不合理的牟利。在前期的视频创作中不惜加入一些低俗的内容,来吸引用户的关注。这样很容易会导致短视频的创作以及自媒体行业走向另外一个截然不同的道路。而且现在的短视频App用户开始趋向于年龄层偏低的趋势。根据报告抖音短视频App的男性、女性用户的年龄段和城市级别的分布比较相似,19-35岁的用户占比将近7成,所以其中19-24岁的青年比例占比较高。所以,短视频的内容创作。对于青少年的影响还是比较广的。而且根据2019年的抖音短视频报告,抖音短视频App的人均使用是10-19次,而且在用户使用时间为30分钟以上的市场占比位居第二。所以,根据上面的两项报告数据而言,研究抖音短视频App的用户的数据分析。为短视频创作者提供有效的数据。可以在一定的程度上,规范短视频创作的内容,也可以为使用的青少年用户提供更加高质量以及更加符合现代社会生活的短视频内容。也可以促进自媒体行业的发展以及让更多的对于希望从事高质量的优秀短视频创作者的有着来自于用户的数据的支持。这样可以让自媒体行业以及短视频创作这一新兴行业的蓬勃发展,也可以让国家的创新创业政策得到落实以及支持。所以本研究的意义在于为短视频创作者提供有力有效的用户数据分析。让更加多的高质量的优秀的短视频创作者得到发展,以及为自媒体行业和短视频创作行业得到健康以及持续的发展。在自媒体行业以及短视频创作得到健康发展的前提下,也可以让青少年在使用短视频App的情况下可以确保得到良好的价值观以及世界观的塑造,也避免了短视频创作这一行业变成让家长需要让青少年避而趋之的毒药。也可以让更多的短视频App用户在利用碎片化的时间在得到娱乐的情况下,可以得到更加多的优质的,正确的资讯信息以及可以得到更加多的高质量的短视频内容可以让用户在碎片化时间里,也可以在潜移默化之下获得一些知识,在娱乐的时候也可以吸收更加多的有用的信息。以及根据现在的短视频App用户分析报告,目前有比较多的用户认为目很多前的短视频App里面的内容同质化较多,这样更加容易导致用户的流失,以及会让优质短视频的创作者丧失很多的机会。所以进行抖音用户数据分析可以在用户以及创作者的互相的作用下,让自媒体行业和短视频创作得到足够的发展,让新兴行业可以蓬勃的发展。1.2国内研究现状现在国内关于抖音短视频用户数据分析主要分为是针对用户的年龄层分析以及使用时间分析。专门针对抖音短视频App进行的用户数据分析暂时还没有完善的数据分析,以及针对为短视频创作者进行抖音短视频App的用户数据分析后,为短视频创作者提供有力的用户数据分析进行创作支持的平台以及研究。针对于抖音的短视频用户认为,抖音短视频App更突出的人认知是有趣、很酷很潮和年轻,以及根据报告,目前的抖音短视频App用户最爱的是有趣的高质量的普通短视频创作者。根据短视频用户分析报告,针对性的用户数据行为分析报告不全面,目前的研究只是根据用户的行为粘性进行分析,根据研究报告显示的是,目前的抖音短视频用户更加注重的是看评论,看不同的用户在评论下面抖机灵。抖音短视频以创意和趣味内容为主,内容调性更易激发网友讨论,产生优质UGC(用户原创内容)。超过90%的爱看评论的用户表示,他们在抖音评论区主要看的是网友抖机灵和搞笑评论。所以,抖音短视频App的评论区的评论对于目前进行抖音短视频App的用户分析,具有参考价值以及实用性。所以,使用情感分析进行抖音短视频App的评论进行分析。具有较高的实用性以及研究性。根据情感分析研究文献[1]表示情感分析是为了挖掘产品的客户群体对于现在的产品、服务、话题其中的产品属性中的观点、情感、情绪、评价以及态度进行的计算研究。现有的研究中已经产生了可用于情感分析多项任务的大量技术,其中包括有监督方法以及无监督方法。在早期的研究中,使用的是监督机器学习方法,如:向量机、熵、朴素贝叶斯等和特征组合。其中无监督方法包括使用情感词典、语法分析和句法模式的不同方法。目前文本类型的情感分析的研究有三种研究分类。分别为文档类型情感分析,语句类型情感分析,以及短语类型情感分析。文档类型情感分类主要是指观点型的文档标记整体的情感倾向。即是用于确定文档整体上传达的是积极还是消极的观点。所以,根据分类的类型来看,文档类型的情感分析,主要是一个二元分类任务,语句级的情感分析主要是用于标定单句中的情感表达。语句的情感可以用主观性分类以及极性分类来进行推断,主观性分类主要是将句子分为主观或者客观,但是后者主要是用于判断主观语句表达的情感是积极还是消极的情感。现有的研究中,语句的情感分析主要是会形成一个联合的三个类别的分类,即是预测语句中的情感是为积极、消极或者中立,三个分类的类别。短语类型的情感分析与文档类型以及语句类型的情感分析不同。短语类型的情感分类其中同时考虑的是情感信息以及主题信息。句子中需要给定一个句子和主题特征。这样短语类型的情感分析才可以推断出句子在主题特征的情感分析极性。目前,得益于情感分析算法的研究,天猫商城、百度AI等开放平台均应用了短语类型的细粒度情感分析,类似于天猫商城等平台会在热门品类中使用观点抽取以及情感正负分类。而在目前,语句级的情感分析粗粒度主要是用于电商、App等。1.3研究的主要内容本文研究的主要内容是关于抖音用户的数据的分析以及如何针对现在的用户进行视频的推荐以及现在的用户喜欢的视频内容类型的分析。本文主要进行的研究内容分为三个部分,第一部分是对于抖音短视频App的用户数据进行爬取。第二部分是对爬取下来的抖音短视频App的用户数据进行算法分析得出分析的数据。第三部分是进行第二部分进行算法分析以及用户数据分析后进行抖音短视频的视频类别的数据研究分析,分析研究结果。第一部分的研究内容是对于抖音短视频App的用户数据以及视频内容的爬取。该部分进行的研究内容是第一步,也是决定本项目进行用户分析的关键所在。数据量的多少也对于我们进行用户的数据分析能否达到目的的关键,如果数据量不够,则我们得到的用户分析则不够准确,以及我们的研究目标达不到要求。所以本文研究第一步就是要将抖音短视频App的用户数据进行爬取。爬取的数据量足够后才能进行分析。第二部分的研究内容,是有关于第一部分进行的抖音短视频App爬取的用户数据以及视频内容的分类以及分析。第二部分,关于视频内容的分类可以将爬取下来的视频内容数据进行分类。然后再将分类的视频的用户数据,包括用户对于视频的点赞数以及用户对于视频的评论进行算法的分析。最后得出现在的用户对于那些种类的视频比较喜欢,以及哪些视频的用户受众比较多。第二部分的研究内容重点就是如何将视频的内容进行分类,将不同的视频,按照视频的标签将其分为几个类别。比喻分为“娱乐类”,“正能量类”等等的不同种类。然后再按照这几个种类的视频的用户数据进行分析。包括将用户对于视频的点赞数以及不同用户对于视频的内容进行的视频评论的内容进行的情感分析。情感分析可以将用户对于视频的内容是持有正面态度还是负面态度进行判断。得出现在的用户对于什么类型的视频持有较为喜欢的态度以及正面的支持。而我们也可以通过这一部分的研究将我们所想要实现的目标可以得到初步的实现。第二章抖音用户数据爬虫2.1爬虫方法目前进行手机App数据抓包的后进行数据爬虫的数据抓包方法有使用Tcpdump命令进行抓包,不过需要安卓手机进行root。第二种方法是使用Wireshark进行数据抓包。第三种方法是使用fiddler抓包工具进行数据抓包。本研究使用的方法是使用Fiddler[11]技术进行抖音短视频App的抓包,因为手机App无法直接通过电脑代码进行数据的爬取,所以要通过使用Fiddler技术进行抓包数据。因为在进行手机端的抖音短视频APP数据爬取的时候,因为我们无法获取抖音短视频App的接口文档。无法获取完整的功能接口、接口请求方式、接口请求URL、接口请求数据、接口返回参数等等。所以在本次研究中,抖音数据的爬取使用Fiddler对APP进行抓包确认,通过在手机上进行抖音短视频APP的操作,然后再通过Fiddler抓取本研究所需要的相对应的抖音用户数据,爬取的内容包括‘视频的内容标题’,‘视频的点赞数量’,‘用户的ID’,‘用户的名称’以及‘用户的评论内容等数据。’使用Fiddler进行抓包的方法如下:1、首先需要安装Fiddler抓包软件。2、然后需要设置手机上的代理网络。3、要确保进行抓包的电脑与手机处于同一个网络下面。4、最后进行抖音短视频App的访问就可以进行抖音短视频App的用户数据的抓包,进行爬取。图2-1Fiddler抓包用户评论页面第一步下载Fiddler抓包软件,进行配置。因为Fiddler默认只是抓取http格式的包,所以需要进行参数的配置,允许Fiddler监听到HTTPS。配置Fiddler软件允许监听到HTTPS格式的,首先需要,打开Fiddler的菜单栏的Tools选项=>选择Options=>HTTPS,然后需要勾选下图显示选中的选项图2-2Fiddler配置Tool选项然后点击OK就可以配置完成Fiddler允许监听HTTPS的步骤了。接下来还需要配置Fiddler允许远程连接。在上一步的窗口中选择Tools=>Options=>Connections,勾选下图选中的选选项,allowremotecomputerstoconnect。可以看到默认的监听端口为8888。图2-3Fiddler默认监听端口点击完成后。目前电脑端的Fiddler抓包软件已经配置完成。接下来我们需要进行移动端的配置。进行手机端的参数配置,首先一定要确保手机端与电脑端处于同一个网络,然后需要调取电脑端的ip地址。以及需要使用到我们上一步的默认的监听端口8888。首先,当手机和电脑连接同一个网络的时候,打开手机浏览器,输入http://网络ip:8888,然后点击前往。然后就会跳转至一个证书下载页。然后下载安装证书。完成下载后,安装证书后需要给证书起一个名字。如下图所示图2-4Fiddler手机端证书下载配置最后,需要进行更改手机端的无线网络代理,进入手机端的设置-无线网络-点击WiFi网络的代理,将代理选择为手动。主机名为使用Fiddler抓包的电脑的ip地址,端口号为之前的默认监听端口8888。如下图所示即可完成手机端与电脑端的Fiddler抓包配置。图2-5手机端无线网络参数设置最后操作手机,打开抖音短视频App,电脑上的Fiddler软件就会显示出抖音的https信息,这样已经成功进行手机抓包。抓包显示正常后,查看抖音短视频App的数据返回接口,以及查看需要的参数。参数是视频,视频的ID以及视频评论。完成抖音短视频App的数据抓包之后,开始进行爬虫代码的编写。爬虫代码主要使用的方法是:1、设置headers,多个浏览器进行代理,伪装成正常浏览器访问。2、设立需要写入爬虫用户数据后的文档表头,分别为‘视频内容’,‘视频点赞数’,‘用户ID’,‘用户名称’,‘评论内容’。3、创建一个Excel文件为:‘douyin.xls’。4、调用Appkey获取抖音短视频的视频信息接口。5、循环访问抖音数据接口,每次进行10次循环访问。6、使用requests技术访问抖音短视频App的短视频URL接口,设置好参数,添加headers,访问获取数据。参数为视频,以及视频的ID,视频的评论。7、使用json技术将返回的数据进行提取。8、每个视频获取一百条用户评论以及用户信息,当爬取的用户评论达到100后,跳出爬虫,进行下一个视频的爬虫。9、最后就是将数据提取后,利用xlrd把数据写入Excel中。最后导出Excel文件。2.2抖音短视频用户数据爬虫原理Fiddler是位于客户端和服务器端之间的HTTP代理,它能够记录客户端和服务器端之间的所有HTTP(S)请求,可以针对特定的HTTP(S)请求,分析网络传输的数据,还可以设置断点,修改请求的数据和服务器返回的数据。Fiddler在浏览器和服务器之间建立一个代理服务器,Fiddler工作于七层中的应用层,能够捕获通过的HTTP(S)请求。Fiddler启动后会自动将代理服务器设置成本机,默认端口为8888。Fiddler不仅能记录PC端上浏览器的网络请求数据,还可以记录同一网络中的其他设备的HTTP(S)请求数据。现在的App中的数据传输基本上都使用HTTPS传输,传输的数据都是经过加密的。这增加了分析数据包的难度,但是使用Fiddler除了可以抓取HTTP数据包,还可以抓取HTTPS数据包。所以,使用Fiddler抓包工具比使用其他抓包工具更加具有实用性。HTTPS传输需要使用到CA证书,所以抓取HTTPS数据包时需要做一些特殊配置。Fiddler截取HTTPS报文的流程大致为,图2-2-1所示:图2-2-1Fiddler抓包流程图1、客户端请求建立HTTPS链接。

2、FIDdle抓包工具接到客户端请求后,伪装客户端向服务器发送请求。

3、服务器收到Fiddler抓包工具请求后,筛选合适的加密协议。返回服务器的CA证书,其中包括公钥信息。

4、Fiddler收到服务器的响应后,保存服务器证书并自签名一个CA证书,伪装成服务器,把该证书下发给客户端。

5、客户端验证Fiddler下发的证书合法性。生成对称秘钥,上传至Fiddler抓包工具。

6、Fiddler抓包工具解密对称密钥后,通过证书公钥进行后加密发送至服务器。

7、Fiddler抓包工具拦截客户端的请求后,使用私钥解密报文,获取对称秘钥,并使用服务器证书中公钥加密后,将称密钥发送至服务器。

8)服务器接收到客户端发送的对称密钥后使用私钥解密,并使用对称密钥加密测试数据传至客户端。

9)Fiddler抓包工具使用已经获取的对称密钥解密报文。

10)客户端验证数据无误后HTTPS连接完成,客户端开始向服务器发送使用对称密钥加密的数据

11)Fiddler抓包工具使用已经获取的对称密钥解密客户端发送的数据,并重新加密后发给客户端。Fiddler进行手机App抓包原理为以上的内容。其中,在进行爬虫抓包工具的研究时,发现了另外一款的抓包工具:Wireshark抓包工具,但是在进行两个抓包工具的测试以及抓包时,研究发现了Wireshark和Fiddler抓包工具不同之处,所以在本次研究中使用的是Fiddler抓包工具。其中,Fiddler抓包工具是在Windows系统上面运行的抓包程序,可以用于抓取HTTP、HTTPS。但是Wireshark虽然也可以获取HTTP以及HTTPS。但是最大不同的点是在于,Wireshark无法解密HTTPS,但是因为我们需要爬取的数据是抖音短视频APP的数据,目前大部分的App数据传输都是使用HTTPS传输。所以在本次研究中,使用的是Fiddler抓包工具进行数据的获取以及爬虫。爬虫代码编写的原理:1、设置headers表头,设置多个代理浏览器,伪装为正常的浏览器进行访问。防止被抖音短视频App察觉,然后进行拦截,无法获取我们需要的数据。2、发送一个requests访问抖音短视频App的接口,在这一步上,使用Appkey可以更加方便的访问抖音短视频的API接口。进行访问获取视频的信息接口。然后再设置好我们需要获取的抖音短视频APP的用户数据参数。然后添加headers表头,就可以进行访问获取我们所需要的数据了。3、然后使用json库将访问获取的数据进行提取为json文件。4、数据提取出来之后,就可以利用workbook库中的openpyxl类进行将数据写入Excel表格中,然后生成我们需要的进行下一步用户数据分析的表格。最后再将表格提取出来。2.3用户数据爬虫模块分析 在本次研究中,抖音短视频App用户爬虫数据,分别进行了3次数据的爬虫,总共爬取的抖音短视频App中的视频用户数据量接近三万三千条数据。所有进行爬取的数据都是储存在一个Excel表格中,方便后续进行数据的算法分析的提取以及导入,以及方便进行数据爬取后,进行数据的清洗以及空值、缺失值的检查以及修改。图2-3-1短视频爬虫数据展示图图2-3-2短视频爬虫数据展示其中爬取的抖音视频数量是接近300条视频数据量,每个视频中的数据量对应的是在该视频下进行评论的抖音短视频App用户,每个视频对应100位用户,每个用户对应的是该用户进行的评论,一位用户对应一条评论。每位用户的ID以及名称都是单独对应一条评论内容。 其中在进行抖音短视频数据爬取后,进行数据的筛选和清洗时,发现有部分的视频爬取下来后,缺失了视频内容的数据,无法进行进行短视频内容类别的区分。在进行数据的预处理时,需要将数据的缺失值进行删除,确保后续进行数据分类时不会出现错误。图2-3-2短视频爬虫数据缺失值 当完成数据之中的空缺值清洗删除后,需要将视频内容标题进行提取,通过提取视频内容标题后进行初步的分类。通过初步分类后,即可以继续进行下一步的用户数据进行分析。第三章用户数据分析3.1用户数据分析方法 本研究进行的用户数据分析方法,主要引用了两种数据分析方法。第一种方法是引用jieba库的分词方法,对爬取的抖音短视频内容标题进行分词,用以进行视频类别的区分归类。第二种是使用snownlp库[12]的情感分析算法进行用户评论的情感分析得分进行区分以及合并,结合视频分类的视频点赞数即可进行下一步的结果分析。3.1.1短视频内容分类方法 根据爬取的抖音短视频数据中,进行数据分析的过程中,可以发现目前抖音短视频的内容标题区分度不足,内容标签等太过于杂乱,无法进行有效的区分短视频类别。本次研究,通过将爬取抖音短视频App的短视频用户数据中的短视频标题进行文本分词,根据分词后得出的切词信息进行抖音短视频的视频内容分类。根据分词信息,将所爬取得到的抖音短视频内容分成为四个大类别,分别是搞笑视频内容,剧情视频类别,其他视频类别以及反映社会问题的视频类别等。一共分为四个类别。图3-1-1短视频内容分类类别图 完成短视频视频内容标题分类后,进行标题分类的词云图分析,根据词云图进行抖音短视频的内容分类,根据词云图的词语及词频进行分析。这样进行的抖音短视频内容分类可以达到较好的分类效果,以及分类准确度。完成抖音短视频App的短视频内容标题分类后,往下进行抖音短视频分类的用户评论数据的情感分析研究。图3-1-2抖音短视频分类内容标题词云图3.1.2用户评论分析方法抖音用户评论数据分析的算法是使用情感分析算法。进行抖音用户的评论数据进行情感分析,计算抖音短视频用户对于不同类型的视频的评论的情感度进行分析。最后通过情感分析算法预测出来的结果,进行用户对于什么类型视频的情感积极度较高。然后进行研究得出结果。数据进行算法分析的代码流程为以下的代码流程:1、导入pandas库,numpy库,以及导入snownlp模块。2、整理爬虫下来的抖音短视频用户数据,将数据合并为同一份表格。3、然后将视频的标题进行提取,将标题提取出来之后,进行四个类型的类型分类。分别为其他类型,搞笑类型,剧情类型,社会问题类型。4、然后引用snownlp库进行用户评论数据的情感分析。如果用户的评论情感得分>0.6归分为积极,评分<0.4归分为消极,其他的得分为平和。5、将每个标题划分出来的视频类别进行数据的分类以及每个类型的用户数据的合并。6、根据每个用户的得分出来之后,进行饼状图的划分。饼状图根据每个类型的用户的情感分析得分情况数量进行画图。得出每种类型的用户的情感分析的积极度,消极度,平和度进行占比的划分。7、再根据每个类型的饼状图,进行现在的抖音短视频用户对于什么类型的视频的接受度以及认可度较高。评论的积极情感占比较高。来对用户的数据进行分析研究。8、最后导出每个用户以及每个分类的文档。可以根据导出的文档看到不同用户的评论的情感分析得分的情况,来进行更加深入的研究。使用snownlp库对抖音短视频用户评论数据进行情感分析得分计算后,可以得出目前的用户对于每种类型的视频的偏好分析,但是仅仅只是根据目前的用户的评论数据的情感分析得分进行判断,数据不够严谨。所以,本研究使用了另外的一种方法,将所爬取得到的抖音短视频用户数据中的点赞数。根据上一步进行的视频内容分类进行了一个柱状图集合分析,根据点赞数以及柱状图进行集合分析,研究进行的抖音短视频用户数据分析结果会较为客观以及严谨。柱状图主要分为了四个类别的视频点赞总数,进行分析。如下图所示:图3-1-3抖音短视频分类点赞总数柱状图3.2用户数据分析原理用户数据分析原理,本研究主要使用了jieba分词[2]以及snownlp库的情感分析方法,jieba分词的原理主要是基于Trie树结构实现的词图扫描进行分词。而snownlp库中的情感分析算法则是基于朴素贝叶斯算法模型完成的。3.2.1短视频内容分类原理 在本研究中,爬虫得到的抖音短视频中的视频内容标签分类,主要使用的方法就是使用jieba分词,jieba分词的原理主要是使用的是在基于Trie树结构下实现的高效词图扫描,这样可以生成所需要进行分词的句子中的汉子所有有可能组成词语的情况下构成的(DAG)有向无环图。其中Trie树[3]分词结构图效果示意图如下图所示:图3-2-1Trie树分词结构图 其中,jieba分词是基于Trie树结构进行的分词划分,利用Trie树进行前缀词典的构造,然后利用该前缀词典对句子进行分词切分,得到所有的句子中有可能进行的切分可能后,最后根据切分的位置,构成有向无环图。其中构成前缀词典的是基于jieba库中的带有的统计词典构成的,其中统计词典一共有三列,第一列是词语,第二列的词频,第三列则是为词性。 在根据前缀词典进行语句划分的时候,可根据上图的语句划分示意图看到,是通过字或词语进行构建一个以词语或字的位置为关键key,相应划分的末尾位置的列表为值value的映射。 构建完成(DAG)有向无环图后,还需要使用动态规划计算最大概率路径,用于解决一个句子中存在的多种分词结果。因为一个句子中进行分词划分,从起点到终点期间存在着多条的分路路径。进行最大概率的路径计算是通过从句子的最后的一个字(N-1)开始进行倒序遍历句子中的存在的每一个字,开始计算每个句子中(句子[字 -N-1])的概率得分。然后将得分最高的情况以元组的方式保存在路线之中。 以上就是使用jieba分词对抖音短视频App中的短视频内容标题分类,所使用的方法jieba分词原理。3.2.2用户评论数据情感分析原理本次研究主要是为了研究现在的抖音短视频App用户针对哪一种类型的视频的认可度以及情感分析得出评分分布情况,用以预测现在的抖音短视频用户对于哪些类型的短视频接受度更高。用于为视频创作者提供更加有利的数据分析,让更多的短视频创作者能够根据用户的数据进行短视频的创作。本次研究的用户数据分析主要是针对用户的评论进行情感分析,所以使用的是情感分析算法中的snownlp库进行评论的情感分析。Snownlp是一个python写的类库,可以方便的处理中文文本内容,所有的算法都是自己实现的,并且自带了一些训练好的字典。所以snownlp是一个中文的自然语言处理的python库,支持的中文自然语言操作其中就包括了情感分析。其中snownlp库中的使用的情感分析算法主要是使用了贝叶斯模型[4]进行的情感分析预测。贝叶斯模型是基于朴素贝叶斯算法[5]实现的算法模型,其中朴素贝叶斯算法是基于贝叶斯定理的分类方法。贝叶斯定理[6]是计算概率的公式。贝叶斯定理中的1、条件概率公式是指在在事件B发生的情况下,事件A发生的概率,可以使用P(A|B)来表示。2、全概率公式表达式是:,如果A和构成样本空间的划分,那么事件B的概率就等于A和的概率分别乘以B对这两个事件的条件概率之和。上面提到,朴素贝叶斯是基概率论的分类方法。朴素贝叶斯的原理使用条件概率来分类的。首先需要了解一下朴素贝叶斯的定义:朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,基于特征条件独立假设学习输入/输出的联合概率分布;然后基于贝叶斯模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。接下来,看一下朴素贝叶斯的算法实现过程:首先需要先计算先验概率:求出样本中的个数K。对于么一个样本中的Y=Ck,算出P(Y=Ck)。这是Ck在样本中集中概率。第二步需要计算条件概率:需要将样本划分为K个子样本,分别对应Ck的子样本计算。计算出每个特征

Xj=ajl

的概率:

。最后即可以针对样本,计算出每个类别的Ck的后验概率:其中概率值最大的类别就是预测样本中的预测类别其中,在进行情感分析算法的研究时,使用朴素贝叶斯分类做情感分类的时候,将需要进行情感分类的句子中的情感得分分分为两类:积极态度为(c1)、消极态度为(c2)。在一个句子中有特征w1,w2,…,wn,n个特征是相互独立的。在句子中的每一个单字都分别对应了在情感分类中的特征w1,w2,…,wn。在根据朴素贝叶斯分类器[7]的原理公式中P(c1|w1,w2,…,wn)=(P(w1,w2,…,wn|ci)×P(ci))/(P(w1,w2,…,wn))以及根据全概率公式中的P(B)=P(B|A)P(A)+P(B|A’)P(A’)公式进行转换可以得到的是贝叶斯模型中进行情感分类的情感得分预测的公式为:

对预测公式进行简化: 在snownlp库进行情感分析分类得分中,最重要的除了是使用贝叶斯模型进行情感分类的预测外,还需要有有一个函数方法对输入贝叶斯模型的中的语句进行分词以及去停用词。其中在完成分词以及去停用词后,返回分词结果后,还需要调用贝叶斯模型的进行训练。贝叶斯模型在训练过程的实质是统计每个特征出现的频率次数。通过snownlp库中的情感分类贝叶斯模型进行预测爬取的抖音短视频中的每个用户的评论数据,因为当情感得分越接近1的时候,评论的情感越接近积极,当情感得分越接近0的时候,评论的情感则是越接近消极。所以在本次研究中,将情感得分大于0.6的评论划为情感偏向积极的评论,将情感得分小于0.4的评论划分为情感偏向消极的评论。则介于0.4至0.6之间的情感得分的评论则是将划分为情感偏向平和的评论。 以上就是进行研究抖音短视频App的短视频用户的评论的情感分类得分的主要算法的贝叶斯模型原理以及朴素贝叶斯算法的原理介绍。第四章用户数据分析研究结果 本研究进行的是目前有关于抖音短视频App用户在使用抖音短视频App的时候,对于剧情创作类、社会问题类、搞笑类以及其他广告类视频这四种视频类别的接受度的研究。通过爬取抖音短视频App上的短视频内容以及在该视频上进行互动点赞以及进行评论留言的用户数据,进行分析研究。通过点赞数以及使用情感分析算法对用户数据中用户评论数据,两者结合进行研究分析。情感分析算法可以得到不同的用户对于视频的内容的看法以及情感分析得分。通过情感分析算法分析用户在对于视频的评论的语句中的情感分类,语句中表达的情感往往会体现了用户对于这种类型的视频中自己的接受度以及观感。如果一类视频中的用户评论数据中的积极情感得分较低,以及点赞数较低。那么在研究中我们可以通过该类型视频的用户评论数据中得到,大部分的用户在观看该类视频中时,接受度以及观感也是比其他类型的视频较低的。 本章主要是通过分析本研究中将爬取得到的抖音短视频用户数据进行研究分析后得出的数据结果加以研究分析,展示现在的用户对于剧情创作类、社会问题类、搞笑类以及其他广告类视频这是四种类型的视频的接受度以及用户对于这四种类型的视频的偏好研究。 本研究中,用户评论数据进行情感分析得分,情感分析得分输出结果大于0.6的,该评论结果将会划分为积极情感,如果评论数据的情感分析得分输出结果是小于0.4的评论将会划分为消极类型的情感评论,而介于0.4-0.6之间的评论情感分析得分输出结果将会划分为平和类型的情感评论。在本章中,剧情创作类、社会问题类、搞笑类以及其他广告类的视频内容的每个类别的情感分析得分将会以扇形图进行结果的展示以及分析研究。每个类别的扇形图将会以用户评论的情感分析得分中的积极情感得分、消极情感得分、平和情感得分进行每个类别的划分。展示的该类别的所有视频的用户评论数据的情感得分中每个情感分类的占比多少来进行分析研究。最后通过不同类别的视频的点赞总数以及情感分析得分占比,两种相结合进行总结性分析。 接下来将会进行四个类别的短视频用户评论数据的情感分析得分占比结果的研究分析,以及四个类型的抖音短视频用户点赞数的柱状图的研究结果分析。第一部分展示的其他广告类别的结果分析,第二部分展示的是剧情创作类别的结果分析,第三部分是搞笑视频类别的结果分析,第四部分就是社会问题类别的结果分析。最后进行柱状图的研究结果分析。 第一部分进行分析研究的是其他广告类别的视频用户评论数据情感分析得分的研究展示图:如图4-1所示 图4-1其他广告类别视频用户情感得分占比图根据扇形图4-1的分析结果,我们可以看到,目前在抖音短视频App上的用户对于其他广告类别的用户评论的情感分类得分占比中,情感得分倾向积极情感的占比为47.66%,情感得分倾向消极的占比则为33.21%,情感得分倾向平和的占比则为19.13%。从上图中可以得到的分析结果进行研究分析,目前的抖音短视频用户在对于其他广告类别的短视频中,评论情感倾向积极的用户占比不超过50%,这个信息代表着目前的抖音短视频用户在其他广告类别的视频中的接受度较低,对于其他广告类别的短视频的作者以及商家来说,如何将广告以及其他类型的视频做的更加吸引用户,使用户在刷到本类视频的时候的抵触心理以及接受度提高,是目前的作者需要更加注意的。在其他广告类别的视频的内容上,可以根据词云图中得到一些信息。如图4-2所示。图4-2其他广告视频内容词云图从图4-2的其他广告类别的词语图信息中可以得到数据分析是,词频数量较高的词语是5G、交友、免费、小说等等词语。根据图4-1、图4-2的数据结果分析,分析研究的结果是,在目前的抖音短视频用户中,用户对于其他广告类别的短视频的接受度以及情感偏好中占比较低。用户暂时还不习惯在抖音短视频App上接收广告类型的短视频,如果商家以及进行短视频广告创作的创作者,需要修改视频的内容创作方式,尽量减少直白的广告宣传。应该与其他类型的视频创作方式相结合。这样才会让用户提高接受度以及情感偏向的积极倾向得到提高。第二部分进行分析研究的是剧情创作类类别的抖音短视频用户评论数据情感分析得分的研究展示图4-3图4-3剧情创作类视频用户情感得分占比图 从剧情创作类别的情感分析得分的扇形图4-3中,得到的研究分析数据是目前在抖音短视频用户中,对于剧情创作类别的短视频的情感分析分类得分占比中,情感得分的占比倾向积极情感的用户占比为50.72%,情感得分占比倾向消极情感的用户占比为34.21%,情感得分占比倾向平和的用户占比为15.07%。从上图的用户评论数据情感分析进行的研究分析是,目前在观看剧情创作这类的视频用户中,过半数的用户对于剧情创作类别的短视频的接受度以及情感偏好还是处于一个较为积极的阶段,但是根据数据分析目前有34%的用户对于剧情创作类的视频是处于一种接受度以及偏好倾向消极的态度。下面通过剧情创作类的内容中的词语图可以得到分析34%的用户对于剧情创作类的短视频情感偏向消极情感的分析研究。如图4-4所示:图4-4剧情创作类视频内容词云图 从剧情创作类类别的词语图4-4中,可以得到的词频数量较高的词语是:前女友、父亲、尴尬、男友、女友、助手等等词语。剧情创作类短视频中,创意是吸引目前的用户对本类视频进行点赞以及接受的重要因素。根据词云图中的高词频次数进行分析,得到的分析研究结果是。目前在剧情创作类的短视频中,创意重叠或者借鉴,视频主体内容的重复。让目前的部分抖音短视频用户在对于剧情创作类视频的观看中因为剧情以及内容主体重复率高的情况下,接受度以及情感偏好偏向消极。根据研究分析,目前的抖音短视频的剧情创作类别的创作者应该寻求新的创意以及内容,这样才会提升用户的接受度以及情感积极度得到提升。 第三部分进行分析研究的是搞笑视频类别的抖音短视频用户评论数据情感分析分类的占比研究展示。如图4-5所示:图4-5图4-5搞笑视频类别用户情感得分占比图 从搞笑视频类别的情感分析得分占比的扇形图4-5中,可以得到的研究分析数据是目前在抖音短视频用户中,对于搞笑视频类别的短视频的情感分析分类得分占比中,情感得分的占比倾向积极情感的用户占比为46.79%,情感得分占比倾向消极情感的用户占比为34.69%,情感得分占比倾向平和的用户占比为18.25%。从上图的用户评论数据的情感分析的研究分析中得到分析是,目前观看搞笑视频类别的用户中,情感分析得分倾向积极的用户占比只有46%,情感得分占比则接近35%,在这种情况下。搞笑视频类别的短视频可能会在一段时间后,用户数据出现下降,用户对于搞笑类型的短视频内容开始出现了审美疲劳以及笑点的重复度让用户得不到新鲜感,接受度以及情感偏向积极的用户占比将会呈现下降趋势。通过搞笑视频类别的内容标题词语图进行分析用户对于搞笑视频类别的分析研究,搞笑视频类别的情感分类积极度与消极度的占比分析。如下图4-6所示:图4-6搞笑视频类别短视频内容词云图 从搞笑视频类别的词语图4-6中,得到的词频数量较高的词语是:搞笑、沙雕、套路、库里等等词语。目前的搞笑视频类别的短视频中,由于目前的搞笑视频题材以及笑点内容重复度高,导致目前的抖音短视频用户对于搞笑视频类别的短视频产生了部分的不满足心理,笑点以及创意重复让越来越多的用户产生了视觉疲劳,所以目前的抖音短视频用户对于搞笑视频类别的短视频的情感分析分类倾向积极度以及接受度占比少。所以搞笑视频创作者需要不断的更新创意笑点。 第四部分进行研究分析的是社会问题视频类别的抖音短视频用户评论数据情感分析分类的占比研究结果。展示图如图4-7所示:图4-7社会问题类别用户情感得分占比图 从社会问题类别的情感分析分类研究分析扇形图4-7中,可以得到的分析数据是,目前抖音短视频用户对于社会问题类别短视频的情感分析分类中,情感得分倾向积极的用户占比数据为51.15%,情感得分倾向消极的用户占比数据为33.2%,情感得分倾向平和的用户占比数据为15.65%。从上图的用户评论数据情感分析研究中得到的数据分析是,目前在使用抖音短视频的用户中,反映社会问题的抖音短视频在抖音短视频用户中的情感分析分类积极占比已经超过了半数,并且呈现接受度以及情感分析积极占比上升的趋势。情感分析分类中倾向消极的用户评论占比也只有33%。标志着现在的抖音短视频用户在使用抖音短视频App进行娱乐性活动时,对于抖音短视频推送的国家社会问题有了较高的接受度以及情感偏好偏向积极。接下来,通过社会问题类别的内容词语图进行进一步的分析研究数据。如图4-8所示:图4-8社会问题类别视频内容词语图 从社会问题类别的短视频内容标题词语图4-8中,得到的词频数量较高的是疫情、钟南山、白衣天使、武汉等等词语。通过词语图的词频数量我们可以得到的数据分析是,2019年底开始爆发的新冠状肺炎疫情牵动了全国人民的心,全国人民在面对新冠肺炎疫情的时的积极态度以及对于社会问题的关注度不断地提高,以及对社会问题的短视频的关注度以及情感偏好开始呈现不断上升的趋势。根据研究分析数据,目前的抖音短视频用户对于社会问题类型的短视频的情感分析得分倾向积极度占比是四个类别的视频中占比最高的。目前的抖音短视频用户对抖音短视频上的社会问题视频关注度以及积极度正在不断地提升。 在使用snownlp库进行情感分析算法对用户评论数据实现情感

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论