




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
毕业设计说明书弹幕管理电影情节系统的设计与实现2020年5月3日第一章绪论1.1研究背景与意义海量数据带来的信息发展正开启着巨大的时代转型,许多研究者结合大数据相关技术逐步为人类提供更好的服务。同时,大量数据的处理和分析也为视频管理提出了挑战。近年来,许多领域的数据逐渐向大规模的趋势发展。其中,由于互联网产业的持续繁荣,越来越多的在线媒体(Youtube、优酷、爱奇艺)为人们提供多种方式来接触各类新鲜的资讯,从而产生了大量的视频数据。尽管海量的视频数据为人工智能领域对其研究提供了丰富的资源,然而这些视频数据本身往往缺失高质量的标记信息,同时视频数据本身结构的复杂性也阻碍了研究者们对其进行大规模的分析。以视频标记研究为例,视频标记是通常是通过对视频数据内容的分析来自动获取与其相对应的文字标签,这类问题的研究往往依赖大量的人工标记数据来进行模型训练,而大量的高质量视频标记数据在现实中一般难以获取,这也成为了视频标记研究领域需要克服的一个主要问题。此外,视频数据可以看做由一系列图片在时间帧上的连续排列,直接对其进行处理的过程往往非常耗时,这也使得对于海量无标记视频数据的表示学习变得异常困难。为了解决上述问题,一些研究者提出结合视频内容对应的文本信息来实现对于视频数据的分析,从而避免了直接对视频数据进行处理。这类方法往往需要视频和文本之间的对应以及相应的文本分析。因此,如何合理的建立文本和视频数据的对应关系并进行相关文本的信息挖掘,从而从文本层次来实现对视频数据的分析,对后续具体任务的研究有着非常重要的意义。随着网络视频的发展,一种被称作“弹幕”的视频评论流行起来。不同于传统的视频评论,弹幕评论的呈现方式是随着在视频播放的同时从屏幕的右端飘到左端,往往给用户一种实时互动的感觉,具有很强的交互性,因而极大的增强弹幕评论作为一种新型的即时互动的视频评论方式,它有许多不同于传统视频评论的独特性:(1)弹幕评论往往包含大量的网络用语和表情信息,从而为文本分析引入了很多噪声;(2)弹幕评论通常是由一个较短的句子或者若干多个词组成;(3)由于弹幕对应包含视频的同步时间帧信息,一个完整的视频中的弹幕评论往往会包含许多不同的主题信息,同时也在时间线上包含大量的冗余信息。弹幕有何存在意义?1.群体(社区)效果。正如其他答案提及的。弹幕本身和各大视频站下面的评论区意义相同,都是评论(吐槽)。但弹幕有即时性、时效性、精确化、简单化、门槛低、高参与等优势。为了达到这些而造成的劣势就是弹幕不可避免占据了视频的一部分。这些功能是为了让你知道别人的看法,并提供交流的空间,让你认识到不是自己一个人看。同时,这种群体效果还能体现在观看人群的文化和观念一致性上。你见过的任何狂刷同一弹幕的视频其实都是群体一致的体现。这种一致性的反向就是不一致的矛盾会被激化得更加严重。总的来说,这非常符合需要内部认同大于外部认同的圈子文化。2.功能性。弹幕可以最大化利用其“发表在视频某一固定时间点上”这一特点,让自己成为视频的一部分,或雪中送炭,或锦上添花。这是成熟的弹幕社区和文化形成才会出现的功能。也是弹幕的意义可以得到提升的关键。如果单纯是无意义的抬杠吐槽,弹幕就会显得水平低下。高质量的弹幕是建立在高质量的弹幕人身上的。3.个人价值实现。由于弹幕的高参与度和功能多样化,发弹幕成为成本极低的宣传自己、实现价值的方法。这种方法与弹幕网站用户自我上传、自我观看的模式结合,给各种文化圈子的人以展示空间。综上所述,弹幕评论不同于传统评论文本的特性也为研究者们提出了新的挑战,同时也使得一些常见的文本分析策略对于弹幕这一类新型评论的分析变得更为困难。因此,如何结合弹幕评论的特性,针对性的设计文本分析模型来对弹幕数据进行信息挖掘,进而实现对视频数据的分析,对视频数据相关领域的研究和应用都有着极高的研究价值。1.2弹幕评论的相关研究和应用由于弹幕评论可以反映了视频内容的主要主题,且一般数量庞大.因此弹幕也为视频数据提供了一种新型同步的文本信息流。同时也为有关视频数据问题(例如:视频标记)的分析提供了一种新的方式。因此自弹幕评论出现以来就不断吸引着大量专家和学者对其研究。目前,对于弹幕评论的研究方向主要体现在三个方面:
(1)视频的流行程度的预测:
(2)视频精彩片段的提取;
(3)视频标记。本节将围绕上述三个方面对于弹幕评论的具体研究展开介绍。
早期关于弹幕的研究通常是基于简单统计的方法。Wu等基于统计的方法。通过对弹幕中的表情(例如:“2333”
等)和视频的播放次数的相关性进行分析,从而实现对视频的流行程度进行预测(Wu,
et
al,
2014b)。而仅考虑弹幕中的表情符号则流失了弹幕评论中更为重要的文本信息,因此,Murakami
等通过结合弹幕评论中的情感词汇的统计提出了针对弹幕评论的排序算法,进而利用弹幕评论的信息挖掘实现对视频内容的情感的分析,并将其应用到真实的视频内容检索的系统中(Murakami,
etal,
2011),使得检索效果得到了明显提升。He等认为视频的受欢迎程度受多方面的因素影响,弹幕评论的数量往往反映-
-
个视频的流行程度,因此他们将视频包含的弹幕数量作为重要因素之一构建联
合模型进行预测(He,
etal,
2016)。然而基于统计的方法一般是结
合弹幕在不同指标下的统计量进行分析,通常难以结合弹幕评论本身的文本和语义信息。
随着机器学习和数据挖掘相关领域的发展,许多学者通过结合一些机器学习算法来对弹幕评论进行分析。Xian
等第一次结
合弹幕评论数据的语义分析实现视频精彩片段的抽取(Xian,
et
al,
2015)。他们首先通过传统的LDA主题模型来构建弹幕的生成过程,从而来为弹幕评论生成潜在的语义信息,进而为视频整体和视频片段挖掘相关语义特征。然后他们结合视频分段和视频整体的语义相关性提出了一种中央扩散的视频场景边境检测算法来计算视频关键帧的主题密集程度。为每段视频获取一个相关性评分。最后基于每段视频的评分实现对于视频内容的精彩片段的抽取。该算法从文本的角度实现了对视频内容的分析,从而避免了对视频数据的处理。
由于弹幕文本为视频内容在时间线上同步的提供了文本信息,因此很多专家试图从大量弹幕文本中挖掘出关键词信息并将其应用到“自动视频标记"的应用当中。Wu等在2014年第一次将弹幕
文本应用到视频标记应用中(Wu,
etal,2014a),他们首先从视频片段和弹幕用户两个方面进行了相似度的统计,并得出视频片段在时间上的关联和用户发送弹幕的偏好的结论。然后,他们从弹幕评论的生成过程入手,结合弹幕用户的个人偏好和相邻视频分段之间的相关性,针对性的对传统的主题模型LDA进行了扩展,为视频片段和用户偏好都维护一个服从高斯先验的主题分布。然后提出了-种时序的和个性化的主题模型TPTM(Temporal
and
Personalized
Topic
Model)来生成所有的弹幕评论。他们将视频片段和用户偏好的主题向量进行非线性变换井结合了片段之间和用户之间在时间上的关联从而得到狄利克雷分布的超参。每条弹幕评论的生成都会受到当前视频片段和之前片段的相似度以及用户偏好的主题分布的影响。最终在得到每段视频的主题分布之后,根据所有主题的单词分布来抽取关键词作为视频片段的关键词。由于考虑在弹幕评论生成过程中融合片段之间和用户之间的多方面信息,因此模型可以有效的解决生成过程中弹幕长度过短,信息含量过少的问题。而在另外-
-篇工作中,Lv等首次提出了基于深度学习模型T-DSSM
(TemporalDeep
Structured
Semantic
Model)
(Lv,
ct
al,
2016)考虑弹幕文本在时间上的关联信息来为每条评论重新生成一一个连续向量表示,从而解决弹幕评论当中包含较多的表情符号和网络用语等噪音数据的问题.通过结合词嵌入(word
embedding)相关领城的研究方法(Mikolov,
et
al.,
2013)。他们假设在时间上距离越近的评论应该共享更多信息从而变得更加相关,所以神经网络T-DSSM的最终损失函数是通过促使位于同样窗口的弹幕表示更加相似并且惩罚距离较远的弹幕之间的相似程度来实现。在获取每个弹幕评论的表示之后对其进行聚类,得到K个类族用来表示弹幕数据的K个主题。然后基于每条弹幕的主题信息来为视频片段获取主题分布,最终根据弹幕片段的主题分布训练分类器来对当前视频的情感标记实现预测。由于弹幕的表示是由深度神经网络模型完成,因此可以利用评论当中的网络流行语和特殊符号来为弹幕表示增加情感信息。从而可以避免较多的文本预处理操作。而最终他们的视频标记是根据分类模型进行对应情感类别的预测得出,所以整个分类模型需要依赖大量的事先人为标记的视频片段进行分类器的训练,严重制约了该方法在更多场景下应用的泛化性。且神经网络的训练往往耗时严重,导致该算法整体的效率较低。综合以上介绍,以往的视频标记方法通常是为视频片段生成关键词标记,而对于更为复杂的视频(例如:电视剧,电影)来说,关键词往往很难描述-个相对复杂的视频场景。这个问题同时激励着我们结合弹称文本来为视频数据得到更丰富的文本标记信息。1.3本章小结本章主要说明弹幕管理电影情节的设计与实现的选题意义以及研究方法,本系统主要实现电影情节的直观化、信息化,能够依据弹幕判断。相关技术介绍2.1python爬虫技术Python爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。调度器:相当于一台电脑的CPU,主要负责调度URL管理器、下载器、解析器之间的协调工作。URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存、数据库、缓存数据库来实现。网页下载器:通过传入一个URL地址来下载网页,将网页转换成一个字符串,网页下载器有urllib2(Python官方基础模块)包括需要登录、代理、和cookie,requests(第三方包)网页解析器:将一个网页字符串进行解析,可以按照我们的要求来提取出我们有用的信息,也可以根据DOM树的解析方式来解析。网页解析器有正则表达式(直观,将网页转成字符串通过模糊匹配的方式来提取有价值的信息,当文档比较复杂的时候,该方法提取数据的时候就会非常的困难)、html.parser(Python自带的)、beautifulsoup(第三方插件,可以使用Python自带的html.parser进行解析,也可以使用lxml进行解析,相对于其他几种来说要强大一些)、lxml(第三方插件,可以解析xml和HTML),html.parser和beautifulsoup以及lxml都是以DOM树的方式进行解析的。应用程序:就是从网页中提取的有用数据组成的一个应用。2.2词云技术及其应用词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(RichGordon)于近日提出。戈登做过编辑、记者,曾担任迈阿密先驱报(MiamiHerald)新媒体版的主任。他一直很关注网络内容发布的最新形式——即那些只有互联网可以采用而报纸、广播、电视等其它媒体都望尘莫及的传播方式。通常,这些最新的、最适合网络的传播方式,也是最好的传播方式。因此,“词云”就是通过形成“关键词云层”或“关键词渲染”,对网络文本中出现频率较高的“关键词”的视觉上的突出。词云图过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。教育词云在外语学习中有着开拓式的应用。在优秀的最新电子学习网站中。已经有使用人工智能方式辅助用户进行外语单词的学习。采用自动分析的方法,进行概率统计与分析后,提供给外语学习者相应的词汇表与词云图。教育工作者,可以利用Wordle工具,以加强学习。提供阅读整个信息的新重点,提供给学生,揭示关键概念并使用新的模式看到以前看不到的新颖材料,预计这种工具会得到广泛的应用。词云有可能成为最新的计算机辅助外语学习的新形式。文化在小说阅读中,词云图会提示关键词和主题索引。方便用户在互联网上快速阅读。在娱乐中,变幻莫测的词云图给用户提供充分的想象空间和娱乐趣味。可以相互采用彩云图卡片进行教育与娱乐。也可以将这些词云图保存打印下来,或者印在
T-Shirt
、明信片上,甚至是放到自己的网络相簿内,都是展现自己极佳的方式。计算机软件国外已经研究并开发了相应的软件-Wordle。Wordle是一个用于从文本生成词云图而提供的游戏工具。云图会更加突出话题并频繁地出现在源文本。可以调整不同的字体,布局和配色方案。用图像与Wordle创建喜欢的模式。可以打印出来或储存与朋友一起欣赏。2.3本章小结本章中主要介绍了本系统所使用的相关技术,并重点对python爬虫技术以及词云生成技术进行了描述,本章所介绍的技术是后续进行的重要保障。第三章系统分析3.1系统的构建思想随着现代化的信息革命,越来越多的电影出现在了人们的视野当中,其中的质量更是良莠不齐,如果想看一部好的电影更是需要自己逐个观看,如果依赖豆瓣等各大评分软件更是有可能会被水军刷数据。所以,设计一款能够依赖弹幕来分析电影情节的系统显得尤为的重要。该系统使用python为基础,python爬虫算法用来负责弹幕的爬取,词云算法主要用于使用户能够直观的看到一部电影的好坏。3.2.1系统的功能模块图系统主要分为以下几个功能分别是弹幕爬取以及词云生成,具体的功能模块如3-1所示3-1弹幕管理电影情节系统架构图3.2.2系统流程图3-2系统流程图第四章系统的实现4.1弹幕爬取模块用户通过登录弹幕管理电影情节系统,可以选择了解哪一部电影的电影情节的质量,通过输入BILIBILI的BV号,来进行爬取视频中的弹幕。主要代码如下:importrequests
importjson
importxmltodict
fromlxmlimportetree
barrages_cs=[]
aid=input("请输入av号")
headers={"user-agent":"Mozilla/5.0"}
url=f"/x/player/pagelist?aid={aid}&jsonp=jsonp"
response=requests.get(url,headers=headers).text
cid_dict_list=json.loads(response)["data"]
print(len(cid_dict_list))
forcidincid_dict_list:
cid=cid["cid"]
url=f"/x/v1/dm/list.so?oid={cid}"
print(url)
barrages_xml=requests.get(url,headers=headers).content.decode("utf-8")
barrages_json=xmltodict.parse(barrages_xml)
barrages_str=json.dumps(barrages_json)
barrages=json.loads(barrages_str).get("i").get("d")
forbarrageinbarrages:
if"#text"inbarrage:
barrage=barrage["#text"]+","
print(barrage)
barrages_cs.append(barrage)
barrage_list=open("B站弹幕爬取.csv","a",newline="\n",encoding="utf-8")
barrage_list.write(barrage)
print(len(barrages_cs))
res=requests.get(url,headers=headers)
tree=etree.HTML(res.content)
comment_list=tree.xpath('//d/text()')
withopen('av83743079.txt','a+',encoding='utf-8')asf:
forcommentincomment_list:
f.write(comment+'\n')4.2弹幕的词云生成用户提交BV号后,前端获取数值,根据选择的视频将弹幕保存在本地。根据爬虫所拿到的弹幕,系统会自动生成词云,然后进行分析。主要代码如下:importjieba#jieba:第三方库,中文分词fromwordcloudimportWordCloud#wordcloud:第三方库,生成词云图的#读取弹幕文件defread_file(filename):"""读取弹幕文件:paramfilename:文件名:return:所有弹幕字符串"""withopen(filename,mode='r',encoding='utf-8')asf:dan_mu=f.read()returndan_mu#结巴分词defjieba_cut(str):"""使用结巴分词:paramstr:待分词的字符串:return:词组列表"""jieba.suggest_freq('华氏老方',tune=True)jieba.suggest_freq('起名鬼才',tune=True)cut_list=jieba.lcut(str)returncut_list#生存词云图defgen_word_cloud(cut_list,filename):"""生存词云图:paramcut_list:结巴分词过的词组列表:paramfilename:保存到图片的文件名"""word_str=''.join(cut_list)wc_settings={'font_path':'msyh.ttc','width':800,'height':560,'background_color':'white','max_words':100}#成云词对象wc=WordCloud(**wc_settings).generate(word_str)#保存到图片wc.to_file(filename)if__name__=='__main__':av='av83743079'#读取弹幕文件str=read_file(f'{av}.txt')#使用结巴对弹幕文件分词cut_list=jieba_cut(str)#利用WordCloud生成词云图片gen_word_cloud(cut_list,f'{av}.png')4.3本章小结本章主要介绍了系统所使用算法的代码以及具体过程,描述了如何爬取弹幕以及如何生成词云算法。第五章系统实验本章将会对实验说使用的算法进行实验并记录结果。然后会进行评估,最终对实验的有关参数的具体设置进行详细分析。 5.1系统开始实验本实验所使用的av号为83743079;第一步编译运行弹幕爬取;如图5-15-1编译运行界面第二步编译运行词云生成:如图5-25-2词云运行界面词云已经生成成功:如图5-35-3词云生成第六章实验分析6.1分析通过以上实验可以发现,弹幕能够很好的体现出一部视频的质量与情节。作为一种新型的文本消息,弹幕反应了视频的情感。本系统借助弹幕还原了一部视频的质量。实验结果表明了弹幕下管理电影情节分析领域的重要性。 第七章总结与展望7.1全文总结
随着互联网在近年来的高速发展,人们在日常生活中会面临大量的资讯类数据。如何从大规模文本数据中提取出主要信息逐渐成为了新的研究热点。因此,自动文本摘要生成在数据挖掘和机器学习领域也得到了广泛关注。从广义上来说,文本摘要技术就是为大量文本生成简短的描述,从而过滤冗余文本获得真正有价值的信息。
本文主要研究对于一种新型视频评论
“弹幕”的摘要生成算法。弹幕是近年来一种流行的视频评论,不同于传统的评论,弹幕是用户在观看视频的同时发表的观点,除了评论文本外,弹幕还会记录用户的发送时间和对应到视频的时间位置。因此弹幕评论为视频提供了一种新型同步的文本信息。同时也为有关视频数据的研究(例如:视频标记)提供了一种新的途径。文本将弹幕评论的摘要生成和视频描述生成结合起来,从大量的弹幕评论中抽取少量的代表性的弹幕作为同步的视频描述来避免大量的人工标记工作。
为了验证算法在弹幕文本摘要生成上的有效性,我们构造了热门视频的弹幕数据集并与多种经典的文本摘要生成算法进行对比。实验结果和具体示例表明,本文提出的算法能够在弹幕文本摘要生成方面取得良好的效果,并且验证了算法中各个组成部分的作用,同时也为视频质量的描述提供了一种新的途径。7.2工作展望文本的工作主要是对弹幕这中新型视频评论的自动摘要生成进行了研究,并将其和视频描述生成的应用进行了结合,从而可以避免大量的人工标记工作。然而,本文还存在一些方面上的问题。
本文提出的算法是以爬取全部的视频弹幕,然后生成词云进行直观分析。因此算法还有提升空间。针对这个问题,下一步我们可以通过结合时序文本的聚类方法来先对弹幕文本进行聚类,然后通过探测聚类边界来实现对视频片段的动态分段。从而改进本文提出的算法进行摘要生成。
由于我们算法包含了文本重构和主题重构两个部分,且算法包含的变量较多,很大程度上制约了算法的求解效率和在更大数据集上的表现。针对文中提出的方法,目前有以下两种方案:
(1)
利用次模函数来对当前算法进行优化,结合贪婪算法实现摘要抽取提升求解效率:
(2)
通过结合在线学习来动态评估当前弹幕的信息含量和摘要集合中的冗余度,使得算法能够适用于更大规模的数据。
此外,对于弹幕文本的研究还有很多探索的空间,例如:将弹幕评论的抽取式摘要生成扩展到理解式摘要生成,结合弹幕文本来实现对视频在时间段(帧)上的内容检索,结合用户发送的弹幕评论来完善视频的个性化推荐等等.这些有趣的问题同时也拥有真实的应用场景,非常值得更多研究者们的关注和进一步研究。参考文献[1]《Python基础教程(第2版.修订版)》,2010[2]
韦玮,《精通Python网络爬虫:核心技术、框架与项目实战》[3]
Python高级数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 儿童类广播节目制作服务企业制定与实施新质生产力战略研究报告
- 电影、电视艺术评论服务企业制定与实施新质生产力战略研究报告
- 2025-2030中国宣传册行业供需趋势及投资风险研究报告
- 2025-2030中国安全劳保用品行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030中国孕妇装行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 2025-2030中国婴儿学步车行业市场现状供需分析及投资评估规划分析研究报告
- 动漫舞台剧表演行业直播电商战略研究报告
- 2025-2030中国太阳能蓝牙扬声器行业市场现状供需分析及投资评估规划分析研究报告
- 仿真航模及其附件企业制定与实施新质生产力战略研究报告
- 2025-2030中国大数据应用行业市场发展分析及前景趋势与投资研究报告
- 特种工作作业人员体格检查表
- 清远市城市树木修剪技术指引(试行)
- 广州国际文化中心详细勘察报告正文-171229end
- 警察礼仪(PPT53页)
- 《关于加强高等学校食堂管理工作的意见》解读
- 《尚艺发型标准剪裁》PPT课件
- 中国现代文学史00537
- 110kV升压站电气施工工艺及方案培训资料(共107页)
- 年产万吨碳酸饮料厂的工艺设计
- 流砂过滤器设计说明书
- T∕CISA 065-2020 高炉循环冷却水系统节能技术规范
评论
0/150
提交评论