基于Python的哔哩哔哩视频网视频热度分析_第1页
基于Python的哔哩哔哩视频网视频热度分析_第2页
基于Python的哔哩哔哩视频网视频热度分析_第3页
基于Python的哔哩哔哩视频网视频热度分析_第4页
基于Python的哔哩哔哩视频网视频热度分析_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要在21世纪的今天,网络发展越来越快,网上的娱乐方式也越来越多样化,而如今在网上观看视频消遣时间越来越受到大众的青睐。Bilibili视频网站是现当下年轻人最受欢迎的一个视频网站。有调查显示,直到2019年的10月份,Bilibili视频网站的用户在总体网络视频用户占比高达90%。它与其他的视频网站用户相比较,其用户忠实度更高,据其招募报告称,其成员的12个月保留率达79%,而2009年注册的用户中60%的今天仍然活跃。Bilibili是目前国内最受欢迎的综合用户网站,分析其视频热度可以从侧面分析15-45岁群体的爱好,有着重要研究意义。本论文为基于Python的“哔哩哔哩视频网”视频热度分析。首先讲解本文使用的相关技术,包括Scrapy框架,Pandas库和pyecharts库。然后根据页面分析使用基于Scrapy的方法对哔哩哔哩视频网数据抓取,并展示了部分数据结果,还对数据进行了预处理,接着为数据分析分别对分区占比、平均播放量、平均三连情况、各区平均播放和热门标签进行可视化,最后总结本论文所做的工作以及展望。关键词:Scrapy;Pandas;哔哩哔哩视频网AbstractInthe21stcentury,thedevelopmentoftheInternetisfasterandfaster,theonlineentertainmentismoreandmorediversified,andnowwatchingvideosontheInternetforleisuretimeismoreandmorepopular.Bilibiliisoneofthemostpopularvideowebsitesforyoungpeopletoday.AsofOctober2019,Bilibiliaccountsfor90percentofallonlinevideousers,accordingtoasurvey.Bilibilibilihashigheruserloyaltythanotherplatforms,witha12-monthretentionrateof79%accordingtoitsrecruitmentreport,comparedwith60%ofusersregisteredin2009whoarestillactivetoday.BilibilibiliisthemostpopularcomprehensiveuserwebsiteinChina.Analyzingitsvideopopularitycananalyzethehobbiesofthe15-45-year-oldgroupfromtheside,whichhasimportantresearchsignificance.ThispaperisbasedonPython"BiliBilivideonetwork"videoheatanalysis.Firstofall,itintroducestherelatedtechnologiesusedinthispaper,includingthescrapyframework,pandaslibraryandpyechartslibrary.Then,accordingtothepageanalysis,weusethemethodbasedonscratchtocapturethedataofbilibilibilivideonetwork,andshowsomedataresults,andpreprocessthedata.Thenwevisualizethepartitionproportion,theaverageplaybackvolume,theaveragetripleconnection,theaverageplaybackofeachareaandthehottagsforthedataanalysis.Finally,wesummarizetheworkandProspectofthispaper.Keywords:Scrapy;Pandas;BiliBili目录第一章绪论 第一章绪论1.1研究背景与以前我国信息交流不发达的时代相比,如今我国学会上网的人也越来越多,而国家对互联网的普及率也越来越高。导致与2018年相比较,如今中国的上网人数已经比那时提高了2%。而如今随着手机的更新换代,手机上网比用电脑上网更加便捷,有数据显示,如今使用手机上网的人数比使用电脑上网人数多3000万。在21世纪的今天,网络发展越来越快,网上的娱乐方式也越来越多样化,而如今在网上观看视频消遣时间越来越受到大众的青睐。Bilibili视频网站是现当下年轻人最受欢迎的一个视频网站。有调查显示,直到2019年的10月份,Bilibili视频网站的用户在总体网络视频用户占比高达90%。而如今不仅是Bilibili,就连像优酷、腾讯、爱奇艺、乐视等的视频网站都以电视剧、电影、动漫等的一些视频类型向游戏、音乐、电竞等当代年轻人喜爱的娱乐类型进行扩展联动。正是有了这些视频网站专业的生产和运营,我国的网络视频行业才慢慢不停地发展起来,逐步形成网络视频的内容与各领域协同的娱乐生态内容。Bilibili视频网站于2009年创立,最开始的时候这个视频网站只是类似于今天的A站一样,分享一些精美图片和视频。但随着中国近十多年来互联网的快速发展,该视频网站也慢慢地扩展了其他的业务,例如一些电子商务和手机游戏等。但其特殊之处还不止这些,与优酷和腾讯等其他视频网站不同,Bilibili在ACG文化以及弹幕文化方面上显得独树一帜。随着Bilibili游客数量的快速增长,它的内容也越来越丰富,除了占主导地位的主题之外,现在的Bilibili还提供了各个领域的视频,包括音乐、舞蹈、科学、技术、娱乐、电影、戏剧、时装、日常生活以及广告电影。此外,Bilibili还提供实时流媒体服务,观众可以与流媒体进行互动。通常这些主题都是关于动画、内容创建与游戏策略等。Bilibili与其他平台相比,其用户忠实度更高,据其招募报告称,其成员的12个月保留率高达79%,而2009年注册的用户中有60%今天仍然活跃。此外,年龄在15-45岁之间的用户占平台总体用户基础的78%。Bilibili的平均用户每天在该平台上花费超过78分钟,观看每月上传的240万个视频中的一些。Bilibili凭借其独特而活跃的内容社区吸引用户,也是该网站用户数量激增的原因。而自2018年9月以来,它在12个月内获得了3500万的MAU。Bilibili是目前国内最受欢迎的综合用户网站,分析其视频热度可以从侧面分析15-45岁群体的爱好,有着重要研究意义。1.2国内外研究现状作为当代网民最重要的娱乐方式之一的网络视频已经成为当今互联网世界的第五大应用。而在这个互联网数据的时代,网络视频拥有大量的用户数据,对网络视频的分析研究能够知道当代网民对视频的喜爱类型,对今后网络视频的可持续发展有着重要的意义。马翔[1]为了能够实现视频网站分析平台的用户数据可视化应用模型,他从人机交互和可视化等综合视角出发,带领视频制作团队实现把用户的数据向节目形式和内容的转化,也提出了用可视化的数据挖掘以及分析用户的爱好习惯的观点。崔楠,郭俞,张会雄[2]使用Python网络蜘蛛作为工具对哔哩哔哩视频网获取了大量的弹幕数据,并这些数据进行了挖掘分析,由此间接地评价了视频的内容,最终结果展示了流行短视频的独特评价,对短视频的作者和平台都具有一定的参考价值。他们基于这种弹幕的研究方法也为视频内容的自动识别与评价提供了新的思路。徐璐[3]使用获得的Web用户日志分析出观看视频用户的一些选择和观看的视频评分之间的矩阵关系。通俗来讲就是建立用户的兴趣模型来发现观看视频用户的喜好,在此过程中,她还对协同过滤算法中一些计算方法进行了改进,使其模型能够主动向用户提供他们喜好观看的一些的视频。顾军华,高星,王守彬,等[4]以新媒体等视频大数据为基础在Spark上建立了BP神经网络视频评估模型。还以传统媒体等视频方面的影响度为基础不断地去完善其评估体系。最后还建立了基于IPTV的大数据,并且能够反映其用户群体的喜好类型评分策略的BP神经网络评估模型。1.3章节安排本篇论文总共有5个章节,每一个章节的主要内容如下:第1章是绪论章节,主要介绍研究背景和国内外的一些研究现状,接着介绍本文的结构。第2章主要介绍了本文使用的相关技术,包括有Scrapy框架、Pandas库和pyecharts库。第3章为基于Scrapy的数据抓取,首先介绍了如何根据页面分析对网页数据进行抓取,然后展示了部分数据结果,并对数据进行了预处理。第4章主要为数据分析,分别对分区占比、平均播放量、平均三连情况、各区平均播放以及热门标签进行数据分析并可视化。第5章是结论,总结本论文所做的工作以及展望。第二章相关技术介绍2.1Scrapy框架Scrapy框架在Python语言中处理复杂情况的一种工具。它是一种强大的网页蜘蛛框架,不仅能够轻松构建请求,并且能轻松解析响应。它的性能非常高甚至还可以将网页蜘蛛这种程序工程化以及模块化。Scrapy框架主要包括:(1)引擎:主要工作负责项目管道、网页蜘蛛、下载器、调度器中间的通讯、信号分析以及相关数据信息传递等。(2)调度器:主要负责接收来自引擎发送的请求,并组织和布置以某种方式入队,当被需要时返回到引擎。(3)下载器:主要工作负责下载引擎发送的所有请求,并将其获取到的响应交还给引擎,并由相关引擎交给网页蜘蛛来处理。(4)网页蜘蛛:主要负责处理所有响应,从中分析提取数据并获得项目字段所需的数据,向引擎提交需要跟踪的URL并又一次进入到调度器之中。(5)项目管道:从爬行器中获取的项目进行处理和后处理的地方。Scrapy的运行流程基本如下:(1)首先,引擎从调度程序中检索的URL作为初始目标的检索程序,并开始从此URL抓取。(2)其次,URL被引擎封装为请求并且传送给下载器,下载器把资源下载到本机后再封装为响应。(3)网页蜘蛛接收响应同时调用回调函数。2.2Pandas库Pandas库的创始人是一位名叫WesMcKinney的开发人员开发出来的,其开发Pandas库的目的在于能够对所得到的数据进行更加精准的操作分析以及建模等。而在此出现之前,Python只能够简单的对数据进行处理以及作出一些准备,而对于如今的数据分析的贡献并不是很大。而目前作为一个开源的Pandas,已经能够利用其强大的功能为数据处理提供高性能的处理和分析了。而如今带有Pandas库的Python语言已经在广泛的领域中使用,其中就包括有学术、商业、金融、经济学、统计和分析等。Pandas库的主要特点:(1)具有快速高效的数据框架对象,具有默认和自定义索引。(2)处理数据对齐和丢失数据。(3)将不同文件格式的数据加载到内存中的数据对象工具。(4)可以把日期一期重新塑造以及设置。(5)可以删除或插入数据结构中的列。(6)基于标签的切片,大数据集的索引和子集。2.3pyecharts库Pyecharts库作为Python中一个图表的库,使用它生成的图表的可观程度非常的高,对数据进行分析起来十分的方便,通过图表数据与数据的比较更容易得出数据分析的结果。Pyecharts库的主要特点:(1)能够支持链式的调用,并且能够实现简单干净的API设计。(2)能提供三十多种的常用图表。(3)带有JupyterNotebook和JupyterLab并支持当下的Notebook环境。(4)可轻松集成到Flask和Django等主流的Web框架。(5)拥有四百个以上的地图文件,也能够支持地理数据的可视化实现。(6)为新手开发项目提供更多的文档支持。第三章基于Scrapy的数据抓取3.1页面分析如图3.1为Bilibili排行榜页面,在对网页的数据抓取前首先需要分析其页面结构。如图3.2为网页的html结构,排行榜页面仅有题目,作者,观看量,评论数,综合得分等数据,更多数据需要进入视频详情页面进行抓取。如图3.3为视频详情的html结构,视频详情页面可以获取与播放视频相关的一些播放量、三连量、转发量、热门标签等信息,我们都可以通过xpath方法来抓取这些在div标签的信息。图3.1排行榜页面图3.2排行榜页面代码图3.3视频详情代码3.2数据结果表3.1为本文获取数据格式,表3.1展示了其中的九行数据,包括了作者、投币数、弹幕数、三连数、作品id、点赞数、类别,回复数、得分、分享数、观看数、题目以及标签十三列的数据内容。表3.1原始数据表作者投币数弹幕三连id点赞数类别快乐的Ler5125423319648384695473051611191全站飞鱼不在天2588171182754928891835249279854全站落桑西4590019464117605190609023858630全站翘课迟到4395295294836403289558467582909全站奶糕成精档案社22907634179582291675841268103全站维C永不加班426321111372349445952356127动画可口的红糖126985994110739891060138208720国创相关是珍珍又是希希23322498052914943605292舞蹈明月庄主moon5027616087920828311030858720游戏续表3.1原始数据表回复数得分分享观看数题目标签1515812345441524674887831“ᴰᵒʸᵒᵘᴸⁱᵏᵉᴿᵃⁱⁿ”“ᴵᴾʳᵉᶠᵉʳʸᵒᵘ”MAD.AMV,天气之子,全能打卡挑战,宫崎骏,你的名字,新海诚,MAD,影视剪辑,BGM,多素材,纯音乐936812771440230623123675这十个软件,让你的电脑舒适度提升1400%数码,Windows,电脑,软件,演示,推荐,微软1180986413057679258418668B站现状搞笑,全能打卡挑战,B站,恶搞,BILIBILI,哔哩哔哩,搞笑视频4248267599592479315520288处处零搞笑,翻唱,处处吻,全民音乐UP主,搞笑翻唱,恶搞45723202361464641602855孩子要出道了,《被迫营业》MV正式首发!!萌宠,宅家vlog挑战,可爱,动物圈,日常,搞笑87811710174153337412【全员踩点】JO厨兴奋剂MAD.AMV,JOJO的奇妙冒险,AMV,JOJO,MAD,燃,踩点,脑洞搞笑,热血,搞笑61513287288317962246312看的我热血沸腾,看完你可能要重新认识喜羊羊童年回忆杀,喜羊羊与灰太狼,国产动画,bilibili新星计划,童年,热血,催泪向,动漫,动画,剪辑435367972490215874【希希】Senorita穿衬衫的小老虎明星舞蹈,街舞,舞蹈,全能打卡挑战,性感,爵士舞123110773236984554399我的世界基岩版从零开始学红石《合集》by明月庄主手机游戏,红石教程,沙盒游戏,明月庄主,教程,我的世界红石,我的世界手机版,我的世界PE,我的世界基岩版3.3数据预处理数据清理主要是通过删除或修改不正确、不完整、不相关、重复或者格式不正确的数据来准备要分析的数据的过程。在分析数据时,此数据通常不是必需的或无用的,因为它可能会阻碍过程或提供不准确的结果。有几种清理数据的方法,具体取决于数据的存储方式以及所寻求的答案。数据清理不仅涉及擦除信息以为新数据腾出空间,还在于寻找一种方法来最大化数据集的准确性而不必删除信息。一方面,数据清除包括比删除数据更多的操作,例如修复拼写和语法错误,标准化数据集以及更正错误,例如空字段,缺少代码以及识别重复的数据点。另一方面,数据清理被认为是数据科学基础的基础要素,因为它在分析过程中扮演着重要角色,并能够找到可靠的答案。最重要的是,数据清理的目的是创建标准化且统一的数据集,以允许商业智能和数据分析工具轻松访问并为每个查询找到正确的数据。从本次采集到的数据中发现并缺失值,而且采取数据有1300行和13列。由于全站榜包含在各分区靠前的视频中,而在rank_tab中有一个全站榜的数据,所以这里就要把全站榜除外,避免重复计算。df_without_all=df[~df['rank_tab'].isin(['全站'])]由上面的一行代码可把“全站”这个元素整行进行排除,这样就能够得到一个名为df_without_all的Dataframe,由此一来便能够简单地把收集来的数据进行了一个预清洗。第四章数据分析4.1分区占比可视化首先对预处理好的数据按照综合评分进行降序排序,然后再对其进行切片处理,接着获取分区名列的前100项的数据,最后再统计每一个分区出现次数进行返回处理。得到的分区占比可视化由下图所示。图4.1分区占比可视化从图4.1中可以看出,在综合评分top100当中,代表当代年轻人喜爱的二次元动画所占比例为21%,仅排名第二。但是生活类的视频却超过动画类视频并占且据第一位。根据对二次元的定义,整体看的话完全属于二次元的视频比例占24%,二次元至今依然是B站的主力军。在2018年的B站资料数据中显示,所有频道中播放量TOP5的分别是娱乐、生活、游戏、动画和科技区。与我们数据相比较,生活、动画类视频的排名分别提升到了第1名和第2名,而娱乐、游戏、科技类视频则跌出榜单,位列倒数,但时尚、鬼畜、音乐类的视频则成为了新秀。4.2平均播放量可视化在对综合评分top100视频的平均播放量进行可视化的时候,这里选择了用柱形图来对获取的数据进行进一步的可视化。把综合评分top100的视频平均播放量作为指标,而视频类型的名称作为维度,然后生成柱形图。由于Pyecharts起初生成的图表为html的格式,这里为了方便就利用snapshot_selenium把html直接转为png格式。图4.2平均播放量可视化4.3平均三连情况可视化虽然前面已经初步可视化出top100综合评分视频的平均播放量,但是由于平均播放量的单位是人次而不是人数,为了更加全面的反映出在B站用户的具体喜爱的视频类型。这里还需要对B站用户在top100综合评分视频中的点赞、投币和收藏的三连情况进行可视化操作。图4.1-图4.6是综合评分top100中各分区平均三连情况分析,这里依旧是用snapshot_selenium把html直接转为png格式,但是选择的是雷达图来对获取的数据进行进一步的可视化。具体如下图所示。图4.3点赞情况可视化图4.4投币情况可视化图4.5收藏情况可视化图4.6三连情况可视化由以上三张雷达图可以看出,在点赞人数里,影视区的视频拥有最高的点赞量,其次为生活区;在投币人数里,生活区的视频拥有最高的投币量,其次为动画区;在收藏人数里,时尚区的视频拥有最高的收藏量,其次为影视区。4.4各区平均播放可视化为了进一步对B站用户喜爱视频类型全面了解,若仅是对全站中的top100综合评分视频的数据分析可能还不足达到比较全面的效果。所以下面我将对所有视频分区的top100综合评分的视频的平均播放量进一步进行分析。首先对前面提及的df_without_all按照分区名来进行分类,其次再统计出各个分区情况数据的平均值,最后完成后存入csv文件中。如此一来便完成简单的数据预处理。之后这里选择折线图对视频平均播放量的数据进行可视化,用前面所提及的方法转化为以下的图表。图4.7各区播放量可视化由图4.7可以看出,在各视频分区的top100综合评分之中,鬼畜区的平均播放量为最高,其次为生活区,第三为动画区,相比于以往的生活区和动画区,相比于其它网站没有而作为B站独有特色的鬼畜区的平均播放量在这次有所上升。4.4热门标签可视化在对视频进行了平均播放量的可视化分析之后,最后可以再对视频的热门标签进行可视化的分析。因为在B站的视频之中,每一个视频都有不同的标签,而数量众多的视频的标签加起来就会出现标签重复的情况。所以接下来需要对视频标签进行一个去重的工作,求出唯一的标签,再去计算每一个标签出现的次数。该过程稍微比较复杂,首先要在tag_name得到所得数据,然后创建一个特定规格的Dataframe,命名后遍历df_without_all[‘tag_name’],如果与tag_df的columns对应,则将tag_df中对应的columns*index单元格赋值为1,最后对每一列的1进行求和。以上方法虽然比较复杂,但是Pandas库里有更加简便的方法能够去实现这种复杂的操作。该方法在df_without_all的tag_name列提取热门的标签,然后把热门的标签数据作为一维的列表,再转化为之后,调用方法进行赋值。其热门可视化如下图。图4.8热门标签可视化由图4.8可以看出,今年的热门视频标签与之前B站所统计的热门视频标签相对比,在B站热门视频标签出现最多的仍然是搞笑标签,而鬼畜和Bilibili新星计划等几个标签作为B站独有的文化仍然比较显眼,而且在今年的视频标签中能够发现挺多与生活相关的标签,这说明每一年的视频标签都在不停地变化。第五章总结与展望5.1工作总结此次的毕业设计虽然耗时三四个月,但是作为对自己四年大学的一个总结,还是经过不懈努力把它完成了。从选题到开题报告,再从开题报告到毕业设计的实现以及论文的撰写都需要查阅大量的课题资料与实现该设计的涉及的相关技术的文档和书籍。通过这三四个月的不断学习与动手实践,也以这种一边学习一边动手的方式逐渐熟悉了基于Python对网站中网络视频的数据爬取和数据分析。在21世纪的今天,网络发展越来越快,网上的娱乐方式也越来越多样化,而如今在网上观看视频消遣时间越来越受到大众的青睐。Bilibili视频网站是现当下年轻人最受欢迎的一个视频网站。有调查显示,直到2019年的10月份,Bilibili视频网站的用户在总体网络视频用户占比高达90%。它与其他的视频网站用户相比较,其用户忠实度更高,据其招募报告称,其成员的12个月保留率达79%,而2009年注册的用户中60%的今天仍然活跃。Bilibili是目前国内最受欢迎的综合用户网站,分析其视频热度可以从侧面分析15-45岁群体的爱好,有着重要研究意义。本次论文所进行的工作得出的总结主要有以下几个方面:(1)通过分析B站综合评分top100的视频分类占比中,我们可以发现生活区的占比最高,其次为动画区,可见目前B站主流视频类型为生活类和动画类。(2)通过分析B站综合评分top100的视频平均播放量情况时,我们可以发现动画类型的视频平均播放量最高,其次为时尚类的视频,可见在B站用户里最受欢迎的还是动画类的视频,也从进一步判断出B站用户的年龄总体比较年轻。(3)通过分析B站用户在top100视频各分区的平均三连情况,我们可以发现点赞较多的视频类型分别为影视、生活、动画类型,投币较多的视频类型分别为动画、生活、游戏类型,收藏较多的视频类型分别为时尚、影视、动画类型,其中最高的为时尚类型。总结平均三连情况可得知在点赞人数里,影视区的视频拥有最高的点赞量,其次为生活区;在投币人数里,生活区的视频拥有最高的投币量,其次为动画区;在收藏人数里,时尚区的视频拥有最高的收藏量,其次为影视区。由此可知B站用户更喜欢把数量有限的币投给动画和生活类型的视频,而相对于比较实用的时尚和科技类型的视频他们就更偏向于收藏了。(4)通过分析B站视频的热门标签,我们可以知道今年的热门视频标签与之前B站所统计的热门视频标签相对比,在B站热门视频标签出现最多的仍然是搞笑标签,可见B站用户多数都喜欢能给人带来快乐的视频类型。而鬼畜和Bilibili新星计划等几个标签作为B站独有的文化仍然比较显眼,而且在今年的视频标签中能够发现挺多与生活相关的标签,结合往年B站的热门视频标签分析,这说明在B站可能每一年的视频标签都在不停地变化。5.2展望这个时代是被数据支配的时代,而数据分析毋庸置疑是当今互联网发展的必由之路。而网络视频作为当下社会的精神文化产品,得到越来越多人的喜爱。所以对网络视频进行数据分析显得十分重要,它能帮助人们进行判断。而本文是基于Python对“哔哩哔哩视频网”不同类型视频进行数据分析,能进一步分析其视频热度,方便了解如今B站15-45岁群体的爱好。虽然本次通过对“哔哩哔哩视频网”不同视频类型的数据分析得到一定的成果,但是在此过程中仍然存在一些不足需要在以后的分析中得以完善。参考文献[1]马翔.视频网站数据分析平台中自制节目数据可视化应用研究[D].湖南大学,2015.[2]崔楠,郭俞,张会雄.基于弹幕数据分析的热门短视频评价研究[J].实验科学与技术,2019,17(3).[3]徐璐.基于Web挖掘的视频推荐系统分析与实现[D].2016.[4]顾军华,高星,王守彬,等.基于大数据的IPTV视频评估模型[J].计算机应用与软件,2018,35(8):231r237.[5]舒德华.基于Scrapy爬取电商平台数据及自动问答系统的构建[D].华中师范大学,2016.[6]CamilaLange,AnaMariaGracianoFigueiredo,JacintaEnzweiler.EVALUATIONOFCoANDCrMOBILITYINSOILPROFILESCOLLECTEDINASCRAPYARDOFIMPOUNDEDVEHICLES[C]//InternationalNuclearAtlanticConference.2015.[7]高鸿斌,申肖阳.Python数据分析技术综述[J].邯郸职业技术学院学报,2018,31(04):49-51.[8]王芳.基于Python的招聘网站信息爬取与数据分析[J].信息技术与网络安全,2019,38(08):42-46,57.[9]徐勤亚,蔡继鹏,王星.基于Python的影片数据分析[J].信息技术与信息化,2019(08):113-115.[10]赵绿草,饶佳冬.基于python的二手房数据爬取及分析[J].电脑知识与技术,2019,15(19):1-3.[11]许素,许新华,柏瑶,张盼,黄瑾.基于python的微信公众号关注者数据分析[J].电脑与信息技术,2019,27(05):61-63.[12]陈华庆,冼远清,赖建明.网站弹幕视频数据的挖掘与分析[J].福建电脑,2019,35(08):102-103.[13]郑飏飏,徐健,肖卓.情感分析及可视化方法在网络视频弹幕数据分析中的应用[J].现代图书情报技术,2015(11):82-90.

致谢转眼间,我在美丽的东软学院已经度过了四年。四年,这是我人生中非常重要的四年,我很幸运能够接触到这些不仅传授我的知识,还能从更高的层次来指导我的人生和追求价值的导师。它们使我坚定了人生的方向,获得了追求前进的动力,留下了大学生活的完美记忆。在这篇论文的设计过程中,从一开始接到论文题目到项目的实现,最后到论文的完成,总共花费了三个月时间。这其中我经历了很多的困难,但我最终克服了它们。我要感谢我的毕业论文导师范波老师,在学习过程中,老师给了我详细的指导,从选题指导,论文框架到详细修改,并提出了许多有价值的建议和建议。当我在论文中期遇到难题的时候,他指导了我论文写作的思路和方向。感谢给我论文提供了帮助和意见的朋友和同学们和参考文献中的作者们,他们的帮助让我在论文的编写中有了很大的启发。此外,感谢各位老师的辛勤工作。感谢广东东软学院给了我一个良好的学习和生活平台,在这里我不但学习到了很多专业知识,结识了许多良师益友,也明白了“学无止境,气有浩然”的真谛,也希望即将离开的我能在今后的道路上多为母校增光添彩。最后,我特别的感谢我的父母,他们不仅支持我完成学业,同时也给予我很多宽容和爱,谨以此文回报父母。在此,我要向所有在百忙之中审阅论文并参加答辩的专家教授们表示衷心的感谢!附录

怎样提高电脑系统运行速度WindowsXP的启动速度比Windows2000要快30%左右,但相对于Windows98仍然要慢了不少,不过,我们可以通过优化设置,来大大提高WindowsXP的启动速度。加快系统启动速度主要有以下方法:尽量减少系统在启动时加载的程序与服务;对磁盘及CPU等硬件进行优化设置;修改默认设置,减少启动等待时间等。这些方法大部分既可减少系统启动的时间,又可以节省系统资源,加快电脑运行速度。1.加快系统启动速度WindowsXP的启动速度比Windows2000要快30%左右,但相对于Windows98仍然要慢了不少,不过,我们可以通过优化设置,来大大提高WindowsXP的启动速度。加快系统启动速度主要有以下方法:尽量减少系统在启动时加载的程序与服务;对磁盘及CPU等硬件进行优化设置;修改默认设置,减少启动等待时间等。这些方法大部分既可减少系统启动的时间,又可以节省系统资源,加快电脑运行速度。(1)MsconfigWindowsXP的启动速度在系统安装初期还比较快,但随着安装的软件不断增多,系统的启动速度会越来越慢,这是由于许多软件把自己加在了启动程序中,这样开机即需运行,大大降低了启动速度,而且也占用了大量的系统资源。对于这样一些程序,我们可以通过系统配置实用程序Msconfig将它们从启动组中排除出去。选择“开始”菜单中的“运行”命令,在“运行”对话框中键入“Msconfig”,回车后会弹出“系统配置实用程序”对话框,选择其中的“启动”选项卡(如图1),该选项卡中列出了系统启动时加载的项目及来源,仔细查看每个项目是否需要自动加载,否则清除项目前的复选框,加载的项目越少,启动的速度就越快。设置完成后需要重新启动方能生效。(2)BootvisBootvis是微软提供的一个启动优化工具,可提高WindowsXP的启动速度。用BootVis提升WindowsXP的启动速度必须按照正确的顺序进行操作,否则将不会起到提速的效果。其正确的操作方法如下:启动Bootvis,从其主窗口(如图2)中选择“工具”菜单下的“选项”命令,在“符号路径”处键入Bootvis的安装路径,如“C:\ProgramFiles\Bootvis”,单击“保存”退出。从“跟踪”菜单中选择“下次引导”命令,会弹出“重复跟踪”对话框,单击“确定”按钮,BootVis将引导WindowsXP重新启动,默认的重新启动时间是10秒。系统重新启动后,BootVis自动开始运行并记录启动进程,生成启动进程的相关BIN文件,并把这个记录文件自动命名为TRACE_BOOT_1_1。程序记录完启动进程文件后,会重新启动BootVis主界面,在“文件”菜单中选择刚刚生成的启动进程文件“TRACE_BOOT_1_1”。窗口中即会出现“CPU>使用”、“磁盘I/O”、“磁盘使用”、“驱动程序延迟”等几项具体图例供我们分析,不过最好还是让BootVis程序来自动进行分析:从“跟踪”菜单中选择“系统优化”命令,程序会再次重新启动计算机,并分析启动进程文件,从而使计算机启动得更快。(3)禁用多余的服务WindowsXP在启动时会有众多程序或服务被调入到系统的内存中,它们往往用来控制Windows系统的硬件设备、内存、文件管理或者其他重要的系统功能。但这些服务有很多对我们用途不大甚至根本没有用,它们的存在会占用内存和系统资源,所以应该将它们禁用,这样最多可以节省70MB的内存空间,系统速度自然也会有很大的提高。选择“开始”菜单中的“运行”命令,在“运行”对话框键入“services.msc”后回车,即可打开“服务”窗口。窗口的服务列表中列出了系统提供的所有服务的名称、状态及启动类型。要修改某个服务,可从列表双击它,会弹出它的属性对话框(如图3),你可从“常规”选项卡对服务进行修改,通过单击“启动”、“停止”、“暂停”、“恢复”四个按钮来修改服务的状态,并可从“启动类型”下拉列表中修改启动类型,启动类型有“自动”、“手动”、“已禁用”三种。如果要禁止某个服务在启动自动加载,可将其启动类型改为“已禁用”。WindowsXP提供的所有服务有36个默认是自动启动的,实际上,其中只有8个是必须保留的(见下表),其他的则可根据自己的需要进行设置,每种服务的作用在软件中有提示。4)修改注册表来减少预读取,减少进度条等待时间WindowsXP在启动过程中会出现一个进度条,我们可以通过修改注册表,让进度条只跑一圈就进入登录画面。选择“开始”菜单中的“运行”命令,在“运行”对话框键入“regedit”命令后回车,即可启动注册表编辑器,在注册表中找HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\SessionManager\MemoryManagement\PrefetchParameters,选择其下的EnablePrefetcher键,把它的键值改为“1”即可。(5)减少开机磁盘扫描等待时间当Windows日志中记录有非正常关机、死机引起的重新启动,系统就会自动在启动的时候运行磁盘扫描程序。在默认情况下,扫描每个分区前会等待10秒钟,如果每个分区都要等上10秒才能开始进行扫描,再加上扫描本身需要的时间,会耗费相当长的时间才能完成启动过程。对于这种情况我们可以设置取消磁盘扫描的等待时间,甚至禁止对某个磁盘分区进行扫描。选择“开始→运行”,在运行对话框中键入“chkntfs/t:0”,即可将磁盘扫描等待时间设置为0;如果要在计算机启动时忽略扫描某个分区,比如C盘,可以输入“chkntfs/xc:”命令;如果要恢复对C盘的扫描,可使用“chkntfs/dc:”命令,即可还原所有chkntfs默认设置,除了自动文件检查的倒计时之外。2.提高系统运行速度提升系统运行速度的思路与加快启动的速度类似:尽量优化软硬件设置,减轻系统负担。以下是一些常用的优化手段。(1)设置处理器二级缓存容量WindowsXP无法自动检测处理器的二级缓存容量,需要我们自己在注册表中手动设置,首先打开注册表,找到“HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\SessionManager\MemoryManagement\”,选择其下的“SecondLevelDataCache”,根据自己所用的处理器设置即可,例如PIIICoppermine/P4Willamette是“256”,AthlonXP是“384”,P4Northwood是“512”。(2)提升系统缓存同样也是在“HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\SessionManager\MemoryManagement\”位置,把其下的“LargeSystemCache”键值从0改为1,WindowsXP就会把除了4M之外的系统内存全部分配到文件系统缓存中,这样XP的内核能够在内存中运行,大大提高系统速度。通常来说,该优化会使系统性能得到相当的提升,但也有可能会使某些应用程序性能降低。需要注意的是必须有256M以上的内存,激活LargeSystemCache才可起到正面的作用,否则不要轻易改动它。(3)改进输入/输出性能这个优化能够提升系统进行大容量文件传输时的性能,不过这只对服务器用户才有实在意义。我们可在中新建一个DWORD(双字节值)键值,命名为IOPageLockLimit。一般情况下把数据设置8~16MB之间性能最好,要记住这个值是用字节来计算的,例如你要分配10MB的话,就是10×?1024×1024,也就是10485760。这里的优化也需要你的机器拥有大于256M的内存。(4)禁用内存页面调度在正常情况下,XP会把内存中的片断写入硬盘,我们可以阻止它这样做,让数据保留在内存中,从而提升系统性能。在注册表中找到“HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\SessionManager\MemoryManagement\”下的“DisablePagingExecutive”键,把它的值从0改为1即可禁止内存页面调度了。(5)关闭自动重新启动功能当WindowsXP遇到严重问题时便会突然重新开机,可从注册表将此功能取消。打开注册表编辑器,找到“HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\CrashControl\”将AutoReboot键的Dword值更改为0,重新启动后设置即可生效。(6)改变视觉效果WindowsXP在默认情况下启用了几乎所有的视觉效果,如淡入淡出、在菜单下显示阴影。这些视觉效果虽然漂亮,但对系统性能会有一定的影响,有时甚至造成应用软件在运行时出现停顿。一般情况下建议少用或者取消这些视觉效果。选择桌面上“我的电脑”图标,单击鼠标右键,在弹出的快捷菜单中选择“属性”命令,打开“系统属性”对话框。选择“高级”选项卡,在其中的“性能”栏中单击“设置”按钮,会弹出“性能选项”对话框(如图4),可选择“调整为最佳性能”单选框来关闭所有的视觉效果,也可选择“自定义”然后选择自己需要的视觉效果。(7)合理设置页面虚拟内存同样也是在“性能选项”对话框中,选择“高级”选项卡,在其中的“虚拟内存”栏中单击“更改”按钮,接下来选择虚拟内存为“自定义大小”,然后设置其数值。一般情况下,把虚拟设为不小于256M,不大于382M比较合适,而且最大值和最小值最好一样。(8)修改外观方案WindowsXP默认的外观方案虽然漂亮,但对系统资源的占用也多,可将其改为经典外观以获得更好的性能。在桌面空白位置单击鼠标右键,从弹出的快捷菜单中选择“属性”命令,会打开“显示属性”对话框,在“主题”选项卡选择主题为“Windows经典”,即可将外观修改为更为经济的Windows经典外观。(9)取消XP对ZIP支持WindowsXP在默认情况下打开了对zip文件支持,这要占用一定的系统资源,可选择“开始→运行”,在“运行”对话框中键入“regsvr32/uzipfldr.dll”,回车确认即可取消XP对ZIP解压缩的支持,从而节省系统资源。(10)关闭Dr.WatsonDr.Watson是WindowsXP的一个崩溃分析工具,它会在应用程序崩溃的时候自动弹出,并且在默认情况下,它会将与出错有关的内存保存为DUMP文件以供程序员分析。不过,记录DUMP文件对普通用户则毫无帮助,反而会带来很大的不便:由于Dr.Watson在应用程序崩溃时会对内存进行DUMP记录,将出现长时间硬盘读写操作,要很长一断时间程序才能关闭,并且DUMP文件还会占用大量磁盘空间。要关闭Dr.Watson可打开注册表编辑器,找到“HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\WindowsNT\CurrentVersion\AeDebug”分支,双击其下的Auto键值名称,将其“数值数据”改为0,最后按F5刷新使设置生效,这样就取消它的运行了。同样,我们可以把所有具备调试功能的选项取消,比如蓝屏时出现的memory.dmp,可在“系统属性”对话框中选择“高级”选项卡,单击“启动和故障恢复”栏中的“设置”按钮,并在弹出的“启动和故障恢复”对话框中选择“写入调试信息”为“无”(如图5)。(11)启动硬盘/光驱DMA模式打开“系统属性”对话框,选择“硬件”选择卡中的“设备管理器”按钮,打开“设备管理器”窗口,在设备列表中选择“IDEATA/ATAPI控制器”,双击“主要IDE通道”或“次要IDE通过”,在其属性对话框的“高级设置”选项卡中检查DMA模式是否已启动,一般来说如果设备支持,系统就会自动打开DMA功能,如果没有打开可将“传输模式”设为“DMA(若可用)”。(12)关掉不用的设备WindowsXP总是尽可能为电脑的所有设备安装驱动程序并进行管理,这不仅会减慢系统启动的速度,同时也造成了系统资源的大量占用。针对这一情况,你可在设备管理器中,将PCMCIA卡、调制解调器、红外线设备、打印机端口(LPT1)或者串口(COM1)等不常用的设备停用,方法是双击要停用的设备,在其属性对话框中的“常规”选项卡中选择“不要使用这个设备(停用)”。在重新启动设置即可生效,当需要使用这些设备时再从设备管理器中启用它们。(13)关闭错误报告当应用程序出错时,会弹出发送错误报告的窗口,其实这样的错误报告对普通用户而言几乎没有任何意义,关闭它是明智的选择。在“系统属性”对话框中选择“高级”选项卡,单击“错误报告”按钮,在弹出的“错误汇报”对话框中,选择“禁用错误汇报”单选项,最后单击“确定”即可。另外我们也可以从组策略中关闭错误报告:从“运行”中键入“gpedit.msc”,运行“组策略编辑器”,展开“计算机配置→管理模板→系统→错误报告功能”,双击右边设置栏中的“报告错误”,在弹出的“属性”对话框中选择“已禁用”单选框即可将“报告错误”禁用。(14)关闭自动更新“自动更新”功能对许多WindowsXP用户而言并不是必需的,可将其关闭以节省系统资源。在“我的电脑”上单击鼠标右键,从快捷菜单中选择“属性”命令,选择“系统属性”对话框中的“自动更新”选项卡,勾选“关闭自动更新,我将手动更新计算机”单选框,单击“确定”按钮即可关闭自动更新功能。如果在“服务”已经将“AutomaticUpdates”服务关闭,“系统属性”对话框中的“自动更新”选项卡就不能进行任何设置了。(15)去掉菜单延迟去掉菜单弹出时的延迟,可以在一定程度上加快XP。要修改的键值位置在“HKEY_CURRENT_USER\ControlPanel\Desktop”。修改其下的“MenuShowDelay”键,把默认的400修改为0,按F5刷新注册表即可生效。(16)清除预读文件WindowsXP的预读设置虽然可以提高系统速度,但是使用一段时间后,预读文件夹里的文件数量会变得相当庞大,导致系统搜索花费的时间变长。而且有些应用程序会产生死链接文件,更加重了系统搜索的负担。所以,应该定期删除这些预读文件。预计文件存放在WindowsXP系统文件夹的Prefetch文件夹中,该文件夹下的所有文件均可删除。(17)关闭自动播放功能在WindowsXP中,当往光驱中放入光盘或将USB硬盘接上电脑时,系统都会自动将光驱或USB硬盘扫描一遍,同时提示你是否播放里面的图片、视频、音乐等文件,如果是拥有多个分区的大容量的USB硬盘,扫描会耗费很长的时间,而且你得多次手动关闭提示窗口,非常麻烦。这种情况下我们可以将WindowsXP的自动播放功能关闭。运行“组策略”程序。在组策略窗口左边栏中,打开“计算机配置”,选择“管理模板”下的“系统”,然后在右边的配置栏中找到“关闭自动播放”并双击它,会弹出“关闭自动播放属性”对话框。在其中“设置”选项卡中选择“已启用”,“关闭自动播放”下拉列表中选择“所有驱动器”(如图6)。这样以后就不用担心WindowsXP的“自动播放”功能带来的麻烦了。如果你只是想禁止系统扫描某个驱动器(如USB硬盘)上的文件,可采用下面的方法。先连上你的USB硬盘,让系统将它识别出来。然后打开“我的电脑”,选择USB硬盘上的某个分区,按鼠标右键,会弹出磁盘属性窗口,选取“自动播放”选项卡,将所有内容的类型都选择为不执行操作。如果USB硬盘有多个分区,对所有分区都进行同样的操作,这样当你将USB驱动器拔掉再重新接上时,系统会将USB硬盘识别出来,而不会反复问你是否播放USB硬盘中的文件了。3.加快关机速度WindowsXP的关机速度要慢于启动速度,特别有些任务还需要手工结束,更加延缓了关机速度。因此,要加快关机速度,首先要开启WindowsXP的自动结束任务功能。具体步骤是:从注册表中找到“HKEY_CURRENT_USER\ControlPanel\Desktop”,把“AutoEndTasks”的键值设置为1即可。然后再修改“HungAppTimeout”为“4000(或更小)”(预设为5000),该键值同样也在“HKEY_CURRENT_USER\ControlPanel\Desktop”下;最后一步再找到“HKEY_LOCAL_MACHINE\System\CurrentControlSet\Control\”,同样把WaitToKillServiceTimeout设置为“4000”;通过这样设置后的关机速度明显要加快了。够全面吧~~◆二、硬件优化设置◆1、关掉不用的设备

在设备管理器中,将PCMCIA卡、调制解调器、红外线设备、打印机端口(LPT1)或者串口(COM1)等不常用的设备停用,在要停用设备属性对话框中的“常规”选项卡中选择“不要使用这个设备(停用)”。当需要使用这些设备时再从设备管理器中启用它们。◆2、内存性能优化

WindowsXP中有几个选项可以优化内存性能,它们全都在注册表下面位置:HKEY_LOCAL_MACHINESYSTEMCurrentControlSetControlSession

ManagerMemory

Management

1)禁用内存页面调度(Paging

Executive)

XP会把内存中的片断写入硬盘,我们可以阻止它这样做,让数据保留在内存中,从而提升系统性能。256M以上内存才使用这个设置。把“DisablePagingExecutive”的值从0改为1就可以禁止内存页面调度了。

2)提升系统缓存

必须有256M以上的内存,才激活它。把LargeSystemCache键值从0改为1,一般来说,这项优化会使系统性能得到相当的提升,但也有可能会使某些应用程序性能降低。

3)输入/输出性能

内存大于256M才更改这里的值,这个优化只对server(服务器)用户才有实在意义,它能够提升系统进行大容量文件传输时的性能。建一个DWORD(双字节值)键值,命名为IOPageLockLimit,数值设8M-16M字节之间性能最好,具体设什么值,可试试哪个值可获得最佳性能。这个值是用字节来计算的,比如你要分配12M,就是12×1024×1024,也就是12582912。◆3、启动硬盘/光驱DMA模式

“系统属性”-“硬件”-“设备管理器”,在设备列表中选择“IDE

ATA/ATAPI控制器”,双击“主要

IDE

通道”或“次要

IDE

通道”,在其属性对话框的“高级设置”选项卡中检查DMA模式是否已启动,一般来说如果设备支持,系统就会自动打开DMA功能,如果没有打开可将“传输模式”设为“DMA(若可用)”(在BIOS里也应该要先设为支持DMA)。

◆4、关闭自动播放功能

运行“组策略”程序,在组策略窗口左边栏中打开“计算机配置”,选择“管理模板”下的“系统”,然后在右边的配置栏中找到“关闭自动播放”并双击它,会弹出“关闭自动播放属性”对话框,在其中“设置”选项卡中选择“已启用”,“关闭自动播放”下拉列表中选择“所有驱动器”。

◆5、设置二级缓存容量

WindowsXP有时无法自动检测处理器的二级缓存容量,需要我们手动设置。运行注册表编辑器,找到HKCU_LOCAL_MACHINESYSTEMCurrentControlSetControlSession

ManagerMemory

Management,选择Dword值SecondLevelDataCache(如果没有就新建这个值),修改这个值(填时使用10进制)为你的CPU的二级缓存的大小,比如你的CPU的二级缓存是256KB,就修改Dword值SecondLevelDataCache为10进制的256即可。二级缓存大小介绍AMD系列Duron

64KB

K6-3

Thunderbird

AthlonXP

256KB

K6-2

Athlon

512KB;Intel系列CeleronA

Celeron2

128KB

P2

Mobile

P3E(EB)

P4

Willamette

256KB

P2

P3(katmai)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论