红袖添香文学网数据采集与分析_第1页
红袖添香文学网数据采集与分析_第2页
红袖添香文学网数据采集与分析_第3页
红袖添香文学网数据采集与分析_第4页
红袖添香文学网数据采集与分析_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖南商务职业技术学院毕业设计

目录

1引言...............................................................1

1.1项目背景......................................................1

1.2开发环境与工具................................................2

1.2.1Python简介..............................................2

1.2.2JupyterNotebook简介....................................3

1.2.3Matplotlib简介..........................................3

1.2.4Pyecharts简介...........................................3

1.2.5WordCloud简介...........................................4

1.2.6XPath简介...............................................4

2需求分析...........................................................4

2.1可行性需求分析................................................4

2.2采集目标功能分析..............................................4

2.3关键技术分析..................................................5

2.3.1网络爬虫技术............................................5

2.3.2文件存取技术............................................6

2.3.3可视化技术..............................................6

3数据采集...........................................................7

3.1采集页面分析..................................................7

3.2字段分析......................................................9

3.3编程实现.....................................................10

4数据清洗与处理....................................................11

4.1数据清洗.....................................................12

4.2数据储存.....................................................13

5数据统计与分析....................................................13

5.1数据准备.....................................................13

5.2数据展示.....................................................14

5.2.1作者统计和分析.........................................14

I

湖南商务职业技术学院毕业设计

5.2.2小说连载状态统计和分析.................................15

5.2.3小说各阶段字数的人数进行统计和分析.....................15

5.2.4小说书名词云图进行统计和分析...........................16

5.2.5小说中的一品红文统计和分析.............................18

5.3统计分析小结.................................................18

6小结..............................................................19

参考资料............................................................20

II

湖南商务职业技术学院毕业设计

红袖添香文学网数据采集与分析

1引言

随着数据量的快速增加,大数据的到来是时代发展的必定趋向。大数据是

指没有办法在规定时间范围内用常规软件工具进行捕获、管理和解决的数据集

合,是需要新处理模式才能具备更强的决策力、洞察发现力和流程优化能力的

海量、高增长率和多样化的信息资产。大数据也是如今社会的必备工具,大数

据在我们的生活中无处不在,就好比我们在微博上看到的热搜榜,就是一种数

据的体现,它有阅读次数、讨论次数、原创人数等数据。其实之前每天的疫情

数据会让我们有更加直观的体验,每天我们都能在网上看到新增感染人数、治

愈人数、死亡人数。数据的使用有好也有坏,我们在网购时可能会被大数据杀

熟,有些不法分子会利用大数据来收集个人信息做一些违法犯罪的事情。

世界上每天的数据都是呈几何增长,这么多的无形数据扑面而来,我们看

到的其实只是冰山一角,更多更深层次的数据都在我们无法轻易接触到的地方,

如果想要接触到更加深层的数据,我们就需要使用特定的爬虫工具,还需要反

爬虫技术。

全世界的网民总数已经超过了40亿,平均每天上网6小时,那么每天会产

生多少数据呢?据美国统计机构显示,全球每天产生约12.5亿字节的数据量,

如果这些数据都被云计算平台分析计算得到有用的信息,那将是一笔巨大的信

息财富。大数据技术是数字建设中的核心关键技术,中国在面对信息社会的激

烈竞争中,制定了适时又成功的大数据战略,加快了数字中国的建设,同时也

提供了更优质、更快速的发展战略决策。

1.1项目背景

对于新手作家来说,如何分析大众的需求,明确哪种题材的文学作品更受

欢迎,如何根据市场要求挑选题材,如何根据市场的变化调整自己的文章。为

了避免时间和精力的付之东流,这是很重要的前提条件。那么,就需要获得好

看的小说排行榜的具体数据,然后进一步分析。所以我们需要登录红袖添香文

学网站查询相关数据。

对于文学网站来说,什么样的作品是更受读者喜欢的,是能抓住眼球的,

是能获得流量的,这也需要通过对数据的分析来来获得更精准的结论。

1

湖南商务职业技术学院毕业设计

涉及到小说信息有很多,我们需要对网页进行分析,然后通过Python爬虫

的手段批量获取我们想要的资料。

我的毕业设计就是针对新手写作的选题需要,而后爬取红袖添香文学网站

小说数据,对其进行处理、分析,而后可视化。繁杂的数据经过清洗加分析后,

一目了然的将结果呈现在作者眼前,作者就能选择合适的写作类型,最后做相

对正确的决策。所以我的毕业设计部分包含数据爬取、清洗处理、储存、可视

化。

1.2开发环境与工具

1.2.1Python简介

尽管Python出现的比较早,但是刚开始并没有引起大家的关注。直到后来

计算机技术的成熟,Python才再次爆红。Python是面向对象的动态语言,它的

发展非常迅速,是现在很热门的编程语言,因其语言简洁,易上手,所以使用

人数特别多。

Python的使用范围也非常广,可以用来做web开发,可以进行网络爬虫、

自动化采集数据以及处理,可以用于机器学习、数据分析和数据可视化,还可

以自动化运维,数据库编程,网络编程等。最后,根据在HelloGitHub网站的2023

年4月的最新排名,Python编程语言处于第一位。

常用的第三方开发工具:

1.PyCharm

一种PythonIDE(集成开发环境),带有一整套可以帮助用户在使用Python

语言开发时提高其效率的工具。分为专业版(professional)和社区版

(community),本次项目只需要使用Python的基础语法,因此使用社区版就足够

了。

2.MicrsoftVisualStudio

VisualStudio也可以作为Python的开发工具,只需要在安装时选择安装

PTVS插件即可。安装PTVS插件后的VisualStudio即可创建Python项目,从

而进行Python应用开发。

3.Eclipse+PyDev

PyDev是一个在Eclipse上运行的开源插件,在Eclipse中安装PyDev插件

后,就可以在Eclipse上写Python了。

2

湖南商务职业技术学院毕业设计

1.2.2JupyterNotebook简介

JupyterNotebook是一个极其常见的PythonIDE,同时具有文本编辑和代码

编写的功能,非常适合初学者使用。一个支持实时代码、数学公式、可视化和

Markdown的Web应用程序,支持40多种编程语言。

它是以代码块和单元格的方式运行的,它可以插入Markdown的说明性文字、

图片,使得代码的可读性非常强,它的这些优点使得它非常适合用来做教学、

数据分析和人工智能机器学习的说明性文档。

JupyterNotebook不仅可以用来写Python,还可以运行R语言,C语言等

语言,它是集编程和写作于一身的强大编辑工具。

JupyterNotebook可以对数据进行处理,清洗数据、存储数据等等。它的

功能非常强大。

1.2.3Matplotlib简介

Matplotlib最早是为了对癫痫病人的脑皮层电图信号进行可视化而研发的,

但是随着技术的进步,它现在是Python中的一个功能非常强大的画图包,是

Python中最基础的可视化工具,我们可以用它来实现数据的可视化,以便我们

能更好的分析数据。

Matplotlib中最基础的模块是pyplot,它相当于一个Python的接口,进

行画图时要先导入这个包。

Matplotlib可以用来绘制二维图表和三维图表,它的主要特点如下:

1.使用简单的语句绘制复杂的图形。

2.已交互式操作实现很多对图形的精细操作。

3.使用嵌入式的LaTeX输出印刷级别的图表、科学表达式和符号文本。

4.对图表的组成元素进行非常精细的控制。

1.2.4Pyecharts简介

Echarts是用JS来写的,而我们使用Pyecharts则可以使用Python来调用

里面的API,可以说Pyecharts是Python与Echarts结合之后的产物。

Pyecharts是Python中一个非常重要的可视化包。图形的参数配置是数据

可视化的基础,Pyecharts中的参数配置比较简单,可以分为全局配置项和系列

配置项。

Pyecharts的应用领域非常广泛,只要用到可视化的地方就都可以使用

Pyecharts,包括:人工智能行业、数据分析行业、数据可视化、数据挖掘行业。

3

湖南商务职业技术学院毕业设计

使用它可以方便地绘制一些基础视图,包括折线图、条形图、箱型图、涟

漪散点图、K线图以及双坐标轴图等;同时也可以绘制一些复杂的图形,比如:

3D图和动态图。

Pyecharts提供了大量的可视化方法,配置项非常丰富,图形定制化很高,

并且支持支持3D图和动态图。

1.2.5WordCloud简介

WordCloud是一款Python环境下的词云图工具包,同时支持Python2和

Python3,能通过代码的形式把关键词数据转换成直观且有趣的图文模式。可以

根据文本中词云出现的频率等参数绘制词云,词云的形状、大小、颜色都可以

设定。

1.2.6XPath简介

XPath是一种查询语言,它能在XML和HTML的树状结构中寻找结点,它的

核心思想是:写XPath就是写地址。

2需求分析

2.1可行性需求分析

1.技术可行性

Python是面向对象语言中的一门通俗易懂的计算机编程语言,本次项目中

使用Python编写程序来实现数据获取,将爬取出来的原始数据暂时以xlsx格

式储存起来,通过JupyterNotebook来进行数据清洗预处理,最后通过

Matplotlib和Pycharts来进行数据可视化。

以上为此次项目的技术可行性,我也将在后续的工作中将所有的步骤实现

到位,保证数据的准确性和安全性。

2.项目可行性

本次项目通过采集红袖添香文学网站内的数据,来分析好看的小说排行榜

信息。我们也将从作者、是否完结、是否签约、小说类型等方面对其进行深度

剖析,分析出有价值的信息,将其可视化最后根据结果得出结论。

2.2采集目标功能分析

本次项目的数据集的来源是红袖添香文学网站,是通过python爬取好看的

4

湖南商务职业技术学院毕业设计

小说排行榜的信息。数据清洗后共888条记录,爬取完成后尽可能的检查数据

的准确性,确定爬取出来的数据无误并且是属于红袖添香文学网实时存在的作

品信息。

分析红袖添香网站网页信息,明确我们需要爬取的小说参数有书名、作者、

是否完结、是否签约、类型、字数、收藏人数、章节总数等数据,在对原始数

据进行预处理后我们会对其数据进行多个维度的分析。

2.3关键技术分析

2.3.1网络爬虫技术

在日常生活中我们需要对网页进行浏览时,可能需要下载网页中的内容到

本地,在下载内容较少的时候,我们可以采取手动的方式进行下载。但是当内

容比较多,且都是重复的动作时,我们就可以采用网络爬虫技术,对数据进行

统一爬取,再对数据进行分析。

网络爬虫技术就是通过自动化程序,自动化获取网页中的内容。可以把网

络爬虫看成一个程序,这个程序的作用就是模拟客户端发送请求获取响应数据,

然后我们可以把数据进行存储。

网络爬虫可以用来抓取图片;可以去除噪音,也就是去除网页中的广告,

对网页的界面进行净化;收集个人信息数据,给个人画像,进行精准营销,以

达到企业的目的;收集金融信息,做投资决策,可以用来炒股或者投资;收集

旅游景点以及景点周边的酒店,交通数据,从而制定旅游方案,提供给游客是

非常方便的;搜素引擎里的数据都是通过网络爬虫技术得到的。

网络爬虫的分类:按使用场景分类,可以分为通用爬虫和聚焦爬虫;按爬

取方式分类,可以分为累积式爬虫和增量式爬虫;按爬取页面存在的方式,可

以分为表层网络爬虫和深层网络爬虫。

网络爬虫最早应用于搜素引擎领域,是搜素引擎获取数据来源的支撑性技

术之一。但是有些企业和个人为了达到某些非法获益的目的,利用网络爬虫非

法爬取公民的个人信息,用于电信诈骗和赌博等违法犯罪的行为,这不仅仅是

自身触犯了法律的红线,更是侵犯了公民的权益,使得公民的个人信息遭到非

法使用。因此我们在使用网络爬虫技术在获取网站数据,一定要时刻注意自己

的行为是否已经触犯了法律,作为一个合法的中国公民,我们需要遵守中国的

每一条法律,千万不要以身试法。

网络爬虫技术的初衷是通过计算机技术,自动为网站编纂索引,更新信息,

5

湖南商务职业技术学院毕业设计

为用户提供高效的数据检索服务。我们在日常生活中也可以使用网络爬虫来帮

助自己,比如说,在某视频网站,爬取自己发布的视频的点击量、评论数、收

藏数、打赏数等等,然后对这些数据进行分析,再对内容进行分析,就可以得

出哪方面的内容是更能抓住流量的。现在许多歌手的演唱会门票也是一开票就

抢空了,这时我们就能用网络爬虫技术为自己抢票了。把网络爬虫利用好也是

非常好的一件事情,它是双刃剑,这个技术本身好的,主要是看使用这项技术

的人把它用做什么事情。

本次项目中,在进行每本书的链接爬取时,采用了BeautifulSoup来解析

网页(如图2-1),BeautifulSoup是一个可以从HTML或XML文件中提取数据

的Python库。

图2-1python内置csv模块

在对每本书的信息进行采集时,我采用的是XPath对网页进行解析,XPath

是使用路径表达式在文档中进行导航,是一门在XML文档中查找信息的语言。

2.3.2文件存取技术

最原始的数据存储我用的是Python第三方模块openpyxl,如图2-2。

图2-2python第三方模块openpyxl

经过清洗后的数据我用的是Python的内置csv模块,如图2-3。

图2-3python内置csv模块

2.3.3可视化技术

经过上面的操作,数据已经从网站上爬取下来了,并且存储到了本地。那

么我们能否从该数据中一眼看出我们想要的数据呢?答案是不可能的。因为爬

6

湖南商务职业技术学院毕业设计

取下来的数据体量比较大,需要我们通过可视化技术对数据进行进一步的分析,

把数据通过图表的形式,展示在我们眼前,这样我们就能通过数据看到事务的

本质,这也就是可视化技术的作用。

爬取取下来的数据通过预处理、保存为csv文件。然后通过Matplotlib库

进行可视化,Matplotlib是一个Python2D绘图库,作图风格接近Matlab,它

已经称为Python中公认的数据可视化工具,适用于各种平台上,能够以各种硬

件拷贝格式和交互式环境生成出版品质图形。Matplotlib具有以下特点:使用

极其简单,以渐进、交互的方式实现数据可视化,对图形元素控制能力更强,

可输出PNG、PDF等多种格式。

3数据采集

3.1采集页面分析

我首先通过MicrosoftEdge浏览器搜索红袖添香文学网的官方网页,然后

点击导航栏的全部分类,然后进入到好看的小说排行榜页面观察(如图3-1),

其中URL为:/category,然后点击页面下方的分页

按钮,同时观察URL,发现URL变成了

/category/f1_f1_f1_f1_f1_f1_0_2。

图3-1数据网址页面

按F12调出开发者工具,如图3-2。

7

湖南商务职业技术学院毕业设计

图3-2开发者工具

定位到需要爬取的数据,这里需要爬取每本书的链接,从红色的框内我们

可以看出,每一个页面都有“right-book-list”的div元素,每个页面中的20

本书的基础属性都是存放在div中的ul标签中,如图3-3。

图3-3每本书的链接

之后需要点击每一本书,我们能看到书名、作者、类型等基本信息,我们

需要对这些数据进行爬取,如图3-4。

8

湖南商务职业技术学院毕业设计

图3-4需要爬取的每本书的字段

3.2字段分析

每一页小说的数据都是由ul标签组成,ul里面又由20个li标签组成,每

一个li标签里记录的是每一本小说的基本信息(比如小说名、作者名、小说类

型、字数等信息)。如图3-5。

图3-5分析数据类型页面

9

湖南商务职业技术学院毕业设计

3.3编程实现

首先,导入所需库,如图3-6。

图3-6导入所需库页面

其次,对网址进行构建。需要爬取的数据分布在50个页面,我们需要得出

50个页面的链接,如图3-7。

图3-7每个页面的链接

得到每个页面的链接之后,需要从每个页面中得出二十本的链接,如图

3-8。

图3-8每本书的链接

然后,对每本书的链接进行爬取数据,先存到一个data数组中。如图3-9。

10

湖南商务职业技术学院毕业设计

图3-9爬取每本书的数据

最后,把data数组存储到本地,存储为xlsx文件。如图3-10。

图3-10存储数据

4数据清洗与处理

数据清洗通常是通过清洗脏数据、填写缺失的值、光滑噪声数据、清洗重

复数据、识别或删除离群点并解决不一致性来“清理”数据。经过数据清洗我

就能得到我们想要的数据了,通过对数据的分析,就能得到最终的结果了。

本次项目中我们需要将爬下来的数据和网页原数据进行比对,并且检查是

否出现空值、错值,还有数据的位置是否正确。根据不同的需求我们要对数据

11

湖南商务职业技术学院毕业设计

进行不同的处理。

4.1数据清洗

具体的数据如图4-1。

图4-1数据清洗准备页面

经过比对和检查,发现数据存在错位的情况,那么我们根据需求将错位数

据的所在行删除,防止数据冗余。因此我们只需保留需要的数据,然后整理为

原网页格式存入data.xlsx文件中,留存后续作为统计分析、可视化使用。

删除“是否完结”列是一品红文的行,删除“vip”列是短篇的行,避免数

据错位,图4-2为数据清洗完成界面。

12

湖南商务职业技术学院毕业设计

图4-2数据清洗完成界面

4.2数据储存

数据储存主要有两种方式,一是存储在本地内部,即存到个人硬盘、存储

卡或是专用数据存储服务器的设备中;二是把数据存储在第三方公共或私有的

云端存储,云存储已经成为了很普遍的存储方式了,云存储服务器由服务商管

理,用户只有写入、读取和删除的权限。存储的格式也有很多种,可以存储为

csv、excel等文件。

本次项目把清洗完成的数据存储为csv文件,如图4-3。

图4-3数据存储为csv页面

5数据统计与分析

5.1数据准备

导入相关库,使用pandas加载源数据,如图5-1。

13

湖南商务职业技术学院毕业设计

图5-1数据准备页面

具体的数据如图5-2。

图5-2数据加载页面

5.2数据展示

5.2.1作者统计和分析

我们需要从数据中选取“作者”一列,并计算出每个作者出现的频次,最

后根据作者名字和频次进行画图,如图5-3。

图5-3作者关键词词云图

通过作者关键词词云图,可以看出作者顾北念楠的作品是最多的,其次是

是墨家小石、梦思烟雨愁。一个作者的作品多说明该作者的文化素养较高,应

该是个比较有文化底蕴、有思想的人。从词云图看作者们的笔名也是五花八门,

可想作者的想法都是非常有趣的。

14

湖南商务职业技术学院毕业设计

5.2.2小说连载状态统计和分析

我们需要从数据中选取“是否完结”一列,并对已完结和连载中的书本数

量进行统计,最后根据已完结和连载中的书本数量进行绘图,如图5-4。

图5-4小说连载状态图

从上图可以看出,已完结的小说占绝大多数,连载中的小说占比极小。由

此可见大家还是对完结的书比较有兴趣,不愿意耗费更多的时间追连载小说。

未完结的小说不确定因素是比较多的,可能看到一半作者跑路了,看到一半

发现小说的走向偏离了自己预想的“完美结局”,这都会影响到读者的心情,

本来看小说的初心就是放松自己,如果遇到以上的事情,反倒是会让自己不开

心。

而完结的小说,你可以看到小说的字数、收藏数量、类型、评价等等,你

从这些因素中可以大概看出这本小说到底值不值得看,这是最不浪费时间的挑

选小说的方式,对打工人以及时间不充裕的人来说是很重要的。

5.2.3小说各阶段字数的人数进行统计和分析

我们需要从数据中选取“字数”一列,把每10万字数分成一组,将字数分

阶段进行统计,并且统计每个阶段的书本数量,最后对分组和书本数量进行绘

图,如图5-5。

15

湖南商务职业技术学院毕业设计

图5-5小说各阶段字数的人数

从图5-6中可以得知小说字数在0-10万字的作者数量占比最多,几乎达到

了小说总数的一半;10-20万字的人数次之,70-80万字的人数为零。但从总体

来看,写50万字内小说的人数是偏多的,50万字之后就只有极少数的人写了。

从这也能看出,作者们大都喜欢写篇幅较短的小说。从而反应出读者也是

比较能接受篇幅较短的小说,可能是休息时间较少,无法抽出精力时间去看篇

幅较长的小说,就如同看电视剧一样,“战线”拉的太长,如果无法保证内容

的精彩程度,可能会有很多读者会弃文。看小说确实也是一个深受大家喜爱的

打发时间的好方法。

5.2.4小说书名词云图进行统计和分析

我们需要从数据中选取“书名”一列,将书名全部汇总成一个字符串,然

后对字符串进行切割,最后进行绘图,如图5-6。

16

湖南商务职业技术学院毕业设计

图5-6书名关键词词云图

从上图可以看出,言情方面的书是比较能吸引人的,也能侧面反映出红袖

添香文学网是以女性读者为主、言情小说为特色的氛围,深受女性喜爱。其次,

可以看到“穿”和“重生”两个词语出现的次数也是比较多的,可以看出大家

喜欢看快穿之类的爽文,可以看出大家可能现实生活太压抑,需要借助一些外

界事物抒发一下内心压抑的悲痛,在休息时间看一看重生爽文,给明天的自己

加油鼓劲。

小说的种类繁多,各式各样的风格供读者挑选,但是不能确保所有的小说

传播的都是正确的价值观,我们需要分辨清楚,因此,当我们沉浸在小说世界

中时,也要时刻保留自己的理智,不要过度沉迷在小说中的世界,分清小说世

界和现实世界的区别。过度沉迷小说是要不得的,阅读小说只能作为一个兴趣

爱好,学生沉迷小说可能会影响学业的,职场人沉迷小说可能会影响工作,总

之,做事情要分清主次,万万不能因为玩乐而影响到真正应该做的事情,要保

持理智。

17

湖南商务职业技术学院毕业设计

5.2.5小说中的一品红文统计和分析

图5-7小说中的一品红文

从上图可以看出,《写给鼹鼠先生的情书》收藏总数在一品红文中是高居

榜首,收藏总数达到了68.67万,但是字数只在一品红文收藏的中等偏上水平,

这说明一个作品能否受到大众的喜爱,还得靠作品内容。从图中还可得知,一

品红文的平均字数为25.46万,收藏的平均值为8.27万。

《写给鼹鼠先生的情书》这本书的收藏总数比其他所有红文的收藏总数加

起来的数量还要多,可以说是红文中的大佬级别。从书名来看,应该写的是两

个恋人之间比较纯洁的爱情故事,这个名字很是吸引人,就像是一颗有魔法的

糖果吸引着你的目光,由于好奇去了解了一下书中的内容,这本书以女警

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论