基于Python的七猫小说文学网的数据采集与分析_第1页
基于Python的七猫小说文学网的数据采集与分析_第2页
基于Python的七猫小说文学网的数据采集与分析_第3页
基于Python的七猫小说文学网的数据采集与分析_第4页
基于Python的七猫小说文学网的数据采集与分析_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖南商务职业技术学院毕业设计

目录

1引言...............................................................1

1.1选题背景......................................................1

1.2开发环境与工具................................................1

1.2.1Python简介..............................................1

1.2.2Tableau简介.............................................2

1.2.3JupyterNotebook简介....................................2

1.2.4Python第三方库简介......................................2

2需求分析...........................................................3

2.1可行性需求分析................................................3

2.2采集目标功能分析..............................................3

2.3关键技术分析..................................................3

2.3.1网络爬虫技术............................................3

2.3.2文件存取技术............................................4

2.3.3可视化技术..............................................5

3数据采集...........................................................5

3.1采集页面分析..................................................5

3.2字段分析......................................................7

3.3编程实现......................................................7

4数据清洗与处理.....................................................8

4.1数据清洗......................................................8

4.2数据储存......................................................9

5数据统计与分析....................................................10

5.1数据准备.....................................................10

5.2数据展示.....................................................13

5.2.1根据类别对小说进行数据的统计与分析.....................13

5.2.2根据根据字数来对比统计数据.............................15

I

湖南商务职业技术学院毕业设计

5.2.3根据阅读者搜索热力值来对比.............................16

5.2.4根据分数对小说数据的分析...............................16

5.2.5根据作者创作的时长对小说数据的分析.....................17

5.2.6根据阅读人数对小说数据的分析...........................18

6小结..............................................................19

参考资料............................................................21

II

湖南商务职业技术学院毕业设计

基于Python的七猫小说文学网的数据采集与分析

1引言

大数据或称之为海量数据。一般指所含的数据集规模巨大,其在各个行业

的广泛应用,使之关注热度历年来居高不下。当人们获得大数据资源的时候,

大数据数据来源可以囊括我们从日常生活中可以普遍见到的上传到网页上的图

像、视频、录音;高速公路上车辆与收费记录、日常监控录像、医院的治疗病

例、高端的基因测序、天文学中通过望远镜收集的信息数据等。

在互联网的影响下,互联网小说行业也逐渐进入人们的视野,为读者阅读

小说提供了更便捷的途径也为互联网小说的发展奠定了基础。

1.1选题背景

随着互联网技术的不断普及,其每天所催生的巨量数据使得世间万物不断

走向数据化,数据量化的节奏也在不断加快。在由“万事皆物”过渡到“万物

皆数”的过程中,互联网每天所产生的数据,对大数据时代的来临有着关键性

作用。

互联网的迅猛发展和快速普及,使得大量数据信息在采集、存储、传输、

处理、管理等方面越来越便捷。同时互联网的发展也使得数据类型越来越复杂

化。就大数据而言,在互联网上一天,都会潜在的拥有众多数据的“产生者”

和“发送者”,这些“产生者”和“发送者”每时每刻都贡献出各种各样,难

以计量的数据。这些接连不断出现的数据,催生着大数据浪潮的来临。

我这次的毕业设计就是针对七猫小说文学网进行数据的清洗、采集和分析,

从小说网中比较有权威的七猫小说文学网采集有价值的信息并进行分析,可以

更好的了解当代互联网小说行业的发展趋势。

1.2开发环境与工具

1.2.1Python简介

Python的创始人是GuidovanRossum,创作于1989年。Python是一种十分

优美的程序设计语言。它以其十分丰富的模块和其他语言难于描述的列表、字

典等复杂数据类型,在近年来得到了广泛的应用。Python语言具有开源、免费、

1

湖南商务职业技术学院毕业设计

功能强大、语法简洁清晰、简单、数据类型丰富、面向对象等特点,非常适合

初学者学习。而且Python有十分丰富的程序包,无论用户有什么需求,基本都

能找到一个程序包来满足自己的要求,这也是Python的魅力所在。

1.2.2Tableau简介

Tableau于2013年成立,由斯坦福大学研究,Tableau能够改善分析流程

并让人们能够通过可视化使用数据。共同创始人ChrisStolte、PatHanrahan

和ChristianChabot开发出了Tableau的基础技术VizQL并获得专利,该技

术通过直观的界面将拖放操作转化为数据查询,从而对数据进行可视化呈现。

自成立以来,我们一直以无与伦比的速度不断进行研发投资,开发各种解决方

案来帮助所有需要使用数据的人更快地找到答案,发现意想不到的见解。

1.2.3JupyterNotebook简介

JupyterNotebook是web应用程序,它包含支持代码、文本和数学的包容

性和基于浏览器的内容。从“IPython”项目中生产出来的,jupyter笔记型电

脑是开放原始码的网路应用程式,可让使用者建立和共用包含程式码、方程式、

共用笔记型电脑:透过电子邮件、dropboxilla、githubilla以及笔记型电脑检

视器与他人共用笔记型电脑。pandoja、scikit-learnia、ggplot2tensorflow

都支持相同的数据挖掘。

1.2.4Python第三方库简介

requests:是基于urllib编写的,使用Apache2许可开源协议的HTTP库。

用于Python爬取,最简单的HTTP库。

re:是正则表达式相比配的字符集合。

BeautifulSoup:解析从HTML或XML文件。

Pandas:Pandas是基于NumPy的工具,可以解决数据分析问题。Pandas中

的功能和方法使我们能够快速舒适地处理数据。

Matplotlib:Matplotlib是一个流行的库,可以上传照片、分布图像、图

标、灰色图像和3D图像。Matplotlib的库专门用于开发2D图表,它是Python

2D摄影领域最大的用途。它允许用户使用图标使数据更容易,并提供不同的格

式。

Pyecharts:相对于Matplotlib更为简便轻捷。

Numpy:为Python提供高级的数学算法。

2

湖南商务职业技术学院毕业设计

2需求分析

2.1可行性需求分析

1.技术可行性

Python从2015年开始兴起,目前Python岗位超越Java、Web前端等岗位。

除此之外,Python语言的精简可以说是Java语言很难与之相比的,所以从初学

者角度来看Python更通俗易懂,同时Python拥有更强大的框架。

2.社会可行性

现如今中国市场的流动性大,互联网小说正在逐步代替大部分的纸质小说,

越来越多的人依赖互联网小说。在此背景下,互联网小说也在一步步走向商业

化。在此基础下,可以通过我所分析的数据来对互联网上的小说网进行更进一

步的了解,同时也可以为读者在网站上选取自己喜爱的小说时做一个简单的参

考。

2.2采集目标功能分析

此次项目的数据集来源于七猫小说文学网,是通过Python爬取七猫小说网

的数据信息。一共爬取50页的数据信息,数据清洗后共736条记录,以此尽可

能保证数据可靠性。

本次爬取七猫小说文学网主要获得了以下信息:书本信息、作者创作时间、

创作作品的字数、书本的热力值、书本的评分、阅读人数以及书本的类别等。

通过我所爬取的实际数据来分析出七猫小说文学网中的所有属性。也就是说我

们可以通过书本的信息来确认这本书是否为我们所需要的;通过作者创作时间

的长短来确认作者所花的心血;通过书本的热力值来确认书本在此网站的知名

度、阅读者的喜爱程度;通过书本评分来了解这本书在阅读者心里的满意度以

及书本在网站的地位;可以通过阅读人数来确认书本的知名度、热度等等。

2.3关键技术分析

2.3.1网络爬虫技术

在大数据的时代影响下,数据变得繁多且笼长,清理这些没用的数据单靠

人力是远远不够的,人力清洗数据不仅效率低、错误率高,而且成本也是相当

的大,为了解决这些问题,网络爬虫就随之孕育而生了。

3

湖南商务职业技术学院毕业设计

网络爬虫是指按照一定的规则,抓取网页的程序,然后对爬取的网页进行

储存。网络爬虫的原理是先从我们要爬取的网页中找到网页的URL,然后用URL

进行网页的解析,如果解析完的URL还可以提取URL的话,我们就可以继续用

提取后的URL继续进行网页解析。

网络爬虫分为传统爬虫和聚焦爬虫:传统爬虫是指不断从当前页面上抽取

新的URL放入队列,直到满足系统的一定停止条件,然后进行数据的保存;聚

焦爬虫是指根据自己的要求来爬取数据并保存。网络爬虫的相关技术信息:反

爬虫技术是指防止别人爬虫自己网站而采取保护措施;反反爬虫技术是指破解

反爬虫技术,然后解析数据并保存;IP代理:相当于我们的一张名片,我们用

这张名片进行操作解析,一旦IP被反爬虫封锁则需要换一IP代理;Roboot协

议:也叫“君子协议”是指为了防止自己的网站被爬取而制定的协议,但是该

协议只是口头协议,并不能采取强制措施;Ues-anget:是指网页的身份标识,

用于网络爬虫解析。

2.3.2文件存取技术

当我们爬取数据之后我们就必须对数据进行保存,只有当我们保存好数据

之后才可以进行数据的清洗和处理。

Json文件处理数据:是一种轻量级的数据处理方式,它独立于编程的文本

格式来储存数据。

csv文件储存:我们通过Python代码实现csv文件储存,用Excel来查看

数据。

TXT文件储存:用文本文件来查看数据。

MySQL数据库存储:是非常常见的Python关系型储存数据库。

我们采取的是csv文件的储存方式,如图2-1显示。

图2-1Python内置方法

Pandas读取csv文件方法如2-2所示。

4

湖南商务职业技术学院毕业设计

图2-2Pandas模块方法

2.3.3可视化技术

可视化是指我们将数据以图形的方式来表达,以便于我们观察数据信息。

探索式可视化库包括:Matplotlib库、Seaborn库、Pyecharts库、Missingno

库。

Matplotlib库:是基础的Python可视化库,绘图功能十分强大。

Seaborn库:是在Matplotlib库的基础上创建的,但是相对于Matplotlib

库语法更为简洁,作为Matplotlib库的补充而不是代替物。

Pyecharts库:实现Echarts与Python的对接,方便在Python中使用

Echarts图表。

Missingno库:可以通过使用视觉摘要来快速评估数据集的完整性。

交互式可视化库包括:Ggplot库、Plotly库、Bokeh库等

Ggplot库:对组件进行分层以创建完整的绘图。

Plotly库:提供了一些在大多数库中没有的图表,如等高线图、树状图和3D

图表,它是一个高级的声明性图表库。

Bokeh库:支持流媒体和实时数据,可以在Web浏览器中实现美观的视觉效

果。

3数据采集

3.1采集页面分析

打开QQ浏览器,搜索七猫小说文学网,在导航栏类中找到并点击书库。

如图3-1所示,由图可知,该页面的URL为:

/shuku/a-a-a-a-a-a-a-dick-1/;然后点击页面下方的

分页按钮,同时观察URL,发现URL随着页码改变发生变化,其变化为URL中

“dick-”后面的数字随页码改变变化为新的页码,如图3-2所示。

5

湖南商务职业技术学院毕业设计

图3-1数据网址页面1

图3-2数据网址页面2

右击鼠标,点击检查选项调出开发者工具,刷新页面,利用全局搜索工具

定位所需数据位置,在右侧选择Network,刷新页面,点击第一个文件,即可显

示网址的URL、头部信息、请求以及网址的Cookie。如图3-3所示。通过图3-3

我们得知:这是一个Get请求,Use-Anget为:Mozilla/5.0(WindowsNT10.0;

WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/77.0.3865.120

Safari/537.36Core/00QQBrowser/10.9.4624.400。

图3-3头部信息

6

湖南商务职业技术学院毕业设计

3.2字段分析

点击检查中的选中按钮,选择所要爬取的数据然后选择我们要爬取的数据

点击鼠标右键进行Xpath的复制用于解析网页,如图3-4所示。

图3-4选取数据

3.3编程实现

导入所需库,如图3-5所示。

图3-5导入所需库

数据以csv形式进行保存,代码如图3-6所示。

图3-6保存文件

用Get请求调取头部信息、Cookie,用代码爬取前50页前15本书的数据

信息,包括:书名、作者名、评分、热力值、阅读人数、作者作品数、作者总

字数、书本标签、创作时长以及书本简介,然后保存在qimao_data.csv文件中,

7

湖南商务职业技术学院毕业设计

代码如图3-7所示。

图3-7爬取网页数据

4数据清洗与处理

在计算能力越来越强大的时代下,数据也逐渐成为最具有价值的资产之一。

无论是对大大小小的公司还是我们个人来说,数据给我们带来的价值永远是不

可估量的。也正是这个原因,随着数据的挖掘,在我们利用数据的同时也会残

留一些数据垃圾,也由于数据量过大过多,也会造成数据的不准确和不一致。

因此我们利用机器进行数据的清洗是十分有必要的,纠正错误数据和修复不完

整数据以及整理数据,使得我们在查看数据的时候更加方便。

4.1数据清洗

导入库,如图4-1所示。

图4-1导入库

读取qimao_data.csv文件,然后对文件进行去重,如图4-2所示。

图4-2读取文件并去重

8

湖南商务职业技术学院毕业设计

4.2数据储存

Python数据的储存分为三种储存方式:

第一种是文件储存的方式:TXT文件储存、JSON文件储存、csv文件储存

第二种是关系型数据库:有MySQL等数据库

第三种是非关系型数据库:Mongodb等数据库

现在我所使用的是to_csv()文件储存的方式来保存数据,编码方式为gbk,

如图4-3所示。

图4-3保存文件

4.3编程实现

对qimao_data.csv文件进行分析,我们抽取书本字数、书本热力值、书本

评分、书本标签、作者创作时间以及阅读人数的前十个数据进行抽样分析;并

将数据进行保存,如图4-4,图4-5所示。

图4-4分析数据

9

湖南商务职业技术学院毕业设计

图4-5分析数据

5数据统计与分析

5.1数据准备

导入库,如图5-1所示。

图5-1导入库

导入保存好的书本标签文件,进行数据的清洗画图,然后将图画保存在网

页中,如图5-2所示。

10

湖南商务职业技术学院毕业设计

图5-2绘画饼图

导入储存好的书本前十字数最长的文件,进行绘图分析,然后将绘图结果

显示在网页中,如图5-3所示。

图5-3绘画柱状图

导入书本热力值的文件,进行词云图的绘画,然后保存在网页中,如图5-4

所示。

11

湖南商务职业技术学院毕业设计

图5-4绘画词云图

导入书本评分最高的十本书文件,进行柱状图绘图统计,然后保存在网页

中,如图5-5所示。

图5-5绘画柱状图

导入作者创作时长前十的文件,进行折线图绘图分析,然后保存在网页中

显示,如图5-6所示。

图5-6绘画折线图

导入阅读人数前十的文件,进行折线图绘图分析,然后保存在网页中显示,

如图5-7所示。

12

湖南商务职业技术学院毕业设计

图5-7绘画折线图

将这些图形都保存在同一网页当中,如图5-8所示。

图5-8保存网页

5.2数据展示

5.2.1根据类别对小说进行数据的统计与分析

运行出来的图像为图5-9所示。

13

湖南商务职业技术学院毕业设计

图5-9主流小说类型占比统计分析饼状图

随着时代的发展,现代小说创作中的类别愈演愈烈,这是文化多样化共同

发展的结果,也是当前社会阶层分化的表现。在我们阅读一本书的时候,特别

是小说类字数比较多的情况下,我们大多数阅读者都会采用快速阅读来扫视是

本的信息,所以书本的分类标签就相当于一本书的名片,阅读者往往从类别中

就能判断这本书书否为自己感兴趣的书籍;同时书本标签的多样化也为阅读者

提供了挑选的引导,提高阅读者寻找自己心仪小说的效率;每个类别的小说也

有每个类别的阅读方式,就比如说一些虚拟故事情节的小说,我们可以快速阅

读,节约我们时间的同时有达到了阅读的目的,一些讲述生活常识、科普类的

小说,我们就可以仔细阅读,加深印象,以便于日后可能会使用到。搭建分类

系统体系是十分有必要的。

我爬取的小说分类数据,上图所示;在所有类别中现代言情标签的小说最

多,说明现代作家以现代言情为题材撰写小说最多;总裁豪门,近段时间以总

裁豪门的故事情节的电视剧收视率不断增加,直接把相当一部分的作者吸引写

作小说,是近期不断增长的类别小说;第二是都市人生,这一类小说大多贴近

生活,给人营造一种身临其境的感觉,让阅读者看了也不会怎么感觉到腻,有

一种贴切感,因此都市人生系类的小说占比占比一直都会这么高;接着就是古

代言情,言情小说系列大多为年轻女性所喜爱追捧,加上疫情防控下封校的女

大学生闲暇时间多用阅读小说,所以言情类小说也占比较高;紧接着就是大多

14

湖南商务职业技术学院毕业设计

为男生喜爱的玄幻类小说,此类小说脑洞较大,题材奇幻新颖,能够引起读者

的阅读兴趣;剩下的几类小说占比都在2%到3.5%左右,这些类别的小说相对来

说比较的枯燥乏味所以浏览的的读者较少自然这类小说的出产也较少占比也就

少了。综上所述,小说类别的占比多少取决于受众群体的范围以及读者的喜爱

程度。

5.2.2根据根据字数来对比统计数据

运行出来的图像为图5-10所示。

图5-10总字数最长的十本书统计分析条形图

一部长篇小说是否能够受读者青睐,能否得已流传,其实并不在于它字数

的多少,而在于它的质量,这是读者和作者所公认的。但如果只是叙述一个人

物,叙述一场感情,叙述一个时代的巨变;这在过去是可以成为一部热门作品

的,可是随着文学作品的逐渐叠加,读者和消费者的逐渐分化,写作所承担的

取样人类精神和心理的任务也在逐渐增加。一部好的作品中,作者应该也有说

不完的故事和丰富的情感,就连莫言也曾在作品里提到“长篇就是要往长里

写”,我们也可以从一部作品的字数中看出作者在这部作品中所注入的灵感和

时间,字数的多少也体现了这部小说内容的得荡起伏,当然也不排除一些烂尾

的小说,为了字数而凑流水账。所以一片篇优质的长篇小说是需要作者付出不

少心血的。当代小说作者对于小说问题的思考没有因为市场化和电子阅读的冲

击而停滞不前,这对于现如今渐离盛景的小说行业来说是希望之所在。

15

湖南商务职业技术学院毕业设计

在我所爬取的小说总字数数据中可以看到总字数最长的十本小说中,最长

的两本小说《玄龙战神》和《都市极品仙帝》达到了将近900万字;其次则是

《逍遥小仙女》总字数有760.2万字;《萌宝来袭爸比九块九》、《绝品小神

医》和《六欲仙缘》这三本小说也都有500万字以上,剩下四本小说也都有4000

万字以上。这十本小说分别属于都市人生类、豪门总裁类、古代言情类和玄幻

奇幻类,这几类小说在主流小说类型占比中也是占比较高的几个类别。所以高

品质的小说是拥有“浓度”的,不仅有大量的文字累积也有丰富多情感寄托。

5.2.3根据阅读者搜索热力值来对比

运行出来的图像为图5-11所示。

图5-11小说热力值统计分析词云图

一本书的热力值代表的这本书的热度,点击率越高书本被阅读者的关注力

度越大;点击率(热力值)越高,书本的影响力也越大,从侧面反映出书本的

类型在符合大部分阅读者的口味,也符合大部分阅读者的审美等等;

通过解析出来的数据我们得知,《难缠》、《医门千金帅炸了》、《毒妃

在上邪王宠妻无度》、《腹黑萌宝高冷爹》、《都市药王医仙》、《谋她之年》

这几本小说的热力值远远大于其他小说,说明这几本小说无论从内容题材、故

事情节都是特别符合小说阅读者的胃口,也反映出作者所花费的心血也是非比

常人的,以及作者本身自带的人气才拥有如此之多的热力值。

5.2.4根据分数对小说数据的分析

运行出来的图像为图5-12所示。

16

湖南商务职业技术学院毕业设计

图5-12小说评分统计分析柱状图

小说的评分代表着小说的质量,一部好的小说评分一定不会低;评分不仅

仅代表小说的身份地位,还是小说增加知名度最有力的凭证。

小说的评分也是小说价值的体现,阅读者对这本书的满意度越好,评分会

给的更换高;评分就是小说各个方面的综合评估对小说具有深远意义。

通过上图我们得知:《竹匠》的评分最高达到9.8分,说明这本小说在此

网站中是大多数阅读者最满意的一本小说,小说内容也是大众所喜欢的题材、

说明作者善于观察阅读者的心思;《我的少年班》、《拥抱星星的太阳》、《IP

杀手与鸽子精》、《云霄之眼》这几本小说评分都为9.7分,说明他们这几本

小说无论是题材还是内容在大众的眼里都是还不错的;下面的小说以此类推。

5.2.5根据作者创作的时长对小说数据的分析

运行出来的图像为图5-13所示。

17

湖南商务职业技术学院毕业设计

图5-13作者创作时长统计分析柱状图

一般情况下,作者创作时长往往与他是否看重这本小说、小说的质量、作

者花费的心血都成正比;同时创作时长越多也反映出作者的一个创作水平,在

小说质量好的前提下,花的时间越长,作者写作效率越低,反之则效率越高。

通过上图我们得知:《淮阴小侯》的创作时长最长,但是在评分以及阅读

人数上不在上游水平,说明虽然作者创作时长最长,但由于作者创作的效率低

小,造成小说知名度低,不被人看好;其余前十名单全部都是这一情况,这些

小说的作者都需要自我反思,寻找灵感以及多在网上也阅读者互动,以便于提

升后续作品的人气以及知名度。

5.2.6根据阅读人数对小说数据的分析

运行出来的图像为图5-14所示。

18

湖南商务职业技术学院毕业设计

+

图5-14阅读人数统计分析柱状图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论