基于Python的现代文学网数据采集与分析_第1页
基于Python的现代文学网数据采集与分析_第2页
基于Python的现代文学网数据采集与分析_第3页
基于Python的现代文学网数据采集与分析_第4页
基于Python的现代文学网数据采集与分析_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖南商务职业技术学院毕业设计

目录

1引言............................................................................................................................1

1.1项目背景..........................................................................................................1

1.2开发环境与工具..............................................................................................1

1.2.1Python简介..........................................................................................1

1.2.2MySQL简介............................................................................................2

1.2.3JupyterNotebook简介......................................................................2

2需求分析....................................................................................................................3

2.1可行性需求分析..............................................................................................3

2.2采集目标功能分析..........................................................................................4

2.3关键技术分析..................................................................................................4

2.3.1网络爬虫技术.......................................................................................4

2.3.2文件存取技术.......................................................................................5

2.3.3可视化技术...........................................................................................5

3数据采集....................................................................................................................6

3.1采集页面分析..................................................................................................6

3.2数据保存..........................................................................................................7

3.3程序运行结果..................................................................................................8

4数据清洗与处理........................................................................................................8

4.1数据清洗..........................................................................................................8

4.2数据储存........................................................................................................10

5数据统计与分析......................................................................................................10

5.1文件展示...........................................................................................................10

5.1.1打开文件.............................................................................................10

5.1.2文件展示.............................................................................................10

5.2数据可视化.......................................................................................................11

5.2.1不同类型小说占比分析.....................................................................11

5.2.2作者占比分析.....................................................................................12

I

湖南商务职业技术学院毕业设计

5.2.3小说分类分析.....................................................................................13

5.3统计分析小结...................................................................................................15

6总结..........................................................................................................................16

参考资料.........................................................................................................................17

II

湖南商务职业技术学院毕业设计

基于Python的现代文学网数据采集与分析

1引言

在互联网高速发展的今天,现代文学网作为我国文学网中不可缺少的一环,

它在互联网上的表现也吸引了很多人的注意,而现代文学因为是传统文学中的

载体,我们通过分析网站类目和传统文学类别的喜欢的书籍和内容,通过大数

据更好更直观的认识读者喜欢的东西和作家的一些畅销书籍。

一个国家真正的强大肯定是精神文化的强大,而现代文学中我国涌现了一

大批优秀的作家,他们在文学上的成就是不可估量的,我们可以通过互联网的

方式,借助互联网的便利,让更多的人认识到我国现代文学的魅力,所以我们

通过大数据分析了解大家的口味,让大家更好的更直观的去感受现代文学的魅

力!

1.1项目背景

对于一个优秀的现代文学网站来说,书籍的种类和书籍的数量肯定是属于

这个网站,不可缺少的一环,然而,要想让它更加出众,我们还需要了解它的

数据,我们需要用大数据分析它的一些种类和中外读者,还有他的受众群体,

涉及的信息很多,我们需要对网页进行分析,然后用爬虫批量获取我们需要的

资料。

我的毕业设计就是针对普通的文学网,查取书籍,数据进行处理分析,然

后可视化、繁琐的数据经过清洗加分析以后,一目了然的呈现在网站的管理者

手中,管理者就可以通知点击靠前的哪些书籍是受读者喜欢的,哪些书籍是现

在还没有的?现阶段最需要哪方面的书籍?作者的地区分布,然后做出正确的

决策,所以我的毕业设计部分包含数据爬取,清理处理,储存可视化。

1.2开发环境与工具

1.2.1Python简介

Python是一种面向对象的、可扩展的、开源的编程语言,它具有丰富而易

用的库,可以使得开发者快速构建功能丰富、高效运行并易于部署的应用。

Python无处不在,您可以使用它来构建Web应用程序、自然语言处理,可以

使用它来创建机器学习模型,还可以将其与数据库集成。

1

湖南商务职业技术学院毕业设计

Python是一种开放的通用性语言,无论是新手还是老手都能够快速上手。

Python的灵活性、可扩展性以及对于跨平台支持使得它成为多样化开发领域中

的一个重要工具。

此外Python还有大量的第三方库,用来帮助开发者快速实现其目标。

Python也是一门易于学习的语言,它使用简洁的代码来表达复杂的想法。在

Python中,每一行代码都可以像会话一样进行交流,而不是僵化、无关紧要的

内容。这使得Python可以更容易理解,也更快地开发出有效的应用程序。

1.2.2MySQL简介

MySQL是一个关系型数据库管理系统,由OracleCorporation开发。它通

常被用作Web服务器上的数据库,并且也可以在多个平台上运行(包括Linux、

Unix、MacOSX和MicrosoftWindows)。

MySQL使用标准的SQL语法来执行各种查询和管理数据库。MySQL也有一个

强大的多用户实现,可以让不同的用户在同一时间对数据库进行存取、修改和

删除。

此外,MySQL还允许使用者执行特定的函数来生成动态数据,以及使用存储

过程和触发器来实现数据库的自动化。MySQL也有一个强大的企业版,该版本具

备高性能、集成分布式处理和快速事务处理等特性。

1.2.3JupyterNotebook简介

JupyterNotebook是一款交互式的编程工具,它可以让你在浏览器中创建

并共享文本、代码和数据可视化。它既可以用作一个独立的应用,也可以集成

到IPythonkernel中进行多语言交互式编程。

JupyterNotebook支持超过40种编程语言,并可以将它们的代码和数据可

视化分享为功能强大的文本形式或HTML格式的Web文档。JupyterNotebook使

用一个特定格式的文本文件来存储用户写的程序和数据可视化,这个文件的后

缀是.ipynb。使用JupyterNotebook时,可以在一个交互式界面中对代码、数

据和图形进行实时查看、修改和执行。

JupyterNotebook有几个重要的功能,可以帮助用户编写更有效的代码:

动态文档创建:JupyterNotebook是使用Markdown语法来根据你输入的文

字、图片和代码生成非常强大的Web文档。

交互式代码执行:JupyterNotebook是可以在页面上实时执行用户的代码,

并显示运行后的输出。

2

湖南商务职业技术学院毕业设计

可视化数据:JupyterNotebook可以使用Matplotlib、Seaborn和Pandas

库来创建功能强大的图形,从而帮助用户可视化数据。

改进已有代码:JupyterNotebook可以让用户快速改进现有的代码,而不

用重新写全部的代码。

分享和协作:JupyterNotebook可以将用户的文档分享为HTML格式或PDF

格式,并且它还能够方便地协作。

2需求分析

2.1可行性需求分析

1.技术可行性

Python是一门强大的脚本语言,它具备了所有必要的工具来进行Web数据

采集、处理以及整合。此外,Python还包含了丰富的第三方库,可以用来实现

更高效地采集和处理数据。

Python中有很多强大的库,可以轻松地爬取并采集现代文学网上的信息。

例如,scrapy是一个强大的Python爬虫工具包,可以快速地抓取网页内容,

并将其解析为有用的数据。此外,BeautifulSoup是一个Python解释器,可以

解析HTML和XML的文本,从而帮助我们快速地获取所需要的信息。

Python也可以用来处理和整合现代文学网上的信息。例如,Pandas和NumPy

是Python中常用的库,可以轻松地读取、处理和分析数据。此外,Python还

有一些强大的可视化工具,例如matplotlib和seaborn,可以用来创建美观的

图表,帮助我们更好地理解数据。

2.项目可行性

随着计算机网络的发展,在网上看文学网站已经吸引到越来越多的用户。

在此背景下,如何运营现代文学网站以获取更大的收益至关重要。本文通过对

参考阅读网相关数据进行分析,找到提高收益的可能途径,从而为该网站的运

营工作提供建议。

本次项目通过采集比参考阅读网()网站内的数据,来分析现代

文学网的在网上的受众人群信息。我们也将从书籍种类、阅读爱好、作家等方

面对其进行深度剖析,分析出有价值的信息,将其可视化最后根据结果得出结论。

3

湖南商务职业技术学院毕业设计

2.2采集目标功能分析

编写Python脚本,用来下载网站上的所有页面。可以使用

urllib模块来实现这一目标,该模块提供了urlopen()函数,可以用它来向

特定URL发送HTTPGET请求并且获得HTML文件。

使用BeautifulSoup解析HTML文件,提取网站的内容信息。

BeautifulSoup是一个Python库,可以帮助我们快速地浏览和搜索HTML文

件中的数据。这里需要注意的是:BeautifulSoup函数有很多高级API来实

现更复杂的任务,但是本文只使用其基础API。

将解析出来的信息存储在数据库中。可以使用MySQL或者MongoDB这样

高性能的关系型数据库或者NoSQL数据库来实现这一目标,也可以使用

Python自带的sqlite3模块来实现。

分析数据,从中发现有价值的信息。这一步需要对采集到的数据进行多

方面的分析,例如词频分析、关键字分析等,来发现网站上有价值的信息。

可视化展示数据分析结果,使用户能够快速地理解数据。可以使用

matplotlib库来实现这一目标,该库可以帮助我们将采集到的数据变为图

表。

2.3关键技术分析

2.3.1网络爬虫技术

网络爬虫技术是一种在互联网上搜集信息的方法,它通过Web浏览器或

其他工具,可以对特定的站点、新闻列表、帖子或者其他数据资源进行扫描。

当用户请求时,网络爬虫可以搜集到相关的数据,并将它们存储在本地

或者返回用户。

通常,网络爬虫技术是一项自动化的、可重复执行的工作,可以不断地

对互联网上特定的站点进行扫描,以获取新的信息或者更新已有的内容。

网络爬虫技术通常用于数据分析、监测和个性化服务,也可用于处理不

同领域的大量数据,并将其存储到本地数据库中。此外,网络爬虫还可以用

于实时监测站点的内容,并将其更新到特定的位置上。

2.3.2文件存取技术

Python内置CSV模块如图2-1所示。

4

湖南商务职业技术学院毕业设计

图2-1内置CSV模块

Pprint模块方法如图如图2-2所示。

图2-2模块方法

2.3.3可视化技术

爬取下来的数据是很不好分辨的,远远达不到一眼就看出结果的程度,

我们需要一种技术,根据我们获取到的庞大数据将其通过统计学图形的方式展

现在我们眼前,让我们对其结果一目了然。这个就是数据可视化技术。

使用图表、流程图和其他形式的图形来帮助人们理解数据和信息的方法。

它可以帮助人们快速识别出数据中隐含的特征,并更好地了解复杂问题。可视

化技术可以用来创建动态的图表,具有交互式界面的数据应用程序,并且可以

帮助人们在复杂的大量数据中找到正确的信息。毕后,我们就要导入需要的第三

方库将数据合理的进行判断,决定使用什么样的几何图形才能最好、并且直观的

表达出数据集的信息。

可视化技术的具体内容包括:图表、流程图、地理信息系统(GIS)数据、

时间序列和多维数据。这些工具可以帮助人们快速识别出隐含于大量数据中的

特征并更好地理解复杂的问题。此外,可视化技术还可以用于创建动态图表、

具有交互式界面的数据应用程序,以便在大量数据中快速找到正确的信息。最

后,可视化技术还可以用于创建3D图形、动态数据可视化等。

本次项目中仅仅只是将得到的数据用很简单的可视化手段实现数据可视化,

具体的就是用Python第三方库Matpoltlib去进行可视化,Matplotlib中包含

了许多库,分别对应饼图、条形图、直方图、折线图等图形,可以很好的将数据

高效率的表现出来,可视化图形呈现出来后对于结果自然一目了然,然后得出结

5

湖南商务职业技术学院毕业设计

论。

3数据采集

3.1采集页面分析

使用浏览器打开网站现代文学网站/xdwx/,如图

3-1所示。

图3-1现代文学网主页

使用requests第三方库请求数据,如图3-2所示。

图3-2第三方库请求数据

解析页面数据的代码如图3-3所示。

6

湖南商务职业技术学院毕业设计

图3-3解析页面数据

翻页爬取数据的代码如图3-4所示。

图3-4爬取数据

3.2数据保存

我们首先来到网页面打开网页的选择栏,然后将选择栏目定位到现代文学

的位置也就是定位到我们所需要的数据所在的位置,然后跳出开发者工具页面

刷新一下页面再进入,点击开发者工具界面上方的数据预览Preview按钮,如图

3-5所示可以看到我们需要的所有的数据信息都是呈现json格式传递在这个网

页面,我们还得知他是post方法响应的网站,所以我们可以根据以上特点通过

Requests方法中的post方法来获得响应的数据,最原始的数据格式是呈现

json格式的所以我们需要重复获取响应数据然后依次写入到csv格式的文件当

中。

图3-5数据预览

7

湖南商务职业技术学院毕业设计

3.3程序运行结果

结果如图3-6,显示的1000条数据。

图3-6爬取数据

4数据清洗与处理

获得庞大的数据集之后我们需要对数据进行预处理,也就是所谓的清洗和

检查,确定爬取过来的数据是否存在无效值和确实值,要保证数据的一致性,这

个对于信息质量的评估是一项很重要的任务。不仅如此,我们需要将数据进行有

理化和有序化,这样子能够在数据调用共享过程中方便很多开发人员对数据信

息的使用。

本次项目中我们需要将爬下来的数据和网页原数据进行比对,并且检查是

否出现空值、错值,还有数据的位置是否正确。根据不同的需求我们要对数据进

行不同的处理。

4.1数据清洗

打开所爬取的数据如图4-1所示。

8

湖南商务职业技术学院毕业设计

图4-1数据清洗准备页面

经过比对和检查,发现数据不存在缺失,错位还有空值,那么我们根据需求

将有效数据统一规划去掉不要的行列数据,防止数据冗余。因此我们只需保留需

要的数据,然后整理为原网页格式存入data.csv文件中,留存后续作为统计分

析、可视化使用。

图4-2数据清洗完成界面

9

湖南商务职业技术学院毕业设计

4.2数据储存

数据储存得方法有很多种,常见得可以直接用记事本格式储存“txt”,或者

直接用其他文件的形式储存CSV、Excel、json等,但是以上方法保存的数据体

量普遍都比较小。如果需要储存较大的数据信息就需要用到我们的数据库,数据

库也分为关系型和非关系型数据库。关系型数据库比较典型的有MySQL和

Oracle等,非关系型数据库等以键值对形式储存数据的代表有Mongodb、Redis

等。本次项目我们用到的是CSV、MySQL,如图4-3所示。

图4-3数据库界面

5数据统计与分析

5.1文件展示

5.1.1打开文件

打开文件hx.csv,如图5-1所示。

图5-1打开文件

5.1.2文件展示

文件展示如图5-2所示。

10

湖南商务职业技术学院毕业设计

图5-2文件展示

5.2数据可视化

5.2.1不同类型小说占比分析

根据我们的数据信息可以做如图5-3所示的可视化展示。

图5-3占比数据

饼图绘制代码如图5-4所示

图5-4饼图绘制代码

11

湖南商务职业技术学院毕业设计

结果如图5-5所示。

图5-5饼图可视化

由图5-5可知,世界名著占据所有现代文学网半壁江山,其中大家比较喜

欢的是现代的文学,古代和历史类的文学可能不太受重于现在的年轻人,因为

在网上上网的年轻人,他们可能更喜欢新潮的一点的,在这些分类里面有一个

非常冷门的分类,就是侦探推理它是起源于国外,但是最近些年在我们国内也

是很火,他能够给大众带来新奇的现实的破案体验,所以他由这些年在我国的

读者文学体验中,占据的比例越来越大。

而至于传统的现代文学,相对于年轻人来说,可能会有一些古板和客观的

因素,所以虽然他占据了主流,但是阅读的受众大部分都是年纪比较大一点的

老人和女孩子多一些,可是我们可以分析得出,如果作为线上阅读平台,想要

您和年轻人的想法的话,可以往这一方面的倾向去考虑一下。

5.2.2作者占比分析

作者分布如图5-6所示。

12

湖南商务职业技术学院毕业设计

图5-6作者分布图

根据作者分布图来看,其实在我国的读者受众人群中,大部分的人还是喜

欢读国内的一些作家的名著,因为地理因素和传统文化的不同,国外的名著虽

然也很优秀,但是翻译过来再加上他们的传统观念和性格,还有一些生活习惯,

可能和我国的读者会产生不了那么大的共鸣,所以在网上的受众人群中,有3/4

的人还是比较喜欢读国内的一些作者的著作。

当然也有一部分原因是因为一些国外的做著作在这上面并没有发表,没有

取得相应的权限,这也是一个很大的问题,如果以后想拓宽大家的视野的话,

网站可以尽可能多的找一些国外的名著来读一下,更加了解国外一些的思想和

想法。

5.2.3小说分类分析

生成.txt文件如图5-7所示。

图5-7生成文件

初始化设置如图5-8所示。

13

湖南商务职业技术学院毕业设计

图5-8初始化设置

词云展示如图5-9所示。

图5-9词云展示

根据表格中的小说分类进行数字汇总和处理,然后将其统计出现的频率最

后生成特定序列,通过特定序列里面的数据,再按照词频生成词云图,如图5-10

所示。

14

湖南商务职业技术学院毕业设计

图5-10词云可视化

5.3统计分析小结

综上,现代文学网是一个集文学、文艺、新闻、文化艺术、评论等丰富内

容的文学网站,其知识储备涵盖了每一个历史时期以及许多不同的文化流派,

成为当今读者探索文学世界的重要窗口。

本次爬取分析现代文学网,共收集了119篇文章,其中,世界名著文章占

比最高,共计57篇,占总体比例达45.6%;侦探推理文章共计22篇,占比为

17.5%;现代文学文章有23篇

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论