快期刊文学网数据采集与分析_第1页
快期刊文学网数据采集与分析_第2页
快期刊文学网数据采集与分析_第3页
快期刊文学网数据采集与分析_第4页
快期刊文学网数据采集与分析_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖南商务职业技术学院毕业设计

目录

1引言............................................................................................................................1

1.1项目背景......................................................................................................1

1.2开发环境与工具..........................................................................................2

1.2.1Python简介..........................................................................................2

1.2.2JupyterNotebook简介......................................................................2

1.2.3Python第三方库简介..........................................................................2

2需求分析....................................................................................................................4

2.1可行性需求分析..........................................................................................4

2.2采集目标功能分析......................................................................................4

2.3关键技术分析..............................................................................................5

2.3.1网络爬虫技术.......................................................................................5

2.3.2文件存取技术.......................................................................................6

2.3.3可视化技术...........................................................................................6

3数据采集....................................................................................................................7

3.1采集页面分析..............................................................................................7

3.2字段分析......................................................................................................8

3.3编程实现......................................................................................................8

4数据清洗与处理......................................................................................................10

4.1数据清洗....................................................................................................10

4.2数据储存....................................................................................................10

5数据统计与分析......................................................................................................12

5.1数据准备....................................................................................................12

5.2数据展示....................................................................................................13

5.2.1期刊级别统计和占比分析.................................................................13

5.2.2发行周期和审稿周期统计与分析.....................................................14

5.2.3期刊收录数统计和分析.....................................................................15

5.2.4主办单位统计与分析.........................................................................16

I

湖南商务职业技术学院毕业设计

5.3统计分析小结............................................................................................16

6总结..........................................................................................................................17

参考资料.........................................................................................................................18

II

湖南商务职业技术学院毕业设计

快期刊文学网数据采集与分析

1引言

随着现代社会科技的飞速发展,数字经济大数据时代的到来,数据的价值

在日常生活中的各个领域都在不断地得到提升,充斥着我们的生活,同时也受

大数据的影响,从小方面的手机APP页面的推荐,购物的软件首页推荐,到大

方面城市的交通,全国的经济形势分析以及前段时间全国处于疫情严重期间时

等等,大数据就是这样以长期、大量、多样化的模式对数据进行采集、处理、

判断分析,所分析出来的信息就涉及到了我们生活的方方面面,给我们的生活

变得更高效也带来了许多的便利。

对于目前社会现状而言,在学习、工作、出行以及消费等所产生的效果是

非常明显的,大数据技术已经很普遍,而且可以看出在这些方面发挥展现出来

的影响之大,互联网和大数据结合起来将会对未来有着很大的发展,大数据时

代也可能在以后衍生出一些新的概念、新的内涵或是新的技术从而变成新时代

的标志。

1.1项目背景

文学期刊是文章需要在某一领域或者某一学科通过数据去研究,具有实验

性且是定期或者不定期的连续出版的刊物。从爱看书的人来说,阅读是非常热

衷的,常常能在文章中了解到更多自身所认知范围之外的知识和见解,刊期的

时间发行那更是尤为看重。

对于刊物而言,在网站上更多的就是要做到发行和推广,使其得到影响力

和知名度。所以这就得获取快期刊网站各个期刊的每项数据等资料,所采集的

信息繁多,这就需要我们对网页进行解析,接着通过Python爬虫的方法批次

对需要的资料进行获取。

我的毕业设计就是在网站的反观面从用户所需要的角度出发,来爬取快期

刊网站刊物数据,对其每个字段进行分析处理,然后用图表的方式来展示呈现

出来。最后大量的数据经过爬取、解析、判断所分析清洗出来的就能简单明了

的展现出来,给该网站负责的团队清楚明了的知道有多少条刊物数据、收录详

情等来供给访问者直面的数据。所以我做的毕业设计这块就是爬取数据、判断

分析,清晰整理、存储数据和可视化这些操作。

1

湖南商务职业技术学院毕业设计

1.2开发环境与工具

1.2.1Python简介

Python是20世纪90年代初由荷兰计算机科学研究学会的Guidovan

Rossum(龟叔)独立开发所创造的,那个时期Python还不是很看好,当时的

各种因素所受限制,但直至现如今顺着时代的改变,且Python能够满足灵活

敏捷的开发,从而开始得到了快速的发展。

正是随着计算机信息技术的到来,互联网的发展,各类技术的突破,

Python最主流的前沿领域也应用在了科学计算、软件开发、云计算、Web开

发、自动化运维、数据分析、网络爬虫、大数据和人工智能里,在爬取数据、

分析清理和数据可视化的大数据技术中也可运用Python来完成,这也是其在

数据分析的的最主流的语言之一。在Web开发框架中也是有非常之多都是基于

Python的,例如Flask,Django。搭建Web服务开发快、应用广、易学且高效

的还最属Python+Django架构。同时Python语言可移植、可拓展、可嵌入性

强又属于免费开源的,相比于其他语言都简单易学,还具备了强大的第三方

库,于是深受许多人青睐。

1.2.2JupyterNotebook简介

JupyterNotebook是基于网页的非常强大的交互式和展示数据信息的应用

程序,它能够将代码、注释、结果、公式等,一起包括在内,作为一个交互和

展示的文档并且还能共享。它的特点还包括编写代码时Tab能补全、高亮显示

语法;可以用HTML、PNG、SCG等来展示计算结果;在浏览器运行时结果直接

显示在代码块下面;编写说明语句时还支持Markdown语言。

JupyterNotebook现在也已经成为了多数编程人士来做数据分析学习的选

择,它不仅能展现整个分析过程,还可以写出自己的笔记,十分方便,且支持

多种语言。

要是用第一步肯定是先安装,对于刚入门学士来说JupyterNotebook最

简单的安装方法就是直接安装Anaconda,因为在安装Anaconda时它本身就默

认自带一起打包安装了JupyterNotebook。

1.2.3Python第三方库简介

request库:基于urllib编写的Python语言,非常的简便,不过相对于

urllib来看,request爬取网页数据没有那么的繁琐,易理解又节约时间,但

2

湖南商务职业技术学院毕业设计

使用这个库时也需先安装好。

lxml库:它的主要用途是可以对HTML或者XML的数据进行快速高效的解

析,其他的功能也非常多,这里我们所需要使用的是lxml库中的etree模块

来解析网页,利用XPath语法寻找定位所需要的字段节点。

pandas库:Python中十分核心的数据分析库,有着快速、灵活且明确的

数据结构,在这里是用来将解析完分析之后,将最终所要的数据存储为CSV文

件。

NumPy库:在Python中是个科学计算的拓展程序库,用来对执行计算多维

数组的,其特点是运算速度快且高效。

Matplotlib库:2D绘图库,Python中十分常见用作可视化的工具,简单

的编写代码就可创建大量基本的2D平面图,可以绘制的图形有条形图、饼

图、折线图、散点图、甘特图、箱型图、雷达图、树地图等等。

pyecharts库:可以生成Echarts图表,在Python中能很方便的用数据生

成图表,种类非常丰富,并且呈现的效果丝滑流畅很美观。

3

湖南商务职业技术学院毕业设计

2需求分析

2.1可行性需求分析

1.技术可行性

相对于C语言和Java语言来说,Python更易学易懂而且还更加简洁,这

次项目就是运用Python来编写代码,完成对目标网站数据的爬取,再对其字

段的分析和清洗处理,最后进行数据可视化操作。其中在对快期刊网站爬取数

据时,出现了报错的情况,网页数据中某些字段是空值导致,之后经过抽页观

察分析网页布局时,发现不仅仅是单个字段出现的空值,随后通过对字段添加

异常捕获的方式对数据为空的字段进行设置,然后将分析出来的有用的数据再

设置好编码格式,最后编写代码存入CSV文件中做存储。

以上是这次项目的技术可行性,我也将在接下来的步骤中完善到位,确保数

据的有效性和安全性。

2.项目可行性

社会的不断发展,科技的不断进步,文学的发展作为一种社会意识形态也

在随着时代发展,不断变化,现代的各种书籍刊物之繁多,不仅仅是在现实生

活中,在网络上更是层出不穷。从小到大的不断学习中,我们所接触到的事务

不单单仅限于所要学的书本中,但对于更多爱学习,爱阅读,喜欢拓宽自己知

识面的读者学士来说,自己所看重的一类书籍或者一类刊物的发行信息是十分

的看中的。

此次项目是通过对网站的初步观察,采集期刊种类比较全面的快期刊网站

内的刊物信息,将期刊级别、发行周期、期刊收录、审稿周期四个方面对其进

行全面分析,解析出更有用的数据,进行可视化操作作出图表来,更直观的呈

现出来从而得到结果。

2.2采集目标功能分析

这次项目所需要用到的数据信息是快期刊网站的,使用Python网络爬虫

技术,编程爬取快期刊网站每页的刊物数据信息,经过解析之后清洗出来共计

700条数据记录,再对这个数据与网站的内容进行随机的抽样对比,确认数据

的准确性和完整性。

分析快期刊网站上的网页信息,确定好需要获取的字段信息参数有期刊级

别、发行周期、期刊收录、审稿周期、主办单位、国际刊号、国内刊号、创刊

4

湖南商务职业技术学院毕业设计

时间等数据,有了这些预处理信息之后,再从不同角度来分析,包括各期刊级

别的分析,统计各级别所占比哪些类多和少;期刊发行周期的分析,看期刊的

周期所占比是多少;期刊收录的分析,看不同收录方有多少条目;以及审稿周

期分析,统计审稿在哪个时间段条目的多少。

2.3关键技术分析

2.3.1网络爬虫技术

科技的发展,互联网所产生信息数据越来越多,可以用海量来形容,要想

着快速的搜索检索到可用并且有效的信息数据,单纯的在网上运用搜索引擎慢

慢查找,对于少数信息量较小的倒不是问题,但如果说这个量十分的庞大的

话,效率和可行性都是令人堪忧的,这个时候我们就可以采用网络爬虫技术来

编写代码程序自动化有效且快速的获取到数据。

网络爬虫有常被人称为网络蜘蛛、网络机器人、网页追逐者,字面意思就

是按照一定的规则,编写好相应的代码,运行时自动且精准的在网站采集所需

要的页面内容信息。爬虫一般又分为三部分包括采集、处理、和存储。类型又

分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等类型。

这些给我们带来方便的同时,这门技术在互联网上也就起到重要的作用,

变得多元化,爬虫就如同一个侦查勘探的角色,模仿着普通人的行为在网站上

进行探测,查询数据,把结果收集起来,就像是蚂蚁搬运一样。

享受着爬虫带来的方便的同时,阴孕而生就出现了反爬虫,通过一些限制

来干扰阻止正常进行的爬虫,说白点就是防御防守。可一山更比一山高,反爬

虫机制的User-Agent、IP、Cookie、JS等手段,同样可以被高水平的人士运

用到位来获取数据,但这往往也加大了爬虫者的任务量。

日常生活中,许多人都用过爬虫,最鲜明的例子就是网上买票和电商带货

时的抢购物品,对得到的数据往往每个人的想法都不同,目的通俗来讲就是自

身利益,可但凡事务都具有两面性,运用得好自然是方便了本身,反之则会给

自己带来巨大的风险隐患。

5

湖南商务职业技术学院毕业设计

2.3.2文件存取技术

Python内置pandas库进行存储,如图2-1所示。

图2-1Python内置pandas模块

2.3.3可视化技术

在网站上看到的数据经获取后,虽然都看得懂,但密密麻麻的数据直接去

分析的话非常的烧脑,所以在此项目中运用第三方库将所获取的数据做完存储

之后,即可对其进行做可视化处理,用图来说话,一目了然更直观的展示了数

据信息。具体采用的是Python的第三方Matplotlib库和pyecharts库来进行

可视化操作,分别对需要分析的字段作出图形,来得出结论。

导入Matplotlib作图库用于后期绘制饼图和条形图,如图2-2所示。

图2-2导入Matpoltlib库

导入的pyecharts可视化作图库用于后期绘制词云图,如图2-3所示。

图2-3导入pyecharts库

6

湖南商务职业技术学院毕业设计

3数据采集

3.1采集页面分析

首先通过浏览器搜索快期刊网站,然后找到哲学文人目录集页面进行观

察,如图3-1所示,其中URL为:

/category/zhexuerenwen/然后点击网站页面下方

的分页按钮,同时观察URL,发现URL有发生变化。

图3-1网站数据网址页面

按F12调出浏览器开发者工具,按F5刷新页面,如图3-2所示。

图3-2浏览器开发者工具

7

湖南商务职业技术学院毕业设计

在开发者工具上面导航栏选择Network,找到中间的Headers并点击,看出

这个是一个GET请求。

3.2字段分析

接下来我们就可以单击Elements打开网页数据的源代码,如图3-3所

示,可以看到所需要获取的数据就是在这里面,上面已知该网站是用GET方法

来响应,所以在编写代码时用Requests中的GET方法来采集数据,接着用循

环依次有规律的重复获取响应数据,存放致创建的字典中,最后存储写入到

CSV文件中。

图3-3网页源代码

3.3编程实现

导入所需要运用到的库,如图3-4所示。

图3-4导入所需库

8

湖南商务职业技术学院毕业设计

创建一个字典,用于存放所爬取到的数据,用于后续将其写入文件做准

备,如图3-5所示。

图3-5创建存放数据的字典

第一层循环用于对网站所有页面来进行遍历,依据网址变化的规律设置好

网址,设置好请求头部信息,将User-Agent写入进去。用request库的GET

方法爬取网页数据,并将爬取的数据再用lxml库中的Etree模块来解析网

页,如图3-6所示。

图3-6第一层循环爬取代码块

第二层循环用来对单个页面的数据条目进行遍历,依据解析出来的数据,

用Xpath语法寻找定位所需要的字段节点并删除和分割不必要的部分,对个别

字段设置异常捕获以防存在缺失值的情况,保证完整性,如图3-7所示。

图3-7第二层循环解析代码块

9

湖南商务职业技术学院毕业设计

4数据清洗与处理

得到了繁多的数据之后,接下来就是清洗数据了,要确保数据的有效性和

网页数据的完整性,看是否有存在空值以及对应字段是否内容正确,根据字段

内容做不同处理,将数据归类整齐按获取的顺序排列好,方便在进行分析时高

效的使用。

4.1数据清洗

经过比对和检查,发现数据是有存在缺失值空值的项,那么我们就得考虑完

整性,防止数据内容的冗余和信息不对应。要做的就是将空值项在编写代码时

添加异常捕获,将其空值赋予“未标明”来设置。接着整理为原网页格式存入

字典中,最后存储到CSV文件,留到后面做可视化作图操作使用。如图4-1所

示。

图4-1经整理后的数据

4.2数据储存

可存储的方式有很多,通常可用存为EXCEL、TXT、JSON和CSV等,以此

次项目来考虑,这里选择以CSV文件存储,文件命名为data.csv做文件名。

如图4-2所示。

10

湖南商务职业技术学院毕业设计

图4-2数据存储为CSV文件代码

打开所存储的CSV文件确认数据是否完整,如图4-3所示。

图4-3存储为CSV文件的数据

11

湖南商务职业技术学院毕业设计

5数据统计与分析

5.1数据准备

导入所需库,使用pandas加载CSV文件源数据,如图5-1所示。

图5-1数据准备

筛选出作图所需要的字段数据,如图5-2所示。

图5-2经筛选后的数据

12

湖南商务职业技术学院毕业设计

5.2数据展示

5.2.1期刊级别统计和占比分析

将处理好的期刊级别字段数据进行作图,如图5-3所示。

图5-3期刊级别占比图

图中可以看出获取快期刊网站信息各类刊物的期刊级别最多的还属于省级

期刊,其次就是北大核心期刊和国家级期刊。北大核心和统计源期刊这类跟未

标明刊期级别的占比很少。为何要将这些期刊分级别分类?

其实这期刊里面又划分了很多种等级,如按主管部门、按期刊质量、按注

册地等等这些级别,以内容类别又分一般期刊、学术期刊、行业期刊、检索期

刊等,每种类别都有自己领域的研究内容。

在广大学士搜寻喜好的期刊阅读时总会先了解自己要的期刊属于哪种级

别,出自哪等信息。从另一方面看对有了目标就会产生想法,从而去类比阅读

个人喜好方面的期刊。就目前形式来看其一是期刊缺乏市场的,办得好的期刊

并不多,片面的看,许多企业单位缺乏专员,再加上财政的支持力度不大的问

题。其二是缺乏对读者的研究,期刊是给读者看的,就如同买东西,一个非常

吸引人销量好的物品,总会有它本身的吸引之处,对于刊期也是一样,仔细的

看懂读者的心里,使自己有固定的阅读群体,才能慢慢发展。

13

湖南商务职业技术学院毕业设计

5.2.2发行周期和审稿周期统计与分析

将处理好的发行周期字段数据进行作图,如图5-4所示。

图5-4发行周期占比图

将处理好的审稿周期字段数据进行作图,如图5-5所示。

图5-5审稿周期条形图

从两张图中可以看出发行周期是月刊和双月刊的比例占据大,季刊在其

后,剩下的半月刊、半年刊和另外三个就都占的少数了。以发行周期来看审稿

周期也就看出来了审稿在1个月内的最多,1-3个月的其次,其余的数值就更

14

湖南商务职业技术学院毕业设计

少了。两个字段性质上没什么差别得出的数据上也比较相似,这里综合了来

看,期刊的周期不同,看的是出版物期刊的水平决定,一般情况下,普通期刊

时间周期比较短,比较重要的核心期刊周期就长些,但也有一种情况,是一些

期刊在所属的专业里不是那么具有影响力,稿源也不多,但为了行业目前的地

位来说,就还是会仔细审稿,以致时间就长了。就读者而言,在选择期刊时,

要考虑好前面分析的期刊级别,还要考虑到审稿和发行的周期时间,都是比较

重要的。

5.2.3期刊收录数统计和分析

将处理好的期刊收录字段数据进行作图,如图5-6所示。

图5-6期刊收录条形图

图中期刊收录条目统计来看,知网、维普、万方三方都有收录的最多,知

网和维普都收录的第二,知网独自收录的第三,其次第四就是知网和万方收录

的。

相对于期刊收录是创作者要发表的东西被期刊收录了,还有一种意思是期

刊收录的方向和类型等。只有发表被期刊所收录了才能在网上检索的到。不难

看出我国期刊收录的三巨头就是知网,维普和万方,这也是多数创作者要发表

作品时想要被收录进去的,就知网而言,很多人都知晓它资料是非常多的,而

且也是目前最权威的查重系统,速度快、灵活且支持类型多,三者也都各自有

自己的特色。

15

湖南商务职业技术学院毕业设计

5.2.4主办单位统计与分析

将处理好的主办单位字段数据进行作图,如图5-7所示。

图5-7主办单位数据展示

据词云图来看主办单位里次数由多到少的前四位依次是中国艺术研究院、

北京外国语大学、中国美术出版总社、中国音乐家协会。主办单位是对期刊如

何创办,如何出版内容进行把关,相当于是一个监督管理的角色,从我们获取

的哲学文人类期刊记录来看中国艺术研究院是里面出的最出众的,出版的多则

是对这块领域钻研见解的多。

5.3统计分析小结

综上,期刊级别多数属于省级期刊,发行和审稿周期综合来看是在1个月

时间段内,知网、维普、万方一同收录的占首位,中国艺术研究院是对这块研

究颇多的主办单位。通过对快期刊网哲学文人类板块数据的爬取,获得了刊物

的各项资料,经过分析所得出,创作者的期刊大多数都是出自省级,对于审稿

和发行时间长的期刊不多,整体的期刊收录都在知网、维普、万方一同收录的

三巨头中,对这类板块见解多,期刊发出的多少来看,可以多阅览中国艺术研

究院所发表的期刊。

16

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论