基于Python新浪网新闻类网站数据分析与展示_第1页
基于Python新浪网新闻类网站数据分析与展示_第2页
基于Python新浪网新闻类网站数据分析与展示_第3页
基于Python新浪网新闻类网站数据分析与展示_第4页
基于Python新浪网新闻类网站数据分析与展示_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖南商务职业技术学院毕业设计

目录

1引言1

1.1项目背景1

1.2开发环境与工具2

1.2.1Python简介2

1.2.2Jupyternotebook简介2

1.2.3Python第三方库简介2

1.2.4MySQL简介3

2需求分析3

2.1可行性需求分析3

2.2采集目标功能分析4

2.3关键技术分析4

2.3.1网络爬虫技术4

2.3.2文件存取技术5

2.3.3可视化技术6

3数据采集7

3.1采集页面分析7

3.2字段分析8

3.3编程实现9

4数据清洗与处理12

4.1数据清洗13

4.2数据储存13

4.3编程实现14

5数据统计与分析15

5.1数据准备15

5.2数据展示16

5.2.1依据新闻关键词进行统计16

5.2.2依据报社发表新闻数量进行统计17

I

湖南商务职业技术学院毕业设计

5.2.3依据责任编辑来进行统计18

5.2.4依据一个时间段新闻发布数量进行统计19

5.3综述20

6小结20

参考资料22

II

湖南商务职业技术学院毕业设计

基于Python新浪网新闻类网站数据分析与展示

1引言

随着科技技术与网络技术的不断发展,我们现如今的生活中出现了大量的

数据,可以说现在的生活中数据无处不在,而这些数据都是经过人们精心的收

集、处理、整理所形成大数据,开始展现出其从量变到质变的价值时代,而这

个时代是我们年轻人的机会,我们应该抓住这个机遇。数据采集则是最重要的

一项,顾名思义如果连数据都没有,那这一切都是空谈。采集到了数据就可以

进行后续的数据分析与展示。数据采集的方法有很多,比如通过交通摄像头,

可以采集到视频,图像等。而此次是对互联网上的数据采集,对一些新闻网站

的一些新闻进行采集与分析。采集的主要内容有新闻的标题、发布时间、责任

编辑、报社等。在把这些数据进行处理,分析和展示。该设计基于python语言,

运用所学的爬虫技术对新浪网的新闻网站进行数据采集,然后用NumPy进行数

据的清理,整理等,最后通过matplotlib进行数据可视化分析画图。

1.1项目背景

现在无论在生活还是人际交往,信息都是很重要的。虽然信息是虚拟存在

的,但它带来的价值绝对是不容小觑的。做好了对信息的收集、处理与管理对

自己的用处是很大的,在和别人谈合作和遇到困难时有利于做出对自己有利的

决策。在人际交往中,也可了解到他人生活习惯、喜好等,不容易得罪别人。

信息的作用远不止于此,信息也是我们生活中重要的一环。

对于一个新闻网站而言,它有自己获取信息和获取数据的方式并且储存有

大量的数据。我们找到新闻网站会发现里面有各种各样的新闻,我们要做的是

把我们需要的新闻标题、时间、关键字等数据拿下来存在我们自己的电脑里进

行分析。

网站里面的新闻有很多,要想拿到我们想要的新闻数据,我们就要对这个

网站进行解析,然后通过Python网络爬虫的方法来获取我们想要的数量和数据。

我的毕业设计就是爬取新浪网新闻网站的一些国内新闻,对其进行处理、

分析、储存和可视化。就是对那些爬取下来的新闻数据进行清洗,把那些错误

的数据去除掉,对其进行分析,然后运用可视化技术画图。然后我们可以通过

观察那些画出来图很容易的可以看到,我们生活中出现的一些重大新闻和这些

新闻发布的时间以及一个时间段新闻发布的数量等。

1

湖南商务职业技术学院毕业设计

1.2开发环境与工具

1.2.1Python简介

Python由荷兰数学和计算机科学研究学会的吉多·范罗苏姆于1990年代

初设计,作为一门叫做ABC语言的替代品。Python提供了高效的高级数据结构,

还能简单有效地面向对象编程。

Python语言是一门非常简单的语言,因此它非常受人们欢迎,也是世界上

最受欢迎的语言之一,在国内外的大多数大学计算机一类的课程都会学。Python

有很多扩展库,最经典的有NumPy、SciPy和matplotlib,它们分别为Python

提供了快速数组处理、数值运算以及绘图功能。可以很便利的进行数据处理和

画图等。

Python对新手极其友好。对于初学者来说,Python极其容易。它被认为是

最简单方便的语言之一:简化的人性化语法是一方面,快速编写与执行是另一方

面。

1.2.2Jupyternotebook简介

Jupyternotebook是一个Web应用程序,允许您创建和共享包含实时代码,

方程,可视化和说明文本的文档。用途包括:数据清理和转换,数值模拟,统

计建模,机器学习等等。

可选择语言:支持超过40种编程语言,包括Python、R、Julia、Scala等。

分享笔记本:可以使用电子邮件、Dropbox、GitHub和JupyterNotebookViewer

与他人共享。交互式输出:代码可以生成丰富的交互式输出,包括HTML、图像、

视频、LaTeX等等。大数据整合:通过Python、R、Scala编程语言使用Apache

Spark等大数据框架工具。

对于初学者来说安装Jupyternotebook最简单的方法是安装Anaconda,因

为它自带了Jupyternotebook。

1.2.3Python第三方库简介

Requests:一个简洁且简单的处理HTTP请求的第三方库。

Scrapy:这是Python开发的一个快速、高层次的web获取框架。不同于简

单的网络爬虫功能,scrapy框架本身包含了成熟网络爬虫所应该具有的部分共

用功能。

Numpy:这是Python的一种开源数值计算扩展第三方库,用于处理数据类

2

湖南商务职业技术学院毕业设计

型相同的多维数组,简称“数组”。

Pandas:这是基于numpy扩展的一个重要第三方库,它是为了解决数据分

析任务而创建的。

Re:正则表达式解析和处理功能库。

bs4:beautifulsoup库,用于解析和处理HTML和XML。

Matplotlib:matplotlib是一个Python2D绘图库,可以生成各种可用于

出版品质的硬拷贝格式和跨平台交互式环境数据。Matplotlib可用于Python脚

本,Python和IPythonshell,Web应用程序服务器和各种图形用户界面工具

包。”

Wordcloud:词云生成器。

Jieba:中文分词模块

1.2.4MySQL简介

随着信息技术的不断发展,诸如云计算、大数据、人工智能等高新技术也开

始得到普及应用,为人们提供更为便利的信息服务的同时,也带来了数据安全方

面的挑战。在大规模数据处理需求下,数据隐私保护已经成为当今互联网应用亟

待解决的关键性问题。[1]

MySQL是一个数据库管理系统。MySQL是最流行的关系型数据库管理系统之

一,因为它是开源免费的,在WEB应用方面,MySQL是最好的RDBMS应用软件之

一。

MySQL数据库是用来储存大量数据文件的,像我们这次项目爬取下来的数据,

虽然不是很多但是可以将其存到MySQL数据库中的,想要什么数据可以通过sql

语句来调出你想要的数据,还可以进行排序,计数等。MySQL还是开源免费的,

所以很多人或者小型公司作项目的时候都很喜欢用到这个。对初学者来说也是

很友好的,操作比较简单,容易上手,下载这个软件又是免费,因此MySQL是

很受欢迎的。

2需求分析

2.1可行性需求分析

1、技术可行性

Python语言是一门简单容易上手的面向对象的编程语言,排名在Java、C

和JavaScript等语言之上。在这次的项目中,我们就是使用Python语言编程

3

湖南商务职业技术学院毕业设计

来实现对网站上的数据的采集,数据的清洗,数据的可视化。在爬取想要的数据

过程中会遇到一些问题,这些问题在我们爬取一些网站数据的过程中都会遇到。

也就是网站设置有反爬机制。我们可以通过开发者工具找到那些反爬机制,通

过对应的方法来解决。我们可以将爬来的数据用csv文档格式直接储存到本地。

然后就可以对些数据就进行数据清洗和数据可视化。

这就是此次的项目技术可行性,我也会在后面的工作中用这些步骤来实现

数据的采集与分析。

2、项目可行性

新闻在现在的生活中无处不在,每天大大小小的新闻不计其数,大到国家

层面的,小到哪个人发生的事。打开手机或者电脑,随时都能刷到很多新闻,

我们也可以通过新闻了解每天世界各地发生一些什么事情。新闻在我们现在的

生活已经是不可缺的一部分了。

本次的项目就是通过采集一些典型的新闻网站发布的新闻数据,我此次选

的是新浪网的国内新闻网,来分析我国最近主要发生的事情。从新闻的标题,

新闻的发布时间,新闻的关键字,新闻的责任编辑等方面对其进行分析,将我

们需要的数据储存下来,进行可视化,让我们清楚的看到。

2.2采集目标功能分析

这次项目的数据采集是对新浪网新闻网的国内新闻网站,通过python爬虫

爬取新浪网新闻网的国内新闻信息,共爬取了600新闻数据,爬取下来经过与

新闻网站上的新闻进行对比,确认无误的情况下将其以csv格式储存到本地。

分析新浪网新闻网的国内新闻网站信息,明确我们所要爬取的有新闻标题,

新闻发布时间,发布新闻的报社,新闻的关键字和新闻的责任编辑等数据。将

爬取下来的数据分开进行分析。比如哪个报社发布的新闻数量最多,或者每十

天发布的新闻数量,又或者哪个新闻的关键字出现的最多。

2.3关键技术分析

2.3.1网络爬虫技术

随着我国网络信息技术的不断发展,互联网的用户正逐渐增多,在Python

语言框架下,获取目标网络数据功能上的强大,配合网络爬虫技术来获取相应

的信息。网络爬虫也被称之为网络机器人,其可以根据预先设定好的功能自动

操作,成为目前最受欢迎的程序之一,为此下面将对Python语言下网络爬虫的

4

湖南商务职业技术学院毕业设计

技术特点进行探析,并结合实际提出了应用与实现的具体策略。随着我国互联

网发展速度的不断加快,各类信息数据也在随之增多,网络爬虫技术迎来了广

阔的发展空间,合理应用能够根据用户需求,在短时间内找到网页中自己想要

的内容,然后将数据进行反馈与储存。[2]

网络爬虫技术在我们现在的生活中用的很普遍,例如我们上网遇到几张照

片啥的数据我们可以直接手动下载储存很方便,但是要是几百张,几千张,甚

至几万张这种大量的数据,我们还用手动去下载缓存,那这无疑是个笨方法,

这个时候我们就可以用网络爬虫这种方法就会很容易的获取到想要的数据。

爬虫一般分为三个部分,分别是数据采集,处理,储存。传统爬虫从一个

或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不

断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。网络爬

虫本质上是一段计算机程序或脚本,其按照一定的逻辑和算法规则自动地抓取

互联网信息。

这个网络爬虫技术是有好的一方面也有坏的一方面,就像是一把双刃剑。

用的好可以造福于人们,我们可以运用这个技术用来我们平时常见的抢票,还

有现在好多电视剧,音乐都要vip或者收费,我们就可以用这个技术把那些东

西去网站上爬取下来,看就可以不用花钱。坏的一方面,有一些别有用心的人

会去购物网站,快递网站等地方爬取我们的个人信息进行售卖,这都是违法犯

罪的,这样是会害人害己的,所以我们懂这项技术的,一定要守法,做一个好

公民。

网络爬虫作为近期互联网新兴的自动化数据收集技术,由于其易上手、功能

性强的特性已成为当前互联网领域最热门的技术之一。网络爬虫的功能和价值

也决定了其对于互联网的重要性,随着使用率的逐步提高,爬虫对互联网安全的

影响也逐步扩大,管理人员也相应的开始研究"反爬"策略,并通过法律规制和行

为规范来约束爬虫的数据抓取行为。[3]

2.3.2文件存取技术

PyCharm内置csv模块储存数据如图2-1显示:

5

湖南商务职业技术学院毕业设计

图2-1PyCharm内置csv模块

PyCharm内置csv模块读取数据如图2-2显示:

图2-2pandas模块方法

2.3.3可视化技术

大数据时代下数据总量规模大幅度增加,类型多样化,传统数据分析和处

理技术存在很大的限制,导致数据分析精准度不高,处理效率偏低。因此,为

了满足不断增长的数据信息处理需求,并结合传统数据分析工具高门槛性和操

作难度大的问题,越来越多的人开始运用Python来设计数据分析和处理的平台,

借助Python中pandas来分析结构化数据,非结构化数据中提取文本信息,借

助Matplotlib图表展示,借助Jieba来分次处理文本信息,最终在Web上发布

信息。基于此种方式,可以为用户提供更加便捷、功效的数据分析服务,获得

可视化的数据分析结果。[4]

我们从网站上爬取下来的数据通过数据清洗储存下来的数据,我们就这样

观看那些数据是得不到我们想要的结论的。这个时候我们就需要用一种技术把

那些数据进行画图,以图的形式让我们能直观的看到我们所需的数据。那个技

术就是可视化技术。可视化技术就是利用输入的一组数据,生成其图形表示,

并操纵其图形表示方式的技术。可视化技术的目的并不是去了解目标数据,而

是要揭示目标数据背后所隐藏的种种现象。

6

湖南商务职业技术学院毕业设计

经过这么多年可视化技术的发展,如今主要分成三类:科学可视化、信息

可视化、可视分析学。而我们本次的项目用到的就是信息可视化技术,信息可

视化指在研究大规模非数值型信息资源的视觉呈现。通过利用图形图像方面的

技术与方法,帮助人们理解和分析数据。

我们本次项目也只是用到信息可视化的一部分简单的技术,本次就是用到

PyCharm里面的第三方库中的matpoltlib去进行可视化分析。Matpoltlib是

python数据可视化库的泰斗,可以方便的绘制出折线图,条形图,柱形图,散

点图,饼图等基础图形。可以将数据用图形的方式展现出来。让我们能够更好,

更清楚的看到结果。

3数据采集

3.1采集页面分析

我们先通过GoogleChrome浏览器搜索新浪网官网,然后找到新闻网的国内

新闻如图3-1,其网址为/china/。

图3-1数据网址页面

接着单击右键选择检查或者直接按F12调出开发者工具,刷新页面,如图

3-2。

7

湖南商务职业技术学院毕业设计

图3-2开发者工具

我们用搜索工具点一下我们需要的数据,然后我们这个是在js文件中找到

那个数据位置,点击上面的Headers字段,可以看到这是一个GET请求。

3.2字段分析

我们先通过浏览器找到所需网站,找到我们要的网页,打开开发者模式,用

搜索工具找到我们所需的数据位置,然后刷新当前页面,找到Preview点击进

去如图3-3,可以看到我们需要的数据都在里面,比如我们要的时间就是图3-3

中的timestamp,新闻标题就是图3-4中的title,但是可以看到编码不是utf-8,

所以我们看不出内容。我们可以先爬取下来,在后面我们输出和储存的时候用

utf-8的编码展示出来就可以了。发布新闻的报社,关键词和责任编辑我们通过

Xpath的方式解析出来。比如报社message['报社']=

maps(tree.xpath('//div[@id="top_bar"]/div/div[@class="date-source"]/

a[@class="source"]/text()')).strip()。关键词message['关键词']=

'/'.join(tree.xpath('//div[@id="keywords"]/a//text()')).strip()。

责任编辑message['责任编辑']=

maps(tree.xpath('//div[@id="article"]/p[last()]/text()')).strip().sp

lit(':')[-1]

8

湖南商务职业技术学院毕业设计

图3-3分析数据类型页面(一)

图3-4分析数据类型页面(二)

3.3编程实现

先导入我们所需要的第三方库如图3-5所示。

图3-5导入库页面

在很多网站都设置有反爬,所以我们需要把网站上的Headers里面的一些

9

湖南商务职业技术学院毕业设计

数据拿下来,设置一个新的请求头部,从而进行伪装,访问服务器,如图3-6

所示。

图3-6设置请求头部页面

代码实现如下:

importrequests

importtime

fromlxmlimportetree

importpandasaspd

importcsv

defgetdata(page):

headers={

"authority":"",

"accept":"*/*",

"accept-language":"zh-CN,zh;q=0.9,en;q=0.8",

"cache-control":"no-cache",

"pragma":"no-cache",

"referer":"/china/",

"sec-ch-ua":"^\\^Not_A",

"sec-ch-ua-mobile":"?0",

"sec-ch-ua-platform":"^\\^Windows^^",

"sec-fetch-dest":"script",

"sec-fetch-mode":"no-cors",

"sec-fetch-site":"same-site",

"user-agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36

(KHTML,likeGecko)Chrome/Safari/537.36"

}

url="/api/roll/get"

10

湖南商务职业技术学院毕业设计

params={

"pageid":"121",

"lid":"1356",

"num":"20",

"versionNumber":"1.2.4",

"page":str(page),

"encode":"utf-8",

}

response=requests.get(url,headers=headers,params=params).json()

#print(response)

fordatainresponse['result']['data']:

message={}

message['标题']=data['title']

timeStamp=int(data['ctime'])

timeArray=time.localtime(timeStamp)

otherStyleTime=time.strftime("%Y-%m-%d",timeArray)

message['时间']=otherStyleTime.replace('-','/')

href=data['url']

response=requests.get(href,headers=headers)

#print(response.content.decode())

tree=etree.HTML(response.content.decode())

message['报社']=maps(

tree.xpath('//div[@id="top_bar"]/div/div[@class="date-source"]/a[@class="source"]/text()')).strip

()

message['关键词']='/'.join(tree.xpath('//div[@id="keywords"]/a//text()')).strip()

ifmessage['关键词']=='':

continue

message['责任编辑']=

maps(tree.xpath('//div[@id="article"]/p[last()]/text()')).strip().split(':')[-1]

#print(message)

List.append(message)

#getHtml(message,href)

defsave_data_to_csv(data):

filename='新浪新闻数据.csv'

withopen(filename,'a',encoding="utf-8",newline="")ascsvfile:

fieldnames=["标题","时间","报社","关键词","责任编辑"]

writer=csv.DictWriter(csvfile,fieldnames=fieldnames)

writer.writeheader()

writer.writerows(data)

if__name__=='__main__':

maps=lambdax:x[0]ifxelse''

11

湖南商务职业技术学院毕业设计

List=[]

forpageinrange(1,45):

getdata(page)

time.sleep(2)

iflen(List)>=600:

break

save_data_to_csv(List)

4数据清洗与处理

随着互联网的发展,数据呈现爆发式的增长。虽然数据规模很大,但是数据

质量却无法得到保障,存在许多脏乱的数据,需要进行数据处理。与此同时,机器

学习在越来越多的领域凸显重要性,好的训练结果不仅与训练模型相关,更取决

于训练数据的质量,因此数据清洗是任何数据分析的重要步骤。理想情况下,我

们应该遍历数据集中的每个变量,查找数据集中的潜在错误,但这个过程本身可

能非常耗时、代价高昂且容易出错。[5]

在我们获得大量数据后,我们要对这些数据进行处理,这就是我们所说的

数据清洗与处理。需要把把错误数据、重复数据、无效数据、缺失值等清洗掉,

这就是数据清洗。然后我们可以把我们所需要的数据进行分类,汇总,排序等,

方便我们在后续使用这些处理完的数据,比如我想使用哪一类的数据,我就可

以直接找到那一类的数据进行使用,非常方便。

我们这次项目的数据清洗与处理主要是对我们爬取下来的数据和网站上的

数据进行对比,看看我们的数据中是否出现错误数据和空数据,并且对这些数

据进行分类等数据处理。

12

湖南商务职业技术学院毕业设计

4.1数据清洗

图4-1数据清洗准备页面

我们把我们爬取下来的数据,读取一部分与网站上的数据进行对比,可以

发现我们的数据和网站上的数据一致,并没有发现有错误值,缺失值,然后将

这些数据用csv格式储存到本地,为了防止数据丢失也可以存一份数据到MySQL

数据库中。

图4-2数据清洗完成界面

清洗完成之后的数据就如图4-2,可以发现和我们爬取下来的数据数量一致。

4.2数据储存

爬取下来的数据要储存起来有很多种方法,例如可以储存为csv文件,或

者json文件,又或者是Excel文件等。这些只是一些常见的储存数量比较少的。

如果我们要储存大量的数据,那我们就要用到前面介绍过的MySQL数据库,对

于MySQL数据库我们前面有介绍。对于我们来说是很友好的,操作简单,开源

免费。我们本次项目采用两种方法储存数据,就是csv和MySQL数据库。其实

用csv格式储存数据就可以了,但是为了确保数据不丢失还可以把数据存到数

13

湖南商务职业技术学院毕业设计

据库里面。我们通过编程依次把我们要的数据也就是标题,时间,报社,关键

词责,任编辑储存为csv文件。然后直接把csv文件的数据存到MySQL数据库

中。

4.3编程实现

爬取下来的数据储存为csv文件,如图4-3所示。

图4-3数据库创建页面

为了确保数据不会丢失,我们把csv文件的数据存到MySQL数据库中。创

建一个新的数据库,注意要写编码为utf8,否则会出现乱码,如图4-4所示。

图4-4数据库创建页面

创建数据表也是一样的道理,注意设置编码,如图4-5所示。

图4-5数据表创建页面

我们把数据上传到本地,然后从本地传到创建的数据表中,如图4-6所示。

图4-6本地数据传入数据表页面

查看一下传入的数据是否正常,部分数据如图4-7所示。

14

湖南商务职业技术学院毕业设计

图4-7数据展示页面

5数据统计与分析

5.1数据准备

导入第三方库,用pandas读取数据,如图5-1、5-2。

图5-1数据准备页面

15

湖南商务职业技术学院毕业设计

图5-2数据加载完成页面

5.2数据展示

5.2.1依据新闻关键词进行统计

图5-3数据展示页面

16

湖南商务职业技术学院毕业设计

我们把爬取的新浪网新闻网站的国内新闻里面出现的关键词字段,根据其

在新闻中出现的次数进行统计排序,按照字段出现的频率进行分析可视化,绘

画出词云图。如图5-3所示,我们可以非常清楚直观的看出新冠肺炎出现的次

数最多,也是最显眼的,然后就是疫情感染,美国等字段。

在新闻网站上出现过这么多次,足以说明在近几年,我国的新冠肺炎疫情

的严重程度,这疫情对我们的影响也是非常大的。不管是政府,普通市民还是

我们学生都有很多影响。很多服务企业都因为这个疫情而倒闭,企业倒闭也导

致公司的人员失业,从而影响到我们的生活。对我们学生的影响有进行网课教

育,个人觉得上网课的效果并不好。还好今年已经全面开放了,对我们来说是

个好消息,我们找工作没有那么难了。

从图中还可以看到出现比较多中国,美国,外交等,可以了解到这几年和

美国的外交并不好。在图中出现多的关键词也是我国比较看重的问题。看这个

图我们就能大致看到近几个月的新闻。我们的数据虽然只从新浪网上爬来的,

但是和其他的一些新闻网站也是有很多一致的新闻,就如我们最看重的疫情问

题,在全网都是随处可见的。

5.2.2依据报社发表新闻数量进行统计

17

湖南商务职业技术学院毕业设计

图5-4数据展示页面

从图5-4一眼就可以看出来哪个报社发表的新闻多,哪个报社发表的少,

其中新京报发表的是最多的,而观察者网和长安街知事就发表的比较少。从各

个报社发表的数量间接的可以看出,人们更喜欢哪个报社,和哪个报社发布的

新闻更和我们的胃口,毕竟人们喜欢看,它才会发布的多。要是都没什么人去

看那些新闻,那它就发布的少,浪费人力物力。

这个仅代表本次项目,就新浪网而言,当然不同的新闻网站每个报社的情

况又不一样,但是也是可以大致代表的。从图中还可以了解到一些不怎么出名

的报社,大部分还是我们生活中,手机上常见的。我们把很多小的报社都统一

归为了其他,这些报社加起来居然占到了16.9%,超过了排在第一的新京报,这

些不出名的小型报社也是不可小觑的。从图中我们也可以了解到我国报社的大

致局势,哪些报社的实力强一点,哪些报社的实力弱一些。用饼图来统计这个

报社数据还是很好的选择,简单直接。

5.2.3依据责任编辑来进行统计

图5-5数据展示页面

从图5-5中可以看出新浪网的国内新闻责任编辑主要的几个人,可以看出

祝加贝编辑员编辑的新闻数量最多,在其后面的是刘光博编辑员,他们俩编辑

的新闻数量加起来超过了整体的一半。刘鹏林和薄晓舟编辑员编辑的新闻数量

就比较少了,也不知是什么情况编辑数量低的是真的很低,数量高的又高的吓

人,这种分布有点不正常,数量高的有几百条,数量低的只有几条。这并不能

18

湖南商务职业技术学院毕业设计

说明别人就没有实力,毕竟能够胜任新浪网这种大企业的编辑员就没有实力不

够的。只能说与排名第一的祝加贝编辑员相比,能力没有那么强,优势没有那

么大。又或者这只是最近几个月是这样。我们不能片面的看待这个问题。统计

编辑员编辑的数量用条形图也是一下就能看出想要的结论。

5.2.4依据一个时间段新闻发布数量进行统计

图5-6数据展示页面

从图5-6可以看出在2022年12月10左右发布的新闻数量在我们这次项

目中是最多的,为什么这段时间有那么多新闻呢,这个时期正是这疫情的关键

点上,我猜大概是因为这段时间很多人都感染了新冠肺炎,电视上,手机上都

是各种各样的新闻报导,有什么专家建议啥的,那段时间医院的床位都满了,

有很多老人都没能扛过这一段时间。然后新闻报道就会有很多,大概是因为这

个原因,这段时间的新闻数量是最多的。然后过了这段时间,新闻数量就没有

那么多了。在2022年12月30左右新闻数量又在增长,也就是元旦节那段时间,

有很多人都在回家过年的路上或者已经回家了,人一聚的多就容易发生很多事,

有好的事情发生当然也有坏事发生,大家回家过年是好事,有好多人也会选择

在这段时间办喜酒,毕竟人多热闹。坏事就像大家回家过年,高速上多了很多

车祸,堵车等等,这些都是可以写成新闻的。我猜测是这样的。然后新闻的数

量在2023年1月9左右慢慢下降,这也是正常的记者,报社过年也会放假的,

发布新闻的数量自然而然就比较少了。新闻数量在2023年1月19也就是除夕

19

湖南商务职业技术学院毕业设计

那段时间达到了最低。

5.3综述

综上所诉,近年来我国的新闻大大小小有很多,通过爬取到的新闻数据来

说,报道最多的就是新冠肺炎疫情问题,这也是近年来我国很重视的问题。在

是2022年底的时候,国家宣布开放,不在封控,那个时候的新闻数量也是很多

的,毕竟突然解封,发生的事情有很多,那段时间外边到处都是感染新冠的人

发生有大大小小的事有很多,电视上,手机上关于这方面的新闻多的很。我们

可以看到在新

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论