当当网图书销量数据采集与分析_第1页
当当网图书销量数据采集与分析_第2页
当当网图书销量数据采集与分析_第3页
当当网图书销量数据采集与分析_第4页
当当网图书销量数据采集与分析_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖南商务职业技术学院毕业设计

目录

1引言............................................................................................................................1

1.1项目背景......................................................................................................1

1.2开发环境与工具..........................................................................................2

1.2.1Python简介..........................................................................................2

1.2.2MySQL.....................................................................................................2

1.2.3JupyterNotebook简介......................................................................3

1.2.4PyCharm和Python第三方库简介...................................................3

2需求分析....................................................................................................................4

2.1可行性需求分析..........................................................................................4

2.2采集目标功能分析......................................................................................4

2.3关键技术分析..............................................................................................5

2.3.1网络爬虫技术.......................................................................................5

2.3.2文件存取技术.......................................................................................5

2.3.3可视化技术...........................................................................................6

3数据采集....................................................................................................................6

3.1采集页面分析..............................................................................................6

3.2字段分析......................................................................................................8

3.3编程实现......................................................................................................9

4数据清洗与处理......................................................................................................11

4.1数据清洗....................................................................................................11

4.2数据储存....................................................................................................13

4.3编程实现....................................................................................................13

5数据统计与分析......................................................................................................14

5.1数据准备....................................................................................................14

5.2数据展示....................................................................................................16

5.2.12022年畅销书图书的原价价格分布区间........................................16

5.2.22022年畅销书图书的售价价格分布区间........................................16

I

湖南商务职业技术学院毕业设计

5.2.3各个出版社销售书籍数量分析.........................................................17

5.2.4电子书占比进行统计.........................................................................18

5.2.5依据书籍评论数排名进行统计.........................................................18

6小结..........................................................................................................................19

参考资料.........................................................................................................................21

II

湖南商务职业技术学院毕业设计

当当网图书销量数据采集与分析

1引言

随着大数据信息技术的兴起,让信息技术的发展发生了巨大的变化,目前

大数据已经在很多领域得到了实际应用,如医疗,教育,金融,娱乐产业,房

地产,体育等等,致使各式各样的数据接踵而来,每个国家都高度重视大数据

技术与应用的研究和发展。大数据不仅仅是数据量大,还有数据类型繁多,处

理速度快,价值密度低的特点,通过大数据技术,人们可以从海量数据中提取

有用的数据进行整合分析,大大提升人们的工作效率。

通过大数据技术,我们可以对海量数据经行快速的收集和挖掘,现在大数

据技术已经成为支持社会治理科学决策和准确预判的有力手段,为社会转型期

的社会治理创新带来巨大机遇[1]。

1.1项目背景

现在这个时代中,大数据在实际应用中发挥着很大的作用。大数据技术、

Hadoop、数据清洗,数据可视化,网络爬虫,MySQL数据库技术的不断发展完善,

为我们进行大数据爬取分析和数据挖掘提供了强大支撑。

互联网发展势头正猛,带动了信息技术与网络技术的发展,让人们真正走

到物联网和云计算时代,让信息能够实现共享,并快速的流转,这就是新时代

向着网络时代前进的必然趋势。就在图书网也相继应用了大数据技术,进而将

信息管理水平给提高上来了,但是在这个过程中,图书馆还是有很多功课要做,

实时推广大数据技术,让图书网的受欢迎的图书更畅销。在各种网站中,比如

图书网站里面的当当图书销量网,使用大数据技术分析里面每年的价格,销量,

让企业了解到人们需要是哪一种类型的图书,从而提高网上销售量增加企业开

发网站销售图书所获得的收益。

如果我们要分析数据,那首先是要拿到数据,爬虫是获取数据的非常便利

的方式,得到数据之后,我们要对我们的需求进行足够的了解,能够将其准确

的定位,我们可以对数据进行清洗、去重、分析、统计,制定出最受人们欢迎,

更高销量的图书。

我的毕业设计所做的项目就是针对当当图书网图书销量网站进行大数据统

计原价格,现价格,电子书价格与销售量分析,可以很好的了解哪种图书更受

欢迎和多编写哪种图书更有销售潜能。

1

湖南商务职业技术学院毕业设计

1.2开发环境与工具

1.2.1Python简介

Python是荷兰人吉多·范罗苏姆,中国程序员称其为“龟叔”在1990年初

开发的一种解释型编程语言。

在我们编程时,Python提供的数据结构往往时最高效的,以及它具有简单

有效的面向对象编程功能。Python拥有的语法和动态类型,和解释语言的性质,

使其成为在大多数平台上编写脚本和快速开发应用程序的编程语言,Python中

不仅添加了许多ABC语言没有的功能,同时,还为其设计了各种丰富而强大的

库,利用这些Python库,程序员可以把使用其它语言制作的各类模块尤其是C

语言和C++很轻松地“黏连”在一起,因此Python又常常被称为“胶水”语言。

在这个大数据时代,大数据分析是关键技术。Python就是一款优秀的大数

据分析软件,Python长期以来一直被用来编写网络爬虫。谷歌和其他搜索引擎

公司使用Python语言编写网络爬虫[2]。

如今Python已经发展成一门广泛使用的高级编程语言。Python这种编程语

言一直以来都算的上是一种极简主义的代表,在阅读一段排版优美的Python代

码时,就好像在阅读一个英文段落,由于非常贴近人类语言,所以人们经常说

Python是一种具有伪代码特征的编程语言。它可应用于人工智能、软件开发、

大数据分析和数据可视化等多种领域。它的特点是开源即免费、拥有丰富的库、

语法简单、支持跨平台而且可移植性强。

1.2.2MySQL

MySQL是一个关系型数据库管理系统,由瑞典MySQLAB公司开发,属于

Oracle旗下产品。MySQL数据库是最流行且最受欢迎的关系型数据库管理系统

之一,就于WEB应用程序而言,MySQL是最好的RDBMS(RelationalDatabase

ManagementSystem,关系数据库管理系统)应用软件之一。

MySQL因其快速的开源数据库速度、易用性以及对SQL和网络的支持而被称

为“最受欢迎的开源数据库”,可移植,费用低等特点,越来越成为中小企业

应用数据库的首选。现在大家的生活几乎都离不开数据库,如果没有数据库,

很多事情都会变得非常棘手,也许根本无法做得到。

1.2.3JupyterNotebook简介

Jupyter笔记本(以前称为IPythonNotebook是一款交互式笔记本,支持

2

湖南商务职业技术学院毕业设计

运行40多种不同的编辑器语言

JupyterNotebook的本质是一个网络应用程序,它有助于创建和共享程序

文档,也支持数学方程,实时代码,可视化和转型和降价。它的主要用途包括:

机器学习和转换,数值模拟,统计建模,数据清理等Error!Referencesourcenotfound.。

用户可以通过电子邮件,Dropbox,GitHub和JupyterNotebookViewer,将

JupyterNotebook分享给其他人。

在JupyterNotebook中,代码可以实时地生成图像,视频,LaTeX和

JavaScript。Jupyternotebook特别适合做数据处理,其用途可以包括数据

清理和探索、可视化、机器学习和大数据分析。

我们会用到JupyterNotebook进行数据可视化分析,包括Jupyter

Notebook的基础操作、使用pandas进行数据分析、使用Matplotlib绘图等。

1.2.4PyCharm和Python第三方库简介

PyCharm是一种PythonIDE(集成开发环境),具有一套完整的开发工具,

可以帮助用户在使用Python语言开发时提高其工作的效率,例如调试、项目管

理、代码跳转、单元的测试、版本的控制等等。此外,这种类型的IDE还提供

了一些高级功能,以支持Django框架下的专业web开发。

requests:requests是一个很实用的PythonHTTP客户端库,爬虫和测试

服务器响应数据时经常会用到,requests是Python语言的第三方的库,专门用

于发送HTTP请求的,requests.get()的作用是请求目标网站,它的类型是

HTTPresponse。

parsel:是一个Python的第三方库,相当于CSS选择器+XPath+re,

parsel由scrapy团队开发,是将scrapy中的parsel独立抽取出来的,可以轻

松解析html,xml内容,获取需要的数据。

NumPy:NumPy是Python的一种开源的数值计算扩展,NumPy(Numeric

Python)提供了许多高级的数值编程工具,例如,精确的算术库、向量处理和

矩阵数据类型,它是专门为进行严格的数字处理而创建的[3]。

pandas:是Python的一个数据分析包,数据分析并保存为CSV文件,Pandas

提供了大量的功能和方法,使我们能够快速方便地处理数据。Pandas是字典形

式,基于NumPy创建。

Matplotlib:绘图库,通过Matplotlib,开发者可以仅需要几行代码,便

可以生成绘图,直方图,功率谱,条形图,错误图,散点图等。

3

湖南商务职业技术学院毕业设计

2需求分析

2.1可行性需求分析

1.技术可行性

使用Python网络爬虫可以爬取当当网有关的图书的数据requests,parsel

等在爬取数据这方面对于爬虫领域有着巨大的优势。使用NumPy,pandas把爬

取的数据进行存储为CSV文件、清洗、整理通过Python第三方库进行数据分析、

与数据可视化的展示。Matplotlib是一种简单易使用的数据可视化第三方库,

可以可视化为条形图,折线图,扇形图,给客户一目了然的效果。

2.项目可行性

得益于现代网络及越来越智能越来越便携的移动终端像手机,电子书等等,

网上售卖与网上阅读越来越受欢迎。这个项目通过深入分析目前当当图书销售

网的销售状况,价格分析,来查找哪种图书销售更多,发掘出顾客喜爱的图书

类型,通过合理的促销方式提升销售额,另一方面可以让作者创造出更多大众

喜欢的,受大家欢迎的图书作品。

2.2采集目标功能分析

使用Python对当当图书网销售数据分析可以对当当图书销售情况进行分

析预测,可以用来帮助当当网更好的分析图书销售情况,改进图书的内容,促

进当当网图书的阅读量,和销售量。

本次从当当图书销量网爬出了500条数据,主要内容是标题,推荐,评论

数,作者,出版时间,出版社,原价,售价,折扣价,电子书价格,详情页。

把这些数据进行清洗,整理之后,可以按价格数据特征进行分类,可以统计出,

位于哪个价格的图书更能让大众接受,售价和原价之间差距越大,销售情况如

何,电子书是否更受大众的欢迎。图书种类众多,通过推荐,创建词云图可以

在一堆图书中选取到好书,热卖书等等。

2.3关键技术分析

2.3.1网络爬虫技术

网络爬虫(也称为网络蜘蛛,网络机器人,更常被称为网页追逐器),是

一种根据某些规则自动从万维网获取信息的程序或脚本。网络爬虫也根据其工

4

湖南商务职业技术学院毕业设计

作原理和系统结构进行划分,大致可以分为这四种类型:深层网络爬虫、聚焦

网络爬虫、增量网络爬虫、通用网络爬虫。

网页的抓取策略可以分为三种,最佳优先、深度优先和广度优先。要是说

哪两种最常用,那常用的方法是广度优先和最佳优先,因为深度优先在许多情

况下会导致爬行问题。

爬虫好似一种爬行器,主要针对网络网页,也被称为网络蜘蛛,它可以自

动浏览网络中的信息,因此也可以说成是一种网络机器人。它们从前几年来就

一直被广泛用于互联网搜索引擎或其他类似网站之中,以获取或更新这些网站

的内容和检索方式。它们可以自动收集他们可以访问到的所有页面内容[4],这样

做只是为了方便程序做下一步的处理。一个网络蜘蛛就是一种机器人,或者软

件代理。大体上,它开始时需要访问URL链接的,这些链接可以称为种子。爬

虫程序在访问这些链接时,它可以识别出这些页面的所有超链接,并将它们添

加到此URL列表中,该列表可以称为搜索边界。根据特定策略重复访问这些URL

[5],网络爬虫领域现在还处于早期的拓荒阶段,虽然已经由互联网行业自身协议

建立起一定的道德规范,但法律部分还在建立与完善中。

目前,多数网站允许爬虫爬取的数据用于个人使用或者科学研究,但如果将

爬取的数据用于其他用途,尤其是转载或者商业用途,则依据各网站的具体情

况有不同的后果,严重的将会触犯法律或者引起民事纠纷。

2.3.2文件存取技术

Python数据存储技术,如图2-1所示。

图2-1Python内置方法

Python中CSV模块技术,如图2-2所示。

图2-2CSV模块方法

5

湖南商务职业技术学院毕业设计

2.3.3可视化技术

可视化主要包括科学计算可视化、数据可视化和信息可视化。数据可视化

是利用计算机图形学和图像处理技术,关于数据表现形式的科学技术研究,如

何将海量的数据转换成可视化图形是数据分析的必修课。Matplotlib和

Pyecharts是Python中常用的两个数据可视化库,它们功能强大,可以轻松绘

制折扣图、条形图、柱状图、散点图等基本图形,以及日历图、树状图、聚类

图等复杂图形[6]。

传统的数据可视化工具只是将数据组合起来,通过不同的呈现方式提供给

用户,以发现数据之间的关联信息。近几年来,随着云计算和大数据时代的到

来,数据可视化产品不再满足于使用传统的数据可视化工具在数据仓库中提取、

汇总和简单呈现数据。新的数据可视化产品必须满足互联网爆炸的大数据需求,

必须快速收集、过滤、分析、总结、呈现决策者所需的信息,并根据新数据实

时更新,这就是大数据可视化技术[7]难点。

数据可视化是在项目中对数据进行展示是非常有必要的,很多问题讨论所

涉及的主题都是包括多个元素,其中一个元素会影响到多个其他元素,如果不

采取可视化,则无法看到全貌、也无法进行真正的讨论,特别是对于大规模的

数据集建立数据可视化之后会简化复杂性,增强审视,还可以使分析的数据任

务更清晰,更美观让人理解起来感觉到很轻松。

3数据采集

3.1采集页面分析

在电脑上打开谷歌浏览器,在搜索栏中输入:图书畅销榜-近24小时畅

销书排行榜-当当畅销图书排行榜,然后点击搜索,观察图3-1,其中URL为:

/books/bestsellers/01.00.00.00.00.00-24hours

-0-0-1-1;然后点击页面下方的分页按钮,同时观察URL,发现URL最后一个数

字随着页数变化而变化如图3-2所示。

6

湖南商务职业技术学院毕业设计

图3-1数据网址页面

图3-2数据网址页面

单机右键点检查调出开发者工具,刷新页面,利用全局搜索工具定位所需

数据位置,点击开发者工具上面的Headers字段,分析这是个什么请求,发现

这个是一个get请求,如图3-3所示。

图3-3数据网址页面

7

湖南商务职业技术学院毕业设计

我需要把圈红的数据爬取下来,并保存到CSV文件中,如图3-4所示。

图3-4数据内容

3.2字段分析

用鼠标定位到我们所需要的数据所在的位置,调出全局搜索框搜索,点击

数据headers,找到ResponseHeaders,看到Context-Type如图3-5所示,可以

看到这是一个text/html。点击preview,显示乱码,但这并不影响我们把需要

的数据存储为CSV文件。

图3-5分析数据类型页面

8

湖南商务职业技术学院毕业设计

3.3编程实现

首先需要导入所需库,如图3-6所示。

图3-6导入所需库页面

设置请求头,伪装成浏览器访问服务器,用循环存储所有网页保存到url,

取前26页数据,如图3-7所示。

图3-7爬取url,伪装为浏览器页面

调出开发者工具,点击代码的左上角的箭头选中需要爬取的字段,然后右

击自动跳转的区域,选择copy,然后选择copyselector,如图3-8所示。

图3-8使用selector获取字段解析页面

9

湖南商务职业技术学院毕业设计

使用Pycharm工具编写代码获取数据,如图3-9所示。

图3-9使用selector获取数据代码实现页面

把爬取的数据存储为CSV文件,共500条数据,如图3-10所示。

图3-10数据存储内容页面

10

湖南商务职业技术学院毕业设计

4数据清洗与处理

数据的不断剧增是大数据时代的显著特征,大数据必须经过清洗,分析,

可视化才能体现其潜在的价值。由于在众多数据中总是存在许多脏数据,即不

完整,不规范,不准确的数据,因此就需要进行数据清洗,彻底清除脏数据,

包括检查数据一致性,处理无效值和缺失值等,从而提高数据质量。

前期采集到的数据,或多或少存在一些瑕疵和不足,比如数据缺失,极端

值,数据格式不统一等问题。因此,在分析数据之前需要对数据进行预处理,

包括数据的清洗,合并,重塑与转换。Pandas专门为数据预处理提供了许多功

能和方法,例如清理、合并和重塑异常数据来替换它。

数据清理是一项复杂而乏味的任务,但确实是数据分析过程中最重要的环

节,我们可万万不能小觑[8]。数据清洗的目的在于提高数据质量,将脏数据清

洗干净,使原数据具有完整性,唯一性,权威性,合法性,一致性等。

4.1数据清洗

打开爬取下来的原数据如图4-1所示。

图4-1原数据页面

11

湖南商务职业技术学院毕业设计

进行数据清洗与处理如图4-2所示。

图4-2数据清洗与处理页面

缺失值处理如图4-3所示。

4-3缺失值处理页面

看是否还有缺失值如图4-4所示,显示无缺失值。

图4-4判断缺失值页面

12

湖南商务职业技术学院毕业设计

4.2数据储存

数据存储的方式很多,其中CSV是一种通用且相对简单的文件格式,被用

户、企业和科学界广泛使用。最广泛的应用是在程序之间传输表数据,这个应

用是我们计算机学习者,必须要了解的,这些程序本身以不兼容的格式运行,

如果需要存储较大的数据信息,数据库是最好的存储数据方式之一[9]这次项目

是先把爬取的数据存为CSV文件,再保存到MySQL数据库中如图4-5所示。

图4-5数据存储页面

4.3编程实现

创建数据库,修改字符集为utf8,如图4-6所示。

图4-6创建数据库页面

创建名为dlz的表,如图4-7所示。

图4-7创建表

13

湖南商务职业技术学院毕业设计

导入本地CSV数据到,MySQL表里面,如图4-8所示。

图4-8导入数据

5数据统计与分析

5.1数据准备

导入相关库,如图5-1所示。

图5-1数据准备页面

使用pandas加载源数据,如图5-2所示。

图5-2数据加载页面

使用函数对书籍原价进行排序,如图5-3所示。

图5-3原价排序

14

湖南商务职业技术学院毕业设计

使用函数统计书籍原价价格区间,如图5-4所示。

图5-4原价价格区间

使用函数统计书籍售价价格区间,如图5-5所示。

图5-5售价

使用函数统计出版社分类,如图5-6所示。

图5-6出版社分类

统计电子书占比,如图5-7所示。

图5-7电子书占比

统计书籍评论数最高的前20条数据,如图5-8所示。

图5-8评论数

15

湖南商务职业技术学院毕业设计

5.2数据展示

5.2.12022年畅销书图书的原价价格分布区间

对2022年各个月畅销榜图书的原价价格数据进行可视化后,绘制成玫瑰图,

如图5-9所示。

图5-9原价数据展示

使用排序函数,把清洗处理后数据按原价字段进行排序,然后使用range

函数按一定的区间进行划分,再统计每个区间的数量,使用Pyecharts模块绘

制成玫瑰图,效果如图5-9所示,从上图可以清楚的看出2022年销售前500的

图书销售最多的价格区间主要分布在0-50元,其中前500中有310本书的价格

在0-50之间,说明在书籍的购买中,价格是很大的影响因素,一般便宜且有价

值的书,是比较受欢迎的,大家在书籍上的水平不会太高。其次是51-100的价

格销售量比较高,500本中有135本,图书价格在400以上的图书销售量最低,

500本中只销售6本。一般只要有好的影响,能让人感触良多,不需要华丽的包

装,这样的书籍,往往是大众所最需的。

5.2.22022年畅销书图书的售价价格分布区间

对售价进行分区处理后进行可视化,得到环形图,如图5-10所示。

16

湖南商务职业技术学院毕业设计

图5-10售价数据展示

随着社会经济发展水平越来越高,人们从原先的一味追求物质生活,到开

始慢慢地重视精神生活。人们对书的需求也越来越大,读书也成为人们日常生

活中的一部分,图书的销量也越来越多。我使用和得到原价数据一样的方式得

到售价数据后,绘制成了环形图,如图5-10所示,上图浅绿色部分是售价价格

在0-50元的区间的销售图书占比,占比71.4%,售价在400以上的图书在销售

前500的图书中只占了1%,在环形图中显示的是蓝色区域,说明我们图书的销

售量和价格有很大的联系,价格便宜且内容丰富的书,销售的量可能会越多。

5.2.3各个出版社销售书籍数量分析

通过对各个出版社书籍数量的统计分析,得到柱状图,如图5-11所示。

图5-11出版社书籍数量数据展示

17

湖南商务职业技术学院毕业设计

经常买书的人应该会看到,一本书的背脊上通常印有两个信息;出版社和

出版公司。出版公司一般印在书脊的上方,出版社一般印在下方,从图5-11出

版地排名可以得知,当当图书网销量前500本中,有26本是北京联合出版有限

公司出版的,是销售图书最多的出版社,超过平均出版社的两倍多,而其他出

版社的出书数量相差不是很大。说明北京联合出版有限公司是有很名且主要的

出版社。

5.2.4电子书占比进行统计

有无电子书占比,如图5-12所示。

图5-12电子书版本占比

随着电子设备的不断发展,电子书也占去了一部分纸质图书的销量。如图

5-12所示,从2022年销售量排名前500本图书中,有43%的图书是有电子书的,

还有一大部分是没有电子书占比57%,由于网上阅读越来越受欢迎,电子书也有

发展的趋势,可以把网上售卖的图书,都加上电子书,并收取比购买纸质书便

宜一些的费用,这样人们就可以随时可以看自己想看的书籍,不用带着书走了。

5.2.5依据书籍评论数排名进行统计

排名最高的前20条评论书籍,绘制成柱状图,如图5-13所示。

18

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论