大数据基础与实务(商科版)Python软件操作手册2_第1页
大数据基础与实务(商科版)Python软件操作手册2_第2页
大数据基础与实务(商科版)Python软件操作手册2_第3页
大数据基础与实务(商科版)Python软件操作手册2_第4页
大数据基础与实务(商科版)Python软件操作手册2_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实训操作手册

1

目录

一、“案例五单项实训-数据可视化”.................1

任务一“类别比较图表”之柱形图..................................................1

(一)实验讲解:..............................................................1

(二)实训操作:..............................................................4

任务二“类别比较图表”之堆积柱形图...............6

(一)实验讲解:..............................................................7

(二)实训操作:..............................................................9

任务三“类别比较图表”之条形图..................................................9

(-)实验讲解:.............................................................10

(二)实训操作:.............................................................13

任务四“类别比较图表”之词云图.................................................13

(一)实验讲解:.............................................................14

(二)实训操作:.............................................................16

任务五“时间序列图表”之折线图.................................................17

(一)实脸讲解:.............................................................17

(二)实训操作:.............................................................20

任务六”数据关系图表”之散点图.................................................20

(一)实验讲解:.............................................................21

(二)实训操作:.............................................................24

任务七“数据分布图表”之直方图.................................................24

(一)实验讲解:.............................................................25

(二)实训操作:.............................................................28

任务八“数据分布图表”之箱线图.................................................28

(一)实验讲解:.............................................................29

(二)实训操作:.............................................................32

任务九“局部整体图表”之饼图.....................32

(一)实验讲解:.............................................................33

(二)实训操作:.............................................................36

2

一、“案例五单项实训卜数据可视化”

任务一“类别比较图表”之柱形图

在【案例选择】下拉列表中,选择“案例五单项实训-数据可视化”,点击

任务一按钮,进入“类别比较图表”之柱形图任务,如图1-1。

图1-1柱状图分析

在任务一中,分析哪些类别的兰花比较畅销,通过对不同类别的兰花的销量

统计,查找出产销的品类。

(一)实验讲解:

1.理论部分

(1)简介

柱形图用于显示一段时间内的数据变化或显示各项之间的比较情况。在柱形

图中,类别型或序数型变量映射到横轴的位置,数值型变量映射到矩形的高度。

控制柱形图的两个重要参数是:“系列重叠”和“分类间距”。“分类间距”控

制同一数据系列的柱形宽度,数值范围为[0.0,1.0];“系列重叠”控制不同数

据系列之间的距离,教值范围为[-1.0,1.0]。柱形图包括单数据系列柱形图、

多数据系列柱形图、堆积柱形图和百分比堆积柱形图共4种常见类型。但是,绘

制柱形图和条形图系列的最大潜在问题就是排序。

1

(2)Pytlion绘制柱形图

使用matplotlib提供的bar()函数绘制柱状图。

Bar函数的常用参数:

参数接收值说明默认值

Xarrayx轴数据;

柱形图的高度,也就是y轴的数

array

height值;

alphafloat柱形图的颜色透明度;1

widthfloat柱形图的宽度;0.8

color

string

(facecolor)柱形图填充的颜色;随机色

edgecolorstring图形边缘颜色None

图例名称,解释每个图像代表的

string

label含义无

linewidth

(linewidths/数值边缘or线的宽度1

Iw)

2.实验设计

2

(1)导入库和数据

导入matplotlib库与pyplot模块,由于matplotlib库默认不显示中文,

使用rcparam参数解决matplot中中文乱码,然后读取服务器中内置的csv格式

的“淘宝兰花数据集”。

(2)设置轴数据

选定用于分析的横纵坐标数据,将“植物类别”设为X轴,“付款人数”设

为Y轴,对“植物类别”进行分组并统计每种类别的“付款人数”总和。

(3)创建画布与子图(柱形图)

创建画图的画布,并在画布中添加柱形图

(4)设置图形元素

对柱形图的标题、横纵坐标轴轴标题进行命名,显示数据标签,设置横坐

标刻度文字的显示效果。

(5)生成图片

设置生成图片的路径和名称,生成图片。

(6)可视化分析

通过下图可知,购买人数多的为草本花卉类型的产品,但是根据花卉的分类,

兰花原就属于草本花卉,属于草本花卉分类下的宿根花卉。但是其他品种也是销

量的,因此,通过分析应该进行数据反查,可通过在电商商城查看其他类别的的

拦花是什么,为何包含在其他分类中。

3

选存

击保

单,

②钮o

。按

目存

项保9

”击0

名念

点1

命后1

未成

“完

个③

一,

载置目

图加项

形设

柱统】加4

系名添

2

,命-

目重1

项【图

增行

新进

,目

钮项

M1"

按对M上

】,

:建键

目o写

作新右2

------项-填

000000【l

000000操加标数

000000t

000000击图g

训鼠W

208642添帆J参

11怜o

实点,如K

任r.t.

58Yt

)目)

1①,g2

二项目期(

(中项

①点击【任务描述】预计根据下发的教案,完成数据等挖掘。②点击【数据

向导】,弹出关键词替换弹窗,如图1-3。③对每一关键词填入正确的参数,④

然后点击确认,将参数传入系统代码模板中,如图「4。⑤点击【保存】按钮,

保存代码数据。

图1-3数据向导

ET公理财处城|琏理

开发语言:Python*新罐保存执行注明装名政霸向分》出数鬣

.or,^ndwarpd

xaport*«tplctlib.pyplatgpit

>)2朗行代码第决ph中文!!他向g

pit.r<P*riarffont.trnr-ttrif)・「玄皿/】9用奈正常1!示中文标条

«—«i—QBihjiw*]*Faltt•RM£*B*|lW

■QUK

MinjvxrllexUwittamtoxt):

pith=•mat-oldexP/hJ/AW兰花nten.z

dvta•p4eH.cwCpath)

dfta-dMtC付IK人IT].<r««i>y((dflit(3IWA9f'D).fu><)

dMdind”・vilow

dati.vilwe

cfe^a.dictdiet(sip(kdy>>

&-aorted<d»da_dict.itmsO,key-lwbdakv:(kvtl)4kv(0))>rerglrue)

70

30

仪=pit.Figure0

fcrd5dd:

<L<>ptnd(d[0]>

y.L«»pend(d[l)>

图1-4数据向导/输入参数

3.代码执行

完成参数填写且保存后,即可提交代码至服务器进行执行,点击【执行】按

钮,系统提示“已执行,请稍后查看执行结果”。

5

R出处瞳KKtarr

w/y①,行注母费名ttBAW

iwrtpanelsispd

ui^rtB#plotlib.pyplotarpit

•6所代ga至pit中文!!笊的间曾

pit.rcPanafCfcvt.smx~»rif*]■rSiaBti'】•用宗正案显示伞文悚M

pit.rcPuMur«e«.umoodejunus*)=Falset用♦王京打

defBnfLhmdler(event,CCMCKQGG〜

问h'(D»teoid.rf<h)/-SIMT,•fKHWknWyn

d>ta二pd.xeM_CRSsth)

如,-<16,(忖*人曲】・口0^(【仁,1植物黄期]】)・必0

&-dMalr«S».viloet

dM,nhnc

d*lawdict&ct(zip,d«.<fy))

Krted《d»da_dxrk«)rIwbdakv:(kv(ljvkv(O))rTrw>

-D

-□

^lt.Fx(uc«O

dinddi

x_).vpfnd(d[O)>

yi・acpcrdfdfl])

图1-5代码执行

4.查看结果

执行代码后,①鼠标单击选中项目然后鼠标右键,②点击【查看结果】,弹

出结果查看弹窗,如图『6。

DB0•:::O

■«h■««««:

Bgas

期mcwfli

”曾斐士死烫期妁铺■统计“

120000■

@

100000•

Q

80000

©VMJ6JV

"60000

40000

图1-6查看结果

任务二“类别比较图表”之堆积柱形图

点击任务二按钮,进入“类别比较图表”之淮积柱形图,如图l-7o

6

图1-7堆积柱状图分析

在任务二中,对消费者的偏好进行交叉分析,统计分析消费者对于各类兰花

是否包含花苞/花箭的偏好。

(一)实验讲解:

1.理论部分

(1)简介

堆积柱形图显示单个项目与整体之间的关系,它比较各个类别的每个数值所

占总数值的大小。堆积柱形图以二维垂直堆积矩形显示数值,要注意以下三点:

①柱形图的X轴变量一般为类别型,Y轴变量为数值型。所以要先求和得

到每个类别的总和数值,然后对数据进行降序处浬。

②如果图例的变量属于序数型,如Fair、Good、VeryGood、Premium和

Ideal(一般、好、非常好、超级好、完美)属于有序型,则需要按顺序显示图

例。

③如果图例的变量属于无序型,则最好根据其均值排序,使数值最大的类

别放置在最下面,最靠近X轴,这样很容易观察每个堆积柱形内部的变量比例。

(2)Python绘制堆积柱形图

使用matplotlib提供的柱形图绘制函数bar(),设置函数中的bottom参数

就可以绘制堆积柱形图。

7

2.实验设计

(1)导入库和数据

导入matplotlib库与pyplot模块,由于matplotlib库默认不显示中文,

使用rcparam参数解决matplot中中文乱码,然后读取服务器中内置的csv格式

的“淘宝兰花数据集”。

(2)设置轴数据

将“植物品种”作为X轴变量,将“付款人数”作为Y轴变量,先统计不

同品种的兰花的数量,将每一品种兰花根据“是否带花苞/花箭”分为两类,统

计每种“包含花苞/花胃”和“不包含花苞/花箭”兰花的付款人数。

(3)创建画布与子图(柱形图)

创建画图的画布,并在画布中添加柱形图,在同一横坐标刻度画不同品种

的色花包含于与不包含花苞/花箭时付款人数的统计样子,将统一刻度的是否包

含花苞/花箭这两个柱子叠加,形成堆积柱形图。

(4)设置图形元素

对柱形图的标题、横纵坐标轴轴标题进行命名,显示数据标签,设置横坐

标刻度文字的显示效果。

(5)生成图片

设置生成图片的路径和名称,生成图片。

(6)可视化分析

通过下图可知,购买人数多的都是不带花苞/花箭的兰花产品,所值在产品

选品时,可尽量集中在不带花苞/花箭的兰花产品。

8

堆积柱状图(是否带花苞/花箭)

否是

80000-

60000-

40000-

20000-

鼻哼是:828

杏山94否.475是:277是:230是:0是:320是:0

否:365否:278杏:483否:91否:28,

植物品种

(二)实训操作:

操作方法与“任务一”的操作一致,在此不再赘述。注意:操作时,需在

“任务二”中操作,不然会导致实训内容不正确,

任务三“类别比较图表”之条形图

点击任务三按钮,进入“类别比较图表”之条形图,如图1-8。

9

的1三:M别比晒,•之果时

敷密处理

•TiMaiit^a।侬旧#

开发语言:Python•VvS便〃版行BKAW中总数总

图1-8”类别比较图表”之条形图

在任务三中,对市场的上架品牌进行分析,确定行业领头羊,为以后的经典

分析与学习奠定基础。

(一)实验讲解:

1.理论部分

(1)简介

条形图与柱形图类似,几乎可以表达相同多的数据信息。在条形图中,类别

型或序数型变量映射到纵轴的位置,数值型变量映射到矩形的宽度。条形图妁柱

形变为横向,从而导致与柱形图相比,条形图更加强调项目之间的大小对比。尤

其在项目名称较长以及数量较多时,采用条形图可视化数据会更加美观、清晰,

如下图所示。

10

F<*K«­.____

Gennanv

)€8-i*.SHHB

Sw*dM-

0SWIS

Renwns

(a)单数据系列条形图(b)多数据系列条形图

(c)堆积条形图(d)百分比堆积条形图

(2)Python绘制条形图

用matplotlib包绘制的条形图中,使用plt.barh()函数替代柱形图绘制

函数plt.bar(),其他语法与柱形图的绘制基本一致,只是X轴变成数值型坐

标,而Y轴变成类别型坐标。

参数接收值说明默认值

yarrayy轴的数值

widtharrayx轴的数值

alphafloat条形的颜色透明度;1

heightfloat条形的宽度;0.8

color

string条形填充的颜色;随机色

(facecolor)

edgecolorstring条形边缘颜色None

图例名称,解释每个图像代

stringNone

label表的含义

linewidth

(linewidths/数值边缘or线的宽度1

Iw)

11

2.实验设计

(1)导入库和数据

导入matplotlib库、pyplot模块,由于matplotlib库默认不显示中文,

使用rcparam参数解决matplot中中文乱码,然后读取服务器中内置的csv格式

的“淘宝兰花数据集”。

(2)设置轴数据

将“评论数”作为X轴变量,将“品牌”作为Y轴变量,统计每一品睥的

评论数,对数据进行排序,并选取前20的数据。

(3)创建画布与子图(条形图)

创建画图的画布,并在画布中添加条形图。

(4)设置图形元素

对条形图的标题、横纵坐标轴轴标题进行命名,设置横坐标刻度文字的显

示效果。

(5)生成图片

设置生成图片的路径和名称,生成图片。

(6)可视化分析

通过下图可知,购买人数较多且评论数量多的前20个品牌(店铺)如下图

显示,在后续的选品、店铺装修、店铺活动等可参照行业标杆。

12

条形图

评论数

(二)实训操作:

操作方法与“任务一”的操作一致,在此不再赘述。注意:操作时,需在

“任务三”中操作,不然会导致实训内容不正确,

任务四“类别比较图表”之词云图

点击任务四按钮,进入“类别比较图表”之词云图,如图l-9o

图1-9词云图分析

13

在任务四中,对兰花商品的功能进行分析,通过对“功能”描述进行词云分

析,了解市场中客户对拦花的功能需求。

(一)实验讲解:

1.理论部分

(1)简介

词云图是通过使每个字的大小与其出现频率成正比,显示不同单词在给定文

本中的出现频率,然后将所有的字词排在一起,形成云状图案,也可以任何格式

排列:水平线、垂直列或其他形状,也可与显示获分配元数据的单词,在词云图

上使用颜色通常都是毫无意义的,主要是为了美观,我们可以用颜色对单词进行

分类或显示另一个数据变量。词云图通常用于网站或博客上,用于描述关键词或

标签,也可用来比较两个不同的文本。

词云图虽然简单易懂,但是有一些重大缺点,①较长的字词会引人注意;②

字母含有很多升部/降部的单词可能会受到人关注;③分析精度不足,较多时候

是为了美观。

(2)Python绘制词云

词云图可以用过wordcloud包的Wordcloud()函数实现,不仅可以实现方形

的词云图,还能借助PIL包的image。函数导入二值化的图像,从而实现不同形

状的词云图。在做中文文本分析时,可以借助jieba包做分词处理,然后使用

Wordcloud()函数做文本的统计分析。

常用参数名称接收值说明默认值

Font_pathstring字体路径

widthint画布宽度400像素

heightint画布高度200像素

prefer_horizo词语水平方向排

float0.9

ntal版出现的频率

如果参数为空,

则使用二维遮罩

masknd-arrayorNoneNone

绘制词云。如果

mask非空,设置

14

的宽高值将被忽

略,遮罩形状被

mask取代。除全

白(ttFFFFFF)的

部分将不会绘

制,其余部分会

用于绘制词云

按照比例进行放

scalefloat1

大画布

显示的最小的字

min_font_sizeint(4

体大小

字体步长,如果

步长大于1,会加

font_stepint快运算但是可能1

导致结果出现较

大的误差

要显示的词的最

max_wordsnumber200

大个数

background_co

colorvalue背景颜色black

lo

显示的最大的字

max_font_sizeintorNoneNone

体大小

2.实验设计

(1)导入库和数据

导入wordcloud库与jieba库,然后读取服务器中内置的csv格式的“淘宝

兰花数据集”。

(2)设置待分析数据

选择“功能”为分析字段,对语句进行切分

15

(3)词云图参数设置

添加词云绘图函数,设置词云的背景颜色与宽高

(4)词云图片设置

将词云图按精确噗式输出

(5)生成图片

设置生成图片的路径和名称,生成图片。

(6)可视化分析

从产品的词云可知,商家在宣传时,都喜欢使用“美观”、“提神”、“防

辐射”、“去甲醛”等字眼,说明大多数商家对客户分析时,都得出过客户较为

关注这些产品。

X长

趣空鸣

加湿¥n

夫为

典A驱蚊防辐射

(二)实训操作:

操作方法与“任务一”的操作一致,在此不再赘述。注意:操作时,需在

“任务四”中操作,不然会导致实训内容不正确,

任务五“时间序列图表”之折线图

16

点击任务五按钮,进入“时间序列图表”之折线图,如图170。

图1-W折线图

在任务五中,对消费者的兰花品种偏好进行分析,通过折线图查找找花种类

与购买人数的关系,从而查看各类拦花的购买人数分布情况。

(一)实验讲解:

1.理论部分

(1)简介

折线图(linechart)用于在连续间隔或时间跨度上显示定量数值,最常用

来显示趋势和关系(与其他折线组合起来)。此外,折线图也能给出某时间段内

的整体概览,看看数据在这段时间内的发展情况。要绘制折线图,先在笛卡儿坐

标系上定出数据点,然后用直线把这些点连接起来。

在折线图中,X轴包括类别型或者序数型变量,分别对应文本坐标轴和序数

坐标轴(如日期坐标轴)两种类型;Y轴为数值型变量。折线图主要应用于时间

序列数据的可视化。(a)为双数据系列折线图,X轴变量为时序数据。

在散点图系列中,曲线图(带直线而没有数据标记的散点图)与折线图的图

像显示效果类似。在曲线图中,X轴也表示时间变量,但是必须为数值格式,这

是两者之间最大的区别。所以,如果X轴变量为数值格式,则应该使用曲线图,

而不是折线图来显示数据。

在折线图系列中,标准的折线图和带数据标记的折线图可以很好地可视化数

17

据。因为图表的三维透视效果很容易让读者误解数据,所以不推荐使用三维折线

图。另外,堆积折线图和百分比堆积折线图等推荐使用相应的面积图,例如,堆

积折线图的数据可以使用堆积面积图绘制,展示的效果将会更加清晰和美观。

多数据系列图

value1

2(X>12CK>32W520072009

MMT

(a)纯色填充(b)颜色映射填充

(2)Python绘制折线图

使用matplotlib包中的pit.plot函数和pit.fill_between()函数可以绘

制折线图。

Plot。函数常用参数包括:

常用参数接收值说明默认值

*argsarrayx轴与y轴对应的数据;

colorstring表示折线的颜色;None

markerstring表示折线上数据点处的类型;None

linestylestring表示折线的类型;——

linewidth数值线条粗细:linewidth=1.=5.=0.31

alpha0~1之间的小数表示点的透明度;None

18

数据图例内容:label'实际数

labelstringNone

据,

2.实验设计

(1)导入库和数据

导入matplotlib库与pyplot模块,由于matplotlib库默认不显示中文,

使用rcparam参数解决matplot中中文乱码,然后读取服务器中内置的csv格式

的“淘宝兰花数据集”。

(2)设置轴数据

选定用于分析的横纵坐标数据,将“植物品种”设为X轴,“付款人数”设

为Y轴,对“植物品种”进行分组并统计每种类别的“付款人数”总和,对统计

数据进行排序。

(3)创建画布与子图(折线图)

创建画图的画布,并在画布中添加折线图。

(4)设置图形元素

对折线图的标题、横纵坐标轴轴标题进行命名,显示数据标签,设置横坐

标刻度文字的显示效果。

(5)生成图片

设置生成图片的路径和名称,生成图片。

(6)可视化分析

通过对植物品种进行分析,从折线图可知,除了兰花和其他这两没有指向性

的描述外,销售比较好的品种主要是蝴蝶兰,在选品时可重点考虑该品种。

19

折线图

植物品种

(二)实训操作:

操作方法与“任务一”的操作一致,在此不再赘述。注意:操作时,需在

“任务五”中操作,不然会导致实训内容不正确,

任务六“数据关系图表”之散点图

点击任务六按钮,进入“数据关系图表”之数点图,如图1-11。

任务六:•之敏郴B

致旧好序散田保存

It处氏]如国

开发语言:Python•新*保存以行注册表名故事向33由数说

20

图1-11散点图分析

在任务五中,对消费者的价格区间偏好进行分析,通过散点图分析价格与付

款人数的关系。

(一)实验讲解:

1.理论部分

(1)简介

散点图(scattergraph,pointgraph,XTplot,scatterchart或者

scattergram)是比较常见的图表类型之一,通常用于显示和比较数值。散点图

使用一系列的散点在直角坐标系中展示变量的数值分布。在二维散点图中,可以

通过观察两个变量的数据分析,发现两者的关系与相关性,如图5-1-1所示。

散点图可以提供3类关键信息:①变量之间是否存在数量关联趋势;②如果存

在关联趋势,那么是线性还是非线性的;③观察是否存在离群值,从而分析这

些离群值对建模分析的影响。

变量/

通过观察散点图上数据点的分布情况,我们可以推断出变量间的相关性。如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论