版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
实训操作手册
1
目录
一、“案例五单项实训-数据可视化”.................1
任务一“类别比较图表”之柱形图..................................................1
(一)实验讲解:..............................................................1
(二)实训操作:..............................................................4
任务二“类别比较图表”之堆积柱形图...............6
(一)实验讲解:..............................................................7
(二)实训操作:..............................................................9
任务三“类别比较图表”之条形图..................................................9
(-)实验讲解:.............................................................10
(二)实训操作:.............................................................13
任务四“类别比较图表”之词云图.................................................13
(一)实验讲解:.............................................................14
(二)实训操作:.............................................................16
任务五“时间序列图表”之折线图.................................................17
(一)实脸讲解:.............................................................17
(二)实训操作:.............................................................20
任务六”数据关系图表”之散点图.................................................20
(一)实验讲解:.............................................................21
(二)实训操作:.............................................................24
任务七“数据分布图表”之直方图.................................................24
(一)实验讲解:.............................................................25
(二)实训操作:.............................................................28
任务八“数据分布图表”之箱线图.................................................28
(一)实验讲解:.............................................................29
(二)实训操作:.............................................................32
任务九“局部整体图表”之饼图.....................32
(一)实验讲解:.............................................................33
(二)实训操作:.............................................................36
2
一、“案例五单项实训卜数据可视化”
任务一“类别比较图表”之柱形图
在【案例选择】下拉列表中,选择“案例五单项实训-数据可视化”,点击
任务一按钮,进入“类别比较图表”之柱形图任务,如图1-1。
图1-1柱状图分析
在任务一中,分析哪些类别的兰花比较畅销,通过对不同类别的兰花的销量
统计,查找出产销的品类。
(一)实验讲解:
1.理论部分
(1)简介
柱形图用于显示一段时间内的数据变化或显示各项之间的比较情况。在柱形
图中,类别型或序数型变量映射到横轴的位置,数值型变量映射到矩形的高度。
控制柱形图的两个重要参数是:“系列重叠”和“分类间距”。“分类间距”控
制同一数据系列的柱形宽度,数值范围为[0.0,1.0];“系列重叠”控制不同数
据系列之间的距离,教值范围为[-1.0,1.0]。柱形图包括单数据系列柱形图、
多数据系列柱形图、堆积柱形图和百分比堆积柱形图共4种常见类型。但是,绘
制柱形图和条形图系列的最大潜在问题就是排序。
1
(2)Pytlion绘制柱形图
使用matplotlib提供的bar()函数绘制柱状图。
Bar函数的常用参数:
参数接收值说明默认值
Xarrayx轴数据;
柱形图的高度,也就是y轴的数
array
height值;
alphafloat柱形图的颜色透明度;1
widthfloat柱形图的宽度;0.8
color
string
(facecolor)柱形图填充的颜色;随机色
edgecolorstring图形边缘颜色None
图例名称,解释每个图像代表的
string
label含义无
linewidth
(linewidths/数值边缘or线的宽度1
Iw)
2.实验设计
2
(1)导入库和数据
导入matplotlib库与pyplot模块,由于matplotlib库默认不显示中文,
使用rcparam参数解决matplot中中文乱码,然后读取服务器中内置的csv格式
的“淘宝兰花数据集”。
(2)设置轴数据
选定用于分析的横纵坐标数据,将“植物类别”设为X轴,“付款人数”设
为Y轴,对“植物类别”进行分组并统计每种类别的“付款人数”总和。
(3)创建画布与子图(柱形图)
创建画图的画布,并在画布中添加柱形图
(4)设置图形元素
对柱形图的标题、横纵坐标轴轴标题进行命名,显示数据标签,设置横坐
标刻度文字的显示效果。
(5)生成图片
设置生成图片的路径和名称,生成图片。
(6)可视化分析
通过下图可知,购买人数多的为草本花卉类型的产品,但是根据花卉的分类,
兰花原就属于草本花卉,属于草本花卉分类下的宿根花卉。但是其他品种也是销
量的,因此,通过分析应该进行数据反查,可通过在电商商城查看其他类别的的
拦花是什么,为何包含在其他分类中。
3
选存
击保
单,
②钮o
。按
目存
项保9
”击0
名念
点1
命后1
未成
“完
个③
一,
载置目
图加项
形设
柱统】加4
系名添
2
,命-
目重1
项【图
增行
新进
,目
Q©
钮项
M1"
按对M上
】,
:建键
目o写
作新右2
------项-填
000000【l
000000操加标数
000000t
000000击图g
训鼠W
208642添帆J参
11怜o
实点,如K
任r.t.
58Yt
)目)
1①,g2
二项目期(
(中项
①点击【任务描述】预计根据下发的教案,完成数据等挖掘。②点击【数据
向导】,弹出关键词替换弹窗,如图1-3。③对每一关键词填入正确的参数,④
然后点击确认,将参数传入系统代码模板中,如图「4。⑤点击【保存】按钮,
保存代码数据。
图1-3数据向导
ET公理财处城|琏理
开发语言:Python*新罐保存执行注明装名政霸向分》出数鬣
.or,^ndwarpd
xaport*«tplctlib.pyplatgpit
>)2朗行代码第决ph中文!!他向g
pit.r<P*riarffont.trnr-ttrif)・「玄皿/】9用奈正常1!示中文标条
«—«i—QBihjiw*]*Faltt•RM£*B*|lW
■QUK
MinjvxrllexUwittamtoxt):
pith=•mat-oldexP/hJ/AW兰花nten.z
dvta•p4eH.cwCpath)
dfta-dMtC付IK人IT].<r««i>y((dflit(3IWA9f'D).fu><)
dMdind”・vilow
dati.vilwe
cfe^a.dictdiet(sip(kdy>>
&-aorted<d»da_dict.itmsO,key-lwbdakv:(kvtl)4kv(0))>rerglrue)
70
30
仪=pit.Figure0
fcrd5dd:
<L<>ptnd(d[0]>
y.L«»pend(d[l)>
图1-4数据向导/输入参数
3.代码执行
完成参数填写且保存后,即可提交代码至服务器进行执行,点击【执行】按
钮,系统提示“已执行,请稍后查看执行结果”。
5
R出处瞳KKtarr
w/y①,行注母费名ttBAW
iwrtpanelsispd
ui^rtB#plotlib.pyplotarpit
•6所代ga至pit中文!!笊的间曾
pit.rcPanafCfcvt.smx~»rif*]■rSiaBti'】•用宗正案显示伞文悚M
pit.rcPuMur«e«.umoodejunus*)=Falset用♦王京打
defBnfLhmdler(event,CCMCKQGG〜
问h'(D»teoid.rf<h)/-SIMT,•fKHWknWyn
d>ta二pd.xeM_CRSsth)
如,-<16,(忖*人曲】・口0^(【仁,1植物黄期]】)・必0
&-dMalr«S».viloet
dM,nhnc
d*lawdict&ct(zip,d«.<fy))
Krted《d»da_dxrk«)rIwbdakv:(kv(ljvkv(O))rTrw>
-D
-□
^lt.Fx(uc«O
dinddi
x_).vpfnd(d[O)>
yi・acpcrdfdfl])
图1-5代码执行
4.查看结果
执行代码后,①鼠标单击选中项目然后鼠标右键,②点击【查看结果】,弹
出结果查看弹窗,如图『6。
DB0•:::O
■«h■««««:
Bgas
期mcwfli
”曾斐士死烫期妁铺■统计“
120000■
@
100000•
Q
80000
©VMJ6JV
"60000
40000
图1-6查看结果
任务二“类别比较图表”之堆积柱形图
点击任务二按钮,进入“类别比较图表”之淮积柱形图,如图l-7o
6
图1-7堆积柱状图分析
在任务二中,对消费者的偏好进行交叉分析,统计分析消费者对于各类兰花
是否包含花苞/花箭的偏好。
(一)实验讲解:
1.理论部分
(1)简介
堆积柱形图显示单个项目与整体之间的关系,它比较各个类别的每个数值所
占总数值的大小。堆积柱形图以二维垂直堆积矩形显示数值,要注意以下三点:
①柱形图的X轴变量一般为类别型,Y轴变量为数值型。所以要先求和得
到每个类别的总和数值,然后对数据进行降序处浬。
②如果图例的变量属于序数型,如Fair、Good、VeryGood、Premium和
Ideal(一般、好、非常好、超级好、完美)属于有序型,则需要按顺序显示图
例。
③如果图例的变量属于无序型,则最好根据其均值排序,使数值最大的类
别放置在最下面,最靠近X轴,这样很容易观察每个堆积柱形内部的变量比例。
(2)Python绘制堆积柱形图
使用matplotlib提供的柱形图绘制函数bar(),设置函数中的bottom参数
就可以绘制堆积柱形图。
7
2.实验设计
(1)导入库和数据
导入matplotlib库与pyplot模块,由于matplotlib库默认不显示中文,
使用rcparam参数解决matplot中中文乱码,然后读取服务器中内置的csv格式
的“淘宝兰花数据集”。
(2)设置轴数据
将“植物品种”作为X轴变量,将“付款人数”作为Y轴变量,先统计不
同品种的兰花的数量,将每一品种兰花根据“是否带花苞/花箭”分为两类,统
计每种“包含花苞/花胃”和“不包含花苞/花箭”兰花的付款人数。
(3)创建画布与子图(柱形图)
创建画图的画布,并在画布中添加柱形图,在同一横坐标刻度画不同品种
的色花包含于与不包含花苞/花箭时付款人数的统计样子,将统一刻度的是否包
含花苞/花箭这两个柱子叠加,形成堆积柱形图。
(4)设置图形元素
对柱形图的标题、横纵坐标轴轴标题进行命名,显示数据标签,设置横坐
标刻度文字的显示效果。
(5)生成图片
设置生成图片的路径和名称,生成图片。
(6)可视化分析
通过下图可知,购买人数多的都是不带花苞/花箭的兰花产品,所值在产品
选品时,可尽量集中在不带花苞/花箭的兰花产品。
8
堆积柱状图(是否带花苞/花箭)
否是
否
80000-
60000-
40000-
20000-
鼻哼是:828
杏山94否.475是:277是:230是:0是:320是:0
否:365否:278杏:483否:91否:28,
植物品种
(二)实训操作:
操作方法与“任务一”的操作一致,在此不再赘述。注意:操作时,需在
“任务二”中操作,不然会导致实训内容不正确,
任务三“类别比较图表”之条形图
点击任务三按钮,进入“类别比较图表”之条形图,如图1-8。
9
的1三:M别比晒,•之果时
敷密处理
•TiMaiit^a।侬旧#
开发语言:Python•VvS便〃版行BKAW中总数总
图1-8”类别比较图表”之条形图
在任务三中,对市场的上架品牌进行分析,确定行业领头羊,为以后的经典
分析与学习奠定基础。
(一)实验讲解:
1.理论部分
(1)简介
条形图与柱形图类似,几乎可以表达相同多的数据信息。在条形图中,类别
型或序数型变量映射到纵轴的位置,数值型变量映射到矩形的宽度。条形图妁柱
形变为横向,从而导致与柱形图相比,条形图更加强调项目之间的大小对比。尤
其在项目名称较长以及数量较多时,采用条形图可视化数据会更加美观、清晰,
如下图所示。
10
F<*K«.____
Gennanv
)€8-i*.SHHB
Sw*dM-
0SWIS
Renwns
(a)单数据系列条形图(b)多数据系列条形图
(c)堆积条形图(d)百分比堆积条形图
(2)Python绘制条形图
用matplotlib包绘制的条形图中,使用plt.barh()函数替代柱形图绘制
函数plt.bar(),其他语法与柱形图的绘制基本一致,只是X轴变成数值型坐
标,而Y轴变成类别型坐标。
参数接收值说明默认值
yarrayy轴的数值
widtharrayx轴的数值
alphafloat条形的颜色透明度;1
heightfloat条形的宽度;0.8
color
string条形填充的颜色;随机色
(facecolor)
edgecolorstring条形边缘颜色None
图例名称,解释每个图像代
stringNone
label表的含义
linewidth
(linewidths/数值边缘or线的宽度1
Iw)
11
2.实验设计
(1)导入库和数据
导入matplotlib库、pyplot模块,由于matplotlib库默认不显示中文,
使用rcparam参数解决matplot中中文乱码,然后读取服务器中内置的csv格式
的“淘宝兰花数据集”。
(2)设置轴数据
将“评论数”作为X轴变量,将“品牌”作为Y轴变量,统计每一品睥的
评论数,对数据进行排序,并选取前20的数据。
(3)创建画布与子图(条形图)
创建画图的画布,并在画布中添加条形图。
(4)设置图形元素
对条形图的标题、横纵坐标轴轴标题进行命名,设置横坐标刻度文字的显
示效果。
(5)生成图片
设置生成图片的路径和名称,生成图片。
(6)可视化分析
通过下图可知,购买人数较多且评论数量多的前20个品牌(店铺)如下图
显示,在后续的选品、店铺装修、店铺活动等可参照行业标杆。
12
条形图
评论数
(二)实训操作:
操作方法与“任务一”的操作一致,在此不再赘述。注意:操作时,需在
“任务三”中操作,不然会导致实训内容不正确,
任务四“类别比较图表”之词云图
点击任务四按钮,进入“类别比较图表”之词云图,如图l-9o
图1-9词云图分析
13
在任务四中,对兰花商品的功能进行分析,通过对“功能”描述进行词云分
析,了解市场中客户对拦花的功能需求。
(一)实验讲解:
1.理论部分
(1)简介
词云图是通过使每个字的大小与其出现频率成正比,显示不同单词在给定文
本中的出现频率,然后将所有的字词排在一起,形成云状图案,也可以任何格式
排列:水平线、垂直列或其他形状,也可与显示获分配元数据的单词,在词云图
上使用颜色通常都是毫无意义的,主要是为了美观,我们可以用颜色对单词进行
分类或显示另一个数据变量。词云图通常用于网站或博客上,用于描述关键词或
标签,也可用来比较两个不同的文本。
词云图虽然简单易懂,但是有一些重大缺点,①较长的字词会引人注意;②
字母含有很多升部/降部的单词可能会受到人关注;③分析精度不足,较多时候
是为了美观。
(2)Python绘制词云
词云图可以用过wordcloud包的Wordcloud()函数实现,不仅可以实现方形
的词云图,还能借助PIL包的image。函数导入二值化的图像,从而实现不同形
状的词云图。在做中文文本分析时,可以借助jieba包做分词处理,然后使用
Wordcloud()函数做文本的统计分析。
常用参数名称接收值说明默认值
Font_pathstring字体路径
widthint画布宽度400像素
heightint画布高度200像素
prefer_horizo词语水平方向排
float0.9
ntal版出现的频率
如果参数为空,
则使用二维遮罩
masknd-arrayorNoneNone
绘制词云。如果
mask非空,设置
14
的宽高值将被忽
略,遮罩形状被
mask取代。除全
白(ttFFFFFF)的
部分将不会绘
制,其余部分会
用于绘制词云
按照比例进行放
scalefloat1
大画布
显示的最小的字
min_font_sizeint(4
体大小
字体步长,如果
步长大于1,会加
font_stepint快运算但是可能1
导致结果出现较
大的误差
要显示的词的最
max_wordsnumber200
大个数
background_co
colorvalue背景颜色black
lo
显示的最大的字
max_font_sizeintorNoneNone
体大小
2.实验设计
(1)导入库和数据
导入wordcloud库与jieba库,然后读取服务器中内置的csv格式的“淘宝
兰花数据集”。
(2)设置待分析数据
选择“功能”为分析字段,对语句进行切分
15
(3)词云图参数设置
添加词云绘图函数,设置词云的背景颜色与宽高
(4)词云图片设置
将词云图按精确噗式输出
(5)生成图片
设置生成图片的路径和名称,生成图片。
(6)可视化分析
从产品的词云可知,商家在宣传时,都喜欢使用“美观”、“提神”、“防
辐射”、“去甲醛”等字眼,说明大多数商家对客户分析时,都得出过客户较为
关注这些产品。
X长
阳
趣空鸣
加湿¥n
夫为
典A驱蚊防辐射
(二)实训操作:
操作方法与“任务一”的操作一致,在此不再赘述。注意:操作时,需在
“任务四”中操作,不然会导致实训内容不正确,
任务五“时间序列图表”之折线图
16
点击任务五按钮,进入“时间序列图表”之折线图,如图170。
图1-W折线图
在任务五中,对消费者的兰花品种偏好进行分析,通过折线图查找找花种类
与购买人数的关系,从而查看各类拦花的购买人数分布情况。
(一)实验讲解:
1.理论部分
(1)简介
折线图(linechart)用于在连续间隔或时间跨度上显示定量数值,最常用
来显示趋势和关系(与其他折线组合起来)。此外,折线图也能给出某时间段内
的整体概览,看看数据在这段时间内的发展情况。要绘制折线图,先在笛卡儿坐
标系上定出数据点,然后用直线把这些点连接起来。
在折线图中,X轴包括类别型或者序数型变量,分别对应文本坐标轴和序数
坐标轴(如日期坐标轴)两种类型;Y轴为数值型变量。折线图主要应用于时间
序列数据的可视化。(a)为双数据系列折线图,X轴变量为时序数据。
在散点图系列中,曲线图(带直线而没有数据标记的散点图)与折线图的图
像显示效果类似。在曲线图中,X轴也表示时间变量,但是必须为数值格式,这
是两者之间最大的区别。所以,如果X轴变量为数值格式,则应该使用曲线图,
而不是折线图来显示数据。
在折线图系列中,标准的折线图和带数据标记的折线图可以很好地可视化数
17
据。因为图表的三维透视效果很容易让读者误解数据,所以不推荐使用三维折线
图。另外,堆积折线图和百分比堆积折线图等推荐使用相应的面积图,例如,堆
积折线图的数据可以使用堆积面积图绘制,展示的效果将会更加清晰和美观。
多数据系列图
value1
2(X>12CK>32W520072009
MMT
(a)纯色填充(b)颜色映射填充
(2)Python绘制折线图
使用matplotlib包中的pit.plot函数和pit.fill_between()函数可以绘
制折线图。
Plot。函数常用参数包括:
常用参数接收值说明默认值
*argsarrayx轴与y轴对应的数据;
colorstring表示折线的颜色;None
markerstring表示折线上数据点处的类型;None
linestylestring表示折线的类型;——
linewidth数值线条粗细:linewidth=1.=5.=0.31
alpha0~1之间的小数表示点的透明度;None
18
数据图例内容:label'实际数
labelstringNone
据,
2.实验设计
(1)导入库和数据
导入matplotlib库与pyplot模块,由于matplotlib库默认不显示中文,
使用rcparam参数解决matplot中中文乱码,然后读取服务器中内置的csv格式
的“淘宝兰花数据集”。
(2)设置轴数据
选定用于分析的横纵坐标数据,将“植物品种”设为X轴,“付款人数”设
为Y轴,对“植物品种”进行分组并统计每种类别的“付款人数”总和,对统计
数据进行排序。
(3)创建画布与子图(折线图)
创建画图的画布,并在画布中添加折线图。
(4)设置图形元素
对折线图的标题、横纵坐标轴轴标题进行命名,显示数据标签,设置横坐
标刻度文字的显示效果。
(5)生成图片
设置生成图片的路径和名称,生成图片。
(6)可视化分析
通过对植物品种进行分析,从折线图可知,除了兰花和其他这两没有指向性
的描述外,销售比较好的品种主要是蝴蝶兰,在选品时可重点考虑该品种。
19
折线图
植物品种
(二)实训操作:
操作方法与“任务一”的操作一致,在此不再赘述。注意:操作时,需在
“任务五”中操作,不然会导致实训内容不正确,
任务六“数据关系图表”之散点图
点击任务六按钮,进入“数据关系图表”之数点图,如图1-11。
任务六:•之敏郴B
致旧好序散田保存
It处氏]如国
开发语言:Python•新*保存以行注册表名故事向33由数说
20
图1-11散点图分析
在任务五中,对消费者的价格区间偏好进行分析,通过散点图分析价格与付
款人数的关系。
(一)实验讲解:
1.理论部分
(1)简介
散点图(scattergraph,pointgraph,XTplot,scatterchart或者
scattergram)是比较常见的图表类型之一,通常用于显示和比较数值。散点图
使用一系列的散点在直角坐标系中展示变量的数值分布。在二维散点图中,可以
通过观察两个变量的数据分析,发现两者的关系与相关性,如图5-1-1所示。
散点图可以提供3类关键信息:①变量之间是否存在数量关联趋势;②如果存
在关联趋势,那么是线性还是非线性的;③观察是否存在离群值,从而分析这
些离群值对建模分析的影响。
变量/
通过观察散点图上数据点的分布情况,我们可以推断出变量间的相关性。如
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教版品德与社会五年级上册全册教案
- 开发耐低温材料保障极地工程安全
- 现代工程图学习题集答案-第三版-主编杨裕根第3章
- 高一化学达标训练:第一单元化学反应速率与反应限度
- 2024届西安市航空六一八中学高考化学四模试卷含解析
- 2024高中语文第一单元第2课装在套子里的人提升训练含解析新人教版必修5
- 2024高考地理一轮复习第二章地球上的大气第三讲气压带和风带学案
- 2024高考化学一轮复习第九章有机化合物第一讲甲烷乙烯苯规范演练含解析新人教版
- 贷款违约调解协议书
- 大数据时代语言学
- 硫酸装置操作规程
- 2022年淮安市涟水县辅警考试试卷真题
- 2.1特种设备安全法、容规、管规等法律法规培训
- Python数据分析案例实战PPT完整全套教学课件
- 慢性肾病高磷血症
- 广告牌计算程序
- 2023汽车智能座舱分级与综合评价白皮书
- 名著:骆驼祥子
- 武夷山景点英语版导游词
- 六年级上册数学计算题100道新
- 装配式构件供货合同文本模板
评论
0/150
提交评论