大数据治理(高级) 课件 西财 实训项目5、6:泰坦尼克号数据可视化、人力资源数据可视化_第1页
大数据治理(高级) 课件 西财 实训项目5、6:泰坦尼克号数据可视化、人力资源数据可视化_第2页
大数据治理(高级) 课件 西财 实训项目5、6:泰坦尼克号数据可视化、人力资源数据可视化_第3页
大数据治理(高级) 课件 西财 实训项目5、6:泰坦尼克号数据可视化、人力资源数据可视化_第4页
大数据治理(高级) 课件 西财 实训项目5、6:泰坦尼克号数据可视化、人力资源数据可视化_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实训5泰坦尼克号数据可视化1知识点数据可视化概述Matplotlib绘图库Seaborn绘图库2实训目标了解数据可视化的概念及作用;熟悉常见图表类型的特点及用法;掌握matplotlib库的基本使用;掌握seaborn库的基本使用;3知识点数据可视化概述Matplotlib绘图库Seaborn绘图库4数据可视化概述数据可视化是指将数据以图表的形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。5数据可视化概述相比文字和数字描述更直观的展示。短时间内得到更有效的结论。有助于降低理解的门槛。6数据可视化的好处:数据可视化概述数据可视化旨在借助图形化手段,清晰有效地将数据中的各种属性和变量呈现出来,使用户可以从不同的维度观察数据,从而对数据进行更深入地观察和分析。结论7知识点数据可视化概述Matplotlib绘图库Seaborn绘图库8Matplotlib绘图库Matplotlib是一个Python的2D绘图库,该绘图库允许开发者利用一些基本的python数据结构自定义一些可视化图表,如:折线图、散点图、柱状图、饼图、直方图、子图等等。Pyplot是Matplotlib的子库,提供了和MATLAB类似的绘图API。9Matplotlib绘图库画布对象是绘制图表前最重要的对象之一,该对象可以理解为一张空白的画布,用于容纳图表的各种组件。此外,若想在单个图表的基础上进行扩展,则需要子图对象。子图对象允许划分为多个绘图区域,每个绘图区域都是一个Axes对象,它拥有属于自己的坐标系统,被称为子图。基础绘图对象100102政府需求岷山集团需求同盟商家群众画布对象的创建方法如下:num--表示图形的编号或名称。figsize--用于设置画布的尺寸。facecolor--用于设置画板的背景颜色。edgecolor--用于显示边框颜色。Matplotlib绘图库基础绘图对象matplotlib.pyplot.figure(num=None,figsize=None,dpi=None,facecolor=None,edgecolor=None,...,**kwargs)参考代码:PPT配套练习-实训5-5.1110102政府需求岷山集团需求同盟商家群众子图对象的创建方法如下:nrows,ncols--表示子区网格的行数、列数。sharex,sharey--表示控制x或y轴是否共享。Matplotlib绘图库基础绘图对象subplots(nrows=1,ncols=1,sharex=False,sharey=False,squeeze=True,subplot_kw=None,gridspec_kw=None,**fig_kw)注意:subplots()函数会返回一个元组,元组的第一个元素为Figure对象(画布),

第二个元素为Axes对象(子图)。参考代码:PPT配套练习-实训5-5.212Matplotlib绘图库常见图表绘制matplotlib.pyplot模块中包含了快速生成多种图表的函数。13010203政府需求岷山集团需求群众matplotlib.pyplot.hist(x,bins=None,range=None,color=None,label=None,...,**kwargs)matplotlib.pyplot.scatter(x,

y,

s=None,

c=None,

marker=None,

alpha=None,

linewidths=None,

...,

**kwargs)Matplotlib绘图库常见图表绘制x--表示输入值。bins--表示绘制条柱的个数。range--bins的上下范围(最大和最小值)。color--表示条柱的颜色,默认为None。x,y--表示x轴和y轴对应的数据。s--指定点的大小。c--指定散点的颜色。marker--表示绘制的散点类型。参考代码:

PPT配套练习-实训5-5.3,5.414010203政府需求岷山集团需求群众bar(x,height,width,*,align='center',**kwargs)Matplotlib绘图库常见图表绘制x--表示x轴的数据。height--表示条形的高度。width--表示条形的宽度,默认为0.8。color--表示条形的颜色。edgecolor--表示条形边框的颜色参考代码-PPT配套练习-实训5-5.515010203政府需求岷山集团需求群众线条及填充区域颜色使用color参数控制,它支持如下表所列举的颜色值:Matplotlib绘图库绘图细节设置16010203政府需求岷山集团需求群众对于含有标记点的标记风格使用marker参数控制,它支持如右表所列举的标记形状:Matplotlib绘图库绘图细节设置17010203政府需求岷山集团需求群众另外,对于含有线段的图表,线型使用linestyle参数控制,它支持如下表所列举的线型值:Matplotlib绘图库绘图细节设置参考代码:

PPT配套练习-实训5-5.618Seaborn绘图库Seaborn基于Matplotlib核心库进行了更高级的API封装,可以轻松地画出更漂亮的图形,而Seaborn的漂亮主要体现在配色更加舒服,以及图形元素的样式更加细腻。19importseabornassns%matplotlibinlineSeaborn绘图库在JupyterNotebook中使用如下魔术命令绘图。matplotlib中的魔术命令同样适用于seaborn。如果希望使用Seaborn用Matplotlib的默认样式,则需要显式地调用set()或其他设置函数以获取Seaborn或者Matplotlib默认的绘图样式。sns.set()20Seaborn绘图库变量分布图单变量分布图:a--表示要观察的数据。bins--用于控制条形的数量。hist--表示是否绘制(标注)直方图。kde--表示是否绘制高斯核密度估计曲线。rug--表示是否在支持的轴方向上绘制rugplot。。distplot(a,bins=None,hist=True,kde=True,rug=False,...)参考代码:

PPT配套练习-实训5-5.721Seaborn绘图库变量分布图双变量分布图:seaborn.jointplot(x,

y,

data=None,

kind=‘scatter’,

color=None,

size=6,

ratio=5,

space=0.2,

dropna=True,

xlim=None,

ylim=None)

x,y—x轴和y轴的坐标点。kind—绘制图形的类型。size—图的大小ratio—中心图与侧边图的比例space—中心图与侧边图的间隔参考代码:

PPT配套练习-实训5-5.822Seaborn绘图库变量分布图多变量分布图:seaborn.pairplot(data,hue=None,hue_order=None,palette=None,vars=None,kind='scatter',diag_kind='hist',markers=None,size=2.5)

data--需要载入的数据x—x轴数据(使用data中的列名即可)y—y轴数据(使用data中的列名即可)hue—字符串(变量名),可选。vars—变量名列表,可选参考代码:

PPT配套练习-实训5-5.923Seaborn绘图库类别统计图类别散点图:seaborn.stripplot(x=None,y=None,hue=None,data=None,order=None,hue_order=None,jitter=False,...,**kwargs)x,y,hue--数据或矢量数据中的变量名称。data--用于绘制的数据集。order,hue_order--用于绘制分类的级别。jitter--表示抖动的程度(仅沿类别轴)。参考代码:

PPT配套练习-实训5-5.1024Seaborn绘图库类别统计图条形误差图:seaborn.violinplot(x=None,y=None,hue=None,data=None,order=None,hue_order=None,bw='scott',cut=2,scale='area',scale_hue=True,gridsize=100,width=0.8)x,y,hue--数据或矢量数据中的变量名称。order,hue_order--用于绘制分类的级别。scale–提琴区域缩放比例gridsize--用于计算核密度估计的离散网格中的数据点数目参考代码:

PPT配套练习-实训5-5.1125感谢聆听26实训6人力资源数据可视化项目背景实训目标技术准备实训任务实训步骤目录项目背景在前面的章节中我们已经对本章节的数据进行了介绍和预处理,本章节直接使用该数据进行实验结果可视化分析,本章节使用员工对公司的满意程度、对公司的评价、在职期间完成的项目数量、每月平均工作时长、工龄、工作差错、离职情况、五年内有没有提升、工作部门以及薪资水平等10个因素之间的相互影响进行可视化分析,以便于后续的公司管理和改进做决策。实训目标掌握数据分组统计方法;掌握数据可视化中条形图的使用;掌握数据可视化中柱状图的使用;掌握数据可视化中散点图的使用;掌握数据可视化中饼图的使用;掌握数据可视化中综合图形使用。技术准备pyplot添加各类标签的常用函数函数名称函数作用title在当前图形中添加标题,可以指定标题的名称、位置、颜色、字体大小等参数xlabel在当前图形中添加x轴名称,可以指定位置、颜色、字体大小等参数ylabel在当前图形中添加y轴名称,可以指定位置、颜色、字体大小等参数xlim指定当前图形x轴的范围,只能确定一个数值区间,而无法使用字符串标识ylim指定当前图形y轴的范围,只能确定一个数值区间,而无法使用字符串标识xticks指定x轴刻度的数目与取值yticks指定y轴刻度的数目与取值legend指定当前图形的图例,可以指定图例的大小、位置、标签

importmatplotlib.pyplotaspltimportnumpyasnp#创建画布plt.figure()x=np.linspace(0,1,1000)plt.title('y=x^2&y=x')plt.xlabel('x')plt.ylabel('y')plt.xlim((0,1))plt.ylim((0,1))plt.xticks([0,0.3,0.6,1])plt.yticks([0,0.5,1])plt.plot(x,x**2)plt.plot(x,x)plt.legend(['y=x^2','y=x'])#plt.savefig("save_fig.png")plt.show()中文字符显示plt.figure()x=np.arange(0,10,0.2)y=np.sin(x)plt.title('sin曲线')plt.plot(x,y)plt.show()中文字符显示plt.rcParams['font.sans-serif']=['SimHei']#用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False#用来正常显示负号图像展示折线图:plt.plot(x,y)plt.figure()x=np.array([1,2,3,4,5,6,7,8,9,10])y=np.array([87,82,92,84,85,79,86,88,75,84])plt.plot(x,y)plt.xlabel('x')plt.ylabel('y')plt.title('折线图')plt.show()图像展示折线图:plt.plot(x,y)条形图:plt.bar(x,y)散点图:plt.scatter(x,y)饼图(数据,数据对应的标签,百分数保留两位小数点)plt.pie(x,labels=labels,autopct='%1.2f%%',pctdistance=0.8,shadow=True)图像展示子图:x=np.array([1,2,3,4,5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论