




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
探索性分析1可视化分析目录描述性统计分析2常用Python探索分析函数3小结4描述性统计是统计学中用来描绘或总结观察量的基本情况的统计方法的总称,是对调查样本中的包含的大量数据资料进行整理、概况和计算的过程,也是通过揭示数据分布特性从而汇总并表达定量数据的方法。用统计指标对定量数据进行统计描述,常从集中趋势和离散程度两个方面进行分析。基本概念
集中趋势统计指标1.均值
集中趋势统计指标中位数是将一组观察值从小到大按顺序排列,位于中间的那个数据。即在全部数据中,小于和大于中位数的数据个数相等。将某一数据集从小到大按顺序排序,当为奇数时,中位数的计算公式如下式所示。当为偶数时,中位数的计算公式如下式所示。集中趋势统计指标2.中位数众数是指数据集中出现最频繁的值。众数并不经常用来度量定性变量的中心位置,更适用于定性变量。众数不具有唯一性。当然,众数一般用于离散型变量而非连续型变量。集中趋势统计指标3.众数极差是表示样本离散程度最基本的测量值,是样本中最大值与最小值的差额,计算公式如下式所示。极差对数据集的极端值非常敏感,并且忽略了位于最大值与最小值之间的数据的分布情况。离散程度统计指标1.极差标准差度量数据偏离均值的程度,计算公式如下式所示。离散程度统计指标2.标准差四分位数包括上四分位数和下四分位数。将所有数值由小到大排列并分成四等份,处于第一个分割点位置的数值是下四分位数,处于第二个分割点位置(中间位置)的数值是中位数,处于第三个分割点位置的数值是上四分位数。四分位数间距,是上四分位数与下四分位数之差,其间包含了全部观察值的一半。四分位数间距值越大,说明数据的变异程度越大;反之,说明变异程度越小。离散程度统计指标3.四分位数间距1可视化分析目录描述性统计分析2常用Python探索分析函数3小结4将数据可视化的目的是化抽象为具体,将隐藏于数据中的规律直观地展现出来。通过点的位置、曲线的走势、图形的面积等形式,直观地呈现研究对象间的数量关系。不同类型的图表展示数据的侧重点不同,选择合适的图表可以更好地进行数据的可视化分析。常见的可视化图表有散点图、折线图、柱形图、饼图、箱线图和热力图等。基本概念散点图(ScatterDiagram)又称为散点分布图,是以一个特征为横坐标,另一个特征为纵坐标,利用坐标点(散点)的分布形态反映特征间的统计关系的一种图形。值是由点在图表中的位置表示,类别是由图表中的不同标记表示,通常用于比较跨类别的数据。散点图可以提供2类关键信息。特征之间是否存在数值或者数量的关联趋势,关联趋势是线性的还是非线性的。如果有某一个点或者某几个点偏离大多数点,这些点就是离群值,通过散点图可以一目了然。从而可以进一步分析这些离群值是否可能在建模分析中产生很大的影响。散点图散点图通过散点的疏密程度和变化趋势表示两个特征的数量关系。不仅如此,如果有三个特征,若其中一个特征为类别型,散点图改变不同特征的点的形状或者颜色,即可了解两个数值型特征和这个类别型之间的关系。散点图折线图(linechart)是一种将数据点按照顺序连接起来的图形。可以看作是将散点图,按照x轴坐标顺序连接起来的图形。折线图的主要功能是查看因变量y随着自变量x改变的趋势,最适合用于显示随时间(根据常用比例设置)而变化的连续数据。同时还可以看出数量的差异,增长趋势的变化。除了分析数据的趋势,折线图还可以用来分析数据的周期性,周期性指某个变量随着时间变化而呈现出某种周期变化趋势,周期性按时间尺度分为年度、季节性、月度、周度、天和小时等周期性趋势。折线图柱形图(barchart)又称柱状图,是统计报告图的一种,由一系列高度不等的纵向条纹或线段表示数据分布的情况,一般用横轴表示数据所属类别,纵轴表示数量或者占比。用柱形图可以比较直观地看出产品质量特性的分布状态,便于判断其总体质量分布情况。柱形图可以发现分布表无法发现的数据模式、样本的频率分布和总体的分布。柱形图饼图(PieGraph)是将各项的大小与各项总和的比例显示在一张“饼”中,以“饼”的大小来确定每一项的占比。饼图的每一个扇形部分代表每一类型的百分比或频数,根据变量的类型数目将饼图分成几个部分,每一部分的大小与每一类型的频数成正比。饼图可以比较清楚地反映出部分与部分、部分与整体之间的比例关系,易于显示每组数据相对于总数的大小,而且显现方式直观。饼图箱线图(Boxplot)也称箱须图,其绘制需使用常用的统计量,箱线图能提供有关数据位置和分散情况的关键信息,尤其在比较不同特征时,更可表现其分散程度差异。箱线图中每条线表示的含义如下图所示。箱线图箱线图利用数据中的5个统计量(最小值、下四分位数、中位数、上四分位数和最大值)来描述数据,没有对数据作任何限制性要求如服从某种特定的分布形式,它只是真实地、直观地表现数据分布的本来面貌。另一方面,箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的鲁棒性:多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响。由此可见,箱线图识别异常值的结果比较客观,在识别异常值方面有一定的优越性。此外箱线图也可以粗略地看出数据是否具有对称性、分布的分散程度等信息,可以用于在几个样本之间进行比较。箱线图热力图是一种通过对色块着色来显示数据分布的统计图表。绘制热力图时,需指定颜色映射的规则。如较大的值使用较深的颜色表示,较小的值使用较浅的颜色表示,也可以较大的值使用偏暖的颜色表示,较小的值使用较冷的颜色表示等。热力图热力图按数据结构一般可分为两种,表格型和非表格型。表格型热力图也称为色块图,它要求数据具有2个类别型属性和1个数值型属性,类别型属性用于确定x、y轴,从而将图表划分为规整的矩形块。数值型属性决定了矩形块的颜色。非表格型热力图也称为平滑热力图,它要求数据具有3个数值型属性,其中2个数值型属性用于分别确定x、y轴,另一个1个数值型属性用于确定点的着色,可以绘制在平行坐标系中。热力图能够用于查看总体的情况、发现异常值、显示多个变量之间的差异,还有一个常见用途为用于查看变量间是否存在任何相关性。如果要用热力图表示数据间的相关性,即绘制相关性热力图,还需要先计算相关系数。热力图为了准确地描述变量之间的线性相关程度,可以通过计算相关系数来实现。在二元变量的相关分析过程中比较常用的有Pearson相关系数、Spearman秩相关系数和判定系数。Pearson相关系数:一般用于析两个连续性变量之间的关系,其计算公式如下式所示。相关系数的取值范围:。不同的的取值表示的相关性如下式所示。热力图1.相关系数
热力图变量秩次的计算过程,如下表所示。因为一个变量的相同的取值必须有相同的秩次,所以在计算中采用的秩次是排序后所在位置的平均值。只要两个变量具有严格单调的函数关系,那么它们就是完全Spearman相关的,这与Pearson相关不同,Pearson相关只有在变量具有线性关系时才是完全相关的。热力图从小到大排序从小到大排序时的位置秩次
0.5110.8221.0331.24(4+5)/2=4.51.25(4+5)/2=4.52.3662.877上述两种相关系数在实际应用计算中都要对其进行假设检验,使用t检验方法检验其显著性水平以确定其相关程度。研究表明,在正态分布假定下,Spearman秩相关系数与Pearson相关系数在效率上是等价的,而对于连续测量数据,更适合用Pearson相关系数来进行分析。热力图判定系数:判定系数是相关系数的平方,用表示;用来衡量回归方程对的解释程度。判定系数取值范围:。越接近于1,表明与之间的相关性越强;越接近于0,表明两个变量之间几乎没有直线相关关系。热力图为了更加直观地分析属性间的相关性,绘制1994年至2013年财政收入数据的相关性热力图。由图中的颜色的深浅可看出,各属性除了x11与y为负弱相关外,其他属性都与y强相关。热力图2.相关性热力图1可视化分析目录描述性统计分析2常用Python探索分析函数3小结4Python中的NumPy和pandas库中都提供了函数或者方法用于描述性统计,这些函数或者方法主要用于计算数值型数据的最小值、均值、中位数、最大值、四分位数、极差、标准差、方差、协方差和变异系数等。NumPy中常见的描述性统计函数如下表所示。常用Python基本统计分析函数函数名称说明函数名称说明numpy.min最小值numpy.max最大值numpy.mean均值numpy.ptp极差numpy.median中位数numpy.std标准差numpy.var方差numpy.cov协方差pandas库基于NumPy,自然也可以用这些函数对数据框进行描述性统计,同时pandas还提供了更加便利的describe方法来进行数值型数据的统计,能够一次性得出数据框中所有数值型数据的非空值数目、均值、四分位数、标准差。pandas库中的常用描述性统计方法,如下表所示。常用Python基本统计分析函数方法名称说明方法名称说明min最小值max最大值mean均值ptp极差median中位数std标准差var方差cov协方差sem标准误差mode众数skew样本偏度kurt样本峰度quantile四分位数count非空值数目describe描述统计mad平均绝对离差Matplotlib中绘制散点图的函数为scatter,其语法格式如下。matplotlib.pyplot.scatter(x,y,s=None,c=None,marker=None,cmap=None,norm=None,vmin=None,vmax=None,alpha=None,linewidths=None,verts=None,edgecolors=None,hold=None,data=None,**kwargs)常用Python作图函数1.散点图scatter函数常用参数及其说明如下表所示。常用Python作图函数参数名称说明x,y接收array。表示x轴和y轴对应的数据。无默认值s接收数值或者一维的array。指定点的大小,若传入一维array,,则表示每个点的大小。默认为Nonec接收颜色或者一维的array。指定点的颜色,若传入一维array则表示每个点的颜色。默认为Nonemarker接收特定string。表示绘制的点的类型。默认为Nonealpha接收0~1的小数。表示点的透明度。默认为NoneMatplotlib中绘制折线图的函数为plot,其语法格式如下。matplotlib.pyplot.plot(*args,**kwargs)常用Python作图函数2.折线图plot函数在官方文档的语法中只要求填入不定长参数,实际可以填入的主要参数主要如下表所示。常用Python作图函数参数名称说明x,y接收array。表示x轴和y轴对应的数据。无默认值color接收特定string。指定线条的颜色。默认为Nonelinestyle接收特定string。指定线条类型。默认为“-”marker接收特定string。表示绘制的点的类型。默认为Nonealpha接收0~1的小数。表示点的透明度。默认为None其中color参数的8种常用颜色的缩写如下表所示。常用Python作图函数颜色缩写代表的颜色颜色缩写代表的颜色b蓝色m品红g绿色y黄色r红色k黑色c青色w白色linestyle参数的4种常用线条类型的取值及其意义,如下表所示。常用Python作图函数linestyle取值意义linestyle取值意义-实线-.点线--长虚线:短虚线marker参数的20种常用线条标记的取值及其意义,如下表所示。常用Python作图函数marker取值意义marker取值意义o圆圈.点D菱形s正方形h六边形1*星号H六边形2d小菱形-水平线v一角朝下的三角形8八边形<
一角朝左的三角形p五边形>
一角朝右的三角形,像素^一角朝上的三角形+加号\竖线None无xXMatplotlib中绘制柱形图的函数为bar,其语法格式如下。matplotlib.pyplot.bar(left,height,width=0.8,bottom=None,hold=None,data=None,**kwargs)bar函数常用参数及其说明,如下表所示。常用Python作图函数3.柱形图参数名称说明left接收array。表示x轴数据。无默认值height接收array。表示x轴所代表数据的数量。无默认值width接收0~1的float。指定柱形图宽度。默认为0.8color接收特定string或者包含颜色字符串的array。表示柱形图颜色。默认为NoneMatplotlib中绘制饼图的函数为pie,其语法格式如下。matplotlib.pyplot.pie(x,explode=None,labels=None,colors=None,autopct=None,pctdistance=0.6,shadow=False,labeldistance=1.1,startangle=None,radius=None,counterclock=True,wedgeprops=None,textprops=None,center=(0,0),frame=False,hold=None,data=None)常用Python作图函数4.饼图pie函数常用参数及其说明,如下表所示。常用Python作图函数参数名称说明x接收array。表示用于绘制撇的数据。无默认值explode接收array。表示指定项离饼图圆心为n个半径。默认为Nonelabels接收array。指定每一项的名称。默认为Nonecolor接收特定string或者包含颜色字符串的array。表示饼图颜色。默认为Noneautopct接收特定string。指定数值的显示方式。默认为Nonepctdistance接收float。指定每一项的比例和距离饼图圆心n个半径。默认为0.6labeldistance接收float。指定每一项的名称和距离饼图圆心多少个半径。默认为1.1radius接收float。表示饼图的半径。默认为1Matplotlib中绘制箱线图的函数为boxplot,其基本使用语法如下。matplotlib.pyplot.boxplot(x,notch=None,sym=None,vert=None,whis=None,positions=None,widths=None,patch_artist=None,bootstrap=None,usermedians=None,conf_intervals=None,meanline=None,showmeans=None,showcaps=None,showbox=None,showfliers=None,boxprops=None,labels=None,flierprops=None,medianprops=None,meanprops=None,capprops=None,whiskerprops=None,manage_xticks=True,autorange=False,zorder=None,hold=None,data=None)常用Python作图函数5.箱线图boxplot函数常用参数及其说明,如下表所示。常用Python作图函数参数名称说明x接收array。表示用于绘制箱线图的数据。无默认值notch接收boolean。表示中间箱体是否有缺口。默认为Nonesym接收特定sting。指定异常点形状。默认为Nonevert接收boolean。表示图形是横向纵向或者横向。默认为Nonepositions接收array。表示图形位置。默认为Nonewidths接收scalar或者array。表示每个箱体的宽度。默认为Nonelabels接收array。指定每一个箱线图的标签。默认为Nonemeanline接收boolean。表示是否显示均值线。默认为FalseSeaborn库中的heatmap函数可以绘制热力图,其语法格式如下。seaborn.heatmap(data,vmin=None,vmax=None,cmap=None,center=None,robust=False,annot=None,fmt='.2g',annot_kws=None,linewidths=0,linecolor='white',cbar=True,cbar_kws=None,cbar_ax=None,square=False,xticklabels='auto',yticklabels='auto',mask=None,ax=None,**kwargs)常用Python作图函数6.热力图heatmap函数的常用参数及其说明,如下表所示。常用Python作图函数参数名称说明data接受rectangulardataset(矩形数据集)。表示用于绘制热力图的数据,可以是array或者dataframe,若是dataframe,则dataframe的index和column信息会分别对应到heatmap的columns和rows。无默认值vmin,v
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医疗专利合同范本
- 2025至2030年中国洗衣机外壳模具数据监测研究报告
- 2025至2030年中国油管胶圈数据监测研究报告
- 甜瓜销售合同范本
- 婚礼现场布置设计合同
- 假体材料采购合同
- 2025至2030年中国水墨印刷分压机数据监测研究报告
- 2025至2030年中国木制吧椅数据监测研究报告
- 公众艺术活动合同
- 2025至2030年中国日用喷雾器配件数据监测研究报告
- 富氢水水素水推广方法
- 煤矿职业卫生培训课件2023
- 某小学申报广州市义务教育规范化学校自评分说明
- 面神经炎课件完整版
- 根据铜价计算各种电缆参考价格
- 湘教版五年级下册美术教学计划
- WB/T 1066-2017货架安装及验收技术条件
- SB/T 10446-2007成品油批发企业管理技术规范
- 沥青路面施工质量控制要点课件
- 对建筑工程施工转包违法分包等违法行为认定查处管理课件
- 雀巢碘超标危机公关分析
评论
0/150
提交评论