Python数据分析 课件【ch06】数据分析库SciPy_第1页
Python数据分析 课件【ch06】数据分析库SciPy_第2页
Python数据分析 课件【ch06】数据分析库SciPy_第3页
Python数据分析 课件【ch06】数据分析库SciPy_第4页
Python数据分析 课件【ch06】数据分析库SciPy_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Python数据分析数据分析库SciPy第六章计算机专业·任务驱动应用型教材01SciPy简介SciPy简介01linalg模块linalg模块用于进行线性代数计算,线性代数的基本操作对象是矩阵,与NumPy相同,linalg的基本数据类型为数组、矩阵,该模块包含各种相关函数。norm函数用来计算矩阵或向量的模。该函数的调用格式如下:SciPy简介01stats模块SciPy的stats模块中包含一些比较基本的数据统计分析函数,如t检验、正态性检验、卡方检验。statsmodels提供了更为系统的统计模型,包括线性模型、时序分析模型,还包含数据集、作图工具等。概率分布设X是一个随机变量,x是任意实数,函数SciPy简介01概率分布称为X的分布函数。对于任意实数x₁和x₂(x₁<x₂),有因此,若已知X的分布函数,就可以知道X落在任一区间[x,x]上的概率,从这个意义上说,分布函数完整地描述了随机变量的统计规律性。若连续型随机变量的概率密度为SciPy简介01概率分布其中,μ和σ(a>0)为常数,则称X服从参数为μ和σ的正态分布或高斯(Gauss)分布,记为X~N(μ,o?),即X服从均值为μ、方差为σ的正态分布。在自然现象和社会现象中,大量随机变量都服从或近似服从正态分布。例如,一个地区的男性成年人的身高、测量某零件长度的误差、海洋波浪的高度、半导体器件中的热噪声电流或电压等都服从正态分布。在概率论与数理统计的理论研究和实际应用中,正态随机变量起着特别重要的作用。SciPy简介01在scipy.stats中,binom函数实现二项分布,poisson.pmf函数实现泊松分布,norm函数可以实现正态分布。正态分布函数如表6-3所示。SciPy简介01数据分析在实际应用中,数据分析可帮助人们做出判断,以便采取适当的行动。在数据分析过程中,选择合适的分析方法和工具是很重要的,下面介绍几种常用的数据统计分析方法。相关性分析相关性分析显示一个变量与另一个变量有何种相关关系,如显示计件工资是否会带来更高的生产率。SciPy简介01回归分析回归分析是对一个变量值与另一个变量值间差异的定量预测。回归模拟因变量和解释变量之间的关系,这些变量通常绘制在散点图上,还能用回归线显示这些关系是强还是弱。散点图上的异常值非常重要。例如,外围数据点可能代表公司最关键的供应商或最畅销产品的输入。但是,回归线的性质通常需要忽略这些异常值。SciPy简介01假设检验假设检验是数理统计学中根据一定的假设条件,由样本推及总体的一种统计分析方法,主要针对问题的需要对所研究的总体提出某种假设。通常,比较两个统计数据集,或者将通过采样获得的数据集与来自理想化模型的合成数据集进行比较。针对两个数据集之间的统计关系提出一种假设,并将其作为替代方案进行比较理想化的零假设,提出两个数据集之间没有关系。SciPy简介01方差分析方差分析又称“变异数分析”,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈波动状。造成波动的原因可分成两类:一是不可控的随机因素,二是研究中施加的对结果形成影响的可控因素。SciPy简介01单变量统计分析统计量是统计理论中用来对数据进行分析、检验的变量,是大量微观量的统计平均值,具有统计平均的意义。被分析的数据只包含一个变量,称为单变量统计,是数据分析中最简单的形式。单变量统计分析的主要目的是通过对数据的统计描述了解当前数据的基本情况,并找出数据的分布模型。数据统计量从集中趋势上看,指标有均值、中位数、分位数、众数。从离散程度上看,指标有极差、四分位数、方差、标准差、协方差、变异系数。从分布上看,指标有偏度(偏度系数)、峰度(峰度系数)等。需要考虑的还有极大值、极小值(数值型变量)和频数,以及构成比(分类或等级变量)。02相关性分析相关性分析02图表相关性分析最简单的相关性分析方法是将数据进行可视化处理,简单地说,就是绘制图表。单纯从数据的角度很难发现其中的趋势和联系,而将数据点绘制成图表后,趋势和联系就会变得清晰起来。折线图对于有明显时间维度的数据,可以选择使用折线图。相关性分析02散点图比折线图更直观的是散点图,散点图去除了时间维度的影响,只关注数据间的关系。散点图的横轴是一个变量,纵轴是另一个变量,可以直观地看到相关性的方向和强弱。通过观察散点图上数据点的分布情况,可以推断出变量间的相关性。如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,将那些距离点集群较远的点称为离群点或异常点。如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。相关性分析02图表相关性分析协方差用来衡量两个变量的总体误差,如果两个变量的变化趋势一致,那么协方差是正值,说明两个变量正相关。如果两个变量的变化趋势相反,那么协方差是负值,说明两个变量负相关。如果两个变量相互独立,那么协方差是0,说明两个变量不相关。协方差的计算公式为相关性分析02协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的协方差。协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。协方差矩阵的定义为协方差矩阵为相关性分析02协方差通过数字衡量变量间的相关性,正值表示正相关,负值表示负相关。但它无法对相关的密切程度进行度量。当面对多个变量时,无法通过协方差来说明哪两组数据的相关性最强。要衡量和对比相关性的密切程度,就需要使用下一个方法:相关系数。相关系数可以用来描述定量变量之间的关系。相关系数的符号(±)表明关系的方向(正相关或负相关),其值大小表示关系的强弱程度(完全不相关时为0,完全相关时为1)。相关性分析02正态分布的相关分析皮尔逊相关系数(PearsonCorrelationCoefficient)是反映两变量之间线性相关程度的统计量,用它来分析正态分布的两个连续型变量之间的相关性,常用于分析自变量之间,以及自变量和因变量之间的相关性。皮尔逊相关系数在-1和+1之间变化,0表示没有相关性、-1或+1的相关性暗示着一种精确的线性关系。pearsonr函数用来计算皮尔逊相关系数和pvalue(p值,视上下文语境使用),检验非相关性。该函数的调用格式如下:相关性分析02非正态分布的相关分析斯皮尔曼等级相关系数(Spearman'sCorrelationCoefficientforRankedData)主要用于评价顺序变量间的线性相关关系,常用于计算类型变量的相关性。相关系数表示线性相关程度,即correlation趋近于1表示正相关。pvalue越小,表示相关程度越强。spearmanr函数用来计算斯皮尔曼等级相关系数和pvalue,检验非相关性。该函数的调用格式如下:其中,x和y为变量数据。03假设检验假设检验03正态性检验利用观测数据判断总体是否服从正态分布的检验称为正态性检验。它是统计判决中一种重要的、特殊的拟合优度假设检验。正态性检验是数据分析的第一步,数据是否符合正态性分布决定了后续使用不同的分析和预测方法,当数据不符合正态性分布时,可以通过不同的转换方法把非正态数据转换成正态分布后使用相应的统计方法进行下一步操作。常用的正态性检验方法有正态概率纸法、夏皮罗-威尔克(Shapiro-Wilktest)检验法、柯尔莫哥洛夫检验法、偏度-峰度检验法等。假设检验03偏度-峰度检验法正态性检验基于偏度和峰度。偏度和峰度同时是分布特征分析统计量。skew函数用来计算数据的偏度。偏度(Skewness)用来描述数据某变量取值分布的对称性。当偏度为0时,为正态分布;当偏度大于0时,为正偏或右偏,长尾在右边;当偏度小于0时,为负偏或左偏,长尾在左边。kurtosis函数用来计算数据的峰度。峰度(Kurtosis)用来描述某变量所有取值分布形态的陡峭程度,0为正态分布,大于0为陡峭,小于0为平坦。一般情况下,如果样本的偏度接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。假设检验03偏度-峰度检验法normaltest函数用来检验数据是否符合正态分布,计算零假设的pvalue。该函数的调用格式如下:其中,a表示具有元素的输入数组或对象(样本数大于20),axis表示正态分布测试将沿其计算的轴。默认情况下,axis=0,返回假设检验的卡方统计量和pvalue。实际观测值与理论推断值之间的偏离程度决定卡方值的大小,卡方值越大,越不符合理论推断值;卡方值越小,偏差越小,越趋于符合理论推断值。若两个值完全相等,则卡方值为0,表明完全符合理论推断值。假设检验03夏皮罗-威尔克检验法夏皮罗-威尔克检验法用于检验参数提供的一组小样本数据是否符合正态分布,统计量越大,表示数据越符合正态分布,但是在非正态分布的小样本数据中也经常会出现较大的统计量值,需要查表来估计其概率。由于原假设是其符合正态分布,所以当pvalue低于指定显著性水平时,表示其不符合正态分布。shapiro函数用来检验数据是否符合正态分布,计算零假设的pvalue。该函数的调用格式如下:柯尔莫哥洛夫检验法柯尔莫哥洛夫检验(Kolmogorov-SmimovTest)法检验样本数据是否服从某一分布,仅适用于连续分布的检验。kstest函数使用柯尔莫哥洛夫检验法检验数据是否符合正态分布。假设检验03方差齐性检验方差反映了一组数据与其平均值的偏离程度,计算公式如下:方差齐性检验用以检验两组或多组数据与其均值偏离程度是否存在差异,也是很多检验和算法的先决条件。当不确定两总体方差是否相等时,应先利用levene函数进行检验,检验两总体是否具有方差齐性。它的使用格式如下:其中,datal、data2是样本数据。若pvalue远大于0.05,则认为两总体具有方差齐性。假设检验03卡方检验卡方检验是一种非参数检验方法。相对来说,非参数检验对数据分布的要求比较宽松,并且也不要求有太大的数据量。卡方检验是一种针对计数资料的假设检验方法,主要比较理论频数和实际频数的吻合程度,常用于特征选择。卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度的,实际观测值与理论推断值之间的偏离程度决定卡方值的大小,卡方值越大,越不符合理论推断值。卡方值越小,偏差越小,越趋于符合;若两个值完全相等,则卡方值为0,表明符合理论推断值完全。假设检验03基本数据有R行C列,故通称RC列联表(contingencytable),简称RC表,它是观测数据按两个或更多属性(定性变量)分类时列出的频数表。chisquare函数用来进行卡方检验。它的使用格式如下:卡方检验04t检验t检验04单样本t检验单样本t检验用于检验数据是否来自同一均值的总体。t检验主要是以均值为核心的检验。标准误差计算公式:标准误差单样本t检验计算公式:t检验04在stats中,ttest

1samp函数用来进行单样本t检验。它的使用格式如下:其中,data是样本数据,popmean是总体均值。单样本t检验t检验04独立样本t检验独立样本t检验用于分析定类数据与定量数据之间的关系,如男、女生的身高是否有显著差异。在stats中,ttest

ind函数用来进行独立样本t检验。它的使用格式如下:其中,datal、data2是样本数据。t检验04配对样本t检验配对样本t检验用于分析配对定量数据之间的差异对比关系,要求样本量相同且前后顺序要一一对应。配对样本t检验可视为单样本t检验的扩展,检验的对象由一群来自正态分布的独立样本更改为两群配对样本观测值之差。配对样本t检验可以通过差值转化为单样本t检验,常用于比较对同一受试对象进行处理的前后差异。在stats中,ttest

rel函数用来进行配对样本t检验。它的使用格式如下:其中,data1、data2是样本数据。05方差分析方差分析05单因素方差分析单因素方差分析(One-wayANOVA)用来检验由单一因素影响的多组样本某因变量的均值是否有显著差异。当因变量为数值型、自变量为分类值时,通常的做法是按自变量的类别把实例分成多组,分析因变量在自变量的不同分组中是否存在差异。f

oneway函数用来对数据进行单因素方差分析,返回的是统计量和p值。方差分析05多因素方差分析当有两个或两个以上的自变量对因变量产生影响时,可以用多因素方差分析的方法进行分析,此时不仅要考虑每个因素的主效应,还要考虑因素之间的交互效应。多因素方差分析需要加载statsmodels模块,在stat

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论