数据分析与数据挖掘课件 【ch03】可视化图与分组检验_第1页
数据分析与数据挖掘课件 【ch03】可视化图与分组检验_第2页
数据分析与数据挖掘课件 【ch03】可视化图与分组检验_第3页
数据分析与数据挖掘课件 【ch03】可视化图与分组检验_第4页
数据分析与数据挖掘课件 【ch03】可视化图与分组检验_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章可视化图与分组检验数据分析与数据挖掘01数据的常用可视化图分析数据的常用可视化图P-P图(P-Pplot)又称概率-概率图(Probability-probabilityplot)或百分比-百分比图(Percent-percentplot),用于展示两组数据相接近的程度。

散点图(Scatterplot)主要用于展示两个变量X和Y的相关性,也常在立体空间中用散点图分析三个变量的相关性。数据的常用可视化图顺序图(Sequenceplot)是对一组样本数据X按照从前到后的顺序以折线图形式展示,横坐标代表样本的顺序,纵坐标代表对应样本点值。时滞图(Lagplot)是一种展示数据是否具有随机性的散点图,用于展示数据的时间序列关系。数据的常用可视化图对于一组数值数据,基于图的数据可视化包括:(1)进行数据的描述性统计并绘制盒图,掌握数据的总体情况。(2)绘制频数的直方图,绘制样本数据的经验分布图,掌握数据的分布情况。(3)绘制分位数图(Q-Q图),了解数据的总体趋势。(4)绘制四图,掌握数据的随机性、是否具备正态分布特性。(5)如果猜测具有某种已知的参考分布,如正态分布、指数分布、均匀分布等,可以绘制P-P图,查看数据是否满足猜想的分布。(6)计算中心值(中位数或均值),对每组数减去中心值,绘制折线图(或顺序图),了解数据的正负波动情况和离群点情况。基于图的可视化观测一般过程02均值比较和t检验20%30%40%50%

分组统计就是将指定的一个或多个属性变量作为分组依据,对样本进行分组,然后分别对每组数据统计。

分组统计是在掌握数据的整体状态后,对样本数据做更细致的分析,其作用包括:①掌握各组的频数和相对频数,可以绘制直方图;②掌握各组的各个统计量信息,如均值、方差等,用于各组数据的对比,可以通过图形展示各组信息,以及将各组情况做对比。分组统计

数据标准化(Normalization),又称数据规范化,主要用于数据的可理解性、数据的可比性、数据的无量纲化。数据标准化与Z-Score

单样本t检验是检验某个样本均值和某个指定值(一般是总体期望值)之间是否存在显著性差异。该检验的前提是,假设样本所在总体必须服从正态分布。单样本t检验两独立样本t检验两个独立样本是指两个样本之间彼此独立没有关联。独立样本t检验用于判别两个样本所在两个总体均值之间是否有显著性差异。两配对样本(Twopairedsample,Tworelativesample)是指两个样本具有相同容量,并且按照顺序,相同顺序号的元素—一对应。令x=(x1,x2,…,xn)和y=(y1,y2,…,yn)为两个样本,具有相同容量n。如果对每个i,(xi,yi)被视为配对数据,则称x和y为两配对样本。两配对样本t检验03方差齐性检验

Levene方差齐性检验又称Levene检验(Levene'stest),可用于对两组或多组样本进行方差齐性检验。

方差用于度量一组数据与其平均值的偏离程度,属于一种离散程度的度量。在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定。Levene方差齐性检验

F检验(F-test)可以用于样本所在两正态总体的方差齐性检验。F检验又称方差比率齐性检验(Ratiotestofvarianceequality)。F检验是参数检验方法。

F检验的前提条件是:①样本来自的两个总体必须服从正态分布X~N(H,c²),Y~N(H₂,C₂);②X和Y的抽样相互独立,样本容量分别为m和m₂且可以不同,各样本内部的个案顺序任意。基于F检验的方差齐性检验

Brown-Forsythe方差齐性检验是Levene检验的修改版。在Levene中,Zg是由式(3.15)计算的,即按照数据减去均值计算偏离程度。Brown-Forsythe方差齐性检验Bartlett's方差齐性检验(Bartlett'stestofequalvariances)用于检验多组样本所在总体是否具有方差齐性(方差相等)。方差齐性(Homogeneityofvariances)是指若干总体具有(统计上)相等的方差。Bartlett's方差齐性检验

04两独立样本的非参数检验

Mann-WhitneyU检验的核心思想是:若两个样本有差异,则它们的中心位置将不同,属于非参数检验。该检验常用于检验平均中心趋势(如中位数)是否存在显著性差异。

Mann-WhitneyU检验(曼-惠特尼秩和检验),简称秩和检验。该检验用于检验两个独立样本所在的总体分布是否存在显著性差异,或者说,两个独立样本是否是从具有同样分布的总体中抽取的。Mann-WhitneyU检验两独立样本t检验K-S检验(Kolmogorov-Smirnov检验)用于检验两个独立样本所在总体分布是否存在显著性差异,或者说两个独立样本是否来自同一个概率分布的总体。在两独立样本检验中,K-S检验统计量为式(3.29)。在双样本分布中,如图3.4(a)所示,虽然第1个样本容量n和第2个样本容量m的个数可能不同,但仍然能够对同一x计算出两个分布的偏差,如图3.4(b)所示,所获得的Dnm值代表最大绝对偏差值。两独立样本K-S检验

两独立样本的游程检验(Wald-Wolfwitzrunstest,W-W检验)用来检验样本所在总体分布是否存在显著性差异。2.6.4节中的单样本游程检验用于检验一个变量是否具有随机性。两独立样本的游程检验将两组数据按序混合重新排序(升序或降序)",在排序过程中組号也随排序过程一起变动。这样排序之后,获得了组号的重排序列。两独立样本游程检验

20%30%40%50%

Moses极端反应检验(Mosesextremereactions)用来检验两个样本所在总体分布是否存在显著性差异。Moses极端反应检验是一种非参数检验方法。

对于输入的两个样本x和y,将其中一个样本作为控制样本(Controlsample),另一个样本作为实验样本(Experimentalsample),假设第1组样本是控制样本,第2组样本是实验样本。两独立样本Moses极端反应检验

两独立样本Brown-Mood中位数检验的原假设Ho:Mx与My没有显著性差异,即Mx=Mr。相应的备选假设可以有:①H:Mx≠My,此时采用双側检验;②H₁:Mx<My,此时采用左侧检验;③H₁:Mx>My,此时采用右侧检验。应根据问题选择备选假设。下面以双侧检验为例,另两种只需检验时的P-Value按单侧检验计算即可。

Brown-Mood中位数检验,用于检验两组独立样本所在两总体的中位数是否存在显著性差异。两独立样本Brown-Mood中位数检验05两配对样本的非参数检验20%30%40%50%

符号检验(Signtest)是一种非参数检验方法,用于测试两组观察结果之间的一致性差异,可进行两配对样本的检验。

符号检验的前提条件是:①两个样本x=(x1,x2,…,xn),y=(y1,y2,…,yn)是配对的,每个对(xi,yi)被独立地采样;②x和y中的数据可以是数值属性数据,也可以是序数属性数据,要求能够进行xi和yi的大小关系比较,即能判断出xi>yi、xi<yi或xi=yi;③x中的数据来自同一个总体,y中的数据来自同一个总体。两配对样本符号检验

具体来说:①统计“+”符号的个案数为n1,“-”符号的个案数为n2;②构建检验统计量S=n1/(n1+n2),然后按照指定比例0.5进行二项分布检验。分位数检验也类似中位数检验,只是检验比例按照分位点所处的比例计算。符号检验(Signtest)还能用于单样本中位数检验、分位数检验及比例检验。数据排序后,中位数之前的數据量约占50%,之后的数据量约占50%。两中位数、分位数及比例的符号检验

Wilcoxon符号秩检验(Wilcoxonsigned-ranktest)用于检验两配对样本的总体均值是否存在显著性差异,或者理解成两配对样本是否来自同一总体。

Wilcoxon符号秩检验的直接原假设Ho:两配对样本所在总体分布的差异,围绕0服从对称分布;备选假设:两配对样本所在总体分布的差异,不围绕0服从对称分布。两配对样本Wilcoxon符号秩检验Wilcoxon符号秩检验还可以用于检验单样本的总体中心(中位数)是否与某一特定值存在显著性差异。Wilcoxon符号秩检验属于非参数检验,因此,当不能假设总体服从正态分布时,不能使用单样本t检验,可以使用Wilcoxon符号秩检验。原假设Ho:样本所在总体均值μ与指定值Ho没有显著性差异。Wilcoxon符号秩单样本检验两配对样本McNemar检验McNemar检验(McNemar'stest)用于对分类属性上的配对检验。McNemar检验属于一种非参数检验方法。边缘齐性检验(Marginalhomogeneitytest),也称边际齐性检验,用于两配对样本所在总体分布的显著性差异检验,其中两个样本具有相同的分类水平(Level)且各分类水平有序。边缘齐性检验06多样本的非参数检验

中位数检验(Mood'sMediantest,Median检验)用于检验两个或多个样本(两组或多组样本)的总体中位数是否存在显著性差异。多独立样本中位数检验Kruskal-Wallis检验(Kruskal-Wallistest,K-W检验),用于检验多组样本所在总体分布是否存在显著性差異,或者说多组样本是否来自同一分布。K-W检验是一种基于平均秩的单因素分析方法,是一种非参数检验方法。K-W检验扩展了Mann-WhitneyU检验,可以用于检验多组样本所在总体分布的显著性差异。多独立样本Kruskal-Wallis检验

20%30%40%50%

Jonckheere-Terpstra检验(Jonckheere-Terpstratest,J-T检验),又称Jonckheere趋势检验(Jonckheere'strendtest),用于检验多组样本(多个样本)所在总体分布是否存在显著性差异,或者说检验几个独立样本是否来自同一总体。

令g(g≥2)代表总组数,日是第i组样本所在总体的中位数,简称第i个总体的中位数。

J-T检验的原假设Ho:样本所在各个总体分布没有显著性差异,或者说,各组样本来自同一个总体。多独立样本Jonckheere-Terpstra检验Friedman检验(Friedmantest),用于检验多组配对样本所在总体分布是否存在显著性差异。Friedman检验是一种非参数统计检验,用于测试多次实验中配对结果是否存在显著性差异。假设各组样本以列向量形式排列在一起构成一个矩阵,组数为g,样本容量为n,因此构成一个矩阵{x,}mg。Fricdman检验原假设Ho:样本所在多个配对总体分布没有显著性差异。多配对样本Friedman检验Kendall协同系数检验(Kendall'sCoefficientofConcordancetest),用于检验多个评价者是否有一致的评分标准。多配对样本Kendall协同系数检验多配对样本Cochran'sQ检验Cochran‘sQ检验(Cochran’sQtest),用于检验多配对样本所在配对总体是否存在显著性差异。它属于一种非参数检验方法。每组样本中的数据以两分类数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论