非参数统计课程论文-基于符号检验的葡萄酒评分差异性检验_第1页
非参数统计课程论文-基于符号检验的葡萄酒评分差异性检验_第2页
非参数统计课程论文-基于符号检验的葡萄酒评分差异性检验_第3页
非参数统计课程论文-基于符号检验的葡萄酒评分差异性检验_第4页
非参数统计课程论文-基于符号检验的葡萄酒评分差异性检验_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、池州学院2016-2017学年第1学期非参数统计课程论文题目:基于符号检验的葡萄酒评分差异性检验姓名:学号:班级:授课教师:完成时间:2016年10月29日 II本文主要讨论了葡萄酒评酒员的评酒结果是否存在显著性差异的研究。本文 利用评酒员品酒的评分进行求和,得出每位评酒员对于每一种葡萄酒样品的总评 分,然后将每组的十位评酒员分别对于每一种葡萄酒样品的总评分进行汇总求平 均值,得出每组评酒员对于每一种样品葡萄酒的总评分的平均值。最后对各组平均值的差值进行分析。本文利用 SAS编程得到位置检验以及正态性检验相关图, 利用符号检验、Wilcox on符号秩检验、W检验以及K-S检验知道,这两种葡萄

2、酒 的评分检验存在显著性差异。但是白葡萄酒的评分差值服从正态分布。 引言葡萄酒是以新鲜葡萄汁或葡萄为原料,经过发酵而成的含有多种营养成分的饮料酒,是世界上公认的对人体有益的健康酒精饮品。在葡萄酒酿出来之时,需要确定葡萄酒的质量,在这时一般需要聘请一批有资质的评酒员进行品评。在每 个评酒员评分之前制定打分的标准,然后每个评酒员在对葡萄酒进行品尝后按照 评分的标准进行打分。然后对其评分求和,并做出平均数,从而确定葡萄酒的质 量的好坏。但是由于主观误差的存在,使得这种方法产生的结果有较大的差异性。 所以就评酒员的评分结果进行检验,判断数据有误显著性差异。文章采用的数据来自2012年“高教社杯”全国大

3、学生数学建模竞赛的题目,其中题目给出两 组评酒员分别对27种红葡萄酒样品和28种白葡萄酒样品的品尝评分。文章将基 于符号检验对两组红葡萄酒评分差异性进行检验,同时基于Wilcoxon符号秩检验对两组白葡萄酒评分差异性进行检验。1方法介绍及步骤1.1检验方法简介符号检验(sign test)是非参数统计中最古老的检验方法之一,是通过两个相关样本的每对数据之差的符号进行检验, 从而比较两个样本的显著性。具体地讲,若两 个样本差异不显著,正差值与负差值的个数应大致各占一半。 需要特别指出的是符 号检验与参数检验中相关样本显著性t检验是相对应的,当数据分布不满足参数检验的要求时,可以采用此方法来检验两

4、个相关样本的差异显著性。符号检验除了可以检验成对样本,还可以分析判断两个总体之间是否存在显 著性差异,还可以用于检验一个样本是否来自某个总体。结合文章所给数据,易知文章采用符号检验的目的是检验两个相关样本的差异显著性。符号检验的步骤:设置假设(判别中心位置是否为中位数 M0。H 0 :Me=M H1 : Me M构建检验统计量S+:表示大于M0的数据的个数S-:表示小于M0的数据的个数!=1在显著性水平为a前提下求出拒绝域,或求出检验 P值1.2 Wilcoxon符号秩检验简介在Wilcoxon符号秩检验中,它把观测值和零假设的中心位置之差的绝对值 的秩分别按照不同的符号相加作为其检验统计量。

5、它适用于参数检验中t检验的 成对比较,但并不要求成对数据之差服从正态分布,只要求服从对称分布即可。 检验成对观测数据之差是否来自均值为 0的总体(产生数据的总体是否具有相同 的均值)。Wilcoxon符号秩检验过程。假设样本点 X ,%, Xx,来自连续对称总体分布,则总体的中位数等于均值。 Wilcox on符号秩检验的步骤如下:对i=1,2, ,n,计算| X i-Mo | ;它们表示这样样本点到 M的距 离。将上面n个绝对值排序,并找出它们的n个秩;如果有相同的样本点, 每个点取平均秩。 令 W等于X-Mo 0的|Xi-Mo|的秩的和,W等于X-Mo 0的|Xi-Mo|的秩的 和。对双边

6、检验H0 : M = Mo H仁M工Mo,在零假设下,W和W应差不 多。因而,当其中之一,很小时,应怀疑零假设。在此,取检验统计量 WminW, W。根据得到的W值,利用统计软件或查 Wilcoxon符号秩检验的分布表以得 到在零假设下的p值。如果n很大要用正态近似:得到一个与W有关的正态随机 变量Z的值,再用软件或查正态分布表得到 p值。 如果p值较小(比如小于或等于给定的显著性水平,譬如 0.05)则可以 拒绝零假设。如果p值较大则没有充分的证据来拒绝零假设,但不意味着接受零 假设。1.3符号检验与符号秩检验区别符号检验利用了观测值和零假设的中心位置之差的符号进行检验,但是它并没有利用这些

7、差的大小(体现于差的绝对值大小)所包含的信息。因此,在符 号检验中,每个观测值点相应的正号或负号仅仅代表了该点在中心位置的哪一 边,而并没有表明该点距离中心的远近。 如果把各观测值距离中心远近的信息考 虑进去,自然比仅仅利用符号要更有效。而在Wilcoxon符号秩检验中则考虑到了各个差值距离中心位置的远近问题,使得结果更加的准确些。1.4 W检验和K-S检验简介W检验全称Shapiro-Wilk检验,是一种基于相关性的算法。当样本容量在 8 n 50时,W险验可以检验样本是否符合正态分布。通过计算可得到一个相 关系数,它越接近1就越表明数据和正态分布拟合得越好。计算公式为:其检验步骤如下:将数

8、据按数值大小重新排列,使 Xla,接受正态性假设。K-S检验全称Kolmogorov-Smirnov检验,它是用来检验单一样本是否来自 某一特定分布。这一检验方法是以样本数据的累计频数分布于特定理论分布比 较,若两者的差距很小,则推论该样本取自某特定分布族。假设问题如下:H0:样本所来自的总体分布服从某特定分布H :样本所来自的总体分布服不从某特定分布本文则主要是用其检验一组数据是否为正态分布,即Kolmogorov-Smirnov正态性检验。2实证分析2.1数据的选取文章的数据来源2012年“高教社杯”全国大学生数学建模竞赛的题目。题 目列出两组评酒员分别对28种白葡萄酒样品和27种红葡萄酒

9、样品的各项分类指 标的评分,其中每组都由十名评酒员组成。2.2数据的预处理(1)将每位评酒员分别对27种红葡萄酒样品、28种白葡萄酒样品的分类 指标评分进行求和,得出每位评酒员对于每一种葡萄酒样品的总评分。(2)将每组的十位评酒员分别对于每一种葡萄酒样品的总评分进行汇总求 平均值,得出每组评酒员对于每一种葡萄酒的总评分的平均值。(3)对得到的相关数据进行整理,使用 Excel编制表格如下:白酒与红酒分类汇总的平均值baijiuonetwoho ngjiufirstsecond18277.9162.768.1274.275.8280.374385.375.6380.474.6479.476.94

10、68.671.257181.5573.372.1668.475.5672.266.3777.574.2771.565.3871.472.3872.366972.980.4981.578.21074.379.81074.268.81172.371.41170.161.61263.372.41253.968.31365.973.91374.668.8147277.1147372.61572.478.41558.765.7167467.31674.969.9仃78.880.31779.374.51873.176.71859.965.41972.276.41978.672.62077.876.6207

11、8.675.82176.479.22177.172.2227179.42277.271.62375.977.42385.677.12473.376.1247871.52577.179.52569.268.22681.374.32673.8722764.877277371.52881.379.6注: 表中128指葡萄酒样品的编号,其中“ hongjiu ”是指红葡萄酒, “ baijiu ”是指白葡萄酒。one是指第一组评酒员,two是指第二组评酒员。并且它们下面的数值 是每组评酒员对于每一种葡萄酒的总评分的平均值。2.3分析过程本文主要使用SAS9.2软件对符号检验与和符号秩检验进行编程,运行

12、程序 后得到相关结果,并进行相应分析。2.3.1两种葡萄酒样品评分提出假设假设检验问题:(设定显著性水平为a =0.05)Hb :两组红葡萄酒样品评分无显著性差异H :两组红葡萄酒样品评分存在显著性差异H0 :两组白葡萄酒样品评分无显著性差异H :两组白葡萄酒样品评分存在显著性差异2.3.2两种葡萄酒的评分数据编程依据整理好的数据,编程如下:编程2 一为白葡萄差值、正态检验、位置检验Data X;in put baijiu one two; diff= on e-two;cards ;8277.974.2 75.885.3 75.679.4 76.97181.568.4 75.577.5 74

13、.271.4 72.372.9 80.474.3 79.872.3 71.463.3 72.465.9 73.97277.172.4 78.47467.378.8 80.373.1 76.772.2 76.477.8 76.676.4 79.27179.475.9 77.473.3 76.177.1 79.581.3 74.364.8 7781.3 79.6run;proc uni variate data =X no rmal;var diff;run;编程二为红葡萄差值、正态检验、位置检验data Y;in put hon gjiu one two;diff= on e-two;cards

14、 ;162.768.1280.374380.474.6468.671.2573.372.1672.266.3771.565.3872.366981.578.21074.268.81170.161.61253.968.31374.668.81473 72.61558.765.71674.969.91779.374.51859.965.41978.672.62078.675.82177.172.22277.271.62385.677.12478 71.52569.268.273.87273 71.5 run;proc uni variate data =Y no rmal;var diff;run

15、;2.3.3两种葡萄酒的评分差值分析根据上述的编程运行程序,得表如下:表1两组红葡萄酒样品评分差值1 IScielSJ1艮同型1艮同创onet wod i ffIkMlitj区冋型 hongf uX7-I-T-I-T-T .133-L囂2.E5?8B* .Mili 卄 “Hai325*肌.32:177 7-J 34 -X-I77T7_-u2:86 8.8G 76B = s-_3-522.L47877-17-17f:-6n-38斗050-7.US 一,?.5 4- -ITeErv*s.2567 EE 7.6RU74 3ft,77574734582612.1.77777 7 5,7788一9 01

16、2311 Z2Z2-X7-I7- 1181920 1仝1 12223-17-7?7271,.e-0837724i兀 tr26 2725一2_臣27由表1的diff一列,易知第一组的大部分评分相比第二组的要较高一些,所以 差值为正数较多,但是不易观测出两组整体评分差异大小, 至于是否有显著性差 异需要进一步分析表2两组白葡萄酒样品评分差值(Ki司垫 onet wodiff0.12382.0152022232425262777753.4q4549$3.1s.7i.2077.6?7 7W6T 右 420 77S7778912377H.774-079.877_876.4 71/0 75.973 77-

17、1164/8 8 1/3777676 - 79 * 276 - 173.579 - 69 2.0 7.3 0.75Q98二二二-2.8.曹-12.21 T 7由表2的diff一列,易知第二组的大部分评分相比第一组要较大一些,所以存在较多的负值,但是不易观测出两组整体评分差异大小, 至于是否有显著性差异需要进一步分析(3)对红葡萄酒和白葡萄酒样品评分差值分析2.3.4两种葡萄酒的评分差值的直方图分析图1红葡萄酒样品评分差值直方图o,o&-密0.04-0,02-15 -10iiiuiHijiii:iiiciiniioSIBI3B 辿亘回回 T,二.二n:ii:iniir:ii:ir曲线分布方法均值

18、7Oamg:公議正态-样倉2.5407 FT匸狛伯 了 :2.540710diff1 diff由图1红葡萄酒样品评分差值直方图,可以明显看出评分差值既不服从正态 分布,也不服从单峰对称分布,因此选择符号检验是比较合适的。图2白葡萄酒样品评分差值直方图JtJ査数浇度估讦曲钱分布i方进/ThetaS i靱曲众数正态;样本-2-27145.5089 FT J-2714根据图1白葡萄酒样品评分差值直方图,易知该分布是单峰对称分布,同时 也近似服从正态分布。在对其进行检验时,可以选择符号检验和符号秩检验, 但 结合两种检验的优缺点,为了取得更好的检验效果应选择符号秩检验。2.3.5两种葡萄酒的评分差值的

19、正太 QQ图分析图3红葡萄酒样品评分差值正太QCS兀直线!截距正怎隨參考线斜率2.5419j 5.0154 FFj由图3红葡萄酒样品评分差值正态 QQ图,可以明显看出QQ图上的点并没有近似地分布在一条直线附近,由此得出评分差值不服从正态分布。图4白葡萄酒样品评分差值正太QCS5T止态如蜃肴零4 1 -2.2713 pJ7:- J -3 8 -5斜48由图4白葡萄酒样品评分差值正态 QQ图,可以明显看出QQ图上的点近 似地分布在一条直线附近,由此得出评分差值近似服从正态分布。2.3.6两种葡萄酒的评分差值的位置检验及正太性检验分析图6白葡萄酒样品评分差值位置检验及正态性检验图位置检验:MuO=O

20、统计童P值t -2.18379M -58即5Pr |t|04)79沁 M0.0672Pr = S0,D345正态性检验检验计重P值Shapiro-WiIk0.983689Pr DOJ50DCraifter-von Mises卜Sq0.022066Pr ;卜阴0.2500Anderson-Dari insA-Sq0.154856Pr A-Sq0.2500由图6白葡萄酒样品评分差值的位置检验 ,在符号秩检验的p值为0.0345 ,其 小于显著性水平 a=0.05,因此得出拒绝原假设,接受备择假设的结论,即两组 白葡萄酒样品评分存在显著性差异。同时,我们观测Student检验的p值,可以发现其与符号

21、秩检验的p值很接 近。前者为0.0378,后者为0.0345,这从侧面证明数据近似服从正态分布。至 于观测符号检验得其 p=0.0872 a=0.05,而这将得出与符号秩检验截然相反的结 论一一接受原假设,拒绝备择假设。由此可见,在对单峰对称分布进行检验时, 符号秩检验效果优于符号检验。由图6白葡萄酒样品评分差值的正态性检验 ,可知,W检验的p值0.9276 远远大于显著性水平 a =0.05,且K-S检验的p值大于0.1500,更大于a =0.05, 从而得出白葡萄酒样品评分差值所来自的总体分布服从正态分布。图7红葡萄酒样品评分差值位置检验及正态性检验图位置检验:MuO=G一统计S P値St

22、udent tt2.457626Pr It IQ.021QM8,5Pr= Ml9,0015S105.5Pr= S|O.OOS5正态性栓验-纟克计P值ShapE ro-T11kKo I ihosorov-Sm i rnov Creimer- vor M i ses Anderson-Dariinga- q ss w D w A0.8260?0.2185210.3021521.691153Pr D V-SM A-Sq 0.0050由图7红葡萄酒样品评分差值位置检验 ,符号检验的p值为0.0015,其小于 显著性水平a =0.05,因此拒绝原假设,接受备择假设,即两组红葡萄酒样品评 分存在显著性差异。至于Student t检验和符号秩检验因其不符合本例适用条件, 故相应结果不予考虑。由图7红葡萄酒样品评分差值正态性检验可知, W佥验的p值0.0004小于 a =0.05,且K-S检验的p值小于0.01,即也小于a =0.05,从而得出红葡萄酒 样品评分差值所来自的总体分布不服从正

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论