




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2016-2017学年第1学期非参数统计课程论文题目:基于符号检验的葡萄酒评分差异性检验姓名:学号:班级:授课教师:完成时间:2016年10月29日引言葡萄酒是以新鲜葡萄汁或葡萄为原料,经过发酵而成的含有多种营养成分的饮料酒,是世界上公认的对人体有益的健康酒精饮品。在葡萄酒酿出来之时,需要确定葡萄酒的质量,在这时一般需要聘请一批有资质的评酒员进行品评。在每个评酒员评分之前制定打分的标准,然后每个评酒员在对葡萄酒进行品尝后按照评分的标准进行打分。然后对其评分求和,并做出平均数,从而确定葡萄酒的质量的好坏。但是由于主观误差的存在,使得这种方法产生的结果有较大的差异性。所以就评酒员的评分结果进行检验,判断数据有误显著性差异。文章采用的数据来自2012年“高教社杯”全国大学生数学建模竞赛的题目,其中题目给出两组评酒员分别对27种红葡萄酒样品和28种白葡萄酒样品的品尝评分。文章将基于符号检验对两组红葡萄酒评分差异性进行检验,同时基于Wilcoxon符号秩检验对两组白葡萄酒评分差异性进行检验。1方法介绍及步骤1.1检验方法简介符号检验(signtest)是非参数统计中最古老的检验方法之一,是通过两个相关样本的每对数据之差的符号进行检验,从而比较两个样本的显著性。具体地讲,若两个样本差异不显著,正差值与负差值的个数应大致各占一半。需要特别指出的是符号检验与参数检验中相关样本显著性t检验是相对应的,当数据分布不满足参数检验的要求时,可以采用此方法来检验两个相关样本的差异显著性。符号检验除了可以检验成对样本,还可以分析判断两个总体之间是否存在显著性差异,还可以用于检验一个样本是否来自某个总体。结合文章所给数据,易知文章采用符号检验的目的是检验两个相关样本的差异显著性。符号检验的步骤:(1)设置假设(判别中心位置是否为中位数M0)。H0:Me=MH1:Me≠M(2)构建检验统计量S+:表示大于M0的数据的个数S-:表示小于M0的数据的个数则则(3)在显著性水平为a前提下求出拒绝域,或求出检验P值。1.2Wilcoxon符号秩检验简介在Wilcoxon符号秩检验中,它把观测值和零假设的中心位置之差的绝对值的秩分别按照不同的符号相加作为其检验统计量。它适用于参数检验中t检验的成对比较,但并不要求成对数据之差服从正态分布,只要求服从对称分布即可。检验成对观测数据之差是否来自均值为0的总体(产生数据的总体是否具有相同的均值)。Wilcoxon符号秩检验过程。假设样本点X1,X2,···,XX,来自连续对称总体分布,则总体的中位数等于均值。Wilcoxon符号秩检验的步骤如下:(1)对i=1,2,···,n,计算|Xi-M0|;它们表示这样样本点到M0的距离。(2)将上面n个绝对值排序,并找出它们的n个秩;如果有相同的样本点,每个点取平均秩。(3)令W+等于Xi-M0>0的|Xi-M0|的秩的和,W-等于Xi-M0<0的|Xi-M0|的秩的和。(4)对双边检验H0:M=M0<=>H1:M≠M0,在零假设下,W+和W-应差不多。因而,当其中之一,很小时,应怀疑零假设。在此,取检验统计量W=min{W+,W-}。(5)根据得到的W值,利用统计软件或查Wilcoxon符号秩检验的分布表以得到在零假设下的p值。如果n很大要用正态近似:得到一个与W有关的正态随机变量Z的值,再用软件或查正态分布表得到p值。(6)如果p值较小(比如小于或等于给定的显著性水平,譬如0.05)则可以拒绝零假设。如果p值较大则没有充分的证据来拒绝零假设,但不意味着接受零假设。1.3符号检验与符号秩检验区别符号检验利用了观测值和零假设的中心位置之差的符号进行检验,但是它并没有利用这些差的大小(体现于差的绝对值大小)所包含的信息。因此,在符号检验中,每个观测值点相应的正号或负号仅仅代表了该点在中心位置的哪一边,而并没有表明该点距离中心的远近。如果把各观测值距离中心远近的信息考虑进去,自然比仅仅利用符号要更有效。而在Wilcoxon符号秩检验中则考虑到了各个差值距离中心位置的远近问题,使得结果更加的准确些。1.4W检验和K-S检验简介W检验全称Shapiro-Wilk检验,是一种基于相关性的算法。当样本容量在8≤n≤50时,W检验可以检验样本是否符合正态分布。通过计算可得到一个相关系数,它越接近1就越表明数据和正态分布拟合得越好。计算公式为:其检验步骤如下:①将数据按数值大小重新排列,使X1≤X2≤···≤Xn;②计算上式分母;③计算a值,可查表得出;④计算检验统计量W;⑤若W值小于判断界限值Wα(可通过查表求得),按表上行写明的显著性水平α舍弃正态性假设;若W>Wα,接受正态性假设。K-S检验全称Kolmogorov-Smirnov检验,它是用来检验单一样本是否来自某一特定分布。这一检验方法是以样本数据的累计频数分布于特定理论分布比较,若两者的差距很小,则推论该样本取自某特定分布族。假设问题如下:H0:样本所来自的总体分布服从某特定分布H1:样本所来自的总体分布服不从某特定分布本文则主要是用其检验一组数据是否为正态分布,即Kolmogorov-Smirnov正态性检验。2实证分析2.1数据的选取文章的数据来源2012年“高教社杯”全国大学生数学建模竞赛的题目。题目列出两组评酒员分别对28种白葡萄酒样品和27种红葡萄酒样品的各项分类指标的评分,其中每组都由十名评酒员组成。2.2数据的预处理(1)将每位评酒员分别对27种红葡萄酒样品、28种白葡萄酒样品的分类指标评分进行求和,得出每位评酒员对于每一种葡萄酒样品的总评分。(2)将每组的十位评酒员分别对于每一种葡萄酒样品的总评分进行汇总求平均值,得出每组评酒员对于每一种葡萄酒的总评分的平均值。(3)对得到的相关数据进行整理,使用Excel编制表格如下:白酒与红酒分类汇总的平均值baijiuonetwohongjiufirstsecond18277.9162.768.1274.275.8280.374385.375.6380.474.6479.476.9468.671.257181.5573.372.1668.475.5672.266.3777.574.2771.565.3871.472.3872.366972.980.4981.578.21074.379.81074.268.81172.371.41170.161.61263.372.41253.968.31365.973.91374.668.8147277.1147372.61572.478.41558.765.7167467.31674.969.91778.880.31779.374.51873.176.71859.965.41972.276.41978.672.62077.876.62078.675.82176.479.22177.172.2227179.42277.271.62375.977.42385.677.12473.376.1247871.52577.179.52569.268.22681.374.32673.8722764.877277371.52881.379.6注:①表中1~28指葡萄酒样品的编号,其中“hongjiu”是指红葡萄酒,“baijiu”是指白葡萄酒。②one是指第一组评酒员,two是指第二组评酒员。并且它们下面的数值是每组评酒员对于每一种葡萄酒的总评分的平均值。2.3分析过程本文主要使用SAS9.2软件对符号检验与和符号秩检验进行编程,运行程序后得到相关结果,并进行相应分析。2.3.1两种葡萄酒样品评分提出假设假设检验问题:(设定显著性水平为α=0.05)H0:两组红葡萄酒样品评分无显著性差异H1:两组红葡萄酒样品评分存在显著性差异H0:两组白葡萄酒样品评分无显著性差异H1:两组白葡萄酒样品评分存在显著性差异2.3.2两种葡萄酒的评分数据编程依据整理好的数据,编程如下:编程[2]一为白葡萄差值、正态检验、位置检验DataX;inputbaijiuonetwo;diff=one-two;cards;18277.9274.275.8385.375.6479.476.957181.5668.475.5777.574.2871.472.3972.980.41074.379.81172.371.41263.372.41365.973.9147277.11572.478.4167467.31778.880.31873.176.71972.276.42077.876.62176.479.2227179.42375.977.42473.376.12577.179.52681.374.32764.8772881.379.6;run;procunivariatedata=Xnormal;vardiff;run;编程[2]二为红葡萄差值、正态检验、位置检验dataY;inputhongjiuonetwo;diff=one-two;cards;1 62.7 68.12 80.3 743 80.4 74.64 68.6 71.25 73.3 72.16 72.2 66.37 71.5 65.38 72.3 669 81.5 78.210 74.2 68.811 70.1 61.612 53.9 68.313 74.6 68.814 73 72.615 58.7 65.716 74.9 69.917 79.3 74.518 59.9 65.419 78.6 72.620 78.6 75.821 77.1 72.222 77.2 71.623 85.6 77.124 78 71.525 69.2 68.226 73.8 7227 73 71.5;run;procunivariatedata=Ynormal;vardiff;run;2.3.3两种葡萄酒的评分差值分析根据上述的编程运行程序,得表如下:表1两组红葡萄酒样品评分差值由表1的diff一列,易知第一组的大部分评分相比第二组的要较高一些,所以差值为正数较多,但是不易观测出两组整体评分差异大小,至于是否有显著性差异需要进一步分析。表2两组白葡萄酒样品评分差值由表2的diff一列,易知第二组的大部分评分相比第一组要较大一些,所以存在较多的负值,但是不易观测出两组整体评分差异大小,至于是否有显著性差异需要进一步分析。(3)对红葡萄酒和白葡萄酒样品评分差值分析2.3.4两种葡萄酒的评分差值的直方图分析图1红葡萄酒样品评分差值直方图由图1红葡萄酒样品评分差值直方图,可以明显看出评分差值既不服从正态分布,也不服从单峰对称分布,因此选择符号检验是比较合适的。图2白葡萄酒样品评分差值直方图根据图1白葡萄酒样品评分差值直方图,易知该分布是单峰对称分布,同时也近似服从正态分布。在对其进行检验时,可以选择符号检验和符号秩检验,但结合两种检验的优缺点,为了取得更好的检验效果应选择符号秩检验。2.3.5两种葡萄酒的评分差值的正太QQ图分析图3红葡萄酒样品评分差值正太QQ图由图3红葡萄酒样品评分差值正态QQ图,可以明显看出QQ图上的点并没有近似地分布在一条直线附近,由此得出评分差值不服从正态分布。图4白葡萄酒样品评分差值正太QQ图由图4白葡萄酒样品评分差值正态QQ图,可以明显看出QQ图上的点近似地分布在一条直线附近,由此得出评分差值近似服从正态分布。2.3.6两种葡萄酒的评分差值的位置检验及正太性检验分析图6白葡萄酒样品评分差值位置检验及正态性检验图由图6白葡萄酒样品评分差值的位置检验[1],在符号秩检验的p值为0.0345,其小于显著性水平α=0.05,因此得出拒绝原假设,接受备择假设的结论,即两组白葡萄酒样品评分存在显著性差异。同时,我们观测Student检验的p值,可以发现其与符号秩检验的p值很接近。前者为0.0378,后者为0.0345,这从侧面证明数据近似服从正态分布。至于观测符号检验得其p=0.0872>α=0.05,而这将得出与符号秩检验截然相反的结论——接受原假设,拒绝备择假设。由此可见,在对单峰对称分布进行检验时,符号秩检验效果优于符号检验。由图6白葡萄酒样品评分差值的正态性检验[1],可知,W检验的p值0.9276远远大于显著性水平α=0.05,且K-S检验的p值大于0.1500,更大于α=0.05,从而得出白葡萄酒样品评分差值所来自的总体分布服从正态分布。图7红葡萄酒样品评分差值位置检验及正态性检验图由图7红葡萄酒样品评分差值位置检验[1],符号检验的p值为0.0015,其小于显著性水平α=0.05,因此拒绝原假设,接受备择假设,即两组红葡萄酒样品评分存在显著性差异。至于Studentt检验和符号秩检验因其不符合本例适用条件,故相应结果不予考虑。由图7红葡萄酒样品评分差值正态性检验可知,W检验的p值0.0004小于α=0.05,且K-S检验的p值小于0.01,即也小于α=0.05,从而得出红葡萄酒样品评分差值所来自的总体分布不服从正态分布。2.4小结通过对两组评酒员对28种白葡萄酒样品和27种红葡萄酒样品的评分根据数据的差异,我们分别进行符号秩检验和符号检验,得出了两组评酒员对白葡萄酒样品评分的检验存在着显著性的差异性,但是这两组白葡萄酒的样品评分差值的总体服从正态分布,而红葡萄酒样品评分检验也存在着显著性差异,而这两组红葡萄酒样品评分差值的总体分布不服从正态分布。由此可知,两组评酒员对于红白两种葡萄酒的评分结果都有显著性差异。参考文献[1]刘荣.SAS统计分析与应用事例[M].北京.电子工业出版社。[2]王星.非参数统计[M].中国人民出版社。[3]贾俊平.何晓群.金勇进.统计学[M].中国人民大学出版社。基于C8051F单片机直流电动机反馈控制系统的设计与研究基于单片机的嵌入式Web服务器的研究MOTOROLA单片机MC68HC(8)05PV8/A内嵌EEPROM的工艺和制程方法及对良率的影响研究基于模糊控制的电阻钎焊单片机温度控制系统的研制基于MCS-51系列单片机的通用控制模块的研究基于单片机实现的供暖系统最佳启停自校正(STR)调节器单片机控制的二级倒立摆系统的研究基于增强型51系列单片机的TCP/IP协议栈的实现基于单片机的蓄电池自动监测系统基于32位嵌入式单片机系统的图像采集与处理技术的研究基于单片机的作物营养诊断专家系统的研究基于单片机的交流伺服电机运动控制系统研究与开发基于单片机的泵管内壁硬度测试仪的研制基于单片机的自动找平控制系统研究基于C8051F040单片机的嵌入式系统开发基于单片机的液压动力系统状态监测仪开发模糊Smith智能控制方法的研究及其单片机实现一种基于单片机的轴快流CO〈,2〉激光器的手持控制面板的研制基于双单片机冲床数控系统的研究基于CYGNAL单片机的在线间歇式浊度仪的研制基于单片机的喷油泵试验台控制器的研制基于单片机的软起动器的研究和设计基于单片机控制的高速快走丝电火花线切割机床短循环走丝方式研究基于单片机的机电产品控制系统开发基于PIC单片机的智能手机充电器基于单片机的实时内核设计及其应用研究基于单片机的远程抄表系统的设计与研究基于单片机的烟气二氧化硫浓度检测仪的研制基于微型光谱仪的单片机系统单片机系统软件构件开发的技术研究基于单片机的液体点滴速度自动检测仪的研制基于单片机系统的多功能温度测量仪的研制基于PIC单片机的电能采集终端的设计和应用基于单片机的光纤光栅解调仪的研制气压式线性摩擦焊机单片机控制系统的研制基于单片机的数字磁通门传感器基于单片机的旋转变压器-数字转换器的研究基于单片机的光纤Bragg光栅解调系统的研究单片机控制的便携式多功能乳腺治疗仪的研制基于C8051F020单片机的多生理信号检测仪基于单片机的电机运动控制系统设计Pico专用单片机核的可测性设计研究基于MCS-51单片机的热量计基于双单片机的智能遥测微型气象站MCS-51单片机构建机器人的实践研究基于单片机的轮轨力检测基于单片机的GPS定位仪的研究与实现基于单片机的电液伺服控制系统用于单片机系统的MMC卡文件系统研制基于单片机的时控和计数系统性能优化的研究基于单片机和CPLD的粗光栅位移测量系统研究单片机控制的后备式方波UPS提升高职学生单片机应用能力的探究基于单片机控制的自动低频减载装置研究基于单片机控制的水下焊接电源的研究基于单片机的多通道数据采集系统基于uPSD3234单片机的氚表面污染测量仪的研制基于单片机的红外测油仪的研究96系列单片机仿真器研究与设计基于单片机的单晶金刚石刀具刃磨设备的数控改造基于单片机的温度智能控制系统的设计与实现基于MSP430单片机的电梯门机控制器的研制基于单片机的气体测漏仪的研究基于三菱M16C/6N系列单片机的CAN/USB协议转换器基于单片机和DSP的变压器油色谱在线监测技术研究基于单片机的膛壁温度报警系统设计基于AVR单片机的低压无功补偿控制器的设计基于单片机船舶电力推进电机监测系统基于单片机网络的振动信号的采集系统基于单片机的大容量数据存储技术的应用研究基于单片机的叠图机研究与教学方法实践基于单片机嵌入式Web服务器技术的研究及实现基于AT89S52单片机的通用数据采集系统基于单片机的多道脉冲幅度分析仪研究机器人旋转电弧传感角焊缝跟踪单片机控制系统基于单片机的控制系统在PLC虚拟教学实验中的应用研究基于单片机系统的网络通信研究与应用基于PIC16F877单片机的莫尔斯码自动译码系统设计与研究基于单片机的模糊控制器在工业电阻炉上的应用研究基于双单片机冲床数控系统的研究与开发基于Cygnal单片机的μC/OS-Ⅱ的研究基于单片机的一体化智能差示扫描量热仪系统研究基于TCP/IP协议的单片机与Internet互联的研究与实现变频调速液压电梯单片机控制器的研究基于单片机γ-免疫计数器自动换样功能的研究与实现基于单片机的倒立摆控制系统设计与实现单片机嵌入式以太网防盗报警系统基于51单片机的嵌入式Internet系统的设计与实现单片机监测系统在挤压机上的应用MSP430单片机在智能水表系
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论