版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
10.1非参数统计的概念和应用范围一、非参数统计概念参数统计(parametricstatistics):在前面所讨论的方法中,如总体均数的区间估计、两个或多个均数的比较、相关系数与回归系数的假设检验等,常有一个关于总体变量分布的前提。都以变量的总体分布已知作为前提的。如t检验和方差分析都要求总体变量服从正态分布,即假设样本所来自的总体分布具有某个已知的函数形式,而其中有的参数是未知的,统计分析的目的就是对这些未知参数进行估计或检验。这类方法称为参数统计(parametricstatistics),所用的检验称为参数检验(parametrictest)。非参数统计(nonparametricstatistics):在许多实际问题中总体分布的函数形式往往不知道,或者知道得很少,例如只知道总体分布是连续型的或离散型的。这时参数统计方法就不大适用了,而需要借助于另一种不依赖总体分布的具体形式,也不对参数进行估计或检验的统计方法,而是对总体的分布型或分布的位置进行检验,这种假设检验方法称为非参数统计(nonparametricstatistics),其检验方法就是非参数检验(nonparametrictest),它检验的是分布或分布位置,而不是参数。即在假设检验中不对参数作明确的断定,也不涉及关于样本所来自的总体分布的检验。如卡方检验,本章要讲到的秩和检验和Ridit分析等。二、非参数统计方法的适用范围1、有序分类资料(变量)。有的教材中称为等级分组资料。如临床上疗效等级。2、未知分布型的资料和一端或两端无界的资料。3、极度偏态资料。经一定变量变换方法转换后仍不能成正态分布或某种特定的分布。4、个体变异较大,各比较组间方差不齐的资料。三、非参数统计方法的优缺点非参数统计的主要优点是:适用范围广。因为非参数统计方法不受总体分布的限制,即使分布是未知时也能适用,尤其适用于对有序分类资料,它们是有序分类资料最有效的统计方法。搜集资料方便。由于非参数统计在搜集资料时可用“等级”或“符号”来评定观察结果,因而搜集资料十分方便。非参数统计的主要缺点是:对适宜用参数方法的资料,若用非参数法处理,因没有充分利用资料提供的信息,而效率降低。如对于适用参数检验的资料,若用非参数检验,导致检验功能下降。即当无效假设H0不真时,非参数检验不如参数检验能较灵敏地拒绝H0,犯第II类错误的概率要比参数检验大。本章介绍的一些秩和检验,其效率是相应参数检验的95%;Spearman等级相关的效率同功效最强的参数相关检验®相比大约为91%。非参数统计方法很多,本章仅介绍秩和检验(ranksumtest)、等级相关(rankcorrelation)和Ridit分析等一些常用的、效率较高又比较系统的方法。10.2两样本比较秩和检验一、适用资料:两样本比较秩和检验(Wilcoxon两样本比较法)适用于完全随机设计中两组或调查研究中两样本比较,其资料类型可以为数值变量资料,也可以是两组有序分类变量资料。下面结合实例加以介绍二、检验方法与步骤(见例10.2)(一)原始数据的两样本检验例10.2测得铅作业与非铅作业工人的血铅值(”mol/L),见表10.1,问两组工人的血铅值有无差别?表1口1两组工人的血铅值(^rngVL)铅作业组(1)秩很⑵⑶秩次⑷'0.8290.241.0.S7.10:5W-20.9712.K叫31.21140.3341.64150.4452.081662.13'170.6370.72S0.S710.51.0113虹7Ti=93.5以=1口分析:此资料为从铅作业和非铅作业工人的两个总体中随机抽取的两个样本比较的数值变量资料,其分布为偏态分布。1、检验假设HO:铅作业工人和非铅作业工人血铅值分布的位置相同。H1:铅作业工人和非铅作业工人血铅值分布的位置不同。a=0.052、求检验统计量T值⑴编秩。将两组数据分别由小到大排序,然后统一编秩。编秩时如遇有原始数据相同时,可分两种情况处理:①相同数据在同一组,如非铅作业组第1、2两个数据皆是0.24,其秩次按位置的顺序记为1、2。②相同数据分在两组,如铅作业和非铅作业组各有一个0.87,应编秩次10、11,均取其平均秩次(10+11)/2=10.5。⑵求秩和,确定检验统计量。分别求两组秩和,以样本含量较小者为n1,其秩和为统计量T。若n1=n2,可取任一组的秩和为T。本例n1=7,n2=10,T=93.5。3、确定P值和作出推断结论⑴查表法。由n1,n2-n1查附表18,若T值在界值Ta范围内,则P>a若T值在界值Ta夕卜,或恰好等于下界值(或上界值),则PWa。本例n1=7,n2-n1=3,T=93.5,查附表18得双侧P<0.05,按a=0.05水准,拒绝H0,接受H1,故认为铅作业工人比非铅作业工人的血铅值高。⑵u检验法。如果n1或n2-n1超出附表18的范围,可用正态近似法即u检验,按式(10.2)计算u值。(1口•矽"-小(心1)制—0.5式中N=n1+n2,0.5为连续性校正数。标拉+】/和1)门2分别是统计量丁的均数和标准误。公式(10.2)是在无相同秩次(tie)(1口•矽当相同秩次较多时,尤其在有序分类资料中,常采用频数表作秩和检验,以各组段的平均秩次代表该组段的所有观察值。故按(10.2)式计算的u偏小,须按(10.3)式校正。D京(1粉式中C=1一以I)仞顷)tj为第j个相同秩次的个数。(二)频数表资料的两样本比较例10.2用某药治疗不同病情的老年慢性支气管炎病人,疗效见表10.2第(1)、(2)两栏,问该药对两种病情的老年慢性支气管炎病人的疗效是否相同?表糖对两神病情的老年慢性支气管炎病入的疗效比较疗效单舞性(1)单纯性合并肺气肿(2)合计矛-(11)+隽)秩次范围(4)平均秩决(5)秩和单觌性合并肺气肿〔7岸甲心1控制65-42107U1075435102268显效1862410S-131119.52151717有效302353132.^1841炙47403634无效13112418茂196':52554.52161,5-合计126§2208'12955.5§780.5分析:本资料两组有序分类资料的比较。1、检验假设H0:两种病情病人的疗效分布相同H1:两种病情病人的疗效分布不同,a=0.052、计算检验统计量u值编秩。两样本秩和检验的基本思想是先将两组数据分别从小到大排序,然后统一编秩;对于两组有序分类资料,如表10.2,实际上已按等级进行群体排队,如表10.2中第一栏,65个“控制”排在最前,其次是18个“显效”,„;由于有序分类资料,在两组统一编秩时,相同秩次很多,如表10.2中的第四栏。为对两组数值进行编秩,需先计算各等级的合计人数,见第(3)栏,再确定各等级的合计例数在两组所有数值中所处的秩次,即秩次范围。如疗效为“控制”者共107人,其秩次范围1〜107,这107人属同一等级,不能分高低,故一律以其平均秩次(1+107)/2=54代表,仿此得(4)、(5)栏。求秩和。分别将每组各等级的频数乘以每个等级的平均秩次,即表中的第(5)栏乘以(1)、(2)栏人数,相加即得两组各自的秩和,见第(6)、(7)栏,因n1=82,T=8780.5。此例n1=82,n2=126,n2-n1=44,已超过附表18所列范围,可由公式(10.2)求u值。又由于此资料的相同秩次很多,须按(10.3)式作校正。
|8780.5-l/2^82^i20S+li-0.5'.一=0.4974J82:xl26><(208+11/12208^-20811073-1071+1245-241+1533-53:|+(24s-24I.、=0S443208^-20804974一====0.541-./014433、确定P值和作出结论推断uc<1.96,P>0.05,按a=0.05水准不拒绝H0,故认为本疗法对上述两种病情的患者并未显示出不同疗效。注意:本例也可用第8章中RXC表沧检验,但在沧检验中,各级的秩序任意排列所得X2值相同,因而判断结果相同。但各级别有强弱之分,不能任意排列,只能从强到弱或从弱到强。因此,X2检验没有考虑等级的强弱信息,而秩和检验考虑了这点,说明秩和检验更适合于单向有序分类资料。三、本法的基本思想如果H0成立,则当n1与n2确定后,样本含量为n1的样本之T与其平均秩和n1(N+1)/2应相差不大;若相差悬殊,超出了附表18中按a水准所列的范围,说明随机抽得现有样本统计量T值的概率P小于a,因而在a水准上拒绝H010.3多个样本的秩和检验在第7章里我们介绍过完全随机设计资料的方差分析法。这里介绍一种与之对应的非参数统计方法一H检验(Kruskal-Wallis法),此法适用于有序分类资料及不宜用参数检验(F检验)的数值变量资料。方法步骤见例10.3。例10.3在研究白血病时,测得鼠脾的DNA含量如表10.3第(1)、(3)、(5)、(7)栏。问不同病情的鼠脾DNA含量有无差别?216J134J123.5J54.5++216J134J123.5J54.5+++8798正常C1)秩毒自发件白而秩袱⑷患移植性白血病眩蹒片组)⑸秩次(6)患移植性白血病OB【召组)(7)秩彼顷⑵病时的脾(3)12.310.8W9.3195.213.22211.61310.33;510.33.513.72612:.31811.11110/5515.2招12.72111.71410:5615.42913.52311.71510:5115..S-3013.52412.01610.P916.P3114.82712.311.01017.3321242011.51213.215Bi2161341.23.5.54:5879%-3x(32+1)=19.8991
假设:H0:四种鼠脾DNA含量的总体分布位置相同。H1:四种鼠脾DNA含量总体分布位置不同或不全相同。a=0.05(2)计算检验统计量H值先将四组观察值分别由小到大排队,统一编秩,见表10.3第(2)、(4)、(6)、(8)栏;遇有相同观察值时,若相同数据在不同组内,取其平均秩次,如第(5)、(7)栏各有一个10.3,均取原秩次3及4的平均秩次3.5,若相同数据在同一组内,其秩次按位置顺序编号,如第3)栏有两个13.5,可不必计算平均秩次,但校正时仍视为相同秩序。再求出各组秩和,记为Ri,下标i表示组序(i=1、2、3、4)。按式(10.3)计算统计量H值。(10.4)式中ni为各组例数,N=为总例数。本例:确定P值和作出推断结论若组数k=3,每组例数niW5,可查附表19,H界值表得出P值。若k>3最小样本例数不小于5,则H近似服从v=k-1的X分布。本例k=4,ni>5,v=k-1=4-1=3,查附表4,X界值表,得P<0.005。按a=0.05水准拒绝H0,接受H1,认为不同病情的鼠脾DNA含量有差别。当各样本相同秩次较多时,由式(10.3)计算所得的H值偏小,此时应按式(10.4)作H值的校正。(10.5)N3-N例10.4某医生用三种方剂治疗某妇科病,疗效如表10.4,问三种方剂的疗效有无差别?表1D.4三种方剂的疗效比较疗效(1)糖衣片⑵黄酮片⑶复方组⑷合计⑸秩次范围平均秩次⑺无效485131~免33.5好转1843623667-3021845显效771811106303-408355项控制5219178S452.5S645951^.11618680.53615877(1)假设H0:三种方剂疗效分级的总体分布相同。
H1:三种方剂疗效分级的总体分布不同或不全同。a=0.05(2)求检验统计量Hc为了对三组有分类资料进行统一编秩,需计算各等级的合计数,见表10.4(5)栏,再决定各等级的合计例数在所有数值中所处的秩次范围如(6)栏所示。由于同一等级的数据为相同的数值,故应计算平均秩次如(7)栏。再求秩和Ri。如(2)栏R1是用(2)栏各等级的频数与⑺栏平均秩次相乘再求和,即A,=48x33.5+184x184.5+77x355.5+52x452.5=86459.5,七小曰主“/1,仿此得表10.4下部Ri行。按(10.4)式(10.5)计算H值。12H.=又12H.=又
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 证券公司围护桩施工合同
- 道路施工队合作协议
- 农村房屋拆迁补偿合同
- 剧院排水设施安装合同
- 培训零售环境防疫措施
- 医疗器械招投标规范解读
- 无抵押企业借款合同
- 通信设备质量管理办法
- 商业综合体二手房交易合同范文
- 制造执行系统操作与应用课件 3-4-2典型离散制造工艺
- 手机摄影PPT学习课件(摄影的七大要素)
- 换药,拆线课件
- 生物武器1课件
- 家务劳动我能行-完整版课件
- 部编版二年级语文上册第9课-黄山奇石课件
- 国开电大 管理概论 形考任务一(画组织结构图)
- 七年级数学上册-找规律
- DB42T1319-2021绿色建筑设计与工程验收标准
- 市政给排水管道安装工程监理细则
- 结直肠的锯齿状病变及其肿瘤课件
- 《国家安全法》 详解课件
评论
0/150
提交评论