关于JMP的培训教材课件_第1页
关于JMP的培训教材课件_第2页
关于JMP的培训教材课件_第3页
关于JMP的培训教材课件_第4页
关于JMP的培训教材课件_第5页
已阅读5页,还剩151页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

JMP培训讲义

JMP培训讲义1第一课JMP介绍在本课将简单介绍一下JMP具备的功能,以及一些基本的操作技巧第一课JMP介绍在本课将简单介绍一下JMP2JMP功能简介JMP可以提供一个图形界面来显示与分析数据,它具备以下功能:在数据表单上可以查看、编辑、输入与处理数据强大而图形化的统计技术数据分析功能表单的排序和合并快捷的数据分组与统计计算功能质量提升技术如过程能力等分析结果输出JMP功能简介JMP可以提供一个图形界面来显示与分析数据,它3创建JMP数据表单同一般的常用软件使用已有数据表单同一般的常用软件如打开typing.jmp选择所需行或列连续可鼠标拖放,非连续可CTRL+CLICK创建JMP数据表单4定义数据列名称与类型双击列上部或选择col/colinfoContinuous定义可连续的数值型数据Ordinal定义有顺序的数值型或字符型数据Nominal定义分类(分级)的数值型或字符型数据定义数据列名称与类型5选择变量角色方法一:选定安排列,后用col/assignroles方法二:直接通过列头右侧按钮选择NONE表示此列分析时不包括X:一般代表独立的变量Y:一般代表应变量WEIGHT:代表列中每个响应的值为重量值FREQ:代表频率LABEL:表示列中值为标识。选择变量角色方法一:选定安排列,后用col/assignr6选择分析平台从Analyze或Gragh选择分析工具数据的图形分析调整柱形条可用工具栏中的“小手”,向左移柱形变粗,向右移变细选择显示属性选择右下角的“√”中需要的分析数据或图形选择分析平台从Analyze或Gragh选择分析工具7统计报表统计报表随图形出现,单击每栏统计数据左上角的按钮可隐藏或显示统计数据完成JMP任务关闭同一般的常用软件练习打开COWBOY.JMP,用“copytorowstate”,然后选择“spinningplot”,add“x,y,z”统计报表8第二课JMP数据表的创建通过一个研究人员研究新药疗效的实例来掌握创建JMP数据表的技巧。一个研究人员想评估一种新药对降低血压的疗效,他收集了以下药方6个月的临床治疗数据:Drug,300mgDrug,450mgPlacebocontrol第二课JMP数据表的创建通过一个研究人员研究新药疗效的实例9Bloodpressurestudymonthcontrolplacebo300mg450mgMarch165163166168April162159165163May164158161153June162161158151July166158160148august163158157150Bloodpressurestudymonthcontr10在表中创建行和列加入列选择col/addcolumns或在表单的左上角“0col”双击,弹出一个参数设置对话框。设置列特性在弹出的对话框中进行相应参数的设置。加入行在左上角“0row”双击,其他同加入列操作在表中创建行和列加入列11数据输入同excel绘图分析数据将month设为X,control,placebo,300mg,450mg设为Y然后单击选择overlayplot工具,折线图出现了数据输入12加标题脚注单击右下角“*”处后出现对话框选择“TITLE”加标题选择“FOOTNOT”加脚注选择“ALLIGMENT”安排居中、左、右到这里一张分析图就做完了。加标题脚注13第三课总结数据研究背景热狗被列为非健康食品排除在自助餐目录外。很多自助餐的消费者很难过并认为这是一个不爱国的行为。自助餐营养师想把加回到食品目录中去,于是收集了54种热狗的价格、营养成分、口味等方面的数据进行分析,希望找出营养价值高、便宜、口味佳的组合。第三课总结数据研究背景14打开数据表打开名为“hotdogs.jmp”$/oz指每盎司热狗的价格$/lbprotein指每磅热狗蛋白质的价格数据分组为查看热狗的类型对身体健康是否有影响,对数据按“type”分组看:打开数据表15哪一种类型的热狗具有最少的热量?在三种类型的热狗中盐的含量是否不同?哪一种热狗具备最可接受的蛋白质水平?哪一种热狗口感好且对健康无害为达到这些目的,用“table/Group/Summary”按“type”将数据分组,如需对数据进一步分组则单击左下角“$”选择“addsummarycol”命令哪一种类型的热狗具有最少的热量?16为数据组创建统计1)单击“$”选择“addsummarycol”,弹出对话框2)选择要统计的数据组如Calories等3)选择统计的方式4)按OK确认,按“Type”分组统计就完成了。按照同样的方法可建立按“taste”的分组统计为数据组创建统计17分组数据图形化处理为了使分析的问题更直观,我们选择Bar/Pie图进行分析。如前所讲,如要加标题单击右下角“*”处后出现对话框选择“TITLE”加标题选择“FOOTNOT”加脚注“√”改变显示属性,如将图水平放置等。分组数据图形化处理18分析1)从“TYPE”分组来看,“poultryhotdogs”平均含热量比其他两种低,含盐量略高,但“protein/fat”比例明显偏高2)从“TYPE”分组来看,口味差的热狗含热量、含盐量高但“protein/fat”比例低。口味极佳的热狗含热量、含盐量最低,口味中等的热狗“protein/fat”比例明显最高分析19双组图形化分析用“GROUP/SUMMARY”命令对数据分组按“TYPE”和“TASTE”同时分组,然后用Bar/Pie使之图形化。用LABEL/UNLABEL命令可使条形上方显示数字由于“poultryhotdogs”各营养因素好,但含盐量略高,所以还需进一步的研究。双组图形化分析用“GROUP/SUMMARY”命令对数据分组20用多元特性寻找一子组用“clearrowstates”,消除源数据的标识,在“hotdogsbytypetaste”给每种类型的热狗加上不同的标识,我们通过以下步骤寻找理想的热狗。在“hotdogsbytypetaste”中,选择第2-3行,用“marker”命令标为“z”,第5-6行标为“Y”,第8-9行标为“x”用多元特性寻找一子组用“clearrowstates”,21

散点图比较

为了检查变量之间的相关性,并识别出特殊点,我们选用“FITYBYX”来进行分析。(1)将数据类型改为“CONTINUOUS”,这里我们将“FROT/FAT”由“ordinal”改为“continuous”(2)选择“FITYBYX”命令,将“¥/LBPROTEIN”定为Y,将“¥/OZ”,”prot/fat”定为X(3)选择左下角的“GROUPINGVARIABLE”(4)选择“DENSITYELLIPSES”,取0.90

散点图比较

为了检查变量之间的相关性,并识别出特殊点,我们22用同样的方法再做一个“colaries”为Y,“sodium”为X的散点图。90%椭圆显示了每种热狗二元变量之间的反馈形状。下面我们来试着找出我们需要的特殊点。操作如下:用brush刷选择“colaries”/“sodium”图中1/4区中的点,选中的点在其他图中也加亮显示。用同样的方法再做一个“colaries”为Y,“sodi23分析1)价格从图11中可以看出meat和beef的价格分布宽,poultry分布窄,在高亮显示点包括了poultry,meat,beef点。在右上角选择中的Z标志点表示最贵的种类,Y标志点(MEAT)表示比poultry贵,比beef便宜。分析1)价格242)从第二张图中可以看出,protein/fat比增大,每磅蛋白质价格降低,poultry类不但价格低而且在三者当中还有最高的蛋白质。从第三张图中可以看出poultry含盐量几乎相等,但是它含热量少。找出最佳点X标记的poultry类,最经济且其中有一些蛋白质含量很高。Meat和beef类比起来差一些。现在我们进一步来看看这两类中有无合适的点2)从第二张图中可以看出,protein/fat比增大,每磅25其操作如下:在第三图中恢复所有点的不选状态。选择热含量最低的两点和盐含量最低的一点;Y点表示最低的含盐量,低的含热量以及中等的蛋白质含量,平均的价格。用label/unlabel标出上述点。Estatechicken是三个中最经济的点。Calories-less是蛋白质含量最高的点。适当提高点价格,增加营养价值,我们是不是应该考虑Calories-less为首选。其操作如下:26第四课查看分布某机构对某地学生的健康情况进行了调查,其数据包括年龄,性别,体重,身高,具体见students.jmp。我们用JMP软件来评价一下学生的健康状况,并找出需特别关照的对象。第四课查看分布某机构对某地学生的健康情况进行了调查271打开文件,查看数据我们先试着解决以下问题:a)多少男孩和女孩参加了调查?b)他们的年龄多大?c)每组的平均身高体重是多少?1打开文件,查看数据282选择变量角色我们将age和sex设为Y3图形化显示选择distributionsofY命令。每列分别出来一个分布,显示了nominal和ordinal两种类型的分布图。从图上可以看出年龄小的和大的参与调查的人少一些。男女比例差不多。

2选择变量角色29Continunous型的分布4让我们来进一步看一下身高与体重的分布情况。将height和weight设为Y,age和sex设为NONE,仍用Y分布工具看分布。从图上可以看出,身高与体重都基本服从正态分布。体重特别突出的点稍后分析。5调整柱形条选择hand工具,向左移可增加柱形条宽度和分组宽度。向右刚好相反。Continunous型的分布4让我们来进一步看一下身高与体30OutlierBoxplotforcontinuesvariablesOutlierbox可以帮我们查看那些极端值盒子首尾代表25%与75%的数,盒中线代表中位数。盒外两端的虚线表示在远离盒边1.5倍“interquartilerange”(盒宽)范围内的点。之外的点可以用LABEL命令标识出来。红“[”表示shortesthalf,即50%的数分布最密集的位置OutlierBoxplotforcontinues31显示属性单击在左下角“√”可根据需要改变显示属性盒内钻石形区域表示样本均值95%的置信区间8reportsforcontinuevariablesJMP报告跟变量数据的类型有关。*/Reveal/conceal命令可关闭或显示报告。各字段含义见帮助。显示属性32创建子表单现在我们来找一下身高或体重失常的值,weight/height的比值可以很好的反应上述情况。为此,我们执行如下操作:9、加入新的一列。10、列名为ratio,数据来源选择“formula”,设置完属性后按OK11、在跳出的对话框建立公式weight/height。12、将ratio设置为Y,其他设置为none

创建子表单现在我们来找一下身高或体重失常的值,weight/3313、在分布图中同时选择ratio值最高与最低的柱,在数据表中加亮显示了ratio≥2.25或≤的行14、用“table/subset”筛选出数据,并将这个表用setwindowsname命令命名为你需要的名字。13、在分布图中同时选择ratio值最高与最低的柱,在数据表34第五课组均值的比较有一公司为了配合公司现代化的方针,想用现在的字符处理程序来取代打字机。打字员急切希望这一改变,并愿意参加购买哪一类设备的调研。该公司选择了三种牌子的设备,把他们随机分配给三组不同技能水平的打字员进行测试,记录他们每分钟的打字的分数。我们的任务是分析有没有哪一种牌子明显优于其他两家,有的话该公司决定购买那一种,否则可以根据员工爱好购买。第五课组均值的比较有一公司为了配合公司现代化的方针,想用351、打开TYPING.JMP。2、选择变量角色,将brand设为X,将speed设为Y。分组数据的图形化显示3、为了比较不同X水平对应Y的均值是否明显不同,我们选择fitYbyx分析工具进行分析。注fitYbyx可用于四种类型的分析:a)bothxandyhavenominal/ordinalvalues1、打开TYPING.JMP。36B)xisnominal/ordinalandyhascontinuousvaluesC)xiscontinuousandyhasnominal/ordinalD)bothxandyhavecontinuousvalues显示点在X轴上不同商标的宽度与该商标的台数成正比,从图上可以看出speedtype明显比其他的快。B)xisnominal/ordinal37Fitmeansoption为了看到分布图形更多的图形化信息,我们可以在图下浮出按钮analysis与display中选择相应的属性,最初只有showpointsandx-axisproportional显示属性有效。Fitmeansoption384、选择means,anova/t-test,显示属性自动选择了meansdiamonds属性,它画出了每组均值置性度为95%的区间。钻石形宽度与样本容量成正比。从图上可以看出regal与word-O品牌均值接近,speedytype均值明显高一些。4、选择means,anova/t-test,显示属性自动选395、用quantiles显示属性查看每组数的分布,解释见帮助。从图中可以看出regal组比word-o绕均值分布要紧凑一些,但尽管各组存在这些变异,speedytype仍然表现出了最好性能。比较环选择分析工具中的compareallpairs命令,显示属性中自动选择了comparisoncircle,图中出现三个比较环。5、用quantiles显示属性查看每组数的分布,解释见帮助40环的中心代表组的均值,环的直径代表95%的置性区间,两环相交,置性区间相互覆盖,意味着他们的均值没有明显的不同。如两环不相交,则可认为两组的均值有明显的不同。单击比较环,相应的组名会用相同的颜色加亮显示。从图上可以看出speedytype环与其他两环不相交,说明与另外两个有明显的不同。环的中心代表组的均值,环的直径代表95%的置性区间,两环相交41量化结果7、means,anova/t-test在图下显示了几张均值的统计表。解释见帮助rsquare量化了设备不同引起的变差而不是人不同引起的变差;rootmeansquareerror量化了由于不同人引起的变差。量化结果42变量分析(analysisofvariance)解释见帮助。prob>F值高意味着人引起的变差大于设备不同引起的变差。其值<0.05可以认为回归分析有效。均值估计与统计比较见meansforonewayanova和meanscomparisonstukey-kramerHSDtest这种均值比较方法比较了各组均值的实际不同与LSD统计意义的不同。表中上半部分是studentstcomparisonofeachpair,下半部分是tukey-kramermultiplecomparison他支持比较环的分析。变量分析(analysisofvariance)43第六课分类数据的分析调查数据很多都是分类数据的频率而不是测量值,对于这些数据分类技术容易,但要阐述他们之间的联系会难很多,他需要计算其概率并与预期值比较发生的可能性。事例:有一汽车生产生产厂打算出巨资做宣传,为了使宣传更具针对性,该厂组织了一次调查,调查数据包括age,sex,maritalstatus,autoinformation(manufacturingcountry,thecar’ssize,type,andwhetheritisafamily,workorsportcar)让我们一起来分析一下。第六课分类数据的分析调查数据很多都是分类数据的频率而不是测441、打开carpoll.jmp,参与调查的人是随机的,age被设为C型数据,其他被设为nominal数据。组织调查的人根据以往的经验觉得在总结数据时按年龄组分组要比针对具体的年龄分组要好。为了达到这一目的,我们可以以中位数为界来分。2、用Y分布看年龄分布。3、在分布报表中可以找到年龄的中位数为30。1、打开carpoll.jmp,参与调查的人是随机的,age454、在原始表中加一新列5、在列信息对话框中设置相应的属性name可为age(50%)datatype设为charactermodelingtype设为nominaldatasource设为formula4、在原始表中加一新列46单击OK后,在弹出的对话框中建立如下公式:“0”,ifage<30“1”,otherwise建立公式的过程如下:现场讲解。7、用fitYbyX进行分析,thecountry,size,typecolumns设为Y,sex,maritalstatus,age(50%)为X。单击OK后,在弹出的对话框中建立如下公式:478、由于X和Y数据类型为nominal或ordinal,显示的是许多带报表的contingencytablemosaicplot,图的宽度与样本容量成正比。9、1)从sexandcountry图中可以看出性别与国籍没有显示出任何联系2)从thecountrybyage(50%)图上可以看出30岁以上拥有美国车的人比30岁以下略低结婚与否与汽车生产国家明显相关,结过婚的人更希望美国车一些。所以作美国车的广告应侧重于已婚者。8、由于X和Y数据类型为nominal或ordinal,显示48车子大小的关系10、从图中第二排看,大中小型车的购买没有明显的不同,因为Chi-square的概率在0.21~0.3.Prob>ChiSqliststheprobabilityofobtaining(bychancealone)achi-squarevaluegreaterthantheonecomputedifnorelationshipexistsbetweentheresponseandfactor.车子大小的关系4911、从第三排图看,已婚的人偏爱购买家用车,单身偏爱运动车。广告宣传应该侧重于宣传让已婚人购买家用车。从图上还可以看出30岁以上的人跟偏爱家用车。11、从第三排图看,已婚的人偏爱购买家用车,单身偏爱运动车。50第七课回归与线性相关在本课里我们来学习对一系列数据进行回归分析并比较不同回归模式的不同。本课研究的课题是年轻的女子,数据中的变量为age(inmonth),theratioofweightandage,我们的目的是找出所给年龄范围内的成长模式。第七课回归与线性相关在本课里我们来学习对一系列数据进行回归511、打开数据表打开数据表,查看数据,所给数据都是continuous型,可以进行回归分析。2、选择变量角色xforage,yforratio3、选择fitybyx作为分析工具1、打开数据表52Fitybyx可用作以下四种类型的分析1)bothxandyhavenominalorordinalvalues2)whenxisnominalandyhascontinuousvalues3)whenxcontinuousandyhasnominalorordinalvalues4)bothxandyhavecontinuousvaluesFitybyx可用作以下四种类型的分析53从图中可以看出,成长模式不是随机的,且直线应该是最合适的回归线连续变量的符合模式单击图下三角可选择相应的模式4、选择fitline模式在linearfit三角中可选择符合线模式,和保留符合公式的预计值。从图中可以看出,成长模式不是随机的,且直线应该是最合适的回归545、出现的回归线与成长的数据的符合性非常好,为了进一步查看符合的程度,我们可以进一步查看图下报表提供的数据。6、报表解释参考帮助5、出现的回归线与成长的数据的符合性非常好,为了进一步查看符55关于JMP的培训教材56第七课回归与线性相关在本课里我们来学习对一系列数据进行回归分析并比较不同回归模式的不同。本课研究的课题是年轻的女子,数据中的变量为age(inmonth),theratioofweightandage,我们的目的是找出所给年龄范围内的成长模式。第七课回归与线性相关在本课里我们来学习对一系列数据进行回归571、打开数据表打开数据表,查看数据,所给数据都是continuous型,可以进行回归分析。2、选择变量角色xforage,yforratio3、选择fitybyx作为分析工具1、打开数据表58Fitybyx可用作以下四种类型的分析1)bothxandyhavenominalorordinalvalues2)whenxisnominalandyhascontinuousvalues3)whenxcontinuousandyhasnominalorordinalvalues4)bothxandyhavecontinuousvaluesFitybyx可用作以下四种类型的分析59从图中可以看出,成长模式不是随机的,且直线应该是最合适的回归线连续变量的符合模式单击图下三角可选择相应的模式4、选择fitline模式在linearfit三角中可选择符合线模式,和保留符合公式的预计值。从图中可以看出,成长模式不是随机的,且直线应该是最合适的回归605、出现的回归线与成长的数据的符合性非常好,为了进一步查看符合的程度,我们可以进一步查看图下报表提供的数据。6、报表解释参考帮助5、出现的回归线与成长的数据的符合性非常好,为了进一步查看符617、察看analysisofvarianceprob>F是当假如ratio的值的不同主要是由项目不一样而不是由年龄不同引起的时F出现大值的几率,<0.05可以接受。在本例中,prob>F的值<0.0001说明符合weight/height成长模式的线要远比符合数据样本均值的水平线的符合性要好。

7、察看analysisofvariance62参数评估表8、解释参见帮助。如果没有数据值符合所给公式,Prob>F|t|会很大,一般情况下,<0.05公式可接受。F值告诉我们weight/height成长模式的线要远比符合数据样本均值的水平线的符合性要好。但是7月以下的数据符合性不是很好。参数评估表63排除命令对于线性符合来说,低年龄段是问题区域,为使点符合性更好,去掉不符合点,具体做法如下:1)选择格式刷;2)选择需要的点shift-drags3)选择rows/exclude4)用Makers命令标记出排除的点排除命令64再次选择fitline命令,可看到去掉排除点的直线,排除点仍在图中,当没有被包含。13撤消格式刷,选择箭头,选择edit/journal,并保存,将你的成果“图与报表”保留下来。多项式符合命令(thefitpolynomialcommand)14为用上所有的点,激活含图的窗口,重新选择所有点。操作如下:再次选择fitline命令,可看到去掉排除点的直线,排除点651)选择rows/select/exclude2)选择rows/exclude/include15用removefit命令去掉不包含所有点的线。16选择thefitpolynomialcommand命令,并选择degree=2(3、4、5等)优化情况:项数越多,回归曲线符合性越好,且Rsquare值也增大将结果以journal文件形式保留下来。1)选择rows/select/exclude66Thefitsplinecomand从图上可以看出即便是DEGREE=3,低年龄段的点符合性也不是很好,有没有更自由的格式功能使线更好、更平滑符合数据?我们看fitspline命令能否达到目的。18用removeit命令去掉所有的多项式线,只剩下直性。选择lambda值为10,1000,100000的三条spline线,lambda值越大,线柔度越大。Thefitsplinecomand67Splines模式数据的符合情况从图上可以看出Lambda=10曲线太柔,局部的异常点对线形影响很大(图中曲线波动厉害)Lambda=100000曲线太僵硬,低年龄段符合性不是很好,Lambda=1000比较好,局部的异常点对线形影响不大,数据符合性也较好。以journal文件形式保留你的结果,并在末尾加入你的结论如:“thisfittingtechniqueappliesacubicpolynomialtotheintervalbetweenpoints;thepolynomialisjoinedsuchthatthecurvemeetsatthesamepointwiththesameslopetoformacontinuousandsmoothcurve.Asmallenoughlambdacouldmakesuchacurvegothrougheverypoint,whichwouldmodeltheerror,Splines模式数据的符合情况68notthemean.Amoderatelambdavalueforcesthecurvetobesmoother,I.e,lesscurved.thisisaccomplishedbyaddingacurvaturepenaltytotheoptimizationthatminimizesthesumofsquareserror.”关于成长率的结论:通过不同符合模式的比较可以看出,不管是polymomial模式还是中等柔性的spline模式都显示婴儿期成长很快,在12月左右成长速度明显变慢。notthemean.Amoderatelambda69附加题:分组符合19在数据表中加入新的一列,小于12.5月定义为babies,大于12.5定义为toddlers建立公式:“babies”,ifage<12.5“toddlers”,otherwise20先按照stage对数据分组,加标记,然后用groupvariable,对变量进行分组,然后选择fitline命令。附加题:分组符合70关于JMP的培训教材71第九课探索数据探索就是去研究发现一些新东西。就数据分析而言,探索研究通常是分析过程中最富有成效的工作,因为很多偶然的发现都是通过他得到的。探索有两个重要方面:1)数据类型/模式2)有无远离数据聚集区的非正常点。当你探索研究多变量数据时,最大的挑战是处理高维数据。你可能拥有一堆有相互关联的数据,但却很难同时显示其中几个变量之间的联系。第九课探索数据探索就是去研究发现一些新东西。就数据分析而72溶解度数据打开solubil.jmp文件,你将看到72种化合物在六种溶剂中的溶解度,在labels栏安排数据为“label”,使图中显示的点以名称显示。表中有6个变量,但没有6维的图形,但是6个一维图形,15个二维图形,20个三维图形一维观察用“distributionofY”命令,它虽然没有办法看变量之间的联系,但是单个分布有助于你识别一元的轮廓。溶解度数据73选择“distributionofY”命令,选择六列数据进行分析。在图中选择任一柱形条,其他图中对应的列就会以阴影显示。你可以用“shift_click”同时选择多条柱形条。你还可以用“markers”命令对选中的数据加标记。你也可以用SUBSET命令将这些数据形成新的数据表。二维观察用“correlationofY’s”命令,查看六列数据,从图中可以看出,有二组变量之间相关,但与其余组不相关。“eth”和“oct”看起来形成一组,其他四个变量形成一组。你同样可以用MARKERS命令对你需要的点做好标记。选择“distributionofY”命令,选择六列数据74三维观察用“spinningplatform”命令,选择六个变量到显示列当中,将X,Y,Z拖到相应的变量前面可显示相应变量的图形。我们的目的是找出那些远离三元变量聚集区的点,你可以用“手”旋转图形。选择cc14(x),hex(y),chc13(z)图中最偏的两个点,并用LABEL命令标出点的名称。三维观察75Principalcomponentsandbiplots由于溶解度表中很多变量都是高度相关的,因此你可以想象在六维图中它不会很分散,存在在某些方向分散却在某些方向变平的情况。为了说明这一问题,我们在显示列中只选择ETH和OCT,并选择在“√”选择“principalcomponents“,从图中可以看出数据高度相关,分散的点形成一狭窄的椭圆,其主轴在P1标识的方向Principalcomponentsandbiplo76关于JMP的培训教材77演讲完毕,谢谢观看!演讲完毕,谢谢观看!78 JMP培训讲义

JMP培训讲义79第一课JMP介绍在本课将简单介绍一下JMP具备的功能,以及一些基本的操作技巧第一课JMP介绍在本课将简单介绍一下JMP80JMP功能简介JMP可以提供一个图形界面来显示与分析数据,它具备以下功能:在数据表单上可以查看、编辑、输入与处理数据强大而图形化的统计技术数据分析功能表单的排序和合并快捷的数据分组与统计计算功能质量提升技术如过程能力等分析结果输出JMP功能简介JMP可以提供一个图形界面来显示与分析数据,它81创建JMP数据表单同一般的常用软件使用已有数据表单同一般的常用软件如打开typing.jmp选择所需行或列连续可鼠标拖放,非连续可CTRL+CLICK创建JMP数据表单82定义数据列名称与类型双击列上部或选择col/colinfoContinuous定义可连续的数值型数据Ordinal定义有顺序的数值型或字符型数据Nominal定义分类(分级)的数值型或字符型数据定义数据列名称与类型83选择变量角色方法一:选定安排列,后用col/assignroles方法二:直接通过列头右侧按钮选择NONE表示此列分析时不包括X:一般代表独立的变量Y:一般代表应变量WEIGHT:代表列中每个响应的值为重量值FREQ:代表频率LABEL:表示列中值为标识。选择变量角色方法一:选定安排列,后用col/assignr84选择分析平台从Analyze或Gragh选择分析工具数据的图形分析调整柱形条可用工具栏中的“小手”,向左移柱形变粗,向右移变细选择显示属性选择右下角的“√”中需要的分析数据或图形选择分析平台从Analyze或Gragh选择分析工具85统计报表统计报表随图形出现,单击每栏统计数据左上角的按钮可隐藏或显示统计数据完成JMP任务关闭同一般的常用软件练习打开COWBOY.JMP,用“copytorowstate”,然后选择“spinningplot”,add“x,y,z”统计报表86第二课JMP数据表的创建通过一个研究人员研究新药疗效的实例来掌握创建JMP数据表的技巧。一个研究人员想评估一种新药对降低血压的疗效,他收集了以下药方6个月的临床治疗数据:Drug,300mgDrug,450mgPlacebocontrol第二课JMP数据表的创建通过一个研究人员研究新药疗效的实例87Bloodpressurestudymonthcontrolplacebo300mg450mgMarch165163166168April162159165163May164158161153June162161158151July166158160148august163158157150Bloodpressurestudymonthcontr88在表中创建行和列加入列选择col/addcolumns或在表单的左上角“0col”双击,弹出一个参数设置对话框。设置列特性在弹出的对话框中进行相应参数的设置。加入行在左上角“0row”双击,其他同加入列操作在表中创建行和列加入列89数据输入同excel绘图分析数据将month设为X,control,placebo,300mg,450mg设为Y然后单击选择overlayplot工具,折线图出现了数据输入90加标题脚注单击右下角“*”处后出现对话框选择“TITLE”加标题选择“FOOTNOT”加脚注选择“ALLIGMENT”安排居中、左、右到这里一张分析图就做完了。加标题脚注91第三课总结数据研究背景热狗被列为非健康食品排除在自助餐目录外。很多自助餐的消费者很难过并认为这是一个不爱国的行为。自助餐营养师想把加回到食品目录中去,于是收集了54种热狗的价格、营养成分、口味等方面的数据进行分析,希望找出营养价值高、便宜、口味佳的组合。第三课总结数据研究背景92打开数据表打开名为“hotdogs.jmp”$/oz指每盎司热狗的价格$/lbprotein指每磅热狗蛋白质的价格数据分组为查看热狗的类型对身体健康是否有影响,对数据按“type”分组看:打开数据表93哪一种类型的热狗具有最少的热量?在三种类型的热狗中盐的含量是否不同?哪一种热狗具备最可接受的蛋白质水平?哪一种热狗口感好且对健康无害为达到这些目的,用“table/Group/Summary”按“type”将数据分组,如需对数据进一步分组则单击左下角“$”选择“addsummarycol”命令哪一种类型的热狗具有最少的热量?94为数据组创建统计1)单击“$”选择“addsummarycol”,弹出对话框2)选择要统计的数据组如Calories等3)选择统计的方式4)按OK确认,按“Type”分组统计就完成了。按照同样的方法可建立按“taste”的分组统计为数据组创建统计95分组数据图形化处理为了使分析的问题更直观,我们选择Bar/Pie图进行分析。如前所讲,如要加标题单击右下角“*”处后出现对话框选择“TITLE”加标题选择“FOOTNOT”加脚注“√”改变显示属性,如将图水平放置等。分组数据图形化处理96分析1)从“TYPE”分组来看,“poultryhotdogs”平均含热量比其他两种低,含盐量略高,但“protein/fat”比例明显偏高2)从“TYPE”分组来看,口味差的热狗含热量、含盐量高但“protein/fat”比例低。口味极佳的热狗含热量、含盐量最低,口味中等的热狗“protein/fat”比例明显最高分析97双组图形化分析用“GROUP/SUMMARY”命令对数据分组按“TYPE”和“TASTE”同时分组,然后用Bar/Pie使之图形化。用LABEL/UNLABEL命令可使条形上方显示数字由于“poultryhotdogs”各营养因素好,但含盐量略高,所以还需进一步的研究。双组图形化分析用“GROUP/SUMMARY”命令对数据分组98用多元特性寻找一子组用“clearrowstates”,消除源数据的标识,在“hotdogsbytypetaste”给每种类型的热狗加上不同的标识,我们通过以下步骤寻找理想的热狗。在“hotdogsbytypetaste”中,选择第2-3行,用“marker”命令标为“z”,第5-6行标为“Y”,第8-9行标为“x”用多元特性寻找一子组用“clearrowstates”,99

散点图比较

为了检查变量之间的相关性,并识别出特殊点,我们选用“FITYBYX”来进行分析。(1)将数据类型改为“CONTINUOUS”,这里我们将“FROT/FAT”由“ordinal”改为“continuous”(2)选择“FITYBYX”命令,将“¥/LBPROTEIN”定为Y,将“¥/OZ”,”prot/fat”定为X(3)选择左下角的“GROUPINGVARIABLE”(4)选择“DENSITYELLIPSES”,取0.90

散点图比较

为了检查变量之间的相关性,并识别出特殊点,我们100用同样的方法再做一个“colaries”为Y,“sodium”为X的散点图。90%椭圆显示了每种热狗二元变量之间的反馈形状。下面我们来试着找出我们需要的特殊点。操作如下:用brush刷选择“colaries”/“sodium”图中1/4区中的点,选中的点在其他图中也加亮显示。用同样的方法再做一个“colaries”为Y,“sodi101分析1)价格从图11中可以看出meat和beef的价格分布宽,poultry分布窄,在高亮显示点包括了poultry,meat,beef点。在右上角选择中的Z标志点表示最贵的种类,Y标志点(MEAT)表示比poultry贵,比beef便宜。分析1)价格1022)从第二张图中可以看出,protein/fat比增大,每磅蛋白质价格降低,poultry类不但价格低而且在三者当中还有最高的蛋白质。从第三张图中可以看出poultry含盐量几乎相等,但是它含热量少。找出最佳点X标记的poultry类,最经济且其中有一些蛋白质含量很高。Meat和beef类比起来差一些。现在我们进一步来看看这两类中有无合适的点2)从第二张图中可以看出,protein/fat比增大,每磅103其操作如下:在第三图中恢复所有点的不选状态。选择热含量最低的两点和盐含量最低的一点;Y点表示最低的含盐量,低的含热量以及中等的蛋白质含量,平均的价格。用label/unlabel标出上述点。Estatechicken是三个中最经济的点。Calories-less是蛋白质含量最高的点。适当提高点价格,增加营养价值,我们是不是应该考虑Calories-less为首选。其操作如下:104第四课查看分布某机构对某地学生的健康情况进行了调查,其数据包括年龄,性别,体重,身高,具体见students.jmp。我们用JMP软件来评价一下学生的健康状况,并找出需特别关照的对象。第四课查看分布某机构对某地学生的健康情况进行了调查1051打开文件,查看数据我们先试着解决以下问题:a)多少男孩和女孩参加了调查?b)他们的年龄多大?c)每组的平均身高体重是多少?1打开文件,查看数据1062选择变量角色我们将age和sex设为Y3图形化显示选择distributionsofY命令。每列分别出来一个分布,显示了nominal和ordinal两种类型的分布图。从图上可以看出年龄小的和大的参与调查的人少一些。男女比例差不多。

2选择变量角色107Continunous型的分布4让我们来进一步看一下身高与体重的分布情况。将height和weight设为Y,age和sex设为NONE,仍用Y分布工具看分布。从图上可以看出,身高与体重都基本服从正态分布。体重特别突出的点稍后分析。5调整柱形条选择hand工具,向左移可增加柱形条宽度和分组宽度。向右刚好相反。Continunous型的分布4让我们来进一步看一下身高与体108OutlierBoxplotforcontinuesvariablesOutlierbox可以帮我们查看那些极端值盒子首尾代表25%与75%的数,盒中线代表中位数。盒外两端的虚线表示在远离盒边1.5倍“interquartilerange”(盒宽)范围内的点。之外的点可以用LABEL命令标识出来。红“[”表示shortesthalf,即50%的数分布最密集的位置OutlierBoxplotforcontinues109显示属性单击在左下角“√”可根据需要改变显示属性盒内钻石形区域表示样本均值95%的置信区间8reportsforcontinuevariablesJMP报告跟变量数据的类型有关。*/Reveal/conceal命令可关闭或显示报告。各字段含义见帮助。显示属性110创建子表单现在我们来找一下身高或体重失常的值,weight/height的比值可以很好的反应上述情况。为此,我们执行如下操作:9、加入新的一列。10、列名为ratio,数据来源选择“formula”,设置完属性后按OK11、在跳出的对话框建立公式weight/height。12、将ratio设置为Y,其他设置为none

创建子表单现在我们来找一下身高或体重失常的值,weight/11113、在分布图中同时选择ratio值最高与最低的柱,在数据表中加亮显示了ratio≥2.25或≤的行14、用“table/subset”筛选出数据,并将这个表用setwindowsname命令命名为你需要的名字。13、在分布图中同时选择ratio值最高与最低的柱,在数据表112第五课组均值的比较有一公司为了配合公司现代化的方针,想用现在的字符处理程序来取代打字机。打字员急切希望这一改变,并愿意参加购买哪一类设备的调研。该公司选择了三种牌子的设备,把他们随机分配给三组不同技能水平的打字员进行测试,记录他们每分钟的打字的分数。我们的任务是分析有没有哪一种牌子明显优于其他两家,有的话该公司决定购买那一种,否则可以根据员工爱好购买。第五课组均值的比较有一公司为了配合公司现代化的方针,想用1131、打开TYPING.JMP。2、选择变量角色,将brand设为X,将speed设为Y。分组数据的图形化显示3、为了比较不同X水平对应Y的均值是否明显不同,我们选择fitYbyx分析工具进行分析。注fitYbyx可用于四种类型的分析:a)bothxandyhavenominal/ordinalvalues1、打开TYPING.JMP。114B)xisnominal/ordinalandyhascontinuousvaluesC)xiscontinuousandyhasnominal/ordinalD)bothxandyhavecontinuousvalues显示点在X轴上不同商标的宽度与该商标的台数成正比,从图上可以看出speedtype明显比其他的快。B)xisnominal/ordinal115Fitmeansoption为了看到分布图形更多的图形化信息,我们可以在图下浮出按钮analysis与display中选择相应的属性,最初只有showpointsandx-axisproportional显示属性有效。Fitmeansoption1164、选择means,anova/t-test,显示属性自动选择了meansdiamonds属性,它画出了每组均值置性度为95%的区间。钻石形宽度与样本容量成正比。从图上可以看出regal与word-O品牌均值接近,speedytype均值明显高一些。4、选择means,anova/t-test,显示属性自动选1175、用quantiles显示属性查看每组数的分布,解释见帮助。从图中可以看出regal组比word-o绕均值分布要紧凑一些,但尽管各组存在这些变异,speedytype仍然表现出了最好性能。比较环选择分析工具中的compareallpairs命令,显示属性中自动选择了comparisoncircle,图中出现三个比较环。5、用quantiles显示属性查看每组数的分布,解释见帮助118环的中心代表组的均值,环的直径代表95%的置性区间,两环相交,置性区间相互覆盖,意味着他们的均值没有明显的不同。如两环不相交,则可认为两组的均值有明显的不同。单击比较环,相应的组名会用相同的颜色加亮显示。从图上可以看出speedytype环与其他两环不相交,说明与另外两个有明显的不同。环的中心代表组的均值,环的直径代表95%的置性区间,两环相交119量化结果7、means,anova/t-test在图下显示了几张均值的统计表。解释见帮助rsquare量化了设备不同引起的变差而不是人不同引起的变差;rootmeansquareerror量化了由于不同人引起的变差。量化结果120变量分析(analysisofvariance)解释见帮助。prob>F值高意味着人引起的变差大于设备不同引起的变差。其值<0.05可以认为回归分析有效。均值估计与统计比较见meansforonewayanova和meanscomparisonstukey-kramerHSDtest这种均值比较方法比较了各组均值的实际不同与LSD统计意义的不同。表中上半部分是studentstcomparisonofeachpair,下半部分是tukey-kramermultiplecomparison他支持比较环的分析。变量分析(analysisofvariance)121第六课分类数据的分析调查数据很多都是分类数据的频率而不是测量值,对于这些数据分类技术容易,但要阐述他们之间的联系会难很多,他需要计算其概率并与预期值比较发生的可能性。事例:有一汽车生产生产厂打算出巨资做宣传,为了使宣传更具针对性,该厂组织了一次调查,调查数据包括age,sex,maritalstatus,autoinformation(manufacturingcountry,thecar’ssize,type,andwhetheritisafamily,workorsportcar)让我们一起来分析一下。第六课分类数据的分析调查数据很多都是分类数据的频率而不是测1221、打开carpoll.jmp,参与调查的人是随机的,age被设为C型数据,其他被设为nominal数据。组织调查的人根据以往的经验觉得在总结数据时按年龄组分组要比针对具体的年龄分组要好。为了达到这一目的,我们可以以中位数为界来分。2、用Y分布看年龄分布。3、在分布报表中可以找到年龄的中位数为30。1、打开carpoll.jmp,参与调查的人是随机的,age1234、在原始表中加一新列5、在列信息对话框中设置相应的属性name可为age(50%)datatype设为charactermodelingtype设为nominaldatasource设为formula4、在原始表中加一新列124单击OK后,在弹出的对话框中建立如下公式:“0”,ifage<30“1”,otherwise建立公式的过程如下:现场讲解。7、用fitYbyX进行分析,thecountry,size,typecolumns设为Y,sex,maritalstatus,age(50%)为X。单击OK后,在弹出的对话框中建立如下公式:1258、由于X和Y数据类型为nominal或ordinal,显示的是许多带报表的contingencytablemosaicplot,图的宽度与样本容量成正比。9、1)从sexandcountry图中可以看出性别与国籍没有显示出任何联系2)从thecountrybyage(50%)图上可以看出30岁以上拥有美国车的人比30岁以下略低结婚与否与汽车生产国家明显相关,结过婚的人更希望美国车一些。所以作美国车的广告应侧重于已婚者。8、由于X和Y数据类型为nominal或ordinal,显示126车子大小的关系10、从图中第二排看,大中小型车的购买没有明显的不同,因为Chi-square的概率在0.21~0.3.Prob>ChiSqliststheprobabilityofobtaining(bychancealone)achi-squarevaluegreaterthantheonecomputedifnorelationshipexistsbetweentheresponseandfactor.车子大小的关系12711、从第三排图看,已婚的人偏爱购买家用车,单身偏爱运动车。广告宣传应该侧重于宣传让已婚人购买家用车。从图上还可以看出30岁以上的人跟偏爱家用车。11、从第三排图看,已婚的人偏爱购买家用车,单身偏爱运动车。128第七课回归与线性相关在本课里我们来学习对一系列数据进行回归分析并比较不同回归模式的不同。本课研究的课题是年轻的女子,数据中的变量为age(inmonth),theratioofweightandage,我们的目的是找出所给年龄范围内的成长模式。第七课回归与线性相关在本课里我们来学习对一系列数据进行回归1291、打开数据表打开数据表,查看数据,所给数据都是continuous型,可以进行回归分析。2、选择变量角色xforage,yforratio3、选择fitybyx作为分析工具1、打开数据表130Fitybyx可用作以下四种类型的分析1)bothxandyhavenominalorordinalvalues2)whenxisnominalandyhascontinuousvalues3)whenxcontinuousandyhasnominalorordinalvalues4)bothxandyhavecontinuousvaluesFitybyx可用作以下四种类型的分析131从图中可以看出,成长模式不是随机的,且直线应该是最合适的回归线连续变量的符合模式单击图下三角可选择相应的模式4、选择fitline模式在linearfit三角中可选择符合线模式,和保留符合公式的预计值。从图中可以看出,成长模式不是随机的,且直线应该是最合适的回归1325、出现的回归线与成长的数据的符合性非常好,为了进一步查看符合的程度,我们可以进一步查看图下报表提供的数据。6、报表解释参考帮助5、出现的回归线与成长的数据的符合性非常好,为了进一步查看符133关于JMP的培训教材134第七课回归与线性相关在本课里我们来学习对一系列数据进行回归分析并比较不同回归模式的不同。本课研究的课题是年轻的女子,数据中的变量为age(inmonth),theratioofweightandage,我们的目的是找出所给年龄范围内的成长模式。第七课回归与线性相关在本课里我们来学习对一系列数据进行回归1351、打开数据表打开数据表,查看数据,所给数据都是continuous型,可以进行回归分析。2、选择变量角色xforage,yforratio3、选择fitybyx作为分析工具1、打开数据表136Fitybyx可用作以下四种类型的分析1)bothxandyhavenominalorordinalvalues2)whenxisnominalandyhascontinuousvalues3)whenxcontinuousandyhasnominalorordinalvalues4)bothxandyhavecontinuousvaluesFitybyx可用作以下四种类型的分析137从图中可以看出,成长模式不是随机的,且直线应该是最合适的回归线连续变量的符合模式单击图下三角可选择相应的模式4、选择fitline模式在linearfit三角中可选择符合线模式,和保留符合公式的预计值。从图中可以看出,成长模式不是随机的,且直线应该是最合适的回归1385、出现的回归线与成长的数据的符合性非常好,为了进一步查看符合的程度,我们可以进一步查看图下报表提供的数据。6、报表解释参考帮助5、出现的回归线与成长的数据的符合性非常好,为了进一步查看符1397、察看analysisofvarianceprob>F是当假如ratio的值的不同主要是由项目不一样而不是由年龄不同引起的时F出现大值的几率,<0.05可以接受。在本例中,prob>F的值<0.0001说明符合weight/height成长模式的线要远比符合数据样本均值的水平线的符合性要好。

7、察看analysisofvariance140参数评估表8、解释参见帮助。如果没有数据值符合所给公式,Prob>F|t|会很大,一般情况下,<0.05公式可接受。F值告诉我们weight/height成长模式的线要远比符合数据样本均值的水平线的符合性要好。但是7月以下的数据符合性不是很好。参数评估表141排除命令对于线性符合来说,低年龄段是问题区域,为使点符合性更好,去掉不符合点,具体做法如下:1)选择格式刷;2)选择需要的点shift-drags3)选择rows/exclude4)用Makers命令标记出排除的点排除命令142再次选择fitline命令,可看到去掉排除点的直线,排除点仍在图中,当没有被包含。13撤消格式刷,选择箭头,选择edit/journal,并保存,将你的成果“图与报表”保留下来。多项式符合命令(thefitpolyn

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论