




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、属性数据分析 一属性变量和属性数据通常所指属性数据(categorical data),是说反映事物属性的数据,也称为定性数据或类别数据,它是属性变量取的值。属性变量可能是表示事物属性,取值为事物属性的量反映事物的客观属性,例如变量“性别”取值为男,女;又如变量是中医所分人的体质,取值为平和,气虚,阳虚,阴虚,瘀血,痰湿,湿热,气郁,特凛。对事物表态的量表达人们主观对事物的评论,例如变量是“某人对某个政策的态度”,取值是赞成,中立和反对;又如变量是“人对医疗效果的评价”,取值为特好,好,一般,差,很差。区间值变量取值为多个互不重叠区间:例如变量是“顾客的购买水平”,取值分为0,100),100
2、,200),200,300)和300以上。 “属性变量”是反映事物的客观属性或对事物表态,以及区间值变量,它是一种变量,它取的值之间不能做加,减,乘,除等运算,而且所取的值只能是有限个,属性变量取的值也称为属性变量的“水平”。二属性数据表示形式属性变量有4种表示形式:原始属性变量形式、指示变量形式(调查数据常用)、频数形式和列联表。例1 某连锁超市要检验商品销售情况与陈列方式是否相关,随机抽取了10家门店,分别以共3种方式陈列(即第一个属性变量是“陈列方式”,取值A、B、C),各门店销售情况分为 “high”及“low”两类(即第二个属性变量是“销量”,取值“high”和“low”)。这两个属
3、性变量的统计资料4种形式如下:属性变量形式的样本是把各个属性变量的1次观测值排成1行;例如例1中属性变量“销量”和“排列方式”的第1个观测值(第1个门店)的观测值是“high”和“B”,就把“high”、“B”排在第一行,见下表表 超市数据属性变量形式 销量排列方式highBhighBhighBhighAhighClowBhighChighAlowBhighC 指示变量形式是列出各个属性变量的所有值,对每个值建立一个变量,例如例1中两个属性变量取值“high”、“low”、“A”、“B”、“C”;建立5个指示变量:sl,sh,ma,mb,mc.每次观测中,属性变量的哪个值出现了,就在对应列中用
4、1表示,否则用0表示;例如对于超市数据建立5个变量后:sh表示变量销售额高,sl表示变量销售额低,ma表示排列方式是A,mb并表示排列方式是B,mc表示排列方式是C。第1次观测中属性变量的值是“high”和“B”,这时观测值就是1,0,0,1,0,见下表表 超市数据指示变量形式shslmambmc10010100101001010100100010101010001101000101010001在做调查时(例如对街道行人作调查),通常要求被调查人在调查表上打勾和叉,整理这些调查表,勾和叉分别改为1和0,得到的就是指示变量形式的样本;大学生舌象体质调查数据就是两种形式数据混合,使用时必须注意。指
5、示变量形式。把属性变量形式汇总,同样观测数据只记一次,其相同次数称为频数,得到的就是频数形式数据,超市数据频数形式见下表;例如例1中销量“high”且排列方式是“A”的门店有3个,频数就记为3,汇总观测值记为“high、A、3”,下表中最后一列是频数。表 超市数据频数形式销量排列方式频数highB3highA2highC3lowB2两个属性变量的列联表就是把频数形式数据,写成一个长方形表,其中最左列给出一个属性变量(行变量)的值,最上面的变量名行給出另一个属性变量(列变量)的值,频数填在对应格中,见下表,列联表能直观反映数据特点,经常使用。所以有时频数形式数据也称为列联表。2个属性变量的列联表
6、最常使用;3,4个属性变量的频数形式数据也能排在平面上。属性变量多于2的列联表称为“高维列联表”。表 超市数据的列联表排列方式销量ABChigh233low020三对应分析一般统计书籍只介绍到列联表及其分析,上世纪70年代以来出现了许多分析属性数据的方法:对应分析,logistic回归,广义线性模型,重复测量模型等等。本次重点介绍对应分析。对应分析是研究属性变量的值间关系,带有直观图象展示的一种分析方法。“列联表”分析能解决属性变量间是否有联系的判断问题,但对于它们是怎样联系的却不能给出具体结论。对应分析要研究属性变量的取值之间是怎样联系的,它把属性变量取的各个值投影成一幅“地图”上的点,距离
7、较近的点显示关系较密切。对应分析分为简单对应分析和多重对应分析。简单对应分析分析两个属性变量间关系;多重对应分析分析多个属性变量间关系。(一)简单对应分析简单对应分析的主要步骤。基本步骤是:1 输入数据 对于常用的列联表数据,将列联表数据(连同变量名)拷入工作表后,还要增加一列:列变量名,该列按照表中列水平出现顺序(从左到右),将它们从上到下安放一列中,这列通常按其含义加变量名“列名”。由于列联表中通常已包含行名称,无须另加一列输入“行名”。2进入简单对应分析对话框 从“ 统计 多变量 简单对应分析”入口,就能进入“简单对应分析”对话框。选定“列联表的列”,指定列联表的各列。3 填写对话框 在
8、对话框的“列名”处填写列变量名称所在列,在“行名”处填写行变量名称所在列;进入“图形”框后指定显示哪些图(其中“显示行和列的对称图”最重要)。例2某公司在5个地区销售4种商品(甲、乙、丙、丁),某年销售量汇总表如下表。试问销售量按地区分布有何规律?销售量按商品分布有何规律,二者有何联系? 表 某公司5地区销售数据(单位:件)1商品地区甲乙丙丁A160202120A2100253030A3100580200A440135110A5906012020解 1)将表拷入工作表后,为了能在有关图表中显示各列名称,应补充一列。因为商品列C2-C5的变量名从左到右依次为“甲、乙、丙、丁”,将列变量名称“甲、
9、乙、丙、丁”填入C6列,并将此列命名为“商品”。 2)从“ 统计 多变量 简单对应分析”入口, 进入“简单对应分析”对话框。3)在“输入数据”中,选择“列联表的列”,指定为“甲 乙 丙 丁”4列数据,将“行名”指定为“地区”,将“列名”指定为“商品”,对于“分量数”仍保留为默认的“2” 。4)点击 “图形”,弹出“简单对应分析图形”对话框,选择“只显示行的对称图”,“只显示列的对称图”及“显示行和列的对称图”以便得到3幅图。5)各框点击“确定(OK)”,即可以得到计算结果和图形。行对称图从行图中可见A1,A2,地区销售情况相似;A3,A4地区销售情况相似。(比例相似)列对称图从列图中可见甲乙丙
10、丁销量不相似行列对称图从图中可见A1,A2两地卖甲商品较多,A3,A4两地卖丁商品较多例3设已有大学生舌苔色和BMI决定的胖瘦程度二维列联表如下,试做对应分析。分析肥胖程度与苔色对应。苔瘦中胖白8623062357黄11736037灰4103黑261 解 将上表考入工作表,最右边添上一列,变量名为“BMI”,按照从上到下顺序填上瘦,中,胖。2)从“ 统计 多变量 简单对应分析”入口,进入“简单对应分析”对话框。3)选定“列联表的列”,将带数值的列选入“列联表的列”空格。4)将“苔色”选入行名空格,“BMI”选入列名空格5)点击“图形”,弹出“简单对应分析图形”对话框,选择“只显示行的对称图”,
11、“只显示列的对称图”及“显示行和列的对称图”,各框点击“确定”,即可以得到行对称图,列对称图,行和列的对称图。丛行对称图可见:4种苔色无关系。从列的对称图看出胖中瘦间无联系。行和列的对称图如下行列对称图从行和列的对称图可见:体型中的人和苔色发白的人联系紧,即苔色发白的人体型中等(二)多重对应分析“多重对应分析”用于分析多个属性变量值间的关系,它每次可以同时分析两个或更多个属性变量。“多重对应分析”对话框能够读入两种形式数据:属性变量形式和指示变量形式数据。无论哪种形式的数据,实施多重对应分析时,工作表中都要加一列,列举所有属性变量所取的所有值:读入指示变量形式的数据时,按照属性变量值在工作表
12、的“变量名”行出现的先后顺序从上到下排列;读入属性变量形式的数据时,先按照这些属性变量在工作表中出现的先后顺序,再对每个属性变量值按照字典序从上到下排列。然后从“ 统计 多变量 多重对应分析”入口, 进入“多重对应分析”对话框,可以实施 “多重对应分析”MINITAB计算“多重对应分析”后输出的结果中,最重要的是列图。列图是一个平面图形,所有属性变量的各个值都作为点安放在列图上,距离较近的点显示关系较紧密。例4(指示变量形式数据)为了分析人们对某种新家具的看法,请80名顾客对“样式”、“油漆”、“颜色”、“材料”和“价格”评价:分别给出 “式样好”、“式样差”、“油漆好”、“油漆差”、“颜色好
13、”、“颜色差”,“材料好”、“材料差”、 “价格低”、“价格中”、“价格高”的评价。厂商希望从调查数据分析这5个变量的“值”间的关系。数据如下。试画图分析顾客对式样、油漆、颜色、材料和价格的意见间的联系。表80名顾客对家具的评价样好 样劣漆好 漆劣 色好 色劣 料好 料劣 价低价中 价高101010010101010101000110100110010101010101001010101000110100110010101010100010101011010010101010001011001010101001101010010101010100101010100010110010101001
14、100101010011001010101010101010010101010001101010010101010100101001100101010010101101001001101010010101010001101010100011010101000110101001010101010101001010101000110101010001101001100101001101010010101010100101001100101010101000110101010100101010100011010101000110101001010101010100011010101000110101
15、010001010101101000101011010001100101010100110101001010101000110100110010010101101001001101010010101010001101010100011010101000110101010001101010100010101011010010101001010101010100011001101010010100110010解 1)将表拷入工作表,在右边加上一列,列名为“变量值”,内容为各列的变量名。2)从“ 统计 多变量 多重对应分析”入口, 进入“多重对应分析”对话框。3)选定“需要指示变量的列”将这含有指示
16、变量的11列选入空格。4)将“变量值”选入“属性名称”空格。5)点击“图形”,弹出“多重对应分析-图形”对话框,在其中选定“显示列图”。6)各框点击确定。结果分析:由列图可见:漆好、价高、料好、色好、样好距离较近,聚为一类,这表明顾客对这批家具评价较好时,也觉得价格较高;另外漆劣、价低距离较近,聚为一类,这表明认为家具价格低廉的顾客认为漆不好;色劣、样劣聚为一类,也就是说认为这批家具色劣的顾客认为家具式样低劣;料劣、价中聚为一类,就是说认为价格中等顾客也认为主要问题是材料不好。例5例1为了分析某种疾病成因,考虑是否饮用某种饮料、吃快餐、上网、患病程度、性别这5个项目,把它们作为5个变量,它们分
17、别取一些值(水平),为了分析这些水平间有何对应关系。统计50名以上病人其资料如下表, 试根据这资料作分析,看看哪些水平间关系最密切。表疾病与生活习惯数据病员饮用否吃快餐否性别上网否患病程度1饮用不吃男上网低2饮用不吃男上网低3饮用吃男上网低4饮用吃男不上中5饮用吃男上网高6饮用不吃男上网低7饮用吃男上网低8饮用吃女上网中9饮用不吃男上网低10饮用吃男上网高11饮用吃男上网高12饮用吃男上网高13饮用吃男上网高14不饮吃女不上中15饮用吃男上网高16饮用吃男上网高17饮用吃男上网高18饮用吃女上网中19饮用吃女上网中20饮用吃男上网高21不饮不吃女上网低22饮用吃男上网低23饮用吃男上网高24饮
18、用吃男上网高25饮用吃女上网中26不饮吃女不上中27不饮吃女不上中28不饮不吃女上网低29饮用不吃男上网低30不饮不吃女上网低31饮用吃男上网高32饮用吃男上网高33不饮吃女不上中34饮用吃男不上中35饮用吃男上网高36饮用吃男上网低37饮用吃男上网高38饮用吃男上网高39饮用吃男上网低40饮用吃男上网高41不饮吃女不上中42饮用吃男上网高43不饮不吃女上网低44饮用吃男不上中45饮用吃男不上中46不饮不吃女上网低47饮用吃男上网高48饮用吃女上网中49饮用吃男不上中50饮用吃男上网高解1)将数据拷入工作表(C1-C6)。2)添一列在工作表中(C7),变量名为列名,以下空格顺序填写“不饮,饮用
19、,不吃,吃,女、男,不上网、上网,低,高,中”。3)从“统计 多变量 多重对应分析”入口,进入“多重对应分析”对话窗, 4)在“属性变量”中指定“饮用否-患病程度”(C2-C6)共5列(描黑后点击“选择”),在“类别名称”中选入“列名”, 在“分量数”仍保留为默认的“2”。5)点击 “图形”,弹出“多重对应分析图形”对话窗,选择“显示列图。6)各窗点击“确定”,就可以得到计算结果从图中可见:患病程度高的与饮用该饮料、男性、吃快餐、上网关系密切,女性与不饮用关系密切,也就是说男性希望饮用、吃快餐、上网;女性不希望饮用;不吃快餐的患病程度低;不上网的患病程度中等。(三)SAS作对应分析SAS作对应
20、分析的必要性:功能强大可以考虑频数,画图清晰。1SAS简介SAS系统可以通过多种方式生成数据集,并通过ASSIST菜单方式和程序方式(执行SAS程序方式)实现人机会话。使用ASSIST模块可实现菜单驱动式人机会话,而无需编程。但采用程序方式实现人机会话,利于初学者掌握和模仿使用,ASSIST菜单方式和MINITAB菜单方式相似,但是用到许多英文专业词汇。本次仅介绍程序方式。编写SAS程序要求很高,除字符串外不能有中文,不能有中文标点符号,必须英文符号。1)SAS窗口SAS系统实现程序方式人机会话主要通过4个窗口: PROGRAM(编辑器)窗口、LOG(日志)窗口、OUTPUT(输出)窗口和GR
21、APH(图形)窗口。(1)PROGRAM(编辑器)窗口用于存放给电脑的命令(一般为SAS程序),点击菜单中跑步的小人为“提交”(submit)的快捷方式。(2) LOG(日志)窗口用于记录计算过程,当程序有错误时,日志窗口将错误语句用红字标出,往往还给出错误原因和修改建议。(3) OUTPUT(输出)窗口用于存放电脑计算的结果。SAS计算结果很多,在输出窗口形成许多数表,每个数表用表头区分。(4) GRAPH(图形)窗口用于输出图形型结果,具有较高分辩率。为得到这些窗口可在屏幕下方找寻,也可在GLOBALS菜单下点击。在PROGRAM窗口输入SAS程序,并点击“提交”(submit)快捷键(跑
22、步小人),就可实现人机对话。2.)DATA步语句SAS程序由SAS语句组成。DATA语句以关联词DATA开头,后跟数据集名。功能是:开始数据步;指示SAS产生数据集;指定产生的数据集名。如语句data wang2;指示SAS生成名为wang2的数据集。INPUT语句以关联词INPUT开头,后跟变量名。用于指示SAS输入数据时,数据对应的变量。字符串型变量后要加$号,以说明是字符串变量。如果字符串型变量长于八个字母或中有空格,可在变量名后加数字说明在哪些列的符号是字符串。如input no name % x1-x4 z;表示数据体的顺序是:数值型变量no、字符串变量name、数值型变量x1、数值
23、型变量x2、数值型变量x3、数值型变量x4、数值型变量z。变量名只能用英文表示,字符串变量值可为中文。Datalineshuo或CARDS语句只由关联词datalines或,CARDS组成。表示以下为数据体。数据体每行写一次观察值,不同变量的值用空格分开不加任何符号,整型数与实型数无区别。赋值语句由变量+等号+表达式组成,如y=x1+2.5*x2+x3。它的作用是产生新的变量y,其每次观察值由相应x1,x2,x3观察值计算。空语句只由分号组成,表示数据体结束。例 已知某组学生成绩如下表,计算每个学生总分和平均成绩学号姓名数学语文外语001赵大859287002钱二887797003孙三9288
24、95004李四828684可用如下程序data class1;/建立名为class1的数据集*/input no name$ shuxuue yuwen waiyu;/*建立名为 no 、name(字符串型)、shuxuue、yuwen waiyu*/zongfen= shuxuue +yuwen +waiyu; /*建立名为zongfen的变量,其值为shuxuue +yuwen +waiyu;*/pingjun=zongfen/3;/*建立名为pingjun的变量,其值为zongfen/3*/cards;/*cards语句,以下为数据体*/001 赵大 85 92 87002 钱二 88
25、77 97003 孙三 92 88 95004 李四 82 86 84;/*空语句,结束数据步*/run;所得数椐集有五个变量,分别给出学生的语文,数学,外语,总分和平均成绩。为显示该数据集,在编辑器(PROGRAM)窗口输入命令proc print data=class1;run;可在输出窗口看到数据集的内容。3)PROC步语句PROC步调用过程加工数据集。每个过程由若干句子组成,这些句子根据过程的需要而定。最常用的语句形为PROC语句,一般形式是Proc xxx data=yyy,功能是让SAS调用xxx过程处理数椐集yyy。其他较常用语句有:VAR语句,以关联词VAR开头,用以规定参与的
26、变量;OUTPUT语句,以关联词VAR开头,用以规定输出某个数据集的内容。由于不同问题需要调用不同过程,不同过程PROC步所用语句也不相同4)SAS做对应分析SAS使用CORESP过程作对应分析,在PROC CORESP语句中使用OUTC=选项输出画图所用数据;再使用宏指令%plotit画出图形。如果不直接输入列联表或BURT表,而是输入原始数据,则要增加TABLE语句,由原始数据获取列联表或BURT表。2 SAS作简单对应分析可以在数据步把两个变量的列联表直接输入,也可以用原始属性数据输入。列联表直接输入时,代表每一行的符号“行名”排成一列,作为一个字符串变量的值,代表每一列的符号“列名”作
27、为自变量的符号。在原程序加工步中用VAR语句指定列名变量;ID语句指明行名变量。如果输入原始变量,要用TABLES语句生成列联表,不用VAR语句。例5经调查大学生舌色和体质列联表如下,做对应分析体 质颜色平和气虚阳虚阴虚瘀血痰湿湿热气郁特凛淡红12424299395241832769223387红16147147892642134214绛444112221暗628221130青紫614510110边红351130109103154尖红14856123802235153416淡白211216656453解用Co1-co7表示舌头7种颜色;ph1-ph9表示9种体质程序Data colorph;/
28、*建立数据集,名为colorph*/Input color$ ph1-ph9;/建立10个变量,变量名为color(字符串变量),ph1至ph9*/Cards;/*以下是数据体*/Co112424299395241832769223387Co216147147892642134214Co3444112221Co4628221130Co5614510110Co6351130109103154Co714856123802235153416Co8211216656453;/*数据体结束*/proc corresp outc=wang;/*调用corresp过程,输出数据集为wang*/ var ph
29、1-ph9;/*9个列变量是ph1-ph9*/ id color;/*行变量是color*/ run;/*执行*/%plotit(data=wang, datatype=corresp, plotvars=Dim1 Dim2) /*宏指令,用数据集wang画对应分析图*/quit;/*退出画图过程*/执行后得到图形中舌色1(淡红)和体质1(平和)最接近。Co7和ph3最接近,也就是说舌色尖红的人如果不是平和,就是阳虚。多重对应分析3SAS作多重对应分析为了了解人们对英国政府某项政策的态度,请被调查人对5个问题打勾:性别(男、女),低于30岁?(低于、高于),年收入8000镑?(少于、多于),情
30、绪(悲观、乐观),赞成否?(赞成、反对);得到5个属性变量,每个属性变量各有2个值。整理74人的调查资料为表5-4。对所得数据做多重对应分析。表5-4 人们对英国政府某项政策的态度性别低于30岁?年收入8000镑?情绪赞成否?mlowlessoptiyesflowlessoptiyesflowlessoptiyesflowlessoptiyesmhighlessoptiyesmhighlessoptiyesmhighlessoptiyesfhighlessoptiyesfhighlessoptiyesmlowmoreoptiyesmlowmoreoptiyesmhighmoreoptiyesm
31、highmoreoptiyesmhighmoreoptiyesfhighmoreoptiyesmlowlesspessyesmlowlesspessnomlowmorepessyesmlowlessoptinomlowlessoptinomlowlessoptinomlowlessoptinomlowlessoptinoflowlessoptinoflowlessoptinoflowlessoptinoflowlessoptinomhighlessoptinomhighlessoptinofhighlessoptinofhighlessoptinofhighlessoptinoflowmore
32、optinomhighmoreoptinomhighmoreoptinomhighmoreoptinomhighmoreoptinomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnoflowlesspessnoflowlesspessnoflowlesspessnoflowlesspe
33、ssnoflowlesspessnoflowlesspessnoflowlesspessnoflowlesspessnoflowlesspessnomhighlesspessnomhighlesspessnomhighlesspessnomhighlesspessnomhighlesspessnofhighlesspessnofhighlesspessnofhighlesspessnofhighlesspessnofhighlesspessnofhighlesspessnomlowmorepessnomhighmorepessnomlowmoreoptiyesmlowmoreoptiyes解:
34、被加工的数据集是原始类别资料,需要用table语句生成BURT表新添。以sex age income morale commit表示变量性别,低于30岁?,年收入8000,情绪,赞成否。取的值是m,f;low,high;less,more;pess,opti;yes,no,分别表示:男、女;低于、高于;少于、多于;悲观、乐观;赞成、反对。建立程序(程序名“对英国政策的态度”.sas)data commit;input sex$ age$ income$ morale$ commit$;datalines;mlowless optiyesflowless optiyesflowless opti
35、yesflowlessoptiyesmhighlessoptiyesmhighlessoptiyesmhighlessoptiyesfhighlessoptiyesfhighlessoptiyesmlowmoreoptiyesmlowmoreoptiyesmhighmoreoptiyesmhighmoreoptiyesmhighmoreoptiyesfhighmoreoptiyesmlowlesspressyesmlowlesspressnomlowmorepressyesmlowlessoptinomlowlessoptinomlowlessoptinomlowlessoptinomlowl
36、essoptinoflowlessoptinoflowlessoptinoflowlessoptinoflowlessoptinomhighlessoptinomhighlessoptinofhighlessoptinofhighlessoptinofhighlessoptinoflowmoreoptinomhighmoreoptinomhighmoreoptinomhighmoreoptinomhighmoreoptinomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspre
37、ssnomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnomhighlesspressnomhighlesspressnomhighlesspressnomhighles
38、spressnomhighlesspressnofhighlesspressnofhighlesspressnofhighlesspressnofhighlesspressnofhighlesspressnofhighlesspressnomlowmorepressnomhighmorepressnomlowmoreoptiyesmlowmoreoptiyes;proc corresp mca outc=wang;tables sex age income morale commit; /*由原始属性变量数据算出burt表,以供对应分析使用*/run;%plotit(data=wang, da
39、tatype=corresp, href=0, vref=0) /*画对应分析图,过原点画纵轴和横轴*/quit;执行程序后得到对应分析图。从图中可见“低于”30岁(low)、“少于8000镑”(less)、“悲观”(pess)、“反对”(no)距离较近,说明年青和收入少者持悲观态度,反对该政策;“赞成”(yes)、“乐观”(optim)、“高于”(high)距离较近,说明收入高的人持乐观态度,赞成该政策;“男”、“女”和“多于”比较孤立,说明对政策的态度与“性别”无关,年龄大的人对政策的态度不明朗。4 模糊数据的处理对于每一个个体x属性变量的值应当是唯一确定的,有时出现模糊值现象。例如一个人
40、的舌色既是淡红又是舌尖红。为此常用近似处理方法原始数据No淡红舌尖红红1234100567801023451101357111近似数据No淡红舌尖红红1234100567801023451002345010135710013570101357001精确数据No淡红舌尖红红权12341006567801062345100323450103135710021357010213570012用MINITAB的频数选项或SAS的weight语句计算四logistic回归当因变量是属性变量时,可以用logistic回归建立预测方程Logistic回归分析的目的是建立经验公式,以便由自变量预测因变量概率分布
41、。当因变量仅有两个“状态”时的Logistic回归就是“二值Logistic回归”;当因变量的多个“状态”(状态数多于2)没有顺序关系时就是“名义值Logistic回归”。使用MINITAB的二进制Logistic回归对话框、名义Logistic回归对话框,就能分别完成这2种回归分析。Logistic回归的自变量可以是数值变量,也可以是属性变量。当自变量是属性变量时,要把它选入“因子”空格,以向MINITAB说明该自变量是属性变量。实施这些对话框后,得到的结果主要由3张表组成:Logistic回归表,斜率检验表和拟合优度检验表;它门的表头分别是“Logistic回归表”,“检验斜率是否为零”和
42、“拟合优度检验”。Logistic回归表给出参数的估计值,参数显著性检验的p值(这两项和线性回归相同)和自变量的优势比;p值越小,例如小于0.05,自变量越重要,不能删去;斜率检验表给出斜率检验的p值,p值越小,例如小于0.05,Logistic所有自变量的效果越好;拟合优度检验表给出拟合优度检验的p值,p值越大,例如大于0.05,Logistic回归方程的效果越好。对这些表我们将结合例题加以介绍。(一)二值Logistic回归二值Logistic回归仅考虑因变量是二个状态的情形:当用1表示因变量处于某个状态,用0表示因变量处于另一个状态时,因变量取1事件的概率记为p;当因变量的值是英文字符时
43、,英文字符排在后面的事件的概率记为p;当因变量的值是汉字符号时,汉字拼音字母排在后面的事件的概率记为p。二值Logistic回归方程是其中是已估计出的参数。称为“优势比”。例 统计1008位顾客购买洗衣粉情况,数据见下表希望了解水质、过去购买否、水温对于购买哪种品牌是否有影响。 水质品牌是否买过水温频数软甲是高19软甲是低57软甲否高29软甲否低63软乙是高29软乙是低49软乙否高27软乙否低53中甲是高23中甲是低47中甲否高33中甲否低66中乙是高47中乙是低55中乙否高23中乙否低50硬甲是高24硬甲是低37硬甲否高42硬甲否低68硬乙是高43硬乙是低52硬乙否高30硬乙否低42解 这儿
44、有4个属性变量:水质、过去购买否、水温和购买哪种品牌。把被购买洗衣粉的品牌作为因变量,命名为“品牌”,它只取两个值(甲和乙),适用于二值Logistic回归。把水质、过去购买否、水温作为自变量,实施二值Logistic回归。具体操作如下:先将数表拷入工作表;然后由指令“统计 回归 二进制Logistic回归”进入“二值Logistic回归”对话框;再在“响应”空格中选入 “品牌”;在“频率(可选)”空格中选入“频数”;在“模型”空格选入 “水质”、“水温”和“是否买过”;在“因子”空格选入“水质”、“水温”和“是否买过”;最后点击“确定”。在会话窗口得到二进制 Logistic 回归: 品牌 与 水温, 是否买过,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 累积生态风险对青少年学习投入的影响机制及干预研究
- 教育教学论文-三体五步教学法
- 钌、钴基催化剂的制备及其电催化析氢和硫离子氧化性能的研究
- 公司合作简易合同范例
- 东城区节能供暖合同范例
- 公租房续审合同范例
- 兄弟间合作建房合同范例
- 买墓地合同范例
- 乡镇蔬菜收购合同范例
- 企业咨询策划合同范例
- C形根管的形态识别和治疗实用教案
- 部编版《道德与法治》四年级下册第5课《合理消费》优质课件
- 京东入驻流程(课堂PPT)
- 锅炉巡检制度
- 切纸机说明书-原稿
- 中国国际航空公司VI形象识别规划提案
- 三菱PLC模拟量模块fx2n4da中文手册
- 金属材料工程课程设计
- 学校突发公共卫生事件应急处置.ppt
- 学生课堂表现评价量表(20211208204532)
- 4K超高清电视在传统播出中面临的问题及系统建设规划探讨
评论
0/150
提交评论