多元统计问答题_第1页
多元统计问答题_第2页
多元统计问答题_第3页
多元统计问答题_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、无序分类哑变量量化又称虚拟变量(Dummy Variable),又称虚设变量、名义变量或哑变量,是量化了的质变量, 通常取值为0或1。在研究一个因变量的时候,解释变量中除了定量变量,有时候会有一些定型变量,比如性 别、年龄、宗教、民族、婚姻状况、教育程度等。这些定性变量也可以成为指标变量、二元变 量或分类变量。此时需要使用虚拟变量。引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到俩个方 程的作用,而且接近现实。如果某个因素有n种选择,则将其用哑变量引入模型时,要设置 n-1个哑变量,以避免完全的多重共线性。如性别的选择有两种,则引入一个哑变量,是男则数 值为1,否则

2、为0,当然也可以设置为女为1,否则为0。季节的选择有4个,则引入3个哑变 量,哑变量1:春为1,否则为0;哑变量2:夏为1,否则为0;哑变量3:秋为1,否则为0。当自变量为无序分类即名义分类变量比如血型,A型、B型、AB型、O型之间是平等的, 不存在大小问题。这时,需要把原来的多分类变量转化为(水平数一1)个哑变量并进行编码, 每个哑变量只代表两个级别或若干个级别间的差异。哑变量应用时需要注意以下两点:哑变 量是同时存在,其统计学意义是相对而言的。哑变量有无意义可采用加与不加入哑变量的偏 回归平方和F检验确定。二、多重共线性交互效应的处理方法所谓多重共线性(Multicollinearity)

3、是指线性回归模型中的解释变量之间由于存在 精确相关关系或高度相关关系而使模型估计失真或难以估计准确。多重共线性检验的检验 指标为容许度(Tolerance)和方差膨胀因子(VIF)。多重共线性的解决方法:(1)排除引起共线性的变量一一找出引起多重共线性的解释 变量,将它排除出去,以逐步回归法得到最广泛的应用;(2)差分法一一时间序列数据、 线性模型:将原模型变换为差分模型;(3)减小参数估计量的方差一一岭回归法(Ridge Regression)。1:逐步回归法:剔除变量;2:岭回归方法:有偏估计;3:主成分分析:降维,提取 信息;4:偏最小二乘回归法(pls):原理与主成分方法相似;5.差分

4、法;6.重新定义方 程。多重共线性是指一些自变量之间存在较强的线性关系。这些自变量通常是相关的,如果相关 程度非常高,使用最小二乘法建立回归方程就有可能失效,引起下列不良后果:参数估计值的标准误变得很大,从而t值变得很小。回归方程不稳定,增加或减少某几个观察值,估计值可以发生很大变化。t检验不准确,误将应保留在方程中的重要变量舍弃。估计值的正负符号与客观实际不一致。多重共线性的可从以下几方面识别:变量的重要性与专业不符R2高,但各自变量对应的回归系数均不显著。方差膨胀因子(Variance Inflation Factors,VIF) 10回归系数的符号与专业知识不符多重共线的处理方法有:精简

5、变量法;逐步回归判别法;主成份回归法;无应变量的多元分 析;相关分析。当某因素的各单独效应随另一因素的变化而变化时,则称这两个因素间存在交互效应。检验两 变量间有无交互作用,普遍的做法是在方程中加入它们的乘积项再做检验。如考察XI、X2间的 交互作用,可在模型中加入X1X2项。或是通过两因素不同水平的均数作线图,得到交互效应图, 若图中两条直线几乎平行,则说明A、B两交互效应很小或不存在。反之,若两条直线互不平行, 则说明两因素可能存在交互效应,需进一步做交互效应的假设检验进行确认。若存在交互效应, 须逐一分析各因素的单独效应;若不存在交互效应,说明两因素的作用效果相互独立,则只需 逐一分析各

6、因素的主效应。交互作用的分析十分复杂,应根据临床意义与实际情况酌情使用。三、多重线性回归logistic回归cox模型之间的区分和联系区别:1应变量及其分布的要求:多重线性回归要求是连续变量,且服从正态分布;Logistic 回归的应变量是分类变量,服从二项分布;Cox模型回归的效应变量有两分类变量和生存时间, 对分布无特殊要求。2删失值:多重线性回归和Logistic回归一般不允许有删失值;而Cox模型 回归允许。3模型结构:多重线性回归;Logistic回归;Cox模型回归。4参数估计方法:多重线性回归采用的是最小二乘法;Logistic回归和Cox模型回归采用的是最大似然法。5参数检验:

7、多重线性回归采用F检验和t检验;Logistic 回归及Cox模型回归时采用似然比检验、计分检验及Wald检验。6参数解释:多重线性回归中 系数意义是在其它变量不变条件下,变量X每增加一个单位所引起的Y的平均改变量;Logistic 回归中是指其他变量不变条件下,变量X每增加一个单位所引起的优势比OR的自然对数改变 量;Cox模型回归中是指其他变量不变条件下,变量X.每增加一个单位所引起的相对危险度RR 的自然对数改变量。7预测指标:多重线性回归 j ; Logistic回归 ;Cox模型回 归 。8样本含量:多重线性回归中要求样本含量至少5-10倍的自变量个数;Logistic回 归和Cox

8、模型回归要求至少15-20倍的自变量个数。联系:1自变量可以是连续变量、有序分类或无序分类变量,无序变量可以进行哑变量化, 哑变量在模型中是一个整体,必须同时引入模型或同时从模型中剔除。2当自变量之间存在较 强相关关系时可能会导致共线性现象。3自变量之间可能会存在交互作用,通常采用两个或两 个以上自变量相乘的积作为交互作用项。4均可采用逐步回归筛选变量,其思路均是先考虑单 变量分析再进行多元回归分析。5均可进行影响因素的分析、混杂因素的校正、预测分析等。四、聚类分析和判别分析之间的区别和联系判别分析与聚类分析都是研究分类问题的多元统计分析方法,但前者是在已知分为若干个类 的前提下,判定观察对象

9、的归属,而后者是在不知道应分多少类合适的情况下,试图借助数理 统计的方法用已收集到的资料找出研究对象的适当归类方法。课件区别聚类分析可以对样本进行分类,也可以对指标进行分类;而判别分析只能对样本进行分类;聚类分析事先不知道事物的类别,也不知道应分几类;而判别分析必须事先知道事物的类别, 也知道应分几类;聚类分析不需要分类的历史资料,能直接对样本进行分类;而判别分析需要分类历史资料去 建立判别函数,然后才能对样本进行分类。课件联系先采用聚类分析获得各个个体的类别(classification);然后采用判别分析建立判 别函数,对新个体进行类型识别(identification )五、主成分分析与

10、因子分析的区别和联系(1)两者的分析重点不一致。从数学模型上看,主成分的数学模型为Z = AX即主成分为原始变量的线性组合;而因子分析的数学模型为X = AF+e即原始变量为公因子与特殊因子的线性组合。由此可见,两者的分析重点不一致:主 成分分析重点在综合原始变量的信息,而公因子分析则重在解释原始变量之间的关系。此 外,主成分分析中各主成分的得分是可以准确计算的,而因子分析中各公因子得分只能进 行估计。(2)两者之间具有密切的联系。在主成分分析模型两端同时左乘人T (即A),则有X = AF,此即为无特殊因子的公因子模型;另一方面,在公因子分析的约相关矩阵R*中, 如果取:11,2, ,m),

11、则因子分析的结果(主成分解)即为主成分分析的结果,此 外,因子分析的主因子解也常常由主成分分析的结果作为的初始值来计算的。六、重复测量的数据特征及其统计分析方法重复测量(repeated measure)是指对同一观察对象的同一观察指标在不同时间点上进 行的多次测量,用于分析该观察指标在不同时间上的变化特点。在对重复测量资料进行方 差分析时,除要求样本是随机的、在处理的同一个水平上的观察是独立的以及每一水平上 的测定值都来自正态总体外,特另U强调协方差阵(covariance matrix)的球形性(sphericity) 或称园环形(circularity)。重复测量设计中“处理”是在区组(

12、受试者)间随机分配,区组内的各时间点是固定的,不 能随机分配;重复测量设计区组内实验单位彼此不独立,而是高度相关的。重复测量数据的统计分析有许多统计方法供选用,可以用单变量方差分析ANOVA),也可以 用多变量方差分析(MANOVA),其中ANOVA是比较容易掌握、统计分析结论比较明确的一种 方法。课件重复测量(repeated measure)是指对同一研究对象的某一观察指标在不同场合(occasion, 如时间点)进行的多次测量。重复测量资料方差分析的条件:1正态性 处理因素的各处理水平的样本个体之间是相互独立的随机样本,其总体均数服 从正态分布;2方差齐性相互比较的各处理水平的总体方差相

13、等,即具有方差齐同;3各时间点组成的协方差阵(covariance matrix)具有球形性(sphericity)特征。重复测量资料的方差分析总思想:将总变异分解为:个体间(between subjects)变异与个体内(within subject)变异,其中个 体内变异是与重复因素有关的变量。七、生存分析的数据特点及统计分析分析方法生存分析(Survival analysis)是指根据试验或调查得到的数据对生物或人的生存时间 进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度大小的方法,也称 生存率分析或存活率分析。数据特点:1.应变量有两个:生存时间(天数)和结局(死亡 与

14、否);2.有截尾数据;3.分布类型复杂。生存分析方法大体上可分为三类:非参数法、参数法和半参数方法,与之相对应,SAS 提供了三个程序步用于生存分析,它们是:LIFETEST过程 提供非参数分析方法,用乘积极限法(Product limit method)和寿命表 法(Life table method)估计生存率和中位生存时间等;用对数秩检验(Log-rank test)、 Wilcoxon检验和似然比检验等做分组比较。该过程主要用于估计生存率及进行单因素分析。LIFEREG过程 提供指数模型、Weibull模型、Gompertz模型等参数分析方法。PHREG过程提供半参数Cox比例风险模型

15、分析。生存分析资料同时考虑生存时间和生存结局,通常含有删失数据,生存时间的分布通常不服 从正态分布产生截尾原因:迁移死于其他原因(3)因其他客观原因中途退出预定终止结果迟 迟不发生统计描述指标死亡概率、生存概率,生存率及其标准误,半数生存期(中位数)及四分位数间距死亡率(mortality rate, death rate)表示某单位时间内的死亡强度。死亡率=期内死亡人数/期内 平均人口数死亡概率(mortality probability )指死于某时段内的可能性大小。死亡概率=期内死亡人数/期 初观察例数生存概率(survival probability )指某单位时段开始时存活的个体到该

16、时段结束时仍存活的可 能性的大小。生存概率=1-死亡概率生存率(survival rate)(累积生存概率cumulative probability of survival指病人经历t个单位时间后仍存活的概率。半数生存期 也称 中位生存期(median survival time)即生存时间中位数,表示50%的个体 可存活的时间,即生存率为5 0%时对应的生存时间(集中趋势指标)。生存率估计常用的两种方法。生存期的四分位数间距=T25T75,反映离散程度大小 资料要求死亡例数(或死亡比例)不宜太少,否则宜出现偏性;截尾原因无偏性;生存时间尽可能记录精确生存率估计(单个分组变量的生存分析)由于

17、生存时间一般不服从正态分布,且需考虑是否为删失值,统计分析方法有描述分析(根 据样本生存资料估计总体生存率及其他有关指标。常采用K-M法(将生存时间由小到大依次排 列,在每个死亡点上,计算其期初人数、死亡人数、死亡概率、生存概率和生存率)进行分析, 对于频数表资料则采用寿命表法(只估计时段右端点的生存率,省略了时段内的生存率估计。 生存资料没有原始数据,数据已经总结成若干时段的数据表形式或生存资料样本含量较大)进 行分析,计算生存率需考虑生存时间的顺序,属于非参数统计方法),比较分析(常采用log-rank 检验和breslow检验,检验无效假设使两组或多组总体生存时间分不相同,而不对其具体的分 布形式作要求,属于非参数统计),影响因素分析(通过生存分析模型来探讨影响生存时间的因 素,通常以生存时间和生存结局作为应变量,而将其影响因素作为自变量,通过拟合生存分析 模型,筛选影响生存时间的保护因素和有害因素)。半参数法有Cox比例风

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论