统计学综合指标及统计学知识点(完整)_第1页
统计学综合指标及统计学知识点(完整)_第2页
统计学综合指标及统计学知识点(完整)_第3页
统计学综合指标及统计学知识点(完整)_第4页
统计学综合指标及统计学知识点(完整)_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章统计综合指标一、单选题1.某企业某种产品计划规定单位成本降低5%,实际降低了7%,则实际生产成本为计划完成度的(A)97.9%140%102.2%2%2.某月份甲工厂的工人出勤率属于(A)结构相对数强度相对数比例相对数计划完成相对数3.按全国人口平均的粮食产量是(B)平均指标强度相对指标比较相对指标结构相对指标5.若某总体次数分布呈轻微左偏分布,则有(B)成立。A.>>B.<<C.>>D.<<6.已知某企业职工消费支出,年支出6000元人数最多,平均年支出为5500元,该企业职工消费支出分布属于(A)左偏分布右偏分布对称分布J形分布7.用组中值代表组内变量值的一般水平有一定的假定性,即(B)各组的次数必须相等变量值在本组内的分布是均匀的组中值能取整数各组必须是封闭组8.加权算术平均数不但受标志值大小的影响,而且也受标志值出现的次数多少的影响。因此,下列情况中对平均数不发生影响的是(D)标志值比较小而次数较多时标志值较大而次数较小时标志值较大而次数较多时标志值出现的次数相等时9.已知某市场某种蔬菜早市、午市、晚市的每公斤价格,在早市、午市、晚市的销售额基本相同的情况下,计算平均价格可采取的平均数形式是(C)简单算术平均数加权算术平均数简单调和平均数加权调和平均数10.若各个标志值都扩大2倍,而频数都减少为原来的1/3,则平均数(A)扩大2倍减少到1/3不变不能预期平均值的变化11.假定各个标志值都减去20个单位,那么平均值就会(A)减少20减少到1/20不变不能预期平均值的变化12.如果单项式分配数列的各个标志值和它们的频数都缩小到原来的1/2,那么众数(A)缩小到原来的1/2缩小到原来的1/4不变不能预期其变化13.如果单项式分配数列的各个标志值都增加一倍,而频数均减少一半,那么中位数(A)增加一倍减少一半不变不能预期其变化14.如果变量值中有一项为零,则不能计算(B)算术平均数调和平均数和几何平均数众数中位数15.计算标准差时,如果从每个变量值中都减去任意数a,计算结果与原标准差相较(C)变大变小不变可能变大也可能变小16.假如把分配数列的频数换成频率,则标准差(C)减少增加不变无法确定19.不同总体间的标准差不能进行简单对比,这是因为(D)平均数不一致离散程度不一致总体单位不一致离差平方和不一致20.两个总体的平均数不等,但标准差相等,则(B)平均数小,代表性大平均数大,代表性大两个平均数代表性相同无法加以判断21.如果两个数列是以不同的计量单位来表示的,则比较其离差的计量方法是(D)极差标准差平均差标准差系数22.在下列成数数值中,哪一个成数数值的方差最小(D)0.80.50.30.123.如果偏度值a小于零,峰度值β小于3,可判断次数分布曲线为(C)左偏分布,呈尖顶峰度右偏分布,呈尖顶峰度左偏分布,呈平顶峰度右偏分布,呈平顶峰度二、多选题1.总量指标(ABCE)是计算相对指标和平均指标的基础是反映国情和国力的重要指标是实行社会管理的重要依据可用来比较现象发展的结构和效益水平2.某银行1999年底的居民储蓄存款额是(ACE)综合指标单位总量指标标志总量指标时期指标时点指标3.下列指标中属于时期指标的是(AB)产品产量销售收入职工人数设备台数4.下列指标中属于强度相对数的是(BC)1992年末我国乡村总人口占全国总人口的72.37%1992年我国农民家庭平均每百户拥有电冰箱2.17台1992年我国人口密度122人/平方公里1992年我国全部职工平均货币工资2711元1992年我国钢产量为美国同期的81.2%5.分子与分母不可互换计算的相对指标是(ABC)计划完成情况相对指标动态相对指标结构相对指标强度相对指标比较相对指标6.平均指标(ABDE)是总体一般水平的代表值是反映总体分布集中趋势的特征值是反映总体分布离中趋势的特征值可用来分析现象之间的依存关系只能根据同质总体计算7.下列属于平均指标的有(BC)人均国民收入人口平均年龄粮食单位面积产量人口密度人口自然增长率8.下列平均数要用几何平均法计算的有(BCD)。A.生产同种产品的3个车间的平均合格率B.流水工序的3个车间的平均合格率C.以复利支付利息的年平均利率D.平均发展速度E.平均劳动生产率9.组距数列中位数的计算公式中,与的涵义表示(BE)中位数组的累计次数中位数组前一组的较小制累计次数中位数组前一组的较大制累计次数中位数组后一组的较小制累计次数中位数组后一组的较大制累计次数10.根据全距说明标志变异程度(ABE)没有考虑中间标志值的变异程度没有考虑总体各单位的分布状况能反映所有标志值的变异程度取决于平均数的大小仅考虑最大标志值与最小标志值的影响12.标志变异绝对指标(BCDE)可反映总体各标志值分布的集中趋势可说明变量数列中变量值的离中趋势是衡量平均数代表性大小的尺度要受到数列平均水平高低的影响是衡量经济活动过程均衡性的重要指标13.比较两组工作成绩发现>,<,由此可推断(ACE)乙组的代表性高于甲组甲组的代表性高于乙组乙组的工作均衡性好于甲组甲组的工作均衡性好于乙组甲组的标志变动度比乙组大14.对比两个计量单位不同的变量数列标志值的离散程度,应使用(CE)平均差全距标准差系数标准差平均差系数15.应用动差法测定偏度和峰度,需要计算(BCD)一阶中心动差二阶中心动差三阶中心动差四阶中心动差五阶中心动差五、计算题1.某地区某年个体工商户开业登记注册资本金分组资料如下:注册资本金分组(万元)50以下50~100100~150150~200200以上各组个体工商户比重(%)60201082试计算该地区个体工商户注册资本金的平均数。2.某企业1999年3月份职工工资分组资料如下:按工资金额分组(元)职工人数(人)700以下700~750750~800800~850850~900900~950950~10001000以上40100170220190150130120合计1120根据以上资料,计算平均数工资、工资的众数和中位数,并绘制分布曲线图,观察算术平均数、中位数和众数的位置。3.对10名成年人和10名幼儿的身高(厘米)进行抽样调查,结果如下:成年组:166169172177180170172174168173幼儿组:68696870717372737475计算其标准差并比较哪一组的身高差异大?4.某地区居民某年医疗费支出的众数为300元,算术平均数为250元。要求:计算中位数近似值;说明该地居民医疗费支出额分布的态势;若该地区居民医疗费支出额小于400元的占人数的一半,众数仍为300元,试估计算术平均数,并说明其分布态势。5.甲、乙两个企业生产三种产品的单位成本和总成本资料如下:产品名称单位成本(元)总成本(元)甲企业乙企业ABC152030210030001500325515001500试比较哪个企业的总平均成本高并分析原因。6.对某地区120家企业按利润额进行分组,结果如下:按利润额分组(万元)企业数(个)200~300300~400400~500500~600600以上1930421811合计120要求:(1)计算120家企业利润额的众数、中位数和均值;(2)计算利润额的标准差;(3)计算分布的偏态系数和峰度系数。7.给出资金利润率及利润总额资料,求平均利润率。公司资金利润率(%)利润总额(万元)甲126乙1512丙2436合计548.有一消费者到三家商店购买花生仁,这三家商店花生仁价格分别为:5,10,20(元/公斤)。该消费者以两种方式购买:第一种是在每家商店各买1公斤,另一种是在每家商店各花100元来购买。问:当他以第一种方式来购买花生仁时,求每公斤的平均单价。当他以第二种方式来购买花生仁时,求每公斤的平均单价。9.计算C者的年龄。姓名ABCD年龄(X)173221(X-)-87-410.某地区1991年计划国民生产总值为120亿元,实际实现132亿元,年平均人口600万,1991年国民生产总值的第一、二、三产业情况如下表:计划数(亿元)实际数(亿元)国民生产总值第一产业第二产业第三产业120106545132127347又知该地区1990年国民生产总值为122亿元,乙地区1991年实现国民生产总值150亿元,利用上述资料,计算所有可能的相对指标。11.某市某局所属5个企业产值计划完成情况如表所示:计划完成程度(%)企业数(个)计划完成数(万元)90—100100—110110—120582100800100合计151000求平均计划完成程度。12.一批苹果自山东某地运往上海口岸,随机抽出200箱检验,其中有4箱不符合质量要求,试问是非标志的平均数和标准差各是多少?13.已知某企业两个车间生产某种产品的有关资料如表所示。试求(1)两个车间计划和实际的平均一级品率(2)全部产品产值及一级品产值计划完成百分比。车间计划实际一级品率(%)一级品产值(万元)一级品率(%)全部产品产值(万元)甲乙968820309790263214.甲乙两地同种商品的价格和销售量资料如表所示:等级单位产品价格(元)销售额(元)甲地乙地一二三2.62.42.2260072002200260024006600合计---1200011600要求:(1)分别计算甲乙两地该产品的平均价格。比较哪个地区的平均价格高并说明原因。15.两种水稻分别在五块田地上试种,其产量如表:地块标号甲品种乙品种地块面积(亩)产量(斤)地块面积(亩)产量(斤)123451.21.11.00.90.81200104511008108401.51.31.31.00.916801300117012086305.049956.05988假定每号地块上两个品种的生产条件相同,试计算这两个品种的平均收获率,进而确定哪一品种具有较大的稳定性和推广价值。16某企业三个车间生产同一种产品,各车间生产情况如下:车间编号废品率(%)产量(件)实际耗费工时1231.40.81.2600640760100012002600合计20004800求三个车间产品的平均废品率。17.1992年某月份某企业按工人劳动生产率高低分组的生产班组和工人数资料如下:按工人劳动生产率分组(件/每人)生产班组(个)工人数(人)50-6060-7070-8080-9090以上107521150100703016合计25366试计算该企业工人平均劳动生产率。18.某工厂1990年上半年进货计划执行情况如下:材料单位全年进货计划第一季度进货第二季度进货计划实际计划实际生铁钢材水泥吨吨吨2000100050050025010050030080600350200618300180各季度进货计划完成程度;(2)上半年进货计划完成情况;(3)上半年累计计划进度执行情况。19.某产品按五年计划规定,最后一年产量应达到54万吨,计划完成情况如下:第一年第二年第三年第四年第五年上半年下半年一季二季三季四季一季二季三季四季产量404320241111121313141415试问该产品提前多长时间完成五年计划。20.某企业某种产品需经过4个车间的流水作业才能完成,如果第一车间的产品合格率为90%,第二车间的产品合格率为97%,第三车间的产品合格率为95%,第四车间的产品合格率为98%,求平均合格率。基本统计方法第一章概论1.总体(Population):根据研究目的确定的同质对象的全体(集合);样本(Sample):从总体中随机抽取的部分具有代表性的研究对象。2.参数(Parameter):反映总体特征的统计指标,如总体均数、标准差等,用希腊字母表示,是固定的常数;统计量(Statistic):反映样本特征的统计指标,如样本均数、标准差等,采用拉丁字字母表示,是在参数附近波动的随机变量。3.统计资料分类:定量(计量)资料、定性(计数)资料、等级资料。第二章计量资料统计描述1.集中趋势:均数(算术、几何)、中位数、众数2.离散趋势:极差、四分位间距(QR=P75-P25)、标准差(或方差)、变异系数(CV)3.正态分布特征:①X轴上方关于X=对称的钟形曲线;②X=时,f(X)取得最大值;③有两个参数,位置参数和形态参数;④曲线下面积为1,区间±的面积为68.27%,区间±1.96的面积为95.00%,区间±2.58的面积为99.00%。4.医学参考值范围的制定方法:正态近似法:;百分位数法:P2.5-P97.5。第三章总体均数估计和假设检验1.抽样误差(SamplingError):由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。抽样误差不可避免,产生的根本原因是生物个体的变异性。2.均数的标准误(StandarderrorofMean,SEM):样本均数的标准差,计算公式:。反映样本均数间的离散程度,说明抽样误差的大小。3.降低抽样误差的途径有:①通过增加样本含量n;②通过设计减少S。4.t分布特征:①单峰分布,以0为中心,左右对称;②形态取决于自由度,越小,t值越分散,t分布的峰部越矮而尾部翘得越高;③当逼近∞,逼近,t分布逼近u分布,故标准正态分布是t分布的特例。5.置信区间(ConfidenceInterval,CI):按预先给定的概率(1-)确定的包含总体参数的一个范围,计算公式:或。95%CI含义:从固定样本含量的已知总体中进行重复抽样试验,根据每个样本可得到一个置信区间,则平均有95%的置信区间包含了总体参数。6.假设检验的基本原理:小概率反证法的思想。①反证法:从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。②小概率事件:在H0成立的条件下计算检验统计量,根据概率分布确定检验水准下P值大小,判断是否为小概率事件(通常P≤视为小概率事件,通常取),是则拒绝H0,接受H1;否则尚不能拒绝H0。7.假设检验一般步骤:①建立假设(反证法,H0和H1),确定检验水准();②计算统计量:u,t,F;③确定概率值P,做出推断结论。8.t检验需满足的条件:比较的两个样本相互独立、均服从正态分布。9.P的含义:是指从H0规定的总体随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u等)值的概率。10.Ⅰ型错误(TypeⅠerror):拒绝了实际上成立的H0,这类“弃真”的错误称为Ⅰ型错误,Ⅰ型错误的大小为检验水准。Ⅱ型错误(TypeⅡerror):接受了实际上不成立的H0,这类“存伪”的错误称为Ⅱ型错误,Ⅱ型错误的大小用表示,1-表示检验效能。越小,越大,增大样本量可以同时降低和。11.置信区间和假设检验的区别和联系:①可以通过判断置信区间是否包含零假设,判断单样本均数是否来自已知的总体;②置信区间不但能回答差别有无统计学意义,还可提示差别有无实际意义。③假设检验可提供置信区间不能提供的信息,如P值和检验效能等。第四章方差分析1.方差分析的基本思想:根据研究目的和设计类型,把所有测量值的总变异按照处理因素和水平等分解成两部分(组内变异和组间变异)或更多部分,同时把对自由度相应进行分解,再进行比较,评价由处理因素引起的变异是否具有统计学意义。2.方差分析的应用条件:各样本是相互独立的随机样本,均来自正态分布的总体,各样本的总体方差相等(具有方差齐性)。3.方差分析表:变异来源SSνMSFP组间变异ag-1a/(g-1)MS组间/MS组内组内变异bN-gb/(N-g)总变异a+bN-14.g=2时,随机区组设计的方差分析与配对设计资料t检验等价,。5.多个样本均数间的多重比较:①LSD-t检验,即最小显著差异t检验,适用于一对或几对在专业上有特殊意义的样本均数间的比较;②Dunnett-t检验:适用于g-1个实验组与一个对照组均数差别的多重比较;③SNK-q检验:适用于多个样本均数两两之间的全面比较。第五章计数资料的统计描述1.相对数的类型:强度相对数(率,如死亡率、发病率等);结构相对数(构成比);相对比(如性别比等)2.应用相对数的注意事项:①结构相对数不能代替强度相对数;②计算相对数应有足够的数量;③正确计算合计率;④注意资料的可比性;⑤对比不同时期资料应注意客观条件是否相同;⑥样本率(或构成比)的抽样误差。3.标准化率(Standardizationrate):采用标准化法进行计算,消除数据内部构成的差异,使标化后的合计率具有可比性,这种经过标化后的合计率称为标准化率。4.标准化率的注意事项:①只适用于内部构成不同,影响总率的可比性的问题;②选择的标准不同,计算得到的标准化率也不同,多个标准化率比较时,应选同一标准;③标准化率已经不再反映当地的实际水平;④样本标准化率是样本值,存在抽样误差。比较两样本标准化率,当样本量较小时,需做假设检验。第六章几种离散型变量的分布及应用1.二项分布X~B(n,)的适用条件:①每次试验只发生两种对立的可能结果之一;②每次试验产生某结果的概率固定不变;③重复试验是相互独立的。2.二项分布的性质:①阳性次数X的总体均数()、标准差();②样本率p的均数()、标准差(,即率的标准误)。③二项分布的正态近似条件:np和n(1-p)均大于5。3.泊松分布X~P()的性质:①总体均数和总体方差2相等;②当n很大,很小,且np=为常数时,二项分布近似泊松分布;③≥20时,泊松分布近似正态分布;④泊松分布具备可加性。第七章2检验1.2检验的基本思想:根据2分布特征,通过比较实际频数与理论频数的差异,确定在成立的条件下该差异由抽样误差造成是否为小概率事件,进而判断差异是否具有统计学意义。2值反映了实际频数与理论频数的吻合程度。2.R×C列联表中的各格子T≥1,并且1≤T<5的格子数不宜超过1/5格子总数,否则可能产生偏差。处理方法有三种:①增加样本量,使理论频数增大;②根据专业知识,删除或合并行列;③采用Fisher确切概率法分析。3.有序分组资料表线性趋势检验:①双向无序的R×C列联表:多个样本率的比较采用R×C列联表的2检验;两个分类变量的关联性分析则采用R×C列联表的2检验和Pearson列联系数进行分析。②单向有序的R×C列联表:行有序而列无序:R×C列联表的2检验;行无序而列有序,采用Wilcoxon秩和检验。③双向有序属性相同的R×C列联表:配对四格表的扩展,采用一致性检验(Kappa检验)。④双向有序属性不同的R×C列联表:样本率的比较采用Wilcoxon秩和检验;相关性分析采用Spearman相关分析;线性变化趋势分析采用有序分组资料的线性趋势检验或CMH2检验等。第八章非参数检验1.秩和检验的适用范围:①总体分布偏态的计量资料;②数据两端有不确定值;③等级资料;④各组离散程度相差悬殊,总体方差不齐的资料。2.非参数检验对总体分布的形状差别不敏感,只对总体分布位置差别敏感;非参数检验没有充分利用资料信息,较参数检验的检验效低。故能用参数检验尽量采用参数检验,不满足参数检验条件才使用非参数检验。3.不同数据类型的统计分析路径:(1)样本均数与总体均数的比较:正态,样本均数与总体均数的t检验;非正态,Wilcoxon符号秩检验。(2)两样本均数比较:①独立正态:两独立样本t检验;②独立非正态:两独立样本的Wilcoxon秩和检验;③配对设计差值正态,配对t检验;④配对设计差值非正态,Wilcoxon符号秩检验。(3)多样本均数比较:①独立正态(方差齐),方差分析;②独立非正态Kruskal-WailsH检验;③非独立正态,重复测量资料的方差分析;④非独立非正态,FriedmanM检验第九章双变量回归和相关1.直线回归应满足的条件:自变量与因变量呈线性关系、观察值之间相互独立、因变量Y随机正态、对任何X因变量Y的标准差相等。直线回归方程的一般形式为:,为截距,为回归系数,回归系数的估计采用最小二乘法原则(LeastSquaresMethod,使残差平方和最小)进行估计。2.决定系数(coefficientofdetermination):回归平方和与总平方和的比值,R2=SS回/SS总。R2取值0~1之间无单位,其数值大小反映回归贡献的相对程度,即总变异中回归模型能够解释的百分比。3.秩相关的应用适用范围:(1)不服从双变量正态分布而不宜作Pearson相关分析;(2)总体分布型未知;(3)等级资料的相关分析。4.相关与回归的区别与联系区别(1)区别:①资料:回归分析资料要求Y为正态随机变量,X为选定变量;相关分析资料X、Y服从双变量正态分布。②应用:回归分析是由一个变量值推算另一个变量值(依存关系);相关分析只反映两个变量间的相互关系。③回归系数b与原度量单位有关,而相关系数r无关。b的绝对值越大,回归直线越陡,即X变化1个单位时Y的平均变化越大;r的绝对值越大,所有点越趋近于一条直线,两变量的关系越密切,相关度越高。(2)联系:①r与b值可相互换算,;②r与b正负号一致;③r与b的假设检验等价:对于同一资料,检验完全等价;④回归可解释相关。相关系数的平方r2(决定系数)是回归平方和与总的离均差平方和之比(SS回/SS总)。5.应用直线回归时的注意事项(1)作回归分析要有实际意义,不能把毫无关联的两种现象作回归分析,必须对两种现象间的内在联系有所认识。(2)在进行直线回归分析之前,应绘制散点图,当观察点的分布有直线趋势时,才适宜作直线回归分析,散点图还能提示资料有无异常点。异常点的存在往往对方程中的系数(a、b)的估计产生较大影响。因此,需对异常点进行复查。(3)建立直线回归方程后,要对系数进行假设检验,以确定回归方程有无意义。(4)直线回归方程的适用范围一般以自变量的取值范围为限,避免外延。获得自变量值的手段也应与建立方程时相同。否则会产生较大偏差。第十章统计表和统计图1.统计表的基本要求(1)标题:概括表的主要内容(时间、地点、研究内容等),放在表的上方。表编号与标题间间隔一个汉字距离;如整个表指标统一,还应将指标的单位标在标题后面。(2)标目:分别用横标目和纵标目说明每行和每列内容或数字的意义,标明指标的单位。通常描述的对象为横标目,内容(指标)为纵标目,从左向右读可以构成完整的一句话。(3)线条:至少用3条线:顶线、底线和纵标目线。顶线和底线将表格与文章其他部分分隔开,纵标目线将标目的文字区与表格的数字区隔开,还可用横线将合计和两重纵标目隔开,其他竖线和斜线一概省去。顶线和底线线条粗细一般为1.5磅,其他线条一般为0.5磅。(4)数字:用阿拉伯数字表示。无数字用“—”表示,缺失数字用“…”表示,数值为0者记为“0”,不留空项。数字按小数点位数对齐,同一指标最好保留相同位数的小数位数。(5)备注:表中数字区不要插入文字。必须说明者表“*”,在表下方以备注的形式说明。高级统计方法第十二章重复测量资料的方差分析1.重复测量设计与随机区组设计的区别:(1)重复测量设计中“处理”是在区组(受试者)间随机分配,区组内的各时间点是固定的,不能随机分配;(2)重复测量设计区组内实验单位彼此不独立;2.球对称(sphericity):所有两两时间点变量间差值对应的方差相等,即重复测量的误差的协方差经正交对比变换后与单位矩阵成比例。3.重复测量资料方差分析的资料条件:(1)正态性:处理因素的各水平样本个体间是相互独立的随机样本,其总体均数服从正态分布(个体间独立,个体内不独立);(2)方差齐性:相互比较的各处理水平的总体方差相等,即具有方差齐同;(3)各时间点组成的协方差阵具有球形性特征。第十五章多元线性回归分析1.偏回归系数(partialregressioncoefficient):多元线性回归模型中自变量Xj的系数j,表示在其他自变量保持不变时,Xj增加或减少一个单位是Y的平均变化量。2.复相关系数(multiplecorrelationcoefficient):,表示因变量Y与多个自变量的线性相关程度,也是观察值Y与估计值之间的相关程度。若只有一个自变量,。3.标准化回归系数:对数据标准化后得到的标准化回归方程的回归系数即为标准化回归系数,,用来比较各个自变量对Y的影响强度,在有统计学意义的前提下,标准化回归系数的绝对值越大说明相应自变量对Y的作用越大。4.多元线性回归模型()应满足的条件:①Y与X1,X2,…,Xm之间具有线性关系;②各例观察值Yi相互独立;③残差e服从正态分布。5.哑变量(dummyvariable):在多元线性回归模型中,当自变量为多分类变量(g个水平)时,需要将原来的多分类变量转化为(g-1)个哑变量并进行编码,每个哑变量只代表两个级别或多个级别间的差异。应用哑变量时要注意:①哑变量同时存在,其统计学意义是相对而言的,不能采用常规的逐步回归进行变量选择;②可采用加与不加入哑变量的偏回归平方和F检验确定哑变量有无意义。6.多重共线性(collinearity):某些自变量间存在较强的线性关系,使得一个或几个自变量可以由另外的自变量的线性关系表示,则该变量与另外的自变量间存在多重共线性。多重共线性可能导致回归方程不稳定、参数估计值标准误变得很大、t检验不准确、估计值的正负符号与实际不符等。7.交互作用:当某一自变量对因变量的作用大小与另一自变量的取值有关,则这两个自变量有交互作用。是否考虑交互作用主要靠专业知识判断。为了检验两个自变量是否具有交互作用,普遍的做法是在模型中加入它们的乘积项(作为交互项)。8.线性回归分析的SAS结果解释:(1)线性回归方程:;(2)该线性回归模型的统计学检验结果:模型的方差分析统计量F=6.91,P=0.0303<0.05,说明该线性回归模型具有统计学意义。(3)R-Square=0.46353的意义:该线性回归模型可以解释因变量Y的总变异的46.353%;(4)回归系数估计值b=0.99733的意义:表示X对Y影响的大小,X每改变一个单位,Y改变0.99733个单位;其假设检验结果合方差分析结果的联系:方差分析结果说明X与Y之间存在的线性关系,t检验结果说明计算得到的回归系数b有统计学意义,在此问题中,二者是等价的,均说明该回归模型具有统计学意义。(5)相关系数及其检验结果并解释该结果:r=0.68073,对r进行t检验得到P=0.0303<0.05,则该相关系数具有统计学意义,说明X与Y之间具有中等强度的正相关关系。第十六章Logistic回归分析1.logistic回归模型一般形式:。将某事件的阳性与阴性结果概率之比去自然对数称为logit变换,记为logit(P)。2.回归系数采用最大似然估计(maximumlikelihoodestimate,MLE,使在一次抽样中获得现有样本的概率最大)得到表示自变量Xj改变一个单位时logitP的改变量。多变量调整后的优势比,表示扣除了其他自变量的影响后危险因素的作用。ORj=1,说明Xj对疾病发生不起作用ORj>1,说明Xj是一个危险因素;ORj<1,说明Xj是一个保护因素,ORj的可信区间为:。3.logistic回归模型假设检验的方法:似然比法(,适合单个和多个自变量的假设检验)、Wald检验(或,适合单个自变量的假设检验)和计分检验(适合样本量较小的情况)。变量筛选的方法:前进法、后退法、逐步法。4.条件logistic回归:适用于1:M配对设计资料,条件似然函数估计的是在M+1个观察对象中恰好第一个观察对象属于病例组的条件概率,它只估计了表示危险因素作用的,表示匹配组效应的常数项被消去。5.有序logistic回归基于累积概率构建回归模型,g个类别的因变量Y的有序logistic回归包括g-1个方程,这些方程的回归系数均相同,差别主要体现在各方程的常数项不同。在对因变量Y赋值时,应将专业上最不利的等级赋最小值,最有利的等级赋最大值。6.多分类logistic回归是二分类logistic回归的扩展,即选择一个参照类别,拟合剩余各类别相对于参照类别的logistic回归模型。第十七章生存分析1.生存分析的数据特点:(1)同时考虑生存时间和生存结局;(2)通常含有删失数据(censoring,可能的原因:①研究截止但终点事件仍未出现;②失去联系或其他原因导致失访;③死于其他“事件”);(3)生存时间的分布通常不服从正态分布。2.统计学分析方法:由于生存时间一般不呈正态分布,且需考虑是否为删失值,所以生存分析有其独特的统计方法。(1)非参数法:①生存率的估计采用Kaplan-Meier法、寿命表法(频数表资料);②两组或多组生存率的比较,常用log-rank检验(时序法,权重,对观察后期差别敏感)和Breslow检验(权重,为期初人数,随生存时间增大而逐渐减小,Breslow检验给观察早期差别更大权重,故对观察早期差别敏感)。(2)半参数法:多因素生存分析常采用Cox比例风险模型(前提条件:假定风险比值h(t)/h0(t)为固定值,即协变量对生存率的影响不随时间的改变而改变。检验此前提的方法:①分类协变量每组的K-M生存曲线无交叉;②协变量与生存时间的交互项无统计学意义等。其参数估计方法为最大似然法)。(3)参数法:指数分布法、Weibull分布法等回归模型。3.多元线性回归、logistic回归和Cox回归的相同点和不同点(1)相同点:①自变量可为连续变量和多分类变量,多分类变量需哑变量化,哑变量在模型中是一个整体,必须同时“进”同时“出”;②自变量间存在较强相关关系时可能导致多重共线性问题;③自变量间可能存在交互作用,模型中通常采用自变量的乘积作为交互项;④均可采用逐步回归筛选变量;⑤均可进行影响因素分析、混杂因素校正、预测分析等。(2)不同点:第十八、十九章判别分析和聚类分析1.判别分析(discriminantanalysis):根据一批分类明确的样本在若干指标上的观察值,建立一个关于指标的判别函数和判别准则,然后根据这个判别函数和判别准则对新的样本进行分类,并且根据回代判别的准确率评估它的实用性。2.Fisher判别准则:它使得类间点的距离最大,而类内点的距离最小,适合于两类的判别分析;Bayes判别准则:它使得每一类中的每个样本都以最大的概率进入该类,适合于多类的判别分析。3.评估判别函数的判别效能:原始数据的分类要可靠准确;指标变量对判别函数的作用要显著;判别函数的回代错判率和事后概率错误率要小。4.聚类分析(ClusterAnalysis):对于总体分类未知的一群事物依照“物以类聚”思想,把性质相近的事物归入同一类,而把性质相差较大的事物归入不同类的一种统计分析方法。5.聚类分析和判别分析的区别和联系(1)区别:①聚类分析可以对样本进行分类,也可以对指标进行分类;而判别分析只能对样本进行分类;②聚类分析事先不知道事物的类别,也不知道应分几类;而判别分析必须事先知道事物的类别,也知道应分几类;③聚类分析不需要分类的历史资料,能直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类。(2)联系:先采用聚类分析获得各个个体的类别(classification);然后采用判别分析建立判别函数,对新个体进行类型识别((identification)第二十章主成分分析和因子分析1.主成分的性质(1)主成分互不相关;(2)主成分的贡献率和累积贡献率:贡献率越大,表明主成分综合原始指标信息的能力越强;累积贡献率越高,说明前k个主成分综合原始资料信息的比例越高;(3)主成分个数的选取:①以累计贡献率确定:累积贡献率≥70%为宜;②以特征根值大小确定:特征根值≥1。(4)因子荷载:因子荷载反映主成分与原始指标间密切程度与作用方向;(5)样品的主成分得分:根据主成分表达式计算样品

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论