统计学知识点_第1页
统计学知识点_第2页
统计学知识点_第3页
统计学知识点_第4页
统计学知识点_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学知识点完好统计学知识点完好14/14统计学知识点完好可编写可改正基本统计方法第一章概论1.整体(Population):依据研究目确实定的同质对象的全体(会合);样本(Sample):从整体中随机抽取的部分拥有代表性的研究对象。参数(Parameter):反应整体特色的统计指标,如整体均数、标准差等,用希腊字母表示,是固定的常数;统计量(Statistic):反应样本特色的统计指标,如样本均数、标准差等,采纳拉丁字字母表示,是在参数周边颠簸的随机变量。统计资料分类:定量(计量)资料、定性(计数)资料、等级资料。第二章计量资料统计描绘集中趋向:均数(算术、几何)、中位数、众数失散趋向:极差、四分位间距(QR=P75-P25)、标准差(或方差)、变异系数(CV)3.正态散布特色:①X轴上方对于X=对称的钟形曲线;②X=时,f(X)获得最大值;③有两个参数,地点参数和形态参数;④曲线下边积为1,区间±的面积为%,区间±的面积为%,区间±的面积为%。4.医学参照值范围的制定方法:正态近似法:Xu/2S;百分位数法:。第三章整体均数预计和假定查验抽样偏差(SamplingError):由个体变异产生、随机抽样造成的样本统计量与整体参数的差异。抽样偏差不可以防范,产生的根根源因是生物个体的变异性。2.均数的标准误(StandarderrorofMean,SEM):样本均数的标准差,计算公式:/n。反应样本均数间的失散程度,说明抽样偏差的大小。3.降低抽样偏差的门路有:①经过增添样本含量n;②经过设计减少S。t散布特色:①单峰散布,以0为中心,左右对称;②形态取决于自由度,越小,t值越分别,t散布的峰部越矮而尾部翘得越高;③当迫近∞,SX迫近X,t散布迫近u散布,故标准正态散布是t散布的特例。1可编写可改正5.置信区间(ConfidenceInterval,CI):按开初给定的概率(1-)确立的包含整体参数的一个范围,计算公式:Xt/2,SX或Xu/2,SX。95%CI含义:从固定样本含量的已知整体中进行重复抽样试验,依据每个样本可获得一个置信区间,则均匀有95%的置信区间包含了整体参数。6.假定查验的基根源理:小概率反证法的思想。①反证法:从问题的对峙面(H0)出发间接判断要解决的问题(H1)能否建立。②小概率事件:在H0建立的条件下计算查验统计量,依据概率散布确立查验水平下P值大小,判断能否为小概率事件(平常P≤视为小概率事件,平常取),是则拒绝H0,接受H1;不然尚不可以拒绝H0。7.假定查验一般步骤:①建立假定(反证法,H0和H1),确立查验水平();②计算统计量:u,t,F;③确立概率值P,做出推测结论。8.t查验需知足的条件:比较的两个样真互相独立、均遵照正态散布。9.P的含义:是指从H规定的整体随机抽样,抽得等于及大于(或/和等于及小于)现有样本0获得的查验统计量(如t、u等)值的概率。10.Ⅰ型错误(TypeⅠerror):拒绝了实质上建立的H0,这种“弃真”的错误称为Ⅰ型错误,Ⅰ型错误的大小为查验水平。Ⅱ型错误(TypeⅡerror):接受了实质上不可以立的H0,这种“存伪”的错误称为Ⅱ型错误,Ⅱ型错误的大小用表示,1-表示查验效能。越小,越大,增大样本量可以同时降低和。11.置信区间和假定查验的差异和联系:①可以经过判断置信区间能否包含零假定,判断单样本均数能否来自已知的整体;②置信区间不单能回答差异有无统计学意义,还可提示差异有无实质意义。③假定查验可供给置信区间不可以供给的信息,如P值和查验效能等。第四章方差分析1.方差分析的基本思想:依据研究目的和设计种类,把全部丈量值的总变异依据办理因素和水均匀分解成两部分(组内变异和组间变异)或更多部分,同时把对自由度相应进行分解,再进行比较,谈论由办理因素惹起的变异能否拥有统计学意义。2.方差分析的应用条件:各种本是互相独立的随机样本,均来自正态散布的整体,各种本2可编写可改正的整体方差相等(拥有方差齐性)。方差分析表:变异根源SSνMSFP组间变异ag-1a/(g-1)MS/MS组内组间组内变异bN-gb/(N-g)总变异a+bN-14.g=2时,随机区组设计的方差分析与配对设计资料t查验等价,tF。5.多个样本均数间的多重比较:①LSD-t查验,即最小明显差异t查验,适用于一对或几对在专业上有特别意义的样本均数间的比较;②Dunnett-t查验:适用于g-1个实验组与一个比较组均数差其余多重比较;③SNK-q查验:适用于多个样本均数两两之间的全面比较。第五章计数资料的统计描绘1.相对数的种类:强度相对数(率,如死亡率、发病率等);构造相对数(组成比);相对比(如性别比等)应用相对数的注意事项:①构造相对数不可以取代强度相对数;②计算相对数应有足够的数目;③正确计算共计率;④注意资料的可比性;⑤比较不同样时期资料应注意客观条件能否同样;⑥样本率(或组成比)的抽样偏差。标准化率(Standardizationrate):采纳标准化法进行计算,除去数据内部组成的差异,使标化后的共计率拥有可比性,这种经过标化后的共计率称为标准化率。标准化率的注意事项:①只适用于内部组成不同样,影响总率的可比性的问题;②选择的标准不同样,计算获得的标准化率也不同样,多个标准化率比较时,应选同一标准;③标准化率已经不再反应当地的实质水平;④样本标准化率是样本值,存在抽样偏差。比较两样本标准化率,当样本量较小时,需做假定查验。第六章几种失散型变量的散布及应用二项散布X~B(n,)的适用条件:①每次试验只发生两种对峙的可能结果之一;②每次试验产生某结果的概率固定不变;③重复试验是互相独立的。2.二项散布的性质:①阳性次数X的整体均数(n)、标准差(n(1));3可编写可改正②样本率p的均数(p)、标准差(Spp(1p),即率的标准误)。③二项散布的n正态近似条件:np和n(1-p)均大于5。3.泊松散布X~P()的性质:①整体均数和整体方差2相等;②当n很大,很小,且np=为常数时,二项散布近似泊松散布;③≥20时,泊松散布近似正态散布;④泊松散布具备可加性。第七章2查验1.2查验的基本思想:依据2散布特色,经过比较实质频数与理论频数的差异,确立在建立的条件下该差异由抽样偏差造成能否为小概率事件,从而判断差异能否拥有统计学2意义。值反应了实质频数与理论频数的吻合程度。2.R×C列联表中的各格子T≥1,而且1≤T<5的格子数不宜超出1/5格子总数,不然可能产生偏差。办理方法有三种:①增添样本量,使理论频数增大;②依据专业知识,删除或合并队列;③采纳Fisher确实概率法分析。有序分组资料表线性趋向查验:①双向无序的R×C列联表:多个样本率的比较采纳R×C列联表的2查验;两个分类变量的关系性分析则采纳R×C列联表的2查验和Pearson列联系数进行分析。②单向有序的R×C列联表:行有序而列无序:R×C列联表的2查验;行无序而列有序,采纳Wilcoxon秩和查验。③双向有序属性同样的R×C列联表:配对四格表的扩展,采纳一致性查验(Kappa查验)。④双向有序属性不同样的R×C列联表:样本率的比较采纳Wilcoxon秩和查验;相关性分析采纳Spearman相关分析;线性变化趋向分析采纳有序分组资料的线性趋向查验或2CMH查验等。第八章非参数查验秩和查验的适用范围:①整体散布偏态的计量资料;②数据两头有不确立值;③等级资料;④各组失散程度相差悬殊,整体方差不齐的资料。非参数查验对整体散布的形状差异不敏感,只对整体散布地点差异敏感;非参数查验没有充分利用资料信息,较参数查验的查验效低。故能用参数查验尽量采纳参数查验,不满4可编写可改正足参数查验条件才使用非参数查验。3.不同样数据种类的统计分析路径:(1)样本均数与整体均数的比较:正态,样本均数与整体均数的t查验;非正态,Wilcoxon符号秩查验。(2)两样本均数比较:①独立正态:两独立样本t查验;②独立非正态:两独立样本的Wilcoxon秩和查验;③配对设计差值正态,配对t查验;④配对设计差值非正态,Wilcoxon符号秩查验。(3)多样本均数比较:①独立正态(方差齐),方差分析;②独立非正态Kruskal-WailsH查验;③非独立正态,重复丈量资料的方差分析;④非独立非正态,FriedmanM查验第九章双变量回归和相关1.直线回归应知足的条件:自变量与因变量呈线性关系、察看值之间互相独立、因变量Y?abX,a随机正态、对任何X因变量Y的标准差相等。直线回归方程的一般形式为:Y为截距,b为回归系数,回归系数的预计采纳最小二乘法原则(LeastSquaresMethod,使残差平方和最小)进行预计。2.决定系数(coefficientofdetermination):回归平方和与总平方和的比值,R2=SS回/SS总。R2取值0~1之间无单位,其数值大小反应回归贡献的相对程度,即总变异中回归模型可以解说的百分比。3.秩相关的应用适用范围:(1)不遵照双变量正态散布而不宜作Pearson相关分析;(2)整体散布型未知;(3)等级资料的相关分析。相关与回归的差异与联系差异(1)差异:①资料:回归分析资料要求Y为正态随机变量,X为选定变量;相关分析资料X、Y遵照双变量正态散布。②应用:回归分析是由一个变量值计算另一个变量值(依存关系);相关分析只反应两个变量间的互相关系。③回归系数b与原胸怀单位相关,而相关系数r没关。b的绝对值越大,回归直线越陡,5可编写可改正X变化1个单位时Y的均匀变化越大;r的绝对值越大,全部点越趋近于一条直线,两变量的关系越亲密,相关度越高。(2)联系:①r与b值可相交换算,rblXXlYY;②r与b正负号一致;③r与b的假定查验等价:对于同一资料tbtr,查验圆满等价;④回归可解说相关。相关系数的平方r2(决定系数)是回归平方和与总的离均差平方和之比(SS回/SS总)。应用直线回归时的注意事项1)作回归分析要有实质意义,不可以把毫没关系的两种现象作回归分析,必然对两种现象间的内在联系有所认识。2)在进行直线回归分析以前,应绘制散点图,当察看点的散布有直线趋向时,才合适作直线回归分析,散点图还可以提示资料有无异样点。异样点的存在经常对方程中的系数(a、b)的预计产生较大影响。所以,需对异样点进行复查。3)建立直线回归方程后,要对系数进行假定查验,以确立回归方程有没心义。4)直线回归方程的适用范围一般以自变量的取值范围为限,防范外延。获得自变量值的手段也应与建立方程时同样。不然会产生较大偏差。第十章统计表和统计图统计表的基本要求(1)标题:归纳表的主要内容(时间、地点、研究内容等),放在表的上方。表编号与标题间间隔一个汉字距离;如整个表指标一致,还应将指标的单位标在标题后边。2)标目:分别用横标目和纵标目说明每行和每列内容或数字的意义,注明指标的单位。平常描绘的对象为横标目,内容(指标)为纵标目,从左向右读可以组成圆满的一句话。3)线条:最少用3条线:顶线、底线和纵标目线。顶线和底线将表格与文章其余部分分分开,纵标目线将标目的文字区与表格的数字区分开,还可用横线将共计和双重纵标目分开,其余竖线和斜线一概省去。顶线和底线线条粗细一般为磅,其余线条一般为磅。6可编写可改正(4)数字:用阿拉伯数字表示。无数字用“—”表示,缺失数字用“⋯”表示,数0者“0”,不留空。数字按小数点位数,同一指最好保存同样位数的小数位数。(5)注:表中数字区不要插入文字。必明者表“*”,在表下方以注的形式明。高级统计方法第十二章重复丈量资料的方差分析重复量与随机区的区:(1)重复量中“理”是在区(受者)随机分派,区内的各点是固定的,不可以随机分派;(2)重复量区内位互相不独立;球称(sphericity):全部两两点量差的方差相等,即重复量的差的方差正交比后与位矩成比率。重复量料方差分析的料条件:1)正性:理因素的各水平本个体是互相独立的随机本,其体均数遵照正散布(个体独立,个体内不独立);2)方差性:互相比的各理水平的体方差相等,即拥有方差同;3)各点成的方差拥有球形性特色。第十五章多元线性回归分析1.偏回系数(partialregressioncoefficient):多元性回模型中自量Xj的系数j,表示在其余自量保持不,Xj增添或减少一个位是Y的均匀化量。2.复相关系数(multiplecorrelationcoefficient):RR2,表示因量Y与多个自量的性相关程度,也是察Y与估Y?之的相关程度。若只有一个自量,r。准化回系数:数据准化后获得的准化回方程的回系数即准化回系数,bjbjSjXjY的影响度,在有学意的前提下,,用来比各个自量SY准化回系数的越大明相自量Y的作用越大。4.多元性回模型(?mXme)足的条件:①Y与Y01X12X27可编写可改正X1,X2,⋯,Xm之拥有性关系;②各例察Yi互相独立;③残差e遵照正散布。5.量(dummyvariable):在多元性回模型中,当自量多重量(g个水平),需要将本来的多重量化(g-1)个量并行,每个量只代表两个或多个的差异。用量要注意:①量同存在,其学意是相而言的,不可以采纳常的渐渐回行量;②可采纳加与不加入量的偏回平方和F确立量有没心。多重共性(collinearity):某些自量存在的性关系,使得一个或几个自量可以由其余的自量的性关系表示,量与其余的自量存在多重共性。多重共性可能致回方程不定、参数估准得很大、t不正确、估的正符号与不符等。交互作用:当某一自量因量的作用大小与另一自量的取相关,两个自量有交互作用。能否考交互作用主要靠知判断。了两个自量能否拥有交互作用,广泛的做法是在模型中加入它的乘(作交互)。性回分析的SAS果解:?(1)性回方程:Y2.994220.99733x;(2)性回模型的学果:模型的方差分析量F=,P=<,明性回8可编写可改正归模型拥有统计学意义。(3)R-Square=的意义:该线性回归模型可以解说因变量Y的总变异的%;(4)回归系数预计值b=的意义:表示X对Y影响的大小,X每改变一个单位,Y改变个单位;其假定查验结果合方差分析结果的联系:方差分析结果说明X与Y之间存在的线性关系,t查验结果说明计算获得的回归系数b有统计学意义,在此问题中,两者是等价的,均说明该回归模型拥有统计学意义。5)相关系数及其查验结果并解说该结果:r=,对r进行t查验获得P=<,则该相关系数拥有统计学意义,说明X与Y之间拥有中等强度的正相关关系。第十六章Logistic回归分析1.logistic回归模型一般形式:lnPlogit(P)exp(01X1mXm)。1P将某事件的阳性与阴性结果概率之比去自然对数称为logit变换,记为logit()。P2.回归系数j采纳最大似然预计(maximumlikelihoodestimate,MLE,使在一次抽样中获得现有样本的概率最大)获得表示自变量Xj改变一个单位时logitP的改变量。多变量调整后的优势比ORjexp(j),表示扣除了其余自变量的影响后危险峻素的作用。jOR=1,说明Xj对疾病发生不起作用ORj>1,说明Xj是一个危险峻素;ORj<1,说明Xj是一个保护因素,ORj的1可信区间为:exp(bju/2Sbj)。3.logistic回归模型假定查验的方法:似然比法(G2(lnL1lnL0),合适单个和多个自2bj或2bj,合适单个自变量的假定查验)和计变量的假定查验)、Wald查验(uSbjSbj分查验(合适样本量较小的状况)。变量优选的方法:行进法、退后法、渐渐法。4.条件logistic回归:适用于1:M配对设计资料,条件似然函数预计的是在M+1个察看对象中恰巧第一个察看对象属于病例组的条件概率,它只预计了表示危险峻素作用的j,表示般配组效应的常数项0被消去。5.有序logistic回归鉴于积累概率建立回归模型,g个类其余因变量Y的有序logistic回归包含g-1个方程,这些方程的回归系数均同样,差异主要表此刻各方程的常数项0不9可编写可改正同。在对因变量Y赋值时,应将专业上最不利的等级赋最小值,最有益的等级赋最大值。6.多分类logistic回归是二分类logistic回归的扩展,即选择一个参照种类,拟合节余各种型有对于参照类其余logistic回归模型。第十七章生计分析1.生计分析的数据特色:(1)同时考虑生计时间和生计结局;(2)平常含有删失数据censoring,可能的原由:①研究截止但终点事件仍未出现;②失掉联系或其余原由致使失访;③死于其余“事件”);(3)生计时间的散布平常不遵照正态散布。统计学分析方法:因为生计时间一般不呈正态散布,且需考虑能否为删失值,因今生计分析有其独到的统计方法。(1)非参数法:生计率的预计采纳Kaplan-Meier法、寿命表法(频数表资料);②两组或多组生计率的比较,常用log-rank查验(时序法,权重i1,对察看后期差异敏感)和Breslow查验(权重ini,ni为期初人数,随生计时间增大而渐渐减小,Breslow查验给察看初期差异更大权重,故对察看初期差异敏感)。(2)半参数法:多因素生计分析常采纳Cox比率风险模型(前提条件:假定风险比值h(t)/h0(t)为固定值,即协变量对生计率的影响不随时间的改变而改变。查验此前提的方法:①分类协变量每组的K-M生计曲线无交叉;②协变量与生计时间的交互项无统计学意义等。其参数预计方法为最大似然法)。(3)参数法:指数散布法、Weibull散布法等回归模型。多元线性回归、logistic回归和Cox回归的同样点和不同样点(1)同样点:①自变量可为连续变量和多分类变量,多分类变量需哑变量化,哑变量在模型中是一个整体,必然同时“进”同时“出”;②自变量间存在较强相关关系时可能致使多重共线性问题;③自变量间可能存在交互作用,模型中平常采纳自变量的乘积作为交互项;④均可采纳渐渐回归优选变量;10可编写可改正⑤均可进行影响因素分析、混淆因素校订、展望分析等。(2)不同样点:第十八、十九章鉴别分析和聚类分析鉴别分析(discriminantanalysis):依据一批分类明确的样本在若干指标上的察看值,建立一个对于指标的鉴别函数和鉴别准则,此后依据这个鉴别函数和鉴别准则对新的样本进行分类,而且依据回代判其余正确率评估它的适用性。Fisher鉴别准则:它使得类间点的距离最大,而类内点的距离最小,合适于两类的鉴别分析;Bayes鉴别准则:它使得每一类中的每个样本都以最大的概率进入该类,合适于多类的鉴别分析。评估鉴别函数的鉴别效能:原始数据的分类要靠谱正确;指标变量对鉴别函数的作用要明显;鉴别函数的回代错判率和过后概率错误率要小。聚类分析(ClusterAnalysis):对于整体分类未知的一群事物依据“物以类聚”思想,把性质周边的事物纳入同一类,而把性质相差较大的事物纳入不同样类的一种统计分析方法。聚类分析和鉴别分析的差异和联系(1)差异:①聚类分析可以对样本进行分类,也可以对指标进行分类;而鉴别分析只好对样本进行分11AF,即为无特别因子的公因子模型;可编写可改正类;②聚类分析开初不知道事物的种类,也不知道应分几类;而鉴别分析必然开初知道事物的种类,也知道应分几类;③聚类分析不需要分类的历史资料,能直接对样本进行分类;而鉴别分析需要分类历史资料去建立鉴别函数,此后才能对样本进行分类。(2)联系:先采纳聚类分析获得各个个体的种类(classification);此后采纳鉴别分析建立鉴别函数,对新个体进行种类鉴别((identification)第二十章主成分分析和因子分析主成分的性质1)主成分互不相关;2)主成分的贡献率和积累贡献率:贡献率越大,表示主成分综合原始指标信息的能力越强;积累贡献率越高,说明前k个主成分综合原始资料信息的比率越高;(3)主成分个数的采纳:①以累计贡献率确立:积累贡献率≥70%为宜;②以特色根值大小确立:特色根值≥1。4)因子荷载:因子荷载反应主成分与原始指标间亲密程度与作用方向;5)样品的主成分得分:依据主成分表达式计算样品的主成分值,推测和谈论样品的特色。2.因子模型的性质:(1)公共度:共性方差反应全体原始指标Xi对全部公因子的依靠程度;(2)因子贡献及因子贡献率:的值越大,则Fj对原始指标的影响越大;(3)因子荷载及因子荷载矩阵:因子荷载反应公因子与原始指标间亲密程度与作用方向;主成分分析和因子分析的差异和联系(1)联系:①都是依据变量之间内部相关性来提取主要信息,获得新的变量(公因子变量和主成分变量),达到减少变量个数(降维)的目的;②主成分分析模型两头同时乘以A,则有X③因子分析的结果(主成分解)即为主成分分析的结果,因子分析的主因子解也经常由主成12可编写可改正分分析的结果作为的初始值计算。(2)差异:主成分分析是将m个原变量提取I(I≤m)个互不相关的主成分,正确计算各主成分的得分,其分析要点在于经过主成分综合原始变量的信息;因子分析是提取I(I≤m)个支配原变量的共性因子和1个特别因子,各因子之间可以互不相关或相关,依据共性因子得分系数预计因子得分,其分析要点是经过找寻共性因子解说原始变量之间的关系。第二十一章典型相关分析1.典型相关(Canonical

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论