统计学复习资料

上传人：却*** IP属地：江苏上传时间：2023-09-23 格式：DOC 页数：41 大小：390.50KB 积分：30 举报 版权申诉

已阅读5页，还剩36页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

医学记录学复习资料一、名词解释题1.总体(population)：根据研究目的所确定的同质观测单位的全体。只包括(确定的时间和空间范围内)有限个观测单位的总体，称为有限总体(finitepopulation)。假想的，无时间和空间概念的，称为无限总体(infinitepopulation)。2.(总体)参数(parameter)：总体的记录指标或特性值。总体参数是事物自身固有的、不变的。3.样本(sample)：从总体中随机抽取的部分个体。4.样本含量(samplesize)：样本中所包括的个体数。5.变量(variable)：观测对象个体的特性或测量的成果。由于个体的特性或指标存在个体差异，观测成果在测量前不能精确预测，故称为随机变量(randomvariable)，简称变量(variable)。变量的取值称为变量值或观测值(observation)。根据变量的取值特性，分为数值变量和分类变量。6.数值变量(Numericalvariable)：又称为计量资料、定量资料，指构成其的变量值是定量的，其体现为数值大小，有单位。对每个观测单位用定量的措施测定某项指标的数值，构成的资料。7.计数资料：将全体观测单位按照某种性质或特性分组，然后再分别清点各组观测单位的个数。分类变量(categoricalvariable)：或称定性变量，其取值是定性的，体现为互不相容的类别或或属性，有两种状况：1)无序分类(unorderedcategories)：包括①二项分类，如上述“性别”变量，体现为互相对立的成果；②多项分类，如上述“血型”变量，体现为互不相容的多类成果。2)有序分类(orderedcategories)：各类之间有程度上的差异，或等级次序关系，有“半定量”的意义，亦称等级变量。等级资料：介于计量资料和计数资料之间的一种资料，通过半定量措施测量得到。8.抽样(sampling)：从总体中抽取部分观测单位的过程称为抽样。9.抽样误差(samplingerror)：由于抽样导致的记录量与参数之间的差异，特点是不能防止的，可用原则误描述其大小。10.误差(error)：记录上所说的误差泛指测量值与真值之差，样本指标与总体指标之差。重要有如下二种：系统误差和随机误差。11.可信区间(confidenceinterval,CI)：按一定的概率或可信度(1-α)用一种区间估计总体参数所在范围，这个范围称作可信度1-α的可信区间，又称置信区间。12.总体均数的可信区间：按一定的概率大小估计总体均数所在的范围(CI)。常用的可信度为95％和99％，故常用95％和99％的可信区间。13.变异(variation)：同质事物间的差异。由于观测单位一般即为观测个体，故变异亦称为个体变异(individualvariation)。14.组间变异(variationbetweengroup)：用各组均数与总均数的离均差平方和表达ν组间=k-1，k为试验分组数，组间均方为MS组间=SS组间/(k-1)15.组内变异(variationwithingroup)：用各组均数与总均数的离均差平方和表达，各组自由度为ni-1，则组内自由度为ν组内=N-k，组内均方为MS组内=SS组内/(N-k)16.平均数(average)：也叫平均值，是一组(群)数据经典或有代表性的值。这个值趋向于落在根据数据大小排列的数据的中心，包括算术平均数(arithmeticmean)、几何平均数(geometricmean)、中位数(median)等。17.中位数(median)：将一组观测值按升序或降序排列，位次居中的数，常用M表达。合用于偏态分布资料或不规则分布资料和开口资料。所谓“开口”资料，是指数据的一端或两端有不确定值。当n为奇数时，M=X(n+1)/2；当n为偶数时，M=[Xn/2+Xn/2+1]/2。18.百分位数(percentile)：是一种位置指标，以Px表达，一种百分位数Px将所有观测值分为两个部分，理论上有x%的观测值不不小于Px小，有(1-x%)的观测值不小于Px。19.变异系数(coefficientofvariance,CV)：亦称离散系数(coefficientofdispersion)，为原则差与均数之比，常用百分数表达。,变异系数没有度量衡单位，常用于比较度量单位不一样或均数相差悬殊的两组或多组资料的离散程度。20.登记表(statisticaltable)：登记表就是以表格的形式，体现被研究对象的特性、内部构成及研究项目分组之间的数量关系。21.频率(relativefrequency)：在n次随机试验中，事件A发生了m次，则比值称为事件A在n次试验中出现的频率(relativefrequency)。m称为出现的频数(frequency)。在实际工作中，当观测单位的例数足够多时，可以用频率来替代概率。频率是概率的估计值。22.概率(probability)：在反复试验中，事件A的频率，伴随试验次数的不停增长将愈来愈靠近一种常数p，这个常数p就称为事件A出现的概率(probability)，记作P(A)或P。描述随机事件发生的也许性大小的数值，常用P来表达。23.记录量(statistic)：由样本所算出的记录指标或特性值。24.有关系数(correlationcoefficient)：用以阐明具有直线关系的两个变量间有关关系的亲密程度和有关方向的指标，称为有关系数，又称为积差有关系数(coefficientofproduct-momentcorrelation)，总体有关系数用希腊字母ρ表达，而样本有关系数用r表达，取值范围均为[-1,1]。25.回归系数(regressioncoefficient)：直线回归方程=a+bX的系数b称为回归系数，也就是回归直线的斜率(slope)，表达X每增长一种单位，Y平均变化b个单位。26.参照值范围(referencerange)：也称为正常值范围(normalrange)，医学上常把绝大多数正常人的某指标值范围称为该指标的正常值范围。绝大多数：可以是90%、95%、99%等等，最常用的是95%。正常人：不是指健康人，而是指排除了影响所研究指标的疾病和有关原因的同质人群。又称参照值范围，是指特定健康人群的解剖、生理、生化等多种数据的波动范围。习惯上是确定包括95%的人的界值。27.正偏态和负偏态分布：频数分布可分为对称分布和非对称分布两种类型。非对称分布又称为偏态分布，是指观测值偏离中央的分布。当尾部偏向数轴正侧(或右侧)时，称正偏态(或右偏态)分布，如人体中某些重金属元素的分布等。反之，尾部偏向数轴负侧(或左侧)时，则称为负偏态(或左偏态)分布。28.记录推断(statisticinference)：从总体中随机抽取一定含量的样本进行研究，目的是通过样本的信息判断总体的特性，这一过程称为记录推断。29.原则误(standarderror,SE)：在记录理论上将样本记录量的原则差称为原则误，用来衡量抽样误差的大小。据此，样本均数的原则差称为原则误。30.参数估计(parameterestimation)：由样本信息估计总体参数。它包括两种：点估计(pointestimation)和区间估计(intervalestimation)。31.点估计(pointestimation)：直接用样本记录量作为对应的总体参数的估计值。32.区间估计(intervalestimation)：按一定的概率或可信度(1-α)用一种区间估计总体参数所在范围，这个范围称作可信度1-α的可信区间(confidenceinterval,CI)，又称置信区间。这种估计措施称为区间估计。33.95%可信区间含义：假如反复若干次样本含量相似的抽样，每个样本均按同一措施构建95%可信区间，则在这些可信区间中，理论上有95个包括了总体参数，尚有5个未估计到总体均数。34.Ⅰ类错误(typeⅠerror)：记录学上规定，拒绝了实际上成立的H0，此类“弃真”的错误称为Ⅰ型错误或第一类错误，Ⅰ型错误的概率用α表达。35.Ⅱ类错误(typeⅡerror)：记录学上规定，不拒绝实际上不成立的H0，此类“存伪”的错误称为Ⅱ型错误或第二类错误，Ⅱ型错误的概率用β表达。36.检查效能(powerofatest)：又称把握度，即两总体确有差异，按α水准能发现它们有差异的能力。37.参数检查：总体分布已知，对其中某些未知参数进行估计或检查。此类记录推断的措施叫参数记录或参数检查。参数检查：假定比较数据服从某分布,通过参数的估计量(,s)对比较总体的参数(μ)作检查，记录上称为参数法检查(parametrictest)。如t、u检查、方差分析。38.非参数检查：合用于任意分布(distributionfree)的记录措施，这种措施称为非参数记录。这种假设检查措施，比较的是分布而不是参数，故称为非参数检查。非参数检查：是指在记录检查中不需要假定总体分布形式和用参数估计量，直接对比较数据的分布进行记录检查的措施，称为非参数检查(nonparametrictest).39.率(rate)：又称频率指标，用以阐明某现象发生的频率或强度。常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表达。其计算公式为：

40.构成比(proportion)：又称构成指标，它阐明一种事物内部各构成部分所占的比重或分布，常以百分数表达，其计算公式为：41.比(ratio)：又称相对比，是A、B两个有关指标之比，阐明A为B的若干倍或百分之几，它是对比的最简朴形式。其计算公式为：比=A/B。二、简答题1.常见的三类误差是什么？应采用什么措施和措施加以控制？答：常见的三类误差是：(1)系统误差：在搜集资料过程中，由于仪器初始状态未调整到零、原则试剂未经校正、医生掌握疗效原则偏高或偏低等原因，可导致观测成果倾向性的偏大或偏小，这叫系统误差。要尽量查明其原因，必须克服。(2)随机测量误差：在搜集原始资料过程中，虽然仪器初始状态及原则试剂已经校正，不过，由于多种偶尔原因的影响也会导致同一对象多次测定的成果不完全一致。譬如，试验操作员操作技术不稳定，不一样试验操作员之间的操作差异，电压不稳及环境温度差异等原因导致测量成果的误差。对于这种误差应采用对应的措施加以控制，至少应控制在一定的容许范围内。一般可以用技术培训、指定固定试验操作员、加强责任感教育及购置一定精度的稳压器、恒温装置等措施，从而到达控制的目的。(3)抽样误差：虽然在消除了系统误差，并把随机测量误差控制在容许范围内，样本均数（或其他记录量）与总体均数（或其他参数）之间仍也许有差异。这种差异是由抽样引起的，故这种误差叫做抽样误差，要用记录措施进行对的分析。2.抽样中规定每一种样本应当具有哪三性？答：从总体中抽取样本，其样本应具有“代表性”、“随机性”和“可靠性”。(1)代表性:就是规定样本中的每一种个体必须符合总体的规定。(2)随机性:就是要保证总体中的每个个体均有相似的几率被抽作样本。(3)可靠性:即试验的成果要具有可反复性，即由科研课题的样本得出的成果所推测总体的结论有较大的可信度。由于个体之间存在差异,只有观测一定数量的个体方能体现出其客观规律性。每个样本的含量越多，可靠性会越大，不过例数增长，人力、物力都会发生困难，因此应以“足够”为准。需要作“样本例数估计”。3.什么是两个样本之间的可比性？答：可比性是指处理组（临床设计中称为治疗组）与对照组之间，除处理原因不一样外，其他也许影响试验成果的原因规定基本齐同，也称为齐同对比原则。4.原则正态分布(u分布)与t分布有何异同？相似点：集中位置都为0，都是单峰分布，是对称分布，原则正态分布是t分布的特例(自由度是无限大时)不一样点：t分布是一簇分布曲线，t分布的曲线的形状是随自由度的变化而变化，原则正态分布的曲线的形状不变，是固定不变的，由于它的形状参数为1。5.原则差与原则误有何区别和联络？区别：(1)含义不一样:①s描述个体变量值（x）之间的变异度大小，s越大，变量值（x）越分散；反之变量值越集中，均数的代表性越强。②原则误是描述样本均数之间的变异度大小，原则误越大，样本均数与总体均数间差异越大，抽样误差越大；反之，样本均数越靠近总体均数，抽样误差越小。(2)与n的关系不一样：n增大时，①s→σ（恒定）。②原则误减少并趋于0（不存在抽样误差）。(3)用途不一样:①s:表达x的变异度大小，计算cv，估计正常值范围，计算原则误等②:参数估计和假设检查。联络：两者均为变异度指标，样本均数的原则差即为原则误，原则差与原则误成正比。6.应用相对数时的注意事项有哪些？①要注意绝对数与相对数结合应用；②要注意观测单位样本数不适宜过小；③要注意分子分母对的选用；④要注意率与比的对的应用；⑤要注意平均率的计算措施；⑥要注意资料的可比性；⑦率和构成比比较时作假设检查。7.简述直线回归与直线有关的区别。(1)资料规定上不一样：直线回归分析合用于应变量是服从正态分布的随机变量，自变量是选定变量；直线有关分析合用于服从双变量正态分布的资料。(2)两种系数的意义不一样：回归系数是表明两个变量之间数量上的依存关系，回归系数越大回归直线越陡峭，表达应变量随自变量变化越快；有关系数是表明两个变量之间有关的方向和紧密程度的，有关系数越大，两个变量的关联程度越大。8.何谓抽样误差？分别写出均数的抽样误差和率的抽样误差的描述指标及计算公式。答：总体中的个体间存在变异，在进行抽样研究时，样本的记录量不等于总体参数，这种误差称为抽样误差。均数的抽样误差：常用样本均数的原则差(简称原则误)反应均数抽样误差的大小。(理论值)，(估计值)。率的抽样误差：常用率的原则误反应率的抽样误差的大小。(理论值)，(估计值)。9.假设检查的理论根据是什么？请简述假设检查的基本环节。答：假设检查的理论根据是小概率事件原理，环节为：(1)根据研究目的建立假设，确定检查水准(2)根据样本记录量的抽样分布规律，选择合适的记录措施，计算检查记录量(3)确定P值，做出推断结论10.方差分析的基本思想是什么？你所懂得的其用途有哪些？答：方差分析的基本思想就是按研究目的和设计类型，将总变异的离均差平方和SS和自由度v分别分解成若干部分，并求得各对应部分的变异；其中的组内变异或误差重要反应个体差异或抽样误差，其他部分的变异与之比较得出记录量F值，由F值的大小确定P值，并做出推断。方差分析应用广泛，可用于:①两个或多种样本均数间的比较；②分析两个或多种原因间的交互作用；③回归方程的线性假设检查；④多元线性回归分析中偏回归系数的假设检查等。本章重要简介完全随机设计资料的方差分析、配伍组设计资料的方差分析及反复测量数据的方差分析。11.完全随机设计的两样本率比较时，怎样对的选择记录分析措施（写出对应的计算公式）。(1)当总例数n≥40且所有格子的T≥5时，用2检查的基本公式或四格表资料2检查的专用公式；当P≈α时，改用四格表资料的Fisher确切概率法。公式为：，v=(行数-1)(列数-1)(2)当n≥40但有1≤T＜5时，用四格表资料2检查的校正公式；或改用四格表资料的Fisher确切概率法的持续性校正法：，(3)当n＜40，或T＜1时，用四格表资料的Fisher确切概率法。12.什么是医学参照值范围？估计医学参照值范围怎样对的选用记录措施？答：医学参照值范围是指所谓“正常人”的解剖、生理、生化等指标的波动范围，亦称正常值范围。如95％的参照值范围包括了95％的观测值，而有5％的观测值不在这一范围内。估计医学参照值范围确定措施：(1)正态分布法：合用于正态或近似正态分布的资料双侧界值；单侧上界；单侧下界(2)对数正态分布法：合用于对数正态分布的资料双侧界值；单侧上界；单侧下界(3)百分位数法：用于偏态资料双侧界值(P2.5,P97.5)；单侧上界P95；单侧上界P513.什么是假设检查中的两类错误？什么是检查效能?其大小与哪些原因有关？答：假设检查中的第一类错误是指“拒绝了实际上成立的H0假设”时所犯的错误，当H0成立时犯第一类错误的概率等于检查水准α。假设检查中的第二类错误是指“不拒绝实际上不成立的H0假设”时所犯的错误，其概率一般用β表达，其大小与抽样误差大小及设定的检查水准α有关。1-β为假设检查的检查效能，也就是两个总体确实有差异时检出该差异的能力；14.2检查的基本思想是什么？其用途重要有哪些？答：①2检查的基本思想：其计算公式为，式中A代表实际频数；T代表理论频数；而2值反应了实际频数与理论频数的吻合程度，其中反应了某个格子实际频数与理论频数的吻合程度。若检查假设H0成立，实际频数与理论频数的差值会小，则2值也会小；反之，若检查假设H0不成立，实际频数与理论频数的差值会大，则2值也会大。②2检查的用途：a、单样本的拟合优度检查；b、比较两个独立样本的频率分布与否不一样；c、多种独立样本的频率分布与否不一样；d、比较配对样本的频率分布；15.对两个随机变量进行关联性或有关性分析时，怎样对的选择记录分析措施（写出对应的公式）？答：①两变量为数值变量时：a、若两变量均为正态随机变量，且其散点图呈直线趋势，则用直线有关分析，计算样本有关系数：然后对其进行假设检查：H0：ρ=0H1：ρ≠0α=0.05，v=n-2b、若两变量为非正态分布，则用等级有关分析。将两变量各自按由小到大的次序排秩，编上秩次，求各对数据的秩次之差，记为di。按下式计算Spearman等级有关系数：然后对其进行假设检查：H0：ρ=0H1：ρ≠0α=0.05当n≤50时，查Spearman等级有关系数界值表；当n>50时，按下式计算检查记录量u：，根据原则正态分布的概率函数确定P值，作出推断结论。②两变量为分类变量时：a、两变量均为无序多分类变量时：用行×列表的2检查：H0：两变量无关联H1：两变量有关联α=0.05，若拒绝H0，接受H1，可计算Pearson关联络数：b、两变量均为有序多分类变量时，可用Spearman等级有关分析，措施同前。16.简述t检查的详细环节，怎样进行检查成果判断？环节：(1)建立假设和确定检查水准α；(2)计算记录量；(3)确定P值；(4)判断成果。成果的判断：P>α，接受H0，差异无明显性，可认为差异是由抽样误差所致。P≤α，拒绝H0，差异有明显性，可认为样本间存在差异。18.抽样研究中怎样才能控制或减小抽样误差？答：合理的抽样设计，增大样本含量。19.何谓抽样误差？为何说抽样误差在抽样研究中是不可防止的？答：由抽样导致的样本记录量与样本记录量，样本记录量与总体参数间的差异由于个体差异是客观存在的，研究对象又是总体的一部分，因此这部分的成果与总体的成果存在差异彩是不可防止的20.能否说假设检查的p值越小，比较的两个总体指标间差异越大？为何？答：不能，由于P值的大小与总体指标间差异大小不完全等同。P值的大小除与总体差异大小有关，更与抽样误差大小有关，同样的总体差异，抽样误差大小不一样，所得的P也会不一样样，抽样误差大小实际工作中重要反应在样本量大小上。21.在秩和检查中，为何在不一样组间出现相似数据要予以“平均秩次”，而在同一组的相似数据不必计算平均秩次？答：这样编秩不影响两组秩和的计算，或对两组秩和的计算不产生偏性。22.某医生用某药治疗10例小儿支气管哮喘，治愈8例，结论为“该药对小儿支气管哮喘的治愈率为80%，值得推广”。答：一是没有对照组，二是样本例数太少，抽样误差大，可信区间宽。23.某地１岁婴儿平均血红蛋白95％可信区间为116.2~130.1(g/L)，表达什么意义？该地1岁正常婴儿血红蛋白95％的参照值范围为111.2~135.1(g/L)，又阐明了什么含义？答：表达该地１岁婴儿血红蛋白总体平均数在116.2~130.1(g/L)，估计对的的概率为95%表达该地有95％1岁正常婴儿的血红蛋白值在111.2~135.1(g/L)24.对同一组资料，假如有关分析算出的r越大，则回归分析算出的b也越大。为何？答：没有这个规律。有关分析r值大小仅阐明变量间联络紧密，而回归分析b的大小阐明两者数量关系。25.描述集中趋势的指标有哪些？其合用范围有何异同？P26~28修改答案（5分）①均数：合用于正态或近似正态分布②几何均数：合用于等比数列或对数正态分布资料③中位数：合用于资料是偏态分布的；分布不规则；一端或两端有不确定数据（开口资料）时。26.何谓假设检查？可以举例阐明。（5分）首先建立检查假设，然后在该假设下进行随机抽样，计算得到该记录量及其极端情形的概率，假如概率较小，则拒绝该假设，假如概率不是小概率，则接受该假设，这个过程称为假设检查。27.请你谈谈对假设检查结论的认识。（5分）由于假设检查的结论是根据小概率事件一次试验实际不也许发生的原理进行的，因此当拒绝检查假设时也许犯I型错误，当接受检查假设时也许犯II型错误。28.请你谈谈原则差和原则误的异同点。（5分）

区别点原则差原则误意义个体差异大小抽样误差大小计算公式总体原则差：样本原则差：或与n的关系n↑

，则S→σn↑，则→0用途与均数结合可制定参照值范围与均数结合可计算总体均数的可信区间31.简述怎样描述一组计量资料的集中趋势和离散趋势描述集中位置的指标：①均数：合用于正态或近似正态分布；②几何均数：合用于等比数列或对数正态分布资料；③中位数：合用于资料是偏态分布的；分布不规则；一端或两端有不确定数据（开口资料）时。描述离散趋势的指标：①极差(Range)：记为R，又称全距，指一组数据中最大值和最小值之差。极差大，阐明资料的离散程度大。②四分位数(quartile)：记为Q，即P25和P75。对P25来说，有25%(1/4)的观测值不不小于P25，称为下四分位数，记为QL；对P75来说，有25%(1/4)的观测值不小于P75，称为上四分位数，记为QU。所谓四分位数间距(inter-quartilerange)：就是上四分位数与下四分位数之差，即。其间包括了所有观测值的二分之一。四分位数间距大，阐明变异度大；反之，阐明变异度小。③方差：离均差的平方和除以N得总体方差。离均差：数据集中各个观测值与均数之差。④原则差是描述个体值变异程度的指标，为方差的算术平方根，该变异不能通过记录措施来控制。全面反应了一组观测值的变异程度。⑤变异系数：原则差与均数之比，用百分数表达。32.试述假设检查中I型错误与II型错误的意义及关系。答：拒绝了实际上成立的H0，此类“弃真”的错误称为Ⅰ型错误(typeⅠerror)或第一类错误；不拒绝实际上不成立的H0，此类“存伪”的错误称为Ⅱ型错误(typeⅡerror)或第二类错误。Ⅰ型错误的概率用α表达，是根据研究者的规定在计算检查记录量之前设定的。Ⅱ型错误的概率用β表达，一般地，β的大小和样本例数、α值、两总体的实际差距有关，它只有与特定的H1结合起来才故意义，而一般的检查假设其总是非特定的，因此β值的大小很难确切估计。仅懂得样本例数确定期，α越小，β越大，反之，α越大，β越小。因此α和β是互相制约的，可以根据研究规定合适控制。要同步减少α及β，唯一的措施是增长样本例数，当样本例数确定后，可以通过选定α来控制β。若重点减少α，一般取较小的α；若重点减少β，一般取α=0.05，α=0.1或更高，由于虽属未知，但估计比取α=0.01时小些。33.试比较完全随机设计和随机区组设计资料的方差分析基本思想。(1)完全随机设计资料的方差分析完全随机设计(completelyrandomdesign)：亦称成组设计。该设计仅波及一种研究原因，k个不一样的水平(k个分组)。用单原因方差分析(one-wayANOVA)。三种变异：SS总=SS组间+SS组内(2)随机区组设计资料的方差分析随机区组设计(randomblockdesign)：又称配伍设计，是配对设计的扩展。四种变异：SS总=SS处理+SS区组+SS误差，ν总=kb-134.试比较原则差和原则误的关系与意义。答：原则差是描述个体值变异程度的指标，为方差的算术平方根，该变异不能通过记录措施来控制。而原则误则是指样本记录量的原则差，均数的原则误实质是样本均数的原则差，它反应了样本均数的离散程度，也反应了样本均数与总体均数的差异，阐明了均数的抽样误差。35.简述非参数检查的应用条件和优缺陷。答：应用条件：①有序分类资料、②偏态分布资料、③变异较大或方差不齐的资料、④分布型不明的资料及⑤有特大、特小值或数据的一端或两端有不确定数值的资料。重要长处是不受总体分布的限制，合用范围广。重要缺陷是符合参数检查的资料(两样本均数比较的t检查)，如用非参数检查，因没有充足运用资料提供的信息，检查效率减少。37.复有关系数与确定系数的定义与意义答：复有关系数：称为复有关系数。R的意义：①Y与多种自变量间的线性有关程度；②Y与估计值间的有关程度。确定系数：有关系数的平方称为确定系数，它反应回归奉献的程度。相称于在总离均差平方和中回归能解释的比例。即阐明回归奉献占Y的总变异中的比例。38.什么是可信区间，可信区间有哪两个要素？答：可信区间：按一定的概率或可信度(1-α)用一种区间估计总体参数所在范围，这个范围称作可信度1-α的可信区间(confidenceinterval,CI)，又称置信区间。可信区间的两个要素：①精确性：又称可靠性，反应为可信度1-α的大小，显然可信度愈靠近1愈好。②精确性：常用可信区间的长度CL－CU来衡量。当然长度愈小愈好。精确性与变量的变异程度大小、样本例数和1-α取值有关。40.简述正态分布的应用。答：(1)估计频数分布，(2)制定参照值范围，(3)质量控制：为了控制试验中的检测误差，常以±2s作为上、下警戒值，以±3s作为上、下控制值。(4)记录分析措施的基础。41.简述医学参照值范围含义并写出95%双侧医学参照值范围的两种计算措施及公式。答：医学参照值范围，是指特定健康人群的解剖、生理、生化等多种数据的波动范围。习惯上是确定包括95%的人的界值。95%双侧医学参照值范围的两种计算措施及公式(1)正态分布法：1-α参照值范围公式，双侧：；单侧：>或<。(2)百分位数法：1-α参照值范围公式，双侧：；单侧：>或<。42.简述秩有关的合用范围。答：秩有关的合用范围：(1)不服从双变量正态分布而不适宜作积差有关分析；(2)总体分布类型未知；(3)原始数据用等级表达。43.简述假设检查的注意事项。答：假设检查的注意事项：①假设检查时也许犯两类错误；②选择检查措施要注意符合其应用条件；③对的理解假设检查的结论；④当差异无明显性时，有两种也许；⑤记录学的明显性与否和平常生活中的明显性概念不一样；⑥单侧检查与双侧检查。44.简述正态分布的特性。答：(1)单峰分布；当X=μ时，f(X)取最大值；总体中位数亦为μ。(2)以均数μ为中心，左右完全对称。(3)正态分布取决于两个参数，即均数μ和原则差σ。(4)有些指标不服从正态分布，但通过合适的变换(transformation)后服从正态分布(5)正态分布曲线下的面积分布是有规律的。45.简述频数表的重要用途。答：(1)通过频数表理解数据的分布特性。①X值分布状况：偏态或正态分布；②取值状况：变量值取值范围；③集中趋势：变量值集中位置。(2)便于发现资料中的可疑值。(3)组段的频率作为概率的估计。46.简述t分布的特性。答：(1)一簇单峰分布曲线；(2)以0为中心，左右对称；(3)与自由度有关，①自由度越小，t分布的峰越低，而两侧尾部翘得越高；②自由度逐渐增大时，t分布逐渐迫近原则正态分布；③当自由度为无穷大时，t分布就是原则正态分布。47.简述秩和检查的应用范围。答：秩和检查的合用范围广，尤其合用于组间比较：(1)数据分布为偏态分布或不满足参数检查措施(组间方差不齐)的计量资料。(2)有的数据为无确切值，只是＞某值或＜值的计量资料。(3)当比较的数据只能用严重程度、优劣等级的半定量(等级)资料组间的比较。秩和检查用于定量资料计量资料中，变量值(x)：①极度偏态资料，或个别数值偏离过大；②各组离散度相差悬殊；③资料中具有不确定值,不小于5年、<0.1；④兼有等级和定量性质的资料。48.什么是百分位数？写出计算公式。答：百分位数(percentile)：是一种位置指标，以Px表达，一种百分位数Px将所有观测值分为两个部分，理论上有x%的观测值不不小于Px小，有(1-x%)的观测值不小于Px。计算定义：将一组变量值由小到大依次排列，为第x百分位数的秩次，其对应的变量值(x)为第x百分位数，记为Px。百分位数计算公式：(1)直接法将样本值由小到大排队，用nX%确定Px的位次和Px。当nX%为带有小数位时用公式：当nX%为带有小数位时用公式：函数trunc(a)：表达对数字取其整数。(2)频数表法(例数较多)用公式：LX：第X%位数所在组段的下限值iX：第X%位数所在组段的组距fX：第X%位数所在组段的频数∑fL：第X%位数所在组段上个组段的合计频数三、教材课后简答题1.对于一组近似正态分布的资料，除样本含量n外，还可计算，S和，问各阐明什么？答：三个指标分别阐明：(1)为算术平均数，阐明正态分布或近似正态分布资料的集中趋势；(2)S为原则差，阐明正态分布或近似正态分布资料的离散趋势；(3)可估计正态指标的95%医学参照值范围，即此范围在理论上应包括总体的95%个体值。2.试述正态分布、原则正态分布及对数正态分布的联络和区别。答：正态分布、原则正态分布及对数正态分布的联络和区别：正态分布原则正态分布对数正态分布原始值X无需转换作u=(X-μ)/σ转换作Y=logX转换分布类型对称对称正偏态集中趋势指标μμ=0G均数与中位数的关系μ=Mμ=Mμ＞M3.阐明频数分布表的用途。答：频数分布表的用途是：(1)描述频数分布的类型；(2)描述频数分布的特性；(3)便于发现某些特大或特小的可疑值；(4)便于深入做记录分析和处理。4.变异系数的用途是什么？答：变异系数的用途：常用于①观测指标单位不一样步，如身高与体重的变异程度的比较；②均数相差较大时，如小朋友身高与成人身高变异程度的比较。5.试述正态分布的面积分布规律。答：正态分布的面积分布规律是：(1)X轴与正态曲线所夹面积等于1或100%；(2)区间的面积为68.27%，区间的面积为95.00%，区间的面积为99.00%。7.原则正态分布(u分布)与t分布有何不一样？答：t分布为抽样分布，原则正态分布(u分布)为理论分布。t分布比原则正态分布的峰值低，且尾部翘得要高。伴随自由度的增大，t分布逐渐趋近于原则正态分布。即当自由度v→∞时，t分布→原则正态分布。8.均数的可信区间与参照值范围有何不一样？答：均数的可信区间与参照值范围的区别重要体目前含义、计算公式和用途三方面的不一样，详细如下表所示：区别点均数的可信区间参照值范围含义按预先给定的概率，确定的未知参数的也许范围。实际上一次抽样算得的可信区间要么包括了总体均数，要么不包括。但可以说：该可信区间有多大(如当α=0.05时为95%)的也许性包括了总体均数。“正常人”的解剖、生理、生化某项指标的波动范围。计算公式①σ未知：②σ已知：③σ未知但n＞50：①正态分布：②偏态分布：用途估计总体均数判断观测对象的某项指标正常与否*也可用(对应于单尾概率时)；**也可用(对应于单尾概率时)。9.假设检查时，一般当P<0.05时，则拒绝H0，理论根据是什么？答：P值是指从H0规定的总体随机抽得等于及不小于(或/和等于及不不小于)既有样本获得的检查记录量值(如t值或u值)的概率。当P<0.05时，阐明在H0成立的条件下，得到既有检查成果的概率不不小于一般确定的小概率事件原则0.05。因小概率事件在一次试验中几乎不也许发生，现确实发生了，阐明既有样本信息不支持H0，因此怀疑原假设H0不成立，故拒绝H0。在下“有差异”的结论的同步，我们可以懂得也许犯Ⅰ型错误的概率不会不小于0.05(即一般的检查水准)，这在概率上有了保证。10.假设检查中和P的区别何在？答：和P均为概率，其中是指拒绝了实际上成立的H0所出错误的概率，是进行记录推断时预先设定的一种小概率事件原则。P值是由实际样本获得的，在H0成立的前提条件下，出现等于及不小于(或/和等于及不不小于)既有样本获得的检查记录量值的概率。在假设检查中一般是将P与对比来得到结论，若P≤，则拒绝H0，接受H1，有记录学意义，可以认为……不一样或不等；若P>，则不拒绝H0，无记录学意义，还不能认为……不一样或不等。11.怎样对的选用单侧检查和双侧检查？答：单双侧检查首先应根据专业知识来确定，同步也应考虑所要处理的问题的目的。若从专业知识判断一种措施的成果也许低于或高于另一种措施的成果，则用单侧检查；在尚不能从专业知识判断两种成果谁高谁低时，用双侧检查。若研究者对低于或高于两种成果都关怀，则用双侧检查；若仅关怀其中一种也许，则取单侧检查。一般认为双侧检查较保守和稳妥，单侧检查由于充足运用了另一侧的不也许性，故更易得出有差异的结论，但应慎用。12.t检查的应用条件是什么？答：对单样本t检查规定资料服从正态分布；对配对t检查规定差值服从正态分布；对两样本t检查则规定两组数据均服从正态分布，且两样本对应的两总体方差相等，对两小样本尤其规定方差齐性。13.I型错误与II型错误有何区别与联络？理解这两类错误有何实际意义？答：I型错误指拒绝了实际上成立的H0所犯的“弃真”错误，其概率大小用α表达。则是指“接受”了实际上不成立的H0所犯的“取伪”错误，其概率大小用β表达。当样本含量n确定期，α愈小，β愈大；反之，α愈大，β愈小。理解这两类错误的实际意义在于，若在应用中要重点减少α(如一般的假设检查)，则取α=0.05；若在应用中重点减少β(如方差齐性检查、正态性检查或想用一种措施替代另一种措施的检查等)，则取α=0.10或0.20甚至更高。14.假设检查和区间估计有何联络？答：假设检查用于推断质的不一样即判断两个(或多种)总体参数与否不一样，而可信区间用于阐明量的大小即推断总体参数的范围。两者既互相联络，又有区别。假设检查与区间估计的联络在于可信区间亦可回答假设检查的问题，若算得的可信区间包括了H0,则按α水准，不拒绝H0；若不包括H0，则按α水准，拒绝H0，接受H1。也就是说在判断两个(或多种)总体参数与否不等时，假设检查和可信区间是完全等价的。15.为何假设检查的结论不能绝对化？答：由于通过假设检查推断作出的结论具有概率性，其结论不也许完全对的，有也许发生两类错误。拒绝H0时，也许犯Ⅰ型错误；“接受”H0时也许犯Ⅱ型错误。无论哪类错误，假设检查都不也许将其风险降为0，因此在结论中使用绝对化的字词如“肯定”、“一定”、“必然”就不恰当。16.方差分析的基本思想和应用条件是什么？答：方差分析的基本思想就是根据试验设计的类型，将所有测量值总的离均差平方和及其自由度分解为两个或多种部分，除随机误差作用外，每个部分的变异可由某个原因的作用(或某几种原因的交互作用)加以解释，如组间变异SS组间可由处理原因的作用加以解释。通过比较不一样变异来源的均方，借助F分布作出记录推断，从而推论多种研究原因对试验成果有无影响。方差分析的应用条件为：①各样本是互相独立的随机样本，均服从正态分布；②互相比较的各样本的总体方差相等，即具有方差齐性。17.在完全随机设计方差分析中SS组间、SS组内各表达什么含义？答：SS组间表达组间变异，指各处理组样本均数大小不等，是由处理原因作用(假如有)和随机误差导致的；SS组内表达组内变异，指各处理组内变量值大小不等，是由随机误差导致的。18.随机区组设计的方差分析与完全随机设计方差分析在设计和变异分解上有什么不一样？答：随机区组设计的方差分析与完全随机设计方差分析在设计和变异分解上的不一样之处，详细如下表所示：区别点完全随机设计随机区组设计设计采用完全随机化的分组措施，将所有试验对象分派到g个处理组(水平组)，各组分别接受不一样的处理随机分派的次数要反复多次，每次随机分派都对同一种区组内的受试对象进行，且各个处理组受试对象数量相似，区组内均衡。变异分解三种变异：SS总=SS组间+SS组内四种变异：SS总=SS处理+SS区组+SS误差19.怎样确定应用于试验的拉丁方？答：首先根据水平数g来选定拉丁方大小；然后对选定的基本拉丁方做行列变换获得随机排列的拉丁方。20.为何在方差分析的成果为拒绝H0、接受H1之后，对多种样本均数的两两比较要用多重比较的措施?答：方差分析的备择假设H1是g个总体均数不全相等，拒绝H0，接受H1，只阐明g个总体均数总的来说有差异，并不阐明两两总体均数均有差异。若想深入理解哪两两总体均数不等，则需进行多种样本均数间的多重比较。21.常用的相对数有哪几种？简述多种相对数指标的含义，计算措施及特点。答：有强度相对数(率)、构造相对数(构成比)、相对比三种。率的含义：某现象实际发生的例数与也许发生的总例数之比，阐明某现象发生的频率或强度。其特点为：阐明某现象发生的强度。计算公式：构成比的含义：事物内部某一部分的个体数与该事物各部分个体数的总和之比，用来阐明各构成部分在总体中所占的比重或分布，一般以100为比例基数，又称比例。其特点为：①一组构成比的总和应等于100%，即各个分子的总和等于分母；②各构成部分之间是互相影响的，某一部分比重的变化受到两方面原因的影响，其一是这个部分自身数值的变化，其二是受其他部分数值变化的影响。计算公式：相对比的含义：是两个有关指标之比，阐明两指标间的比例关系。其特点为：两个指标可以是性质相似，也可以是性质不一样；两个指标可以是绝对数、相对数或平均数。计算公式：23.何为原则化法？简述直接原则化法与间接原则化法的区别。答：采用某影响原因(如年龄、性别、工龄、病情轻重、病程长短等)的统一原则构成，然后计算原则化率的措施称为原则化法，其目的是消除原样本内部某影响原因构成不一样对合计率的影响，使通过原则化后的原则化合计率具有可比性。直接原则化法和间接原则化法的重要区别是：如对死亡率的年龄构成原则化，若已知年龄别死亡率，可采用直接法，选择一种原则年龄人口构成直接计算原则化率；若只有总的死亡数和年龄他人口数而缺乏年龄别死亡率时，宜采用间接法，选择一种原则年龄别死亡率，先计算原则化死亡比(SMR)，再用SMR乘以原则总死亡率得原则化死亡率。24.应用原则化率进行比较时要注意什么问题？答：(1)原则化法只合用于因两组内部构成不一样，并有也许影响两组总率比较的状况。对于因其他条件不一样而产生的可比性问题，原则化法不能处理。(2)由于选择的原则人口不一样，算出的原则化率也不一样。因此，当比较几种原则化率时，应采用同一原则人口。(3)原则化后的原则化率，已经不再反应当时当地的实际水平，它只是表达互相比较的资料间的相对水平。(4)两样本原则化率是样本值，存在抽样误差。比较两样本的原则化率，还应作假设检查。25.相对数的动态指标有哪几种？各有何用处？答：相对数的动态指标即其动态数列分析指标有：绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。绝对增长量是阐明某相对数在一定期期增长的绝对值；发展速度与增长速度均为相对比，阐明某相对数在一定期期的速度变化；平均发展速度是各环比发展速度的几何均数，阐明其相对数在一种较长时期中逐期(如逐年)平均发展变化的程度。26.简述二项分布的应用条件。答：二项分布的应用条件：①每次试验只会发生两种互斥的也许成果之一，即两种互斥成果的概率之和恒等于1；②每次试验产生某种成果(如“阳性”)的概率固定不变；③反复试验是互相独立的，即任何一次试验成果的出现不会影响其他试验成果出现的概率。27.简述Poisson分布的性质特性。答：Possion分布的性质特性：①总体均数λ与总体方差σ2相等；②当n很大，而π很小，且nπ=λ为常数时，Possion分布可看作是二项分布的极限分布；③当λ增大时，Possion分布渐近正态分布。一般而言，λ≥20时，Possion分布资料可作为正态分布处理；④Possion分布具有可加性。即对于服从Possion分布的m个互相独立的随机变量X1，X2，…，Xm，它们之和也服从Possion分布，且其均数为这m个随机变量的均数之和。28.简述二项分布与Poisson分布的区别。答：所谓随机变量X服从二项分布，是指在n重Bernoulli试验中，发生某种成果(如“阳性”)的次数X=0，1，2，…，n的一种概率分布，其恰好发生X个阳性的概率为，其中，且总有。式中X=0,1,2,…,n，“！”为阶乘符号，n！=1×2×3×4×…×n，并约定0！=1。而所谓随机变量X服从Possion分布，是指X满足：①取值范围为0,1,2,…,n；②对应的概率为，且总有。在总体率π很小，而样本含量(试验次数)n趋向于无穷大时，二项分布近似于Possion分布。因此，Possion分布可看作是二项分布的一种极限状况，可用来描述小概率事件发生的规律性。30.简述二项分布、Poisson分布和正态分布间的联络。答：二项分布、Possion分布和正态分布间的联络为：①在n很大，而π很小，且nπ=λ为常数时，二项分布的极限分布为Possion分布；②在n较大，π不靠近0也不靠近1时，二项分布B(n,π)近似正态分布N(nπ,)，而对应的样本率p的分布也近似正态分布N(π,σp)；③当λ增大时，Possion分布渐近正态分布。一般二言，λ≥20时，Possion分布资料可作为正态分布处理。31.阐明2检查的用途。答：2检查的用途较广。一般多用于①推断两个总体率或构成比之间有无差异；②推断多种总体率或构成比之间有无差异；③多种样本率的2分割；④两个分类变量之间有无关联性；⑤频数分布拟合优度的2检查。32.两样本率比较的u检查与2检查有何异同？答：两样本率比较时，若对同一资料同步进行u检查与2检查，在不校正的状况下，2=u2；但u检查一般用于大样本，而2检查可用于大样本或小样本。33.对于四格表资料，怎样对的选用检查措施？答：(1)首先应分清是两样本率比较的四格表资料还是配对设计的四格表资料。(2)对于两样本率比较的四格表资料，应根据各格的理论值T和总例数n的大小选择不一样的2计算公式：①当n≥40且所有的T≥5时，用2检查的基本公式或四格表资料2检查的专用公式，②n≥40，且任一理论频数T有1≤T＜5，用四格表资料2检查的校正公式或或用四格表资料的Fisher确切概率法；③当n＜40，或T＜1时，用四格表资料的Fisher确切概率法。若资料满足两样本率u检查的条件，也可用u检查。(3)对于配对设计的四格表资料，若检查两种措施的检测成果有无差异时：①(b+c)≥40,；②(b+c)＜40,。34.阐明行列表资料2检查应注意的事项。答：(1)行×列表中的理论频数不应不不小于1，或1≤T＜5的格子数不适宜超过格子总数的1/5。(2)多种样本率比较，若所得记录推断为拒绝H0，接受H1时，只能认为各总体率之间总的来说有差异，但不能阐明任两个总体率之间皆有差异。要深入推断哪两个总体率之间有差异，需深入做多种样本率的2分割或多重比较。(3)对于有序的R×C表资料不适宜用2检查。对于R×C表的资料要根据其分类类型和研究目的选用恰当的检查措施。35.阐明R×C表的分类及其检查措施的选择。答：(1)分类：R×C表可以分为双向无序、单向有序、双向有序属性相似和双向有序属性不一样4类。(2)检查措施的选择：①双向无序R×C表：若研究目的为多种样本率(或构成比)的比较，可用行×列表资料的2检查；若研究目的为分析两个分类变量之间有无关联性以及关系的亲密程度时，可用行×列表资料的2检查以及Pearson列联络数进行分析。②单向有序R×C表：若R×C表中的分组变量是有序的，而指标变量是无序的，此种单向有序R×C表资料可进行行×列表资料的2检查分析其构成状况；若R×C表中的分组变量为无序的，而指标变量是有序的，此种单向有序R×C表资料宜用秩和检查分析。③双向有序属性相似的R×C表：宜用一致性检查分析两种检测措施的一致性。④双向有序属性不一样的R×C表：若研究目的如为分析不一样年龄组患者疗效之间有无差异时，可把它视为单向有序R×C表资料，选用秩和检查；若研究目的为分析两有序分类变量间与否存在线性变化趋势，宜用有序分组资料的线性趋势检查。36.什么叫做非参数检查？它和参数检查有什么区别？答：非参数检查对总体分布不作严格假定，不受总体分布的限制，又称任意分布检查，它直接对总体分布(或分布位置)作假设检查。假如总体分布为已知的数学形式，对其总体参数作假设检查则为参数检查。37.什么叫做秩转换的非参数检查?它合用于哪些状况?答：秩转换的非参数检查是先将数值变量从小到大或等级从弱到强转换成秩后，再计算检查记录量，其特点是假设检查的成果对总体分布的形状差异不敏感，只对总体分布的位置差异敏感。它合用于:不满足正态或(和)方差齐性的小样本计量资料；分布不知与否正态的小样本资料；一端或两端是不确切数值的资料；等级资料。38.两组或多组等级资料的比较，为何不能用2检查，而用秩转换的非参数检查？答:若选行×列表资料的2检查，只能推断两个或多种总体的等级构成比差异，这一般不是推断目的；而选秩转换的非参数检查，可推断两个或多种总体的等级强度差异，这是推断目的。39.总体有n个秩：1,2,…,n。若n个秩中有相似秩（如1,2,4,4,4,6,7,…n），其均数和方差与否会变化？变大还是变小？答：均数不变化，方差变化，方差变小。40.两独立样本比较的Wilcoxon秩和检查，当n1＞10或n2-n1＞10时用u检查，这时检查是属于参数检查还是非参数检查，为何？答：属于非参数检查。由于这时的u检查是比较例数较小组秩和(T)与其总体均数(n1(N+1)/2)的差异，而秩和(T)不是参数。42．试总结从样本数据判断总体回归关系与否成立的记录措施有哪些？答：用tb、tr作t检查；用F对b和R2作方差分析；直接查τ界值表。43．既有根据10对数据算出的直线回归方程：=2.1+0.8X，只有X和Y的均数、原则差，而原始数据丢失时怎样鉴定回归方程与否成立？答：例如可以运用r=b×SX/SY，求得有关系数，然后查有关系数界值表对回归方程作假设检查。44．请计算直线回归中残差和自变量之间的积差有关系数。答：可以证明，残差与自变量X之间的有关系数为0。证：只需证明两者的离均差积和由于的均数为，因此，故有：45．直线回归分析中应注意哪些问题？答：(1)两个变量的选择一定要结合专业背景，不能把毫无关联的两种现象勉强作回归分析，其中哪一种作为应变量重要是根据专业上的规定而定，同步直线回归规定至少对于每个X对应的Y要服从正态分布，X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量。(2)进行直线回归分析前应绘制散点图，以检查数据与否满足模型基本假设，发现异常点并进行深入处理。(3)对成果应有对的解释。反应两变量间数量上影响大小的记录量应当是回归系数的绝对值，而不是假设检查的P值。P值越小只能说越有理由认为变量间的直线关系存在，而不能说关系越亲密或越“明显”。直线回归用于预测时应尽量防止不合理的外延。成果中的决定系数可表达两变量关系的实际效果。46．简述

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

统计学复习资料

文档简介

温馨提示

最新文档

评论

统计学复习资料

文档简介

温馨提示

最新文档

评论

相关文档