数值变量统计描述_第1页
数值变量统计描述_第2页
数值变量统计描述_第3页
数值变量统计描述_第4页
数值变量统计描述_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数值变量统计描述第一页,共八十二页,编辑于2023年,星期三

医学统计学是运用概率论和数理统计的原理、方法,结合医学实践,研究医学数字资料的搜集、整理、推断的一门学科。统计学思考与练习.doc第二页,共八十二页,编辑于2023年,星期三医学统计学在科研中的应用一、统计设计:目的:确保专业设计布局合理、实验结果可靠二、统计描述:对统计资料分布特征的描述表达(1)统计指标:(2)统计表、统计图三、统计推断:指根据样本信息推断总体信息

(1)参数估计、(2)假设检验、(3)相关回归分析等第三页,共八十二页,编辑于2023年,星期三三种人群的血浆总皮质醇测定值(102μmol/L)正常人单纯性肥胖皮质醇增多0.110.172.700.520.332.810.610.552.920.690.663.590.770.863.860.861.134.081.021.384.301.081.634.301.272.045.961.923.756.62

统计资料的类型一、数值变量资料(计量资料)用定量的方法(仪器、实验)对观察对象的某项指标进行测量所得到的数值(有度量单位、可以是小数、连续性资料)。第四页,共八十二页,编辑于2023年,星期三二、分类变量资料:是将观察单位按某种属性或类别分组,然后清点各组观察单位的个数所得的数据(无度量单位、整数、离散性资料)第五页,共八十二页,编辑于2023年,星期三甲乙两种疗法治疗肺癌的2年生存率比较疗法生存死亡合计生存率(%)甲22244647.83乙35235860.34合计574710454.81分类变量又可分为有序分类和无序分类两种情况:1、无序分类变量资料(计数资料)(1)二项分类:按属性或类别分组时,分成对立的两种属性或类别;如阳性与阴性、有效与无效第六页,共八十二页,编辑于2023年,星期三维吾尔族与回族居民血型构成比民族构成比(%)调查例数ABOAB维吾尔族29.2131.9227.5011.371513回族27.2328.3435.948.491355(2)多项分类:按属性或类别分组时,分成互不相容的几种属性或类别;如血型A型、B型、O型、AB型第七页,共八十二页,编辑于2023年,星期三两种药物治疗慢性气管炎的疗效组别无效好转显效控制合计标准组(A药)8001920680603460对比组(B药)106026181142、有序分类变量资料(等级资料):将观察单位按某种属性的不同程度、档次或等级分类,然后清点各等级类别所得的观察单位数。第八页,共八十二页,编辑于2023年,星期三*有序分类变量资料与多项分类资料的区别:各等级类别有程度上的差别(这种差别按顺序排列,任何两类别的排序不能替换)*根据分析需要:各类变量资料之间可以互相转化第九页,共八十二页,编辑于2023年,星期三第二章数值变量资料的统计描述第一节频数表和频数图一、频数表:频数(f):相同观察值(或观察结果)出现的次数观察值及其相应的频数按一定顺序排列的表格.第十页,共八十二页,编辑于2023年,星期三频数表9—2的编制步骤如下:1、找极值:即找出最大值(Xmax=19.84)和最小值(Xmin=9.23)2、求全距(R):本例R=Xmax-Xmin=10.613、定组段与组数:组段指各组的起止范围;组数指组段的个数(用k)表示;频数表一般设10~15个组段,本例k=11较合适.4、求组距(i):等距分组时i=R/(k-1)本例i=10.61/(11-1)=1.061≈1第十一页,共八十二页,编辑于2023年,星期三5、列组限:(1)每个组段的起点为下限,终止点为上限(2)第一组段下限取等于或略小于Xmin的整数或方便数,其余各个组段依次累加I作下限6、划记归组:二、频数图:在频数表的基础上,以直方的面积大小表示频数的多少,以直方的面积占总面积的比例表示频率大小的图形(图9—1)第十二页,共八十二页,编辑于2023年,星期三表9-2120例正常成年人血清铜含量频数表(SPSS11.0)第十三页,共八十二页,编辑于2023年,星期三图9-1某地120例正常成年人血清铜含量第十四页,共八十二页,编辑于2023年,星期三三、频数分布特征(两方面特征)1、集中趋势:(图9—1)14~组段(居中组段)频数最多,其它组段的频数分布向其靠拢.2、离散趋势:居中组段两侧的频数逐渐减少四、频数分布的类型1、对称分布:集中位置居中,两侧基本对称的频数分布第十五页,共八十二页,编辑于2023年,星期三第四节正态分布及其应用一、正态分布的概念:是一种重要的连续型分布。如某地120例正常人血清铜含量直方图(图9-1)的特点是高峰位于中部,两侧逐渐减少且大致对称;设想各组段观察人数不断增多、组距不断分细,图中的直条将逐渐变窄,顶端将逐渐接近一条光滑曲线,该曲线即频数曲线或频率曲线,近似于数学上的正态分曲线。若指标x的频率曲线对应于数学上的正态曲线,则称该指标服从正态分布。第十六页,共八十二页,编辑于2023年,星期三第十七页,共八十二页,编辑于2023年,星期三第十八页,共八十二页,编辑于2023年,星期三第十九页,共八十二页,编辑于2023年,星期三三、正态分布的特征1、具有集中性、对称性和均匀变动性。表现为以均数为中心,高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交;第二十页,共八十二页,编辑于2023年,星期三*标准正态分布曲线下的面积可用查表的方式求出;先求u值,查表可得-∞累计到u的面积第二十一页,共八十二页,编辑于2023年,星期三五、正态分布的应用(1)正态分布是统计学原理和统计分析方法的基础,很多统计量的抽样分布如t分布、卡方分布都是建立在正态分布基础上的。(2)根据正态分布的规律概括估计观察值的频数分布范围,控制检测误差,进行参数估计、假设检验及医学参考值范围估计。(3)很多资料虽不服从正态分布,但经变量变换后(如取对数)则服从正态分布或近似正态分布,可按正态分布规律来处理。第二十二页,共八十二页,编辑于2023年,星期三2、偏态分布:

集中位置偏倚,两侧不对称的频数分布.又可分为正、负偏态分布.第二十三页,共八十二页,编辑于2023年,星期三(1)正偏态:特点是峰偏左(频数大多偏于数值小的左侧),长尾向右侧伸延;第二十四页,共八十二页,编辑于2023年,星期三(2)负偏态:峰偏右(频数大多偏于数值大的右侧),长尾向左伸延;(与正偏态相反)第二十五页,共八十二页,编辑于2023年,星期三五、频数表的用途1、揭示资料的分布类型

2、反映频数的集中趋势和离散趋势3、便于发现某些特大或特小的可疑值4、便于进一步计算统计指标和作统计处理第二十六页,共八十二页,编辑于2023年,星期三第三节统计中的几个基本概念一、总体与样本1、总体:指同质的观察单位某种变量值的集合;(同质是指被研究指标的主要影响因素相同)总体根据有无时间和空间的限制又分为有限总体和无限总体2、样本:从总体中按随机抽样的方式抽取一定数量的观察单位所组成的集合第二十七页,共八十二页,编辑于2023年,星期三样本要具备以下两个条件:(1)可靠性:样本中的每一个个体均来自既定的同一总体(2)代表性:样本要由随机抽样获得;并且要抽取一定的数量;分层抽样总体和样本的关系如下:总体抽样研究过程统计推断过程样本第二十八页,共八十二页,编辑于2023年,星期三二、变异与抽样误差1、变异:指同质事物间的差异。是客观存在的现象,可分为以下两类:(1)个体变异:指同一特征或同一条件下个体间的差异。(2)随机测量变异:指同一个体重复观测结果未必相等的现象。第二十九页,共八十二页,编辑于2023年,星期三2、抽样误差

定义:(1)从总体中随机抽取样本所产生的样本指标(统计量)与总体指标(参数)之间的差异。(2)从同一总体中随机抽样,样本指标(统计量)之间的差异。产生原因:总体中存在个体差异(生物的个体变异)特点:客观存在,不可避免;有一定范围,可以控制并估计其大小。第三十页,共八十二页,编辑于2023年,星期三有关抽样的概念随机抽样:在抽样过程中,要使总体中的每一个观察对象都有同等机会被抽中成为样本。抽样研究的目的:利用样本信息估计或推断总体特征。第三十一页,共八十二页,编辑于2023年,星期三统计的基本思想

总体样本抽样推断样本统计描述第三十二页,共八十二页,编辑于2023年,星期三

例1:假定正常成年男子的红细胞计数服从正态分布,总体均数

=5.00(1012/L)、总体标准差

=0.50(1012/L)。我们借助计算机从该总体中作随机抽样,每次抽10名成年男子的红细胞计数组成一个样本,重复100次抽样。求出每个样本的样本均数和标准差。第三十三页,共八十二页,编辑于2023年,星期三=5.00=0.50X2,S2X1,S1X3,S3n=10第三十四页,共八十二页,编辑于2023年,星期三表1:100次抽样所得样本均数与标准差样本号个体值样本均数,X标准差,S15.59、5.11、4.26…5.555.040.4425.49、5.56、5.47…4.865.190.42194.56、4.87、5.21…4.234.710.33734.08、4.73、4.84…5.334.660.46………总体5.00

0.50第三十五页,共八十二页,编辑于2023年,星期三样本均数的抽样分布具有如下特点:①各样本均数未必等于总体均数;②各样本均数间存在差异;③样本均数的分布为中间多,两边少,左右基本对称。④样本均数的变异范围较之原变量的变异范围大大缩小。第三十六页,共八十二页,编辑于2023年,星期三标准误:是统计量(如样本均数、样本率)的标准差,描述的是样本统计量的离散程度(即抽样误差的大小)。第三十七页,共八十二页,编辑于2023年,星期三标准误的意义:标准误的值越大,反映样本统计量的离散程度越大,通过一次抽样得到的某个样本统计量与总体参数(是个定值)相差也越大。第三十八页,共八十二页,编辑于2023年,星期三三、随机现象、随机事件与随机变量1、随机现象:某些现象发生的结果在一次观察中具有不确定性,而在大量的重复观察中表现出某种规律性。2、随机事件:进行随机试验时,某事件在一定条件下可能出现也可能不出现,其结果事先不能肯定,该事件则是随机事件。3、随机变量:用来代表随机事件的变量。第三十九页,共八十二页,编辑于2023年,星期三四、概率与频率1、频率:某变量值出现的次数(频数)/重复观察的总次数。对一个随机事件重复观察时,尽管每进行n次试验,所得到的频率可能各不相同,但随着n的增大,频率会逐渐稳定在某个常数附近波动。频率的稳定性说明随机事件发生的可能性大小是事件本身固有的一种客观属性。第四十页,共八十二页,编辑于2023年,星期三2、概率:表示随机事件发生可能性大小的数值。(用P表示)通常由频率的稳定值反映。确定性事件:(1)必然事件P=1,(2)不可能事件P=0;随机性事件:概率取值介于0~1之间。概率越接近1,表明事件发生的可能性越大。第四十一页,共八十二页,编辑于2023年,星期三概率和频率有区别:

频率是已经进行试验的结果,描述的是样本中事件出现的可能性大小,样本不同,其值也不同,具有偶然性;

概率刻画的则是总体中随机事件出现的可能性大小,是一种客观存在,是个确定数值,具有必然性。第四十二页,共八十二页,编辑于2023年,星期三小概率原理:概率很小的随机事件在一次或少量实际观察中是不可能发生的(尽管理论上有发生的可能)小概率:P≤0.05或P≤0.01第四十三页,共八十二页,编辑于2023年,星期三五、参数与统计量1、参数:根据总体分布特征而计算的总体指标。一般用小写的希腊字母表示。2、统计量:根据样本计算的相应指标(样本指标)。用拉丁字母表示。第四十四页,共八十二页,编辑于2023年,星期三六、假设检验与两类错误1、假设检验:先对总体的参数或分布作出某种假设,然后用适当的方法根据样本对总体提供的信息,运用“小概率原理”推断假设是否成立。第四十五页,共八十二页,编辑于2023年,星期三2、两类错误:Ⅰ型错误:拒绝实际成立的H0(弃真)Ⅱ型错误:不拒绝实际不成立的H0(存伪)(1)由假设检验可知,假设检验实际是在假定H0(µ1=µ2成立)的前提下抽样观察,出现当前样本现象的可能性大小(概率P)来进行推断的第四十六页,共八十二页,编辑于2023年,星期三(2)假设检验的结论是概率性结论,无论是拒绝H0还是不拒绝H0,都有犯错误的可能;拒绝H0时可能犯Ⅰ型错误(当H0成立时),这时犯错误的限制为通过假设检验下结论,平均100次抽样推断犯错误不超过5次;第四十七页,共八十二页,编辑于2023年,星期三不拒绝实际不成立的H0时;可能犯Ⅱ型错误,犯错误的概率用不易确定,

为把握度,即µ1和µ2确实有差别的话,通过假设检验发现这种差别的能力(检验效能)第四十八页,共八十二页,编辑于2023年,星期三(3)要同时降低犯两类错误的概率,唯一的办法就是增大样本含量进行观察.第四十九页,共八十二页,编辑于2023年,星期三第二节数值变量资料的集中趋势描述平均数指标体系:反映一组观察值的集中位置或平均水平;常用的有均数、几何均数、中位数一、算术均数(均数):特点:对观察值进行数量上的平均,适用于均匀分布或近似正态分布的资料第五十页,共八十二页,编辑于2023年,星期三1、直接法:适用于小样本或未分组资料第五十一页,共八十二页,编辑于2023年,星期三第五十二页,共八十二页,编辑于2023年,星期三第五十三页,共八十二页,编辑于2023年,星期三第五十四页,共八十二页,编辑于2023年,星期三第五十五页,共八十二页,编辑于2023年,星期三表9-446例暑温患者的血凝抑制抗体第五十六页,共八十二页,编辑于2023年,星期三计算G时:(1)观察值不能有0,(2)不能同时有正值和负值。第五十七页,共八十二页,编辑于2023年,星期三三、中位数(M):将一组观察值按大小顺序排列,位次居中的数值;特点:序数上的平均适用(1)偏态分布资料

(2)一端或两端无确切界值的开口资料。第五十八页,共八十二页,编辑于2023年,星期三1、直接法:用于观察值例数不多的未分组资料;第五十九页,共八十二页,编辑于2023年,星期三2、频数表法:用于观察值例数较多的频数表资料例9—7某医院905例银屑病患者的发病年龄见表9—5第(1)第(2)栏,求M。第六十页,共八十二页,编辑于2023年,星期三表9-5905例男性银屑病患者的发病年龄第六十一页,共八十二页,编辑于2023年,星期三第六十二页,共八十二页,编辑于2023年,星期三四、运用平均数的注意事项1、了解各医学专业平均数的习惯用法,如龋均(龋齿个数为偏态分布,但用均数);2、选择适宜的平均数指标;3、与变异指标结合使用,才能全面反映资料特征(集中和离散趋势);4、同质(同类)事物方能计算平均数。第六十三页,共八十二页,编辑于2023年,星期三

随机抽样两个班各3名同学的体重(Kg),测量结果分别为A班:596061均数=60(Kg)B班:306090均数=60(Kg)问两组资料的分布特征是否相同?第六十四页,共八十二页,编辑于2023年,星期三第三节数值变量资料的离散趋势描述

离散趋势描述用以反映一组同质观察值的离散性或变异程度。一、极差(R):用于反映个体变异的范围1、未顾及全部数据间的变异,2、例数越多,R可能越大。(不稳定)第六十五页,共八十二页,编辑于2023年,星期三二、四分位数间距(Q,QR):上下四分位数之差;即Q=QU-QL;(四分位数间距可以看成一半变量值的极差)第六十六页,共八十二页,编辑于2023年,星期三1、未分组资料:(小样本)例9-9求例9-6资料的四分位数间距Q第六十七页,共八十二页,编辑于2023年,星期三第六十八页,共八十二页,编辑于2023年,星期三Q的主要用途:(1)Q适用于任何分布的资料,结果比极差稳定,尤其适用于大样本偏态分布的资料。(2)与M共同描述偏态分布资料的分布特征,简写成M(Q);(3)计算参考值范围(百分位数P2.5,P97.5的范围)第六十九页,共八十二页,编辑于2023年,星期三第七十页,共八十二页,编辑于2023年,星期三从方差计算式可知,方差使观察值的原变量单位变成相应的平方单位,不便于进行比较,故主要用于假设检验中的方差分析。第七十一页,共八十二页,编辑于2023年,星期三

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论