第二章-数据的整理与统计描述完整_第1页
第二章-数据的整理与统计描述完整_第2页
第二章-数据的整理与统计描述完整_第3页
第二章-数据的整理与统计描述完整_第4页
第二章-数据的整理与统计描述完整_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章数据的整理与统计描述12199410199886420血压心率TTTGPT第二章数据的整理与统计描述统计数据的整理第一节:数据分布特征的统计描述第二节:第一节:统计数据的整理统计表与统计图一、定性数据的整理二、定量数据的整理三、统计表-结构纵标目:列在表的上端说明横标目各统计指标内容,并注明计算单位标题:要简明扼要、准确地说明表的内容,位于表的上部表号表题(包括何时、何地、何事)总横标目(或空白)总标目列横标目:纵标目1纵标目2……在表的左侧,横标目1×××××.××……用以表示被说明事物的横标目2×××.××………………主要标志合计×××××.××一律用阿拉伯数字,数字数字:以小数点对齐,小数位数一致,无数字的用“─”表示表的上下两条边线略粗,纵、横线条:标目间及合计用细线分开,表的左右边线可省去,表的左上角一般不用斜线统计表-的分类表1某药物疗效的频数表(1)简单表只按一种标志分组治疗结果频数频率(%)治愈6543.3有效4530.3无效2516.7恶化1510.0合计150100.0图2某地城乡居民乙型肝炎病毒抗原携带率(2)组合表是将两种或两种以上标志结合起来分组城市年龄组检查数阳性数阳性率(‰)<30423842746.4630~146142209314.3235~74629129917.41≥402119327312.88748303865411.56合计统计图-结构甲乙丙图例100刻度(尺度)8060点线条面40接种率(%)注:横轴由左至右、20纵轴由下而上,数值由小到大;图形长宽比例约7:5Y轴标题0标目卡介苗脊灰炎苗百白破苗麻疹疫苗X轴标题疫苗标题:图12000年三大城市四苗接种率(%)位于表的下方统计图-种类-1、条图条图:用等宽的直条长度表示事物的数量,用于比较相互独立的统计指标两种。复式条图,。常用的有单式条图12101994各条的宽度要一致,1998条间的空隙要相等86直条图的纵轴尺度4起点必须为020血压心率TTTGPT图2某工厂职工1994年、1998年四项生理指标异常检出率统计图-种类-2、圆图圆图:是以圆形总面积作为100%,将其分割成若干个扇面,它用于表示事物内部。事物内部各构成部分所占的比例表示的构成情况。一般从时钟12时或9时处开始,顺各扇形要注明简要的文字和百分比,还可用不同颜色或其它36.4%高热、抽风27.8%时针方向排列线条表示传染病圆内各部分按事物自然顺序或百分比中耳炎16.9%12.4%的大小顺序排列图3某地1560例后天性聋哑病因构成图统计图-种类-3、线图发病率、死亡率或均数)随另一线图:用线段的升降表达一事物(事物(时间、年龄)数量变化的趋势,最常用于描述统计量随时间变化而变化的趋势。表3某地1950-1966伤寒与结核病死亡率(1/10万)时间伤寒结核病19503618019522516021140195416125195619585103196037819621.56819640.85219660.338200伤寒结核病150死亡率100500时间195019521954195619581960196219641966普通线图:横轴和纵轴都是算术尺度。反映不同指标变化的幅度。2.5伤寒2结核病1.51死亡率0.50时间-0.5-1195019521954195619581960196219641966半对数线图:横轴是算术尺度,纵轴是对数尺度。反映不同指标变化的速度。统计图-种类-4、直方图直方图:用各矩形(宽度为组距)的面积表示各组段的频数或频率,用于表示连续变量的频数分布。25矩形间不人数2015留空隙横轴表示变量被观1050测指标(分组)141720232629323538414447纵轴表示频率或频血清转氨酶(mmol/L)数115名正常成年女子血清转氨酶的频数分布统计图-种类-5、散点图散点图:两指标或两变量间的用点的密集程度和散布趋势表示相关关系。100959085807570656055纵轴代表变量Y以横轴代表变量X5101520253035图410例成人血硒与发硒的相关分析返回二、定性数据的整理,其数据本身就是对事物的对于定性数据主要作分类整理一种分类或类别排序,进行数据整理时,只需按不同数据(类别)进行分组,算出各组的频数或频率、百分比或累积百分比,列出频数分布表,再用统计图显示其整理结果。例1.1人口按受教育程度分组形成的频数分布表:根据2000年我国人口普查数据得到的我国6周岁以上受教育程度文盲半文小学初中高中及中大专及以合计盲专上人数(万人)百分比(%)1109345191429891410945711179539.4%38.3%36.4%12.0%3.9%100.0%二、定性数据的整理50000451914298940000人数(万)300002000011093141091000045710受教育程度文盲半文盲图52000小学年我国6周岁以上人口受教育程度条形图初中讨论1:该组数据的主讨论2:用EXCEL演示定要规律是什么?高中及中专性数据的整理大专及以上返回三、定量数据的整理对于定量数据(数值数据)主要作分组整理-组距式分组法定量数据统计整理的目的并根据分布类型选用的统计指标描述集中趋势、离散程度及形。状等统计指标。是了解定量数据的分布规律和类型,例2-1某药师用表2-1某药100片的含药量(mg)随机抽样方法检查了某药100片,测量其含药量,检测结果如表2-1。50.147.750.955.547.145.854.642.844.052.757.442.446.245.352.357.544.748.651.444.350.049.950.843.343.449.745.947.355.445.942.949.246.650.446.437.647.743.956.751.854.048.549.056.452.445.348.043.751.949.853.462.247.556.753.341.149.559.951.345.043.156.750.954.453.160.953.842.750.749.142.957.647.549.448.051.739.450.247.854.546.547.649.650.954.150.353.945.449.248.855.449.837.350.855.150.850.251.147.352.2试编制频数表和频数图。(1)求全距,又称极差(range)极差(range):极差也称全距,即最大值和最小值之差,记作R。本例R=62.2−37.3=24.9(mg)(2)确定组数组数(numberofclasses)一般根据样本容量的大小考虑到对资料要求的精确度8~15组,本例暂定为10组。来确定,同时计算是否方便以及进一步。通常取(3)确定组距img==≈极差组数=/24.9/102.493()(4)确定组限和组中值组限classlimit()各组的最大值与最小值,最小值为下限,最大值为上限.最小一组的下限必须小于资料中的最小值(37.3),最大一组的上限必须大于资料中的最大值(62.2);临界值可就高组不就低组(但excel中就低组不就高组)。组中值(classmid-value)是两个组限的中间值。组限37--4040--4343--4646--4949--5252--5555--5858--6161--64中值38.541.544.547.550.553.556.559.562.5(5)归组归组,即按原始资料中各观测值的次序,将各个数值归于各组.表某药100片的含药量频数分布表组限组中值归组次数频率累积频率计算各组的观测数次,、数、频率累积频率制成一个次数分布表。37~38.541.540~43~46~47.550.549~53.552~56.555~59.558~62.561~30.030.0360.060.0944.5150.150.24………………180.180.42300.30.72讨论1:该组数据的主要14110.140.86规律是什么?0.110.97讨论2:EXCEL演示定量210.020.99资料的整理。0.011绘制直方图横坐标——指标(药片含药量)纵坐标——频数密度即频数/组距或频数(等组距频数表)频30数25201510讨论:EXCEL演示50定量数据的整理。37404346495255586164含药量(mg)图6100片药片含药量的直方图频数表与频数分布图的用途1、作为陈述资料的形式:简单明了或直观形象,便于进一步作统计分析。2、揭示计量资料的分布特征(1)对称分布:若各组段频数的分布以频数最多的组段为中心左右两侧大体对称(总体则完全对称),就认为该资料是对称分布。(2)偏态分布:负偏态分布、正偏态分布左偏分布对称分布右偏分布频数表与频数分布图的用途3、描述资料的集中趋势与离散趋势变异的范围在302520151037~64(mg)之间有明显的统计分布规律,数据主要集中在43~58(mg)之间,且上下组段数的频数分布基本对称。5037404346495255586164含药量(mg)图7100片药片含药量的直方图第二节:数据分布特征的统计描述403530变量的分布具有两种明显的基本特征:集中性和离散性。25频率2015105040455055606570758085其他接收(centrality)是集中性变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分布的性质。离散性(discreteness)是变量有着离中分散变异的性质。集中性平均数表示资料中观测数的中心位置,并且可作为资料的代表与另一组相比较,以确定二者的差异情况。平均数均几中四数何位分众数平数位均数数一、均数(mean)意义:用于反映一组呈对称性分布的变量值在数量上的平均水平或者说是集中位置的特征值。应用:对称性分布,尤其是正态分布符号:总体,样本μXxxx12+++...N1Nμ==NNxii=1xxx12+++...n1nxx==nnii=1均数的性质:平均数①样本各个观察值与平均数之差的和为零,即离均差为零;之和n(xi−x)=0,简记为(x−x)=0i=1②样本各观察值与平均数之差的平方和为最小,即离均)证明差的平方和最小。(nn22()()()xxii−x−≠aax常数ii==1122简记为):(xxxa−()−平均数nn22证:因()()()xii−=−+−axxxa为nii==1122=−+−−+−()2()()()xxxxxaxaii=−+−−+−()2()()()xxxxxaxaii=−+−−+−()2()()()xxxaxxnxaii=−+−()()xxnxaii=1nnn22iii===111nn22ii==11n22i=1nn22所以()()xii−<−xxaii==11平均数均数的计算方法与作用n的非频数资料1)对计算-直接法xxx+++...xifxiifxx==121ni=knn时,2)计算频数资料可用下式-加权法x为组值(组中值);x==i=1kfnf为频数;ii=13)在EXCEL中计算均值的函数为:AVERAGE(number1,number2,...)对称分布中心位置,标志着(1)指出一组数据()内变量的资料所代表性状的数量水平和质量水平。(2)作为样本或资料的代表数与其他资料进行比较。(3)通过平均数提供计算样本变异数的基本数据。讨论:随机变量X的平均数(数学期望)(P53)kfxiikfii=1对于频数资料的样本平均数x==nnxii=1随着n的充分增加,平均数稳定于总体平均数μμX=pxx()=EX()xX所谓X或数学期望的函数的平均数(理论平均数),即它们的。E(C)=C(1)设C是常数,则。(2)若k是常数,则E(kX)=kE(X)(3)(4)设X、Y相互独立,则有E(XY)=E(X)E(Y)。E(XX)E(X)E(X)1212+=+二、几何均数(geometricmean)GXXX=n12n应用:常用于等比资料对数正态分布资料用于,主要用于血清学和微生物学中;(原始数据不对称,但各变量值取对数后呈对称分布的资料);观察值不能有0;观察值不能同时有正值和负值。几何均数的计算:GXXX=n12nG==lg−−11()llglglgXXX12+++ng()lgXnn例2-2测得10个人的血清滴度的倒数分别为2,2,4,4,8,8,8,8,32,32,求平均滴度。−1lg2+lg2+lg4+lg4+lg8+lg8+lg8+lg8+lg32+lg32G=lg≈710三、中位数(median)平均数定义:资料中所有观测数依大小顺序排列,居于中间位置的观测数称为中位数或中数。M用途:偏态分布资料;一端或两端无确切数值的资料(开口资料);分布不明的资料。中位数的计算1、直接计算法(小样本时)1)当观测值个数n为奇数时Mx=(1)/2n+2)当观测值个数n为偶数时,即:xxnn/2(/21)++M=22、频数表法(大样本)LM,iM,fM分别为M所在组段的下限、组距和频inMM=+−LM()fL数,ΣfL为M所在组段之fM2前各组段的累积频数。3、在EXCEL中计算中位数的函数为:MEDIAN(number1,number2,...)例2-3某地119名正常女性发汞值资料如下表所示,试计算其中位数。发汞值(μg/g)频数累积频数累积频率(1)(2)(3)(4)0.3~0.7~1.1~1.5~1.9~2.3~2.7~3.1~3.5~3.9~121210.08354739.50327966.392510487.40M711193.28411596.64311899.16011899.16011899.161119100.00iMn0.4119M=−ggLML+f()22f=+×−=1.1471.26(/)32μM即该地119名正常女性平均发汞值为1.26(μg/g)四、百分位数(percentile)百分位数是一种位置指标,用来表示。PX一个百分位数是将全部变量值分为两部分,有的变量PXX%值比它小,有变量值比它大。(100)%−X百分位数的应用某百分位置的水平用于描述样本或总体观察值序列用于确定偏态分布资料的参考值范围用于描述偏态资料的变异程度。(指百分位数间距)。。百分位数计算LX,iX,fX分别为PX的下所在组段iXfXPLnXfXXL=+−Σ(%)限、组距和频数,ΣfL为PX所在组段之前各组段的累积频数。计算百分位数时关键是找出百分位数所在的组段,可由频数表计算累计频数或累计频率,累计频数略大于nx%或累计频率略大于x%的组段即为百分位数Px所在的组段。3.1~011899.16发汞值(mg/g)0.3~121210.080.7~354739.51.1~327966.391.5~2510487.41.9~711193.282.3~411596.642.7~311899.16频数累积频数累积频率PP75P9025P75P903.5~011899.163.9~1119100百分位数计算0.4(μg/g)P25=+××−=0.711925%120.90()350.4(μg/g)P75=+××−=1.511975%791.66()250.4(μg/g)P90=+××−=1.911990%1042.08()7在EXCEL中计算函数为:quart函数QUARTILE返回最小值第一个四分位数(第25个百分点值)中分位数(第50个百分点值)第三个四分位数(第75个百分点值)最大值QUARTILE(array,quart)Array数字单元格区域Quart返回哪一个四分位值01234返回众数、中位数和均值的关系均值中位数众数均值=中位数=众数众数中位数均值左偏分布对称分布右偏分布结合课本P16常用平均数的意义及应用场合平均数意义应用场合均数平均数量水平应用甚广,最适用于对称分布,特别是正态分布等比资料;对数正态分布几何均平均增(减)倍数数资料偏态分布;分布不明;分中位数位次居中的观察值水平描述观察序列在布末端无确定值可用于确定医学参考值范百分位数某百分位置的水围,适用于任何分布平本节描述离散趋势的特征数离散性变异指标:描述一组变量值的变异程度或离散趋势的指标.变异数极四方变差分差异不同的分布使用不同的位数间距或系标数准变异指标差变异数(一)极差(全距)极差(range)是样本变量值最大值和最小值之差,用R表示。它是资料中各观测值变异程度大小的最简便的统计量。R=max{x1,x2,……,xn}-min{x1,x2,……,xn}适用范围:任何计量资料,是参考变异指标缺点除了最大、最小值,不能反映组内其他数据的变异。用途只能在研究样本的波动时使用。变异数(二)四分位数间距:四分位间距Q=P75-100%80%P100(max)P75P(中位数)P25P(min)P25反映了中间50%数据的离散程度,越小数值越集中,反之数据越分散。60%40%20%50P25P(min)0%0:(与中位数配适用范围0套用)偏态分布资料;一端或两端无确切数值的资料(开口资料);分布不明的资料。Q=P−P=1.66−0.90=0.76(μg/g)7525说明有50%女性的发汞值0.90和1.66之间,其四分位数间距为0.76(μg/g)(三)方差(Variance)与标准差变异数2()xx−()x−x()xx−离均差可以反映出一离均差之和为零。平方和(SS),不个观测值偏离平均数的性质和程度。能反映平均差异2均方(meansquare,MS)()x−x2()x−x方差(variance)n−1n自由度(degreeoffreedom)即自由取值的个数对于一个具有n个观察值的样本,每个x与其平均数比较时,虽然具有n个离均差,但因受到离均差之和等于0的限制,所以只能有n-1个是自由的。(三)方差(Variance)与标准差(standard)deviation,Sd变异数样本方差(samplevariance)总体方差(populationvariance)n2N2()xi−x()xi−μS2=i=1σ2=i=1n-1N样本标准差不以样本容量n而以n-1作为除数。这是因为通常我们只能掌握样本资料,不知道总体平均数的数值,不得不用样本平均数代替总体平均数。但由于离均差平方和最小,即()()xxx−<−μ22将分母用n-1,可以避免偏小的弊病,可以做到对总体标准差的较好的估计。(三)方差(Variance)与标准差变异数由于样本方差带有原观对方差标准差(standarddeviation,测单位的平方单位,在应用时有时没有实际意义。开方Sd)样本方差的平方根:22特性S=S2=()xx−()()xx−−−cc=n−1n−1①标准差的大小,受多个观测数影响,如果观测数与观测数间差异较大,则离均差也大,因而标准差也大,反之则小。②各观测数加上或减去一个常数,其标准差不变;用加权法计算例2-1资料的标准差变异数含药量(mg)fXfXfX

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论