版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计量资料的统计描述1第2讲_计量资料的统计描述统计学中的几个基本概念1、同质与变异2、总体与样本3、普查与抽样4、参数与误差5、频率与概率(小概率事件)
2第2讲_计量资料的统计描述1.
同质与
变异
同质(homogeneity)
指事物某方面的性质、影响条件或背景相同或相近变异(variation)
同质个体间的差异。来源于一些未加控制或无法控制的甚至不明原因的因素。是统计学存在的基础。从本质上说:统计学就是通过对个体变异的研究,揭示同质事物的本质特征与规律。
3第2讲_计量资料的统计描述2.
总体与
样本总体---参数(parameter)
根据研究目的确定的研究对象的全体,即性质相同的所有观察对象的集合;分为有限总体和无限总体。样本---统计量(statistics)
总体中的部分;研究对象。总体与样本的关系
统计学解决的问题:正确从样本特征推测总体水平。抽样:从总体中选择样本的过程。
样本量(samplesize):样本所包含的个体数目。4第2讲_计量资料的统计描述2.
总体与
样本参数:总体统计学特性的数字,包括总体均数、总体方差、总体标准差;大多数得不到总体数据,参数是未知的估计总体结果是统计学的目的之一5第2讲_计量资料的统计描述3.普查与抽样普查:全面调查,根据研究目的确定总体,人口普查,肿瘤普查是社会学/卫生防疫的指标确定的依据注意时效性、变化性传染病报告制度,地震伤亡等都属于普查6第2讲_计量资料的统计描述3.普查与抽样选择样本的方法:概率抽样和非概率抽样
等概率抽样非等概率抽样单纯随机抽样系统抽样分层抽样整群抽样7第2讲_计量资料的统计描述概率抽样、非概率抽样概率抽样:每个对象被抽中的概率是已知/可计算的,其样本统计量是参数估计和计算误差的基础;等概率抽样:随机抽样不等概率抽样:多单位被抽取的概率不同,可能会得到更有效的估计量非概率抽样:抽样概率未知/无法计算,按主观、有目的、为方便进行抽样;不能计算抽样误差,或一般按简单随机抽样计算误差。配额抽样、滚雪球/识别抽样8第2讲_计量资料的统计描述A单纯随机抽样 *将调查总体的全部观察单位编号,*用抽签法或随机数字表法进行抽样。*它是最基本的抽样方法,也是其他抽样方法的基础。9第2讲_计量资料的统计描述B系统抽样
*按照一定顺序机械地每隔若干个单位抽取一个单位,又称机械抽样、等距抽样。*其抽样间隔=(总体数量/样本含量),一般是随机找一个单位为起点,以后按抽样间隔进行抽样。10第2讲_计量资料的统计描述C分层抽样 *先将总体中所有观察单位按主要特征(如年龄、性别、病情轻重等)分为若干层次.*在各层次中进行随机抽样。*要求层内个体差异越小越好.层间差异越大越好。*优点是抽样误差小,不同层可采用不同抽样方法,各层可独立进行分析。11第2讲_计量资料的统计描述D、整群抽样
整群抽样不是按个体进行抽样,而是抽取由个体组成的群体的抽样方法。如抽取的是该地区若干个县的全体居民。整群抽样的主要持点是以“群”为基本抽样单位。抽样误差由小到大的依次为:
分层抽样<
系统抽样<
单纯随机抽样<
整群抽样。思考题:普查和抽样有什么区别和联系?12第2讲_计量资料的统计描述4.误差误差:统计上泛指测量值与真值之差,样本指标与总体指标之差。主要有二种:系统误差和随机误差(随机测量误差,抽样误差)。(1)系统误差:指数据搜集和测量过程中由于仪器不准确、标准不规范等人为原因,造成观察结果呈倾向性的偏大或偏小。
特点:具有累加性、方向性、可避免性(2).随机误差:由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。
特点:无方向性、不能避免。13第2讲_计量资料的统计描述A、随机测量误差
在消除了系统误差的前提下,由于非人为的偶然因素,对于同一样本多次测定结果不完全一样,结果有时偏大有时偏小,没有倾向性,这种误差叫随机测量误差。
特点:没有倾向性,多次测量计算平均值可以减小甚至消除随机测量误差。14第2讲_计量资料的统计描述B、抽样误差
由于抽样原因造成的样本指标与总体指标之间的差别。特点:有抽样,抽样误差就不可避免。但抽样误差有规律,统计上往往可以计算并在一定范围内控制抽样误差。15第2讲_计量资料的统计描述4.频率与概率
抛一枚硬币,是否国徽面一定向上?明天的股市升还是降?某患者痊愈的可能性?这些问题的答案都不可能绝对。描述随机事件发生的可能性大小的数值,常用P来表示。P的大小在0—1之间,越接近于1,说明发生的可能性越大,越接近于0,说明发生的可能性越小。
通常一个事件的发生小于5%,就叫小概率事件。频率:在实际工作中,当观察单位的例数足够多时,可以用频率来代替概率。频率是概率的估计值。
16第2讲_计量资料的统计描述1.统计工作的基本步骤是什么?2.统计资料分为几类?特点?
判断:大学教授的年收入,欧洲的国家数,血红蛋白含量,患者的资料情况。3.什么是总体?什么是样本?4.基本的概率抽样方法是什么?5.什么是抽样误差?如何减小?能否避免?小结17第2讲_计量资料的统计描述统计资料的类型变量、变量值
三种基本类型:
计量资料,计数资料,等级资料*按变量值性质——定量资料和定性资料。前讲回顾18第2讲_计量资料的统计描述计量资料的统计描述19第2讲_计量资料的统计描述主要内容频数表与频数图计量资料的常用统计指标
(集中趋势
离散趋势)
正态分布正常值范围估计20第2讲_计量资料的统计描述第一节频数表与频数图原始计量资料21第2讲_计量资料的统计描述一.几个基本概率
频数:当汇总大量的原始数据时,把数据按类型分组(组段),其中每个组的数据个数,称为该组的频数。
频数表(频数分布):表示各组段频数的表格称为频数表或频数分布。表4-1计数P44,表4-2等级,表4-3计量
P45,22第2讲_计量资料的统计描述二、频数表的编制得到统计资料找max、min、Range决定classinterval
=Range/ClassNumber确定组段的上、下限列表划记23第2讲_计量资料的统计描述1.求全距(R):R=最大值–
最小值
=173.6–154.7=18.9(cm)2.确定组数:通常8~15组计算组距(i)i=R/组数
i=18.9/10=1.89cm取整数2cm
所以,i=2cm3.确定组段:
第一组段包括最小值,如本例为154
最后组段包括最大值,如本例172~1744.列表划记24第2讲_计量资料的统计描述1998年100名18岁健康女大学生身高的频数分布身高组段(1)划记频数f(2)154~112156~11114158~11111,11111,111160~11111,11111,11113162~11111,11111,11111,11111,1122164~11111,11111,11111,111119166~11111,11111,1111115168~11111,11119170~11114172~17411合计10025第2讲_计量资料的统计描述三、频数表的主要用途:1.揭示计量资料的分布特征2.描述集中趋势和离散趋势3.发现特大和特小的可疑值26第2讲_计量资料的统计描述四、频数分布图27第2讲_计量资料的统计描述四、频数分布图计数资料频数图:横轴等距标各类别,P47,图4-1
;计数资料频数图:横轴等距标各组段起始点,高度对应频数,图4-2,P47。28第2讲_计量资料的统计描述频数分布的类型:对称分布与偏态分布
(集中位置偏向小的一侧叫正偏态,又叫右偏态,P48,图4-3
反之集中位置偏大的一侧叫负偏态,又叫左偏态,P48,图4-4)频数分布的两个特征:集中趋势与离散趋势29第2讲_计量资料的统计描述30第2讲_计量资料的统计描述31第2讲_计量资料的统计描述第二节计量资料的常用统计指标常用几种平均值:1.算术均数2.几何均数3.中位数一、集中趋势的描述-平均值平均值是一组数据典型或有代表性的值。由于这样典型的值趋向于落在根据数据大小排列的数据的波峰位置,因此可以用于度量集中位置。32第2讲_计量资料的统计描述1.算术均数(均数)意义:一组性质相同的观察值在数量上的平均水平。表示:(总体)X(样本)计算:直接法、频数表法特征:∑(X-X)=0注意:应用于正态分布或近似正态分布,才能求均数,否则没有意义。33第2讲_计量资料的统计描述(1)直接计算法公式:举例1:试计算1,3,7,9的均数?例2:试计算1,3,3,7,7,9,9,9的均数?34第2讲_计量资料的统计描述(2)加权法35第2讲_计量资料的统计描述100名18岁女大学生身高均数的计算(加权法)身高组段(1)频数f(2)组中值X(3)f·X(4)154~2155310156~4157628158~111591749160~131612093162~221633586164~191653135166~151672505168~91691521170~4171684172~1741173173合计∑f=100∑f·X=163836第2讲_计量资料的统计描述均数的特征37第2讲_计量资料的统计描述2.几何均数表示:Gpage50,4-4计算:直接法:
N个数值的乘积开N次方
加权法:X=lg-1[]应用:原始数据分布不对称,但呈现倍数关系,经对数转换后呈对称分布的资料。例如抗体滴度,page50,例4-5
。ΣlgfX
Σf38第2讲_计量资料的统计描述3.中位数、百份位数意义:将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为PX。中位数是百分位的特殊形式P50
。同样的例子还有四分位数、十分位数等。表示:M、PX应用:偏态资料,开口资料计算:page51,4-6,4-7,4-839第2讲_计量资料的统计描述
中位数11个大鼠存活天数:4,10,7,50,3,15,2,9,13,>60,>60平均存活天数?中位数(median)是将每个变量值从小到大排列,位置居于中间的那个变量值。
存活天数2,3,4,7,9,10,13,15,50,>60,>60秩次123456789101140第2讲_计量资料的统计描述计算
公式:
n为奇数时
n为偶数时
41第2讲_计量资料的统计描述例9名中学生甲型肝炎的潜伏期分别为12,13,14,14,15,15,15,17,天,求其中位数。42第2讲_计量资料的统计描述百分位数将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为PX。中位数是百分位的特殊形式P50
。同样还有四分位数、十分位数等。表示:PX=L+(nX%–ΣfL)
L组段下限,i组距,fX
组段频数,n总频数,ΣfL
以前累计频数。应用:偏态资料计算:page51,4-8PX=12+(145×50%
–63)=13.5ifx63843第2讲_计量资料的统计描述频数表资料的中位数下限值L上限值Ui;fm中位数M44第2讲_计量资料的统计描述中位数的特征计算时只利用了位置居中的测量值优点:对极值不敏感缺点:并非考虑到每个观测值适用于各种分布类型的资料,特别适合于:大样本偏态分布资料或者一端或两端无确切数值的资料45第2讲_计量资料的统计描述
例试分别求表3.3频数表的第25、第75百分位数。P25=4.0+0.5x[(150x25%-36)/32]=4.02P75=5.0+0.5x[(150x75%-105)/22]=5.1746第2讲_计量资料的统计描述
百分位数示意图(二)百分位数47第2讲_计量资料的统计描述一、离散趋势的描述
集中趋势指标(平均数)只能反映指标的集中位置,不能反映变量值在分布上的“分散、参差”的离散程度,因此需要引入离散趋势指标48第2讲_计量资料的统计描述全距(R对变异性的描述不稳定、粗略)四分位数间距:Q=QU-QL=P75-P25
(Q反映了中间一半观察的极差,对变异性的描述也不够理想)方差σ和标准差S
(方差和标准差反映了每个观察值之间的离散程度)变异系数:CV=S/x×100%
(单位不同的多组数据比较,均数相差悬殊的多组资料)49第2讲_计量资料的统计描述方差和标准差相关概念:离均差X-μ,
离均差平方和SS=∑(X-μ)2,
方差(2,
S2):2=,
标准差(S,),
自由度n-1标准差的计算(实用公式):
S=()1/2∑fX02
-(∑fX0)2/nn-1∑(X-μ)2N50第2讲_计量资料的统计描述标准差标准差的意义:全面反映了一组观察值的变异程度.(越大说明围绕均数越离散,反之说明较集中在均数周围,均数代表性越好)标准差的应用:描述变异程度、计算标准误、计算变异系数、描述正态分布、估计正常值范围51第2讲_计量资料的统计描述已知:x=119.95cm,s=4.72cm.
试问:(1)估计该地7岁男童身高在110cm以下者
占该地7岁男童的百分比。
(2)估计该地7岁男童身高在130cm
以上者占该地7岁男童的百分比。
(3)估计该地7岁男童身高在107.77cm到
132.13cm之间的占该地7岁男童的百分
比。
例题:某市1982年110名7岁男童的身高52第2讲_计量资料的统计描述第三节正态分布1、图形2、特征3、面积53第2讲_计量资料的统计描述1、正态分布的图形f(x)=1σ(2p)1/2
e–(x–μ)22σ2
54第2讲_计量资料的统计描述正态分布55第2讲_计量资料的统计描述2、正态分布的特征均数处最高;均数x=μ为中心对称,两边以x轴为渐进线;2个参数N(位置参数u,形态参数
)曲线下的面积有一定规律,求函数积分。正态分布的特殊形式:标准正态分布N(0,1)56第2讲_计量资料的统计描述3、面积57第2讲_计量资料的统计描述标准正态曲线横轴上曲线下的面积为1曲线下,横轴上对称于0的面积相等已经做成标准表,供查u,已知时,进行标准正态变换再查表u,未知时,用样本的均数和标准差代替如例6-1,page89.58第2讲_计量资料的统计描述第四节医学正常值范围的估计
(又称参考值范围)是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定包括95%的人的界值。单双侧:根据指标的实际用途,有的指标有上下界值,过高过低均属异常;某些指标过高为异常,只需确定上限;某些指标过低为异常,只需确定下限。估计的方法:
1、正态分布法
2、百分位数法59第2讲_计量资料的统计描述1.正态分布法应用条件:正态分布或近似正态分布资料计算:
双侧1–α参考范围:X±uα/2S
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024版甲醛合作协议书范本
- 武汉海事职业学院《基础医学概要》2023-2024学年第一学期期末试卷
- 温州大学《测绘管理与法规》2023-2024学年第一学期期末试卷
- 二零二五版房产收购项目验收标准协议书3篇
- 2024高层管理人员保密知识与信息保护合同版B版
- 二零二五版夫妻自愿离婚协议及财产分配范本6篇
- 2025年度新能源汽车充电桩安装与运营服务合同6篇
- 唐山工业职业技术学院《植物营养诊断与施肥(实验)》2023-2024学年第一学期期末试卷
- 2024版治疗承诺协议书
- 二零二五年度海鲜产品国际认证采购合同3篇
- 2024-2030年中国建筑玻璃行业市场深度调研及竞争格局与投资价值预测研究报告
- 泌尿:膀胱肿瘤病人的护理查房王雪-课件
- 企业短期中期长期规划
- 中华民族共同体概论讲稿专家版《中华民族共同体概论》大讲堂之第一讲:中华民族共同体基础理论
- 《商务沟通-策略、方法与案例》课件 第一章 商务沟通概论
- 广西《乳腺X射线数字化体层摄影诊疗技术操作规范》编制说明
- 风筝产业深度调研及未来发展现状趋势
- 吉利汽车集团总部机构设置、岗位编制
- 矿山安全生产法律法规
- 小学数学《比的认识单元复习课》教学设计(课例)
- 词性转换清单-2024届高考英语外研版(2019)必修第一二三册
评论
0/150
提交评论