统计学基础与的实现_第1页
统计学基础与的实现_第2页
统计学基础与的实现_第3页
统计学基础与的实现_第4页
统计学基础与的实现_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学基础与的实现第1页,共83页,2023年,2月20日,星期六在那个温暖的夏日午后…第2页,共83页,2023年,2月20日,星期六女士品茶试验试验:8杯奶茶,先加奶(MT),和先加茶(TM)各半(比例告诉该女士),测试结果。零假设:该女子没有分辨能力;即说对说错完全随机。第3页,共83页,2023年,2月20日,星期六设x为说对的杯数则x的取值只能为0,2,4,6,8。取统计量T=x为猜对的杯数,T越大说明越能否定零假设。则x的概率分布为:X值86420概率1/7016/7036/7016/701/70第4页,共83页,2023年,2月20日,星期六对可能结果的解释第5页,共83页,2023年,2月20日,星期六什么是统计学?第6页,共83页,2023年,2月20日,星期六统计学的定义《大英百科全书》:“统计学是一门收集数据、分析数据,并根据数据进行推断的科学和艺术。最初与政府收集的数据有关,现在包括了范围广泛的方法和理论。”

《统计科学百科全书》:“统计学”这个术语表示“涉及收集、表示和分析数据的普遍方法和原理的领域”。第7页,共83页,2023年,2月20日,星期六收集和分析的对象“数据!数据!数据!”他不耐烦地叫嚷着,“没有黏土,我可做不出砖头。”

——歇洛克·福尔摩斯(铜山毛榉案)“Data!data!data!”hecriedimpatiently.“Ican‘tmakebrickswithoutclay.”——SherlockHolmes(TheAdventureoftheCopperBeeches)第8页,共83页,2023年,2月20日,星期六两种数据没有变异的数据——汇总分析和数值分析有变异的数据——概率论与数理统计第9页,共83页,2023年,2月20日,星期六统计学的定义在终极的分析中,一切的知识都是历史;在抽象的基础上,一切的科学都是数学;在理性的意义下,所有的判断都是统计学。(C.R.Rao)统计学是仅有的系统地研究推断的科学。(Efron)第10页,共83页,2023年,2月20日,星期六研究规律的方法论世界上有三种谎言:谎言,该死的谎言,统计数据。——BenjaminDisraeliTherearethreekindsoflies:lies,damnedlies,andstatistics.

第11页,共83页,2023年,2月20日,星期六统计学的两个性质中立的工具:靠数据说话,而不是理论;分析结果是“关系”,而不是“因果”。(Associationisnotcausation.)第12页,共83页,2023年,2月20日,星期六两种研究方案——实验与观察对照实验不同于观察研究。在一个对照试验中,是研究者决定谁将在处理组和谁将在对照组。与此相反,在观察研究中,正是实验对象自己安排他们自己到不同的组去,而研究者只是观察所发生的情况。第13页,共83页,2023年,2月20日,星期六两种研究方案——实验与观察如果没有不可检验的假定的话,根据观察研究进行因果推断是不可能的。——Holland你在那里所经历的不是一个实验,而是一种经验。——R.A.Fisher第14页,共83页,2023年,2月20日,星期六几个基本概念观察单位(observedunit)总体(population)与样本(sample)观测(observation)与变量(variable)第15页,共83页,2023年,2月20日,星期六变量的类型连续型变量(ContinuousVariable)、定量资料(quantitativevariable)离散型变量(DiscreteVariable)、分类变量(CategoricalVariable)或称定性资料(qualitativevariable)二分类(binaryvariable)离散计数(discretequantity)顺序(ordinalvariable)名义(nominalvariable)第16页,共83页,2023年,2月20日,星期六实例:凤凰城比马印第安人糖尿病的数据共768个观测,9个变量:pregnant怀孕次数(连续型)glucose餐后血糖(连续型)Diastolic舒张压(连续型)Triceps上臂围(连续型)insulin胰岛素剂量(连续型)bmi体质指数(连续型)Diabetes糖尿病谱系指数(连续型)Age年龄(连续型)test糖尿病检测结果(离散型)第17页,共83页,2023年,2月20日,星期六第一步:审视你的数据

描述性统计(descriptivestatistics)进来的是垃圾,出去的还是垃圾!(Garbagein,garbageout!)第18页,共83页,2023年,2月20日,星期六连续型变量集中趋势(centraltendency)均值(mean)中位数(median)众数(mode)第19页,共83页,2023年,2月20日,星期六连续型变量离散趋势(tendencyofdispersion)极差(range)百分位数(percentile)、上下四分位数(QU,QL)四分位间距(Inter-quartilerange)方差(variance)与标准差(standarddeviation)变异系数(coefficientofvariation)第20页,共83页,2023年,2月20日,星期六分类变量的数量化.第21页,共83页,2023年,2月20日,星期六分类变量的数量化..第22页,共83页,2023年,2月20日,星期六分类变量相对数率构成比第23页,共83页,2023年,2月20日,星期六EpiInfo的实现数据表:Analysis模块中的list,means,frequencies,summarize命令;图:Analysis模块中的graph命令:直方图(histogram)、条图(bar)、饼图(pie)、盒须图(box-whisker)等(请在本子上记下“不好”的数据)第24页,共83页,2023年,2月20日,星期六第二步:对异常值的清理

数据清洗(datacleaning)第25页,共83页,2023年,2月20日,星期六数据清洗修改变量值将无价值的数据删除将某些值重新编码(如缺失值)第26页,共83页,2023年,2月20日,星期六EpiInfo的实现Analysis模块中的list(allowupdates),assign,if,deleterecode命令第27页,共83页,2023年,2月20日,星期六重复第一、二步…第28页,共83页,2023年,2月20日,星期六第三步:定义新的分析变量可能会贯穿你的分析过程的全部!第29页,共83页,2023年,2月20日,星期六定义新变量将人群按舒张压是否高于95分为是否高血压(HP,1是,2否)将人群按bmi是否高于25分为是否肥胖(fat,1是,2否)将人群按年龄分组(ageg,21,30,40,50,60,70)将人群按怀孕次数分组(pg,0,1,2,5,10)第30页,共83页,2023年,2月20日,星期六EpiInfo的实现Analysis模块中的define,assign,if,recode命令第31页,共83页,2023年,2月20日,星期六对新变量进行第一、二步第32页,共83页,2023年,2月20日,星期六第四步:找出变量间的关系

统计推断(inferentialstatistics)关系:区别和联系第33页,共83页,2023年,2月20日,星期六区别(各组间是否不同)连续型变量:t检验与u检验(或称z检验)方差分析秩和检验离散型变量:χ2检验精确概率第34页,共83页,2023年,2月20日,星期六联系(变量间变化是否一致)回归:线性回归模型;对数线性模型;其它广义线性模型;第35页,共83页,2023年,2月20日,星期六几个基本概念零假设(nullhypothesis)与备择假设(alternativehypothesis)P值(P-value)和检验水准α(significancelevel)I类错误(typeIerror)和II类错误(typeIIerror)单尾检验(onetailedtest)和双尾检验(twotailedtest)第36页,共83页,2023年,2月20日,星期六t检验的基本思想两组均数的差值符合t分布或正态分布如果这个差值超过了t分布或正态分布的特定分位点(如1.96),则认为这个差值过大,即两个均数的差别有统计显著性。第37页,共83页,2023年,2月20日,星期六方差分析的基本思想将一个因变量观测值的变动情况进行分解,分为可用待检变量解释的部分(U)和不能被解释的随机误差部分(Q)如果U的大小与Q有很大的不同,说明这些待检因素带来的变动不能为随机误差来解释,即这些待检因素对因变量的变动的影响是显著的。第38页,共83页,2023年,2月20日,星期六方差齐性(homogeneity)t(u)检验与方差分析最根本的条件第39页,共83页,2023年,2月20日,星期六基于顺序统计量的非参数检验秩和检验第40页,共83页,2023年,2月20日,星期六顺序统计量第41页,共83页,2023年,2月20日,星期六两样本Wilcoxon秩和检验

(多组数据称Kruskal-Wallis秩和检验)第42页,共83页,2023年,2月20日,星期六部分渐近相对效率(ARE)分布均匀分布正态分布Logistics重指数分布ARE(W,t)13/π=0.955π2/9=1.0973/2ARE(S,t)1/32/π=0.637π2/12=0.8222ARE(W,S)33/24/33/4第43页,共83页,2023年,2月20日,星期六EpiInfo的实现Analysis模块中的means命令第44页,共83页,2023年,2月20日,星期六χ2检验(2×2表)的基本思想第45页,共83页,2023年,2月20日,星期六2×2表B+B-合计A1abm1A2cdm2合计n1n2N第46页,共83页,2023年,2月20日,星期六2×2表的检验假设H0:A1的率与A2的率没有差别;即:a/m1=c/m2=n1/N;即:在a的格子里,它的期望数是:T=(n1/N)×m1,其它格子类似。第47页,共83页,2023年,2月20日,星期六2×2表B+B-合计A1a(n1m1/N)b(n2m1/N)m1A2c(n1m2/N)d(n2m2/N)m2合计n1n2N第48页,共83页,2023年,2月20日,星期六当然的想法如果H0成立,则四个格子的实际值与期望值的差距不应太大。第49页,共83页,2023年,2月20日,星期六χ2检验其中A为实际频数(或记为O),T为理论频数(或记为E),其值在例数N较大的情况下符合自由度为(C-1)×(R-1)的χ2分布。第50页,共83页,2023年,2月20日,星期六确切概率法(Fisher)计算当前表的概率;依次增减某格数字,在周边合计不变的情况下,列出所有可能表格,计算各表概率;将所有大于等于当前表概率的所有概率相加。第51页,共83页,2023年,2月20日,星期六分层2×2表第52页,共83页,2023年,2月20日,星期六Mantel-Haenszel检验医院药品有效无效合计1A121830B151530合计2733602A31940B34640合计6515803A161430B151530合计312960第53页,共83页,2023年,2月20日,星期六多个率(或构成比)的比较第54页,共83页,2023年,2月20日,星期六EpiInfo的实现Analysis模块中的tables命令第55页,共83页,2023年,2月20日,星期六流行病学相关的统计分析第56页,共83页,2023年,2月20日,星期六真实性灵敏度(真阳性率)=(a/n1)×100%特异度(真阴性率)=(d/n2)×100%假阳性率=1-特异度假阴性率=1-灵敏度约登指数(Youden’sindex)=灵敏度+特异度-1试验结果有病对象无病对象合计阳性abm1阴性cdm2合计n1n2N第57页,共83页,2023年,2月20日,星期六收益——试验预测值试验阳性预测值=(a/m1)×100%试验阴性预测值=(d/m2)×100%试验阳性预测值=(真阳性率×P)/(真阳性率×P+假阳性率×Q)试验结果有病对象无病对象合计阳性abm1阴性cdm2合计n1n2N第58页,共83页,2023年,2月20日,星期六比值比(OddsRatio,OR)病例组的暴露比值(Odds)=(a/n1)/(c/n1)对照组的暴露比值(Odds)=(b/n2)/(d/n2)以上两个比值的比(OR)=ad/bcVar(lnOR)=1/a+1/b+1/c+1/d暴露病例对照合计有abm1无cdm2合计n1n2N第59页,共83页,2023年,2月20日,星期六多层OR暴露病例对照合计有aibim1i无cidim2i合计n1in2iNi第60页,共83页,2023年,2月20日,星期六相对危险度(率比,RR)病例组的率P1=a/m1对照组的率P2=c/m2以上两个率的比(RR)=P1/P2Var(lnOR)=1/a+1/b+1/c+1/d暴露病例对照合计有abm1无cdm2合计n1n2N第61页,共83页,2023年,2月20日,星期六归因危险度(率差,AR)病例组的率P1=a/m1对照组的率P2=c/m2以上2率的差(AR)=P1-P2暴露病例对照合计有abm1无cdm2合计n1n2N第62页,共83页,2023年,2月20日,星期六匹配设计的OROR=c/bVar(OR)=(b-c)^2/(b+c)暴露病例有对照无合计对照有abm1对照无cdm2合计n1n2N第63页,共83页,2023年,2月20日,星期六EpiInfo的实现Analysis模块中的tables,match命令第64页,共83页,2023年,2月20日,星期六线性回归(linear

regression)第65页,共83页,2023年,2月20日,星期六回归模型第66页,共83页,2023年,2月20日,星期六线性回归方程组第67页,共83页,2023年,2月20日,星期六Gauss-Markov假设误差项均值为0,即E(εi)=0,i=1,…,n误差项具有等方差,即Var(εi)=σ2,i=1,…,n误差是彼此不相关的,即Cov(εi,εj)=0,i≠j,i,j=1,…,n(正态假定)第68页,共83页,2023年,2月20日,星期六回归系数的估计——

回归模型的最基本目的第69页,共83页,2023年,2月20日,星期六最小二乘估计

(leastsquareestim

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论