统计学贾俊平第9章 分类数据分析课件_第1页
统计学贾俊平第9章 分类数据分析课件_第2页
统计学贾俊平第9章 分类数据分析课件_第3页
统计学贾俊平第9章 分类数据分析课件_第4页
统计学贾俊平第9章 分类数据分析课件_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第9章分类数据分析9.1分类数据与列联表9.2独立性检验9.3列联表中的相关测量9.4列联分析中其他的问题12导引——科学研究

什么是科学科学=数学?Or科学=技术?科学=计算机?上述均为科学的结果科学(EarlBabbie)是一种探索的方法是一种学习周围事物的方法科学(Science)言之有理,符合逻辑经验证据,可以重复检验科学研究科学研究Research就方法论(methodology)而言,人们从事的研究,不外乎异中求同、及同中求异,前者是在大量资料中发现其间的共同性(homothetic),而后者则是发现其间的异质性(idiographic)。研究是一门「问题」的学术,旨在发现(非「创造」)有用的知识。研究的目的和价值在发掘知识并解决问题,解决前人未曾解决的问题科学研究科学研究目的叙述、预测、解释及控制研究问题之现象控制Control解释Explanation预测Prediction叙述Description报导Reporting理解程度/努力程度最低最高科学研究科学研究类型问题目标&假设抽样

实验

如何测量?描述知识基础数据结论科学研究流程图

设计要求统计分析图形描述模型化估计和置信区间统计检验引例引例1:秃头与政治有西方专家研究发现,前苏联最高首脑头发多少居然与他们的政治风格有关,秃头的激进,头发浓密的保守,而且激进和保守交替出现:列宁秃头,激进;斯大林发多,保守;赫鲁晓夫秃头,激进;勃列日涅夫发多,保守;安德罗波夫秃头,激进;契尔年科夫发多,保守;戈尔巴乔夫秃头,激进叶利钦虽然发多,却最激进,但他不属于前苏联引例引例3:有名字的奶牛产奶量更高英国纽卡斯尔的科学家,凯瑟琳·道格拉斯博士和皮特·罗林森博士表示,给奶牛起名字,并像对待人一样去对待奶牛,这样牛也高兴了,放松了,产奶量也上去了,可以为每个奶牛场提高500品脱的年产量引例引例4:鹳鸟送子欧洲,人们把一种鸟称为送子鸟相传,送子鸟落到谁家屋顶造巢,谁家就会喜得贵子,幸福美满。因此,在欧洲乡村,你经常能看到住家的屋顶烟囱上搭着一个平台,那是专为送子鸟准备的,种神奇的送子鸟就是白鹳三种关系16三种关系17相关关系函数关系因果关系三种关系18函数关系19世纪末,德国数学家康托创立了集合论,人们把函数的定义提升到抽象的层次:设A,B是非空的集合,f是某一法则,若A中每个元素x,经由法则f,总有集合B中确定的元素y与之对应,则称f是定义在集合A上的一个函数圆的面积(S)与半径之间非关系可表示为S=R2

;商品的销售额(y)与销售量(x)之间的关系可表示为y=pxp为单价三种关系三种关系因果关系科学:因果律---力学规律描述任何物体的任何运动,都是确定的;量子力学中位置和动量不可以同时被确定的,但是其中之一是可以被精确地确定的,对于单个微观粒子无法判断其真实位置,但是服从统计规律,所以量子力学的因果律是统计规律的因果律宗教:因果报应:善恶终有报,不是不报,时辰未到玄学:生死由命、富贵在天;缘份社会学:三分天注定、七分靠打拼;阴谋论:MH370…….

虚假相关虚假相关:相关不等于因果白血病的例子:生活在高压线附近的孩子,由于辐射的原因,患白血病的机率会增加到平均值的3倍美国国家科学院于1996年发表了历经3年的研究结果,认为高压线环境与白血病发病率无关。美国国家癌症研究所经过历经7年涉及1200人的研究,于1997年发布了同样的结论生活在高压线附近的家庭通常比较贫困,导致白血病发病率较高的原因是其较差的生活和卫生条件,而与高压线本身无关23虚假相关虚假相关:相关不等于因果公鸡打鸣与太阳升起24相关类型虚假相关26记住:统计数据有相关性并不意味着两个事件具有因果联系,而具有因果联系的两件事从统计数据上看有时也并不相关我们肯定永远不能证明X是Y的原因,仅仅推断存在一种关系因果关系只能被推断,而不能毫无疑问地加以证明虚假相关27涂尔干自杀论:信仰新教导致了人们的自杀?有两个现象/因素——信仰新教(因素A),自杀率(因素B),统计表示,他们之间确实存在正相关运用排除法,分析各种可能影响自杀率的因素(C、D、E、F……),发现:人的自杀率跟他与其他人之间社会联系纽带的紧密程度(因素C)具有正相关(因素C影响因素B);也就是说,一个人与他人的联系越少,就越容易陷入孤独、生活上的困境等等而自杀。而新教徒之间的联系的纽带较为松弛;天主教徒之间的联系比较紧密(因素C影响因素A)新教信仰并不是导致自杀的原因(证明因素A和因素B之间是虚假相关维持人和人之间良好的纽带和温情脉脉,才是解决现代社会孤独、绝望等很多社会问题的根本途径虚假相关28统计探索:关于变量间关系的四个问题从数据来看,变量间有关系吗?如果有关系,关系有多强?是偶然的吗?是因果关系吗?统计与变量间关系解释与预测自变量与因变量Y与X:两条腿比一条腿有劲闪电和打雷爆米花销售和垃圾袋使用发电量和热天数广告时间和用水量……统计与变量间关系不同类型变量的关系思考:引例中分别属于?

自变量因变量分类型顺序型数值型

分类型

顺序型

数值型统计与变量间关系统计与变量间关系Independent(Predictor)VariablesMediatingVariablesDependent(Outcome)VariablesModeratingVariablesControlVariablesSmoking………………causes(bypeoplewithaspecialgene)cellstomutatethatcauses…….Cancer

(whencontrollingforage)

9.1分类数据列联表分类变量(Categoricalvariable)分类变量的结果表现为类别,各类别用符号或数字代码来测度,使用分类或顺序尺度列赞成还是反对这一改革方案?1.赞成;2.反对你吸烟吗?1.是;2.否对分类数据的描述和分析通常使用列联表或复合条形图分类变量间的关系列联表(contingencytable)由两个以上的变量交叉分类的频数分布表行变量的类别用r

表示,ri

表示第i

个类别列变量的类别用c

表示,cj

表示第j

个类别每种组合的观察频数用fij

表示表中列出了行变量和列变量的所有可能的组合,所以称为列联表一个

r行c

列的列联表称为r

c

列联表分类变量间的关系二维列联表…:………::::nc2c1合计r2f22f21i=2r1合计f12j=2j=1f11i=1列(cj)列(cj)行(ri)fij

表示第i

行第j

列的观察频数分类变量间的关系(续)三维列联表

观点:赞成观点:不赞成

低收入中等收入高收入低收入中等收入高收入男201055810女25157279分类变量间的关系(续)分类变量间的关系例析广告公司想要了解观众的所得收入与电视节目收视是否相关,其零假设为:

H0:电视节目的选择与收入无关

H1:收入与选择电视节目有关该公司抽取500户为样本,先用收入将样本区分成高、中、低三类,再以收看电视的种类分成「运动」、「电影」、「新闻」三类所得资料列联表分类变量间的关系分类变量间的关系图示法41分类变量间的关系图示法9.2独立性检验500*(250/500)*(250/500)=125500*(150/500)*(50/500)=15基于χ2统计量的独立性检验Criticalvalue=9.49数值法:有没有关系?基于χ2统计量的独立性检验9.3列联表中的相关性测量分类变量的相关性测量相关的强度主要是对分类(也可对顺序数据)之间相关程度的测度列联表相关测量的统计量主要有相关系数列联相关系数V

相关系数分类变量的相关性测量

相关系数(correlationcoefficient)测度22列联表中数据相关程度对于22列联表,

系数的值在0~1之间

相关系数计算公式为分类变量的相关性测量思路:简化的22列联表为例合计x1x2y1aba+by2cdc+d合计a+cb+dn分类变量的相关性测量列联表中每个单元格的期望频数分别为将各期望频数代入的计算公式得分类变量的相关性测量将入

相关系数的计算公式得若ad等于bc,=0,表明变量X与Y之间独立;若b=0,c=0,或a=0,d=0,意味着各观察频数全部落在对角线上,此时||=1,表明变量X与Y之间完全相关列联表中变量的位置可以互换,的符号没有实际意义,故取绝对值即可分类变量的相关性测量C相关系数(coefficientofcontingency)用于测度大于22列联表中数据的相关程度计算公式为C的取值范围是0C<1C=0表明列联表中的两个变量独立C的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大根据不同行和列的列联表计算的列联系数不便于比较分类变量的相关性测量V相关系数(Vcorrelationcoefficient)计算公式为V的取值范围是0V1V=0表明列联表中的两个变量独立V=1表明列联表中的两个变量完全相关不同行和列的列联表计算的列联系数不便于比较当列联表中有一维为2,min[(r-1),(c-1)]=1,此时V=分类变量的相关性测量、C、V的比较同一个列联表,、C、V的结果会不同不同的列联表,、C、V的结果也不同在对不同列联表变量之间的相关程度进行比较时,不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数Chi-SquareTests

ValuedfAsymp.Sig.(2-sided)PearsonChi-Square21.174a4.000LikelihoodRatio19.4694.001NofValidCases500

a.0cells(0.0%)haveexpectedcountlessthan5.Theminimumexpectedcountis10.00.SymmetricMeasuresc

ValueApprox.Sig.NominalbyNominalPhi.206.000Cramer'sV.146.000ContingencyCoefficient.202.000NofValidCases500

c.Correlationstatisticsareavailablefornumericdataonly.分类变量的相关性测量559.4列联分析中其他的问题条件百分比的方向一般自变量放在列,因变量在行但如果扩大因变量某项的样本量,可能会歪曲真相条件百分比的方向58条件百分比的方向59列联分析的样本量要求χ2分布的期望值准则如果只有两个单元,每个单元的期望频数必须大于等于5如果两个以上单元,20%以上的单元期望频数大于等于5关系的掩盖与扭曲重要的第三变量Simpson’sParadoxAssociationoftwovariableswithoutthethirdleadstoaspecificconclusion.Associationoftwovariableswiththethirdvariableleadstotheoppositeconclusions分类变量间的关系(续)缘由顺序变量比分类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论