SSS统计基础教程_第1页
SSS统计基础教程_第2页
SSS统计基础教程_第3页
SSS统计基础教程_第4页
SSS统计基础教程_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SPSS统计分析基础教程主讲人:彭超课程目的应用统计学理解统计数据分析主要方法的基本理论掌握基本统计方法在实践中的应用能熟练运用SPSS软件实现数据分析建立起独立运用统计方法解决实际问题的基础能力参考书目:1、《统计学:从数据到结论》(第2版)吴喜之著,中国统计出版社,2006。2、《统计分析与SPSS的应用》,薛薇编著,中国人民大学出版社,2001。3、《SPSS统计分析教程》,李志辉等主编,电子工业出版社,2003。4、《社会统计方法——SPSS软件应用》,郭志刚主编,中国人民大学出版社,1999。第一章一些基本概念什么是统计呢?报表?数字?你觉得你们需要统计吗?为什么?§1.1统计是什么?统计是人类思维的一个归纳过程站在一个路口,看到每过去20辆小轿车时,也有100辆自行车通过而且平均每10个轿车载有12个人于是,你认为小汽车和自行车在这个路口的运载能力为24:100这是一个典型的统计思维过程§1.1统计是什么?一般来说,统计先从现实世界收集数据(信息),如经济增长然后,根据数据作出判断,称为模型模型是从数据产生的模型也需要根据新的信息来改进不存在完美的模型模型的最终结局都是被更能够说明现实世界的新模型所取代§1.1统计是什么?比如说,经济生产的模型统计学可以应用于几乎所有的领域:精算,农业,动物学,人类学,考古学,审计学,晶体学,人口统计学,牙医学,生态学,经济计量学,教育学,选举预测和策划,工程,流行病学,金融,水产渔业研究,遗传学,地理学,地质学,历史研究,人类遗传学,水文学,工业,法律,语言学,文学,劳动力计划,管理科学,市场营销学,医学诊断,气象学,军事科学,核材料安全管理,眼科学,制药学,物理学,政治学,心理学,心理物理学,质量控制,宗教研究,社会学,调查抽样,分类学,气象改善,博彩等。§1.1统计是什么?一句话,统计学(statistics)是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。以归纳为主要要思维方式的的统计不是以演绎为主的的数学统计可应用于于各个不同学学科,在有些些学科已经有有其特有的方方法和特点;;如生物统计(biostatistics)、经济计量学(econometrics)以及目前很热热门的生物信息(bioinformation)和数据挖掘(DataMining)的方法主体都都是统计。你想过下面的的问题吗?当你买了一台台电视时,被被告知三年内内可以免费保保修。你想过过厂家凭什么么这样说吗??说多了,厂厂家会损失;;说少了,会会失去竞争,,也是损失。。到底这个保保修期是怎样样决定的呢??大学排名是一一个非常敏感感的问题。不不同的机构得得出不同的结结果;各自都都说自己是客客观、公正和和有道理的。。到底如何理理解这些不同同的结果呢??你想过下面的的问题吗?任何公司都有有一个信用问问题。当然,,在这些公司司试图得到贷贷款时并没有有不还贷的不不良记录。如如何根据它们们的财务和商商业资料来判判断一个公司司的信用等级级呢?我国东部和西西部的概念是是一个比较笼笼统的概念。。如何能够根根据需要,选选择一些指标标来把各省,,或各市县甚甚至村进行分分类呢?疾病传播时,,如何能够通通过感染者入入院前后的各各种因素得到到一个疾病传传染方式的模模型呢?你想过下面的的问题吗?如何通过大众众调查来得到到性别、年龄龄、职业、收收入等各种因因素与公众对对某项事物((比如商品或或政策)的态态度的关系呢呢?一个从来没有有研究过红楼楼梦的统计学学家如何根据据比较写作习习惯得出红楼楼梦从哪一段段开始就不是是曹雪芹的手手笔了呢?如何才能够客客观地得到某某个电视节目目的收视率,,以确定广告告的价格是否否合理呢?你如何理解下下面说法?“明天降水概概率为40%%”“我冬天去新新加坡度假的的概率为10%”“该节目收视视率是30%”“调查结果表表明20%的的观众喜欢某某节目”“抽样调查结结果的误差为为±3%”“支持率的95%置信区区间为(25%,30%)”“某学校排名名第一”“某县是贫困困县”你如何理解下下面说法?“某国的综合合竞争力排名名第43位””“该国家属于于发展中国家家”“该药品疗效效99%”“该国贫富差差距大”“这个县收入入比那个县高高”“该结果统计计显著”“消费价格指指数为120%”“他的血压已已经正常了””可以想象出的的统计应用例例子如何确定观众众/听众是否否忠实于某节节目(专栏)如何对电视节节目排名次什么因素影响响一个节目的的收视率如何按照各种种不同环境估估计某商店的的顾客人数如何按照各种种指标评价雇雇员如何把地区(市县镇等)按照各种指指标分类如何确定红楼楼梦第几回不不是曹雪芹所所写如何确定一个个产品的可靠靠性如何进行偏差差较少的民意意调查如何根据一些些财务数据发发现漏税的嫌嫌疑单位?你相信统计结结果吗?数据可以有误误或作假统计方法(有有意或无意))使用不当可可以误导。有有低级误导和和高级误导。。常识判断和直直觉是重要的的关于美国选举举的两个例子子(1)谁会在1936选举举中获胜?AlfLondon还还是F.D.R.(罗斯福)?LiteraryDigest(文摘)送出一千万份份问卷(返回回二百四十万万份)后,预预测London会赢.而Gallop(盖洛普)只问了5000人说Roosevelt(罗斯福)会会赢.最后罗斯福和和盖洛普都赢赢了.文摘倒闭了.谁会在1948选举举中获胜?ThomasDewey还是HarryTruman(杜鲁门)?Crossley,Gallop(盖洛普),Roper所所有都预测Dewey会赢(每个机机构用了5000个问卷卷).最后(包括盖盖洛普)他们们都输了,而而杜鲁门赢赢了.关于美国选举举的两个例子子(2)统计的一些做做法统计可以指导导我们收集数数据.当拥有来自一一些变量(指指标)的数据据或记录,但但缺乏模型来来描述这些变变量之间关系系的情况下,可用统计方方法建立模型型.在有了一定的的模型时,统统计可以确定定手中数据是是否令人信服服地支持某种种论点.模型型也用来对未未来进行预测测.统计直观的图图表展示,可可以使各个领领域的专家容容易理解中国统计的独独特历史环境境中国统计过去去分为“统计计学”(文科科的列宁主义义统计)和““数理统计””(数学类的的国际意义上上的统计)国内一些学者者把统计称为为是经济学科科的一部分,,则是中国特特有的与前苏苏联关联的国国情所造成;;读者可以从从《苏联大百百科全书》的的统计学条款款得到答案。。但前苏联的经经济学中的统统计学概念是是其意识形态态和计划经济济体系的产物物,其模型多多属于小学数数学水平,很很难称为数学学模型。这与现代经济济学所需要的的大量的统计计和数学形成成鲜明对照.前苏联式的““统计学”不不是目前国际际流行意义上上的统计学或或统计学的分分支。统计的内容和和需要的知识识数学的几乎所所有内容(不一定事先先知道需要什什么)用计算机做统统计计算其他(对象)领域的知识识统计和数学的的区别数学思维是以以演绎为主统计思维是以以归纳为主,兼有演绎统计各领域利利用几乎所有有存在的数学学内容.但统计本身身的数学是是为具体目目标服务的的,自己一一般不形成成数学体系系计算机的重重要性由于统计和和数据打交交道,没有有计算机的的发展统计计就没有前前途.计算机和统统计的发展展相辅相成成§1.2现实中的随随机性和规规律性从中学起,,我们就知知道自然科科学的许多多定律,例例如物理中中的牛顿三三定律,物物质不灭定定律以及化化学中的各各种定律等等等。但是在许多多领域,很难用如此此确定的公公式或论述述来描述一一些现象。。比如,人的的寿命是很很难预先确确定的。一一个吸烟、、喝酒、不不锻炼、而而且一口长长荤的人可可能比一个个很少得病病、生活习习惯良好的的人活得长长。因此,可以以说,活得得长短是有有一定随机机性的(randomness)。这这种随机性性可能和人人的经历、、基因、习习惯等无数说不清清的因素都有关系。。现实中的随随机性和规规律性但是从总体体来说,我我国公民的的平均年龄龄却是非常常稳定的。。而且女性性的平均年年龄也稳定定地比男性性高几年。。这就是规律性。一个人可能能活过这个个平均年龄龄,也可能能活不到这这个年龄,,这是随机的。但是总体来来说,平均均年龄的稳稳定性,却却说明了随机之中有有规律性。这种规律律就是统计计规律。概率和机会会你可能经常常听到概率率(probability)这个名名词。例如如在天气预预报中会提提到降水概概率。大家家都明白,,如果降水水概率是百百分之九十十,那就很很可能下雨雨;但如果果是百分之之十,就不不大可能下下雨。因此,从某某种意义说说来,概率描述了了某件事情情发生的机机会。显然,这种种概率不可可能超过百百分之百,,也不可能能少于百分分之零。换换言之,概率是在0和1之间间的一个数数,说明某事事件发生的的机会有多多大。有些概率是是无法精确确推断的比如你对别别人说你下下一个周末末去公园的的概率是百百分之八十十。但你无无法精确说说出为什么么是百分之之八十而不不是百分之之八十四或或百分之七七十八。其实你想说说的是你很很可能去,,但又没有有完全肯定定。实际上,到到了周末,,你或者去去,或者不不去;不可可能有分身身术把百分分之八十的的你放到公公园,而其其余的放在在别处。有些概率是是可以估计计的比如掷骰子子。只要没没有人在骰骰子上做手手脚,你得得到6点的的概率应该该是六分之之一。得到到其他点的的概率也是是一样。得到6的概概率或者机机会是可以以知道的,,但掷骰子子的结果还还只可能是六六个数目之之一。这个已知的的规律就反反映了规律律性,而得得到哪个结结果则反映映了随机性性。如果你掷1000次次骰子,那那么,大约约有六分之之一的可能能会得到6;这也是随机机性呈现有有规律的一一个体现。。§1.3变变量和数数据一节火车车车厢有多少少坐位是一一个固定的的数目,称称为常数(constant)或者常常量。但是,开车车后,坐在在这节车厢厢的旅客有有多少就没没准了。这这有随机性性。该车厢厢的乘客数数为变量(variable)。§1.3变变量和数数据一个学校的的注册在校校男女生比比例是固定定的,为常常量但是,该校校任意一群群学生的男男女生比例例就不一定定和全校的的比例一样样了,它为为变量(variable)。§1.3变变量和数数据当变量按照照随机规律律所取的值值是数量时时该变量称称为定量变变量或数量量变量(quantitativevariable);因为是随机机的,也称称为随机变变量(randomvariable)。如身高体重重,购买某某商品的人人数等等SPSS主主要为Numeric§1.3变变量和数数据象性别,观观点之类的的取非数量量值的变量量就称为定定性变量或或属性变量量或分类变变量(qualitativevariable,或categoricalvariable)。这些定性变变量也可以以由定量变变量来描述述,如男女女生的数目目,持有某某观点的人人数比例等等等。§1.3变变量和数数据定性变量只只有用数量量来描述时时,才有可可能建立数数学模型,,并使用计计算机来分分析。数据中它们们通常用哑哑元(dummyvariable)代表,,比如性别别用0、1代表,三三种收入用用0、1、、2代表(或用字母母代表)SPSS中中没有特别别的变量,,往往用数数值表示§1.3变变量和数数据有了变量,,何谓数据据?不同机构调调查所得到到的北京收收入万元以以上市民的的比例都不不一样,这这是变量而这些调查查产生一些些数目,这这些数目就就是数据(data)数据是关于于变量的观观测值。§1.3变变量和数数据通过数据可可验证有关关的理论或或假定。比如通过抽抽样调查验验证美国选选民对共和和党候选人人的支持率率是否超过过50%通过抽样,,可以检验验某批产品品是否合格格等等§1.4变变量之间间的关系现实世界紧紧密联系的的人们想知道道投资方式式和经济效效益之间的的关系、旅旅客人数和和经济发展展之间的关关系等等不讨论变量量之间的关关系,就无无从谈起任任何有深度度的应用,,统计的基基本概念就就仅仅是摆摆设而已。。§1.4.1定量量变量间的的关系例1.1..广告投入入和销售之之间的关系系。下表((数据ads.sav)显示示了某企业业的广告投投入和销售售额之间的的关系(万万元)。横坐标代表表广告投入入,而纵坐坐标代表销销售收入。。看得出有何何种关系吗吗?§1.4.1定量量变量间的的关系能否从该数数据回答下下面问题::这两个变量量是否有关关系?如果有,它它们的关系系是否显著著?这些关系是是什么关系系,能否用用数学模型型来描述??这个关系是是否带有普普遍性?这个关系是是不是因果果关系?§1.4.1定量量变量间的的关系关于因果关关系在可控制的的试验中,,较容易找找到因果关关系;比如如治疗方式式和疗效的的关系等但是,一般般来说,变变量之间有有关系这个个事实并不不意味着一一定存在明明确的因果果关系。§1.4.1定量量变量间的的关系比如,北京京GDP在在一年中是是快速增长长的,而一一个刚出生生的巴拿马马婴儿在这这一年中的的体重也是是快速增长长的如果画出图图来,它们们有类似线线性的关系系但它们显然然没有因果果关系§1.4.1定量量变量间的的关系只要有关系系,即使不不是因果关关系也不妨妨碍人们利利用这种关关系来进行行推断。比如利用公公鸡打鸣来来预报太阳阳升起;虽虽然公鸡打打鸣绝对不不是日出的的原因(虽虽然打鸣发发生在先))§1.4.1定量量变量间的的关系简单的办法法(诸如画画图)可以以得到一些些信息,但但不一定能能够给出满满意的答案案需要更多的的工具和手手段来进行行数值分析析得到更加加严格和精精确的解答答因此,需要要继续我们们的课程§1.4.2定性性变量间的的关系例1.2..下面是对对123人人进行关于于某项政策策调查所得得结果的一一个简单的的三维表,,它显示了了人们的收收入和性别别对该项政政策的观点点。(table7.sav)。计算机软件件所应用的的数据形式式§1.4.2定性性变量间的的关系从这个数据据,希望可可以看出收收入、性别别对观点是是否有影响响及如何影影响如果果要要得得到到更更加加精精确确的的结结论论,,就就要要进进行行进进一一步步的的分分析析和和计计算算这是是后后面面列列联联表表分分析析或或多多项项分分布布对对数数线线性性模模型型的的内内容容§1.4.3定定性性和和定定量量变变量量间间的的混混和和关关系系有些些数数据据不不是是仅仅有有定定性性变变量量或或仅仅有有定定量量变变量量需要要知知道道包包括括定定性性和和定定量量两两种种变变量量的的一一些些变变量量之之间间的的关关系系下面面数数据据就就包包含含两两种种变变量量Asthma.sav数数据据§1.4.3定定性性和和定定量量变变量量间间的的混混和和关关系系该数数据据有有2个个定定性性变变量量((性性别别,,污污染染程程度度))、、一一个个定定量量变变量量((年年龄龄))以以及及发发生生哮哮喘喘的的人人数数我们们希希望望知知道道哮哮喘喘和和这这三三个个变变量量之之间间的的关关系系这将将在在Poisson对对数数线线性性模模型型中中讨讨论论§1.5统统计计、、计计算算机机与与统统计计软软件件现代代生生活活越越来来越越离离不不开开计计算算机机了了最初初的的计计算算机机仅仅仅仅是是为为科科学学计计算算而而设设计计和和建建造造的的。。统计计是是大大型型计计算算机机的的最最早早用用户户,,现现在在仍仍然然是是数数值值计计算算的的主主要要用用户户§1.5统统计计、、计计算算机机与与统统计计软软件件计算算机机的的使使用用,,从从计计算算机机语语言言到到““傻傻瓜瓜式式””地地点点击击鼠鼠标标输出出结结果果也也从从数数字字输输出出到到各各种种可可以以想想象象得得到到的的形形式式。。输入入数数据据,,点点鼠鼠标标做做一一些些选选项项,,就就可可得得到到漂漂亮亮结结果果但其其中中充充满满了了危危险险的的陷陷阱阱§1.5统统计计、、计计算算机机与与统统计计软软件件计算算机机无无法法识识别别你你的的统统计计方方面面的的错错误误错误误的的方方法法、、错错误误的的数数据据形形式式都都必必然然输输出出错错误误的的结结果果((虽虽然然看看上上去去可可能能很很漂漂亮亮)),,得得到到大大量量垃垃圾圾另外,,统计计软件件输出出的结结果太太多、、很难难都理理解§1.5统统计计、计计算机机与统统计软软件统计软软件的的种类类很多多。书书中仅仅介绍绍最常常见的的几种种。只要学学会使使用一一种““傻瓜瓜式””软件件或编编程软软件,,使用用其他他类似似的软软件也也不会会困难难;最最多看看看帮帮助和和说明明即可可。学习软软件的的最好好方式式是需需要时时在使使用中中学。。统计软软件SPSS::这是一一个很很受欢欢迎的的统计计软件件;它它容易易操作作,输输出漂漂亮,,功能能齐全全,价价格合合理。。对于于非统统计工工作者者是很很好的的选择择。SAS:这是功功能非非常齐齐全的的软件件;尽尽管价价格不不菲,,许多多公司司还是是因为为其功功能众众多和和某些些美国国政府府机构构认可可而使使用。。尽管管现在在已经经尽量量“傻傻瓜化化”,,仍然然需要要一定定的训训练才才可以以进入入。对对于基基本统统计课课程则则不那那么方方便。。STATA:这是众众多统统计软软件的的后起起之秀秀;它它操作作灵活活、简简单、、易学学易用用,同同时具具有数数据管管理软软件、、统计计分析析软件件、绘绘图软软件、、矩阵阵计算算软件件和程程序语语言的的特点点。占占用计计算机机系统统资源源少,,绘图图漂亮亮,对对有简简单编编程基基础者者来讲讲十分分容易易上手手,有有专门门出版版的专专业刊刊物。。以上三三种软软件并并称为为新的的国际际三大大权威威统计计软件件统计软软件Excel:它严格格说来来并不不是统统计软软件,,但作作为数数据表表格软软件,,必然然有一一定统统计计计算功功能。。而且且凡是是有MicrosoftOffice的的计算算机,,基本本上都都装有有Excel。。但要要注意意,有有时在在装Office时时没有有装数数据分分析的的功能能,那那就必必须装装了才才行。。当然然,画画图功功能是是都具具备的的。对对于简简单分分析,,Excel还还算方方便,,但随随着问问题的的深入入,Excel就不不那么么“傻傻瓜””,需需要使使用函函数,,甚至至根本本没有有相应应的方方法了了。多多数专专门一一些的的统计计推断断问题题还需需要其其他专专门的的统计计软件件来处处理。。统计软软件S-plus:这是是统计计学家家喜爱爱的软软件。。不仅仅由于于其功功能齐齐全,,而且且由于于其强强大的的编程程功能能,使使得研研究人人员可可以编编制自自己的的程序序来实实现自自己的的理论论和方方法。。它也也在进进行““傻瓜瓜化””以争争取顾顾客。。但仍仍然以以编程程方便便为顾顾客所所青睐睐。R软件件:这是一一个免费的的,由志志愿者者管理理的软软件。。其编编程语语言与与S-plus所基基于的的S语语言一一样,,很方方便。。还有有不断断加入入的各各个方方向统统计学学家编编写的的统计计软件件包。。同时时从网网上可可以不不断更更新和和增加加有关关的软软件包包和程程序。。这是是发展最最快的软件件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论