医疗行业统计基础知识培训_第1页
医疗行业统计基础知识培训_第2页
医疗行业统计基础知识培训_第3页
医疗行业统计基础知识培训_第4页
医疗行业统计基础知识培训_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本课内容包含统计回顾方差分析主成分分析和因子分析聚类分析判别分析典型相关分析对应分析列联表Logistic回归Poisson对数线性模型时间序列分析。。。。统计基本概念回顾随机性和规律性现实中的随机性和规律性从中学起,我们就知道自然科学的许多定律,例如物理中的牛顿三定律,物质不灭定律以及化学中的各种定律等等。但是在许多领域,很难用如此确定的公式或论述来描述一些现象。比如,人的寿命是很难预先确定的。一个吸烟、喝酒、不锻炼、而且一口长荤的人可能比一个很少得病、生活习惯良好的人活得长。因此,可以说,活得长短是有一定随机性的(randomness)。这种随机性可能和人的经历、基因、习惯等无数说不清的因素都有关系。现实中的随机性和规律性但是从总体来说,我国公民的平均年龄却是非常稳定的。而且女性的平均年龄也稳定地比男性高几年。这就是规律性。一个人可能活过这个平均年龄,也可能活不到这个年龄,这是随机的。但是总体来说,平均年龄的稳定性,却说明了随机之中有规律性。这种规律就是统计规律。概率和机会你可能经常听到概率(probability)这个名词。例如在天气预报中会提到降水概率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,从某种意义说来,概率描述了某件事情发生的机会。显然,这种概率不可能超过百分之百,也不可能少于百分之零。换言之,概率是在0和1之间的一个数,说明某事件发生的机会有多大。有些概率是无法精确推断的比如你对别人说你下一个周末去公园的概率是百分之八十。但你无法精确说出为什么是百分之八十而不是百分之八十四或百分之七十八。其实你想说的是你很可能去,但又没有完全肯定。实际上,到了周末,你或者去,或者不去;不可能有分身术把百分之八十的你放到公园,而其余的放在别处。有些概率是可以估计的比如掷骰子。只要没有人在骰子上做手脚,你得到6点的概率应该是六分之一。得到其他点的概率也是一样。得到6的概率或者机会是可以知道的,但掷骰子的结果还只可能是六个数目之一。这个已知的规律就反映了规律性,而得到哪个结果则反映了随机性。如果你掷1000次骰子,那么,大约有六分之一的可能会得到6;这也是随机性呈现有规律的一个体现。变量做任何事情都要有对象。比如一个班上注册的学生有200人,这是一个固定的数目,称为常数(constant)或者常量。但是,如果猜测今天这个班有多少人会来上课,那就没准了。这有随机性。可能有请病假或事假的,也可能有逃课的。这样,就要来上课的人数是个变量(variable)。另外对于某项政策同意与否的回答,也有“同意”、“不同意”或者“不知道”三种可能值;这也是变量,只不过不是数量而已。变量当变量按照随机规律所取的值是数量时该变量称为定量变量或数量变量(quantitativevariable);因为是随机的,也称为随机变量(randomvariable)。象性别,观点之类的取非数量值的变量就称为定性变量或属性变量或分类变量(qualitativevariable,categoricalvariable)。这些定性变量也可以由随机变量来描述,比如男性和女性的数目,同意某政策人数的比例等等。只有当变量用数量来描述时,才有可能建立数学模型,才可能使用计算机来分析。数据据有了了变变量量的的概概念念,,什什么么是是数数据据呢呢??拿拿掷掷骰骰子子来来说说,,掷掷骰骰子子会会得得到到什什么么值值,,是是个个随随机机变变量量;;而而每每次次取取得得1至至6点点中中任任意意点点数数的的概概率率它它在在理理论论上上都都是是六六分分之之一一((如如果果骰骰子子公公平平))。。这这依依赖赖于于在在掷掷骰骰子子背背后后的的理理论论或或假假定定;;而而在在实实际际掷掷骰骰子子过过程程中中,,如如果果掷掷100次次,,会会得得到到100个个由由1至至6点点组组成成的的数数字字串串;;再再掷掷100次次,,又又得得到到一一个个数数字字串串,,和和前前一一次次的的结结果果多多半半不不一一样样。。这这些些试试验验结结果果就就是是数数据据。。所所以以说说,数据据是是关关于于变变量量的的观观测测值值.通过过数数据据可可以以验验证证有有关关的的理理论论或或假假定定(比比如如每每一一次次得得到到每每个个点点的的概概率率是是不不是是1/6等等等等))。。对对于于顾顾客客是是否否喜喜欢欢某某种种饮饮品品的的调调查查也也类类似似,,但但这这里里不不象象掷掷骰骰子子那那样样事事先先可可以以大大致致猜猜测测顾顾客客喜喜欢欢与与否否的的概概率率。。在在问问了了1000人人之之后后,,可可能能有有364人人说说喜喜欢欢,,而而480人人说说不不喜喜欢欢,,其其余余的的人人可可能能不不回回答答,,或或说说不不知知道道,,或或从从来来没没有有喝喝过过这这种种饮饮料料。。这这些些数数目目就就是是数数据据。。当当然然,,它它仅仅仅仅反反映映了了1000个个被被问问到到的的人人的的观观点点;;但但这这对对于于估估计计整整个个消消费费群群体体的的观观点点还还是是有有用用的的。。统计计和和计计算算机机现代代生生活活越越来来越越离离不不开开计计算算机机了了。。最最早早使使用用计计算算机机的的统统计计当当然然更更离离不不开开计计算算机机了了。。事实实上上,,最初初的的计计算算机机仅仅仅是是为为科科学学计计算算而而建建造造的的。。大大型型计计算算机机的的最最早早一一批批用用户户就就包包含含统统计计。。而而现现在在统统计计仍仍然然是是进进行行数数字字计计算算最最多多的的用用户户。。计算算机机现现在在早早已已脱脱离离了了仅仅有有计计算算功功能能的的单单一一模模式式,,而而成成为为百姓姓生生活活的的一一部部分分。计算算机机的的使使用用,,也也从从过过去去必必须须学学会会计计算算机机语语言言到到只只需需要要““傻傻瓜瓜式式””地地点点击击鼠鼠标标。。结结果果也也从从单单纯纯的的数数字字输输出出到到包包括括漂漂亮亮的的表表格格和和图图形形的的各各种种形形式式。。统计计软软件件统计计软软件件的的发发展展,,也也使使得得统统计计从从统统计计学学家家的的圈圈内内游游戏戏变变成成了了大大众众的的游游戏戏。。只只要要你你输输入入你你的的数数据据,,点点几几下下鼠鼠标标,,做做一一些些选选项项,,马马上上就就得得到到令令人人惊惊叹叹的的漂漂亮亮结结果果了了。。你可可能能会会问问,,是是否否傻傻瓜瓜式式的的统统计计软软件件使使用用可可以以代代替替统统计计课课程程了了??当然然不不是是。。数数据据的的整整理理和和识识别别,,方方法法的的选选用用,,计计算算机机输输出出结结果果的的理理解解都都不不象象使使用用傻傻瓜瓜相相机机那那样样简简单单可可靠靠。。统计计软软件件有些些诸诸如如法法律律和和医医学学方方面面的的软软件件都都有有不不少少警警告告,,不不时时提提醒醒你你去去咨咨询询专专家家。。但统统计计软软件件则则不不那那么么负负责责。。只只要要数数据据格格式式无无误误、、方方法法不不矛矛盾盾而而且且不不用用零零作作为为除除数数就就一一定定给给你你结结果果,,而而且且没有有任任何何警警告告。另外外,,统统计计软软件件输出出的的结结果果太太多多;即即使使是是同同样样的的方方法法,,不不同同软软件件输输出出的的内内容容还还不不一一样样;;有有时时同同样样的的内内容容名名称称也也不不一一样样。。这这就就使使得得使使用用者者大大伤伤脑脑筋筋。。即即使使是是统统计计学学家家也也不不一一定定能能解解释释所所有有的的输输出出。。因因此此,,就就应应该该特特别别留留神神,,明明白白自自己己是是在在干干什什么么。。不要要在在得得到到一一堆堆毫毫无无意意义义的的垃垃圾圾之之后后还还沾沾沾沾自自喜喜。统计计软软件件统计软软件的的种类类很多多。有有些功功能齐齐全,,有些些价格格便宜宜;有有些容容易操操作,,有些些需要要更多多的实实践才才能掌掌握。。还有有些是是专门门的软软件,,只处处理某某一类类统计计问题题。面面对太太多的的选择择往往往给决决策带带来困困难。。这里里介绍绍最常常见的的几种种。统计软软件SPSS::这是一一个很很受欢欢迎的的统计计软件件;它它容易易操作作,输输出漂漂亮,,功能能齐全全,价价格合合理。。对于于非统统计工工作者者是很很好的的选择择。Excel:它严格格说来来并不不是统统计软软件,,但作作为数数据表表格软软件,,必然然有一一定统统计计计算功功能。。而且且凡是是有MicrosoftOffice的的计算算机,,基本本上都都装有有Excel。。但要要注意意,有有时在在装Office时时没有有装数数据分分析的的功能能,那那就必必须装装了才才行。。当然然,画画图功功能是是都具具备的的。对对于简简单分分析,,Excel还还算方方便,,但随随着问问题的的深入入,Excel就不不那么么“傻傻瓜””,需需要使使用函函数,,甚至至根本本没有有相应应的方方法了了。多多数专专门一一些的的统计计推断断问题题还需需要其其他专专门的的统计计软件件来处处理。。SAS:这是功功能非非常齐齐全的的软件件;尽尽管价价格不不菲,,许多多公司司还是是因为为其功功能众众多和和某些些美国国政府府机构构认可可而使使用。。尽管管现在在已经经尽量量“傻傻瓜化化”,,仍然然需要要一定定的训训练才才可以以进入入。对对于基基本统统计课课程则则不那那么方方便。。统计软软件S-plus:这是是统计计学家家喜爱爱的软软件。。不仅仅由于于其功功能齐齐全,,而且且由于于其强强大的的编程程功能能,使使得研研究人人员可可以编编制自自己的的程序序来实实现自自己的的理论论和方方法。。它也也在进进行““傻瓜瓜化””以争争取顾顾客。。但仍仍然以以编程程方便便为顾顾客所所青睐睐。R软件件:这是一一个免费的的,由志志愿者者管理理的软软件。。其编编程语语言与与S-plus所基基于的的S语语言一一样,,很方方便。。还有有不断断加入入的各各个方方向统统计学学家编编写的的统计计软件件包。。同时时从网网上可可以不不断更更新和和增加加有关关的软软件包包和程程序。。这是是发展最最快的软件件,受受到世世界上上统计计师生生的欢欢迎。。是用户户量增增加最最快的的统计计软件件。对于于一般般非统统计工工作者者来说说,主主要问问题是是它没没有““傻瓜瓜化””。统计软软件Minitab:这个软软件是是很方方便的的功能能强大大而又又齐全全的软软件,,也已已经““傻瓜瓜化””,在在我国国用的的不如如SPSS与SAS那么么普遍遍。Statistica::也是功功能强强大而而齐全全的““傻瓜瓜化””的软软件,,在我我国用用的也也不如如SAS与与SPSS那么么普遍遍。Eviews::这是一一个主主要处处理回回归和和时间间序列列的软软件。。GAUSS:这是一个很很好用的统统计软件,,许多搞经经济的喜欢欢它。主要要也是编程程功能强大大。目前在在我国使用用的人不多多。FORTRAN:这是应用于于各个领域域的历史很很长的非常常优秀的编编程软件,,功能强大大,也有一一定的统计计软件包。。计算速度度比这里介介绍的都快快得多。但但需要编程程和编译。。操作不那那么容易。。MATLAB:这也是应用用于各个领领域的以编编程为主的的软件,在在工程上应应用广泛。。编程类似似于S和R。但是统统计方法不不多。统计计软软件件当然然,,还还有有其其他他的的软软件件,,没没有有必必要要一一一一罗罗列列。。其其实实,,聪聪明明的的读读者者只只要要学学会会使使用用一一种种““傻傻瓜瓜式式””软软件件,,使使用用其其他他的的仅仅仅仅是是举举一一反反三三之之劳劳;;最最多多看看看看帮帮助助和和说说明明即即可可。。如如果果只只有有英英文文帮帮助助,,那那还还可可以以顺顺便便提提高高你你的的英英文文阅阅读读能能力力。。想想想看看举出出你你所所知知道道的的统统计计应应用用例例子子。。举出出日日常常生生活活中中随随机机性性和和规规律律性性的的例例子子。。你使使用用过过统统计计软软件件或或者者利利用用过过其其他他软软件件中中的的统统计计功功能能吗吗??你你有有什什么么经经验验和和体体会会??数据据的的收收集集二手手数数据据每天天翻翻开开报报纸纸或或打打开开电电视视,,就就可可以以看看到到各各种种数数据据。。比比如如高高速速公公路路通通车车里里程程、、物物价价指指数数、、股股票票行行情情、、外外汇汇牌牌价价、、犯犯罪罪率率、、房房价价、、流流行行病病的的有有关关数数据据((确确诊诊病病例例、、疑疑似似病病例例、、死死亡亡人人数数和和出出院院人人数数等等等等));;当当然然还还有有国国家家统统计计局局定定期期发发布布的的各各种种国国家家经经济济数数据据、、海海关关发发布布的的进进出出口口贸贸易易数数据据等等等等。。从从中中可可以以选选取取对对自自己己有有用用的的信信息息。。这些些间间接接得得到到的的数数据据都都是是二手手数数据据。第一一手手数数据据获得得第第一一手手数数据据并并不不象象得得到到二二手手数数据据那那么么轻轻松松。。某些些在在华华的的外外资资企企业业每每年年至至少少要要花花三三四四千千万万元元来来收收集集和和分分析析数数据据。。他们们调调查查其其产产品品目目前前在在市市场场中中的的状状况况和和地地位位并并确确定定其其竞竞争争对对手手的的态态势势;;他们调查不同同地区,不同同阶层的民众众对其产品的的认知程度和和购买意愿以以改进产品或或推出新品种种争取新顾客客;他们还收集各各地方的经济济交通等信息息以决定如何何保住现有市市场和开发新新市场。市场场信息数据对对企业是至关关重要的。他们很舍得在在这方面花钱钱。因为这是是企业生存所所必需的,绝绝不是可有可可无的。观测数据和试验数据上面所说的数数据是在自然的未被控控制的条件下下观测到的,,称为观测数数据(observationaldata)。而对于有些问问题,比如在不同的的医疗手段下下某疾病的治治疗结果有什什么不同、不不同的肥料和和土壤条件下下某农作物的的产量有没有有区别、用什什么成分可以以提高某物质质变成超导体体的温度等等等。这种在人工干干预和操作情情况下收集的的数据就称为为试验数据(experimentaldata)。总体和样本要想了解北京京市民对建设设北京交通设设施是以包括括轨道运输在在内的公共交交通工具为主主还是以小汽汽车为主的观观点,需要进进行调查;调查对象是所有北京市民民,调查目的是希望知道市市民中对这个个问题的不同同看法各自占占有的比例。显然,不可能去问所所有的北京市市民,而只能能够问一部分分;并且根据这这一部分的观观点来理解整整个北京市民民的总体观点点。总体和样本这种情况下,,称所有(每每个)北京市市民对这个问问题的观点为为一个总体(population),而调查查时问到的那那部分市民的的观点为该总体的一个样本(sample)。当然,也有可可能调查所有有的人(比如如人口普查)),那叫做普查(census)。总体是包含所所有要研究的的个体(element)的集合。。而样本是总总体中选中的的一部分。随机样本在抽取样本时时,如果总体体中的每一个个体都有同等等机会被选到到样本中,这这种抽样称为为简单随机抽样(simplerandomsampling),而这样得到的的样本则称为为随机样本(randomsample)。。随机样本就北京交通问问题的调查为为例,在随机机抽样的情况况下,如果样样本量(samplesize,,也就是样本本中个体的数数目)在总体体中的比例为为1/5000,那么,无论在在东城区或者者在延庆县,,无论在白领领阶层还是蓝蓝领阶层被问问到的人的比比例都应该大大体是1/5000。也就是说,这种比例在总总体的任何部部分是大体不不变的。方便样本在实践中,得得到随机样本本不容易。很很多搞调查的的人就采取简单的办法。还以北京的交交通问题的调调查为例。假假定按照随机机选出的电话话号码进行调调查。这样肯肯定节省时间间和资源,但但这样得到的的就不是一个个随机样本了了。如果按照随机机选择的数字字(无论号码码本上有没有有)打电话,,那很多电话话是空号或单单位电话;显显然这种样本本也不是随机机样本,它称称为方便样本本(conveniencesample))。在调查中,即即使选择对象象的确是随机机的,最理想想的情况所得得到的样本也也只代表那些些愿意回答问问题人的观点点所组成的总总体;没有回答问题题的人的观点点永远不会被被这种调查的的样本所代表表。方便样本这种不回答的的问题是抽样样调查特有的的问题。在其他问题中中,也有使用用方便样本的的情况。比如如在肺癌研究究中,人们往往往看到吸烟烟和肺癌的关关系的数据;;这些数据并并不是整个人人群中采集的的随机样本;;它们可能只只是医院中的的病人记录中中得到的。在杂志和报纸纸上也有问卷卷,但得到的的只是拥有这这份报刊,而而且愿意回答答的人的观点点。误差假定在某一职职业人群中女女性占的比例例为60%。。如果在这个个人群中抽取取一些随机样样本,这些随随机样本中女女性的比例并并不一定是刚刚好60%,,可能稍微多多些或稍微少少些。这是很很正常的,因因为样本的特特征不一定和和总体完全一一样。这种差差异不是错误误,而是必然然会出现的抽样误差(samplingerror))。刚才提到在抽抽样调查中,,一些人因为为种种原因没没有对调查作作出反映(或或回答),这这种误差称为为未响应误差(nonresponseerror)。而另有一些人人因为各种原原因回答时并并没有真实反反映他们的观观点,这称为为响应误差(responseerror))。和抽样误差不不一样,未响响应误差和响响应误差都会会影响对真实实世界的了解解;应该在设设计调查方案案时尽量避免免。抽样调查的一一些常用方法法在抽样调查时时,最理想的的样本是前面面提到的随机机样本。但是由于实践起来来不方便,在大规模调调查时一般不不用这种全部部随机抽样的的方式,而只只是在局部采采用随机抽样样的方法。下面介绍几种种抽样方法。。这里没有深深奥的理论;;读者完全可可以根据常识识判断在什么么情况下简单单的随机样本本不方便以及及下面的每个个方法有什么么好处和缺陷陷。对于它们们具体的设计计、实施与数数据分析,有有许多专门的的书籍,就不不在这里赘述述了。一些抽样方法法1.分层抽样(stratifiedsampling))。这是先把把要研究的总总体按照某些些性质分类((stratum),再再在各类中分分别抽取样本本。在每类中中调查的人数数通常是按照照这该类人的的比例,但出出于各种考虑虑,也可能不不按照比例,,也可能需要要加权(加权权就是在求若若干项的和时时,对各项乘乘以不同的系系数,这些系系数的和通常常为1)。比如可以按照照教育程度把把要访问的人人群分成几类类;再在每一一类中调查和和该类成比例例数目的人。。这样就确保了了每一类都有有成比例的代代表。一些抽样方法法2.整群抽样(clustersampling)。这是是先把总体划划分成若干群群(cluster),,再(通常是是随机地)从从这些群中抽抽取几群;然然后再在这些些抽取的群中中对个体进行行抽样。比如,在某县县进行调查,,首先在所有有村中选取若若干村子,然然后只对这些些村子的人进进行调查。显然,如果各各村情况差异异不大,这种种抽样还是方方便的。否则则就会增大误误差了。一些抽样方法法3.多级抽样(multistagesampling))。在群体很很大时,往往往在抽取若干干群之后,再再在其中抽取取若干子群,,甚至再在子子群中抽取子子群,等等。。最后只对最最后选定的最最下面一级进进行调查。比如在全国调调查时,先抽抽取省,再抽抽取市地,再再抽取县区,,再抽取乡、、村直到户。。在多级抽样中中的每一级都都可能采取各各种抽样方法法。因此,整整个抽样计划划可能比较复复杂,也称为为多级混和型型抽样。一些抽样方法法4.系统抽样(systematicsampling))。这是先把把总体中的每每个单元编号号,然后随机机选取其中之之一作为抽样样的开始点进进行抽样。如如果编号是随随机选取的,,则这和简单单随机抽样是是等价的。在在选取开始点点之后,通常常从开始点开开始按照编号号进行所谓等等距抽样;也也就是说,如如果开始点为为5号,“距距离”为10,则下面的的调查对象为为15号、25号等等。。抽样方方法的的选择择不能能一概概而论论实际上上每个个抽样样通常常都可可能是是各种种抽样样方法法的组组合。。既要要考虑虑精确确度,,还要要根据据客观观情况况考虑虑方便便性、、可行行性和和经济济性。。不能能一概概而论论。计算机机中常常用的的数据据形式式数据是是由一一些变变量和和它们们的观观测值值所组组成。。下面面就是是调查查人们们对某某个问问题观观点的的一个个数据据的方方阵形形式。。其中中有6个变变量::观点点(观观测值值为支支持、、反对对和不不知道道三种种)、、教育育程度度(有有高中中低三三种取取值,,用H、M、L表示示)、、月收收入((取值值为实实际数数字))、性性别((取值值有男男女两两个,,用M和F表示示)以以及地地区号号(用用数字字1,,2,,3,,4表表示))等。。该表表一共共有1364个个观测测值((问卷卷回答答)。。可以以看出出这些些变量量有定定性((属性性)变变量,,也有有定量量(数数值))变量量。按按照这这个数数据的的格式式,每每一列列为一一个变变量的的不同同观测测值;;而每每一行行则称称为一一个观观测值值,它它是个个由数数量值值和属属性值值组成成的向向量,,每一一个值值相应应于一一个变变量。。思考1.举举出一一些观观测数数据和和试验验数据据的例例子。。2.举举出简简单随随机样样本的的例子子。3.根根据你你的经经验,,举出出总体体和样样本的的一些些具体体例子子。4.举举出调调查抽抽样时时可能能发生生的各各种影影响调调查结结果的的问题题,并并且提提出你你认为为可以以减少少或避避免这这些问问题的的建议议。5.根根据你你的直直觉,,本章章提到到的几几种抽抽样方方法的的优缺缺点是是什么么?原原因何何在??6.举举出一一些书书报上上发表表的数数据例例子,,并指指出那那些是是变量量,哪哪些是是观测测值。。数据的的描述述如同给给人画画像一一样直方图图比如某某个地地区((地区区1))学校校高三三男生生的身身高;;有163个度度量如如何用用图形形来表表示这这个数数据,,使人人们能能够看看出这这个数数据的的大体体分布布或““形状状”呢呢?一一个办办法就就是画画一个个直方方图(histogram)。盒型图图比直方方图简简单一一些的的是盒盒形图图(boxplot,又又称箱箱图、、箱线线图、、盒子子图)。后后面图图的左左边一一个是是根据据地区区1高高三男男生的的身高高数据据所绘绘的盒盒形图图;其其右边边的图图代表表另一一个地地区((地区区2))的高高三学学生的的身高高茎叶图地区1高三三男生身高高数据的茎茎叶图HEIGHTStem-and-LeafPlotFrequencyStem&Leaf9.0015.00122334417.0015.5566666777889999920.0016.0111222222333333344435.0016.5555566666666777778888888888899999925.0017.000000001111222223333334424.0017.55566667777777777788889913.0018.011111112233311.0018.556677888994.0019.23332.0019.563.00Extremes(>=198)Stemwidth:10.00Eachleaf:1case(s)散点图往往人们得得到的数据据有两个变变量的,比比如美国男男士和女士士初婚年限限的数据。。该数据描描述了自1900年到1998年男女第一一次结婚延延续的时间间的中位数数。当然,,不可能将将所有人的的婚姻年限限都给出来来。所以,,每年就取取了一个中中间的值(中位数)作为代表。。自1900到1960年是每十年年一个值,,以后到1990是每五年取取一个数,,1995年以后是每每年一个数数。这里的的一个变量量为记录年年份,另一一个是结婚婚时间长短短。由于分分男士和女女士,因此此有两二维维数据。这这时可以以以一个变量量为横坐标标(如年份份),另一一个为纵坐坐标(这里里是结婚年年限)来点点图。这种种图称为散散点图(scatterplot)。还可以以看出在二二十世纪六六十年代婚婚姻年限降降低,而后后来又升高高。而男子子的年限平平均比女性性长。这个个图是用SPSS画的。定性变量的的点图定性变量((或属性变变量,分类类变量)不不能点出直直方图、散散点图或茎茎叶图,但但可以描绘绘出它们各各类的比例例。下面用用SPSS绘的图表示示了说世界界各种主要要语言的人人数的比例例饼图条形图汇总统计量量或概括统计量量(summarystatistic)汇总统计量量(位置))均值(mean)中位数(median)(第一,第第三)四分分位数(点点)(firstquantile,thirdquantile)k-百分位位数(k-percentile)众数(mode)汇总统计量量(尺度))(scalestatistic)极差(range)四分位间距距(四分位位极差)(interquantilerange)标准差(standarddeviation)方差(variance)两个尺度不不同的数据据的直方图图,左边的的标准差大大约只有右右边的一半半数据的标准准得分(standardscore)两个水平类类似的班级级(一班和和二班)上上同一门课课,但是由由于两个任任课老师的的评分标准准不同,使使得两个班班成绩的均均值和标准准差都不一一样(数据据:grade.sav)。。一班分数数的均值和和标准差分分别为78.53和和9.43,而二班班的均值和和标准差分分别为70.19和和7.00。那么得得到90分分的一班的的张颖是不不是比得到到82分的的二班的刘刘疏成绩更更好呢?怎怎么比较才才能合理呢呢?虽然这这种均值和和标准差不不同的数据据不能够直直接比较,,但是可以以把它们进进行标准化化,然后再再比较标准准化后的数数据。一个个标准化的的方法是把把原始观测测值(亦称称得分,score)和均值值之差除以以标准差;;得到的度度量称为标标准得分(standardscore)。。思考1.根根据你的经经验,给出出定性和定定量变量的的例子。2.对对于问题1中你的例例子,试图图画出各种种描述性图图形并计算算汇总统计计量。3.举举例说明众众数、中位位数和均值值的优缺点点。4.举举例说明尺尺度统计量量说明了数数据的什么么特性。5.

标准准得分实际际上是对原原始数据的的一种标准准化。试举举出标准得得分的用处处。统计计推推断断从数数据据得得到到对对现现实实世世界界的的结结论论的的过过程程估计计总体体它它代代表表我我们们所所关关心心的的那那部部分分现现实实世世界界。。而而在在利利用用样样本本中中的的信信息息来来对对总总体体进进行行推推断断之之前前人人们们一一般般对对代代表表总总体体的的变变量量假假定定了了分分布布族族。。比比如如假假定定人人们们的的身身高高属属于于正正态态分分布布族族;;对对抽抽样样调调查查假假定定了了二二项项分分布布族族等等等等。。这这些些模模型型基基本本上上是是根根据据经经验验来来假假定定的的,,所所以以仅仅仅仅是是对对现现实实世世界界的的一一个个近近似似。。在在假假定定了了总总体体分分布布族族之之后后,,进进一一步步对对总总体体的的认认识识就就是是要要在在这这个个分分布布族族中中选选择择一一个个适适合合于于我我们们问问题题的的分分布布;;由由于于分分布布族族成成员员是是由由参参数数确确定定的的,,如如果果参参数数能能够够估估计计,,对对总总体体的的具具体体分分布布就就知知道道得得差差不不多多了了。。估计计一种种是是点点估估计计(pointestimation),,也也就就是是用用估估计计量量的的实实现现值值来来近近似似相相应应的的总总体体参参数数。。另一一种种是是区区间间估估计计(intervalestimation);;它它是是包包括括估估计计量量在在内内((有有时时是是以以估估计计量量为为中中心心))的的一一个个区区间间;;该该区区间间被被认认为为很很可可能能包包含含总总体体参参数数。。点估估计计给给出出一一个个数数字字,,用用起起来来很很方方便便;;而而区区间间估估计计给给出出一一个个区区间间,,说说起起来来留留有有余余地地;;不不象象点点估估计计那那么么绝绝对对。。无偏偏估估计计(大大样样本本性性质质)区间间估估计计的的置置信信度度(大大样样本本性性质质)估计计注意意置置信信区区间间的的论论述述是是由由区区间间和和置置信信度度两两部部分分组组成成。。有有些些新新闻闻媒媒体体报报道道一一些些调调查查结结果果只只给给出出百百分分比比和和误误差差((即即置置信信区区间间)),,并并不不说说明明置置信信度度,,也也不不给给出出被被调调查查的的人人数数,,这这是是不不负负责责的的表表现现。。因因为为降降低低置置信信度度可可以以使使置置信信区区间间变变窄窄((显显得得““精精确确””)),,有有误误导导读读者者之之嫌嫌。。如如果果给给出出被被调调查查的的人人数数,,则则内内行行可可以以由由推推算算出出置置信信度度((由由后后面面给给出出的的公公式式)),,反反之之亦亦然然。。一个描述述性例子子一个有10000个人人回答的的调查显显示,同同意某种种观点的的人的比比例为70%((有7000人人同意)),可以以算出总总体中同同意该观观点的比比例的95%置置信区间间为(0.691,0.709);;另一个个调查声声称有70%的的比例反反对该种种观点,,还说总总体中反反对该观观点的置置信区间间也是((0.691,,0.709))。到底底相信谁谁呢?实实际上,,第二个个调查隐隐瞒了置置信度((等价于于隐瞒了了样本量量)。如如果第二二个调查查仅仅调调查了50个人人,有35个人人反对该该观点。。根据后后面的公公式可以以算出,,第二个个调查的的置信区区间的置置信度仅仅有11%。假设检验验在假设检检验中,,一般要要设立一一个原假假设;而而设立该该假设的的动机主主要是企企图利用用人们掌掌握的反反映现实实世界的的数据来来找出假假设和现现实的矛矛盾,从从而否定定这个假假设。在在多数统统计教科科书中((除了理理论探讨讨之外))的假设设检验都都是以否否定原假假设为目目标。如果否定定不了,,那就说说明证据据不足,,无法否否定原假假设。但但这不能能说明原原假设正正确。很很多教科科书在这这个问题题上不适适当地用用“接受受原假设设”的说说法,犯犯了明显显的低级级逻辑错错误。假设检验验的过程程和逻辑辑首先要提提出一个个原假设设,比如如某正态态总体的的均值等等于5((m=5)。。这种原原假设也也称为零零假设((nullhypothesis),记记为H0。与此同时时必须提提出对立立假设,,比如总总体均值值大于5(m>5)。。对立假假设又称称为备选选假设或或备择假假设(alternativehypothesis)记为为记为H1或Ha。假设检验验的过程程和逻辑辑根据零假假设(不是备备选假设设!),,我们可可以得到到该检验验统计量量的分布布;然后再看看这个统统计量的的数据实实现值((realization))属不属属于小概概率事件件。也就就是说把把数据代代入检验验统计量量,看其其值是否否落入零零假设下下的小概概率范畴畴;如果的确确是小概概率事件件,那么么我们就就有可能能拒绝零零假设,,否则我我们说没没有足够够证据拒拒绝零假假设。假设设检检验验的的过过程程和和逻逻辑辑注意意::零假假设设和和备备选选假假设设在在假假设设检检验验中中并并不不对对称称。因因检检验验统统计计量量的的分分布布是是从从零零假假设设导导出出的的,,因因此此,,如如果果发发生生矛矛盾盾,,当当然然就就对对零零假假设设不不利利了了。。不发发生生矛矛盾盾也也不不说说明明备备选选假假设设有有问问题题((因因为为和和备备选选假假设设无无关关))。。假设设检检验验的的过过程程和和逻逻辑辑检验验统统计计量量在在零零假假设设下下等等于于这这个个样样本本的的数数据据实实现现值值或或更更加加极极端端值值的的概概率率称称为为p-值值((p-value))。。显然然得得到到很很小小p-值值意意味味着着小小概概率率事事件件发发生生了了。。如如果果小小概概率率事事件件发发生生,,是是相相信信零零假假设设,,还还是是相相信信数数据据呢呢??当然然是是相相信信数数据据。。于于是是就就拒拒绝绝零零假假设设。。但但小小概概率率并并不不能能说说明明不不会会发发生生,,仅仅仅仅发发生生的的概概率率很很小小罢罢了了。。拒绝绝正正确确零零假假设设的的错错误误常常被被称称为为第第一一类类错错误误((typeIerror))。。假设设检检验验的的过过程程和和逻逻辑辑有第第一一类类错错误误,,就就有有第第二二类类错错误误;;那那是是备备选选零零假假设设正正确确时时反反而而说说零零假假设设正正确确的的错错误误,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论