版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本课内容包含统计回顾方差分析主成分分析和因子分析聚类分析判别分析典型相关分析对应分析列联表Logistic回归Poisson对数线性模型时间序列分析。。。。统计基本概念回顾随机性和规律性现实中的随机性和规律性从中学起,我们就知道自然科学的许多定律,例如物理中的牛顿三定律,物质不灭定律以及化学中的各种定律等等。但是在许多领域,很难用如此确定的公式或论述来描述一些现象。比如,人的寿命是很难预先确定的。一个吸烟、喝酒、不锻炼、而且一口长荤的人可能比一个很少得病、生活习惯良好的人活得长。因此,可以说,活得长短是有一定随机性的(randomness)。这种随机性可能和人的经历、基因、习惯等无数说不清的因素都有关系。现实中的随机性和规律性但是从总体来说,我国公民的平均年龄却是非常稳定的。而且女性的平均年龄也稳定地比男性高几年。这就是规律性。一个人可能活过这个平均年龄,也可能活不到这个年龄,这是随机的。但是总体来说,平均年龄的稳定性,却说明了随机之中有规律性。这种规律就是统计规律。概率和机会你可能经常听到概率(probability)这个名词。例如在天气预报中会提到降水概率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,从某种意义说来,概率描述了某件事情发生的机会。显然,这种概率不可能超过百分之百,也不可能少于百分之零。换言之,概率是在0和1之间的一个数,说明某事件发生的机会有多大。有些概率是无法精确推断的比如你对别人说你下一个周末去公园的概率是百分之八十。但你无法精确说出为什么是百分之八十而不是百分之八十四或百分之七十八。其实你想说的是你很可能去,但又没有完全肯定。实际上,到了周末,你或者去,或者不去;不可能有分身术把百分之八十的你放到公园,而其余的放在别处。有些概率是可以估计的比如掷骰子。只要没有人在骰子上做手脚,你得到6点的概率应该是六分之一。得到其他点的概率也是一样。得到6的概率或者机会是可以知道的,但掷骰子的结果还只可能是六个数目之一。这个已知的规律就反映了规律性,而得到哪个结果则反映了随机性。如果你掷1000次骰子,那么,大约有六分之一的可能会得到6;这也是随机性呈现有规律的一个体现。变量做任何事情都要有对象。比如一个班上注册的学生有200人,这是一个固定的数目,称为常数(constant)或者常量。但是,如果猜测今天这个班有多少人会来上课,那就没准了。这有随机性。可能有请病假或事假的,也可能有逃课的。这样,就要来上课的人数是个变量(variable)。另外对于某项政策同意与否的回答,也有“同意”、“不同意”或者“不知道”三种可能值;这也是变量,只不过不是数量而已。变量当变量按照随机规律所取的值是数量时该变量称为定量变量或数量变量(quantitativevariable);因为是随机的,也称为随机变量(randomvariable)。象性别,观点之类的取非数量值的变量就称为定性变量或属性变量或分类变量(qualitativevariable,categoricalvariable)。这些定性变量也可以由随机变量来描述,比如男性和女性的数目,同意某政策人数的比例等等。只有当变量用数量来描述时,才有可能建立数学模型,才可能使用计算机来分析。数据有了变量量的概念念,什么么是数据据呢?拿拿掷骰子子来说,,掷骰子子会得到到什么值值,是个个随机变变量;而而每次取取得1至至6点中中任意点点数的概概率它在在理论上上都是六六分之一一(如果果骰子公公平)。。这依赖赖于在掷掷骰子背背后的理理论或假假定;而而在实际际掷骰子子过程中中,如果果掷100次,,会得到到100个由1至6点点组成的的数字串串;再掷掷100次,又又得到一一个数字字串,和和前一次次的结果果多半不不一样。。这些试试验结果果就是数数据。所所以说,数据是关关于变量量的观测测值.通过数据据可以验验证有关关的理论论或假定定(比如每每一次得得到每个个点的概概率是不不是1/6等等等)。对对于顾客客是否喜喜欢某种种饮品的的调查也也类似,,但这里里不象掷掷骰子那那样事先先可以大大致猜测测顾客喜喜欢与否否的概率率。在问问了1000人人之后,,可能有有364人说喜喜欢,而而480人说不不喜欢,,其余的的人可能能不回答答,或说说不知道道,或从从来没有有喝过这这种饮料料。这些些数目就就是数据据。当然然,它仅仅仅反映映了1000个个被问到到的人的的观点;;但这对对于估计计整个消消费群体体的观点点还是有有用的。。统计和计计算机现代生活活越来越越离不开开计算机机了。最最早使用用计算机机的统计计当然更更离不开开计算机机了。事实上,,最初的计计算机仅仅是为为科学计计算而建建造的。。大型计计算机的的最早一一批用户户就包含含统计。。而现在在统计仍仍然是进进行数字字计算最最多的用用户。计算机现现在早已已脱离了了仅有计计算功能能的单一一模式,,而成为为百姓生活活的一部部分。计算机的的使用,,也从过过去必须须学会计计算机语语言到只只需要““傻瓜式式”地点点击鼠标标。结果果也从单单纯的数数字输出出到包括括漂亮的的表格和和图形的的各种形形式。统计软件件统计软件件的发展展,也使使得统计计从统计计学家的的圈内游游戏变成成了大众众的游戏戏。只要要你输入入你的数数据,点点几下鼠鼠标,做做一些选选项,马马上就得得到令人人惊叹的的漂亮结结果了。。你可能会会问,是是否傻瓜瓜式的统统计软件件使用可可以代替替统计课课程了??当然不是是。数据据的整理理和识别别,方法法的选用用,计算算机输出出结果的的理解都都不象使使用傻瓜瓜相机那那样简单单可靠。。统计软件件有些诸如如法律和和医学方方面的软软件都有有不少警警告,不不时提醒醒你去咨咨询专家家。但统计软软件则不不那么负负责。只只要数据据格式无无误、方方法不矛矛盾而且且不用零零作为除除数就一一定给你你结果,,而且没有任何警警告。另外,统计计软件输出的结果果太多;即使是同同样的方法法,不同软软件输出的的内容还不不一样;有有时同样的的内容名称称也不一样样。这就使使得使用者者大伤脑筋筋。即使是是统计学家家也不一定定能解释所所有的输出出。因此,,就应该特特别留神,,明白自己己是在干什什么。不要在得到到一堆毫无无意义的垃垃圾之后还还沾沾自喜喜。统计软件统计软件的的种类很多多。有些功功能齐全,,有些价格格便宜;有有些容易操操作,有些些需要更多多的实践才才能掌握。。还有些是是专门的软软件,只处处理某一类类统计问题题。面对太太多的选择择往往给决决策带来困困难。这里里介绍最常常见的几种种。统计软件SPSS::这是一个很很受欢迎的的统计软件件;它容易易操作,输输出漂亮,,功能齐全全,价格合合理。对于于非统计工工作者是很很好的选择择。Excel:它严格说来来并不是统统计软件,,但作为数数据表格软软件,必然然有一定统统计计算功功能。而且且凡是有MicrosoftOffice的的计算机,,基本上都都装有Excel。。但要注意意,有时在在装Office时时没有装数数据分析的的功能,那那就必须装装了才行。。当然,画画图功能是是都具备的的。对于简简单分析,,Excel还算方方便,但随随着问题的的深入,Excel就不那么么“傻瓜””,需要使使用函数,,甚至根本本没有相应应的方法了了。多数专专门一些的的统计推断断问题还需需要其他专专门的统计计软件来处处理。SAS:这是功功能非非常齐齐全的的软件件;尽尽管价价格不不菲,,许多多公司司还是是因为为其功功能众众多和和某些些美国国政府府机构构认可可而使使用。。尽管管现在在已经经尽量量“傻傻瓜化化”,,仍然然需要要一定定的训训练才才可以以进入入。对对于基基本统统计课课程则则不那那么方方便。。统计软软件S-plus:这是是统计计学家家喜爱爱的软软件。。不仅仅由于于其功功能齐齐全,,而且且由于于其强强大的的编程程功能能,使使得研研究人人员可可以编编制自自己的的程序序来实实现自自己的的理论论和方方法。。它也也在进进行““傻瓜瓜化””以争争取顾顾客。。但仍仍然以以编程程方便便为顾顾客所所青睐睐。R软件件:这是一一个免费的的,由志志愿者者管理理的软软件。。其编编程语语言与与S-plus所基基于的的S语语言一一样,,很方方便。。还有有不断断加入入的各各个方方向统统计学学家编编写的的统计计软件件包。。同时时从网网上可可以不不断更更新和和增加加有关关的软软件包包和程程序。。这是是发展最最快的软件件,受受到世世界上上统计计师生生的欢欢迎。。是用户户量增增加最最快的的统计计软件件。对于于一般般非统统计工工作者者来说说,主主要问问题是是它没没有““傻瓜瓜化””。统计软软件Minitab:这个软软件是是很方方便的的功能能强大大而又又齐全全的软软件,,也已已经““傻瓜瓜化””,在在我国国用的的不如如SPSS与SAS那么么普遍遍。Statistica::也是功功能强强大而而齐全全的““傻瓜瓜化””的软软件,,在我我国用用的也也不如如SAS与与SPSS那么么普遍遍。Eviews::这是一一个主主要处处理回回归和和时间间序列列的软软件。。GAUSS:这是一一个很很好用用的统统计软软件,,许多多搞经经济的的喜欢欢它。。主要要也是是编程程功能能强大大。目目前在在我国国使用用的人人不多多。FORTRAN:这是应应用于于各个个领域域的历历史很很长的的非常常优秀秀的编编程软软件,,功能能强大大,也也有一一定的的统计计软件件包。。计算算速度度比这这里介介绍的的都快快得多多。但但需要要编程程和编编译。。操作作不那那么容容易。。MATLAB::这也是是应用用于各各个领领域的的以编编程为为主的的软件件,在在工程程上应应用广广泛。。编程程类似似于S和R。但但是统统计方方法不不多。。统计软软件当然,,还有有其他他的软软件,,没有有必要要一一一罗列列。其其实,,聪明明的读读者只只要学学会使使用一一种““傻瓜瓜式””软件件,使使用其其他的的仅仅仅是举举一反反三之之劳;;最多多看看看帮助助和说说明即即可。。如果果只有有英文文帮助助,那那还可可以顺顺便提提高你你的英英文阅阅读能能力。。想想看看举出你你所知知道的的统计计应用用例子子。举出日日常生生活中中随机机性和和规律律性的的例子子。你使用用过统统计软软件或或者利利用过过其他他软件件中的的统计计功能能吗??你有有什么么经验验和体体会??数据的的收集集二手数数据每天翻翻开报报纸或或打开开电视视,就就可以以看到到各种种数据据。比比如高高速公公路通通车里里程、、物价价指数数、股股票行行情、、外汇汇牌价价、犯犯罪率率、房房价、、流行行病的的有关关数据据(确确诊病病例、、疑似似病例例、死死亡人人数和和出院院人数数等等等);;当然然还有有国家家统计计局定定期发发布的的各种种国家家经济济数据据、海海关发发布的的进出出口贸贸易数数据等等等。。从中中可以以选取取对自自己有有用的的信息息。这些间间接得得到的的数据据都是是二手数数据。第一手手数据据获得第第一手手数据据并不不象得得到二二手数数据那那么轻轻松。。某些在在华的的外资资企业业每年年至少少要花花三四四千万万元来来收集集和分分析数数据。。他们调调查其其产品品目前前在市市场中中的状状况和和地位位并确确定其其竞争争对手手的态态势;;他们调调查不不同地地区,,不同同阶层层的民民众对对其产产品的的认知知程度度和购购买意意愿以以改进进产品品或推推出新新品种种争取取新顾顾客;;他们还还收集集各地地方的的经济济交通通等信信息以以决定定如何何保住住现有有市场场和开开发新新市场场。市市场信信息数数据对对企业业是至至关重重要的的。他们很很舍得得在这这方面面花钱钱。因因为这这是企企业生生存所所必需需的,,绝不不是可可有可可无的的。观测数数据和试验数数据上面所所说的的数据据是在在自然的的未被被控制制的条条件下下观测测到的的,称称为观观测数数据(observationaldata)。。而对于于有些些问题题,比如在在不同同的医医疗手手段下下某疾疾病的的治疗疗结果果有什什么不不同、、不同同的肥肥料和和土壤壤条件件下某某农作作物的的产量量有没没有区区别、、用什什么成成分可可以提提高某某物质质变成成超导导体的的温度度等等等。这种在在人工工干预预和操操作情情况下下收集集的数数据就就称为为试验验数据据(experimentaldata)。。总体和和样本本要想了了解北北京市市民对对建设设北京京交通通设施施是以以包括括轨道道运输输在内内的公公共交交通工工具为为主还还是以以小汽汽车为为主的的观点点,需需要进进行调调查;;调查对对象是是所有北北京市市民,调查查目的是希望望知道道市民民中对对这个个问题题的不不同看看法各各自占占有的的比例。显然,,不可能能去问问所有有的北北京市市民,,而只只能够够问一一部分分;并且且根据据这一一部分分的观观点来来理解解整个个北京京市民民的总总体观观点。。总体和和样本本这种情情况下下,称称所有有(每每个))北京京市民民对这这个问问题的的观点点为一一个总体(population),,而调调查时时问到到的那那部分分市民民的观观点为为该总体体的一个样样本(sample)。。当然,,也有有可能能调查查所有有的人人(比比如人人口普普查)),那那叫做做普查(census)。。总体是是包含含所有有要研研究的的个体体(element)的的集合合。而而样本本是总总体中中选中中的一一部分分。随机样样本在抽取取样本本时,,如果果总体体中的的每一一个体体都有有同等等机会会被选选到样样本中中,这这种抽抽样称称为简简单随机抽抽样(simplerandomsampling),,而这样样得到到的样样本则则称为为随机样样本(randomsample))。随机样样本就北京京交通通问题题的调调查为为例,,在随随机抽抽样的的情况况下,,如果果样本本量((samplesize,,也就就是样样本中中个体体的数数目))在总总体中中的比比例为为1/5000,那么,,无论论在东东城区区或者者在延延庆县县,无无论在在白领领阶层层还是是蓝领领阶层层被问问到的的人的的比例例都应应该大大体是是1/5000。也就是是说,,这种种比比例例在在总总体体的的任任何何部部分分是是大大体体不不变变的的。。方便便样样本本在实实践践中中,,得得到到随随机机样样本本不不容容易易。。很很多多搞搞调调查查的的人人就就采采取取简单单的办办法法。。还以以北北京京的的交交通通问问题题的的调调查查为为例例。。假假定定按按照照随随机机选选出出的的电电话话号号码码进进行行调调查查。。这这样样肯肯定定节节省省时时间间和和资资源源,,但但这这样样得得到到的的就就不不是是一一个个随随机机样样本本了了。。如果果按按照照随随机机选选择择的的数数字字((无无论论号号码码本本上上有有没没有有))打打电电话话,,那那很很多多电电话话是是空空号号或或单单位位电电话话;;显显然然这这种种样样本本也也不不是是随随机机样样本本,,它它称称为为方方便便样样本本((conveniencesample))。。在调调查查中中,,即即使使选选择择对对象象的的确确是是随随机机的的,,最最理理想想的的情情况况所所得得到到的的样样本本也也只只代代表表那那些些愿愿意意回回答答问问题题人人的的观观点点所所组组成成的的总总体体;;没有有回回答答问问题题的的人人的的观观点点永永远远不不会会被被这这种种调调查查的的样样本本所所代代表表。。方便便样样本本这种种不不回回答答的的问问题题是是抽抽样样调调查查特特有有的的问问题题。。在其其他他问问题题中中,,也也有有使使用用方方便便样样本本的的情情况况。。比比如如在在肺肺癌癌研研究究中中,,人人们们往往往往看看到到吸吸烟烟和和肺肺癌癌的的关关系系的的数数据据;;这这些些数数据据并并不不是是整整个个人人群群中中采采集集的的随随机机样样本本;;它它们们可可能能只只是是医医院院中中的的病病人人记记录录中中得得到到的的。。在杂杂志志和和报报纸纸上上也也有有问问卷卷,,但但得得到到的的只只是是拥拥有有这这份份报报刊刊,,而而且且愿愿意意回回答答的的人人的的观观点点。。误差差假定定在在某某一一职职业业人人群群中中女女性性占占的的比比例例为为60%。。如如果果在在这这个个人人群群中中抽抽取取一一些些随随机机样样本本,,这这些些随随机机样样本本中中女女性性的的比比例例并并不不一一定定是是刚刚好好60%%,,可可能能稍稍微微多多些些或或稍稍微微少少些些。。这这是是很很正正常常的的,,因因为为样样本本的的特特征征不不一一定定和和总总体体完完全全一一样样。。这这种种差差异异不不是是错错误误,,而而是是必必然然会会出出现现的的抽样样误误差差(samplingerror))。。刚才才提提到到在在抽抽样样调调查查中中,,一一些些人人因因为为种种种种原原因因没没有有对对调调查查作作出出反反映映((或或回回答答)),,这这种种误误差差称称为为未响响应应误误差差(nonresponseerror))。。而另另有有一一些些人人因因为为各各种种原原因因回回答答时时并并没没有有真真实实反反映映他他们们的的观观点点,,这这称称为为响应应误误差差(responseerror))。。和抽抽样样误误差差不不一一样样,,未未响响应应误误差差和和响响应应误误差差都都会会影影响响对对真真实实世世界界的的了了解解;;应应该该在在设设计计调调查查方方案案时时尽尽量量避避免免。。抽样样调调查查的的一一些些常常用用方方法法在抽抽样样调调查查时时,,最最理理想想的的样样本本是是前前面面提提到到的的随随机机样样本本。。但是是由于于实实践践起起来来不不方方便便,在在大大规规模模调调查查时时一一般般不不用用这这种种全全部部随随机机抽抽样样的的方方式式,,而而只只是是在在局局部部采采用用随随机机抽抽样样的的方方法法。。下面面介介绍绍几几种种抽抽样样方方法法。。这这里里没没有有深深奥奥的的理理论论;;读读者者完完全全可可以以根根据据常常识识判判断断在在什什么么情情况况下下简简单单的的随随机机样样本本不不方方便便以以及及下下面面的的每每个个方方法法有有什什么么好好处处和和缺缺陷陷。。对对于于它它们们具具体体的的设设计计、、实实施施与与数数据据分分析析,,有有许许多多专专门门的的书书籍籍,,就就不不在在这这里里赘赘述述了了。。一些些抽抽样样方方法法1..分层层抽抽样样(stratifiedsampling))。。这这是是先先把把要要研研究究的的总总体体按按照照某某些些性性质质分分类类((stratum)),,再再在在各各类类中中分分别别抽抽取取样样本本。。在在每每类类中中调调查查的的人人数数通通常常是是按按照照这这该该类类人人的的比比例例,,但但出出于于各各种种考考虑虑,,也也可可能能不不按按照照比比例例,,也也可可能能需需要要加加权权((加加权权就就是是在在求求若若干干项项的的和和时时,,对对各各项项乘乘以以不不同同的的系系数数,,这这些些系系数数的的和和通通常常为为1))。。比如如可可以以按按照照教教育育程程度度把把要要访访问问的的人人群群分分成成几几类类;;再再在在每每一一类类中中调调查查和和该该类类成成比比例例数数目目的的人人。。这样样就就确确保保了了每每一一类类都都有有成成比比例例的的代代表表。。一些抽样方法法2.整群抽样(clustersampling)。这是是先把总体划划分成若干群群(cluster),,再(通常是是随机地)从从这些群中抽抽取几群;然然后再在这些些抽取的群中中对个体进行行抽样。比如,在在某县进进行调查查,首先先在所有有村中选选取若干干村子,,然后只只对这些些村子的的人进行行调查。。显然,如如果各村村情况差差异不大大,这种种抽样还还是方便便的。否否则就会会增大误误差了。。一些抽样样方法3.多级抽样样(multistagesampling)。。在群体体很大时时,往往往在抽取取若干群群之后,,再在其其中抽取取若干子子群,甚甚至再在在子群中中抽取子子群,等等等。最最后只对对最后选选定的最最下面一一级进行行调查。。比如在全全国调查查时,先先抽取省省,再抽抽取市地地,再抽抽取县区区,再抽抽取乡、、村直到到户。在多级抽抽样中的的每一级级都可能能采取各各种抽样样方法。。因此,,整个抽抽样计划划可能比比较复杂杂,也称称为多级级混和型型抽样。。一些抽样样方法4.系统抽样样(systematicsampling)。。这是先先把总体体中的每每个单元元编号,,然后随随机选取取其中之之一作为为抽样的的开始点点进行抽抽样。如如果编号号是随机机选取的的,则这这和简单单随机抽抽样是等等价的。。在选取取开始点点之后,,通常从从开始点点开始按按照编号号进行所所谓等距距抽样;;也就是是说,如如果开始始点为5号,““距离””为10,则下下面的调调查对象象为15号、25号等等等。抽样方法法的选择择不能一一概而论论实际上每每个抽样样通常都都可能是是各种抽抽样方法法的组合合。既要要考虑精精确度,,还要根根据客观观情况考考虑方便便性、可可行性和和经济性性。不能能一概而而论。计算机中中常用的的数据形形式数据是由由一些变变量和它它们的观观测值所所组成。。下面就就是调查查人们对对某个问问题观点点的一个个数据的的方阵形形式。其其中有6个变量量:观点点(观测测值为支支持、反反对和不不知道三三种)、、教育程程度(有有高中低低三种取取值,用用H、M、L表表示)、、月收入入(取值值为实际际数字))、性别别(取值值有男女女两个,,用M和和F表示示)以及及地区号号(用数数字1,,2,3,4表表示)等等。该表表一共有有1364个观观测值((问卷回回答)。。可以看看出这些些变量有有定性((属性))变量,,也有定定量(数数值)变变量。按按照这个个数据的的格式,,每一列列为一个个变量的的不同观观测值;;而每一一行则称称为一个个观测值值,它是是个由数数量值和和属性值值组成的的向量,,每一个个值相应应于一个个变量。。思考1.举举出一一些观测测数据和和试验数数据的例例子。2.举举出简简单随机机样本的的例子。。3.根根据你你的经验验,举出出总体和和样本的的一些具具体例子子。4.举举出调调查抽样样时可能能发生的的各种影影响调查查结果的的问题,,并且提提出你认认为可以以减少或或避免这这些问题题的建议议。5.根根据你你的直觉觉,本章章提到的的几种抽抽样方法法的优缺缺点是什什么?原原因何在在?6.举举出一一些书报报上发表表的数据据例子,,并指出出那些是是变量,,哪些是是观测值值。数据的描描述如同给人人画像一一样直方图比如某个个地区((地区1)学校校高三男男生的身身高;有有163个度量量如何用用图形来来表示这这个数据据,使人人们能够够看出这这个数据据的大体体分布或或“形状状”呢??一个办办法就是是画一个个直方图图(histogram)。。盒型图比直方图图简单一一些的是是盒形图图(boxplot,,又称箱箱图、箱箱线图、、盒子图图)。后后面图的的左边一一个是根根据地区区1高三三男生的的身高数数据所绘绘的盒形形图;其其右边的的图代表表另一个个地区((地区2)的高高三学生生的身高高茎叶图地区1高高三男生生身高数数据的茎茎叶图HEIGHTStem-and-LeafPlotFrequencyStem&Leaf9.0015.00122334417.0015.5566666777889999920.0016.0111222222333333344435.0016.5555566666666777778888888888899999925.0017.000000001111222223333334424.0017.55566667777777777788889913.0018.011111112233311.0018.556677888994.0019.23332.0019.563.00Extremes(>=198)Stemwidth:10.00Eachleaf:1case(s)散点图往往人们们得到的的数据有有两个变变量的,,比如美美国男士士和女士士初婚年年限的数数据。该该数据描描述了自自1900年到1998年男女第第一次结结婚延续续的时间间的中位位数。当当然,不不可能将将所有人人的婚姻姻年限都都给出来来。所以以,每年年就取了了一个中中间的值值(中位数)作为代表表。自1900到1960年是每十十年一个个值,以以后到1990是每五年年取一个个数,1995年以后是是每年一一个数。。这里的的一个变变量为记记录年份份,另一一个是结结婚时间间长短。。由于分分男士和和女士,,因此有有两二维维数据。。这时可可以以一一个变量量为横坐坐标(如如年份)),另一一个为纵纵坐标((这里是是结婚年年限)来来点图。。这种图图称为散散点图((scatterplot)。还可可以看出出在二十十世纪六六十年代代婚姻年年限降低低,而后后来又升升高。而而男子的的年限平平均比女女性长。。这个图图是用SPSS画的。定性变量量的点图图定性变量量(或属属性变量量,分类类变量))不能点点出直方方图、散散点图或或茎叶图图,但可可以描绘绘出它们们各类的的比例。。下面用用SPSS绘的图表表示了说说世界各各种主要要语言的的人数的的比例饼图条形图汇总统计计量或概括统计计量(summarystatistic)汇总统计计量(位位置)均值(mean)中位数(median)(第一,,第三)四分位位数(点点)(firstquantile,thirdquantile)k-百分分位数(k-percentile)众数(mode)汇总统计计量(尺尺度)(scalestatistic)极差(range)四分位间间距(四四分位极极差)(interquantilerange)标准差(standarddeviation)方差(variance)两个尺度度不同的的数据的的直方图图,左边边的标准准差大约约只有右右边的一一半数据的标标准得分分(standardscore)两个水平平类似的的班级((一班和和二班))上同一一门课,,但是由由于两个个任课老老师的评评分标准准不同,,使得两两个班成成绩的均均值和标标准差都都不一样样(数据据:grade.sav)。。一班分分数的均均值和标标准差分分别为78.53和9.43,而二二班的均均值和标标准差分分别为70.19和7.00。那么么得到90分的的一班的的张颖是是不是比比得到82分的的二班的的刘疏成成绩更好好呢?怎怎么比较较才能合合理呢??虽然这这种均值值和标准准差不同同的数据据不能够够直接比比较,但但是可以以把它们们进行标标准化,,然后再再比较标标准化后后的数据据。一个个标准化化的方法法是把原原始观测测值(亦亦称得分分,score)和均均值之差差除以标标准差;;得到的的度量称称为标准准得分(standardscore)。思考1.根根据你你的经验验,给出出定性和和定量变变量的例例子。2.对对于问问题1中中你的例例子,试试图画出出各种描描述性图图形并计计算汇总总统计量量。3.举举例说说明众数数、中位位数和均均值的优优缺点。。4.举举例说说明尺度度统计量量说明了了数据的的什么特特性。5.标标准得分分实际上上是对原原始数据据的一种种标准化化。试举举出标准准得分的的用处。。统计推断断从数据得得到对现现实世界界的结论论的过程程估计总体它代代表我们们所关心心的那部部分现实实世界。。而在利利用样本本中的信信息来对对总体进进行推断断之前人人们一般般对代表表总体的的变量假假定了分分布族。。比如假假定人们们的身高高属于正正态分布布族;对对抽样调调查假定定了二项项分布族族等等。。这些模模型基本本上是根根据经验验来假定定的,所所以仅仅仅是对现现实世界界的一个个近似。。在假定定了总体体分布族族之后,,进一步步对总体体的认识识就是要要在这个个分布族族中选择择一个适适合于我我们问题题的分布布;由于于分布族族成员是是由参数数确定的的,如果果参数能能够估计计,对总总体的具具体分布布就知道道得差不不多了。。估计一种是点点估计(pointestimation),,也就是是用估计计量的实实现值来来近似相相应的总总体参数数。另一种是是区间估估计(intervalestimation);它它是包括括估计量量在内((有时是是以估计计量为中中心)的的一个区区间;该该区间被被认为很很可能包包含总体体参数。。点估计给给出一个个数字,,用起来来很方便便;而区区间估计计给出一一个区间间,说起起来留有有余地;;不象点点估计那那么绝对对。无偏估计计(大样样本性质质)区间估计计的置信信度(大大样本性性质)估计注意置信信区间的的论述是是由区间间和置信信度两部部分组成成。有些些新闻媒媒体报道道一些调调查结果果只给出出百分比比和误差差(即置置信区间间),并并不说明明置信度度,也不不给出被被调查的的人数,,这是不不负责的的表现。。因为降降低置信信度可以以使置信信区间变变窄(显显得“精精确”)),有误误导读者者之嫌。。如果给给出被调调查的人人数,则则内行可可以由推推算出置置信度((由后面面给出的的公式)),反之之亦然。。一个描述述性例子子一个有10000个人人回答的的调查显显示,同同意某种种观点的的人的比比例为70%((有7000人人同意)),可以以算出总总体中同同意该观观点的比比例的95%置置信区间间为(0.691,0.709);;另一个个调查声声称有70%的的比例反反对该种种观点,,还说总总体中反反对该观观点的置置信区间间也是((0.691,,0.709))。到底底相信谁谁呢?实实际上,,第二个个调查隐隐瞒了置置信度((等价于于隐瞒了了样本量量)。如如果第二二个调查查仅仅调调查了50个人人,有35个人人反对该该观点。。根据后后面的公公式可以以算出,,第二个个调查的的置信区区间的置置信度仅仅有11%。假设检检验在假设设检验验中,,一般般要设设立一一个原原假设设;而而设立立该假假设的的动机机主要要是企企图利利用人人们掌掌握的的反映映现实实世界界的数数据来来找出出假设设和现现实的的矛盾盾,从从而否否定这这个假假设。。在多多数统统计教教科书书中((除了了理论论探讨讨之外外)的的假设设检验验都是是以否否定原原假设设为目目标。。如果否否定不不了,,那就就说明明证据据不足足,无无法否否定原原假设设。但但这不不能说说明原原假设设正确确。很很多教教科书书在这这个问问题上上不适适当地地用““接受受原假假设””的说说法,,犯了了明显显的低低级逻逻辑错错误。。假设检检验的的过程程和逻逻辑首先要要提出出一个个原假假设,,比如如某正正态总总体的的均值值等于于5((m=5))。这这种原原假设设也称称为零零假设设(nullhypothesis),,记为为H0。与此同同时必必须提提出对对立假假设,,比如如总体体均值值大于于5((m>5))。对对立假假设又又称为为备选选假设设或备备择假假设((alternativehypothesis)记记为记记为H1或Ha。假设检检验的的过程程和逻逻辑根据零零假设设(不是是备选选假设设!)),我我们可可以得得到该该检验验统计计量的的分布布;然后再再看这这个统统计量量的数数据实实现值值(realization)属属不属属于小小概率率事件件。也也就是是说把把数据据代入入检验验统计计量,,看其其值是是否落落入零零假设设下的的小概概率范范畴;;如果的的确是是小概概率事事件,,那么么我们们就有有可能能拒绝绝零假假设,,否则则我们们说没没有足足够证证据拒拒绝零零假设设。假设检检验的的过程程和逻逻辑注意::零假设设和备备选假假设在在假设设检验验中并并不对对称。因检检验统统计量量的分分布是是从零零假设设导出出的,,因此此,如如果发发生矛矛盾,,当然然就对对零假假设不不利了了。不发生矛盾也也不说明备选选假设有问题题(因为和备备选假设无关关)。假设检验的过过程和逻辑检验统计量在在零假设下等等于这个样本本的数据实现现值或更加极极端值的概率率称为p-值(p-value))。显然得到很小小p-值意味着小小概率事件发发生了。如果果小概率事件件发生,是相相信零假设,,还是相信数数据呢?当然是相信数数据。于是就就拒绝零假设设。但小概率率并不能说明明不会发生,,仅仅发生的的概率很小罢罢了。拒绝正确零假假设的错误常常被称为第一一类错误(typeIerror)。假设检验的过过程和逻辑有第一类错误误,就有第二二类错误;那那是备选零假假设正确时反反而说零假设设正确的错误误,称为第二二类错误(typeIIerror)。零假设和备选选假设哪一个个正确,这是是确定性的,,没有概率可可言。而可能犯错误
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版土地流转承包项目合作开发投资合同范本3篇
- 2025年代理费用协议范本
- 2025年销售人员任职协议书:互联网销售团队建设协议2篇
- 2025年度风力发电场建设与运营合同范本4篇
- 二零二五年艺术品鉴定兼职人员保密责任书3篇
- 基于2025年度房产政策的商品房销售合同
- 2025年度跨境电子商务税收风险担保协议4篇
- 二零二五年度直播主播与影视作品合作合同
- 2025年度供应链金融货物冲抵货款风险控制协议
- 二零二五年度门面房房屋租赁押金合同
- 寒潮雨雪应急预案范文(2篇)
- 垃圾车驾驶员聘用合同
- 2024年大宗贸易合作共赢协议书模板
- 变压器搬迁施工方案
- 单位转账个人合同模板
- 八年级语文下册 成语故事 第十五课 讳疾忌医 第六课时 口语交际教案 新教版(汉语)
- 2024年1月高考适应性测试“九省联考”数学 试题(学生版+解析版)
- EPC项目采购阶段质量保证措施
- T-NAHIEM 101-2023 急诊科建设与设备配置标准
- 四川2024年专业技术人员公需科目“数字经济与驱动发展”参考答案(通用版)
- 煤炭装卸服务合同
评论
0/150
提交评论