MBA统计学03数据的描述_第1页
MBA统计学03数据的描述_第2页
MBA统计学03数据的描述_第3页
MBA统计学03数据的描述_第4页
MBA统计学03数据的描述_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学─从数据到结结论第三章数据据的描述在对数据进进行深入加加工之前,,总应该对对数据有所所印象。可以借助于于图形和简简单的运算算,来了解解数据的一一些特征。。由于数据是是从总体中中产生的,,其特征也也反映了总总体的特征征。对数据据的描述也也是对其总总体的一个个近似的描描述。§3.1如如何用图图来表示数数据?§3.1.1定量量变量的图图表示:1.直方图图对于一个定定量变量,,比如某个个地区(地地区1)测测量了163个高三三男生的身身高(S3height1.txt)。用图形来表表示这个数数据,使人人们能够看看出这个数数据的大体体分布或““形状”的的一个办法法是画直方图(histogram)。图3.1就就是利用这这个数据由由SPSS软件所画画的直方图图。该图的横坐坐标是身高高区间,这这里每一格格代表5cm的身高高范围(格格子宽度因因不同的数数据性质或或要求而定定,这里的的格子宽度度为5cm),而纵纵坐标为各各种身高区区间的身高高的频数。。直方图§3.1.1定量量变量的图图表示:2.盒型图图简单一些的的是盒形图(boxplot,又又称箱图、、箱线图、、盒子图)。图3.2的的左边一个个是根据地地区1高三三男生的身身高数据所所绘的盒形形图;其右右边的图代代表另一个个地区(地地区2)的的高三学生生的身高(height.txt,height.sav,第三三章例.xls)。盒型图盒子的中间间横线是数数据的中位位数(median),封闭闭盒子的上上下两横线线(边)为为上下四分分位数(点点);按照照SPSS的默认选选项,如果果所有样本本中的数目目都在离四四分位点1.5倍盒盒子长度之之内,则线线的端点为为最大和最最小值,否否则线长就就是1.5倍的盒子子长度(盒盒子长度称称为四分位位间距),,在其外面面的度量单单独点出§3.1.1定量量变量的图图表示:3.茎叶图图在直方图和和盒形图中中,很难恢恢复数据的的原貌。而而另一种图图:茎叶图(stem-and-leafplots)可以恢复数数据以地区1高高三男生身身高为例((图3.3),茎叶叶图既展示示了分布形形状又有原原始数据。。它象一片片带有茎的的叶子。茎茎为较大位位数的数字字,叶为较较小位数的的数字。茎叶图其中茎叶图图中茎的单单位为10cm,而而叶子单位位为1cm。比如,,由于第一一行茎为150cm,因此叶叶子中的九九个数字001223344代表九个个数目150、150、151、152、152、153、153、154、154cm等等。每行左左边有一个个频数(比比如第一行行有9个数数目,第二二行有17个等等));可以看看出最长的的一行为从从165cm到169cm的的一段(有有35个数数)。§3.1.1定量量变量的图图表示:4.散点图图数据会有两两个变量,,如美国男男士和女士士初婚年限限数据(marriage.txt))。该数据描述述了自1900年到到1998年男女第第一次婚姻姻延续的时时间。这里年份是是一个变量量,婚姻延延续时间是是第二个变变量。由于于不可能将将所有人的的婚姻年限限都给出来来,所以每每年就取了了一个中间间的值(中中位数)作作为代表。。散点图§3.1.2定性性变量的图图表示:饼饼图定性变量((或属性变变量,分类类变量)不不能点出直直方图、散散点图或茎茎叶图,但但可以描绘绘出它们各各类的比例例。下面用SPSS绘的的图3.5(饼图,piechart)表示了说世世界各种主主要语言人人数的比例例(language.txt).饼图§3.1.2定性性变量的图图表示:条条形图而用同样数数据画的图图3.6称称为条形图(barchart)。从每一条可可以看出讲讲各种语言言的实际人人数,而且且分别给出出了每个语语种中母语语和日常使使用的人数数(在图中中并排放置置)。条形形图显示比比例不如饼饼图直观。。条形图§3.2如如何用少少量数字来来概括数据据?大量的数字字既繁琐又又不直观;;需要对数数据做人们们时间和耐耐心所允许许的简化我们可以用用“平均均”,“差差距”或百百分比等来来概括大量量数字。由于定性变变量主要是是计数,比比较简单,,常用的概概括就是比比例或百分分比。下面面主要介绍绍关于定量量变量的数数字描述。。§3.2如如何用少少量数字来来概括数据据?可用少量所所谓汇总统统计量或概括统计量量(summarystatistic)来描述定量量变量的数数据。这些数字是是从样本数数据得来的的,因而也也是样本的的函数,任何样本的的函数,只只要不包含含总体的未未知参数,,都称为统计量(statistic)。样本的随机机性决定统统计量的随随机性(统统计量也是是随机变量量)§3.2如如何用少少量数字来来概括数据据?概括统计量量经常对应应于总体的的无法观测测到的某些些参数。这时,统计计量可作为为这些参数数的估计。。一些统计计量还可以以用来检验验样本和假假设的总体体是否一致致。§3.2如如何用少少量数字来来概括数据据?注:一些统计量量前面有时时加上“样样本”二字字,以区别别于总体的的同名参数数。如“样样本均值””和“样本本标准差””,以区别别于总体均均值和总体体标准差;;但在不会会混淆时可可以只说““均值”和和“标准差差”。§3.2.1数据据的“位置置”数据有位置置吗?这里三个数数据的位置置一样吗??§3.2.1数据据的“位置置”“位置”一一般是关于于数据中某某变量观测测值的“中中心位置””或者数据据分布的中中心(center或centertendency)。和这种“位位置”有关关的统计量量就称为位置统计量量(locationstatistic)。位置统计量量当然不一一定都是描描述“中心心”了,比比如后面要要讲的k百百分位数((或k%分分位数)。。§3.2.1数据据的“位置置”最常用的位位置统计量量就是小学学时所学到到的算术平平均数,它它在统计中中叫做均值值(mean);严严格地说叫叫做样本均均值(samplemean),以以区别于总总体均值。。如果记样本本中的观测测值为x1,…,xn,则样本均均值定义为为(样本)中中位数(median)是是数据按照照大小排列列之后位于于中间的那那个数(如如果样本量量为奇数),或者中中间两个数数目的平均均(如果样样本量为偶偶数)。由于中位数数不易被极极端值影响响,所以中中位数比均均值稳健(robust)。。§3.2.1数据据的“位置置”上下四分位位数(或分别称称为第一四分位位数和第三三四分位数数,firstquantile,thirdquantile))则分别位于于(按大小小排列的))数据的上上下四分之之一的地方方。§3.2.1数据的““位置”§3.2.1数据的““位置”一般地还称上上四分位数为为75百分位数数(75pecentile,有75%的的观测值小于于它),下四四分位数为25百分位数数(有25%的的观测值小于于它)。一般地,k百分位数(k-pecentile)意味着有k%的观测值值小于它。如果令a=k%,则k百分位数数也称为a分位数(a-quantile)。。样本中出现最最多的数目,,称为众数(mode)§3.2.2数据的““尺度”这两个数据““胖瘦”一样样吗?§3.2.2数据的““尺度”数据中数目的的分散程度由由尺度统计量((scalestatistic)来描述。尺度统计量是是描述数据散散布,即描述述集中与分散散程度或变化化(spread或variability))的度量。§3.2.2数据的““尺度”从前面两个高高三男生身高高数据的盒形形图。左边的的数据平均要要高些,但右右边的数据散散布范围要小小得多。统计中有许多多尺度统计量量。一般来说说,数据越分分散,尺度统统计量的值越越大。§3.2.2数据的““尺度”极差(range);就是极大值值和极小值之之间的差。前面两个高三三男生身高数数据的极差分分别为50cm和32cm。盒形图盒子的的长度为两个个四分位数之之差,称为四分位数极差差或四分位间间距(interquantilerange);它描述了中中间半数观测测值的散布情情况。极差和和四分位极差差实际上各自自只依赖于两两个值,信息息量太少。§3.2.2数据的““尺度”另一个常用的的尺度统计量量为(样本))标准差(standarddeviation)。度量样本中中各数值到均均值距离的一一种平均。标准差实际上上是方差(variance)的平方根。如如果记样本中中的观测值为为x1,…,xn,则样本方差差为§3.2.2数据的““尺度”两个均值一样样,但右边的的要“胖”些些,方差为左左边的一倍§3.2.3数据的标标准得分假定两个水平平类似的班级级(一班和二二班)上同一一门课,但是由于两个个任课老师的的评分标准不不同,使得两两个班成绩的的均值和标准准差都不一样样(数据:grade.txt)。。§3.2.3数据的标标准得分一班分数的均均值和标准差差分别为78.53和9.43,而而二班的均值值和标准差分分别为70.19和7.00。那么得到90分的一班的的张颖是不是是比得到82分的二班的的刘疏成绩更更好呢?怎么么比较才能合合理呢?§3.2.3数据的标标准得分虽然这种均值值和标准差不不同的数据不不能够直接比比较,但是可可以把它们进进行标准化,,再比较标准准化后的数据据。一个标准化的的方法是把某某样本原始观观测值(亦称称得分,score)和和该样本均值值之差除以该该样本的标准准差;得到的的度量称为标准得分(standardscore,又又称为z-score)。§3.2.3数据的标标准得分即,某观测值值xi的标准得分定定义为§3.2.3数据的标标准得分在我们的例子子中,张颖的的标准得分为为(90-78.53)/9.43=1.22,而刘疏的的标准得分为为(82-70.19)/7=1.69。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论