MBA统计学数据的描述培训课程_第1页
MBA统计学数据的描述培训课程_第2页
MBA统计学数据的描述培训课程_第3页
MBA统计学数据的描述培训课程_第4页
MBA统计学数据的描述培训课程_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学─从数据到结论第三章数据的描述在对数据进行深入加工之前,总应该对数据有所印象。可以借助于图形和简单的运算,来了解数据的一些特征。由于数据是从总体中产生的,其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。§3.1如何用图来表示数据?§3.1.1定量变量的图表示:1.直方图对于一个定量变量,比如某个地区(地区1)测量了163个高三男生的身高(S3height1.txt)。用图形来表示这个数据,使人们能够看出这个数据的大体分布或“形状”的一个办法是画直方图(histogram)。图3.1就是利用这个数据由SPSS软件所画的直方图。该图的横坐标是身高区间,这里每一格代表5cm的身高范围(格子宽度因不同的数据性质或要求而定,这里的格子宽度为5cm),而纵坐标为各种身高区间的身高的频数。

直方图§3.1.1定量变量的图表示:2.盒型图简单一些的是盒形图(boxplot,又称箱图、箱线图、盒子图)。图3.2的左边一个是根据地区1高三男生的身高数据所绘的盒形图;其右边的图代表另一个地区(地区2)的高三学生的身高(height.txt,height.sav,第三章例.xls)。盒型图盒子的中间横线是数据的中位数(median),封闭盒子的上下两横线(边)为上下四分位数(点);按照SPSS的默认选项,如果所有样本中的数目都在离四分位点1.5倍盒子长度之内,则线的端点为最大和最小值,否则线长就是1.5倍的盒子长度(盒子长度称为四分位间距),在其外面的度量单独点出§3.1.1定量变量的图表示:3.茎叶图

在直方图和盒形图中,很难恢复数据的原貌。而另一种图:茎叶图(stem-and-leafplots)可以恢复数据以地区1高三男生身高为例(图3.3),茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位数的数字。茎叶图其中茎叶图中茎的单位为10cm,而叶子单位为1cm。比如,由于第一行茎为150cm,因此叶子中的九个数字001223344代表九个数目150、150、151、152、152、153、153、154、154cm等。每行左边有一个频数(比如第一行有9个数目,第二行有17个等等);可以看出最长的一行为从165cm到169cm的一段(有35个数)。§3.1.1定定量量变量量的图图表示示:4.散散点图图数据会会有两两个变变量,,如美美国男男士和和女士士初婚婚年限限数据据(marriage.txt))。该数据据描述述了自自1900年到到1998年男男女第第一次次婚姻姻延续续的时时间。。这里年年份是是一个个变量量,婚婚姻延延续时时间是是第二二个变变量。。由于于不可可能将将所有有人的的婚姻姻年限限都给给出来来,所所以每每年就就取了了一个个中间间的值值(中中位数数)作作为代代表。。散点图图§3.1.2定定性性变量量的图图表示示:饼饼图定性变变量((或属属性变变量,,分类类变量量)不不能点点出直直方图图、散散点图图或茎茎叶图图,但但可以以描绘绘出它它们各各类的的比例例。下面用用SPSS绘的的图3.5(饼图图,piechart)表示了了说世世界各各种主主要语语言人人数的的比例例(language.txt).饼图§3.1.2定定性性变量量的图图表示示:条条形图图而用同同样数数据画画的图图3.6称称为条形图图(barchart)。从每一一条可可以看看出讲讲各种种语言言的实实际人人数,,而且且分别别给出出了每每个语语种中中母语语和日日常使使用的的人数数(在在图中中并排排放置置)。。条形形图显显示比比例不不如饼饼图直直观。。条形图图§3.2如如何何用少少量数数字来来概括括数据据?大量的的数字字既繁繁琐又又不直直观;;需要要对数数据做做人们们时间间和耐耐心所所允许许的简简化我们可可以用用““平均均”,,“差差距””或百百分比比等来来概括括大量量数字字。由于定定性变变量主主要是是计数数,比比较简简单,,常用用的概概括就就是比比例或或百分分比。。下面面主要要介绍绍关于于定量量变量量的数数字描描述。。§3.2如如何何用少少量数数字来来概括括数据据?可用少少量所所谓汇汇总统统计量量或概括统统计量量(summarystatistic)来描述述定量量变量量的数数据。。这些数数字是是从样样本数数据得得来的的,因因而也也是样样本的的函数数,任何样样本的的函数数,只只要不不包含含总体体的未未知参参数,,都称称为统计量量(statistic)。样本的的随机机性决决定统统计量量的随随机性性(统统计量量也是是随机机变量量)§3.2如如何何用少少量数数字来来概括括数据据?概括统统计量量经常常对应应于总总体的的无法法观测测到的的某些些参数数。这时,,统计计量可可作为为这些些参数数的估估计。。一些些统计计量还还可以以用来来检验验样本本和假假设的的总体体是否否一致致。§3.2如如何何用少少量数数字来来概括括数据据?注:一些统统计量量前面面有时时加上上“样样本””二字字,以以区别别于总总体的的同名名参数数。如如“样样本均均值””和““样本本标准准差””,以以区别别于总总体均均值和和总体体标准准差;;但在在不会会混淆淆时可可以只只说““均值值”和和“标标准差差”。。§3.2.1数数据据的““位置置”数据有有位置置吗??这里三三个数数据的的位置置一样样吗??§3.2.1数数据据的““位置置”“位置置”一一般是是关于于数据据中某某变量量观测测值的的“中中心位位置””或者者数据据分布布的中中心((center或centertendency)。。和这种种“位位置””有关关的统统计量量就称称为位置统统计量量(locationstatistic)。位置统统计量量当然然不一一定都都是描描述““中心心”了了,比比如后后面要要讲的的k百百分位位数((或k%分分位数数)。。§3.2.1数数据据的““位置置”最常用用的位位置统统计量量就是是小学学时所所学到到的算算术平平均数数,它它在统统计中中叫做做均值值(mean);严严格地地说叫叫做样样本均均值(samplemean),以以区别别于总总体均均值。。如果记记样本本中的的观测测值为为x1,…,xn,则样样本均均值定定义为为(样本本)中中位数数(median)是是数据据按照照大小小排列列之后后位于于中间间的那那个数数(如如果样样本量量为奇奇数),或或者中中间两两个数数目的的平均均(如如果样样本量量为偶偶数)。由于中中位数数不易易被极极端值值影响响,所所以中中位数数比均均值稳稳健(robust)。。§3.2.1数数据据的““位置置”上下四四分位位数(或分分别称称为第一四四分位位数和和第三三四分分位数数,firstquantile,thirdquantile))则分别别位于于(按按大小小排列列的))数据据的上上下四四分之之一的的地方方。§3.2.1数数据据的““位置置”§3.2.1数数据据的““位置置”一般地地还称称上四四分位位数为为75百百分位位数((75pecentile,有75%%的观观测值值小于于它)),下下四分分位数数为25百百分位位数(有25%%的观观测值值小于于它))。一般地地,k百分分位数数(k-pecentile)意味味着有有k%%的观观测值值小于于它。。如果令令a=k%,则k百百分位位数也也称为为a分位数数(a-quantile)。。样本中中出现现最多多的数数目,,称为为众数(mode)§3.2.2数数据据的““尺度度”这两个个数据据“胖胖瘦””一样样吗??§3.2.2数数据据的““尺度度”数据中中数目目的分分散程程度由由尺度统统计量量(scalestatistic)来描述述。尺度统统计量量是描描述数数据散散布,,即描描述集集中与与分散散程度度或变变化((spread或variability)的的度量量。§3.2.2数数据据的““尺度度”从前面面两个个高三三男生生身高高数据据的盒盒形图图。左左边的的数据据平均均要高高些,,但右右边的的数据据散布布范围围要小小得多多。统计中有许许多尺度统统计量。一一般来说,,数据越分分散,尺度度统计量的的值越大。。§3.2.2数据据的“尺度度”极差(range);就是极大大值和极小小值之间的的差。前面两个高高三男生身身高数据的的极差分别别为50cm和32cm。盒形图盒子子的长度为为两个四分分位数之差差,称为四分位数极极差或四分分位间距(interquantilerange);它描述了了中间半数数观测值的的散布情况况。极差和和四分位极极差实际上上各自只依依赖于两个个值,信息息量太少。。§3.2.2数据据的“尺度度”另一个常用用的尺度统统计量为((样本)标准差(standarddeviation)。度量样本本中各数值值到均值距距离的一种种平均。标准差实际际上是方差(variance)的平方根。。如果记样样本中的观观测值为x1,…,xn,则样本方方差为§3.2.2数据据的“尺度度”两个均值一一样,但右右边的要““胖”些,,方差为左左边的一倍倍§3.2.3数据据的标准得得分假定两个水水平类似的的班级(一一班和二班班)上同一一门课,但是由于两两个任课老老师的评分分标准不同同,使得两两个班成绩绩的均值和和标准差都都不一样(数据:grade.txt)。§3.2.3数据据的标准得得分一班分数的的均值和标标准差分别别为78.53和9.43,,而二班的的均值和标标准差分别别为70.19和7.00。。那么得到90分的一一班的张颖颖是不是比比得到82分的二班班的刘疏成成绩更好呢呢?怎么比比较才能合合理呢?§3.2.3数据据的标准得得分虽然这种均均值和标准准差不同的的数据不能能够直接比比较,但是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论