![MBA统计学数据的描述_第1页](http://file4.renrendoc.com/view/af9b10be72cd116477b19e82a0fb99b1/af9b10be72cd116477b19e82a0fb99b11.gif)
![MBA统计学数据的描述_第2页](http://file4.renrendoc.com/view/af9b10be72cd116477b19e82a0fb99b1/af9b10be72cd116477b19e82a0fb99b12.gif)
![MBA统计学数据的描述_第3页](http://file4.renrendoc.com/view/af9b10be72cd116477b19e82a0fb99b1/af9b10be72cd116477b19e82a0fb99b13.gif)
![MBA统计学数据的描述_第4页](http://file4.renrendoc.com/view/af9b10be72cd116477b19e82a0fb99b1/af9b10be72cd116477b19e82a0fb99b14.gif)
![MBA统计学数据的描述_第5页](http://file4.renrendoc.com/view/af9b10be72cd116477b19e82a0fb99b1/af9b10be72cd116477b19e82a0fb99b15.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学─从数据到结论第三章数据的描述在对数据进行深入加工之前,总应该对数据有所印象。可以借助于图形和简单的运算,来了解数据的一些特征。由于数据是从总体中产生的,其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。§3.1如何用图来表示数据?§3.1.1定量变量的图表示:1.直方图对于一个定量变量,比如某个地区(地区1)测量了163个高三男生的身高(S3height1.txt)。用图形来表示这个数据,使人们能够看出这个数据的大体分布或“形状”的一个办法是画直方图(histogram)。图3.1就是利用这个数据由SPSS软件所画的直方图。该图的横坐标是身高区间,这里每一格代表5cm的身高范围(格子宽度因不同的数据性质或要求而定,这里的格子宽度为5cm),而纵坐标为各种身高区间的身高的频数。
直方图§3.1.1定量变量的图表示:2.盒型图简单一些的是盒形图(boxplot,又称箱图、箱线图、盒子图)。图3.2的左边一个是根据地区1高三男生的身高数据所绘的盒形图;其右边的图代表另一个地区(地区2)的高三学生的身高(height.txt,height.sav,第三章例.xls)。盒型图盒子的中间横线是数据的中位数(median),封闭盒子的上下两横线(边)为上下四分位数(点);按照SPSS的默认选项,如果所有样本中的数目都在离四分位点1.5倍盒子长度之内,则线的端点为最大和最小值,否则线长就是1.5倍的盒子长度(盒子长度称为四分位间距),在其外面的度量单独点出§3.1.1定量变量的图表示:3.茎叶图
在直方图和盒形图中,很难恢复数据的原貌。而另一种图:茎叶图(stem-and-leafplots)可以恢复数据以地区1高三男生身高为例(图3.3),茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位数的数字。茎叶图其中茎叶图中茎的单位为10cm,而叶子单位为1cm。比如,由于第一行茎为150cm,因此叶子中的九个数字001223344代表九个数目150、150、151、152、152、153、153、154、154cm等。每行左边有一个频数(比如第一行有9个数目,第二行有17个等等);可以看出最长的一行为从165cm到169cm的一段(有35个数)。§3.1.1定定量变变量的图图表示:4.散散点图数据会有有两个变变量,如如美国男男士和女女士初婚婚年限数数据(marriage.txt))。该数据描描述了自自1900年到到1998年男男女第一一次婚姻姻延续的的时间。。这里年份份是一个个变量,,婚姻延延续时间间是第二二个变量量。由于于不可能能将所有有人的婚婚姻年限限都给出出来,所所以每年年就取了了一个中中间的值值(中位位数)作作为代表表。散点图§3.1.2定定性变变量的图图表示::饼图定性变量量(或属属性变量量,分类类变量))不能点点出直方方图、散散点图或或茎叶图图,但可可以描绘绘出它们们各类的的比例。。下面用SPSS绘的图图3.5(饼图,,piechart)表示了说说世界各各种主要要语言人人数的比比例(language.txt).饼图§3.1.2定定性变变量的图图表示::条形图图而用同样样数据画画的图3.6称称为条形图((barchart)。从每一条条可以看看出讲各各种语言言的实际际人数,,而且分分别给出出了每个个语种中中母语和和日常使使用的人人数(在在图中并并排放置置)。条条形图显显示比例例不如饼饼图直观观。条形图§3.2如何何用少量量数字来来概括数数据?大量的数数字既繁繁琐又不不直观;;需要对对数据做做人们时时间和耐耐心所允允许的简简化我们可以以用““平均””,“差差距”或或百分比比等来概概括大量量数字。。由于定性性变量主主要是计计数,比比较简单单,常用用的概括括就是比比例或百百分比。。下面主主要介绍绍关于定定量变量量的数字字描述。。§3.2如何何用少量量数字来来概括数数据?可用少量量所谓汇汇总统计计量或概括统计计量(summarystatistic)来描述定量量变量的数数据。这些数字是是从样本数数据得来的的,因而也也是样本的的函数,任何样本的的函数,只只要不包含含总体的未未知参数,,都称为统计量(statistic)。样本的随机机性决定统统计量的随随机性(统统计量也是是随机变量量)§3.2如如何用少少量数字来来概括数据据?概括统计量量经常对应应于总体的的无法观测测到的某些些参数。这时,统计计量可作为为这些参数数的估计。。一些统计计量还可以以用来检验验样本和假假设的总体体是否一致致。§3.2如如何用少少量数字来来概括数据据?注:一些统计量量前面有时时加上“样样本”二字字,以区别别于总体的的同名参数数。如“样样本均值””和“样本本标准差””,以区别别于总体均均值和总体体标准差;;但在不会会混淆时可可以只说““均值”和和“标准差差”。§3.2.1数据据的“位置置”数据有位置置吗?这里三个数数据的位置置一样吗??§3.2.1数据据的“位置置”“位置”一一般是关于于数据中某某变量观测测值的“中中心位置””或者数据据分布的中中心(center或centertendency)。和这种“位位置”有关关的统计量量就称为位置统计量量(locationstatistic)。位置统计量量当然不一一定都是描描述“中心心”了,比比如后面要要讲的k百百分位数((或k%分分位数)。。§3.2.1数据据的“位置置”最常用的位位置统计量量就是小学学时所学到到的算术平平均数,它它在统计中中叫做均值值(mean);严严格地说叫叫做样本均均值(samplemean),以以区别于总总体均值。。如果记样本本中的观测测值为x1,…,xn,则样本均均值定义为为(样本)中中位数(median)是是数据按照照大小排列列之后位于于中间的那那个数(如如果样本量量为奇数),或者中中间两个数数目的平均均(如果样样本量为偶偶数)。由于中位数数不易被极极端值影响响,所以中中位数比均均值稳健(robust)。。§3.2.1数据据的“位置置”上下四分位位数(或分别称称为第一四分位位数和第三三四分位数数,firstquantile,thirdquantile))则分别位于于(按大小小排列的))数据的上上下四分之之一的地方方。§3.2.1数据据的“位置置”§3.2.1数据据的“位置置”一般地还称称上四分位位数为75百分位位数(75pecentile,有75%%的观测值值小于它)),下四分分位数为25百分位位数(有25%%的观测值值小于它))。一般地,k百分位数数(k-pecentile)意味着有有k%的观观测值小于于它。如果令a=k%,则k百分位位数也称为为a分位数(a-quantile)。。样本中出现最最多的数目,,称为众数(mode)§3.2.2数据的““尺度”这两个数据““胖瘦”一样样吗?§3.2.2数据的““尺度”数据中数目的的分散程度由由尺度统计量((scalestatistic)来描述。尺度统计量是是描述数据散散布,即描述述集中与分散散程度或变化化(spread或variability))的度量。§3.2.2数据的““尺度”从前面两个高高三男生身高高数据的盒形形图。左边的的数据平均要要高些,但右右边的数据散散布范围要小小得多。统计中有许多多尺度统计量量。一般来说说,数据越分分散,尺度统统计量的值越越大。§3.2.2数据的““尺度”极差(range);就是极大值值和极小值之之间的差。前面两个高三三男生身高数数据的极差分分别为50cm和32cm。盒形图盒子的的长度为两个个四分位数之之差,称为四分位数极差差或四分位间间距(interquantilerange);它描述了中中间半数观测测值的散布情情况。极差和和四分位极差差实际上各自自只依赖于两两个值,信息息量太少。§3.2.2数据的““尺度”另一个常用的的尺度统计量量为(样本))标准差(standarddeviation)。度量样本中中各数值到均均值距离的一一种平均。标准差实际上上是方差(variance)的平方根。如如果记样本中中的观测值为为x1,…,xn,则样本方差差为§3.2.2数据的““尺度”两个均值一样样,但右边的的要“胖”些些,方差为左左边的一倍§3.2.3数数据据的的标标准准得得分分假定定两两个个水水平平类类似似的的班班级级((一一班班和和二二班班))上上同同一一门门课课,,但是是由由于于两两个个任任课课老老师师的的评评分分标标准准不不同同,,使使得得两两个个班班成成绩绩的的均均值值和和标标准准差差都都不不一一样样(数数据据::grade.txt)。。§3.2.3数数据据的的标标准准得得分分一班班分分数数的的均均值值和和标标准准差差分分别别为为78.53和和9.43,,而而二二班班的的均均值值和和标标准准差差分分别别为为70.19和和7.00。。那么得到到90分分的一班班的张颖颖是不是是比得到到82分分的二班班的刘疏疏成绩更更好呢??怎么比比较才能能合理呢呢?§3.2.3数数据的的标准得得分虽然这种种均值和和标准差差不同的的数据不不能够直直接比较较,但是是可以把把它们进进行标准准化,再再比较标标准化后后的数据据。一个标准准化的方方法是把把某样本本原始观观测值((亦称得得分,score)和和该样本本均值之之差除以以该样本本的标准准差;得得到的度度量称为为标准得分分(standardscore,又称称为z-score)。§3.2.3数数据的的标准得得分即,某某观测测值xi的标准准得分分定义义为§3.2.3数数据据的标标准得得分在我们们的例例子中中,张张颖的的标准准得分分为(90-78.53)/9.43=1.22,,而刘刘疏的的标准准得分分为(82-70.19)/7==1.69。显然如如果两两个班班级平平均水水平差差不多多,刘刘疏的的成绩绩应该该优于于张颖颖的成成绩;;这是是在标标准化化之前前的数数据中中不易易看到到的。。可以看看出,,原始始
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《Dreamweaver CS5网页设计与制作实例教程》课件-第1章 概述
- 2025年全球及中国应急响应无人机行业头部企业市场占有率及排名调研报告
- 2025年全球及中国用于光学应用的超透镜行业头部企业市场占有率及排名调研报告
- 2025年全球及中国单相栅极驱动器IC行业头部企业市场占有率及排名调研报告
- 2025年全球及中国台式激光二极管驱动仪行业头部企业市场占有率及排名调研报告
- 2025-2030全球高山输送机行业调研及趋势分析报告
- 2025年全球及中国栅网型离子源行业头部企业市场占有率及排名调研报告
- 2025-2030全球大麻含量分析仪行业调研及趋势分析报告
- 2025-2030全球药品和食品防伪技术行业调研及趋势分析报告
- 2025-2030全球立式高温反应釜行业调研及趋势分析报告
- 小学毕业纪念册教学课件
- 校本课程《生活中的化学》教案
- 宝典三猿金钱录
- 个人房屋买卖购房合同
- 聚合物粘弹性
- 建筑工程施工现场安全资料管理规程解读
- 养老护理员培训老年人日常生活照料
- 各种抽油泵的结构及工作原理幻灯片
- 学习弘扬雷锋精神主题班会PPT雷锋精神我传承争当时代好少年PPT课件(带内容)
- 社区获得性肺炎的护理查房
- 体育赛事策划与管理第八章体育赛事的利益相关者管理课件
评论
0/150
提交评论