数据的计量尺度_第1页
数据的计量尺度_第2页
数据的计量尺度_第3页
数据的计量尺度_第4页
数据的计量尺度_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于数据的计量尺度第1页,讲稿共58页,2023年5月2日,星期三(1)定类尺度(NominalScale)也称分类尺度例如:性别、民族、职业数据表现为“类别”各类之间无等级次序各类别可以用数字代码表示根据定类尺度得到的数据为分类数据。第2页,讲稿共58页,2023年5月2日,星期三(2)定序尺度(OrdinalScale)也称顺序尺度例如健康状况、质量等级可对等级、大小等排序未测量出类别之间的准确差值根据定序尺度得到的数据为顺序数据。第3页,讲稿共58页,2023年5月2日,星期三(3)定距尺度(IntervalScale)也称间隔尺度例如年份、摄氏温度数据表现为“数值”可以进行加减运算“0”是只是尺度上的一个点,不代表“不存在”根据定距尺度得到的数据为间距数据。第4页,讲稿共58页,2023年5月2日,星期三(4)定比尺度(RatioScale)也称比率尺度例如体重、身高数据表现为“数值”可以进行加减、乘除运算“0”表示“没有”或“不存在”根据定比尺度得到的数据为比率数据。第5页,讲稿共58页,2023年5月2日,星期三四种计量尺度的比较四种计量尺度的比较定类尺度定序尺度定距尺度定比尺度

分类(=,≠)

排序(<,>)

间距(+,-)

比值(×,÷)√√√√√√√√√√计量尺度数学特性第6页,讲稿共58页,2023年5月2日,星期三四种计量尺度的比较1、四种尺度所包含的信息量是依次递增的,级别由低到高。2、根据较高层次的计量尺度可以获得较低层次的计量尺度。3、不同的尺度数据对应着不同数据显示方法和分析方法。第7页,讲稿共58页,2023年5月2日,星期三8数据的基本类型第8页,讲稿共58页,2023年5月2日,星期三9问卷题目的类型大致可以分为单选、多选、排序、开放题目四种类型,他们的变量的定义和处理的方法各有不同,详细举例介绍如下:第9页,讲稿共58页,2023年5月2日,星期三3.2统计图数据类型定性数据定量数据条形图饼图线图茎叶图箱线图直方图第10页,讲稿共58页,2023年5月2日,星期三3.2.1线图(LineChart)利用线形的升降起伏来表现描述的变量在一段时期内的变动情况,主要用于显示时间数列的数据。1996年-2003年城乡居民人民币储蓄存款年底余额第11页,讲稿共58页,2023年5月2日,星期三双变项线形图(延伸线)输出结果双变项线形图(复线图)输出结果3.2.1线图(LineChart)第12页,讲稿共58页,2023年5月2日,星期三3.2.2条形图(BarChart)用宽度相同的条形高度或长短来表示数据变动的图形,条形的排列可以横排,也可以纵排。条形图有单式、复式等形式。2003年我国就业人员情况(万人)第13页,讲稿共58页,2023年5月2日,星期三3.2.3圆形图(PieChart)也叫饼图,它是用圆形及圆内扇形的面积来表示数值大小的图形。主要用于总体内部的结构,各组成部分所占比例等。2003年我国国内生产总值中各产业比重第14页,讲稿共58页,2023年5月2日,星期三3.2.4直方图(Histogram)用来反映定量变量的分布状况。在统计分组的基础上,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。注意对不等距分组:纵轴必须表示为频数密度。频数密度=频数/组距(面积之和=总频数)手工绘制直方图时需要先对数据进行分组;用统计软件spss作直方图时统计软件可以自动进行分组。第15页,讲稿共58页,2023年5月2日,星期三直方图(等距分组)某会计师事务所对20家公司进行年终审计所需时间(天)的频数分布表审计时间(天)频数10-15415-20820-25525-30230-351合计20第16页,讲稿共58页,2023年5月2日,星期三直方图(不等距分组)某会计师事务所对20家公司进行年终审计所需时间(天)的频数分布表审计时间(天)频数频数密度10-1540.815-2081.620-255125-3530.3合计20-第17页,讲稿共58页,2023年5月2日,星期三直方图与条形图的异同都是用来反映数据的分布状况,适用于不同类型的数据。条形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的。直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。直方图的各矩形通常是连续排列,条形图则是分开排列。第18页,讲稿共58页,2023年5月2日,星期三主要用于显示未分组的原始数据的分布。由“茎”和“叶”两部分构成,其图形是由数字组成的。通常以数据的高位数值作树茎,低位数字作树叶,树叶上只保留一位数字。树叶的竖列要对齐,以计算各组的次数。原始数据:

24,26,24,21,27,27,30,41,32,38从小到大排序后的数据:

21,24,24,26,27,27,30,32,38,413

0284

12

144677303.2.5茎叶图(Stem-and-LeafDisplay)茎叶图第19页,讲稿共58页,2023年5月2日,星期三SPSSStatistics生成的一个茎叶图40名教师的年龄的数据:40,41,48,51,37,35,36,50,33,42,28,33,36,29,28,29,34,35,27,36,28,29,34,26,35,40,27,43,45,39,42,41,48,55,43,42,42,51,52,64Stem-and-LeafPlot

FrequencyStem&Leaf

9.00

2.677888999

4.00

3.3344

8.00

3.55566679

10.00

4.0011222233

3.00

4.588

4.00

5.0112

1.00

5.5

1.00Extremes(>=64)

Stemwidth:10.00

Eachleaf:1case(s)

第20页,讲稿共58页,2023年5月2日,星期三常用的集中趋势的测度指标:算术平均数中位数众数集中趋势:一组数据向其中心值靠拢的倾向和程度。集中趋势测度:寻找数据水平的代表值或中心值。第21页,讲稿共58页,2023年5月2日,星期三4.1.1算术平均数(均值,ArithmeticMean)总体均值常用表示。样本均值常用表示。样本均值的计算公式:简单平均数:加权平均数(分组数据):

4.1

集中趋势的测定第22页,讲稿共58页,2023年5月2日,星期三算术平均数的性质1、 所有的定量数据都有算术平均数。2、计算算术平均数时使用了所有数据。3、一组数只有一个均值。4、各变量值与均值的离差之和等于零。张村有个张千万,九个邻居穷光蛋;统计平均算资产,个个都是张百万。

缺点:易受极端值的影响。第23页,讲稿共58页,2023年5月2日,星期三一组数据按大小顺序排列后,处在数列中点位置的数值。特点:对一组数据是唯一的。不受极端值的影响。主要用于顺序数据,也可用数值型数据,但不能用于分类数据。4.1.2中位数(Median)

4.1

集中趋势的测定第24页,讲稿共58页,2023年5月2日,星期三根据原始数据计算中位数n为奇数时等于第(n+1)/2个数。n为偶数时等于第n/2和n/2+1个数的平均值1,2,5,9,11中位数=51,2,5,9,11,18中位数=(5+9)/2=7第25页,讲稿共58页,2023年5月2日,星期三一组数据中出现次数最多的变量值。主要特点:不受极端值的影响。有的数据无众数或有多个众数。对未分组定量资料很少使用。4.1.3众数(Mode)

4.1

集中趋势的测定第26页,讲稿共58页,2023年5月2日,星期三众数的不惟一性众数无众数众数1众数2第27页,讲稿共58页,2023年5月2日,星期三众数、中位数和算术平均数的关系对称分布

均值=中位数=众数左偏分布均值

中位数

众数<<右偏分布众数

中位数均值<<第28页,讲稿共58页,2023年5月2日,星期三反映各变量值远离其中心值的程度(离散程度),从另一个侧面说明了集中趋势测度值的代表程度。常用指标:全距(极差)四分位距方差和标准差离散系数

4.2

离散程度的测定三个不同的曲线表示三个不同的总体,其均值相同,但离散趋势不同。第29页,讲稿共58页,2023年5月2日,星期三全距也称极差,是一组数据的最大值与最小值之差。R=最大值—最小值组距分组数据可根据最高组上限-最低组下限计算。受极端值的影响。

全距=?2,5,6,7,8,9,10,12,15,16,204.2.1全距(Range)

4.2

离散程度的测定7891078910第30页,讲稿共58页,2023年5月2日,星期三等于上四分位数与下四分位数之差反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。不受极端值的影响。可以用于衡量中位数的代表性。

2,5,6,7,8,9,10,12,15,16,20Q1=6,Q2=9,Q3=154.2.2四分位距(Inter-QuartileRange)

4.2

离散程度的测定第31页,讲稿共58页,2023年5月2日,星期三方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。总体方差和样本方差的符号不同,计算公式也不一样。是反映定量数据离散程度的最常用的指标。4.2.3方差和标准差

4.2

离散程度的测定4681012x=8.3第32页,讲稿共58页,2023年5月2日,星期三方差的计算公式总体方差

样本方差未分组

数据分组数据样本方差用(n-1)去除,从数学角度看是因为它是总体方差σ2的无偏估计量。第33页,讲稿共58页,2023年5月2日,星期三标准差与其相应的均值之比,表示为百分数。特点:反映了相对于均值的相对离散程度;可用于比较计量单位不同的数据的离散程度;计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等绝对指标更有意义。4.2.4离散系数(CoefficientofVariation)

4.2

离散程度的测定第34页,讲稿共58页,2023年5月2日,星期三偏态和峰度的类型偏态左偏分布右偏分布正态分布扁平分布峰态尖峰分布第35页,讲稿共58页,2023年5月2日,星期三数据分布的不对称性称作偏态。偏态系数(SK)是对数据分布的不对称性(偏斜程度)的测度。偏态系数有多种计算方法,在统计软件中(如Excel等)通常采用以下公式:

4.3.1偏态及其测定(

Skewness)

4.3

分布形态的测定第36页,讲稿共58页,2023年5月2日,星期三偏态系数的含义左偏分布(也称负偏分布):偏态系数SK<0;偏态系数的绝对值越大,偏斜越严重数据向左边延伸得更多右偏分布(也称正偏分布):偏态系数SK>0;偏态系数的绝对值越大,偏斜越严重。数据向右边延伸得更多对称分布:偏态系数=0。

第37页,讲稿共58页,2023年5月2日,星期三峰度:数据分布的扁平或尖峰程度。峰度系数(K):数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度。统计软件(如Excel等)中常用以下公式计算4.3.2峰度及其测定(Kurtosis)

4.3

分布形态的测定第38页,讲稿共58页,2023年5月2日,星期三峰度系数的含义扁平分布尖峰分布峰度系数K<0,与正态分布相比该分布一般为扁平、瘦尾,肩部较胖。峰度系数K>0,与正态分布相比该分布一般为尖峰、肥尾,肩部较瘦。均值和方差相同的正态分布第39页,讲稿共58页,2023年5月2日,星期三5.2.2相关系数的计算相关系数(CoefficientofCorrelation)是用来衡量变量之间相关程度的指标,根据变量的多少和属性可以有多种不同的计算方法。衡量两个定量变量之间线性相关程度的常用指标是皮尔逊(Pearson)相关系数。通常以ρ表示总体的相关系数,以r表示样本的相关系数。第40页,讲稿共58页,2023年5月2日,星期三r的取值范围为:-1≤r≤1;r越接近1,X与Y之间的线性关系越好;r=1为完全正相关关系;r=-1为完全负相关关系r=0,两个变量之间不存在线性关系或不相关。一般可按三级划分:|r|<0.4为低度线性相关;0.4≤|r|<0.7为显著性相关;0.7≤|r|<1为高度线性相关。相关系数r的特征第41页,讲稿共58页,2023年5月2日,星期三5.2.3相关系数的显著性检验样本相关系数r受到抽样波动的影响,是一个随机变量。相关系数非常高的样本也有可能来自无相关关系的总体。为了排除这种情况,需要对相关系数进行假设检验。第42页,讲稿共58页,2023年5月2日,星期三(1)MultipleR,又称为相关系数,它用来衡量变量x和y之间相关程度的大小。R为0.9968,表示二者之间的关系是强正相关。1.回归统计表实验任务二:使用Excel的分析工具库进行回归第43页,讲稿共58页,2023年5月2日,星期三R的取值范围为:-1≤R≤1;R越接近1,X与Y之间的线性关系越好;R=1为完全正相关关系;R=-1为完全负相关关系R=0,两个变量之间不存在线性关系或不相关。一般可按三级划分:|r|<0.4为低度线性相关;0.4≤|r|<0.7为显著性相关;0.7≤|r|<1为高度线性相关。实验任务二:使用Excel的分析工具库进行回归第44页,讲稿共58页,2023年5月2日,星期三(2)RSquare(拟合优度系数R2):用来说明用自变量解释因变量变差的程度,以测量对因变量的拟合效果。拟合优度系数为0.9936,表明用自变量可解释因变量变差的99.36%。实验任务二:使用Excel的分析工具库进行回归第45页,讲稿共58页,2023年5月2日,星期三决定系数的取值R2的取值范围是[0,1]。R2越接近于1,表明回归平方和占总离差平方和的比例越大,回归直线与各观测点越接近,回归直线的拟合程度就越好。在一元线性回归中,相关系数r的平方等于判定系数,符号与自变量x的系数一致。因此可以根据回归结果求出相关系数。

所有的回归程序都会给出R2的值.第46页,讲稿共58页,2023年5月2日,星期三(3)AdjustedRSquare(调整的拟合优度系数):仅用于多元回归才有意义,它用于衡量加入独立变量后模型的拟合程度。当有新的独立变量加入后,即使这一变量同因变量之间不相关,未经修正的R2也要增大,修正的R2仅用于比较含有同一个因变量的各种模型。(4)标准误差:又称为标准回归误差或估计标准误差,它用来衡量拟合程度的大小,也用于计算与回归有关的其他统计量,此值越小,说明拟合程度越好。实验任务二:使用Excel的分析工具库进行回归第47页,讲稿共58页,2023年5月2日,星期三实验任务二:使用Excel的分析工具库进行回归拟合优度

1、决定系数

2、估计标准误差显著性检验

3、t检验

4、F检验第48页,讲稿共58页,2023年5月2日,星期三季节指数乘法模型中的季节成分通过季节指数来反映。季节指数(季节比率):反映季节变动的相对数。1、月(或季)的指数之和等于1200%(或400%)。2、季节指数离100%越远,季节变动程度越大,数据越远离其趋势值。第49页,讲稿共58页,2023年5月2日,星期三因子分析因子分析在一定程度上可被视为主成分分析的深化和拓展。基本原理是将具有一定相关关系的多个变量综合为数量较少的几个因子,研究一种具有错综复杂关系的实测指标是如何受少数几个内在的独立因子所支配的。第50页,讲稿共58页,2023年5月2日,星期三SPSS因子分析操作6、单击“得分”,选中“保存为变量”,“显示因子得分系数矩阵”,单击“继续”;其余选项使用默认值。单击“确定”。Displayfactorscorecoefficientmatrix第51页,讲稿共58页,2023年5月2日,星期三因子分析结果分析除了“外貌”变量外其他变量的共同度都比较高。变量共同度表变量共同度:各变量中所含原始信息能被提取的公共因子所解释的程度。变量的共同度越接近1,说明被变量公共因子解释的程度越高,因子分析的效果越好。第52页,讲稿共58页,2023年5月2日,星期三前4个因子的贡献率为81.49%。旋转之后各因子的方差贡献率可能会发生变化!SPSS因子分析操作贡献率第53页,讲稿共58页,2023年5月2日,星期三旋转前后的因子载荷矩阵旋转成分矩阵,每行都有一个较大的值。

因子旋转后1234简历格式.116.830.109-.136外貌.440.151.399.227研究能力.064.128.007.928兴趣爱好.220.245.871-.0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论