统计学第4章数据描述_第1页
统计学第4章数据描述_第2页
统计学第4章数据描述_第3页
统计学第4章数据描述_第4页
统计学第4章数据描述_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章数据的描述2---重要的统计量§1集中趋势的描述§2离散趋势的描述§3偏态与峰度的描述§4数据的标准化处理§1集中趋势的描述集中趋势是指一组数据向某中心值靠拢的倾向,是描述数据分布的一个重要特征。集中趋势的测度实际是对一组数据的一般水平代表值或中心值的测度。§1集中趋势的描述§1.1均值§1.2中位数§1.3众数§1.4均值、中位数、众数之间的比较

§1.1均值均值(Mean) 又称平均数,是一组数据大小相互抵消的结果,可以看作是数据集的重心。 是最主要的集中趋势测度统计量。 适用于定量变量的取值,一般用符号表示。§1.1均值1.算术平均数未经分组整理的原始数据,其算术平均(arithmeticmean)的计算就是直接将一组数据的各个数值相加除以数值个数,称为简单算术平均数。设一组样本数据为、、、,则算术平均数的计算公式为:§1.1均值根据分组整理的数据计算的算术平均数,要以各组变量值出现的次数或频数为权数计算加权算术平均数。假设样本数据被分成组,样本数据各组变量的代表值用m1、m2、…、mk表示,各组变量值出现的频数用f1、f2、…、fk,则加权算术平均数的计算公式为:§1.1均值如果是单变量分组,上式中的代表值就是各组的分组变量值;如果是组距分组,上式中的代表值就是各组的组中值。加权算术平均数其数值的大小,不仅受各组变量值大小的影响,而且受各组变量值出现的频数即权数大小的影响。§1.1均值算术平均数的数学性质:性质1

各变量值与其算术平均数的离差之和等于零,即:性质2

各变量值与其算术平均数的离差平方和最小,即:或最小值或最小值§1.1均值【例4.1】根据表中给出的某项调查中30名被访者的月收入水平分组数据,计算其平均收入水平:§1.1均值解:(元)所以30名被访者的平均月收入水平是3366.67元。§1.1均值2.调和平均数调和平均数(harmonicmean)也称倒数平均数或调和均值。

有简单和加权两种形式。简单调和平均数是各个变量值倒数的简单算术平均数的倒数。主要应用于各变量值对应的标志总量相等的情况。当变量值用xi表示时,其计算公式如下:§1.1均值当各变量值对应的标志总量不相等时,用Mi表示各单位或各组的变量值对应的标志总量,其计算公式如下:§1.1均值【例4.2】根据某证券交易所信息,已知四只股票某日的收盘价和成交额如表所示,计算这四只股票的当日平均收盘价格。

§1.1均值解:8.63(元)所以4只股票的当日平均收盘价是8.63元。

§1.1均值3.几何平均数几何平均数(geometricmean)也称几何均值,通常用来计算平均比率和平均速度。计算公式为:几何平均数也可看作是算术平均数的一种变形§1.1均值【例4.3】某股票投资者长期持有一只股票,2005-2008年每年的收益率分别是5.6%,7.2%,28.5%,-15.6%。计算该股票投资者4年内的平均收益率。解:根据股票四年的平均收益率可得到其四年的相对价格分别是105.6%,107.2%,128.5%,84.4%。计算四年平均相对价格

四年的平均收益率是105.26%-1=5.26%。105.26%§1.1均值4.均值的特点:均值一般用于寻找定量数据的中心代表值,并不适用于定性数据。均值的优点在于它对变量的每一个取值都加以利用。均值的缺点在于其统计量的稳健性较差,即容易受到极端值的干扰。§1.2中位数

中位数(median)

是将变量取值按大小顺序排列后,处于中间位置的那个变量值。

适用于定量变量,以及定性变量中的顺序变量取值的集中趋势测度。不适用于定性变量中的分类变量取值。一般用Me表示。§1.2中位数1.中位数的确定变量的取值数据规模较小时,将数据按大小排列。当数据个数N为奇数时,处在位置上的变量取值大小即为改组数据的中位数;当数据个数N为偶数时,处在和位置上两个变量取值的简单算术平均数即为中位数。§1.2中位数

当变量的取值数据规模较大时,将数据按单变量分组或组距分组,得到频数分布。对频数分布做向上累计或向下累计:当为偶数时,第个变量值所在的组为中位数所在的组。当为奇数时,第个变量值所在的组为中位数所在的组。如果是单变量分组,可以该组标志值作为中位数。如果是组距分组,则采用如下公式近似计算得到计算公式下限公式:上限公式:§1.2中位数【例4.4】给出的某项调查中30名被访者的月收入水平分组数据,得到累积频数分布表,计算其中位数。§1.2中位数解:对应的收入水平是3000-4000元,因此该组就是中位数所在组,有,(元)(元)因此,30名被访者的月收入水平的中位数是3384.6元。§1.2中位数2.根据统计图来寻找中位数对于处理成茎叶图的数据:首先找到频数一半所对应的那段茎。然后在对应的叶上找处在全部数据中间位置上的数即可。§1.2中位数例:100名调查员有效问卷数分布的茎叶图§1.2中位数如果图形中没有原始数据,例如直方图。100名调查员的有效问卷数分布直方图§1.2中位数假设数据在中位数所在区间组均匀分布,全部100名调查员的中位数说对应的位置应当是50.5。通过图中观察在140-150组之前的累积频数是42,只需要在140-150之间找到第8.5位置上所对应的数。由于假设140-150间这18个数是均匀分布的,而这段区间的长时10,因此区间上第8.5位置上的数应当是。即中位数是144.7§1.2中位数3.中位数的特点中位数很好的代表了一组数据的中间位置。当直方图显示数据时一个有偏分布时。中位数具有较好的稳健性,对极端值并不敏感。中位数并没有利用数据的所有信息,其对原始数据信息的代表性不如均值。§1.3众数

众数(mode)是指一组数据中出现次数最多的变量值,主要用于测度分类数据的集中趋势。一组数据分布的最高峰点所对应的变量值即为众数。具有不唯一性,用M0表示。§1.3众数1.定性变量的众数确定根据分类变量和顺序变量的不同取值得到频数分布,确定众数时,只需找出频数出现最多所对应的变量取值即为众数。例:通过观察频数分布表,可以直观看到受教育水平为高中的频数最大。因此对于3000名被调查者受教育水平来说,众数就是高中学历。

§1.3众数2.定量变量的众数确定对于离散型变量的取值,计算众数时,只需找出出现次数最多的变量取值即为众数。【例4.5】根据表中35名调查员的有效问卷频数分布资料,确定众数。§1.3众数

解:根据表中所示,问卷数为145份所对应的人数是4人,高于其他所有问卷数对应的人数。因此35名调查员有效问卷的众数是145份。

对于连续性变量的取值,首先根据组距分组得到频数分布。对于等距分组,对应频数最大的组为众数所在组;对于不等距分组,对应频数密度最大的组为众数组。§1.3众数设众数组的频数为,众数前一组的频数为,众数后一组的频数为。假定数据在众数组均匀分布,众数与其相邻两组的频数分布有如下关系:下限公式:上限公式:§1.3众数33§1.3众数【例4.6】根据例4.4,确定表4.3中30名被访问者月收入水平的众数。解:首先确定众数组是3000-40000元组,因此因此,30名被访者的月收入水平的众数是3428.6元。

§1.3众数3.众数的特点众数根据众数组及相邻组的频率分布信息来确定数据中心点位置的。众数是一个位置代表值,它不受数据中极端值的影响。对原数据信息的代表性也不如均值。只有在数据量较多时才有意义。§1.4均值、中位数、众数之间的比较

从分布的角度看:均值是一组数据全部数值的平均数。中位数是处于一组数据中间位置上的数值。众数始终是一组数据分布的最高峰值。对于具有单峰分布的大多数数据而言,均值、中位数、众数存在以下关系:(1)当变量取值的频数分布对称时,则均值与众数、中位数三者完全相等,即正态分布§1.4均值、中位数、众数之间的比较(2)当变量取值的频数分布呈现右偏时,说明数据存在最大值,必然拉动均值向极大值一方靠,而众数和中位数由于不受极端值的影响,因此,三者之间的关系为右偏分布§1.4均值、中位数、众数之间的比较(3)当变量取值的频数分布呈现左偏时,说明数据存在最小值,必然拉动均值向极小值一方靠,而众数和中位数由于不受极端值的影响,因此,三者之间的关系为。左偏分布§1.4均值、中位数、众数之间的比较当频数分布呈对称分布或近似对称分布时,以均值、中位数或众数来描述数据的集中趋势都比较理想;当频数分布呈偏态时,极端值会对均值产生较大影响,而对众数、中位数没有影响,此时,用众数、中位数来描述集中趋势比较好。根据经验,频数分布无论是左偏还是右偏,众数与中位数的距离约为算术平均数与中位数的距离的两倍,即:§2离散趋势的描述§2.1异众比率§2.2极差和四分位差§2.3平均差、方差和标准差§2.4离散系数

§2.1异众比率异众比率(variationratio)是指一组数据中非众数(组)的频数占总频数的比例。既适用于定性数据,也适用于定量数据,但主要用于测度分类数据的离散趋势。用Vr表示。计算公式是:异众比率的作用是衡量众数对一组数据的代表性程度的指标。异众比率越大,说明非众数组的频数占总频数的比重就越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好。§2.2极差和四分位差1.极差级差(range)是一组数据的最大值与最小值之差,也称全距。级差主要用于测度顺序数据和定量数据的离散趋势。用R表示。级差是最容易计算的离散趋势的测度统计量。但它容易受极端值的影响。计算公式是:【例4.8】根据表4.5中35名调查员的有效问卷数分组表计算极差。§2.2极差和四分位差2.四分位差四分位数是指一组数据按大小排序后处于25%和75%位置上的值,也称四分位点。通常所说的四分位数是指:处在25%位置上的数值(下四分位数)处在75%位置上的数值(上四分位数)。记下四分位数为,上四分位数为其计算公式是

当四分位数的位置不是整数时,按比例分摊四分位数两侧的差值。§2.2极差和四分位差【例4.8】在某城市随机抽取9个家庭,调查得到每个家庭的人均月收入数据(单位:元)分别是1450,950,820,860,1060,900,1280,1040,1700。要求计算这九个家庭人均月收入水平的四分位数。解:将数据由小到大按顺序排列:820,860,900,950,1040,1060,1280,1450,1700。由于2.5处于顺序为2和3的两个数中间,因此按比例分摊两端的差值,即:同理,

§2.2极差和四分位差内距或四分间距(inter-quartilerange):四分位差是上四分位数与下四分位数之差,用Qd表示计算公式为:克服了级差容易受数据中两端极值的影响这一缺陷。§2.3平均差、方差和标准差1.平均差

平均差(meandeviation)是一组数据与其均值离差绝对值的平均数。用Md表示。据掌握资料的不同,有两种计算方法。

对于未分组数据,采用简单平均法,其计算公式是:对于分组数据,采用加权平均法,其计算公式是:§2.3平均差、方差和标准差【例4.9】根据表中给出的某项调查中30名被访者的月收入水平分组数据,计算其平均差。§2.3平均差、方差和标准差解:平均差能够准确地、全面地反映一组数值的离散趋势。平均差用绝对值进行运算,不适宜于代数形式处理,在实际应用上受到很大的限制。(元)§2.3平均差、方差和标准差2.方差和标准差

方差(variance)是一组数据与其均值离差平方的算术平均数。标准差(standarddeviation)是方差的平方根。方差、标准差是实际中应用最广泛的离散趋势度量值。设总体的方差为,标准差为。对于分组数据,方差和标准差的计算公式分别是:对于未分组的数据,方差和标准差的计算公式分别是:§2.3平均差、方差和标准差总体的方差和标准差在对各个离差平方平均时是除以数据个数或总频数。样本的方差和标准差在对各个离差平方平均时是用样本数据个数或总频数减1(称为自由度)去除总离差平方和。设样本的方差为,标准差为。对于未分组的数据,方差和标准差的计算公式为:对于分组数据,方差和标准差的计算公式为:§2.3平均差、方差和标准差【例4.10】根据表中给出的某项调查中30名被访者的月收入水平分组数据,计算其方差和标准差。§2.3平均差、方差和标准差解:方差标准差(元)§2.4离散系数

离散系数(coefficientofvariation)是一组数据的标准差与其均值之比,又称变异系数。用Vs表示。主要用于比较不同样本数据的离散程度。计算公式是:§2.4离散系数【例4.11】甲乙两地的个人收入调查中,甲地的人均月收入是6520元,标准差是1640元;乙地的人均月收入是5800岁,标准差是1300元。比较甲乙两地人均月收入的差异程度。解:由得到由得到由于,因此甲地的人均月收入差异程度大于乙地。§3偏态与峰度的描述§3.1矩的概念§3.2偏态§3.3峰度

§3.1矩的概念变量的样本观测值与之差次方的平均数称为变量关于的阶矩。其公式表示是:当时,上式称为阶原点矩,用字母M表示。当时,上式称为阶中心矩,用字母m表示。一阶原点矩是即均值,二阶中心矩是§3.2偏态

偏态(skewness)是对数据分布对称性的侧度。偏态系数用SK表示。偏态系数采用矩进行计算。

计算公式是:§3.2偏态当分布对称时,变量的三阶中心矩m3正负相互抵消,因而SK=0;当分布不对称时,m3正负离差不能抵消。当

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论