




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1统计学
Statistics1统计学
Statistics2第4章数据的描述统计量4.1“位置”的度量4.2离散程度的度量4.3分布形状的度量4.4标准得分4.5小结2第4章数据的描述统计量4.1“位置”的度3数据的描述统计量不包含总体的任何未知参数的样本的函数,称为统计量(statistic)。不同的统计量可以从不同的角度描述数据的分布特征,主要包括三个方面:一是数据的“位置”;二是数据的离散程度;三是数据的分布形状。3数据的描述统计量不包含总体的任何未知参数的样本的函数,称为4第4章数据的描述统计量4.1“位置”的度量4第4章数据的描述统计量4.1“位置”的度量5“位置”的度量——均值均值(mean)是将一组数据加总后除以数据的个数得到的结果。设一组样本数据为
,样本数据的个数(即样本量)为n,用
表示样本均值,其计算公式为:根据上式计算得到的平均数也称为简单平均数(simplemean)或算术平均数(arithmeticaverage)。5“位置”的度量——均值均值(mean)是将一组数据加总后除6“位置”的度量——均值【例4.1】2018年10月25日,美国财经杂志《福布斯》(Forbes)发布了2018福布斯中国富豪榜,排名前十位的企业家财富值如表4-1,试计算十位企业家的平均财富值。表4-12018年福布斯中国十大富豪财富值单位:亿元解:如果用均值来反映这十位企业家的平均财富水平,根据公式计算得到6“位置”的度量——均值【例4.1】2018年10月25日,7“位置”的度量——均值由于均值用到了原始数据的所有信息,相当于是一组数据的“重心”位置,因此在现实中应用非常广泛。但也正是因为均值的这一特点,任何一个数据的取值发生变化,均值也会随之改变。如果一组数据中出现了极端值(极大值或极小值),作为“重心”的均值就会向极端值倾斜,对平均水平的代表性可能就会受到较大影响。7“位置”的度量——均值由于均值用到了原始数据的所有信息,相8“位置”的度量——中位数中位数(median)是将一组数据排序后位于中间位置的那个数值。如果一组数据
的个数n是奇数,那么能够找到正好对应中间位置的数值即为中位数;如果n是偶数,中位数就等于中间两个数值的简单平均数。设排序后的数据依次为
,用
表示样本中位数,其计算公式为:8“位置”的度量——中位数中位数(median)是将一组数据9“位置”的度量——中位数【例4.2】沿用例4.1的数据,试计算十位企业家财富值的中位数。解:表4-1已经给出了按照财富值排序后的十位企业家,由于n是偶数,位于中间的是排名第5和第6的两位企业家,其财富值分别是1345.5亿元和1179.9亿元,因此根据公式计算得到9“位置”的度量——中位数【例4.2】沿用例4.1的数据,试10“位置”的度量——中位数中位数主要由一组数据的大小顺序和位于中间位置的数值决定,并没有充分利用每一个数据的取值信息。但也正因为此,中位数对数据中可能存在的极端值并不敏感,即使其他所有数据的取值都发生变化,只要位于中间位置的数值不变,中位数就将保持不变。10“位置”的度量——中位数中位数主要由一组数据的大小顺序和11“位置”的度量——四分位数四分位数(quartile)是将一组数据由小到大排序后,分别位于25%、50%和75%位置上的三个数。四分位数将数据等分为四份,第二四分位数就是中位数(50%分位数),也可表示为Q50%。位于75%位置的第一四分位数称为上四分位数,记为Q75%,表示该组数据中有75%的数值小于或等于它。位于25%位置的第三四分位数则称为下四分位数,记为Q25%,表示该组数据中有25%的数值小于或等于它。11“位置”的度量——四分位数四分位数(quartile)是12“位置”的度量——四分位数上下四分位数的计算方法与中位数类似,先将数据由小到大排序,然后确定四分位数所在的位置:Q25%位置=,Q75%位置=如果根据公式计算得到的位置是整数,四分位数就是该位置对应的数值,否则就要对该位置左右两个数值进行相应的线性插值。12“位置”的度量——四分位数上下四分位数的计算方法与中位数13“位置”的度量——四分位数【例4.3】沿用例4.1的数据,试计算十位企业家财富值的上下四分位数。解:首先,需要将十位企业家按照财富值由低到高排序(与表4-1中的排序恰好相反),如表4-2所示。表4-22018年福布斯中国十大富豪财富值(由低到高排序)单位:亿元然后,根据公式计算得到上下四分位数位置分别为:Q25%位置=(10+1)/4=2.75;Q75%位置=3×(10+1)/4=8.25。因此,下四分位数位于表4-2中排在第2和第3的两位企业家财富值之间0.75的位置,即Q25%=979.8+(1007.4-979.8)×0.75=1000.5亿元;上四分位数位于表4-2中排在第8和第9的两位企业家财富值之间0.25的位置,即Q75%=2125.2+(2263.2-2125.2)×0.25=2160亿元。13“位置”的度量——四分位数【例4.3】沿用例4.1的数据14“位置”的度量——百分位数如果一组数据由小到大排序后,用99个点将数据划分成100等份,那么这些分位点上对应的数值就是百分位数(percentile)。人们可以根据需要计算k%分位数,表示数据中有k%的数值小于或等于它。将一组数据由小到大排序后,百分位数的位置为:k%分位数位置=(n+1)×k%如果根据公式计算得到的位置是整数,k%分位数就是该位置对应的数值,否则就要对该位置左右两个数值进行相应的线性插值。14“位置”的度量——百分位数如果一组数据由小到大排序后,用15“位置”的度量——百分位数【例4.4】沿用例4.3的数据,试计算十位企业家财富值的10%分位数和90%分位数。解:表4-2已经给出十位企业家财富值由低到高的排序结果,根据公式计算得到该例中的10%和90%分位数的位置分别为:10%分位数位置=(10+1)×10%=1.1因此,10%分位数位于表4-2中排在第1和第2的两位企业家财富值之间0.1的位置,即10%分位数=931.5+(979.8-931.5)×0.1=936.3亿元;90%分位数位于表4-2中排在第9和第10的两位企业家财富值之间0.9的位置,即90%分位数=2263.2+(2387.4-2263.2)×0.9=2375亿元。90%分位数位置=(10+1)×90%=9.915“位置”的度量——百分位数【例4.4】沿用例4.3的数据16“位置”的度量——众数众数(mode)是一组数据中出现频数最高的数值,通常用
表示。对于类别数据(尤其是无序类别数据),众数是用于描述其“中心位置”的一个常用平均数,因为类别数据无法计算均值(无序类别数据也不能计算中位数)。众数的确定十分简单,也不会受极端值的影响。但可以想象,如果一组数据中不同取值出现的频数都相同,那么就没有众数;而如果一组数据的分布存在两个甚至更多个“高峰”,那么众数可能不唯一。此外,众数只告诉我们一组数据中哪个数值出现的次数最多,却掩盖了所有数据的具体取值。16“位置”的度量——众数众数(mode)是一组数据中出现频17“位置”的度量——众数【例4.5】某大学新开设“数据科学”实验班,并面向2019级全校本科生进行选拔,最终进入该实验班的20名同学的性别和年龄如表4-3所示。试确定这20名同学性别和年龄的众数。表4-3“数据科学”实验班20名同学的性别和年龄17“位置”的度量——众数【例4.5】某大学新开设“数据科学18“位置”的度量——众数解:基于表4-3中的数据分别统计“性别”和“年龄”两个变量不同取值出现的频数,如表4-4所示。表4-4“数据科学”实验班20名同学性别和年龄的频数统计显然,该实验班男同学的人数远多于女同学,因此“性别”的众数是男性;20名同学中19岁的人数也多于其他年龄的人数,因此“年龄”的众数是19岁。18“位置”的度量——众数解:基于表4-3中的数据分别统计“19“位置”的度量——众数【例4.6】沿用例3.2的数据,试结合直方图确定150名“网约车”司机日营业额的众数。解:在例3.2中,我们已经对150名“网约车”司机日营业额数据进行了分组和频数统计,并最终绘制了直方图。为便于观察,将直方图复制至此,如图4-1所示。图4-1150名“网约车”司机日营业额的直方图19“位置”的度量——众数【例4.6】沿用例3.2的数据,试20“位置”的度量——众数依据直方图的含义,图4-1中横坐标是“网约车”司机日营业额,每一个矩形的宽度对应的是数据分组后每一组的取值区间,纵坐标是频数。因此,从图形中可以非常快捷地发现,矩形“最高峰”所在的位置就是众数所在的组别,即350元至400元,取该组上下限的中点375元作为这150名“网约车”司机日营业额的众数。20“位置”的度量——众数依据直方图的含义,图4-1中横坐标21“位置”的度量均值、中位数和众数是描述数据“中心位置”的三个主要统计量。由于均值利用了最多的原始数据信息,且容易理解,在日常生活中最为常用。但作为“重心”的均值,容易受到数据分布形状的影响,如果数据存在较为严重的偏斜程度(即存在极端值),均值对一组数据平均水平的代表性较差,此时计算中位数可能是更好的选择。而对于无序类别数据,使用众数则是一种必然。21“位置”的度量均值、中位数和众数是描述数据“中心位置”的22第4章数据的描述统计量4.2离散程度的度量22第4章数据的描述统计量4.2离散程度的度量23离散程度的度量——极差极差(range)是一组数据的最大值和最小值的差值,也称全距,通常用R表示。极差计算简单,反映了一组数据取值的波动范围。但极差只利用了最大值和最小值两个数值的信息,对极端值十分敏感,对数据内部的具体变动情况揭示不够完整。23离散程度的度量——极差极差(range)是一组数据的最大24离散程度的度量——极差【例4.7】针对新上映的两部国产贺岁片,随机采访10位观众,评分结果如表4-5所示。试分别计算观众对两部电影评分的极差。表4-510位观众对两部国产贺岁片的评分单位:分24离散程度的度量——极差【例4.7】针对新上映的两部国产贺25离散程度的度量——极差解:首先,将10位观众对两部电影的评分分别由低到高排序,如表4-6所示。表4-610位观众对两部国产贺岁片的评分(排序后)单位:分基于表4-6中的数据,10位观众对贺岁片1的最高评分为10分,最低评分为2分,因此极差=10-2=8分;而对贺岁片2的最高评分为9分,最低评分为6分,极差=9-6=3分。25离散程度的度量——极差解:首先,将10位观众对两部电影的26离散程度的度量——四分位差四分位差(interquartilerange)是一组数据上四分位数与下四分位数的差值,也称四分位距或内距,通常用IQR表示,即IQR=Q75%-Q25%。四分位差反映了中间50%数据的离散程度,由上下四分位数的取值决定,不受数据极端值的影响。在箱线图中,箱子的长度就等于四分位差。26离散程度的度量——四分位差四分位差(interquart27离散程度的度量——四分位差【例4.8】沿用例4.7的数据,试分别计算10位观众对两部电影评分的四分位差。解:根据公式计算得到两组评分的上下四分位数位置为:Q25%位置=(10+1)/4=2.75;Q75%位置=3×(10+1)/4=8.25因此,对贺岁片1有Q25%=5;Q75%=7+(8-7)×0.25=7.25;IQR=Q75%-Q25%=7.25-5=2.25(分)对贺岁片2有Q25%=7;Q75%=9;IQR=Q75%-Q25%=9-7=2(分)27离散程度的度量——四分位差【例4.8】沿用例4.7的数据28离散程度的度量——方差和标准差方差(variance)是用于度量一组数据中每一个数值与该组数据均值的平均偏离程度的重要统计量。设一组样本数据为
,样本数据的个数(即样本量)为n,用
表示样本方差,其计算公式为:方差通过计算每一个数值与均值的离差平方和,避免了数据变动差值的正负抵消,再除以减去1之后的样本量,反映了一组数据在均值附近取值的平均离散程度。28离散程度的度量——方差和标准差方差(variance)是29离散程度的度量——方差和标准差标准差(standarddeviation)是方差的平方根,即由于方差和标准差利用了每一个原始数据的取值,揭示了比极差和四分位差更为全面的信息,因此是最常用的度量数据离散程度的统计量。相较于方差,标准差具有与原始数据相同的计量单位,更易理解,在分析实际问题时也被应用得更频繁。29离散程度的度量——方差和标准差标准差(standard30离散程度的度量——方差和标准差【例4.9】沿用例4.7的数据,试分别计算10位观众对两部电影评分的方差和标准差。解:分别用
和表示10位观众对两部电影评分的均值,
和表示10位观众对两部电影评分的方差。首先,根据均值公式计算得到然后,根据方差公式计算得到进一步地30离散程度的度量——方差和标准差【例4.9】沿用例4.7的31离散程度的度量——离散系数离散系数(coefficientofvariation)是一组数据的标准差与该组数据均值的比值,也称变异系数,通常用CV表示,其计算公式为:由于标准差与均值计量单位相同,而均值又在一定程度上代表了原始数据取值大小的一般水平,因此离散系数消除了二者对标准差的影响,反映了一组数据的相对离散程度,可用于不同数据的比较。31离散程度的度量——离散系数离散系数(coefficien32离散程度的度量——离散系数【例4.10】表4-7给出了2017年16家上市公司的每股收益数据,其中8家为医药企业,8家为钢铁企业。试比较这两个不同行业公司每股收益的离散程度。表4-72017年16家上市公司的每股收益单位:元32离散程度的度量——离散系数【例4.10】表4-7给出了233离散程度的度量——离散系数解:分别用
和表示8家医药企业和8家钢铁企业每股收益的均值,
和表示各自的标准差。首先,根据公式计算得到进一步计算医药企业和钢铁企业每股收益的离散系数,分别用
和表示33离散程度的度量——离散系数解:分别用和34第4章数据的描述统计量4.3分布形状的度量34第4章数据的描述统计量4.3分布形状的度量35分布形状的度量借助直方图(或箱线图)可以初步地观察数据的分布形状。如果数据的直方图只有一个“最高峰”,就是单峰分布。图4-2给出了三种常见的数据单峰分布形状,从图中可以直观地看出,图4-2(a)、(b)、(c)分别为对称分布、左偏分布和右偏分布。图4-2三种常见的数据单峰分布形状35分布形状的度量借助直方图(或箱线图)可以初步地观察数据的36分布形状的度量——偏度系数偏度(skewness)是指数据分布的偏斜性(即不对称性),测度数据分布偏斜程度的统计量称为偏度系数(coefficientofskewness),通常用SK表示。设一组样本数据为
,样本数据的个数(即样本量)为n,偏度系数的计算公式为:当数据呈左右对称分布时,偏度系数等于0,否则说明数据分布存在一定的偏斜程度。通常情况下,偏度系数大于1或小于-1,视为严重偏斜分布;偏度系数为0.5~1或-1~-0.5,视为中等偏斜分布;偏度系数为-0.5~0.5,视为轻微偏斜分布。36分布形状的度量——偏度系数偏度(skewness)是指数37分布形状的度量——偏度系数偏度系数为负值表示数据呈左偏分布,对应图4-2(b),分布曲线的左侧有一个长尾,说明数据中存在个别的极小值;偏度系数为正值表示数据呈右偏分布,对应图4-2(c),分布曲线的右侧有一个长尾,说明数据中存在个别的极大值。多数情况下,如果一组数据呈单峰对称分布,那么这三个平均数应该大体相等;如果数据呈左偏分布,作为“重心”的均值则会受极小值的影响,向左尾倾斜,三者的大小关系为
;反之,如果数据呈右偏分布,均值则会受极大值的影响,向右尾倾斜,从而
。37分布形状的度量——偏度系数偏度系数为负值表示数据呈左偏分38分布形状的度量——偏度系数图4-3结合箱线图直观展示了三种数据分布形状下均值、中位数和众数的关系。图4-3三种数据分布形状下均值、中位数和众数的关系38分布形状的度量——偏度系数图4-3结合箱线图直观展示了三39分布形状的度量——峰度系数峰度(kurtosis)是指数据分布的陡峭程度(即峰值的高低),测度峰度的统计量称为峰度系数(coefficientofkurtosis),通常用K表示。设一组样本数据为
,样本数据的个数(即样本量)为n,峰度系数的计算公式为:由于标准正态分布的峰度系数为0,因此一组数据的峰度通常是与其相比较。如果峰度系数大于0,说明数据的峰值更陡峭,分布更集中;如果峰度系数小于0,则说明数据的峰值更扁平,分布更分散。39分布形状的度量——峰度系数峰度(kurtosis)是指数40第4章数据的描述统计量4.4标准得分40第4章数据的描述统计量4.4标准得分41标准得分对于均值和标准差不同的两组(或多组)数据,如何对其进行比较?例如,某大学为金融专业本科生开设了两个平行班的《统计学》课程,由两位老师分别授课、统一考试。一班的期末考试平均成绩为75分,标准差为10分;二班的期末考试平均成绩为80分,标准差为6分。一班的小明和二班的小雨考试成绩都是90分,谁的表现更好呢?41标准得分对于均值和标准差不同的两组(或多组)数据,如何对42标准得分对于均值和标准差不同的两组(或多组)数据,需要将其进行标准化处理之后才能对比,而常用的一种标准化方法就是计算标准得分。标准得分(standardscore)是一组数据中的某个数值与该组数据均值之差再除以该组数据标准差之后的结果,又称为z得分(z-score)。设一组样本数据为
,用zi表示xi对应的标准得分,其计算公式为:42标准得分对于均值和标准差不同的两组(或多组)数据,需要将43标准得分标准得分的含义是某个数值离该组数据均值几个标准差远,它测度了每个数值在该组数据中的相对位置。小明成绩的标准得分是(90-75)/10=1.5,而小雨成绩的标准得分是(90-80)/6=1.67,小雨的表现更好一些!将不同的原始数据转换为标准得分,实际上是将其统一转换到均值为0、方差为1的“新”尺度下,这样就可以进行“公平”的比较。43标准得分标准得分的含义是某个数值离该组数据均值几个标准差44标准得分标准得分的另一个重要用途是帮助识别离群点。对于单峰对称分布的数据,有经验法则表明:均值加减1个标准差的范围内应包含一组数据大约68%的数值;均值加减2个标准差的范围内应包含一组数据大约95%的数值;均值加减3个标准差的范围内应包含一组数据大约99.73%的数值。也就是说,正常情况下,来自同一总体的一组样本数据的标准得分应该大部分在-2到2之间变化,否则就有些“不同寻常”;而一个数值距离一组数据均值超过3个标准差的概率更是不到0.3%,这显然是一个小概率事件。因此,如果一个数值的标准得分大于3或小于-3,人们常常会怀疑这可能是一个离群点。44标准得分标准得分的另一个重要用途是帮助识别离群点。对于单45第4章数据的描述统计量4.5小结45第4章数据的描述统计量4.5小结46小结借助统计量可以直观快捷地揭示数据的基本分布特征,不同的统计量有各自的优缺点和适用情形。均值、中位数和众数是度量一组数据“中心位置”的三个常用平均数,也可以根据分析需要计算其他指定的百分位数。平均数对一组数据的代表性好坏与其离散程度有直接关联,方差和标准差是最常用的度量一组数据离散程度的统计量,要对比多组数据的离散程度,则应计算离散系数。46小结借助统计量可以直观快捷地揭示数据的基本分布特征,不同47小结偏度系数和峰度系数可以分别度量数据分布的偏斜程度以及峰值的高低,如果数据分布左右对称,均值、中位数和众数大体相等,均值作为一组数据平均水平的代表是最好的选择;但如果数据存在较为严重的偏斜程度,中位数的代表性会更好;而对于无序类别数据,众数则是一种必然选择。对于均值和标准差不同的数据,可以将其转换为标准得分再进行比较,并且利用标准得分还可以判断某个数值在一组数据中的相对位置是否异常,识别可能存在的离群点。47小结偏度系数和峰度系数可以分别度量数据分布的偏斜程度以及48统计学
Statistics1统计学
Statistics49第4章数据的描述统计量4.1“位置”的度量4.2离散程度的度量4.3分布形状的度量4.4标准得分4.5小结2第4章数据的描述统计量4.1“位置”的度50数据的描述统计量不包含总体的任何未知参数的样本的函数,称为统计量(statistic)。不同的统计量可以从不同的角度描述数据的分布特征,主要包括三个方面:一是数据的“位置”;二是数据的离散程度;三是数据的分布形状。3数据的描述统计量不包含总体的任何未知参数的样本的函数,称为51第4章数据的描述统计量4.1“位置”的度量4第4章数据的描述统计量4.1“位置”的度量52“位置”的度量——均值均值(mean)是将一组数据加总后除以数据的个数得到的结果。设一组样本数据为
,样本数据的个数(即样本量)为n,用
表示样本均值,其计算公式为:根据上式计算得到的平均数也称为简单平均数(simplemean)或算术平均数(arithmeticaverage)。5“位置”的度量——均值均值(mean)是将一组数据加总后除53“位置”的度量——均值【例4.1】2018年10月25日,美国财经杂志《福布斯》(Forbes)发布了2018福布斯中国富豪榜,排名前十位的企业家财富值如表4-1,试计算十位企业家的平均财富值。表4-12018年福布斯中国十大富豪财富值单位:亿元解:如果用均值来反映这十位企业家的平均财富水平,根据公式计算得到6“位置”的度量——均值【例4.1】2018年10月25日,54“位置”的度量——均值由于均值用到了原始数据的所有信息,相当于是一组数据的“重心”位置,因此在现实中应用非常广泛。但也正是因为均值的这一特点,任何一个数据的取值发生变化,均值也会随之改变。如果一组数据中出现了极端值(极大值或极小值),作为“重心”的均值就会向极端值倾斜,对平均水平的代表性可能就会受到较大影响。7“位置”的度量——均值由于均值用到了原始数据的所有信息,相55“位置”的度量——中位数中位数(median)是将一组数据排序后位于中间位置的那个数值。如果一组数据
的个数n是奇数,那么能够找到正好对应中间位置的数值即为中位数;如果n是偶数,中位数就等于中间两个数值的简单平均数。设排序后的数据依次为
,用
表示样本中位数,其计算公式为:8“位置”的度量——中位数中位数(median)是将一组数据56“位置”的度量——中位数【例4.2】沿用例4.1的数据,试计算十位企业家财富值的中位数。解:表4-1已经给出了按照财富值排序后的十位企业家,由于n是偶数,位于中间的是排名第5和第6的两位企业家,其财富值分别是1345.5亿元和1179.9亿元,因此根据公式计算得到9“位置”的度量——中位数【例4.2】沿用例4.1的数据,试57“位置”的度量——中位数中位数主要由一组数据的大小顺序和位于中间位置的数值决定,并没有充分利用每一个数据的取值信息。但也正因为此,中位数对数据中可能存在的极端值并不敏感,即使其他所有数据的取值都发生变化,只要位于中间位置的数值不变,中位数就将保持不变。10“位置”的度量——中位数中位数主要由一组数据的大小顺序和58“位置”的度量——四分位数四分位数(quartile)是将一组数据由小到大排序后,分别位于25%、50%和75%位置上的三个数。四分位数将数据等分为四份,第二四分位数就是中位数(50%分位数),也可表示为Q50%。位于75%位置的第一四分位数称为上四分位数,记为Q75%,表示该组数据中有75%的数值小于或等于它。位于25%位置的第三四分位数则称为下四分位数,记为Q25%,表示该组数据中有25%的数值小于或等于它。11“位置”的度量——四分位数四分位数(quartile)是59“位置”的度量——四分位数上下四分位数的计算方法与中位数类似,先将数据由小到大排序,然后确定四分位数所在的位置:Q25%位置=,Q75%位置=如果根据公式计算得到的位置是整数,四分位数就是该位置对应的数值,否则就要对该位置左右两个数值进行相应的线性插值。12“位置”的度量——四分位数上下四分位数的计算方法与中位数60“位置”的度量——四分位数【例4.3】沿用例4.1的数据,试计算十位企业家财富值的上下四分位数。解:首先,需要将十位企业家按照财富值由低到高排序(与表4-1中的排序恰好相反),如表4-2所示。表4-22018年福布斯中国十大富豪财富值(由低到高排序)单位:亿元然后,根据公式计算得到上下四分位数位置分别为:Q25%位置=(10+1)/4=2.75;Q75%位置=3×(10+1)/4=8.25。因此,下四分位数位于表4-2中排在第2和第3的两位企业家财富值之间0.75的位置,即Q25%=979.8+(1007.4-979.8)×0.75=1000.5亿元;上四分位数位于表4-2中排在第8和第9的两位企业家财富值之间0.25的位置,即Q75%=2125.2+(2263.2-2125.2)×0.25=2160亿元。13“位置”的度量——四分位数【例4.3】沿用例4.1的数据61“位置”的度量——百分位数如果一组数据由小到大排序后,用99个点将数据划分成100等份,那么这些分位点上对应的数值就是百分位数(percentile)。人们可以根据需要计算k%分位数,表示数据中有k%的数值小于或等于它。将一组数据由小到大排序后,百分位数的位置为:k%分位数位置=(n+1)×k%如果根据公式计算得到的位置是整数,k%分位数就是该位置对应的数值,否则就要对该位置左右两个数值进行相应的线性插值。14“位置”的度量——百分位数如果一组数据由小到大排序后,用62“位置”的度量——百分位数【例4.4】沿用例4.3的数据,试计算十位企业家财富值的10%分位数和90%分位数。解:表4-2已经给出十位企业家财富值由低到高的排序结果,根据公式计算得到该例中的10%和90%分位数的位置分别为:10%分位数位置=(10+1)×10%=1.1因此,10%分位数位于表4-2中排在第1和第2的两位企业家财富值之间0.1的位置,即10%分位数=931.5+(979.8-931.5)×0.1=936.3亿元;90%分位数位于表4-2中排在第9和第10的两位企业家财富值之间0.9的位置,即90%分位数=2263.2+(2387.4-2263.2)×0.9=2375亿元。90%分位数位置=(10+1)×90%=9.915“位置”的度量——百分位数【例4.4】沿用例4.3的数据63“位置”的度量——众数众数(mode)是一组数据中出现频数最高的数值,通常用
表示。对于类别数据(尤其是无序类别数据),众数是用于描述其“中心位置”的一个常用平均数,因为类别数据无法计算均值(无序类别数据也不能计算中位数)。众数的确定十分简单,也不会受极端值的影响。但可以想象,如果一组数据中不同取值出现的频数都相同,那么就没有众数;而如果一组数据的分布存在两个甚至更多个“高峰”,那么众数可能不唯一。此外,众数只告诉我们一组数据中哪个数值出现的次数最多,却掩盖了所有数据的具体取值。16“位置”的度量——众数众数(mode)是一组数据中出现频64“位置”的度量——众数【例4.5】某大学新开设“数据科学”实验班,并面向2019级全校本科生进行选拔,最终进入该实验班的20名同学的性别和年龄如表4-3所示。试确定这20名同学性别和年龄的众数。表4-3“数据科学”实验班20名同学的性别和年龄17“位置”的度量——众数【例4.5】某大学新开设“数据科学65“位置”的度量——众数解:基于表4-3中的数据分别统计“性别”和“年龄”两个变量不同取值出现的频数,如表4-4所示。表4-4“数据科学”实验班20名同学性别和年龄的频数统计显然,该实验班男同学的人数远多于女同学,因此“性别”的众数是男性;20名同学中19岁的人数也多于其他年龄的人数,因此“年龄”的众数是19岁。18“位置”的度量——众数解:基于表4-3中的数据分别统计“66“位置”的度量——众数【例4.6】沿用例3.2的数据,试结合直方图确定150名“网约车”司机日营业额的众数。解:在例3.2中,我们已经对150名“网约车”司机日营业额数据进行了分组和频数统计,并最终绘制了直方图。为便于观察,将直方图复制至此,如图4-1所示。图4-1150名“网约车”司机日营业额的直方图19“位置”的度量——众数【例4.6】沿用例3.2的数据,试67“位置”的度量——众数依据直方图的含义,图4-1中横坐标是“网约车”司机日营业额,每一个矩形的宽度对应的是数据分组后每一组的取值区间,纵坐标是频数。因此,从图形中可以非常快捷地发现,矩形“最高峰”所在的位置就是众数所在的组别,即350元至400元,取该组上下限的中点375元作为这150名“网约车”司机日营业额的众数。20“位置”的度量——众数依据直方图的含义,图4-1中横坐标68“位置”的度量均值、中位数和众数是描述数据“中心位置”的三个主要统计量。由于均值利用了最多的原始数据信息,且容易理解,在日常生活中最为常用。但作为“重心”的均值,容易受到数据分布形状的影响,如果数据存在较为严重的偏斜程度(即存在极端值),均值对一组数据平均水平的代表性较差,此时计算中位数可能是更好的选择。而对于无序类别数据,使用众数则是一种必然。21“位置”的度量均值、中位数和众数是描述数据“中心位置”的69第4章数据的描述统计量4.2离散程度的度量22第4章数据的描述统计量4.2离散程度的度量70离散程度的度量——极差极差(range)是一组数据的最大值和最小值的差值,也称全距,通常用R表示。极差计算简单,反映了一组数据取值的波动范围。但极差只利用了最大值和最小值两个数值的信息,对极端值十分敏感,对数据内部的具体变动情况揭示不够完整。23离散程度的度量——极差极差(range)是一组数据的最大71离散程度的度量——极差【例4.7】针对新上映的两部国产贺岁片,随机采访10位观众,评分结果如表4-5所示。试分别计算观众对两部电影评分的极差。表4-510位观众对两部国产贺岁片的评分单位:分24离散程度的度量——极差【例4.7】针对新上映的两部国产贺72离散程度的度量——极差解:首先,将10位观众对两部电影的评分分别由低到高排序,如表4-6所示。表4-610位观众对两部国产贺岁片的评分(排序后)单位:分基于表4-6中的数据,10位观众对贺岁片1的最高评分为10分,最低评分为2分,因此极差=10-2=8分;而对贺岁片2的最高评分为9分,最低评分为6分,极差=9-6=3分。25离散程度的度量——极差解:首先,将10位观众对两部电影的73离散程度的度量——四分位差四分位差(interquartilerange)是一组数据上四分位数与下四分位数的差值,也称四分位距或内距,通常用IQR表示,即IQR=Q75%-Q25%。四分位差反映了中间50%数据的离散程度,由上下四分位数的取值决定,不受数据极端值的影响。在箱线图中,箱子的长度就等于四分位差。26离散程度的度量——四分位差四分位差(interquart74离散程度的度量——四分位差【例4.8】沿用例4.7的数据,试分别计算10位观众对两部电影评分的四分位差。解:根据公式计算得到两组评分的上下四分位数位置为:Q25%位置=(10+1)/4=2.75;Q75%位置=3×(10+1)/4=8.25因此,对贺岁片1有Q25%=5;Q75%=7+(8-7)×0.25=7.25;IQR=Q75%-Q25%=7.25-5=2.25(分)对贺岁片2有Q25%=7;Q75%=9;IQR=Q75%-Q25%=9-7=2(分)27离散程度的度量——四分位差【例4.8】沿用例4.7的数据75离散程度的度量——方差和标准差方差(variance)是用于度量一组数据中每一个数值与该组数据均值的平均偏离程度的重要统计量。设一组样本数据为
,样本数据的个数(即样本量)为n,用
表示样本方差,其计算公式为:方差通过计算每一个数值与均值的离差平方和,避免了数据变动差值的正负抵消,再除以减去1之后的样本量,反映了一组数据在均值附近取值的平均离散程度。28离散程度的度量——方差和标准差方差(variance)是76离散程度的度量——方差和标准差标准差(standarddeviation)是方差的平方根,即由于方差和标准差利用了每一个原始数据的取值,揭示了比极差和四分位差更为全面的信息,因此是最常用的度量数据离散程度的统计量。相较于方差,标准差具有与原始数据相同的计量单位,更易理解,在分析实际问题时也被应用得更频繁。29离散程度的度量——方差和标准差标准差(standard77离散程度的度量——方差和标准差【例4.9】沿用例4.7的数据,试分别计算10位观众对两部电影评分的方差和标准差。解:分别用
和表示10位观众对两部电影评分的均值,
和表示10位观众对两部电影评分的方差。首先,根据均值公式计算得到然后,根据方差公式计算得到进一步地30离散程度的度量——方差和标准差【例4.9】沿用例4.7的78离散程度的度量——离散系数离散系数(coefficientofvariation)是一组数据的标准差与该组数据均值的比值,也称变异系数,通常用CV表示,其计算公式为:由于标准差与均值计量单位相同,而均值又在一定程度上代表了原始数据取值大小的一般水平,因此离散系数消除了二者对标准差的影响,反映了一组数据的相对离散程度,可用于不同数据的比较。31离散程度的度量——离散系数离散系数(coefficien79离散程度的度量——离散系数【例4.10】表4-7给出了2017年16家上市公司的每股收益数据,其中8家为医药企业,8家为钢铁企业。试比较这两个不同行业公司每股收益的离散程度。表4-72017年16家上市公司的每股收益单位:元32离散程度的度量——离散系数【例4.10】表4-7给出了280离散程度的度量——离散系数解:分别用
和表示8家医药企业和8家钢铁企业每股收益的均值,
和表示各自的标准差。首先,根据公式计算得到进一步计算医药企业和钢铁企业每股收益的离散系数,分别用
和表示33离散程度的度量——离散系数解:分别用和81第4章数据的描述统计量4.3分布形状的度量34第4章数据的描述统计量4.3分布形状的度量82分布形状的度量借助直方图(或箱线图)可以初步地观察数据的分布形状。如果数据的直方图只有一个“最高峰”,就是单峰分布。图4-2给出了三种常见的数据单峰分布形状,从图中可以直观地看出,图4-2(a)、(b)、(c)分别为对称分布、左偏分布和右偏分布。图4-2三种常见的数据单峰分布形状35分布形状的度量借助直方图(或箱线图)可以初步地观察数据的83分布形状的度量——偏度系数偏度(skewness)是指数据分布的偏斜性(即不对称性),测度数据分布偏斜程度的统计量称为偏度系数(coefficientofskewness),通常用SK表示。设一组样本数据为
,样本数据的个数(即样本量)为n,偏度系数的计算公式为:当数据呈左右对称分布时,偏度系数等于0,否则说明数据分布存在一定的偏斜程度。通常情况下,偏度系数大于1或小于-1,视为严重偏斜分布;偏度系数为0.5~1或-1~-0.5,视为中等偏斜分布;偏度系数为-0.5~0.5,视为轻微偏斜分布。36分布形状的度量——偏度系数偏度(skewness)是指数84分布形状的度量——偏度系数偏度系数为负值表示数据呈左偏分布,对应图4-2(b),分布曲线的左侧有一个长尾,说明数据中存在个别的极小值;偏度系数为正值表示数据呈右偏分布,对应图4-2(c),分布曲线的右侧有一个长尾,说明数据中存在个别的极大值。多数情况下,如果一组数据呈单峰对称分布,那么这三个平均数应该大体相等;如果数据呈左偏分布,作为“重心”的均值则会受极小值的影响,向左尾倾斜,三者的大小关系为
;反之,如果数据呈右偏分布,均值则会受极大值的影响,向右尾倾斜,从而
。37分布形状的度量——偏度系数偏度系数为负值表示数据呈左偏分85
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025学年新教材高中物理 第3章 圆周运动 第1节 匀速圆周运动快慢的描述教学实录 鲁科版必修第二册
- 在乡镇履行职责事项清单工作交流会发言稿
- 针对项目管理难题的解决方案
- 9正确认识广告 教学设计-2024-2025学年道德与法治四年级上册统编版
- 2024年秋七年级历史上册 第二单元 夏商周时期:早期国家的产生与社会变革 第7课 战国时期的社会变化教学实录 新人教版
- 2024-2025学年新教材高中物理 第十章 静电场中的能量 3 电势差与电场强度的关系教学实录 新人教版必修3
- 中医适宜技术联合任务导向性训练对脑卒中后偏瘫患者康复的影响
- 本科毕业论文完整范文(满足查重要求)大数据时代下的基层社会治理研究
- 3 雨的四季2024-2025学年新教材七年级上册语文新教学设计(统编版2024)
- 2023一年级数学上册 六 20以内的退位减法 实践活动:环保小卫士教学实录 西师大版
- 多晶硅大型还原炉装备项目可行性研究报告建议书
- 2025年高考作文备考之模拟试题:“自塑”与“他塑”
- 2024年黑龙江农业工程职业学院高职单招职业技能测验历年参考题库(频考版)含答案解析
- (完整版)高考英语词汇3500词(精校版)
- 2024年常州机电职业技术学院高职单招语文历年参考题库含答案解析
- 湘教版七年级数学下册第二章实数教学课件
- 电工基础知识培训课件
- 2024年全国职业院校技能大赛高职组(智慧物流赛项)考试题库(含答案)
- 2025年中天合创公司招聘笔试参考题库含答案解析
- 《海洋平台的腐蚀及》课件
- 精神病个案管理
评论
0/150
提交评论