版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据分析
(方法与案例)
作者贾俊平版权所有违者必究统计学基础(第6版)FundamentalStatistics第3章数据的概括性度量3.1
集中趋势的度量3.2离散程度的度量3.3偏度与峰度的度量3.4Excel【数据分析】工具的应用Statistic学习目标度量集中趋势的统计量度量离散程度的统计量度量偏度与峰度的统计量各统计量的的特点及应用场合用Excel计算描述统计量3.1集中趋势的度量
3.1.1平均数
3.1.2分位数3.1.3众数
3.1.4各度量值的比较第3章数据的概括性度量集中趋势
(centraltendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据3.1.1平均数3.1集中趋势的度量
x
x平均数
(mean)也称为均值,常用的统计量之一消除了观测值的随机波动易受极端值的影响根据总体数据计算的,称为平均数,记为
;根据样本数据计算的,称为样本平均数,记为
x简单算数平均
(Simplemean)设一组数据为:x1,x2,…,xn(总体数据xN)样本平均数总体平均数简单平均数
(例题分析)【例3—1】在某年级中随机抽取30名学生,得到每名学生的统计学考试分数如表3—1所示(单位:分)。计算30名学生考试分数的平均数567065859674669266687560997180877886897777886999918673657280简单平均数
(例题分析)【例3—1】用Excel的【AVERAGE】函数计算样本平均数
加权平均数
(Weightedmean)设各组的组中值为:M1,M2,…,Mk
相应的频数为:
f1,f2,…,fk样本加权平均:总体加权平均:加权平均数
(例题分析)【例3—2】沿用例3—1。假定将30名学生的统计学考试分数分组后如表3—2所示。计算考试分数的平均数考试分数分组人数60以下160—70770—80980—90890—1005合计30加权平均数
(例题分析)【例3—2】加权平均数计算表考试分数分组60以下5515560—7065745570—8076968480—9085868090—100955475合计—302349
3.1.2分位数3.1集中趋势的度量中位数
(median)排序后处于中间位置上的值。不受极端值影响Me50%50%2.
位置确定3.
数值确定中位数的计算
(数据个数为奇数)【例3—3】沿用例3—1。计算30个学生统计学考试分数的中位数566065656666686970717273747577777880808586868788899192969999
中位数
(例题分析)【例3—3】用Excel的【MEDIAN】函数计算中位数
四分位数—用3个点等分数据
(quartile)排序后处于25%和75%位置上的值不受极端值的影响QLQMQU25%25%25%25%四分位数的计算
(位置的确定)Excel给出的四分位数位置的确定方法
如果位置不是整数,则按比例分摊位置两侧数值的差值四分位数的计算
(例题分析)
四分位数的计算
(例题分析)
2020-8-20百分位数
(percentile)
百分位数的计算
(例题分析)
2020-8-20用【PERCENTILE.INC】函数计算百分位数
(例题分析)
众数
(mode)一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数mo2020-8-20用【MODE.SNGL】函数计算众数
(例题分析)
3.1.4各度量值的比较3.1集中趋势的度量众数、中位数、平均数的特点和应用平均数易受极端值影响数学性质优良,实际中最常用数据对称分布或接近对称分布时代表性较好中位数不受极端值影响数据分布偏斜程度较大时代表性接好众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时代表性较好3.2离散程度的度量
3.2.1极差和四分位差
3.2.2平均差
3.2.3方差和标准差
3.2.4离散系数3.2.5标准分数第3章数据的概括性度量3.2.1极差和四分位差3.2离散程度的度量极差
(range)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布计算公式为:R=max(xi)-min(xi)四分位差
(quartiledeviation)
25%75%3.2.2平均差3.2离散程度的度量平均差
(meandeviation)各变量值与其平均数离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差,实际中应用较少计算公式为未分组数据组距分组数据平均差
(例题分析)
平均差
(例题分析)【例3—8】沿用例3—2。根据表3—2的数据,计算将30名学生的考试分数的平均差考试分数分组60以下55123.323.360—7065713.393.170—807692.320.780—908586.753.690—10095516.783.5合计—30—274.2
3.2.3方差和标准差3.2离散程度的度量方差和标准差
(varianceandstandarddeviation)数据离散程度的最常用测度值反映各变量值与均值的平均差异根据总体数据计算的,称为总体方差(标准差),记为
2();根据样本数据计算的,称为样本方差(标准差),记为s2(s)样本方差和标准差
(samplevarianceandstandarddeviation)未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式总体方差和标准差
(PopulationvarianceandStandarddeviation)未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式样本标准差
(例题分析)【例3—9】沿用例3—1。计算30个学生考试分数的方差和标准差方差标准差
样本标准差
(Excel应用)
样本标准差
(例题分析)【例3—10】沿用例3—2。根据表3—2的数据,计算将30名学生的考试分数的方差和标准差考试分数分组60以下551542.89542.8960—70657176.891238.2370—807695.2947.6180—9085844.89359.1290—100955278.891394.45合计—30—3582.3样本标准差
(例题分析)【例3—10】沿用例3—2。根据表3—2的数据,计算将30名学生的考试分数的方差和标准差
3.2.4离散系数3.2离散程度的度量离散系数
(coefficientofvariation)1. 标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较5.计算公式为离散系数
(例题分析)【例3—11】在奥运会女子10米气手枪比赛数据。评价哪名运动员的发挥更稳定
纳塔利娅·帕杰林娜郭文珺卓格巴德拉赫·蒙赫珠勒妮诺·萨卢克瓦泽维多利亚·柴卡莱万多夫斯卡·萨贡亚斯娜·舍卡里奇米拉·内万苏10.010.09.39.89.38.110.28.78.510.510.010.39.410.39.69.310.010.48.710.010.49.29.99.210.210.48.39.510.19.99.910.310.610.19.210.210.29.89.39.810.510.39.510.710.510.49.110.09.89.48.510.49.29.99.79.79.710.710.710.610.59.410.09.99.510.89.29.19.810.79.39.99.39.79.210.88.69.69.99.7离散系数
(例题分析)【例3—11】在奥运会女子10米气手枪比赛数据。评价哪名运动员的发挥更稳定
运动员纳塔利娅·帕杰林娜郭文珺卓格巴德拉赫·蒙赫珠勒妮诺·萨卢克瓦泽维多利亚·柴卡莱万多夫斯卡·萨贡亚斯娜·舍卡里奇米拉·内万苏平均数9.8110.239.2610.149.809.739.699.65标准差0.61540.43730.70740.54610.64980.73340.35730.4625离散系数0.06270.04270.07640.05390.06630.07540.03690.04793.2.5标准分数3.2离散程度的度量标准分数
(standardscore)1.也称标准化值2. 对某一个值在一组数据中相对位置的度量3. 可用于判断一组数据是否有离群点(outlier)用于对变量的标准化处理均值等于0,方差等于1计算公式为标准分数
(用于数据变换)z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是使该组数据均值为0,标准差为1
标准分数
(例题分析)【例3—12】沿用例3—1。计算30个学生考试分数的标准分数
标准分数
(例题分析)【例3—12】沿用例3—1。计算30个学生考试分数的标准分数学生编号考试分数标准分数学生编号考试分数标准分数学生编号考试分数标准分数156-1.90311165-1.124621961.5571266-1.03811266-1.03812275-0.25953991.816613800.173023780.00004890.95161477-0.08652469-0.77855911.12461573-0.43252572-0.5190670-0.692016850.60552674-0.34607921.21111768-0.86512760-1.5571871-0.605518870.778528860.6920977-0.086519880.865129991.816610860.69202065-1.124630800.1730经验法则
经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内经验法则
(例题分析)切比雪夫不等式
(Chebyshev’sinequality)如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数切比雪夫不等式
(Chebyshev’sinequality)
对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内3.3偏度与峰度的度量
3.3.1偏度系数
3.3.2峰度系数第3章数据的概括性度量3.3.1偏度系数3.3偏度与峰度的度量偏度
(skewness)统计学家K.Pearson于1895年首次提出。是指数据分布的不对称性测度统计量是偏度系数(coefficientofskewness)2. 偏度系数=0为对称分布;>0为右偏分布;<0为左偏分布偏度系数大于1或小于-1,为高度偏度分布;偏度系数在0.5~1或-1~-0.5之间,为是中等偏度分布;偏度系数越接近0,偏斜程度就越低偏度系数
(coefficientofskewness)根据原始数据计算根据分组数据计算3.3.2峰度系数3.3偏度与峰度的度量峰度
(kurt
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Unit 1 Where did you go on vacation 课时说课稿 2024-2025学年人教版英语八年级上册
- 第13课《寒号鸟》(说课稿)二年级语文上册同步高效课堂系列(统编版)
- 26《好的故事》说课稿-2024-2025学年六年级上册语文统编版
- 活动一《学做花式馒头》(说课稿)科教版四年级上册综合实践活动
- 第二课《防骗有妙招》(说课稿)-2023-2024学年五年级下册综合实践活动沪科黔科版
- 习作:《我的植物朋友》(说课稿)2023-2024学年统编版语文三年级下册
- 第3章人工智能领域应用3.1计算机视觉-高中教学同步《信息技术-人工智能初步》说课稿(人教-中图版2019)
- 二零二五年度烟酒产品促销活动合作协议3篇
- 2025年华东师大版七年级科学下册月考试卷含答案
- 第二单元 主题活动一《我是尊老敬老好少年》(说课稿)-2023-2024学年五年级下册综合实践活动内蒙古版
- 海南省天一大联考2024届高一物理第一学期期末监测试题含解析
- 重症医学科运用PDCA循环降低失禁性皮炎发生率品管圈成果汇报
- 物理化学课件 第一章 热力学第一定律
- 07S906给水排水构筑物设计选用图化粪池
- IPC-6013中文版挠性印制板质量要求与性能规范汇编
- 青岛版小学二年级数学下册全册教案
- 干部人事档案专项审核认定表
- GB/T 9113-2010整体钢制管法兰
- 校长在评估反馈会上的表态发言稿(5篇)
- 班会之心理教育系列调适心态珍爱生命
- DLT50722023年火力发电厂保温油漆设计规程
评论
0/150
提交评论