版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据分析
(方法与案例)
作者贾俊平统计学统
计
学
Statistics数据分析
(方法与案例)
作者贾俊平统计学统计
一些人使用统计就像喝醉酒的人使用街灯柱—支撑的功能多于照明。
——AndrewLang
统计名言一些人使用统计就像喝醉酒的人使用街灯柱—支撑的功能第3章用统计量描述数据3.1水平的度量3.2差异的度量3.3分布形状的度量Statistic第3章用统计量描述数据3.1水平的度量St学习目标度量水平的统计量度量差异的统计量度量分布形状的统计量各统计量的的特点及应用场合用Excel和SPSS计算描述统计量学习目标度量水平的统计量哪名运动员的发挥更稳定?在奥运会女子10米气手枪比赛中,每个运动员首先进行每组10抢共4组的预赛,然后根据预赛总成绩确定进入决赛的8名运动员。决赛时8名运动员再进行10枪射击,再将预赛成绩加上决赛成绩确定最后的名次在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表哪名运动员的发挥更稳定?在奥运会女子10米气手枪比赛中,每个哪名运动员的发挥更稳定?最会的比赛结果是,中国运动员郭文珺凭借决赛的稳定发挥,以总成绩492.3环夺得金牌,预赛排在第1名的俄罗斯运动员纳塔利娅·帕杰林娜以总成绩498.1环获得银牌,预赛排在第4名的格鲁吉亚运动员妮诺·萨卢克瓦泽以总成绩487.4环的成绩获得铜牌,而预赛排在第3名的蒙古运动员卓格巴德拉赫·蒙赫珠勒仅以479.6环的成绩名列第8名由此可见,在射击比赛中,运动员能否取得好的成绩,发挥的稳定性至关重要。那么,怎样评价一名运动员的发挥是否稳定呢?通过本章内容的学习就能很容易回答这样的问题哪名运动员的发挥更稳定?最会的比赛结果是,中国运动员郭文珺凭3.1水平的度量3.1.1平均数3.1.2中位数和分位数3.1.3用哪个值代表一组数据?第3章用统计量描述数据3.1水平的度量第3章用统计量描述数据3.1.1平均数3.1水平的度量3.1.1平均数3.1水平的度量
x
x平均数
(mean)也称为均值,常用的统计量之一消除了观测值的随机波动易受极端值的影响根据总体数据计算的,称为平均数,记为
;根据样本数据计算的,称为样本平均数,记为
xxx平均数
(mean)也称为均值,常用的统计量之一简单算数平均
(Simplemean)设一组数据为:x1,x2,…,xn(总体数据xN)样本平均数总体平均数统计函数—AVERAGEExcel简单算数平均
(Simplemean)设一组数据为:x1加权平均数
(Weightedmean)设各组的组中值为:M1,M2,…,Mk
相应的频数为:
f1,f2,…,fk样本加权平均:总体加权平均:加权平均数
(Weightedmean)设各组的组中值为加权平均数
(例题分析)
某电脑公司销售额数据分组表按销售额分组组中值(Mi)频数(fi)Mifi
140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合计—12022200加权平均数
(例题分析)某电脑公司销售额数据分组表按销售加权平均数
(权数对均值的影响)【例】甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩(x): 020100
人数分布(f):118乙组:考试成绩(x): 020100
人数分布(f):811加权平均数
(权数对均值的影响)【例】甲乙两组各有103.1.2中位数和分位数3.1水平的度量3.1.2中位数和分位数3.1水平的度量中位数
(median)排序后处于中间位置上的值。不受极端值影响Me50%50%2.位置确定3.数值确定中位数
(median)排序后处于中间位置上的值。不受极端值中位数的计算
(数据个数为奇数)【例3-3】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:7507808509601080
1250
150016302000位置:123456789中位数
1080
中位数的计算
(数据个数为奇数)【例3-3】9个家中位数的计算
(数据个数为偶数)【例3-3】10个家庭的人均月收入数据排序:
750780850960
1080
12501500163020002800位置:1234
5678910
统计函数—MEDIANExcel中位数的计算
(数据个数为偶数)【例3-3】10个家庭四分位数—用3个点等分数据
(quartile)排序后处于25%和75%位置上的值不受极端值的影响QLQMQU25%25%25%25%四分位数—用3个点等分数据
(quartile)排序后处于2四分位数的计算
(位置的确定)方法2:较准确算法(SPSS的算法)方法1:定义算法四分位数的计算
(位置的确定)方法2:较准确算法方法1:定义四分位数的计算
(位置的确定)方法3:
其中[]表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上方法4:
Excel给出的四分位数位置的确定方法
如果位置不是整数,则按比例分摊位置两侧数值的差值四分位数的计算
(位置的确定)方法3:四分位数的计算
(数据个数为奇数)【例3-4】9个家庭的人均月收入数据(4种方法计算)原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:1234
5
6
7
89
方法1—定义公式四分位数的计算
(数据个数为奇数)【例3-4】9个家庭四分位数的计算
(数据个数为奇数)【例3-4】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:1234
5
6789
方法2—SPSS公式四分位数的计算
(数据个数为奇数)【例3-4】9个家庭的四分位数的计算
(数据个数为奇数)【例3-4】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:
12
34
5
6
7
89
方法3—4分数公式四分位数的计算
(数据个数为奇数)【例3-4】9个家庭的四分位数的计算
(数据个数为奇数)【例3-4】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:12
3
4
5
67
89
方法4—Excel公式统计函数—QUARTILEExcel四分位数的计算
(数据个数为奇数)【例3-4】9个家庭的众数
(mode)mo统计函数—MODEExcel众数
(mode)mo统计函数—MODEExcel众数
(mode)一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据众数
(mode)一组数据中出现次数最多的变量值众数
(不惟一性)无众数
原始数据:10591268一个众数
原始数据:65
9855多于一个众数
原始数据:252828
364242众数
(不惟一性)无众数
原始数据:10分类数据的众数
(例题分析)不同品牌饮料的频数分布
饮料品牌频数比例百分比(%)可口可乐旭日升冰茶百事可乐汇源果汁露露15119690.300.220.180.120.183022181218合计501100解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即
Mo=可口可乐分类数据的众数
(例题分析)不同品牌饮料的频数分布饮料品顺序数据的众数
(例题分析)解:这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即
Mo=不满意甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)
非常不满意
不满意
一般
满意
非常满意24108934530836311510合计300100.0顺序数据的众数
(例题分析)解:这里的数据为顺序数据。变量3.1.3用哪个值代表一组数据?3.1水平的度量3.1.3用哪个值代表一组数据?3.1水平的度众数、中位数和平均数的关系左偏分布均值
中位数
众数对称分布
均值=
中位数=
众数右偏分布众数
中位数均值众数、中位数和平均数的关系左偏分布均值中位数众数对称众数、中位数、平均数的特点和应用平均数易受极端值影响数学性质优良,实际中最常用数据对称分布或接近对称分布时代表性较好中位数不受极端值影响数据分布偏斜程度较大时代表性接好众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时代表性较好众数、中位数、平均数的特点和应用平均数3.2差异的度量3.2.1极差和四分位差3.2.2方差和标准差3.2.3比较几组数据的离散程度:离散系数第3章用统计量描述数据3.2差异的度量第3章用统计量描述数据怎样评价水平代表值?假定有两个地区每人的平均收入数据,其中甲地区的平均收入为5000元,乙地区的平均收入为3000元。你如何评价两个地区的收入状况?如果平均收入的多少代表了该地区的生活水平,你能否认为甲地区的平均生活水平就高于乙地区呢?要回答这些问题,首先需要搞清楚这里的平均收入是否能代表大多数人的收入水平。如果甲地区有少数几个富翁,而大多数人的收入都很低,虽然平均收入很高,但多数人生活水平仍然很低。相反,乙地区多数人的收入水平都在3000元左右,虽然平均收入看上去不如甲地区,但多数人的生活水平却比甲地区高,原因是甲地区的收入差距大于乙地区怎样评价水平代表值?假定有两个地区每人的平均收入数据,其中甲怎样评价水平代表值?
仅仅知道数据的水平是远远不够的,还必须考虑数据之间的差距有多大。数据之间的差距用统计语言来说就是数据的离散程度。数据的离散程度越大,各描述统计量对该组数据的代表性就越差,离散程度越小,其代表性就越甲乙怎样评价水平代表值?仅仅知道数据的水平是远远不够的,还必3.2.1极差和四分位差3.2差异的度量3.2.1极差和四分位差3.2差异的度量极差
(range)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布计算公式为:R=max(xi)-min(xi)极差
(range)一组数据的最大值与最小值之差四分位差
(quartiledeviation)也称为内距或四分间距上四分位数与下四分位数之差:Qd=QU
–QL反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性25%75%四分位差
(quartiledeviation)也称为内距3.2.2方差和标准差3.2差异的度量3.2.2方差和标准差3.2差异的度量方差和标准差
(varianceandstandarddeviation)数据离散程度的最常用测度值反映各变量值与均值的平均差异根据总体数据计算的,称为总体方差(标准差),记为
2();根据样本数据计算的,称为样本方差(标准差),记为s2(s)方差和标准差
(varianceandstandard样本方差和标准差
(samplevarianceandstandarddeviation)未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!样本方差和标准差
(samplevarianceand总体方差和标准差
(PopulationvarianceandStandarddeviation)未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式总体方差和标准差
(Populationvariance自由度
(degreeoffreedom)自由度的概念由统计学家R.AFisher提出是指数据个数与附加给独立的观测值的约束或限制的个数之差从字面涵义来看,自由度是指一组数据中可以自由取值的个数当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k自由度
(degreeoffreedom)自由度的概念自由度
(degreeoffreedom)样本有3个数值,即x1=2,x2=4,x3=9,则
x=5。当
x
=5
确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值为什么样本方差的自由度为什么是n-1呢?因为在计算离差平方和时,必须先求出样本均值
x
,而
x则是附件给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差σ2时,它是σ2的无偏估计量自由度
(degreeoffreedom)样本有3个数样本标准差
(例题分析)【例3-5】计算计算9名员工的月工资收入的方差和标准差15007507801080850960200012501630方差标准差统计函数—STDEVExcel样本标准差
(例题分析)【例3-5】计算计算9名员工的月工标准分数
(standardscore)1.也称标准化值2. 对某一个值在一组数据中相对位置的度量3. 可用于判断一组数据是否有离群点(outlier)用于对变量的标准化处理均值等于0,方差等于1计算公式为标准分数
(standardscore)1.也称标准化用SPSS对数据进行标准化第1步:选择【Analyze】下拉菜单,并选择【Descriptivestatistics-Descriptive】选项进入主对话框第2步:在主对话框中将变量选入【Variables】,然后选中【Savestandardizedvaluesasvariables】。点击【OK】(SPSS会将标准化后的变量以“Z”开头存放在原始变量工作表中)
对数据标准化SPSS用SPSS对数据进行标准化第1步:选择【Analyze】下标准分数
(例题分析)【例3-6】9个家庭人均月收入标准化值计算表
家庭编号人均月收入(元)标准化值z
123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996标准分数
(例题分析)【例3-6】9个家庭人均月收入标经验法则
经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内经验法则经验法则表明:当一组数据对称分布时经验法则
(例题分析)
9名员工月工资收入的经验法则经验法则
(例题分析)9名员工月工资收入的经验法则切比雪夫不等式
(Chebyshev’sinequality)如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数切比雪夫不等式
(Chebyshev’sinequalit切比雪夫不等式
(Chebyshev’sinequality对任意实数ε>0,随机变量X与期望EX具有:或切比雪夫不等式
(Chebyshev’sinequalit切比雪夫不等式
(Chebyshev’sinequality)
对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内切比雪夫不等式
(Chebyshev’sinequalit3.2.3比较几组数据的离散程度
离散系数3.2差异的度量3.2.3比较几组数据的离散程度
离散系数3.2离散系数
(coefficientofvariation)1. 标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较5.计算公式为离散系数
(coefficientofvariation离散系数
(例题分析)【例3-7】评价哪名运动员的发挥更稳定发挥比较稳定的运动员是塞尔维亚的亚斯娜·舍卡里奇和中国的郭文珺,发挥不稳定的运动员蒙古的卓格巴德拉赫·蒙赫珠勒和波兰的莱万多夫斯卡·萨贡离散系数
(例题分析)【例3-7】评价哪名运动员的发挥更8名运动员射击成绩的误差图
(例题分析)【Graphs】—【ErrorBar】—【Simple】—【DatainChartAre】—【Summariesofseparatevariables】—变量选入【ErrorBars】—【BarsRepresent】—【Standarddeviations】—【Multiplier】框内输入所需的标准差倍数—【OK】【例子】8名运动员射击成绩的误差图
(例题分析)【Graphs】—3.3分布形状的度量偏态与峰态第3章用统计量描述数据3.3分布形状的度量第3章用统计量描述数据偏态
(skewness)统计函数—SKEW统计学家K.Pearson于1895年首次提出。是指数据分布的不对称性测度统计量是偏态系数(coefficientofskewness)2. 偏态系数=0为对称分布;>0为右偏分布;<0为左偏分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 胸外科护士工作心得
- 2025年全球及中国单摆铣头行业头部企业市场占有率及排名调研报告
- 2025-2030全球倒置行星滚柱丝杠行业调研及趋势分析报告
- 2025年全球及中国虚拟试穿平台行业头部企业市场占有率及排名调研报告
- 2025年全球及中国汽车天线定位器行业头部企业市场占有率及排名调研报告
- 2025年全球及中国重载有轨穿梭小车(RGV)行业头部企业市场占有率及排名调研报告
- 2025年全球及中国丝素蛋白敷料行业头部企业市场占有率及排名调研报告
- 2025-2030全球直线式桁架机器人行业调研及趋势分析报告
- 2025-2030全球装运前检验(PSI)服务行业调研及趋势分析报告
- 2025年全球及中国电子钥匙柜行业头部企业市场占有率及排名调研报告
- 江西省部分学校2024-2025学年高三上学期1月期末英语试题(含解析无听力音频有听力原文)
- GA/T 2145-2024法庭科学涉火案件物证检验实验室建设技术规范
- 2024年中考语文试题分类汇编:非连续性文本阅读(学生版)
- 2024年度窑炉施工协议详例细则版B版
- 第一届山东省职业能力大赛济南市选拔赛制造团队挑战赛项目技术工作文件(含样题)
- 尿毒症替代治疗
- 【课件】2025届高考英语一轮复习小作文讲解课件
- 基底节脑出血护理查房
- 工程公司总经理年终总结
- 2024年海南省高考地理试卷(含答案)
- 【企业盈利能力探析的国内外文献综述2400字】
评论
0/150
提交评论