版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
描述统计数值方法第1页,课件共112页,创作于2023年2月本章要点:单变量数据的集中测度
平均数、中位数、众数、百分位数单变量数据的变异指标
极差、四分位距、方差、标准差、变异系数数据分布形态及异常值的检测双变量数据之间关联程度指标协方差、相关系数第3章描述性统计:数值方法第2页,课件共112页,创作于2023年2月统计图表3第3页,课件共112页,创作于2023年2月统计图表4第4页,课件共112页,创作于2023年2月数值方法说明:根据样本的数据计算得到样本统计量;
根据总体的数据计算得到总体参数。在统计推断中,样本统计量被认为是相应的总体参数的点估计第5页,课件共112页,创作于2023年2月统计图表6第6页,课件共112页,创作于2023年2月统计图表7第7页,课件共112页,创作于2023年2月一、平均数
1、位置指标(平均指标)第8页,课件共112页,创作于2023年2月例子:商学院毕业生数据假设某大学就业指导中心对一个商学院的毕业生进行了一次问卷调研,以获取毕业生起始月薪的有关信息,下表列出了相关信息,样本中12名商学院毕业生的起始月薪的平均值计算如下:第9页,课件共112页,创作于2023年2月平均数一组数据的重要特征受到极端数据的影响如果数据分布非常集中,平均数可以比较好地反映数据集中趋势
(位置)第10页,课件共112页,创作于2023年2月补充:几何平均数定义:n个变量值乘积的n次方根计算公式:适用范围:用于对比率数据的平均主要用于计算平均增长率第11页,课件共112页,创作于2023年2月几何平均数【例】某水泥生产企业1999年水泥产量为100万吨2000年与1999年相比增长率为9%,2001年与2000年年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率。年平均增长率=114.91%-1=14.91%第12页,课件共112页,创作于2023年2月几何平均数【例】某地区GDP在2000、2001、2002和2003年增长率分别为4.5%、2.1%、25.5%、1.9%。计算该地区GDP在这四年内的平均增长率。
平均增长率:第13页,课件共112页,创作于2023年2月统计图表14第14页,课件共112页,创作于2023年2月二、中位数
第15页,课件共112页,创作于2023年2月严重偏斜被平均中位数更合适第16页,课件共112页,创作于2023年2月顺序数据的中位数
(例题分析)解:中位数的位置为301/2=150.5
从累计频数看,中位数在“一般”这一组别中。因此
Me=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数
非常不满意
不满意
一般
满意
非常满意2410893453024132225270300合计300—第17页,课件共112页,创作于2023年2月数值型数据的中位数
(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:7507808509601080
1250150016302000位置:123456789中位数
1080第18页,课件共112页,创作于2023年2月平均数/中位数?平均数是一个被普遍采用的指标有些场合倾向于使用中位数(平均数往往会受到一些异常小或异常大的数的干扰)例子:商学院毕业生数据某位毕业生起薪为每月10000美元,如果我们将表中的最高起始月薪3925美元改为10000美元,再重新计算平均数和中位数:样本平均数:3540美元4046美元样本中位数:3505美元不变当数据中含有异常值时,我们更倾向于使用中位数作为对数据中心趋势的度量第19页,课件共112页,创作于2023年2月三、众数众数(mode):出现频率最高的数例子:大学班级规模数据考虑一个由5个大学班级的学生数组成的样本:3242464654众数:46(这个数字出现了两次)出现频率最大的数据可能有两个或者更多时:双众数、多众数,在多众数的场合,众数一般不再被报告出来第20页,课件共112页,创作于2023年2月众数
(不唯一性)无众数
原始数据:10591268一个众数
原始数据:65
9855多于一个众数
原始数据:252828
364242第21页,课件共112页,创作于2023年2月众数主要适用于分类数据不同品牌饮料的频数分布
饮料品牌频数比例百分比(%)可口可乐旭日升冰茶百事可乐汇源果汁露露15119690.300.220.180.120.183022181218合计501100解释:
在所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,显然,此时计算平均数或中位数都没那么意义第22页,课件共112页,创作于2023年2月统计图表23第23页,课件共112页,创作于2023年2月四、百分位数第p百分位:至少有p%的观察值小于或等于该值,并且至少有(100-p)%的观察值大于或等于该值例子某个考生在入学考试的口头表达部分得到的原始分是54分,那么这名学生的表现与其他参加考试的学生相对比,孰优孰劣并不能一下子清楚看出来,但如果报告中,54分与70%分位数向对应,意味着70%的学生成绩低于该考生,而大约30%的学生的成绩高于该考生。第24页,课件共112页,创作于2023年2月百分位数
第25页,课件共112页,创作于2023年2月百分位数例:
第26页,课件共112页,创作于2023年2月五、四分位数四分位数实际上就是几个特殊的百分位数第一个四分位数=第25个百分位数第二个四分位数=第50个百分位数=中位数第三个四分位数=第75个百分位数第27页,课件共112页,创作于2023年2月28四分位数例331033353450348034803490352035403550365037303925第28页,课件共112页,创作于2023年2月【例】
:如果你是一家制造业公司的供应部门经理,与两家原材料供应商联系供货,两家供应商均表示能在大约10个工作日内供齐所需原材料。几个月的运转之后,你发现尽管两家供货商供货的平均时间都是大约10天,但他们供货所需天数的分布情况却是不同的(图)。问:两家供货商按时供货的可信度相同吗?考虑它们直方图的差异,你更愿意选择哪家供货商供货呢?2、变异指标第29页,课件共112页,创作于2023年2月一、极差极差是测度数据变异性的最简单的方法极差=最大值–最小值极差很容易受到极端值的影响例子:商学院毕业生数据最高起薪3925美元,最低起薪3310美元,极差为3925-3310=615美元如果有一个毕业生的起薪是10000美元,极差变为:10000-3310=6690美元第30页,课件共112页,创作于2023年2月二、四分位距
第31页,课件共112页,创作于2023年2月三、方差方差利用了数据集中的所有数据对数据的离散度和变异性进行测度方差考察所有的数据(xi)与平均值之间的差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差第32页,课件共112页,创作于2023年2月
方差的计算公式第33页,课件共112页,创作于2023年2月方差计算过程第34页,课件共112页,创作于2023年2月四、标准差
第35页,课件共112页,创作于2023年2月统计图表362、变异指标【例】现有下列三组学生的成绩
A:508095100100B:7582858895C:8585858585试比较这三组学生成绩水平.第36页,课件共112页,创作于2023年2月五、变异系数【引例1】已知以下资料,试比较哪组数据更集中.
幼儿组身高(cm)成人组身高(cm)王甜张琴李朋英洁伍平7172737475张红李兵王云陈明梁东164166168170172幼儿组成人组问:是否幼儿组的身高数据更集中?波动性更小?第37页,课件共112页,创作于2023年2月变异系数
第38页,课件共112页,创作于2023年2月3、分布形态、相对位置的
度量以及异常值的检测
第39页,课件共112页,创作于2023年2月分布形态
适度左偏适度右偏对称严重右偏第40页,课件共112页,创作于2023年2月众数、中位数和均值的关系左偏分布均值
中位数
众数对称分布
均值=中位数=
众数右偏分布众数
中位数均值第41页,课件共112页,创作于2023年2月Z-分数(标准分)
第42页,课件共112页,创作于2023年2月Z-分数特点z分数只是将原始数据进行了线性变换,它并没有改变一个数据在改组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差为1。第43页,课件共112页,创作于2023年2月Z-分计算例9个家庭人均月收入标准化值计算表家庭编号人均月收入(元)标准化值z
123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996第44页,课件共112页,创作于2023年2月学号高数成绩成绩8034001888980340027175803400384948034004805280340054224803400654488034007777080340088466803400963248034010767380340118272803401280688034013665280340147455803401564568034016726080340177862803401846618034019827980340388974数据标准化的应用标准化高数成绩标准化成绩1.1655687071.473100729-0.1210980470.6889406450.8628235881.7531579020.560078469-0.59932235-2.316000157-2.167642518-1.407764802-0.8233680880.333019630.4088834720.8628235880.184837734-0.726588285-2.1676425180.2573333510.5769177760.7114510290.5209063420.5600784690.296860603-0.499529446-0.599322350.105960792-0.431288046-0.650902005-0.375276612-0.045411768-0.1512308730.40870591-0.039208004-2.013255039-0.0952194390.7114510290.9129863841.2412549860.632929211第45页,课件共112页,创作于2023年2月对于服从钟形分布的数据:大约68%的数据在平均值+一倍标准差的范围内大约95%的数据在平均值+两倍标准差的范围内几乎所有(99.7%)数据在平均值+三倍标准差的范围内.经验法则第46页,课件共112页,创作于2023年2月47
经验法则第47页,课件共112页,创作于2023年2月异常值的检验异常值(outliers):数据集中可能包含的一个或者多个特别大或者特别小的观察值可能情况:一个被错误记录的数据值一个不应该被包含在数据中的观察值标准分(z-分数)可以用来检验异常值一般来说,钟形分布的数据,几乎所有的数据项与平均数的距离都在3倍标准差之内,建议把z-分数大于3或者小于-3的数值视为异常值第48页,课件共112页,创作于2023年2月切比雪夫定理
第49页,课件共112页,创作于2023年2月切比雪夫定理的应用
第50页,课件共112页,创作于2023年2月经验法则切比雪夫的优点之一就是它适用于任何数据集而无需考虑数据分布的形状实际中人们发现许多数据集具有类似对称的峰形或者钟形分布,此时可以用经验法则来确定与平均数的距离在某个特定倍数的标准差之内的数据项所占的比例第51页,课件共112页,创作于2023年2月4、探索性数据分析第52页,课件共112页,创作于2023年2月张叔的故事
张叔是个统计学家,在家里从不照管自己的孩子。一个星期六下午,张阿姨要外出买东西时,让张叔叔照看一下他们4岁的孩子闹闹,闹闹是一个年幼好动的孩子,没办法张叔叔只好答应了。
晚上,张阿姨回家时看到张叔叔写的一张纸条,上面写着擦眼泪11次系鞋带15次吹玩具气球5次每个气球的平均寿命10秒钟警告孩子不要横穿马路9次孩子坚持要穿过马路9次我还想再过这样的星期六0次
张阿姨看了后不禁笑了,转头对张叔叔说,你现在知道带孩子是多么辛苦了吧!
统计图表53第53页,课件共112页,创作于2023年2月五数统计在五数统计中,使用下面五个数来对数据加以汇总最小值四分之一分位数中位数四分之三分位数最大值例子:商学院毕业生数据五数描述数据大致的分布情况第54页,课件共112页,创作于2023年2月箱形图
第55页,课件共112页,创作于2023年2月统计图表56第56页,课件共112页,创作于2023年2月统计图表57第57页,课件共112页,创作于2023年2月统计图表58第58页,课件共112页,创作于2023年2月统计图表59第59页,课件共112页,创作于2023年2月统计图表60第60页,课件共112页,创作于2023年2月各个专业毕业生起薪的箱形图会计金融信息系统管理市场营销第61页,课件共112页,创作于2023年2月
箱形图中可以得出的结论1、起薪较高的是会计专业,较低的是管理和市场营销专业2、根据中位数,会计和信息系统专业具有相似且较高的起薪中位数,金融专业其次,管理和营销专业起薪中位数最低3、会计、金融和市场营销专业存在个别特别高的起薪——异常点4、金融专业的起薪的波动最小,而会计专业的起薪波动最大第62页,课件共112页,创作于2023年2月学号高数成绩成绩8034001888980340027175803400384948034004805280340054224803400654488034007777080340088466803400963248034010767380340118272803401280688034013665280340147455803401564568034016726080340177862803401846618034019827980340388974箱线图比较第63页,课件共112页,创作于2023年2月统计图表64第64页,课件共112页,创作于2023年2月统计图表65第65页,课件共112页,创作于2023年2月统计图表66第66页,课件共112页,创作于2023年2月5、两个变量间关系的度量第67页,课件共112页,创作于2023年2月哲学原理:世界是一个普遍联系的整体,任何事物都与其它事物相联系。数学地理解世界第68页,课件共112页,创作于2023年2月复习回顾前面我们学习了怎样对收集来的数据进行分析:频率分布图离散程度集中趋势下面我们来介绍一中更为常见的分析方法:变量间的相关关系第69页,课件共112页,创作于2023年2月小明,你数学成绩不太好,物理怎么样?也不太好啊.学不好数学,物理也是学不好的?????...第70页,课件共112页,创作于2023年2月你认为老师的说法对吗?事实上,我们在考察数学成绩对物理成绩影响的同时,还必须考虑到其他的因素:爱好,努力程度如果单纯从数学对物理的影响来考虑,就是考虑这两者之间的相关关系我们在生活中,碰到很多相关关系的问题:物理成绩数学成绩学习兴趣花费时间其他因素第71页,课件共112页,创作于2023年2月商品销售收入K×广告支出经费?粮食产量K×施肥量?付出K×收入?人体脂肪含量K×年龄?第72页,课件共112页,创作于2023年2月
以上种种问题中的两个变量之间的相关关系,我们都可以根据自己的生活,学习经验作出相应的判断,“规律是经验的总结”,不管你多有经验,只凭经验办事,还是很容易出错的,在寻找变量间的相关关系时,我们需要一些更为科学的方法来说明问题.
在寻找变量间的相关关系时,统计同样发挥了非常重要的作用,我们是通过收集大量的数据,对数据进行统计分析的基础上,发现其中的规律,才能对它们之间的关系作出判断.下面我们通过具体的例子来分析第73页,课件共112页,创作于2023年2月1.社会上流传“喜鹊叫喜,乌鸦叫丧”,你认为二者是否具有相关性?提示:“喜鹊叫喜,乌鸦叫丧”是封建迷信的说法,是人们夸大了两者之间的关系,毫无科学道理,它们之间是不相关的.统计图表74第74页,课件共112页,创作于2023年2月协方差数据中有两个变量时,如何衡量二者的关系?例子:音响设备商店数据周末电视广告播出次数与下周商店销售额之间的关系如何?第75页,课件共112页,创作于2023年2月利用数据在(x,y)平面上描点,得到的图像是较高的销售额(y)对应较多的广告次数(x)第76页,课件共112页,创作于2023年2月协方差
第77页,课件共112页,创作于2023年2月例子:音响设备商店
250-1-115572612141-2-1020354030454133138-2-1326563212243480-30459188246-1-55合计99
第78页,课件共112页,创作于2023年2月
第79页,课件共112页,创作于2023年2月协方差的解释
第80页,课件共112页,创作于2023年2月81
第81页,课件共112页,创作于2023年2月82
第82页,课件共112页,创作于2023年2月83
第83页,课件共112页,创作于2023年2月协方差的值越大于0,表明正线性关系越强协方差的值越小于0,表明负线性关系越强问题:协方差的值依赖于x,y的计量单位
第84页,课件共112页,创作于2023年2月相关系数
第85页,课件共112页,创作于2023年2月
第86页,课件共112页,创作于2023年2月相关系数的解释简单例子
第87页,课件共112页,创作于2023年2月相关系数r的意义r=0r=-0.8r=0.9r=-1r=1r=0.1第88页,课件共112页,创作于2023年2月∣r∣越接近1,说明相关程度越强∣r∣越接近0,说明相关程度越弱∣r∣<0.3,为微相关
0.3≤∣r∣<0.5,为弱相关
0.5≤∣r∣<0.8,为强相关∣r∣≥0.8,为高度相关r>0,表示两个变量是正相关r<0,表示两个变量是负相
r=1,说明两个变量完全正相关
r=-1,说明两个变量完全负相关第89页,课件共112页,创作于2023年2月正相关
强正相关弱正相关第90页,课件共112页,创作于2023年2月负相关
强负相关弱负相关第91页,课件共112页,创作于2023年2月完全相关第92页,课件共112页,创作于2023年2月不相关第93页,课件共112页,创作于2023年2月6、加权平均数和分组数据的处理第94页,课件共112页,创作于2023年2月统计图表95第95页,课件共112页,创作于2023年2月统计图表96第96页,课件共112页,创作于2023年2月统计图表97第97页,课件共112页,创作于2023年2月统计图表98第98页,课件共112页,创作于2023年2月加权平均数
第99页,课件共112页,创作于2023年2月加权平均数例【例】设某企业经理付给他的雇员的每小时工资分为三个等级:6.5元、7.5元、8.5元。拿这三种工资的人数分别为:14人、10人、2人,则该公司雇员的平均工资为:
第100页,课件共112页,创作于2023年2月101
第101页,课件共112页,创作于2023年2月
权重的选择?根据应用的情况或者经验,比如商学院学生数据中,平均等级一般有A,B,C,D四个等级,权数就是每个等级所对应的学时数第102页,课件共112页,创作于2023年2月分组数据只有分组数据或频数分布表时,如何度量数据的位置和变异程度?例子:会计事务所数据问:样本平均审计时间是多少?第103页,课件共112页,创作于2023年2月
近似求法:第104页,课件共112页,创作于2023年2月
例子:会计事务所数据第105页,课件共112页,创作于2023年2月已改至此!!某电脑公司销售量数据分组表按销售量分组组中值(Mi)频数(fi)Mifi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑项目钢材订购合同格式
- 无抵押个人贷款合同格式
- 货物采购与运输合同
- 广告屏出租合同案例分析
- 中铝安全管理
- 《电镀废水处理技术》课件
- 导尿管护理案例分析
- 医院危险化学品应急能力培训
- 生物餐饮管理培训课件
- dxy肝癌的介入治疗
- 智能治理:提高政府决策的准确性和效率
- 2024年滴眼剂市场份额分析:全球滴眼剂市场销售额达到了4.89亿美元
- 2023-2024学年广东省广州市白云区九年级(上)期末语文试卷
- 2024-2030年中国铁皮石斛行业市场竞争策略及投资价值研究报告
- 新生儿呼吸系统常见疾病的特点及护理课件
- 融入人工智能的《语言学概论》教案设计
- 2024年信息技术基础考试题库
- 2024至2030年中国空气滤芯行业投资前景及策略咨询研究报告
- 罪犯心理危机干预专家讲座
- 2024-2025学年北师版八年级上册数学期末专项复习:一次函数(压轴34题)解析版
- 学术规范与论文写作智慧树知到答案2024年浙江工业大学
评论
0/150
提交评论