版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2024/9/16
2024/9/16统计学(第8版)—SPSS和Excel实现教育部经济管理类核心课程教材“十二五”普通高等教育本科国家级规划教材北京高等教育精品教材北京高等学校优质本科教材课件2024/9/161.1统计学及其应用领域1.2怎样获得数据1.3统计与计算机
第1章统计、数据和计算机思维导图统计方法分类与本书框架描述方法数据分析基础图表展示第2章用图表展示数据统计量描述第3章用统计量描述数据推断方法统计方法基础推断理论基础第4章概率分布估计原理与方法第5章参数估计检验原理与方法第6章假设检验其他方法关系分析类别变量与类别变量第7章类别变量推断因变量:数值自变量:类别第8章方差分析与实验设计因变量:数值自变量:数值或类别第9章一元线性回归第10章多元线性回归预测时间序列第11章时间序列预测非参数检验参数方法不适应的情形第12章非参数检验描述应用推断怎样理解这样一些统计结论思考以下问题吸烟对健康是有害的,吸香烟的男性减少寿命2250天不结婚的男性会减少寿命3500天,不结婚的女性会减少寿命1600天身体超重30%会使寿命减少1300天每天摄取500毫升维生素C,生命可延长6年身材高的父亲,其子女的身材也较高第二个出生的子女没有第一个聪明,第三个出生的子女没有第二个聪明,依此类推学生们在听了莫扎特钢琴曲10分钟后的推理,要比他们听10分钟娱乐性的其他曲目后的推理做得更好漂亮的女性有损男性的智力。男性在看到漂亮女性时智力会下降,这就是为什么大学里的女孩子比男孩子学习好的原因上课坐在前面的学生平均考试分数比坐在后面的学生高中国科学院空间环境研究预报中心的专家称,在神舟七号载人航天飞行期间,飞船遭遇空间碎片的概率在百万分之一以下
1.1
统计学及其应用领域什么是统计学统计学——收集、处理、分析、解释数据并从数据中得出结论的科学描述性方法研究数据收集、整理和描述的统计学方法描述数据特征,找出数据的基本规律内容包括:数据收集、处理、展示、描述性分析推断性方法研究如何利用样本数据来推断总体特征的统计学方法对总体特征作出推断内容包括:参数估计和假设检验
1.1
统计学及其应用领域统计学研究什么统计学研究的是来自各领域的数据统计学没有任何固定的对象,是一门独特的学问用于解决其他领域内的问题统计学基本上是寄生的。靠研究其他领域内的工作而生存。这不是对统计学的轻视,这是因为对很多寄主来说,如果没有寄生虫就会死。对有的动物来说,如果没有寄生虫就不能消化它们的食物。因此,人类奋斗的很多领域,如果没有统计学,虽然不会死亡,但一定会变得很弱
1.1
统计学的应用领域统计学的应用领域——几个例子【例1-1】——用统计识别作者1787—1788年,三位作者亚历山大·汉密尔顿(AlexanderHamilton)、约翰·杰伊(JohnJay)和詹姆斯·麦迪逊(JamesMadison)为了说服纽约人认可宪法,匿名发表了85篇著名的论文。这些论文中的大多数作者已经得到了识别,但是,其中12篇的作者身份引起了争议。通过对这些论文不同单词的频数进行统计分析,得出的结论是詹姆斯·麦迪逊最有可能是这12篇论文的作者。现在,对于这些存在争议的论文,认为詹姆斯·麦迪逊是原创作者的说法占主导地位,而且几乎可以肯定这种说法是正确的
1.1
统计学的应用领域统计学的应用领域——几个例子【例1-2】——用简单的描述统计量得到一个重要发现费舍(R.A.Fisher)在1952的一篇文章中举了一个例子,说明如何由基本的描述统计量的知识引出一个重要的发现。20世纪早期,哥本哈根卡尔堡实验室的施密特(J.Schmidt)发现不同地区所捕获的同种鱼类的脊椎骨和鳃线的数量有很大不同;甚至在同一海湾内不同地点所捕获的同种鱼类,也发现这样的倾向然而,鳗鱼的脊椎骨的数量变化不大。施密特从欧洲各地、冰岛、亚速尔群岛以及尼罗河等几乎分离的海域里所捕获的鳗鱼的样本中,计算发现了几乎一样的均值和标准偏差值。由此,施密特推断所有各个不同海域内的鳗鱼是由海洋中某公共场所繁殖的。后来名为“戴纳(Dana)”的科学考察船在一次远征中发现了这个场所
1.1
统计学的应用领域统计学的应用领域——几个例子
1.1
统计学的应用领域统计的误用与滥用统计滥用不好的样本或过小的样本误导性图表局部描述故意曲解统计应用上的两个极端——不用或几乎不用统计;简单问题复杂化在统计应用中,这两个极端都是不可取的简单的方法不一定没用,复杂的方法也不一定有用。正如有的学者所说的,最简单的模型往往是最有用的统计应该恰当地应用到它能起作用的地方。不能把统计神秘化,更不能歪曲统计,把统计作为掩盖实事的陷阱
1.2
怎样获得数据变量与数据——变量及其分类变量(variable)观察一个企业的销售额,这个月和上个月不同;观察股票市场上涨股票的家数,今天与昨天数量不一样;观察一个班学生的生活费支出,一个人和另一个人不一样;投掷一枚骰子观察其出现的点数,这次投掷的结果和下一次也不一样“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”等就是变量数据(data)变量的观测结果变量的基本分类类别变量(定性变量)无序类别变量(名义值)有序类别变量(顺序值)数值变量(定量变量)离散变量(有限值)连续变量(无限制)
1.2
怎样获得数据变量与数据——变量及其分类类别变量(categoricalvariable)取值为事物属性或类别以及区间值的变量,也称分类变量(classifiedvariable)或定性变量(qualitativevariable)比如,观察人的性别、公司所属的行业、用户对商品的评价时,得到的结果就不是数字,而是用法文字表示的类别类别变量根据取值是否有序分为两种名义(nominal)值类别变量也称无序类别变量,其取值是不可以排序的顺序(ordinal)值类别变量也称有序类别变量,其取值间可以排序数值变量(metricvariable)取值为数字的变量,也称为定量变量(quantitativevariable)数值型变量根据其取值的不同,可以分为离散变量(discretevariable)和连续变量(continuousvariable)离散型变量是只能取有限个值是变量,而且其取值可以一一列举。连续型变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举数据(data)变量的观察结果二手数据抽取样本总体(population):包含所研究的全部个体(或数据)的集合样本(sample):从总体中抽取的一部分元素的集合样本量(samplesize):构成样本的元素的数目概率抽样方法根据已知的概率抽取样本元素,也称随机抽样数据的来源简单随机抽样从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中抽取元素的具体方法有放回抽样和无放回抽样分层抽样将总体单位按某种特征或规则划分为不同层,再从不同的层中随机地抽取样本系统抽样将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本元素整群抽样将总体中若干个单位合并为组(群),抽样时直接抽取群,再对中选群中的所有单位全部实施调查
1.2
怎样获得数据SAS——统计分析系统(StatisticalAnalysisSystem)的缩写SPSS——SPSS原是社会科学统计软件包(statisticalpackageforthesocialscience)的缩写,现为统计产品与服务解决方案软件(StatisticalProductandServiceSolutions)的缩写,是世界最早的统计分析软件R——基于R语言的一种优秀的统计软件。在CRAN网站/上下载R的各种版本EXCEL——Microsoft公司推出的Office系列产品之一,是一个功能强大的电子表格软件常用统计软件
1.3
统计与计算机THANKSTHEEND2024/9/16THEENDTHANKS统计聪明使人THANKSTHEEND2024/9/16THEENDTHANKS2024/9/16
2024/9/16统计学(第8版)教育部经济管理类核心课程教材“十二五”普通高等教育本科国家级规划教材北京高等教育精品教材北京高等学校优质本科教材课件2024/9/162.1生成频数分布表2.2类别数值数据可视化2.3数值数据可视化2.3合理使用图表第2章用图表展示数据思维导图数据的图表展示生成频数表类别数据简单频数表二维列联表数值数据类别化分组表类别数据可视化观察频数简单条形图帕累托图簇状条形图堆积条形图观察频数构成饼图环形图数值数据可视化展示分布直方图茎叶图箱形图展示关系散点图气泡图展示相似雷达图轮廓图时间序列折线图面积图可视化用哪些图形展示奖牌思考以下问题下面的数据是2016年8月5日到2016年8月21日在巴西里约热内卢举办的第31届奥运会上,获得金牌前6名的国家奖牌数的分布状况日在伦敦举办的第30届奥运会上,获得金牌前6名的国家奖牌根据上面的数据,你认为可以选择哪些图形来展示三个国家所获得的奖牌情况?学完本章的图表展示技术,这样的问题就会迎刃而解排名国家金牌银牌铜牌总数1美国4637381212英国272317673中国261826704俄罗斯191819565德国171015426日本1282141生成频数分布表列出各类别计算各类别的频数生成频数分布表
2.1
生成频数分布表类别数据的频数分布表计算描述统计量频数(frequency):落在各类别中的数据个数比例(proportion):某一类别数据个数占全部数据个数的比值百分比(percentage):将对比的基数作为100而计算的比值比率(ratio):不同类别数值个数的比值只涉及一个类别变量这个变量的各类别(取值)可以放在频数分布表中“行”的位置,也可以放在“列”的位置将该变量的各类别及其相应的频数列出来就是一个简单的频数表,也称为一维列联表
2.1
生成频数分布表类别数据的频数分布表——简单频数表——例题分析【例2-1】为研究人们对不同类型软饮料的偏好情况,一家调查公司在某超市随机调查了50名消费者。表2-1是消费者性别及其所偏好的饮料类型记录。生成频数分布表,观察不同性别的消费者及其所偏好的饮料类型的分布状况性别饮料类型性别饮料类型女碳酸饮料女茶类饮料男茶类饮料男矿泉水男矿泉水女茶类饮料女矿泉水女碳酸饮料男碳酸饮料女矿泉水男矿泉水男其他饮料…………男其他饮料女茶类饮料女碳酸饮料女其他饮料男茶类饮料女果汁男茶类饮料男茶类饮料女碳酸饮料女其他饮料男碳酸饮料女矿泉水
2.1
生成频数分布表类别数据的频数分布表——简单频数表——例题分析【例2-1】SPSS输出性别
频率百分比有效百分比累积百分比有效男2244.044.044.0女2856.056.0100.0总计50100.0100.0
饮料类型
频率百分比有效百分比累积百分比有效茶类饮料1122.022.022.0果汁612.012.034.0矿泉水1020.020.054.0其他饮料816.016.070.0碳酸饮料1530.030.0100.0总计50100.0100.0
涉及两个类别变量将一个变量的各类别放在“行”的位置,另一个变量的各类别放在“列”的位置(行和列可以互换)生成频数分布表,这样表格称为二维列联表(contingencytable),简称列联表或交叉表(crosstable)列联表主要用于反映两个类别变量的交叉频数分布状况
2.1
生成频数分布表类别数据的频数分布表——二维列联表
2.1
生成频数分布表类别数据的频数分布表——二维列联表——例题分析【例2-2】沿用例2-1。SPSS输出结果性别*饮料类型交叉表
饮料类型总计茶类饮料果汁矿泉水其他饮料碳酸饮料性别男计数7162622占性别的百分比31.8%4.5%27.3%9.1%27.3%100.0%占饮料类型的百分比63.6%16.7%60.0%25.0%40.0%44.0%占总计的百分比14.0%2.0%12.0%4.0%12.0%44.0%女计数4546928占性别的百分比14.3%17.9%14.3%21.4%32.1%100.0%占饮料类型的百分比36.4%83.3%40.0%75.0%60.0%56.0%占总计的百分比8.0%10.0%8.0%12.0%18.0%56.0%总计计数1161081550占性别的百分比22.0%12.0%20.0%16.0%30.0%100.0%占饮料类型的百分比100.0%100.0%100.0%100.0%100.0%100.0%占总计的百分比22.0%12.0%20.0%16.0%30.0%100.0%性别*饮料类型交叉表计数
饮料类型总计茶类饮料果汁矿泉水其他饮料碳酸饮料性别男7162622女4546928总计1161081550
2.1
生成频数分布表数值数据的频数分布表——数据分组——类别化处理——例题分析【例2-3】某电脑公司2021年前4个月的销售额数据如表2-6所示。对数据额做适当分组,分析销售额的分布特征234159187155172183182177163158143198141167194225177189196203187160214168173178184209176188161152149211196234185189196206150161178168174153186190160171228162223170165179186175197208153163218180175144178191197192166196179171233179187173174210154164215233175188237194198168174226180172190172187189200211156165175210207181205195201172203165196172176182188195202213
2.1
生成频数分布表数值数据的频数分布表——数据分组——类别化处理——例题分析
销售额分组(万元)天数(天)频率(%)140-15043.3315--16097.50160-1701613.33170-1802722.50180-1902016.67190-2001714.17200-210108.33210=22086.67220-23043.33230-24054.17合计120100.00某电脑公司2021年前4个月销售额的分组表
条形图(barplot)是用一定宽度和高度的矩形表示各类别频数多少的图形,主要用于展示类别数据的频数分布绘制条形图时,各类别可以放在x轴(横轴),也可以放在y轴(纵轴)。类别放在x轴的条形图称为垂直条形图(verticalbarplot)或柱形图,类别放在y轴的条形图称为水平条形图(horizontalbarplot)只有一个类别变量时,可以绘制简单条形图和帕累托图;有两个类别变量时,可以绘制簇状条形图或堆积条形图
2.2
类别数据可视化类别数据可视化——简单条形图和帕累托图——简单条形图
2.2
类别数据可视化类别数据可视化——简单条形图和帕累托图——简单条形图——例题分析【例2-4】沿用例2-1
2.2
类别数据可视化类别数据可视化——简单条形图和帕累托图——帕累托图——例题分析【例2-4】沿用例2-1帕累托图(paretoplot)是以意大利经济学家V.Pareto的名字而命名按各类别的频数多少降序排列后绘制的条形图帕累托图可以看做是简单条形图的一个变种,利用该图很容易看出哪类频数出现得多,哪类频数出现得少
2.2
类别数据可视化类别数据可视化——簇状条形图和堆积条形图——例题分析【例2-5】沿用例2-1当有据两个类别变量时,可以将两个变量的条形图以簇状或堆积的方式绘制,这就是簇状条形图和堆积条形图簇状条形图中,一个类别变量作为坐标轴,另一个类别变量各类别频数的条形并列摆放在堆积条形图中,一个类别变量作为坐标轴,另一个类别变量各类别的频数按比例堆叠在同一个条中
2.2
类别数据可视化类别数据可视化——饼图和环形图——饼图——例题分析【例2-6】沿用例2-1饼图(piechart)是用圆形及圆内扇形的角度来表示一个样本(或总体)中各类别的频数占总频数比例大小的图形对于研究结构性问题十分有用
2.2
类别数据可视化类别数据可视化——饼图和环形图——环形图——例题分析【例2-7】为研究不同地区的消费者对网上购物的满意度,随机抽取东部、中部和西部的2000个消费者进行调查,得到的结果如表2-8所示。绘制环形图,分析各类别的人数构成状况环形图与饼图类似,但又有区别。环形图中间有一个“空洞”,每个样本用一个环来表示,样本中每一类别的频数构成用环中的一段表示环形图可显示多个样本各类别频数占其相应总频数的比例,从而有利于构成的比较研究东部中部西部总计非常满意104140132376比较满意156108120384一般148148160456不满意156108140404非常不满意156116108380总计7206206602000
2.2
数值数据的图表展示数值数据可视化——展示分布的图形——直方图直方图——将数据分组后,在x轴上用矩形的宽度表示每个组的组距,在y轴上用矩形的高度表示每个组的频数或密度,多个矩形并列在一起就是直方图利用直方图的形状可以观察数据分布的特征几种不同分布形状的直方图
2.3
数值数据可视化数值数据可视化——展示分布的图形——直方图——与条形图的区别与条形图的区别条形图中的每一矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列条形图主要用于展示类别数据,而直方图则主要用于展示数值数据
2.2
数值数据的图表展示数值数据可视化——展示分布的图形——直方图——例题分析【例2-8】2020年1月—6月北京市的PM2.5数据。绘制直方图分析PM2.5的分布特征日期1月2月3月4月5月6月135921910819251312516552335018141459424431011233485612638304812…………………27158285419662817165105937552970864561592830466890531531446411
2.2
数值数据的图表展示数值数据可视化——展示分布的图形——直方图——例题分析组距为15,下溢箱为10,溢出箱为180组距=15默认组距【例2-8】
2.3
数值数据可视化数值数据可视化——展示分布的图形——茎叶图用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留最后一位数字茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数据
2.3
数值数据可视化数值数据可视化——展示分布的图形——茎叶图——例题分析【例2-9】沿用例2-8图中的第1列给出每个茎上叶子的频数(显示为频率),第2列是“茎”(Stem),第3列是“叶”下面标出了极端值的个数,共有11个(系统自动将>=117的数值定义为极端值。茎的宽度为10,每个叶代表一个数据(案例)。图2-11显示,PM2.5主要分布在10~19之间,有35个叶子,即出现35天。从叶子的分布看,PM2.5呈现右偏分布PM2.5茎叶图频率Stem&叶
21.000.35566777777888888999935.001.0000000111112244444567777788889999924.002.00111133333356666788889926.003.0000112344445555667778899920.004.0111112233444556788918.005.00011113355556899913.006.01112344566688.007.001225562.008.562.009.072.0010.8911.00极值(>=117)
主干宽度:10
每个叶:1个案
2.3
数值数据可视化数值数据可视化——展示分布的图形——箱形图
箱形图的示意图
2.2
数值数据可视化数值数据可视化——展示分布的图形——箱形图不同分布对应的箱形图
2.3
数值数据可视化数值数据可视化——展示分布的图形——箱形图——例题分析【例2-9】沿用例2-8图中,“
”和对应的数字表示离群点的位置及其数值。图2显示,2月份的PM2.5数值较高(中位数较大),4月份的PM2.5数值较低(中位数较小)。从分布形状看,6月份PM2.5的分布大致为对称,其余月份PM2.5的分布均为右偏分布,其中,2月份PM2.5的分布偏斜程度最大,其次是1月份和3月份。这几个月均出现了较多的离群值
2.3
数值数据可视化数值数据可视化——展示变量间关系的图形——散点图
【例2-11】我国2019年我国31个地区的地区生产总值、房地产开发投资和社会消费品零售总额数据。绘散点图观察它们之间的关系地区地区生产总值房地产开发投资社会消费品零售总额北京市35371.33838.415063.7天津市14104.32727.84218.2河北省35104.54347.112985.5山西省17026.71656.57030.5内蒙古自治区17212.51042.05051.1…………陕西省25793.23903.710213.0甘肃省8718.31257.93700.3青海省2966.0406.3948.5宁夏回族自治区3748.5403.11399.4新疆维吾尔自治区13597.11074.03617.0
2.3
数值数据可视化数值数据可视化——展示变量间关系的图形——散点图——例题分析普通散点图矩阵散点图【例2-11】重叠散点图
2.3
数值数据可视化数值数据可视化——展示变量间关系的图形——气泡图——例题分析普通散点图只能展示两个变量间的关系对于3个变量之间的关系,除了可以绘制三维散点图外,也可以绘制气泡图(bubblechart),它可以看作是散点图的一个变种在气泡图中,第3个变量数值的大小用圆的大小表示。【例2-11】绘气泡图观察它们之间的关系
2.3
数值数据可视化数值数据可视化——展示样本相似性的图形——雷达图——例题分析雷达图(radarchart)是从一个点出发,用每一条射线代表一个变量,多个变量的数据点连接成线,即围成一个区域,多个样本围成多个区域,就是雷达图可用于研究多个样本之间的相似程度。【例2-12】2018年北京、天津、上海和重庆的人均消费支出数据,绘制雷达图,比较不同地区的家庭消费支出的特点和相似性地区食品烟酒衣着居住生活用品及服务交通通信教育文化娱乐医疗保健其他用品及服务北京8064.92175.514110.32371.94767.43999.43274.51078.6天津8647.51990.06406.31818.44280.93186.62676.9896.3上海10728.22036.814208.52095.54881.25049.43070.21281.5重庆6220.81454.53498.81338.92545.02087.81660.0442.8
2.3
数值数据可视化数值数据可视化——展示样本相似性的图形——雷达图——例题分析【例2-12】2018年北京、天津、上海和重庆的人均消费支出数据,绘制雷达图,比较不同地区的家庭消费支出的特点和相似性
2.3
数值数据可视化数值数据可视化——展示样本相似性的图形——轮廓图——例题分析轮廓图(outlinechart)也称为平行坐标图或多线图用x轴表示各样本,y轴表示每个样本的多个变量的取值,将同一样本的不同变量取值用折线连接,即为轮廓图【例2-12】2018年北京、天津、上海和重庆的人均消费支出数据,绘制轮廓图,比较不同地区的家庭消费支出的特点和相似性
2.3
数值数据可视化数值数据可视化——时间序列图形——折线图和面积图——例题分析时间序列是一种常见的数据形式,它是在不同时间点上记录的一组数据,如各年份的GDP数据、各月份的CPI数据、一年中各交易日的股票价格指数收盘数据等利用折线图(linechart)和面积图(areagraph),可以观察时间序列的变化模式和特征【例2-13】沿用例2-8。以例2-8中1月份和2月份的数据为例,绘制的PM2.5的折线图。
2.4
合理使用图表使用图表的注意事项一幅完整的图形大体上包括图形主体、标题、坐标轴注释等要素。图形主体用于表达数据信息标题用于注释图形的内容,一般包括数据所属的时间(when)、地点(where)和内容(what),此外,还应包括必要的图形编号。标题可以放在图的上方,也可放在图的下方坐标轴注释需要标示出坐标轴代表的变量名称,以便于阅读和理解图形的比例也十分重要,一般图形大致为4:3的一个矩形,过长或过高的图形都有可能歪曲数据,给人留下错误的印象THANKSTHEEND2024/9/16THEENDTHANKS用图形数据特征探索2024/9/16
2024/9/16统计学(第8版)教育部经济管理类核心课程教材“十二五”普通高等教育本科国家级规划教材北京高等教育精品教材北京高等学校优质本科教材课件2024/9/163.1描述水平的统计量3.2描述差异的统计量3.3描述分布形状的统计量
第3章用统计量描述性数据哪名运动员发挥更稳定思考以下问题
在2008年的第29届北京奥运会女子10米气手枪比赛中,每个运动员首先进行每组10枪共4组的预赛,根据预赛总成绩确定进入决赛的8名运动员。决赛时8名运动员再进行10枪射击,预赛成绩加上决赛成绩确定最后的名次。在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表所示
最后的比赛结果是,中国运动员郭文珺凭借决赛的稳定发挥,以总成绩492.3环夺得金牌,预赛排在第1名的俄罗斯运动员纳塔利娅·帕杰林娜以总成绩489.1环获得银牌,预赛排在第4名的格鲁吉亚运动员妮诺·萨卢克瓦泽以总成绩487.4环获得铜牌,而预赛排在第3名的蒙古国运动员卓格巴德拉赫·蒙赫珠勒仅以479.6环的成绩名列第8。
由此可见,在射击比赛中,运动员能否取得好的成绩,发挥的稳定性至关重要。那么,怎样评价一名运动员的发挥是否稳定呢?通过本章内容的学习就能很容易回答这样的问题纳塔利娅·
帕杰林娜郭文珺卓格巴德拉赫·
蒙赫珠勒妮诺·
萨卢克瓦泽维多利亚·
柴卡莱万多夫斯卡·
萨贡亚斯娜·
舍卡里奇10.010.09.39.89.38.110.28.510.510.010.39.410.39.610.010.48.710.010.49.29.910.210.48.39.510.19.99.910.610.19.210.210.29.89.310.510.39.510.710.510.49.19.89.48.510.49.29.99.79.710.710.710.610.59.410.09.510.89.29.19.810.79.39.39.79.210.88.69.69.9计统量描述思维导图用统计量描述数据描述水平平均数分位数中位数四分位数百分位数众数描述差异极差和四分位差方差和标准差离散系数标准分数描述分布形状偏度系数峰度系数
3.1
描述水平的统计量平均数
简单平均数加权平均数
平均数——简单平均数——例题分析【例3-1】在某年级中随机抽取30名学生,得到每名学生的统计学考试分数如表3-1所示。计算30名学生考试分数的平均数
3.1
描述水平的统计量859783616786559270868175915596868991668772925082799090859566
平均数——加权平均数——例题分析【例3-1】沿用例3-1。假定将30名学生的数学考试分数分组后结果表3-2所示。计算考试分数的平均数
3.1
描述水平的统计量分组组中值(m)人数(f)60以下55360~7065470~8075480~90851090~100959合计—30分组60以下55316560~7065426070~8075430080~90851085090~100959855合计—302430
分位数——中位数——例题分析分位数——一组数据按从小到大排序后,可以找出排在某个位置上的数值,该数值可以代表数据水平的高低。这些位置上的数值就是相应的分位数(quantile)。常用的分位数有中位数、四分位数、百分位数等中位数——排序后处于中间位置上的值。不受极端值影响位置确定数值计算
3.1
描述水平的统计量分位数——四分位数——例题分析四分位数——一组数据排序后处在25%和75%位置上的数值它是用3个点将全部数据等分为4部分,其中每部分包含25%的数据。中间的四分位数就是中位数,通常所说的四分位数是指处在25%位置上和75%位置上的两个数值位置确定
3.1
描述水平的统计量分位数——百分位数——例题分析百分位数——用99个点将数据分成100等份,处在各分位点上的数值就是百分位数百分位数提供了各项数据在最小值和最大值之间分布的信息位置确定
3.1
描述水平的统计量众数——各统计量的比较众数——一组数据中出现次数最多的变量值一组数据可能没有众数或有几个众数适合于数据量较多时使用实际中很少使用平均数易受极端值影响数学性质优良,实际中最常用数据对称分布或接近对称分布时代表性较好中位数不受极端值影响数据分布偏斜程度较大时代表性接好众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时代表性较好
3.1
描述水平的统计量极差和四分位差
3.2
描述差异的统计量
方差和标准差方差——各变量值与均值的平均差异标准差——上四分位数与下四分位数之差
样本标准差s
3.2
描述差异的统计量
样本标准差s
原始数据分组数据方差和标准差——例题分析【例3-8】沿用例3-2。根据表3-2的分组数据,计算考试分数的标准差
3.2
描述差异的统计量分组60以下553625187560~7065422590070~807542510080~9085102525090~1009592252025合计—30—5150
离散系数——例题分析离散系数——标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较计算公式为【例3-5】评价哪名运动员的发挥更稳定
3.2
描述差异的统计量纳塔利娅·
帕杰林娜郭文珺卓格巴德拉赫·
蒙赫珠勒妮诺·
萨卢克瓦泽维多利亚·
柴卡莱万多夫斯卡·
萨贡亚斯娜·
舍卡里奇10.010.09.39.89.38.110.28.510.510.010.39.410.39.610.010.48.710.010.49.29.910.210.48.39.510.19.99.910.610.19.210.210.29.89.310.510.39.510.710.510.49.19.89.48.510.49.29.99.79.710.710.710.610.59.410.09.510.89.29.19.810.79.39.39.79.210.88.69.69.9离散系数——例题分析【例3-5】评价哪名运动员的发挥更稳定
3.2
描述差异的统计量运动员国家平均环数标准差离散系数纳塔利娅·帕杰林娜俄罗斯9.810.61540.0627郭文珺中国10.230.43730.0427卓格巴德拉赫·蒙赫珠勒蒙古国9.260.70740.0764妮诺·萨卢克瓦泽格鲁吉亚10.140.54610.0539维多利亚·柴卡白俄罗斯9.800.64980.0663莱万多夫斯卡·萨贡波兰9.730.73340.0754亚斯娜·舍卡里奇塞尔维亚9.690.35730.0369米拉·内万苏芬兰9.650.46250.0479标准分数——例题分析标准分数——也称标准化值对某一个值在一组数据中相对位置的度量可用于判断一组数据是否有离群点(outlier)用于对变量的标准化处理计算公式为【例3-10】例3-9的标准分数——SPSS输出
3.2
描述差异的统计量标准分数——经验法则与切比雪夫不等式——判断数据的离群点经验法则——当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内切比雪夫不等式——如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内
3.2
描述差异的统计量偏度系数
3.3
描述分布形状的统计量
计算公式
峰度系数峰度(kurtosis)——指数据分布峰值的高低由统计学家K.Pearson于1905年首次提出峰度系数—测度一组数据分布峰值高低的统计量是(coefficientofkurtosis),记作K计算公式
3.3
描述分布形状的统计量
SPSS和Excel综合输出使用SPSS的【分析】
【描述统计】
【频率】(或【描述】)使用Excel【数据】
【数据分析】
【描述统计】
3.3
描述数据的统计量统计分数
个案数有效30缺失0平均值80.00中位数85.00众数86标准偏差13.214方差174.621偏度-.831偏度标准误差.427峰度-.351峰度标准误差.833范围47百分位数2569.255085.007590.25列1平均80标准误差2.412611中位数85众数86标准差13.21441方差174.6207峰度-0.35146偏度-0.83136区域47最小值50最大值97求和2400观测数30SPSS输出的30名学生考试分数描述统计量Excel输出的30名学生考试分数描述统计量THANKSTHEEND2024/9/16THEENDTHANKS概括数据特征度量2024/9/16
2024/9/16统计学(第8版)教育部经济管理类核心课程教材“十二五”普通高等教育本科国家级规划教材北京高等教育精品教材北京高等学校优质本科教材课件2024/9/164.1什么是概率4.2随机变量概率分布4.3其他几个主要的统计分布4.4样本统计量的概率分布
第4章概率分布
神舟七号飞船遭遇空间碎片的概率有多大思考以下问题2008年9月25日21时10分,搭载着神舟七号载人飞船的长征二号F型运载火箭在酒泉卫星发射中心成功发射升空。神舟七号飞船在完成中国航天员首次太空行走和各项科学实验任务后,于2008年9月28日17时38分安全返回。太空中充斥着难以计数的空间碎片,随时会给飞船带来致命的冲击。据中国科学院空间环境研究预报中心预测,神舟七号载人航天飞船在飞行期间遭遇空间碎片的概率在百万分之一以下。据中国科学院空间环境研究预报中心预测专家说,世界各国联合起来对10~30厘米的大块碎片进行监测,是能够发现它的轨迹的。但对于较小的碎片,人类的观测设备没有办法观测到,因此还没有办法较为准确地掌握它的运行轨迹,只能通过它碰撞、破碎的演化规律来尽可能多地了解它的运行。目前可被地面观测设备观测并测定其轨道的空间物体超过9000个,其中只有6%是仍在工作的航天器,其余均为空间碎片。在神舟七号载人飞船飞行期间,预计将有10个左右的危险时段可能会遭遇空间碎片的碰撞,只要避开这些危险时段,碰撞的概率都在百万分之一以下。即使是在那几个危险的时段,飞船或航天员与空间碎片碰撞的概率也在万分之一以下。中国科学院空间环境研究预报中心专家称,这种小概率事件意味着我们几乎可以保证飞船不会与空间碎片相撞思维导图随机变量的概率分布离散型分布二项分布泊松分布超几何分布连续型分布正态分布其他分布卡方分布t分布F分布统计量分布样本均值的分布样本比例的分布样本方差的分布
4.1
什么是概率概率
4.2
随机变量的概率分布随机变量及其概括性度量——随机变量事先不知道会出现什么结果,一般用
X,Y,Z
来表示投掷两枚硬币出现正面的数量一座写字楼,每平方米的出租价格一个消费者对某一特定品牌饮料的偏好离散型随机变量随机变量X取有限个值或所有取值都可以逐个列举出来以确定的概率取这些不同的值连续型随机变量可以取一个或多个区间中任何值所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点
4.2
随机变量的概率分布随机变量的概括性度量——离散型——期望值和方差
【例4-1】一家电脑配件供应商声称,它所提供的配件100个中拥有次品的个数X及相应的概率如表4-1所示。求该供应商配件次品数的期望值和标准差次品数X=xi0123概率P(X=xi)
pi0.750.120.080.05
4.2
随机变量的概率分布随机变量的概括性度量——连续型——期望值和方差期望值方差
4.2
随机变量的概率分布随机变量的概率分布——离散型
4.2
随机变量的概率分布随机变量的概率分布——离散型——二项分布二项分布建立在Bernoulli试验基础上贝努里试验满足下列条件一次试验只有两个可能结果,即“成功”和“失败”“成功”是指我们感兴趣的某种特征一次试验“成功”的概率为p,失败的概率为q=1-p,且概率p对每次试验都是相同的试验是相互独立的,并可以重复进行n次在n次试验中,“成功”的次数对应一个离散型随机变量X
4.2
随机变量的概率分布随机变量的概率分布——离散型——二项分布——例题分析【例4-2】已知5已知一批产品的次品率为4%,从中有放回地抽取5个。求5个产品中(1)没有次品的概率(2)恰好有1个次品的概率(3)有3个及3个以下次品的概率
4.2
随机变量的概率分布随机变量的概率分布——离散型——泊松分布——例题分析
4.2
随机变量的概率分布随机变量的概率分布——离散型——超几何分布——例题分析采用不重复抽样,各次试验并不独立,成功的概率也互不相等总体元素的数目N很小,或样本容量n相对于N来说较大时,样本中“成功”的次数则服从超几何概率分布概率分布函数为
4.2
随机变量的概率分布随机变量的概率分布——连续型——正态分布连续型随机变量可以取某一区间或整个实数轴上的任意一个值它取任何一个特定的值的概率都等于0不能列出每一个值及其相应的概率通常研究它取某一区间值的概率用概率密度函数的形式和分布函数的形式来描述常见的连续型概率分布有正态分布(normaldistribution)、均匀分布(uniformdistribution)和指数分布(exponentialdistribution)等正态分布由C.F.高斯(CarlFriedrichGauss,1777—1855)作为描述误差相对频数分布的模型而提出描述连续型随机变量的最重要的分布许多现象都可以由正态分布来描述可用于近似离散型随机变量的分布,如二项分布经典统计推断的基础概率密度函数
4.2
随机变量的概率分布随机变量的概率分布——连续型——正态分布正态分布图形是关于x=
对称钟形曲线,且峰值在x=
处均值
和标准差
一旦确定,分布形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族”均值
可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度。
越大,正态曲线扁平;
越小,正态曲线越高陡峭X的取值向横轴左右两个方向无限延伸,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1不同均值和标准差对应的正态曲线
4.2
随机变量的概率分布随机变量的概率分布——连续型——标准正态分布标准正态分布随机变量具有均值为0,标准差为1的正态分布任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布标准正态分布的概率密度函数常用区间的正态概率
4.2
随机变量的概率分布随机变量的概率分布——连续型——正态分布——概率计算
4.2
随机变量的概率分布其他几个重要的统计分布——连续型——卡方分布
不同自由度的的卡方分布的图像
4.2
随机变量的概率分布其他几个重要的统计分布——连续型——卡方分布——例题分析【例4-6】计算:(1)自由度为8,χ2值大于10的概率;(2)自由度为10,χ2分布右尾概率为0.05时的函数值(在估计和检验中称为临界值)解:(1)在Excel工作表的任意单元格中输入“=CHISQ.DIST.RT(10,8)”,得到χ2分布的右尾概率为0.265026(2)在Excel工作表的任意单元格中输入“=CHISQ.INV.RT(0.05,10)”,得到χ2=18.307
4.2
随机变量的概率分布其他几个重要的统计分布——连续型——t分布
T分布与标准正态分布曲线的比较【例4-6】计算:(1)自由度为10,t值大于2的概率;(2)自由度为10,t分布双尾概率为0.05时的t值解:(1)在Excel工作表的任意单元格中输入“=T.DIST.RT(2,10)”,得到t分布的概率为0.03669。(2)在Excel工作表的任意单元格中输入“=T.INV.2T(0.05,10)”,得到相应的t值为2.2281
4.2
随机变量的概率分布其他几个重要的统计分布——连续型——F分布
不同自由度的F分布【例4-7】计算:(1)分子自由度为10,分母自由度为8,F值大于3的概率;(2)分子自由度为10,分母自由度为8,F分布右尾概率为0.05时的F值解:(1)在Excel工作表的任意单元格中输入“=F.DIST.RT(3,10,8)”,得到F分布的概率为0.06645。(2)在Excel工作表的任意单元格中输入“=F.INV.RT(0.05,10,8)”,得到F值为3.34716。
4.3
样本统计量的概率分布统计量及其分布——参数和统计量——概率分布
统计量的概率分布样本统计量的概率分布,也称抽样分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供样本统计量长远而稳定的信息,进行推断的理论基础
4.3
样本统计量的概率分布统计量及其分布——样本均值的分布与中心极限定理样本均值的分布在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值
的理论基础中心极限定理从均值为
,方差为
2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布样本均值的分布与总体分布及样本量的关系
4.3
样本统计量的概率分布统计量及其分布——样本均值的分布与中心极限定理
【例4-8】设一个总体含有5个元素,211/25322/25433/25544/25655/25744/25833/27922/251011/25
4.3
样本统计量的概率分布统计量及其分布——样本均值的分布与中心极限定理中心极限定理的模拟从0~100均匀分布的总体和指数分布的总体中,分别抽取样本量为2、10和30的5000个样本,样本均值的分布如图所示图中的U表述均匀分布,E表述指数分布。可以看出,随着样本量的增大,样本均值的分布逐渐趋于正态分布
4.3
样本统计量的概率分布统计量及其分布——样本方差的分布
4.3
样本统计量的概率分布统计量及其分布——样本比例的分布
4.3
样本统计量的概率分布统计量及其分布——样本比例的分布
4.3
样本统计量的概率分布统计量及其分布——统计量分布的标准误统计量的抽样分布的标准差,简称标准误差衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误以样本均值为例:当总体标准差
未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为样本均值和样本比例的标准误分别为
样本均值的标准误样本比例的标准误
THANKSTHEEND2024/9/16THEENDTHANKS分布推断基础是2024/9/16
2024/9/16统计学(第8版)教育部经济管理类核心课程教材“十二五”普通高等教育本科国家级规划教材北京高等教育精品教材北京高等学校优质本科教材课件2024/9/165.1参数估计的基本原理5.2总体均值的区间估计5.3总体比例的区间估计5.4总体方差的区间估计5.4样本量的确定第5章参数估计思维导图参数估计一个总体均值大样本小样本正态总体方差已知正态分布正态总体方差未知t分布比例大样本正态分布方差正态总体卡方分布两个总体均值差独立大样本正态分布独立小样本两正态总体方差已知正态分布两正态总体方差未知t分布配对样本t分布比例差独立大样本正态分布方差比两正态总体F分布推断原理参数估计方法大学生每周上网花多少时间思考以下问题为了解学生每周上网花费的时间,中国人民大学公共管理学院的4名本科生对全校部分本科生做了问卷调查。调查的对象为中国人民大学在校本科生,调查内容包括上网时间、途径、支出、目的、关心的校园网内容,以及学生对上网收费的态度,包括收费方式、收费金额等。调查问卷由调查员直接到宿舍发放并当场收回。对4个年级中每个年级各发60份问卷,其中男、女生各30份,共收回有效问卷200份,其中有关上网时间方面的数据经整理如下表所示回答类别人数(人)频率(%)3小时以下32163~6小时3517.56~9小时3316.59~12小时2914.512小时以上7135.5合计200100
5.1
参数估计的基本原理点估计与区间估计
点估计——用样本的估计量的某个取值直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估计;用两个样本均值之差直接作为总体均值之差的估计点估计无法给出估计值接近总体参数程度的信息由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值一个点估计量的可靠性是由它的标准误来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量
5.1
参数估计的基本原理点估计与区间估计区间估计——在点估计的基础上,给出总体参数估计的一个估计区间,该区间由样本统计量加减估计误差而得到置信水平——如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平,也称为置信度或置信系数(confidencecoefficient)。常用的置信水平有90%、95%和99%。区间估计的图示
5.1
参数估计的基本原理点估计与区间估计——区间估计的表述置信区间—由样本估计量构造出的总体参数在一定置信水平下的估计区间。统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间。同样,其他置信水平的区间也可以用类似的方式进行表述总体参数的真值是固定的,而用样本构造的区间则是不固定的,因此置信区间是一个随机区间,它会因样本的不同而变化,而且不是所有的区间都包含总体参数实际估计时往往只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平(比如95%)下的置信区间。我们希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个当抽取一个具体的样本,用该样本所构造的区间是一个特定的常数区间,无法知
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 体检科主任先进事迹(7篇)
- 二级职称专业技术工作总结(5篇)
- 企业举办年会总结主持词结束语
- DB12T 487-2013 放射性同位素与射线装置安全使用管理制度编制规范
- 书香校园演讲稿模板九篇
- 中考前国旗下讲话稿
- 个人师德师风剖析材料范文(6篇)
- 与感恩同行演讲稿锦集六篇
- DB12∕T 1048-2021 蚯蚓养殖技术规程
- 验光技术课件教学课件
- 2024产学研合作框架协议
- 2023年甘肃省工程设计研究院有限责任公司招聘笔试真题
- 2024年新中国成立75周年课件
- 2022部编版道德与法治三年级下册《请到我的家乡来》教学设计
- 《剪映专业版:短视频创作案例教程(全彩慕课版)》 课件 第6章 创作生活Vlog
- 中国燃气招聘笔试题库2024
- 左邻右舍一家亲(教学设计)-2023-2024学年五年级上册综合实践活动蒙沪版
- 重大事故隐患判定标准与相关事故案例培训课件
- 火龙罐综合灸疗法
- 深圳市中小学生流感疫苗接种知情同意书
- 数据、模型与决策(运筹学)课后习题和案例答案007
评论
0/150
提交评论