




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
贾俊平2025/3/19统计学—基于SPSS(第5版)
21世纪统计学系列教材课程内容描述统计、推断统计、其他方法使用软件SPSS学分与课时
3学分,1~17周,每周3课时课程简介贾俊平2025/3/191.1统计学及其应用1.2数据及其来源1.3统计学与统计软件
第1章数据与统计学问题与思考—怎样理解统计结论思考以下问题吸烟对健康是有害的,吸香烟的男性减少寿命2250天不结婚的男性会减少寿命3500天,不结婚的女性会减少寿命1600天身体超重30%会使寿命减少1300天每天摄取500毫升维生素C,生命可延长6年身材高的父亲,其子女的身材也较高一项研究表明:杰出科学家做出重大贡献的最佳年龄区在25~45岁之间,其最佳峰值年龄和首次贡献的最佳成名年龄随着时代的变化而逐渐增大上课坐在前面的学生平均考试分数比坐在后面的学生高中国科学院空间环境研究预报中心的专家称,在神舟七号载人航天飞行期间,飞船遭遇空间碎片的概率在百万分之一以下
1.1
统计学及其应用什么是统计学统计学——收集、处理、分析、解释数据并从数据中得出结论的科学描述性方法研究数据收集、整理和描述的统计学方法描述数据特征,找出数据的基本规律内容包括:数据收集、处理、展示、描述性分析推断性方法研究如何利用样本数据来推断总体特征的统计学方法对总体特征作出推断内容包括:参数估计和假设检验
1.1
统计学及其应用统计学研究什么统计学研究的是来自各领域的数据统计学没有任何固定的对象,是一门独特的学问用于解决其他领域内的问题按萨维奇(L.J.Savage)的说法:统计学基本上是寄生的。靠研究其他领域内的工作而生存。这不是对统计学的轻视,这是因为对很多寄主来说,如果没有寄生虫就会死。对有的动物来说,如果没有寄生虫就不能消化它们的食物。因此,人类奋斗的很多领域,如果没有统计学,虽然不会死亡,但一定会变得很弱
1.1
统计学的应用统计学的应用领域——几个例子【例1-1】——用统计识别作者
1787—1788年,三位作者AlexanderHamilton,JohnJay和JamesMadison为了说服纽约人认可宪法,匿名发表了著名的85篇论文。这些论文中的大多数作者已经得到了识别,但是,其中的12篇论文的作者身份引起了争议通过对不同单词的频数进行统计分析,得出的结论是,JamesMadison最有可能是这12篇论文的作者。现在,对于这些存在争议的论文,认为JamesMadison是原创作者的说法占主导地位,而且几乎可以肯定这种说法是正确
1.1
统计学的应用统计学的应用领域——几个例子【例1-2】——用简单的描述统计量得到一个重要发现费舍(R.A.Fisher)在1952的一篇文章中举了一个例子,说明如何由基本的描述统计量的知识引出一个重要的发现。20世纪早期,哥本哈根卡尔堡实验室的施密特(J.Schmidt)发现不同地区所捕获的同种鱼类的脊椎骨和鳃线的数量有很大不同;甚至在同一海湾内不同地点所捕获的同种鱼类,也发现这样的倾向然而,鳗鱼的脊椎骨的数量变化不大。施密特从欧洲各地、冰岛、亚速尔群岛以及尼罗河等几乎分离的海域里所捕获的鳗鱼的样本中,计算发现了几乎一样的均值和标准偏差值。由此,施密特推断所有各个不同海域内的鳗鱼是由海洋中某公共场所繁殖的。后来名为“戴纳(Dana)”的科学考察船在一次远征中发现了这个场所
1.1
统计学的应用统计学的应用领域——几个例子
1.1
统计学的应用统计学误用与滥用统计滥用不好的样本或过小的样本误导性图表局部描述故意曲解统计应用上的两个极端——不用或几乎不用统计;简单问题复杂化在统计应用中,这两个极端都是不可取的简单的方法不一定没用,复杂的方法也不一定有用。正如有的学者所说的,最简单的模型往往是最有用的统计应该恰当地应用到它能起作用的地方。不能把统计神秘化,更不能歪曲统计,把统计作为掩盖实事的陷阱
1.2
数据及其来源变量与数据——变量及其分类变量(variable)观察一个企业的销售额,这个月和上个月不同;观察股票市场上涨股票的家数,今天与昨天数量不一样;观察一个班学生的生活费支出,一个人和另一个人不一样;投掷一枚骰子观察其出现的点数,这次投掷的结果和下一次也不一样“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”等就是变量数据(data)变量的观测结果变量的分类类别变量(定性)无序类别变量(名义值)有序类别变量(顺序值)数值变量(定量)离散变量(离散值)连续变量(连续值)
1.2
数据及其来源变量与数据——变量及其分类类别变量(categoricalvariable)取值为事物属性或类别以及区间值的变量,也称分类变量(classifiedvariable)或定性变量(qualitativevariable)比如,观察人的性别、公司所属的行业、用户对商品的评价时,得到的结果就不是数字,而是用法文字表示的类别类别变量根据取值是否有序分为两种名义(nominal)值类别变量也称无序类别变量,其取值是不可以排序的顺序(ordinal)值类别变量也称有序类别变量,其取值间可以排序数值变量(metricvariable)取值为数字的变量,也称为定量变量(quantitativevariable)数值型变量根据其取值的不同,可以分为离散变量(discretevariable)和连续变量(continuousvariable)离散型变量是只能取有限个值是变量,而且其取值可以一一列举。连续型变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举数据(data)变量的观察结果二手数据抽取样本总体(population):包含所研究的全部个体(或数据)的集合样本(sample):从总体中抽取的一部分元素的集合样本量(samplesize):构成样本的元素的数目概率抽样方法根据已知的概率抽取样本元素,也称随机抽样数据的来源简单随机抽样从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中抽取元素的具体方法有放回抽样和无放回抽样分层抽样将总体单位按某种特征或规则划分为不同层,再从不同的层中随机地抽取样本系统抽样将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本元素整群抽样将总体中若干个单位合并为组(群),抽样时直接抽取群,再对中选群中的所有单位全部实施调查
1.2
数据及其来源
SPSS操作第1步:选择【数据】
【选择个案】第2步:在【选择】下点击【随机个案样本】
【样本】第3步:在【样本大小】
【大约】后写入要抽取的个案百分比(比如要抽取全部记录的30%的样本,则输入30)。若要抽取指定样本量的一个随机样本,则在【正好为】后写入指定的样本量;在【来自前】后写入指定从前若干个记录中抽取。比如,要在50人里面抽取10人,在【正好为】后写入10,在【来自前】后写入50。点击【继续】返回主对话框。单击【确定】抽取随机样本——SPSS应用
1.2
数据及其来源【例1-4】从一个班级50个学生的名单,采用简单随机抽样抽出10个学生组成一个随机样本SPSSR——基于R语言的一种优秀的统计软件。在CRAN网站/上下载R的各种版本Python——一种面向对象的解释型高级编程语言,并拥有丰富而强大的开源第三方库,也具有强大的数据分析可视化功能SAS——统计分析系统(StatisticalAnalysisSystem)的缩写Eviews——EconometricsViews的缩写,通常称为计量经济学软件包EXCEL——Microsoft公司推出的Office系列产品之一,是一个功能强大的电子表格软件常用统计软件
1.3
统计学与统计软件思维导图描述应用推断统计方法分类与本书框架描述方法数据分析基础图表展示第2章图表展示统计量描述第3章概括性度量推断方法推断理论与方法推断理论基础第4章概率分布估计原理与方法第5章参数估计检验原理与方法第6章假设检验其他方法关系分析类别变量与类别变量第7章类别变量分析因变量:数值自变量:类别第8章方差分析因变量:数值自变量:数值或类别第9章一元线性回归第10章多元线性回归预测时间序列第11章时间序列预测思维导图统计方法分类与本书框架描述方法数据分析基础图表展示第2章用图表展示数据统计量描述第3章用统计量描述数据推断方法统计方法基础推断理论基础第4章概率分布估计原理与方法第5章参数估计检验原理与方法第6章假设检验其他方法关系分析类别变量与类别变量第7章类别变量推断因变量:数值自变量:类别第8章方差分析与实验设计因变量:数值自变量:数值或类别第9章一元线性回归第10章多元线性回归预测时间序列第11章时间序列预测非参数检验参数方法不适应的情形第12章非参数检验THANKSTHEEND2025/3/19THEENDTHANKS统计聪明使人贾俊平2025/3/19统计学—基于SPSS(第5版)贾俊平著中国人民大学出版社21世纪统计学系列教材课程内容描述统计、推断统计、其他方法使用软件SPSS学分与课时
3学分,1~17周,每周3课时课程简介贾俊平2025/3/192.1生成频数分布表2.2用图表展示类别数据2.3用图表展示数值数据2.4使用图表的注意事项第2章用图表展示数据问题与思考—怎样用图表看数据思考以下问题在2022年2月北京市和张家口市联合举办的第24届冬季奥林匹克运动会上,获得金牌前6名的国家奖牌数的分布状况如下表所示显然,用这样的一张表格来表示奖牌的分布就要比用文字来叙述更清晰。但是,如果我们用某种图形来表示这些数据,将会更加直观易懂。根据上面的数据,你认为可以选择哪些图形来展示这6个国家所获得的奖牌情况?你选择这些图形的理由是什么?学完本章的图表展示技术,问题就会迎刃而解排名国家金牌银牌铜牌合计1挪威16813372德国12105273中国942154美国8107255瑞典855186荷兰85417生成频数分布表列出各类别计算各类别的频数生成频数分布表
2.1
生成频数分布表类别数据的频数分布表计算描述统计量频数(frequency):落在各类别中的数据个数比例(proportion):某一类别数据个数占全部数据个数的比值百分比(percentage):将对比的基数作为100而计算的比值比率(ratio):不同类别数值个数的比值只涉及一个类别变量这个变量的各类别(取值)可以放在频数分布表中“行”的位置,也可以放在“列”的位置将该变量的各类别及其相应的频数列出来就是一个简单的频数表,也称为一维列联表
2.1
生成频数分布表类别数据的频数分布表——简单频数表——例题分析【例2-1】为研究人们对不同类型软饮料的偏好情况,一家调查公司在某超市随机调查了50名消费者。表2-1是消费者性别及其所偏好的饮料类型记录。生成频数分布表,观察不同性别的消费者及其所偏好的饮料类型的分布状况性别饮料类型性别饮料类型女碳酸饮料女茶类饮料男茶类饮料男矿泉水男矿泉水女茶类饮料女矿泉水女碳酸饮料男碳酸饮料女矿泉水男矿泉水男其他饮料…………男其他饮料女茶类饮料女碳酸饮料女其他饮料男茶类饮料女果汁男茶类饮料男茶类饮料女碳酸饮料女其他饮料男碳酸饮料女矿泉水
2.1
生成频数分布表类别数据的频数分布表——简单频数表——例题分析【例2-1】SPSS输出性别
频率百分比有效百分比累积百分比有效男2244.044.044.0女2856.056.0100.0总计50100.0100.0
饮料类型
频率百分比有效百分比累积百分比有效茶类饮料1122.022.022.0果汁612.012.034.0矿泉水1020.020.054.0其他饮料816.016.070.0碳酸饮料1530.030.0100.0总计50100.0100.0
涉及两个类别变量将一个变量的各类别放在“行”的位置,另一个变量的各类别放在“列”的位置(行和列可以互换)生成频数分布表,这样表格称为二维列联表(contingencytable),简称列联表或交叉表(crosstable)列联表主要用于反映两个类别变量的交叉频数分布状况
2.1
生成频数分布表类别数据的频数分布表——二维列联表
2.1
生成频数分布表类别数据的频数分布表——二维列联表——例题分析【例2-2】沿用例2-1。SPSS输出结果性别*饮料类型交叉表计数
饮料类型总计茶类饮料果汁矿泉水其他饮料碳酸饮料性别男7162622女4546928总计1161081550性别*饮料类型交叉表
饮料类型总计茶类饮料果汁矿泉水其他饮料碳酸饮料性别男计数7162622占性别的百分比31.8%4.5%27.3%9.1%27.3%100.0%占饮料类型的百分比63.6%16.7%60.0%25.0%40.0%44.0%占总计的百分比14.0%2.0%12.0%4.0%12.0%44.0%女计数4546928占性别的百分比14.3%17.9%14.3%21.4%32.1%100.0%占饮料类型的百分比36.4%83.3%40.0%75.0%60.0%56.0%占总计的百分比8.0%10.0%8.0%12.0%18.0%56.0%总计计数1161081550占性别的百分比22.0%12.0%20.0%16.0%30.0%100.0%占饮料类型的百分比100.0%100.0%100.0%100.0%100.0%100.0%占总计的百分比22.0%12.0%20.0%16.0%30.0%100.0%
2.1
生成频数分布表数值数据的频数分布表——数据分组——类别化处理——例题分析【例2-3】
某电商平台连续120天的销售额数据如表所示。生成频数分布表观察销售额的分布特征272197225183200217210205191186181236172195222253205217224238225198252196201206212237204216199196187239224248218217224234188199216196202181217218188199240200243198193207214203225235191172246208203172206219222220204234207199261207215207209238192161243252203216265222226196212254167200218205215218228233194171203238235209233226229206241203224200208210216223230243
2.1
生成频数分布表数值数据的频数分布表——数据分组——类别化处理——例题分析
销售额(分箱化)
频率百分比有效百分比累积百分比有效<=17021.71.71.7171-18043.33.35.0181-19075.85.810.8191-2001714.214.225522.547.5211-2202016.716.764.2221-2301613.313.377.5231-2401310.810.888.3241-25075.85.894.2251-26043.33.397.5261-27021.71.799.2271-2801.8.8100.0总计120100.0100.0
条形图(barchart)是用一定宽度的条形来表示各类别频数的图形,用于观察不同类别频数的多少或分布状况各类别可以放在横轴,也可以放在纵轴,将各类别放在横轴绘制的条形图也称为柱形图(columnchart)只有一个类别变量时,可以绘制简单条形图和帕累托图,有两个类别变量时,可以绘制簇状条形图或堆积条形图
2.2y用图形展示类别数据简单条形图和帕累托图——简单条形图简单条形图和帕累托图——简单条形图——例题分析【例2-1】
2.2y用图形展示类别数据简单条形图和帕累托图——帕累托图——例题分析【例2-1】帕累托图(paretoplot)是以意大利经济学家V.Pareto的名字而命名按各类别的频数多少降序排列后绘制的条形图帕累托图可以看做是简单条形图的一个变种,利用该图很容易看出哪类频数出现得多,哪类频数出现得少
2.2y用图形展示类别数据
簇状条形图和堆积条形图——例题分析【例2-1】当有据两个类别变量时,可以将两个变量的条形图以簇状或堆积的方式绘制,这就是簇状条形图和堆积条形图簇状条形图中,一个类别变量作为坐标轴,另一个类别变量各类别频数的条形并列摆放在堆积条形图中,一个类别变量作为坐标轴,另一个类别变量各类别的频数按比例堆叠在同一个条中
2.2y用图形展示类别数据饼图——例题分析【例2-1】饼图(piechart)是用圆形及圆内扇形的角度来表示一个样本(或总体)中各类别的频数占总频数比例大小的图形对于研究结构性问题十分有用
2.2y用图形展示类别数据展示数据分布——直方图直方图——将数据分组后,在x轴上用矩形的宽度表示每个组的组距,在y轴上用矩形的高度表示每个组的频数或密度,多个矩形并列在一起就是直方图利用直方图的形状可以观察数据分布的特征几种不同分布形状的直方图
2.3y用图形展示数值数据展示分布分布——直方图——例题分析【例2-2】
2.3y用图形展示数值数据展示数据分布——茎叶图用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留最后一位数字茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数据
2.3y用图形展示数值数据展示数据分布——茎叶图——例题分析【例2-2】图中的第1列给出每个茎上叶子的频数(显示为频率),第2列是“茎”(Stem),第3列是“叶”面列出了销售额中的一个极端值(系统自动将>=272的数值定义为极端值),茎的宽度(主干宽度)为10,每个叶代表一个数据(案例)。图2-9显示,销售额主要集中在200万元到210万元之间,共有27天。茎叶图类似于横置的直方图,它所反映的分布特征也与直方图基本一致
2.3y用图形展示数值数据
销售额茎叶图
频率Stem&叶
2.0016.174.0017.12227.0018.113678817.0019.1123456666788999927.0020.00001233333445556667777889920.0021.0022455666677778888916.0022.022234444555668913.0023.03344556788897.0024.01333684.0025.22342.0026.151.00极值(>=272)
主干宽度:10
每个叶:1个案展示数据分布——箱形图
箱形图的示意图
2.3y用图形展示数值数据展示数据分布——箱形图不同分布对应的箱形图
2.3y用图形展示数值数据展示数据分布——箱形图——例题分析【例2-3】
从某大学的5个学院中各随机抽取30名学生,得到英语考试分数的数据如表2-8所示。绘制箱线图分析不同学院学生英语考试分数的分布特征
2.3y用图形展示数值数据经济学院法学院商学院理学院统计学院74839070787781957374787195808684689175668577606080……………85769383726975867289776678738481769270697969839084展示数据分布——箱形图——例题分析【例2-3】图中“
”和对应的数字表示离群点的位置及其数值。图3-20显示,英语分数的整体水平(中位数或平均数)最高的是商学院,其次是经济学院和统计学院(二者差异不大),较低的是法学院和理学院(二者差异不大)。从分布形状看,除统计学院外,其他4个学院的平均数都低于中位数,表示英语分数的分布呈现一定的左偏分布,其中,经济学院的箱线图中出现了2个离群点,商学院出现了1个离群点(通过添加数据标签可观察期结果),统计学院的分数则大致对称
2.3y用图形展示数值数据展示数据分布——误差条形图——例题分析
2.3y用图形展示数值数据展示变量间关系——散点图及其解读
2.3y用图形展示数值数据展示变量间关系——散点图和矩阵散点图【例2-4】
2022年全国31个地区居民人均消费支出数据。绘制食品烟酒支出和居住的简单散点图以及8项支出的矩阵散点图
2.3y用图形展示数值数据地区食品烟酒衣着居住生活用品及服务交通通信教育文化娱乐医疗保健其他用品及服务北京9223.21860.817170.32193.34129.33008.03981.51116.8天津9313.11630.47468.11789.03888.62546.03555.51132.9河北6227.61350.94810.51314.52820.81864.32017.3484.3山西5058.21208.73960.81034.22078.21809.01943.6444.0内蒙古6269.41546.54836.31225.43457.82111.12262.7589.3辽宁7140.01477.24702.11249.72855.82303.72192.3682.9吉林5466.91158.83636.5871.52389.61848.02067.9458.4黑龙江6362.61358.93969.2948.52618.22103.92524.9525.8上海12653.01716.717073.52128.04529.23099.63616.51229.0江苏9138.71769.89073.01954.14586.92778.52564.0983.1浙江10931.52098.110557.72312.65823.33549.12533.51165.4安徽7678.81413.34925.11354.42483.82416.51749.6520.3福建9629.11469.58636.81586.93345.62807.21904.7661.9江西6946.21107.05057.41252.02624.12447.51856.0417.9山东6267.51485.94811.51668.23356.12566.22014.6470.3河南5466.91323.34143.51202.92355.92180.11920.1426.8湖北7519.51453.65385.21386.43432.82794.12299.9556.4湖南7046.61366.45038.41490.63135.33250.32295.7459.5广东11025.81178.38406.21636.04174.33196.31783.0768.8广西5873.0662.43892.6970.12438.52396.41803.3306.5海南8282.9700.15045.7900.32704.52129.71372.9364.3重庆8599.91698.04782.71656.63078.22585.02350.5620.2四川7738.31316.54361.81465.42806.42005.72105.4502.4贵州5607.11117.13414.31108.82729.82216.21373.7371.8云南6116.9939.64111.11008.12556.42028.01825.2365.4西藏5747.41305.13321.41092.02519.7792.8726.5380.8陕西5594.61171.34524.91254.92455.82001.12400.3445.5甘肃5364.21137.63918.51000.12322.21775.71612.6358.5青海5874.31211.93318.2953.42526.91175.21768.3432.5宁夏5643.91260.83681.81220.02719.02129.82067.2413.8新疆5765.31186.03303.41009.22357.01495.41968.5842.3展示变量间关系——散点图和矩阵散点图【例2-4】
2.3y用图形展示数值数据展示样本相似性的图形——平行坐标图——例题分析平行坐标图(parallelcoordinateplot)也称多线图或轮廓图(outlineplot),它用x轴表示各变量,用y轴表示变量的数值(x轴和y轴可以互换),将同一样本在不同变量上的观测值用折线连接起来就是平行坐标图观察平行坐标图中各折线的形状及其排列方式,可以比较各样本在多个变量上取值的相似性及差异【例2-4】
2.3y用图形展示数值数据展示时间序列——折线图和面积图——例题分析折线图是描述时间序列最基本的图形,它主要用于观察和分析时间序列随时间变化的形态和模式。折线图的x轴是时间,y轴是变量的观测值面积图是在折线图的基础上绘制的,它将折线与x轴之间的区域用颜色填充,填充的区域即为面积。面积图不仅美观,而且能更好地展示时间序列变化的特征和模式。将多个时间序列绘制在一幅图中时,序列数不宜太多,否则图形之间会有相互遮盖,看起来会很乱。当序列较多时,可以将每个序列单独绘制一幅图【例2-5】
2000年—2023年我国城镇居民和农村居民的人均可支配收入如表2-10所示。绘制折线图和面积图分析居民消费水平的变化特征
2.3y用图形展示数值数据年份城镇居民人均可支配收入村居民人均可支配收入年份城镇居民人均可支配收入村居民人均可支配收入20006256228220122412783892001682424072013264679430200276522529201428844104892003840626902015311951142220049335302720163361612363200510382337020173639613432200611620373120183925114617200713603432720194235916021200815549499920204383417131200916901543520214741218931201018779627220224928320133201121427739420235182121691展示时间序列——折线图和面积图——例题分析【例2-5】
2.3y用图形展示数值数据2000——2023年,无论是城镇居民还是农村居民,人均可支配收入都有逐年增长的趋势,而城镇居民人均可支配收入各年均高于农村居民,而且,随着时间的推移二者的差距有进一步扩大的趋势注意事项——图形标题主标题图形标题有主标题、副标题、坐标轴标题(标签)、图例标题等主标题是指一幅图的总标题,它主要用于注释图形的内容,一般包括图中数据所属的时间(when)、地点(where)和内容(what)3个要素坐标轴标题也称坐标轴标签,用于说明坐标轴代表的变量名称,以便于阅读和理解坐标轴标题除给出变量名称外,还应给出数据的计量单位(主要是针对数值)如果在上下文中给出了原始数据及其计量单位的信息,为使图形更简洁,也可以省略计量单位,否则,数据的计量单位就是必须的
2.4y使用图表的注意事项标题解析图(a)主标题只有编号,没有内容,没有坐标轴标题图(b)主标题没有给出时间和地点信息,不知道是哪个地区的地区生产总值,也不知道是什么时间的地区生产总值;y轴标题没有计量单位,无法理解数据的含义图(c)主标题只给出了地区信息,但没给出时间信息,不知道是什么时间的地区生产总值;二是y轴标题没有计量单位,同样难以理解图(d)是一幅完整的规范图形,主标题给出时间、地点和内容信息,y轴标题给出了计量单位,这样的图形就很容易理解
2.4y使用图表的注意事项注意事项——图形标题使用线性标尺的坐标轴绘图,数轴的数值起点应从0开始条形图的y轴须从0开始,时间序列图的y轴可根据需要确定2023年1月~12月某地区居民消费价格指数的折线图
2.4y使用图表的注意事项注意事项——坐标轴刻度起点二维图形是由4个点构成的一个矩形(当然有些图形也可以画出正方形如果把x轴定义为宽度(width),y轴定义为高度(height),图形宽度和高度的比例大致为10:7或4:3从视觉效果看,这样的图形比例能够更合理地展示数据,也易于对图形的解读,过宽或过高的图形都有可能歪曲数据,给人留下错误的印象2000~2023年我国发电量的折线图
2.4y使用图表的注意事项注意事项——图形比例思维导图可视化数据的图表展示生成频数表类别数据简单频数表二维列联表数值数据类别化分组表展示类别数据观察频数简单条形图帕累托图簇状条形图堆积条形图观察频数构成饼图展示数值数据展示数据分布直方图茎叶图箱线图误差条形图展示变量间关系散点图矩阵散点图展示样本相似性平行坐标图展示时间序列折线图面积图注意事项THANKSTHEEND2025/3/19THEENDTHANKS一图千言胜过贾俊平2025/3/19统计学—基于SPSS(第5版)贾俊平著中国人民大学出版社21世纪统计学系列教材课程内容描述统计、推断统计、其他方法使用软件SPSS学分与课时
3学分,1~17周,每周3课时课程简介贾俊平2025/3/193.1水平的描述3.2差异的描述3.3分布形状的描述3.4数据的综合描述
第3章数据的描述性分析:概括性度量问题与思考—如何分析空气质量思考以下问题空气质量由空气质量指数(AirQualityIndex,AQI)用描述,其数值越大,说明空气污染越严重。参与空气质量评价的主要污染物有细颗粒物(PM2.5)、可吸入颗粒物(PM10)、二氧化硫(SO2)、一氧化碳(CO)、二氧化氮(NO2)、臭氧浓度(O3)等6项。根据空气质量指数将空气质量分为6级:优(0~50)、良(51~100)、轻度污染(101~150)、中度污染(151~200)、重度污染(201~300)、严重污染(300以上);分别用绿色(green)、黄色(yellow)、橙色(orange)、红色(red)、紫色(purple)、褐红色(maroon)表示。下表是2024年3月1日—3月31日北京市的空气质量数据何分析这些数据呢?我们可以用直方图、茎叶图或箱线图等来描述AQI的分布状况,比如,分布是否对称等。除此之外,还可以做哪些分析?你认为可以用哪些统计量来描述考试成绩?这些统计量的用途是什么?选择这些统计量的理由是什么?本章介绍的描述性分析方法就将解决这些问题日期AQI质量等级日期AQI质量等级2024/3/137优2024/3/1743优2024/3/275良2024/3/18108轻度污染2024/3/356良2024/3/1970良2024/3/456良2024/3/2055良2024/3/577良2024/3/2183良2024/3/646优2024/3/2265良2024/3/750优2024/3/2377良2024/3/840优2024/3/2484良2024/3/961良2024/3/2580良2024/3/10113轻度污染2024/3/26110轻度污染2024/3/1170良2024/3/27142轻度污染2024/3/1249优2024/3/28199中度污染2024/3/1361良2024/3/2998良2024/3/1462良2024/3/3050优2024/3/15109轻度污染2024/3/3183良2024/3/1695良
3.1
水平的描述平均数
简单平均数加权平均数
平均数——例题分析【例3-1】
在某年级中随机抽取30名学生,得到每名学生的统计学考试分数如表4-1所示。计算30名学生考试分数的平均数
3.1
水平的描述859783616786559270868175915596868991668772925082799090859566
分位数——中位数——例题分析分位数——一组数据按从小到大排序后,可以找出排在某个位置上的数值,该数值可以代表数据水平的高低。这些位置上的数值就是相应的分位数(quantile)。常用的分位数有中位数、四分位数、百分位数等中位数——排序后处于中间位置上的值。不受极端值影响位置确定数值计算
3.1
水平的描述分位数——四分位数——例题分析四分位数——一组数据排序后处在25%和75%位置上的数值它是用3个点将全部数据等分为4部分,其中每部分包含25%的数据。中间的四分位数就是中位数,通常所说的四分位数是指处在25%位置上和75%位置上的两个数值位置确定
3.1
水平的描述分位数——百分位数——例题分析百分位数——用99个点将数据分成100等份,处在各分位点上的数值就是百分位数百分位数提供了各项数据在最小值和最大值之间分布的信息位置确定
3.1
水平的描述
计算分位数第1步:选择【分析】
【描述统计—频率】。第2步:在出现的对话框中,将要分析的变量(如分数)选入【变量】,然后点击【统计】。第3步:在出现的对话框中,若只计算中位数和四分位数,选中【四分位数】即可;若要计算其他百分位数,在【百分位数】框内写入要计算的百分位数(如计算第10个百分位数,则输入10,要计算第90个百分位数,则输入90等等)并依次单击【增加】。其他统计量可根据需要选择。然后点击【继续】,点击【确定】。(注:如果选中【分割点】,在框内输入要分割的分位点(默认按10进行等分),可以得到各分位数。)众数——各统计量的比较众数——一组数据中出现次数最多的变量值一组数据可能没有众数或有几个众数适合于数据量较多时使用实际中很少使用平均数易受极端值影响数学性质优良,实际中最常用数据对称分布或接近对称分布时代表性较好中位数不受极端值影响数据分布偏斜程度较大时代表性接好众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时代表性较好
3.1
水平的描述极差和四分位差
3.2
差异的描述
方差和标准差——例题分析方差——各变量值与均值的平均差异标准差——上四分位数与下四分位数之差
样本标准差s
3.2
差异的描述
变异系数——例题分析变异系数——标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较计算公式为【例3-6】
为分析不同行业上市公司每股收益的差异,在互联网服和机械制造板块各随机抽取10家上市公司,得到某年度的每股收益数据如表3-3所示。计算变异系数,比较两类上市公司每股收益的离散程度
3.2
差异的描述互联网公司机械制造公司0.460.980.680.621.280.401.400.041.250.601.570.351.050.951.380.421.380.030.910.85标准分数——例题分析标准分数——也称标准化值对某一个值在一组数据中相对位置的度量可用于判断一组数据是否有离群点(outlier)用于对变量的标准化处理计算公式为【例3-7】
沿用例3-1。计算30名学生考试分数的标准分数
3.2
差异的描述0.37841.28650.2270-1.4378-0.98380.4540-1.89190.9081-0.75670.45400.0757-0.37840.8324-1.89191.21080.45400.68110.8324-1.05940.5297-0.60540.9081-2.27020.1513-0.07570.75670.75670.37841.1351-1.0594标准分数——经验法则与切比雪夫不等式——判断数据的离群点经验法则——当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内切比雪夫不等式——如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内
3.2
差异的描述偏度系数
3.3
分布形状的度量
计算公式
峰度系数峰度(kurtosis)——指数据分布峰值的高低由统计学家K.Pearson于1905年首次提出峰度系数—测度一组数据分布峰值高低的统计量是(coefficientofkurtosis),记作K
3.3
分布形状的度量计算公式
数据的综合描述——例题分析
3.4
数据的综合描述【例3-8】
沿用例3-6。计算互联网公司和机械制造公司每股盈的描述统计量,并进行综合分析
计算描述统计量第1步:选择【分析】
【描述统计-频率】。第2步:将用于描述的变量选入【变量】;点击【统计】,选择所需要的描述统计量。点击【继续】回到主对话框。点击【确定】。(注:使用【分析】
【描述统计-描述】或【分析】
【描述统计-探索】也可以得到所需的描述统计量。几种方式输出的统计量多少略有差异。统计
互联网公司机械制造公司个案数有效1010缺失00平均值1.1360.5240中位数1.2650.5100众数1.38.03a标准偏差.35500.34082偏度-.876-.120偏度标准误差.687.687峰度-.179-1.051峰度标准误差1.3341.334范围1.11.95最大值1.57.98总和11.365.24百分位数25.8525.2725501.2650.5100751.3850.8750a.存在多个众数。显示了最小的值。直方图分析数据的综合描述——例题分析【例3-9】在某大学随机抽取60个大学生,调查得到他们的性别、家庭所在地和月生活费支出(单位:元)的数据如表3-7所示。对调查数据进行综合分析。性别家庭所在地月生活费支出性别家庭所在地月生活费支出女中小城市1500女乡镇地区1850男大型城市2000女乡镇地区2000男大型城市1800女中小城市1700女中小城市1600女大型城市1800女中小城市2000男中小城市1860
……
…
…
……
女中小城市1600男乡镇地区1500男大型城市1300男大型城市2000女大型城市1800男大型城市1900女大型城市1550女大型城市2300男中小城市1350女中小城市1900
3.4
数据的综合描述数据的综合描述——例题分析——分类描述
3.4
数据的综合描述
用【均值】过程进行分类描述第1步:选择【分析】
【比较平均值
平均值】。第2步:在出现的对话框中,将用月生活费支出变量选入【因变量列表】;将性别和家庭所在地选入【自变量列表】。点击【选项】。将所需要的描述统计量从【统计】列表中选入【单元格统计】。点击【继续】回到主对话框。点击【确定】月生活费支出*性别月生活费支出
性别平均值个案数标准偏差最小值最大值范围偏度男1701.2025275.48911002000900-.549女1891.7135331.152130028001500.503总计1812.3360320.996110028001700.316月生活费支出*家庭所在地月生活费支出
家庭所在地平均值个案数标准偏差最小值最大值范围偏度大型城市1848.8526364.135110028001700.321乡镇地区1757.0010236.03413002000700-1.053中小城市1795.8324308.657130023601060.269总计1812.3360320.996110028001700.316数据的综合描述——例题分析——分类描述
3.4
数据的综合描述
用【探索】分析进行分类描述第1步:选择【分析】
【描述统计—探索】。第2步:在出现的对话框中,将用月生活费支出变量选入【因变量列表】;将性别和家庭所在地选入【因子列表】。点击【绘制】选择所需的图形。点击【确定】。计统量描述思维导图数据的概括性度量水平的描述平均数分位数中位数四分位数百分位数众数差异的描述极差和四分位差方差和标准差离散系数标准分数分布形状的描述偏度系数峰度系数THANKSTHEEND2025/3/19THEENDTHANKS概括数据特征度量贾俊平2025/3/19统计学—基于SPSS(第5版)贾俊平著中国人民大学出版社21世纪统计学系列教材课程内容描述统计、推断统计、其他方法使用软件SPSS学分与课时
3学分,1~17周,每周3课时课程简介贾俊平2025/3/194.1什么是概率4.2随机变量概率分布4.3样本统计量的概率分布
第4章随机变量的概率分布问题与思考—彩票中奖的可能性有多大思考以下问题很多想在彩票市场上赚大钱,这可以理解,但赢得大奖的人总是少数。山东的一打工者为了碰运气,半个小时花去了1000元钱,买了500张即开型福利彩票,结果也没撞上大奖。有人曾做过统计,最赚钱的彩票,中彩的概率最高是500万分之一,有的达到1000万分之一甚至更低假定每张彩票面值是2元,大奖的奖金额是500万元,中将概率是500万分之一,你花掉1000万元购买500万张彩票,即使中了500万的大奖,你仍然亏损500万。况且,从概率的意义上看,即使你购买500万张彩票,也不能肯定就中大奖法国人就有这样的俗语:“中彩的机会比空难还少。”对于多数人来说,彩票只是一种数字游戏,是社会筹集闲散资金的一种方式,而不是一种投资,更不是赌博。相信有了本章介绍的概率方面的知识,你就不会再跟彩票较劲如何来分析这些数据呢?除此图表外,还可以做哪些分析?你认为可以用哪些统计量来描述考试成绩?这些统计量的用途是什么?选择这些统计量的理由是什么?本章介绍的描述性分析方法就将解决这些问题
4.1
什么是概率概率
4.2
随机变量的概率分布随机变量的概括性度量——随机变量事先不知道会出现什么结果,一般用
X,Y,Z
来表示投掷两枚硬币出现正面的数量一座写字楼,每平方米的出租价格一个消费者对某一特定品牌饮料的偏好离散型随机变量随机变量X取有限个值或所有取值都可以逐个列举出来以确定的概率取这些不同的值连续型随机变量可以取一个或多个区间中任何值所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点
4.2
随机变量的概率分布随机变量的概括性度量——离散型——期望值和方差
【例4-1】一家手机制造商声称,它们所生产的手机100个中拥有次品的个数及相应的概率如下表所示。求该手机次品数的期望值和标准差次品数X=xi0123概率P(X=xi)
pi0.750.120.080.05example4_1<-read.csv("C:/example/ch4/example4_1.csv")mymean<-sum(example4_1$次品数*example4_1$概率)mymean
myvar<-sum((example4_1$次品数-mymean)^2*example4_1$概率)myvarsqrt(myvar)
4.2
随机变量的概率分布随机变量的概括性度量——连续型——期望值和方差期望值方差
4.2
随机变量的概率分布随机变量的概率分布——离散型
4.2
随机变量的概率分布随机变量的概率分布——离散型——二项分布二项分布建立在Bernoulli试验基础上贝努里试验满足下列条件一次试验只有两个可能结果,即“成功”和“失败”“成功”是指我们感兴趣的某种特征一次试验“成功”的概率为p,失败的概率为q=1-p,且概率p对每次试验都是相同的试验是相互独立的,并可以重复进行n次在n次试验中,“成功”的次数对应一个离散型随机变量X
4.2
随机变量的概率分布随机变量的概率分布——离散型——二项分布——概率计算【例4-2】已知一批产品的次品率为6%,从中有放回地抽取5个。求5个产品中:(1)没有次品的概率(2)恰好有1个次品的概率(3)有3个及3个以下次品的概率
4.2
随机变量的概率分布随机变量的概率分布——连续型——正态分布连续型随机变量可以取某一区间或整个实数轴上的任意一个值它取任何一个特定的值的概率都等于0不能列出每一个值及其相应的概率通常研究它取某一区间值的概率用概率密度函数的形式和分布函数的形式来描述正态分布由C.F.高斯(CarlFriedrichGauss,1777—1855)作为描述误差相对频数分布的模型而提出描述连续型随机变量的最重要的分布许多现象都可以由正态分布来描述可用于近似离散型随机变量的分布,如二项分布经典统计推断的基础概率密度函数
4.2
随机变量的概率分布随机变量的概率分布——连续型——正态分布正态分布图形是关于x=
对称钟形曲线,且峰值在x=
处均值
和标准差
一旦确定,分布形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族”均值
可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度。
越大,正态曲线扁平;
越小,正态曲线越高陡峭X的取值向横轴左右两个方向无限延伸,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1不同均值和标准差对应的正态曲线
4.2
随机变量的概率分布随机变量的概率分布——连续型——正态分布标准正态分布随机变量具有均值为0,标准差为1的正态分布任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布标准正态分布的概率密度函数常用区间的正态概率
4.2
随机变量的概率分布随机变量的概率分布——连续型——正态分布——概率计算
4.2
随机变量的概率分布随机变量的概率分布——连续型——正态分布——数据的正态性评估
4.2
随机变量的概率分布随机变量的概率分布——连续型——正态分布——数据的正态性评估直方图与正态概率图的比较
4.2
随机变量的概率分布随机变量的概率分布——数据的正态性评估——例题分析【例4-4】根据第3章例3-9中的数据绘制正态概率图,判断大学生的月生活费支出是否服从正态分布
绘制正态概率图第1步:选择【分析】
【描述统计】
【Q-Q图】(或选择【P-P】图)。第2步:在出现的对话框中,将绘图变量选入【变量】。点击【确定】
4.2
随机变量的概率分布其他几个重要的统计分布——连续型——卡方分布
不同自由度的的卡方分布的图像
4.2
随机变量的概率分布其他几个重要的统计分布——连续型——卡方分布——例题分析【例4-5】计算:(1)自由度为15,值小于10的概率;(2)自由度为15,值大于20的概率;(3)自由度为15,分布右尾概率为0.05时的反函数值(在估计和检验中称为临界解:(1)由SPSS函数【CDF.CHISQ(quant,df)】得:CDF.CHISQ(10,15)=0.180260(2)由SPSS函数【CDF.CHISQ(quant,df)】或函数【SIG.CHISQ(quant,df)】得1-(CDF.CHISQ(20,15))=SIG.CHISQ(20,15)=0.171933(3)由SPSS函数【IDF.CHISQ(prob,df)】得:IDF.CHISQ(0.95,15)=24.995790。
4.2
随机变量的概率分布其他几个重要的统计分布——连续型——t分布
T分布与标准正态分布曲线的比较【例4-6】计算:(1)自由度为10,值小于-2的概率;(2)自由度为10,值大于3的概率;(3)自由度为10,分布双尾概率为0.05时的值解:(1)由SPSS函数【CDF.T(quant,df)】得:CDF.T(-2,10)=0.036694。(2)由SPSS函数【CDF.T(quant,df)】得:1-CDF.T(3,10)=.006672。(2)由SPSS函数【IDF.Tprob,df)】得:IDF.T(0.025,10)=-2.228139。
4.2
随机变量的概率分布其他几个重要的统计分布——连续型——F分布
不同自由度的F分布【例4-7】计算:(1)分子自由度为10,分母自由度为8,值小于3的概率;(2)分子自由度为10,分母自由度为8,值大于2.5的概率;(3)分子自由度为10,分母自由度为8,分布累积概率为0.95时的值。解:(1)由SPSS函数【CDF.F(quant,df1,df2)】得:CDF.F(3,10,8)=0.933549(2)由SPSS函数【CDF.F(quant,df1,df2)】或函数【SIG.F(quant,df1,df2)】得:1-CDF.F(2.5,10,8)=SIG.F(2.5,10,8)=0.103594(3)由SPSS函数【IDF.F(prob,df1,df2)】得:IDF.F(0.95,10,8)=3.347163。
4.3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 预防地震班队会
- 2025年3月月考一地理答案(2027届)
- 酒水行业述职报告
- 内蒙古北方职业技术学院《心血管与呼吸系统Ⅰ》2023-2024学年第一学期期末试卷
- 江西陶瓷工艺美术职业技术学院《环境智能化研究》2023-2024学年第二学期期末试卷
- 石家庄人民医学高等专科学校《模型技术2》2023-2024学年第二学期期末试卷
- 滨州学院《食品质量检验综合》2023-2024学年第二学期期末试卷
- 湖南电气职业技术学院《玩教具制作》2023-2024学年第二学期期末试卷
- 四川邮电职业技术学院《和声(2)》2023-2024学年第二学期期末试卷
- 上海邦德职业技术学院《曲式(歌曲写作)》2023-2024学年第一学期期末试卷
- 人生路遥名著导读读书分享PPT模板
- 《GNSS原理及应用》课件
- 六年级下册信息技术 课件-1.2无脚走天下-“启动电机”模块和“延时等待”模块 清华版 (共15张PPT)
- 2022年中国通用技术集团控股有限责任公司招聘笔试题库及答案解析
- 间歇经口管饲法 课件
- 导电胶rohs2.078中文深圳市华测检测技术股份市浦东新区新金桥路1996号
- 9 短诗三首 生字笔顺课件(共10张PPT)
- 无线射频识别技术外文翻译参考文献
- 电力负荷曲线与用电负荷预测课件
- 钢支撑、围檩专项施工方案
- 【2021部编版语文】-四年级下册第六单元教材解读--PPT课件
评论
0/150
提交评论