




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
贾俊平2025/3/19统计学—基于SPSS(第5版)21世纪统计学系列教材课程内容描述统计、推断统计、其他方法使用软件SPSS学分与课时
3学分,1~17周,每周3课时课程简介贾俊平2025/3/193.1水平的描述3.2差异的描述3.3分布形状的描述3.4数据的综合描述
第3章数据的描述性分析:概括性度量问题与思考—如何分析空气质量思考以下问题空气质量由空气质量指数(AirQualityIndex,AQI)用描述,其数值越大,说明空气污染越严重。参与空气质量评价的主要污染物有细颗粒物(PM2.5)、可吸入颗粒物(PM10)、二氧化硫(SO2)、一氧化碳(CO)、二氧化氮(NO2)、臭氧浓度(O3)等6项。根据空气质量指数将空气质量分为6级:优(0~50)、良(51~100)、轻度污染(101~150)、中度污染(151~200)、重度污染(201~300)、严重污染(300以上);分别用绿色(green)、黄色(yellow)、橙色(orange)、红色(red)、紫色(purple)、褐红色(maroon)表示。下表是2024年3月1日—3月31日北京市的空气质量数据何分析这些数据呢?我们可以用直方图、茎叶图或箱线图等来描述AQI的分布状况,比如,分布是否对称等。除此之外,还可以做哪些分析?你认为可以用哪些统计量来描述考试成绩?这些统计量的用途是什么?选择这些统计量的理由是什么?本章介绍的描述性分析方法就将解决这些问题日期AQI质量等级日期AQI质量等级2024/3/137优2024/3/1743优2024/3/275良2024/3/18108轻度污染2024/3/356良2024/3/1970良2024/3/456良2024/3/2055良2024/3/577良2024/3/2183良2024/3/646优2024/3/2265良2024/3/750优2024/3/2377良2024/3/840优2024/3/2484良2024/3/961良2024/3/2580良2024/3/10113轻度污染2024/3/26110轻度污染2024/3/1170良2024/3/27142轻度污染2024/3/1249优2024/3/28199中度污染2024/3/1361良2024/3/2998良2024/3/1462良2024/3/3050优2024/3/15109轻度污染2024/3/3183良2024/3/1695良
3.1
水平的描述平均数
简单平均数加权平均数
平均数——例题分析【例3-1】
在某年级中随机抽取30名学生,得到每名学生的统计学考试分数如表4-1所示。计算30名学生考试分数的平均数
3.1
水平的描述859783616786559270868175915596868991668772925082799090859566
分位数——中位数——例题分析分位数——一组数据按从小到大排序后,可以找出排在某个位置上的数值,该数值可以代表数据水平的高低。这些位置上的数值就是相应的分位数(quantile)。常用的分位数有中位数、四分位数、百分位数等中位数——排序后处于中间位置上的值。不受极端值影响位置确定数值计算
3.1
水平的描述分位数——四分位数——例题分析四分位数——一组数据排序后处在25%和75%位置上的数值它是用3个点将全部数据等分为4部分,其中每部分包含25%的数据。中间的四分位数就是中位数,通常所说的四分位数是指处在25%位置上和75%位置上的两个数值位置确定
3.1
水平的描述分位数——百分位数——例题分析百分位数——用99个点将数据分成100等份,处在各分位点上的数值就是百分位数百分位数提供了各项数据在最小值和最大值之间分布的信息位置确定
3.1
水平的描述
计算分位数第1步:选择【分析】
【描述统计—频率】。第2步:在出现的对话框中,将要分析的变量(如分数)选入【变量】,然后点击【统计】。第3步:在出现的对话框中,若只计算中位数和四分位数,选中【四分位数】即可;若要计算其他百分位数,在【百分位数】框内写入要计算的百分位数(如计算第10个百分位数,则输入10,要计算第90个百分位数,则输入90等等)并依次单击【增加】。其他统计量可根据需要选择。然后点击【继续】,点击【确定】。(注:如果选中【分割点】,在框内输入要分割的分位点(默认按10进行等分),可以得到各分位数。)众数——各统计量的比较众数——一组数据中出现次数最多的变量值一组数据可能没有众数或有几个众数适合于数据量较多时使用实际中很少使用平均数易受极端值影响数学性质优良,实际中最常用数据对称分布或接近对称分布时代表性较好中位数不受极端值影响数据分布偏斜程度较大时代表性接好众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时代表性较好
3.1
水平的描述极差和四分位差
3.2
差异的描述
方差和标准差——例题分析方差——各变量值与均值的平均差异标准差——上四分位数与下四分位数之差
样本标准差s
3.2
差异的描述
变异系数——例题分析变异系数——标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较计算公式为【例3-6】
为分析不同行业上市公司每股收益的差异,在互联网服和机械制造板块各随机抽取10家上市公司,得到某年度的每股收益数据如表3-3所示。计算变异系数,比较两类上市公司每股收益的离散程度
3.2
差异的描述互联网公司机械制造公司0.460.980.680.621.280.401.400.041.250.601.570.351.050.951.380.421.380.030.910.85标准分数——例题分析标准分数——也称标准化值对某一个值在一组数据中相对位置的度量可用于判断一组数据是否有离群点(outlier)用于对变量的标准化处理计算公式为【例3-7】
沿用例3-1。计算30名学生考试分数的标准分数
3.2
差异的描述0.37841.28650.2270-1.4378-0.98380.4540-1.89190.9081-0.75670.45400.0757-0.37840.8324-1.89191.21080.45400.68110.8324-1.05940.5297-0.60540.9081-2.27020.1513-0.07570.75670.75670.37841.1351-1.0594标准分数——经验法则与切比雪夫不等式——判断数据的离群点经验法则——当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内切比雪夫不等式——如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内
3.2
差异的描述偏度系数
3.3
分布形状的度量
计算公式
峰度系数峰度(kurtosis)——指数据分布峰值的高低由统计学家K.Pearson于1905年首次提出峰度系数—测度一组数据分布峰值高低的统计量是(coefficientofkurtosis),记作K
3.3
分布形状的度量计算公式
数据的综合描述——例题分析
3.4
数据的综合描述【例3-8】
沿用例3-6。计算互联网公司和机械制造公司每股盈的描述统计量,并进行综合分析
计算描述统计量第1步:选择【分析】
【描述统计-频率】。第2步:将用于描述的变量选入【变量】;点击【统计】,选择所需要的描述统计量。点击【继续】回到主对话框。点击【确定】。(注:使用【分析】
【描述统计-描述】或【分析】
【描述统计-探索】也可以得到所需的描述统计量。几种方式输出的统计量多少略有差异。统计
互联网公司机械制造公司个案数有效1010缺失00平均值1.1360.5240中位数1.2650.5100众数1.38.03a标准偏差.35500.34082偏度-.876-.120偏度标准误差.687.687峰度-.179-1.051峰度标准误差1.3341.334范围1.11.95最大值1.57.98总和11.365.24百分位数25.8525.2725501.2650.5100751.3850.8750a.存在多个众数。显示了最小的值。直方图分析数据的综合描述——例题分析【例3-9】在某大学随机抽取60个大学生,调查得到他们的性别、家庭所在地和月生活费支出(单位:元)的数据如表3-7所示。对调查数据进行综合分析。性别家庭所在地月生活费支出性别家庭所在地月生活费支出女中小城市1500女乡镇地区1850男大型城市2000女乡镇地区2000男大型城市1800女中小城市1700女中小城市1600女大型城市1800女中小城市2000男中小城市1860
……
…
…
……
女中小城市1600男乡镇地区1500男大型城市1300男大型城市2000女大型城市1800男大型城市1900女大型城市1550女大型城市2300男中小城市1350女中小城市1900
3.4
数据的综合描述数据的综合描述——例题分析——分类描述
3.4
数据的综合描述
用【均值】过程进行分类描述第1步:选择【分析】
【比较平均值
平均值】。第2步:在出现的对话框中,将用月生活费支出变量选入【因变量列表】;将性别和家庭所在地选入【自变量列表】。点击【选项】。将所需要的描述统计量从【统计】列表中选入【单元格统计】。点击【继续】回到主对话框。点击【确定】月生活费支出*性别月生活费支出
性别平均值个案数标准偏差最小值最大值范围偏度男1701.2025275.48911002000900-.549女1891.7135331.152130028001500.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 合同解除与股东撤资转让协议
- 分批次供应合同签订计划
- 小学防溺水安全教案课件
- 创新创业软件设计
- Unit 2 More than fun Reading for writing(教学设计)-2024-2025学年外研版(2024)七年级英语上册
- 小学防水防溺水课件
- 2023六年级数学上册 一 长方体和正方体第4课时 长方体和正方体的体积计算 2长方体和正方体的体积(2)教学实录 苏教版
- 2024年六年级生物上册 2.4《濒临灭绝的生物》教学实录 上海版
- 2025年农业技术服务合同
- 国内教育技术学代表人物
- 2024年杭州萧山环境投资建设集团有限公司招聘考试真题
- 2024年嘉峪关市招聘公安机关警务辅助人员考试真题
- 2024年中国水产科学研究院招聘笔试真题
- 2024年中央戏剧学院招聘考试真题
- 湖南省2025届新高考教学教研联盟高三第一次联考一模生物试题(原卷版+解析版)
- uni-app移动应用开发课件 1-初识uni-app
- 【MOOC】《电子线路基础》(东南大学)章节作业期末网课答案
- 外墙清洗施工安全培训
- 农业合作社与农户种植合作协议
- 幼儿园传染病疫情报告制度
- 铅锌矿安环部管理制度汇编
评论
0/150
提交评论