版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《应用统计学》(02)第2章用图表和统计量看数据*统计应用
一种测量的平均数比单个的测量更可靠
即使用一种很准确、很可靠的仪器对同一物体进行重复测量,由于一些无法控制的因素的影响,每次得到的结果也不见得一样(美国)国家标准与技术协会(NIST—NationalInstituteofStandardsandTechnology)的原子钟非常准确,它的准确程度是每600万年误差1秒,但也并不是百分之百准确世界标准时间是世界协调时间(UniversalCoordinatedTime),它是由位于法国的塞夫尔的国际计量局(BIPM)所“编辑”的。BIPM并没有比NIST更好的钟,它给出的时间是根据世界各地200个原子钟的平均时间得来的*统计应用
把数据画图之后,要用用脑袋沃德(AbrahamWald)和许多统计学家一样,在第二次世界大战时也处理了战争与相关的问题。他发明的一些统计方法在战时被视为军事机密。以下是他提出的概念中较简单的一种沃德被咨询飞机上什么部位应该加强钢板时,开始研究从战役中返航的军机上受敌军创伤的弹孔位置。他画了飞机的轮廓,并且标识出弹孔的位置。资料累积一段时间后,几乎把机身各部位都填满了。于是沃德建议,把剩下少数几个没有弹孔的部位补强。因为这些部位被击中的飞机都没有返航资料来源:DavidS.Mroore著《统计学世界》第2章用图表和统计量看数据2.1
用图表描述数据2.2用统计量描述数据2.1用图表描述数据
2.1.1用图表展示定性数据
2.1.2用图表展示定量数据第2章用图表和统计量看数据2.1.1用图表展示定性数据2.1用图表描述数据*用Excel生成频数分布表
(例题分析)【例】一家市场调查公司为研究不同类型饮料的市场占有率,对随机抽取的一家超市进行调查。调查员在某天对50名顾客购买饮料的类型进行了记录,如果一个顾客购买某一类型的饮料,就将这一类型的饮料记录一次。右边就是记录的原始数据用Excel制作频数分布表绿色健康饮品*使用Excel数据透视表数计数
(pivottable)第1步:选择【数据】菜单中的【数据透视表和数据透视图】第2步:确定数据源区域第3步:在【向导—3步骤之3】中选择数据透视表的输出位置。然后选择【布局】第4步:在【向导—布局】对话框中,依次将“分类变量“(这是饮料品牌)连续拖放两次:一次拖至左边的“行”区域,一次拖至“数据”区域第5步:然后单击【确定】,自动返回【向导—3步骤之3】对话框。然后单击【完成】,即可输出数据透视表用数据透视表产生分类数据的频数分布*使用Excel计数函数
(COUNTIF)如果只需要计算某一类别的数据个数,可以使用Excel中的统计函数【COUNTIF】。在对话框【Range】后输入数据区域,在【Criteria】后输入数字、表达式、字符串等,计数单元格必须符合的条件,即可得出结果例如,我们要计算出碳酸饮料出现的频数,在【Rang】后输入数据所在的区域,在【Criteria】后输入“碳酸饮料”,结果为15。如果数据区域是数值型数据,计算符合特定条件的数据个数,则可在【Criteria】后输入“>某一数值”、“<某一数值”、“=某一数值”,等等统计函数—COUNTIF*定性数据的图示—条形图
(例题分析)*定性数据的图示—条形图
(barChart)用宽度相同的条形的高度或长短来表示各类别数据的图形有单式条形图、复式条形图等形式主要用于反映分类数据的频数分布绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图(columnchart)*定性数据的图示—饼图
(pieChart)也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题绘制圆形图时,样本或总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,按各部分数据百分比乘以3600确定*定性数据的图示—饼图
(例题分析)*定性数据的图示—环形图
(doughnutchart)环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示与饼图类似,但又有区别饼图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环用于结构比较研究*定性数据的图示—环形图
(例题分析)【例】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?”
1.非常不满意;2.不满意;3.一般;4.满意;5.非常满意。*定性数据的图示—环形图
(例题分析)8%36%31%15%7%33%26%21%13%10%
非常不满意
不满意
一般
满意
非常满意
甲乙两城市家庭对住房状况的评价2.1.2用图表展示定量数据2.1用图表描述数据*生成频数分布表
(分组)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,组数一般为5K15确定组距:组距(ClassWidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数统计出各组的频数~~~~~*生成频数分布表
(例题分析)【例】某电脑公司2008年前4个月每天的销售额数据。用Excel生成频数分布表
用Excel制作频数分布表
*使用Excel频数函数
(FREQUENCY)Excel的【直方图】工具的缺陷是:频数分布及直方图没有与数据链接,当改变任何一个数据时,频数分布表和直方图不会跟着改变使用统计函数【FREQUENCY】创建频数分布表和直方图可解决这一问题。具体步骤是选择与接受区域相临近的单元格区域,作为频数分布表输出的区域选择统计函数中的【FREQUENCY】函数在对话框【Date-array】后输入数据区域,在【Bins-array】后输入接受区域同时按下“ctrl-shift-Enter”组合键,即得到频数分布统计函数—FREQUENCY*分组数据—直方图
(histogram)用于展示分组数据分布的一种图形用矩形的宽度和高度来表示频数分布本质上是用矩形的面积来表示频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图直方图下的总面积等于1
用Excel制作直方图
*用SPSS绘制直方图第1步:选择【Graphs】下拉菜单,并选择
【histogram】选项进入主对话框第2步:在主对话框中将变量选入【Variables】
,点击【OK】
用SPSS绘制直方图
*分组数据—直方图
(SPSS绘制的直方图)*分组数据—直方图
(直方图与条形图的区别)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,条形图则是分开排列条形图主要用于展示分类数据,直方图则主要用于展示数值型数据*原始数据—茎叶图
(stem-and-leafdisplay)用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留最后一位数字茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数据*用SPSS绘制茎叶图和箱线图
(包括直方图)第1步:选择【Analyze】下拉菜单,并选择
【Descriptivestatistics-Explore】
选项进入主对话框第2步:在主对话框中将变量选入【Variables】,点击【Plots】,在对话框中选择【Stem-and-leaf】(根据需要可选【Histogram】以给出直方图)。点击【Continue】回到主对话框。点击【OK】
用SPSS绘制茎叶图*原始数据—茎叶图
(例题分析)某电脑公司销售额分布的茎叶图*原始数据—箱线图
(boxplot)用于显示未分组的原始数据的分布由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成绘制方法首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接该箱线图也称为Median/Quart./Range箱线图
*原始数据—简单箱线图
(箱线图的构成)中位数4681012QUQLX最大值X最小值Median/Quart./Range箱线图*原始数据—简单箱线图
(例题分析)最小值141最大值237中位数182下四分位数170.25上四分位数197140150160170180190200210220230240某电脑公司销售额数据的Median/Quart./Rang箱线图*分布的形状与箱线图不同分布的箱线图对称分布Bell-shapeddistributionLeft-skeweddistribution左偏分布右偏分布Right-skeweddistribution*原始数据—多批数据箱线图
(例题分析)【例】
从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征11名学生各科的考试成绩数据课程名称学生编号1234567891011英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177*用SPSS绘制多批数据箱线图第1步:选择【Graphs】下拉菜单,并选择
【Boxplot】第2步:在出现的对话框中选择【Simple】,在
【DatainChatAre】中选择【Summariesofseparatevariables】,点击【Define】
返回主对话框第3步:在主对话框将所有变量(这里是11个学生)选入
【Boxes
Represent】,将“课程名称”选入
【LabelCasesby】。点击【OK】
用SPSS绘制箱线图*11名学生8门课程考试成绩的Median/Quart./Range箱线图min-max25%-75%medianvalue455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11原始数据—多批数据箱线图
(例题分析—Median/Quart./Range)*11名学生8门课程考试成绩的Median/Quart./Range箱线图原始数据—多批数据箱线图
(SPSS绘制的箱线图)*原始数据—多批数据箱线图
(例题分析—Median/Quart./Range)8门课程考试成绩的Median/Quart./Range箱线图*两个变量间的关系—二维散点图
(2DScatterplots)展示两个变量之间的关系用横轴代表变量x,纵轴代表变量y,每组数据(xi
,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图温度/0C降雨量/mm产量/kg/hm262522508403450105845001368575014110580016987500211208250*两个变量间的关系—二维散点图
(2DScatterplots)*用SPSS绘制散点图矩阵
(MatrixScatter)第1步:选择【Graphs】下拉菜单,并选择
【Scatter/Dot】第2步:在出现的对话框中选择【MatrixScatter】(要绘制三维散点图,点击
【3DScatter】,并定义各坐标轴),点击
【Define】,中将所有变量选【Matrixvariables】,点击【OK】
用SPSS绘制散点图*两个变量间的关系—散点图矩阵
(MatrixScatter—SPSS)温度降雨量产量*两个变量间的关系—散点图矩阵
(MatrixScatter—STATISTICA)温度降雨量产量*三个变量间的关系—三维散点图
(3DScatterplots—SPSS)*三个变量间的关系—三维散点图
(3DScatterplots—STATISTICA)*三个变量间的关系—气泡图
(bubblechart)显示三个变量之间的关系图中数据点的大小依赖于第三个变量*也称为蜘蛛图(spiderchart)显示多个变量的图示方法在显示或对比各变量的数值总和时十分有用假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比可用于研究多个样本之间的相似程度比较多个样本的相似性—雷达图
(radarchart)*比较多个样本的相似性—雷达图
(例题分析)【例】2010年我国按收入等级分城镇居民家庭平均每人全年消费性支出数据如表。试绘制雷达图今天的主食是面包*比较多个样本的相似性—雷达图
(例题分析)2.2用统计量描述数据
2.2.1用一个值概括一组数据
2.2.2找出数据彼此之间的差别
2.2.3数据分布的形状第2章用图表和统计量看数据2.2.1用一个值概括一组数据2.2用统计量描述数据*xx一组数据的平均数是多少
(mean)也称为均值,常用的统计量之一消除了观测值的随机波动易受极端值的影响根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x*平均数
(mean)设一组数据为:x1,x2,…,xn(总体数据xN)样本平均数总体平均数*中间的值是多少—中位数
(median)Me50%50%不受极端值的影响排序后在中间的值*中间的值是多少—中位数
(9个数据的算例)【例】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:7507808509601080
1250
150016302000位置:123456789中位数
1080*中间的值是多少—中位数
(10个数据的算例)【例】:10个家庭的人均月收入数据排序:
660
75078085096010801250150016302000位置:1234
5678910
统计函数—MEDIAN*用3个点等分数据—四分位数
(quartile)排序后处于25%和75%位置上的值不受极端值的影响QLQMQU25%25%25%25%*用3个点等分数据—四分位数
(位置的确定)方法2:较准确算法方法1:定义算法*用3个点等分数据—四分位数
(位置的确定)方法3:
其中[]表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上方法4:
Excel给出的四分位数位置的确定方法
如果位置不是整数,则按比例分摊位置两侧数值的差值*用3个点等分数据—四分位数
(9个数据的算例)【例】:9个家庭的人均月收入数据(4种方法计算)原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:1234
5
6
7
89方法1*用3个点等分数据—四分位数
(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:1234
5
6789方法2*用3个点等分数据—四分位数
(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:
12
34
5
6
7
89方法3*用3个点等分数据—四分位数
(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:12
3
4
5
67
89方法4
统计函数—QUARTILE*哪个数据出现的最多—众数
(mode)一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数mo*用哪个值代表这组数据?平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用中位数不受极端值影响,具有稳健性数据分布偏斜程度较大时应用众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用2.2.2找出数据彼此之间的差别2.2用统计量描述数据*最大的和最小的相差多少—极差
(range)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布计算公式为
R=max(xi)-min(xi)*四分位差
(quartiledeviation)也称为内距或四分间距上四分位数与下四分位数之差
Qd=QU
–QL反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性*与平均数相比平均差多少—平均差
(meandeviation)各变量值与其平均数离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差,实际中应用较少计算公式为
统计函数—AVEDEV*与平均数相比平均差多少—方差和标准差
(varianceandStandarddeviation)标准差方差标准差样本方差和标准差总体方差和标准差方差注意:样本方差用自由度n-1去除!统计函数—STDEV*自由度
(degreeoffreedom)自由度是指数据个数与附加给独立的观测值的约束或限制的个数之差从字面涵义来看,自由度是指一组数据中可以自由取值的个数当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k*某个数据离平均数有多远—标准分数
(standardscore)1.也称标准化值2. 对某一个值在一组数据中相对位置的度量3. 可用于判断一组数据是否有离群点(outlier)4. 用于对变量的标准化处理5.计算公式为*标准分数
(例题分析)9个家庭人均月收入标准化值计算表家庭编号人均月收入(元)标准化值z
123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996*经验法则经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内*切比雪夫不等式
(Chebyshev’sinequality)如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数*切比雪夫不等式
(Chebyshev’sinequality)对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内*比较几组数据的离散程度—离散系数
(coefficientofvariation)1. 标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较5.计算公式为*离散系数
(例题分析)某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大学物理电子教案磁场对电流的作用
- C语言程序设计(教案)
- 《丛林故事》选择题(含答案)
- 生物工程实习协议
- 商业综合体弱电布线合同范本
- 网络文学积分管理制度
- 物业管理公司员工聘用协议
- 廉政合同文件
- 养殖场养殖产品志愿服务合同
- 乳制品配送货车司机劳动合同
- 2023年中考英语备考让步状语从句练习题(附答案)
- 柔性生产线设计
- 物业项目交接计划方案
- 汽车维修工时定额核定方法编制说明
- 辛弃疾词《青玉案·元夕》
- T-HNKCSJ 002-2023 河南省地源热泵系统工程技术规范
- 《无人机驾驶基础》课件-项目四 无人机结构及性能
- XX公司安全生产风险管控与隐患排查双重预防管理体系手册
- 心血管内科试题库+答案
- 农产品电子商务智慧树知到期末考试答案章节答案2024年浙江农林大学
- 2024年保密知识测试有解析答案
评论
0/150
提交评论