统计学案例数据分析-描述统计_第1页
统计学案例数据分析-描述统计_第2页
统计学案例数据分析-描述统计_第3页
统计学案例数据分析-描述统计_第4页
统计学案例数据分析-描述统计_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学案例:数据分析一描述统计在某学期的统计学教学中,教师在教学中使用了英文教材,并采用了案例教学的方法。在学期结束时,采用以下问卷对35名学生进行了调查。调查问卷如下:1、你的性别:()0二男,1二女2、你的年龄为周岁。3、写出对于以下三种说法的观点(1二完全不同意,2二比较不同意,3二无所谓,4二比较同意,5二完全同意)(1)“我对统计学很感兴趣”()(2)“英文原版教材的使用对我的学习帮助很大”()(3)“案例对我掌握相关知识非常重要”()4、你概率论课程的考试成绩是o5、你上个月的生活费支出为()元。1=300以下,2=300-400,3=400-500,4=500-600,5=600

2、-700,6=700-800,7=800-900,8=900以上6、你的身高=cm,体重二kgotopf在考试结束后在调查数据又增加了学生的统计学考试成绩,最后得到的数据如表3T。在本书接下来的章节中我们将这次调查称为“学生调查”,并对调查结果进行相关的统计分析。数据文件表31学生调查得到的数据表殖导粧创作林型辅英文案例概率统计月冃占汝击编号性别年龄兴趣教材教学成绩成绩如身咼体重10215457483417280020558278617362302212149385183674121412808781624951205459091315949612243471786161457121?5592

3、9731665180203367602174749122325636581655210120424788331635411121425908941605012022155786951685513021?24685521736514020?3587823172601512223918951655216021335787011705317020157268116460181215458885615852191213158781416348201214486887159532102255574807175782212012473756162422312133568655165492412242576

4、7851645325121545859241615126122434716931634927121425756551585528122145645561655029022325626411695130020555776821807531021354788021716232121458788316150330204246668116770340225557983217865350213457577516862用Excel计算常用的描述统计指标在描述统计中我们常用的统计指标主要包括均值、方差、标准差、中位数、众数、峰度系数、偏态系数等等。使用统计软件可以非常方便的得到这些结果。用Excel计算基本

5、描述统计指标可以使用Excel提供的统计函数来获得常用统计量。例如AVERAGE(平均值)、STDEV(样本标准差)、VAR(样本方差、KURT(峰度系数)、SKEW(偏度系数)、MEDIAN(中位数)、MODE(众数)等。但最方便快捷的方法是利用Excel提供的“描述统计”工具,它可以给出一组数据的许多常用统计量。例3.1下面我们来计算学生调查中“统计成绩”的描述统计指标。打开学生调查的数据表,选择“工具”a“数据分析,会弹出图3-1的对话框。在这个对话框中选择“描述统计”,然后单击“确定”,会弹出“描述统计”的对话框(图3-2)o在“描述统计”的对话框中,单击“输入区域”右侧的折叠按钮九,

6、选中需要分析的数据。数据区域可以包括变量名,这时要选中“标志位于第一行”的复选框。我们可以根据需要指定存放结果的位置:可以指定输出到当前工作表的某个单元格区域,这时需在“输出区域”框键入输出单元格区域的左上角单元格地址;也可以指定输出到“新工作表组”;还可以指定输出到“新工作簿”。我们这里指定输出到“新工作表组”。在需要计算的统计指标的选项中,我们只选中“汇总统计”复选框,显示描述统计结果。单击“确定”,得到的计算结果如表3-2o数据分析单可无析忻析数单可无析忻析数图3-1Excel的“数据分析”选择框描述统计逐列O逐行逐列O逐行确定I取消I|帮肋QP辑入区域Q):分姐方式:(3标志垃于第一行

7、(1)辑出礙O辐岀区(Q):耕工作衰姐0):O新工作簿)0汇总妖计(S)平均数畳佰度d):MK大第图32描述统计对话框表32描述统计的分析结果统计成绩平均75.51标准误差2.13中位数78众数83标准差12.62方差159.14峰度0.82偏度-0.77区域59最小值38最大值97求和2643观测数35根据表3-2,统计考试成绩的均值等于75.51,中位数(Excel2003以前的版本中显示为“中值”)等于78,众数(Excel2003以前的版本中显示为“模式”)等于83,方差等于159.14,标准差二12.62,最小值等于38,最大值等于97,全距(显示为“区域”)二59。统计考试成绩的偏

8、态系数等于-0.77小于0,说明数据的分布是略微左偏的。峰度系数0.82大于0,说明的分布比正态分布尖锐一些。注意Excel中计算峰度系数的公式是计算结果应该与0进行比较以判断分布的形状是尖顶峰还是平顶峰。表3-2中“标准误差”的含义将在以后的章节中进行解释。用Excel进行分组汇总在数据处理中我们常常需要对数据进行分组和相应的汇总计算。例如,我们可能希望得到生对统计学的兴趣程度的频数分布表,并计算不同组别的平均成绩以了解兴趣对成绩的影响程度。在进行统计分组时,有时候是单变量值分组,有时候则需要进行组距分组。Excel的数据透视表ExceI的数据透视表(pivottables)为我们制作多维统

9、计表并进行描述统计分析提供了功能强大的工具。数据透视表可以根据列表形式的数据或者数据库产生一维、二维或三维的汇总表,并进行多种汇总计算。许多人都认为数据透视表是Excel独具特色的功能,这一功能比许多专门的统计软件都要強大。要根据列表格式的数据创建一个数据透视表,先单击数据表的任何一个单元格,然后点击菜单中的“数据”a“数据透视表和数据透视图”,按照向导的提示完成创建过程。在第一步中使用默认的选项(根据Excel数据列表创建数据透视表),单击下一步,Excel会自动找到需要的数据(你也可以修改数据区域),单击下一步,选择在新工作表中创建数据透视表(默认选项),单击完成。接下来Excel会先新建

10、一个工作表,并显示类似图3-4的界面,变量名出现在一个单独的列表中,同时显示一个数据透视表工具栏。将相应的变量名拖到行、列和页字段区域,把需要分析的数据拖到数据区域,可以创建出一维、二维或三维统计表。注意用来定义统计表结构的变量应该是离散的定性变量(分类变量),否则得到的表格可能毫无意义。需要分析的数据通常是定量变量(也可以根据分析目的使用定性变量)。土BXCrD11!O图34数据透视表对话框rv格巧目范至丹塞19眾賽土BXCrD11!O图34数据透视表对话框rv格巧目范至丹塞19眾賽人_3246J_一&9请将数据项拖至此处昭削炖英和!I斯胆曲庖TJd日巳日ndddn例3.4使用数据透计表分析

11、分析学生消费支出的分布状况。在需要统计各个组别的人数时,可以把任何一个不包含缺失值的变量拖放到数据区。在图3-4的界面中把月支出变量拖至行字段处,把编号拖放到数据区,得到的结果如图3-5。求和项:编号月支岀FI,汇总19521163944565139676741813总计630图35学生月支出的汇总结果Excel默认的汇总计算是求和。双击“求和项:编号”,或者在汇总栏中的任意单元格单击鼠标右键,选择字段设置按钮囤,会弹出字段设置对话框(图3-6)o在对话框中把汇总方式改为计数(也可以更改字段显示的名称),就可以得到需要的汇总结果了(图3-7)o图3-6数据透视表的字段设置对话框1计数项:编号月

12、支岀F汇总1425364457657282总计35图37学生支出的分布topf还可以修改数据透视表中数据的显示方式。例如,在字段设置对话框中单击“选项”,点击“数据显示方式”下面的下拉菜单(图3-8),选择“占总和的百分比”,可以得到图3-9的计算结果。图38数据透视表字段设置:显示方式的调整计数项:编号11.43%14.29%17.14%11.43%20.00%14.29%11.43%14.29%17.14%11.43%20.00%14.29%5.71%5.71%100.00%23I45678总计图39学生支出的频率分布如果要同时显示一个变量的不同汇总指标,可以把这个变量多次拖入数据透视表的

13、数据区,每次要求不同的汇总指标。例如,要同时显示各组的人数和百分比,可以被“编号变量”再次拖入数据区,选择“计数”汇总指标,可以得到图3-10的结果。下支岀A数据F1汇总1计数项:编号2411I数项:编号11.43%2r数项:编号25t数项:编号14.29%3t数项:编号26t数项:编号17.14%4I数项:编号24r数项:编号11.43%.5数项:编号2t数项:编号720.00%6t数项:编号2:翼廿卜数项:编号14.29%7VI数项:编号2r数项:编号25.71%.8V数项:编号2r数项:编号25.71%计数项:编号2汇总35计数项:编号汇总100.00%图310数据透视表:同时显示频数和

14、频率对数据透视表可以进行灵活的修改,例如可以修改数据的格式(选中需要修改的数据区域点击右键,选择“设置单元格格式”);选择是否显示合计项(点击右键,选择“表格选项”,选中或不选“列总计”和“行总计”);更改表格样式(从数据透视表工具栏中选择设置报告格式按钮固)o对图3-10的输出结果进行修改,可以很容易地得到图3-11的结果。当然,如果要对数据表的格式进行较大的修改,最好先把数据透视表的结果通过选择性粘贴的方式把数值粘贴到新的位置,然后就可以像普通表格一样进行修改了。月支岀F人数百分比11411.43%2514.29%43617.14%44411.43%45720.00%46514.29%72

15、5.71%825.71%m35100.00%图3-11调整格式后的数据透视表topf例3.5下面我们再来做一个复杂一些的二维表:计算分性别和兴趣的平均考试成绩。要保存前一个数据透视表的结果可以用选择性粘贴的方式把数值结果保存在新的位置。然后,把前一个数据透视表的字段都拖回到变量表中,使数据透视表恢复初始状态。把性别变量拖到行字段中,兴趣变量拖到列变量中,把统计成绩拖到数据区,并把统计成绩的汇总方式改为平均值,可以得到相应的计算结果(图3-12)o平均统计成绩兴趣F1性别F112345总计053.5068.6072.7568.007&5070.19165.0090.5070.3378.4389.

16、3380.001总计59.2578.3371.7177.1383.1475.51图312分性别和学习兴趣的统计成绩在数据透视表中,行和列都可以根据需要进行复合分组。例如,把性别、年龄拖至行字段中,把平均身高作为汇总变量,可以得到图3-13的汇总结果。平均身高性别F年龄&汇总020171.6721170.80122174.60|0汇总172.31120161.3321161.3022163.83汇总162.111总计166.77图313分性别和年龄的平均身高在数据透视表中,双击任何一个汇总数据的单元格(包括合计项),Excel都会把与这个单元格有关的所有观测复制到一个新的数据表中。使用数据透视表

17、时需要注意,当你更改了原始数据以后,数据透视表中结果不会自动更新,要更新数据透视表中的数据需要手动刷新:在数据透视表中单击鼠标右键,选择“刷新数据”。用Excel进行组距分组例3.6有时候我们需要根据定量变量进行组距分组。例如,假设我们现在要求对“统计成绩”这个变量按照60以下、60-69、70-79、80-8990以上进行分组,在Excel中如何实现呢?最方便的方式可能是使用FREQUENCY函数。这个函数有两个参数,第一个参数是要进行分组的数据所在的区域,第二个参数是各组界限所在的区域。要实现前面所说的分组,在各组界限的区域内要依次输入59,69,79,89o这时Excel会依次统计成绩小

18、于等于59的人数、大于59小于等于69的人数、大于69小于等于79的人数、大于79小于等于89的人数,以及大于89的人数。注意Excel在统计人数时给出的各组上限值是分在这个组中的,这与统计学中的习惯做法不一致。在给定组限时可以多取一位小数使各组界限更加明确。需要注意的另外一点是FREQUENCY函数的返回结果总比给出的组限多一个,多出来的数值表示超出最后一个组限的数值个数。由于函数FREQUENCY返回一个数组,所以必须以数组公式的形式输入。具体操作方式是:选定区域C2:C6,输入一个等号,从函数库中选择FREQUENCY函数,输入函数的两个参数,最后再按Ctrl+Shift+Enter(图

19、3-14)。图3-14FREQUENCY函数的参数设定计算结果如表3-6。当然,在最后的分析报告中各组的界限需要调整为传统的方式。要修改数组函数的输出结果有时需要先把其公式通过选择性粘贴改为数值。表3-6FREQUENCY函数的计算结果成绩人数593691079689133在分组组数不太多的情况下也可以用嵌套的IF函数对原始数据重新编码,生成一个新的变量,然后对新的变量进行汇总:IF(A260,1,IF(A270,2,IF(A280,3,IF(A290,4,5)。使用分析工具库中的直方图工具也可以完成组距分组,其原理与使用FREQUENCY函数是一样的。用Excel制作统计图制作统计图应该注意

20、的问题一般来说统计图能够更有效地向读者传达信息。然而,一幅拙劣的图形却可能使读者不知所云,甚至传达出错误的信息。总体说来,要得到一幅科学的统计图形应该注意以下几个方面的问题:1、通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包含的信息,而不是歪曲事实。例如,不恰当的三维效果常常会引起误解。2、图形要尽量简明。图形应该突出所要传达的信息,不必要的标签、背景、网格线、等会分散读者的注意力。图形越简单,读者就越能够迅速理解你要传达的信息。3、图形应该有清楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等。4、反复加工和修改是获得优秀统计图形的重要步骤。

21、统计软件给出的统计图形没有多少可以不加修改而直接应用。要得到一个图形很容易,但要使图形符合要求往往还需要耐心地修改,就像一篇论文需要反复修改一样。用Excel制作常用统计图Excel提供了強犬的图形编辑能力,可以完成非常优秀的统计图形。然而,未经修改Excel图形甚至可能是错误的。我们这一节只介绍三种最常用的图形:线图、条形图和饼图的绘制方法。使用Excel作图时需要特别注意:在有些图形中你可以用鼠标移动图形中的数据点,Excel会根据新的位置修改原始数据!一定要避免这一方面的误操作。1、线图(LinePlot)o线图常用于描绘连续的数据,有助于观察现象发展的长期趋势。例4.1表41是我国19

22、91-2003年的就业人数。根据数据绘制线形图。表41是我国1991-2003年的就业人数年份就业人数(万人)年份就业人数(万人)199165491199870637199266152199971394199366808200072085199467455200173025199568065200273740199668950200374432199769820单击工具栏中的里,或者使用菜单栏中的“插入”Q“图表”,会弹出Excel的图表向导。从中选择“折线图”,在下一步中把就业人数的区域(包括变量名)指定为数据区域,单击“完成”,就可以得到图4-1o很多情况下Excel会自动识别数据区域,但

23、自动识别数据区域时最容易出现的错误是不能正确识别用于分类轴的数据,而把它作为“系列”数据使用。这时需要从“系列数据中删除分类序列,并为图形指定分类序列。就业人数图4-1Excel默认格式下的线图图4T显然不是一个理想的图表。由于只有一个变量,图例和图表标题是不必要的;背景使图形不够鲜明,网格线使图形显得比较凌乱;横坐标没有显示相应的年份;纵坐标从60000万人开始可能不够合理,而且没有标出单位。下面我们来对图4T进行修改。在图表区单击右键,选择“源数据”,在弹出的对话框中扌旨定“分类(X)轴标志”对应的数据区域(不要包含变量名)。这样横轴就可以显示年份了。仔细观察图3-15,你会发现横轴的刻度

24、线与Y的值不是垂直对应的,Y的值处于刻度之间。要改变这种显示方式,在图形的横轴上双击鼠标左键,在弹出的对话框中选择“刻度”选项卡,取消选中“数值(Y)轴至于分类之间”的复选框。你还可以在这个对话框中进一步设定横轴的字体、对齐方式等等。在字体设定中最好取消选定“自动缩放”的复选框,这会使字体随着图形大小的调整而变化。删除图例和图形内的标题,去掉图形的外框,修改图形背景以及网格线的格式,最后把纵轴的刻度改为从0开始,为纵轴加上单位,调整后的图形如图4-2。要熟练掌握图表属性的修改方法最重要的就是多练习,具体操作方法可以参见ExceI的帮助文件。对比图4T和4-2,你会发现虽然在数学意义上两个图形都

25、没有错的,但纵坐标起始值的调整对图形的形状有较大影响,原始的图形可能给人以就业人数迅速增加的错误印象。我们这里着重强调的一点是统计软件自动确定的坐标轴的刻度不一定是最恰当的。在实际应用中坐标轴从0开始标注也不一定是最好的选择。99999999900001234507890123图4-21991年2003年我国的就业人数(年底数)topf2、条形图(BarChart)。本书所说的条形图指的是Excel中所说的“柱形图”。例4.2根据学生调查的结果,学生对使用英文教材的态度如表4-2。根据数据绘制条形图。表4-2学生对使用英文教材的态度对使用英文教材的态度百分比非常不好8.57%不太好31.43%

26、无所谓17.14%比较好22.86%非常好20.00%用Excel绘制条形图,经过调整后的结果如图4-3。图43学生对使用英文教材的态度使用Excel图形需要注意的一个问题是,虽然Excel中的大部分图形都可以使用三维效果(图4-4是一个条形图的例子),但许多数据处理专家都反对这类图形。在图4-4中第三维(深度)并不是依据有意义的数据绘制的,而且根据这类图形很难准确读出图形所表现的数值。根据图4-4,你能正确判断对是否使用英文教材“无所谓”的学生占17.14%吗?看起来像不像15%或20%?由于类似的原因,Excel提供的圆锥图、圆柱图和棱锥图也不应用于学术报告中。当然,如果你3个数轴都代表了

27、有实质意艾的变量,使用真正意艾上的三维图形是必要的。3W图44对使用英文教材的态度:三维效果3、饼图(PieChart)。饼图常常用于显示相对比例或者对整体的贡献。这种图形只能使用一个数据系列,对于显示很少的几个数据点很有效,但数据量太大时则很难说明问题。通常饼图中的数据点不应多于6个。有学者指出,饼图不过是用极坐标表示的条形图而已,当数据点过多时饼图不如条形图清晰。例如,表4-2的数据就可以用图4-5饼图来显示。只要在Excel的条形图中单击鼠标右键选择“图表类型,把图表类型改为饼图,在对图形的边框、数据标志、字体等做必要的修改就可以了。图45学生对使用英文教材的态度饼图用Excel绘制直方图虽然Excel的分析工具库提供了绘制直方图(Histogram)的功能,但Excel所绘制的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论