版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
实验基本描述统计1第一页,共八十八页,2022年,8月28日统计分析软件的作用统计分析是数据分析的主要工具完整的数据分析过程包括:数据的收集数据的整理数据的分析统计学为数据分析过程提供一套完整的科学的方法论。统计分析软件为数据分析提供了实现手段。2第二页,共八十八页,2022年,8月28日统计软件的种类很多。有些功能齐全,有些价格便宜;有些容易操作,有些需要更多的实践才能掌握。还有些是专门的软件,只处理某一类统计问题。面对太多的选择往往给决策带来困难。这里介绍最常见的几种。统计软件3第三页,共八十八页,2022年,8月28日几种常用的统计软件典型的统计软件SASSPSSMINITABEviewsExcelMINITABSTATISTICAExcelSASSPSS4第四页,共八十八页,2022年,8月28日SAS:这是功能非常齐全的软件;尽管价格相当不菲,许多公司,特别是美国制药公司,还是因为其功能众多和某些美国政府机构认可而使用。尽管现在已经尽量“通俗化”,但仍然需要一定的训练才可以进入。也可以对它编程;但对于基本统计课程则不那么方便。Minitab:这个软件是很方便的功能强大而又齐全的软件,在我国用的不如SPSS与SAS那么普遍。Eviews:一个主要处理回归和时间序列的软件。采用计量经济学方法与技术,对社会经济关系与经济活动的数量规律进行“观察”,是一个得到普遍使用计量经济学软件包。5第五页,共八十八页,2022年,8月28日S-PlusS语言(AT&T贝尔实验室)的后续发展极为强大的统计功能和绘图能力应用上以理论研究、统计建模为主需要有较好的数理统计背景对编程能力要求极高Excel凡有MicrosoftOffice的计算机,基本上都装有Excel。但要注意,必须装数据分析的功能。随着问题的深入,Excel需要使用函数。专门一些的统计推断问题还需要其他专门的统计软件来处理。6第六页,共八十八页,2022年,8月28日SPSS:很受欢迎;容易操作,输出漂亮,功能齐全,价格合理。它也有自己的程序语言,但基本上已经“通俗化”。对于非专业统计工作者是很好的选择。7第七页,共八十八页,2022年,8月28日SPSS软件最初全称为“社会科学统计软件包”(StatisticalPackageforthesocialScience);随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司于2000年正式将英文全称更改为“统计产品与服务解决方案”(StatisticalProductandServiceSolutions);如今SPSS已出至版本19.0,而且更名为PASWStatistics。SPSS是一个集数据整理、分析过程、结果输出等功能于一身的组合式软件包,是数据处理和统计领域的国际标准软件之一;SPSSForWindows是SPSS软件的Windows版本,它具有清晰、直观、易学易用、涵盖面广的特点。8第八页,共八十八页,2022年,8月28日应用统计软件进行分析的基本过程弄清分析的目的正确收集待处理和分析的数据(目的、影响因素的剔除)弄清统计概念和统计含义,知道统计方法的适用范围。无需记忆公式选择一种或几种统计分析方法来探索性地分析数据读懂计算机分析的数据结果,发现规律,得出结论9第九页,共八十八页,2022年,8月28日从统计方法的构成分类统计方法描述统计推断统计10第十页,共八十八页,2022年,8月28日描述统计:是用图形、表格和概括性的数字对数据进行描述的统计方法。内容:搜集数据整理数据显示数据
目的描述数据特征找出数据的基本规律02550Q1Q2Q3Q4¥=30s2=10511第十一页,共八十八页,2022年,8月28日推断统计:
研究如何根据样本数据对总体进行估计、假设检验、预测和其他推断的统计方法。内容参数估计假设检验目的对总体特征作出推断可靠性测度样本总体12第十二页,共八十八页,2022年,8月28日实验内容安排软件:SPSS18.0目的:掌握统计软件的基本应用实验1:数据文件管理实验2:基本的统计描述实验3:方差分析实验4:相关与回归分析13第十三页,共八十八页,2022年,8月28日实验1:数据文件管理§1.1SPSS系统运行管理方式§1.2数据管理窗口介绍§1.3数据文件的建立与管理实验目的:掌握文件的创建和整理,包括数据的查询、数据排序、筛选等。14第十四页,共八十八页,2022年,8月28日§1.1SPSS系统运行管理方式完全窗口菜单运行方式是在数据编辑窗口和输出观察窗口中,通过选用菜单项中的各种功能和工具栏中的图标按钮来完成各项统计功能的一种运行方式特点:利用对话框操作,简便直观,特别适用于初学者和非专业人员;对于某些专业人员来说,可能不能充分满足其需要。15第十五页,共八十八页,2022年,8月28日程序运行方式是通过在Syntax(语句)窗口中直接运行编写好的程序来完成各项统计功能的运行方式特点:方便已习惯使用SPSS语言编写程序的用户使用;能简化某些工作,比如,成批次地处理数据、重复相同的统计分析过程等;专业人员可通过该运行方式,使用某些对话框操作不能实现的功能。混合运行方式是完全窗口菜单运行方式和程序运行方式的结合,既能简化操作,又可以补充单纯窗口运行管理的不足。16第十六页,共八十八页,2022年,8月28日进行统计分析的基本操作步骤:将数据输入SPSS(定义变量、录入数据等),并存盘;进行必要的预分析(进行分布图、均数、标准差的描述等),以确定应采用的统计分析方法;按分析目的选用统计程序,执行统计分析过程;保存和导出分析结果。第十七页,共八十八页,2022年,8月28日菜单栏常用工具栏数据栏当前单元格§1.2数据管理窗口介绍18第十八页,共八十八页,2022年,8月28日File(文件操作)完成文件的调入,存储,显示和打印等操作Edit(文件编辑)完成文本或数据内容的选择、拷贝、粘贴、寻找和替换等操作19第十九页,共八十八页,2022年,8月28日View(窗口外观控制)完成文本或数据内容的状态栏、工具栏、字体、网格线和数值标签等功能的操作Data(数据管理)完成数据变量名称和格式的定义,数据资料的选择、排序、加权、数据文件的转换、连接和汇总等操作20第二十页,共八十八页,2022年,8月28日Transform(数据转换)完成数据值的计算、重新编码和缺失值替代等操作Analyze(统计分析)完成一系列统计分析的选择和应用21第二十一页,共八十八页,2022年,8月28日Graphs(统计图表)完成统计图表的建立和编辑Utilities(实用程序)有关命令解释、字体选择、文件信息、定义输出标题和窗口设计等Window(窗口控制)可进行窗口的排列、选择和显示等操作Help(帮助)帮助文件的调用、查询和显示等22第二十二页,共八十八页,2022年,8月28日SPSS数据文件是一种有结构的数据文件,它包括:文件结构数据§1.3数据文件的建立与管理23第二十三页,共八十八页,2022年,8月28日SPSS数据文件中的一列数据称为一个变量,每个变量都有一个名称,即变量名,变量名是存取SPSS每个变量的唯一标识。SPSS数据文件的结构是对每个变量及其相关属性的描述。一行数据称为一条个案(Case)或观测,所有个案组成了SPSS数据文件的数据部分。24第二十四页,共八十八页,2022年,8月28日建立SPSS数据文件应通过两大步骤实现:第一步:定义SPSS数据文件的结构;第二步:输入分析数据。定义SPSS数据文件的结构;包括:变量名、变量类型、变量宽度、变量名标签、变量值标签、缺失值、显示宽度、显示的对齐方式、变量的测度类型等信息。
至少要定义变量名和变量类型,其他暂时设为默认值,待分析需要时再设置。25第二十五页,共八十八页,2022年,8月28日在数据编辑窗口中,单击“变量视图”的标签进行设置。变量定义完成后,单击“数据视图”的标签进行具体变量值的录入。26第二十六页,共八十八页,2022年,8月28日数据编辑在SPSS中,对数据进行基本编辑操作的功能集中在“编辑”和“数据”菜单中。移动指针到指定序号的观测量
【编辑】——【转至个案】查找指定变量中的指定数据
【编辑】——【查找】插入一个变量
【编辑】——【插入变量】插入一个观测量
【编辑】——【插入个案】查看变量信息
【实用程序】——【变量】27第二十七页,共八十八页,2022年,8月28日在数据窗口单击【数据】【排列个案】,打开对话框。观测数据排序28第二十八页,共八十八页,2022年,8月28日在统计分析中,有时不需要对所有的观测进行分析,可能只对某些特定的对象有兴趣。利用【数据】【选择个案】,可以实现。抽样(筛选)全部个案:选择所有数据;如果条件满足:按指定条件选择数据。单击如果按纽,打开选择个案:If对话框,先选择变量,然后定义条件。29第二十九页,共八十八页,2022年,8月28日选择个案:If对话框,先选择变量,然后定义条件。30第三十页,共八十八页,2022年,8月28日抽样(筛选)随机个案样本:对观察值进行随机抽样。单击样本按纽,打开选择个案:随机样本对话框。如图所示。在样本尺寸栏中有两种选择方式:一种是大约:即键入抽样比例后由系统随机抽样;另一种是精确:要求输入从第几个观察值起抽取多少数据。31第三十一页,共八十八页,2022年,8月28日抽样(筛选)基于时间或个案全距:顺序抽样。单击范围按纽,打开选择个案:范围对话框,用户自行定义从第几个观察值开始抽到第几个观察值结束。使用筛选器变量:用指定变量作过滤。先选择一个变量,系统自动在数据管理器中将该变量值为0的观测单位标上删除记号,系统对标有删除记号的观测单位不作分析。32第三十二页,共八十八页,2022年,8月28日实验2:基本的统计描述作为一条普遍的规则,当一批数据中的数据有20个左右或者更多的时候,就应该制作表格或者图表。这样,数据的重要特征就能从表格或者图表中反映出来。其目标也是提高数据分析和数据解释的效率——这是决策过程的两个关键方面。33第三十三页,共八十八页,2022年,8月28日在建立了数据文件之后,需要对数据作进一步的考察,如了解数据的基本特征,如数据的均值、标准差、四分位点,数据的分布形态等,这个过程称为对数据进行基本统计描述。所以说,数据的基本统计描述的目的是:了解数据的基本特征和基本分布形状,为进一步分析做好充分准备。34第三十四页,共八十八页,2022年,8月28日数值描述分布的形状集中趋势离散程度众数中位数平均值标准误差方差峰态标准差全距偏态35第三十五页,共八十八页,2022年,8月28日众数:在总体中出现次数最多的那个标志值不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数:一组排序的数据中,在中间位置上的数据不受极端值影响数据分布偏斜程度较大时应用均值:全部数据的算术平均易受极端值影响数学性质优良数据对称分布或接近对称分布时应用集中趋势的测度值:36第三十六页,共八十八页,2022年,8月28日数据类型和所适用的集中趋势测度值定类数据定序数据数量数据适用的测度值众数*众数众数中位数*中位数均值*几何平均数调和平均数*表示最适合37第三十七页,共八十八页,2022年,8月28日全距:最大值与最小值的差计算方便,易于理解只考虑两端数据,比较粗略方差:离差平方的平均数准确反映数据的离散程度数据离散程度的最常用测度值标准差:离差平方平均数的平方根准确反映数据的离散程度具有量纲,实际意义清楚数据离散程度的最常用测度值离散程度的测度值:38第三十八页,共八十八页,2022年,8月28日数据类型和所适用的离散程度测度值定类数据定序数据数量数据适用的测度值异众比率*异众比率异众比率四分位差*四分位差
极差、平均差方差、标准差*离散系数*(比较)*表示最适合39第三十九页,共八十八页,2022年,8月28日偏态:分布偏斜方向及程度偏态系数
SK=0为对称分布偏态系数SK>0
为右偏分布偏态系数SK<0
为左偏分布SK的绝对值越大,表示偏斜的程度就越大分布的形状:左偏分布均值
中位数
众数fx右偏分布众数
中位数均值fx40第四十页,共八十八页,2022年,8月28日峰度:分布集中趋势高峰的形状峰态系数K=0标准正态分布峰态系数K<0为扁平分布峰态系数K>0为尖峰分布分布的形状:扁平分布尖峰分布与标准正态分布比较!41第四十一页,共八十八页,2022年,8月28日1.描述统计分析2.频数分析3.探索分析4.列联表5.统计图42第四十二页,共八十八页,2022年,8月28日1.描述统计分析描述统计分析是对数据进行基础性描述的过程。可以通过计算均值、算术和、标准差、极值、方差、均值、标准误等统计量来描述样本数据的集中趋势、离散趋势及分布特征;描述统计分析过程,可通过分析对话框(分析描述统计描述)来具体实现。43第四十三页,共八十八页,2022年,8月28日例2.1以某年全国职工平均工资表为例(SY-11),要求对其进行简单的描述统计分析。具体操作步骤如下:1、首先打开数据表SY-11,按照分析(Analyze)描述统计(DescriptivesStatistics)
描述(Descriptives),打开对话框,如图所示。从左边源变量中选择一个或者几个变量进入右框中计算并保存所选变量的标准化值,公式为44第四十四页,共八十八页,2022年,8月28日2.单击选项Options按钮,打开Options对话框,如图所示:在此例中选择按平均值升序项,返回主对话框,单击OK,在输出窗口得描述统计分析输出表。45第四十五页,共八十八页,2022年,8月28日输出结果:标准化值46第四十六页,共八十八页,2022年,8月28日2.频数分析利用频数分析可以方便地对数据按组进行归类整理;形成各变量的不同水平(分组)的频数分布表及图形,以便对各变量的数据特征和观测量的分布状况有一个概括的认识;47第四十七页,共八十八页,2022年,8月28日48第四十八页,共八十八页,2022年,8月28日例2.2数据文件SY-12是一个公司职员表,其中有性别、年龄,受教育年限等五个变量,具体操作如下:
1、打开数据文件SY-12后,单击分析描述统计频率(Frequencies),打开频数分析对话框。2、在左边的变量框中选中一个或多个变量。3、选中显示频率表格。49第四十九页,共八十八页,2022年,8月28日4、单击统计量按钮,得到对话框图。在频率:统计量对话框中选择要求输出的统计量。50第五十页,共八十八页,2022年,8月28日5、单击图表(Chart)按钮,得到对话框图选择直方图51第五十一页,共八十八页,2022年,8月28日6、单击格式(Format)按钮,得到对话框图。本例中均选择系统默认项52第五十二页,共八十八页,2022年,8月28日输出结果:点击OK53第五十三页,共八十八页,2022年,8月28日从表和直方图中可以观察到该公司32岁至47岁之间的人数最多,占到总人数的60%以上。54第五十四页,共八十八页,2022年,8月28日3探索分析过程探索分析是指对测得的数据进行更为深入详尽的描述性统计分析。在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。目的是:观察数据的分布特征:可通过绘制箱图和茎叶图等图形直观地反映数据的分布形式和数据的一些规律性,包括考察数据中是否存在异常值等。正态分布检验:检验数据是否服从正态分布。方差齐性的检验:用Levene检验比较各组的方差是否相等。55第五十五页,共八十八页,2022年,8月28日以数据库SY-13提供的两个班的学习成绩数据为例,对两个班的数学成绩按照性别进行数据的分布、按照性别检验其数学成绩的方差是否相等。打开数据库SY-13。例2.356第五十六页,共八十八页,2022年,8月28日1、单击分析(Analyze)->描述统计(Descriptivestatistics)->探索(Explore),打开Explore主对话框。选择分析变量指定分组变量选择标识变量从左侧的变量列表中选出分析变量,送入因变量列表栏;选择因子变量,SPSS会把所有的观测个体按照因子变量的取值分成若干各组,再分组考察分析变量中的各个变量,如果不选择因子变量,SPSS会对全部观测来做探索分析。选择标识变量,当输出涉及到观测量时,使用该变量值标识各观测量。57第五十七页,共八十八页,2022年,8月28日2、单击统计量按钮,打开对话框,选择统计输出量。有四个选择项,分别是:基本统计描述。同时指定均值的置信区间的置信度,系统默认为95%。M-估计(M估计在计算时对所有观测量赋予权重,随观测量距分布中心的远近而变化);Outliers输出分析数据中五个最大值和五个最小值;Percentiles输出百分数。本例中选择Descriptives和Outliers后,返回主对话框。。58第五十八页,共八十八页,2022年,8月28日3.单击绘制按钮,打开对话框,如图所示。59第五十九页,共八十八页,2022年,8月28日4、单击选项按纽,打开对话框。可选择缺失值的处理方式,SPSS提供三种处理方式:剔除带有缺失值的观测量同时剔除缺失值及与其有成对关系的观测量输出频数表时同时输出缺失值60第六十页,共八十八页,2022年,8月28日5、单击OK,得到相应的输出结果。输出结果㈠:5%的修正均值:排除掉数据分布两端5%的变量值之后计算的平均值5%的修正均值:排除掉数据分布两端5%的变量值之后计算的平均值四分位数间距61第六十一页,共八十八页,2022年,8月28日极端值:按照性别输出数学成绩的五个最大值及五个最小值62第六十二页,共八十八页,2022年,8月28日正态分布检验表
从检验结果可以看出,由于假设检验的P值均大于0.05,故可以认为男女生的数学成绩分布都近似地服从正态分布。输出结果㈡:当显著性水平P<0.05时,数据就不是正态分布当样本量小于50时才比较精确63第六十三页,共八十八页,2022年,8月28日茎叶图输出结果(三):64第六十四页,共八十八页,2022年,8月28日
按照性别绘制的数学成绩的箱图
(代表变量中间50%的观测值)从上面的箱图中可以得出结论:女生的数学成绩的平均水平比男生低且分散程度小,但有一个离群值。除了离群值O(距方框上下限超1.5倍盒距)和极值E(距方框上下限超3倍盒距)之外的最大值和最小值上下四分位数、中位数65第六十五页,共八十八页,2022年,8月28日正态图(也可判断正态分布,但不能仅仅依靠正态图)输出结果(四):【探索】命令会输出两种正态图:NormalQ-Q图;DetrendedNormalQ-Q图;66第六十六页,共八十八页,2022年,8月28日正态分布Q-Q图上图中间的斜线是服从正态分布的标准线。从上面的分布图中看出,除个别极端点外,数据点都在斜线周围波动,故可以认为女生的数学成绩近似服从正态分布。67第六十七页,共八十八页,2022年,8月28日纵坐标是期望值(在标准正态分布下的转换值)68第六十八页,共八十八页,2022年,8月28日离散正态分布图从上面的离散正态分布图中看出,除个别极端点外,离散点都在±2的周围波动,故可以认为女生的数学成绩近似服从正态分布。纵坐标是实际观测值与期望值的差69第六十九页,共八十八页,2022年,8月28日方差齐性检验由表得出方差齐性检验的P值为0.8以上,故认为男女生数学成绩的方差是相等的。输出结果(五):70第七十页,共八十八页,2022年,8月28日4列联表分析当观察的现象与两个因素有关时,如某种服装的销量受价格和居民收入影响;某种产品的生产成本受原材料价格和产量的影响等等;交叉列联表分析可以比较好的反映出两个因素之间有无关联性,两因素与现象之间的相关关系。
71第七十一页,共八十八页,2022年,8月28日数据列联表分析主要包括两个基本任务:根据收集的样本数据,产生二维或多维交叉列联表;在此基础上,对两两变量间是否存在关联性进行检验。变量x是列变量,类别数为c,一般为自变量;变量y是行变量,类别数为r,一般为因变量;72第七十二页,共八十八页,2022年,8月28日下面仍然以数据SY-13学生成绩为例,将学生成绩按照五级制分等级后,按照班级形成数学等级和物理等级交叉分析表,并考察学生的物理和数学成绩间有无关联性。73第七十三页,共八十八页,2022年,8月28日制作交叉列联表的具体操作步骤:1、打开数据SY-1,单击分析描述统计交叉表对话框。二维列联表分析,选择行、列变量进入框中。如进行三维以上的列联表,可以将其它变量作为控制变量选到层(Layer)框中。多控制变量可以是同层次的也可以是逐层叠加的。此例中选择数学等级为行变量,物理等级为列变量,班级作为控制变量。74第七十四页,共八十八页,2022年,8月28日2、单击单元格(Cell)按纽,打开对话框。在计数框中选择观察值(系统默认)或期望频数;在百分比框内选择行、列及总百分比。在残差框中选择输出残差。本列中选择默认项观察值。75第七十五页,共八十八页,2022年,8月28日3、单击格式(Format)按纽,指定列联表的输出排列顺序,一般选择系统默认的升序。然后点击OK,就可得到交叉列联表。76第七十六页,共八十八页,2022年,8月28日从上表中可以看出,一班中数学和物理成绩均为优秀者有四人,数学不及格的两人的物理成绩都是及格。77第七十七页,共八十八页,2022年,8月28日两变量关联性检验(Chi-squareTest卡方检验)卡方检验是一种非参数检验方法。可以用来检验两个变量因素之间是否有关联关系。如果要考察学生的数学成绩和物理成绩之间是否有关联,相当于检验假设:H0:数学成绩和物理成绩之间是相互独立的(无关联关系);H1:数学成绩和物理成绩之间的关联关系显著。78第七十八页,共八十八页,2022年,8月28日编制列联表时应注意的问题编制列联表时,如果两个变量之间不存在因果关系,行变量和列变量可以随意指定。在对三个及以上变量进行列联分析时,一般来说,每个单元格至少要有5个观测值才能有说服力。列联表只是检验变量之间是否有关
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度钢材行业投资分析与风险评估合同
- 2025版学校体育器材租赁与维护服务协议3篇
- 教育科技在心理健康领域的创新应用
- 二零二五年度打字员与出版社合同:图书编辑与排版服务协议2篇
- 社交媒体在小学数学教学中的作用与影响
- 教育信息化背景下的探究式学习法研究
- 2025年度能源管理创业合伙人共同投资协议4篇
- 二零二五年度成都离婚协议公证办理材料审核及处理合同4篇
- 企业可持续发展与创新型组织架构的关系
- 小学阶段数学与信息技术课程的资源整合
- 2025-2030年中国MPV汽车市场全景调研及投资策略分析报告
- 二零二五年度数据存储与备份外包服务协议2篇
- 2024-2025学年初中七年级上学期数学期末综合卷(人教版)含答案
- 第五单元《习作例文:风向袋的制作》说课稿-2024-2025学年五年级上册语文统编版
- 【课件】第三课 蒙娜丽莎 课件高中美术湘美版美术鉴赏
- 新媒体研究方法教学ppt课件(完整版)
- 2020新版个人征信报告模板
- 东芝空调维修故障代码汇总
- 建筑物成新率评定标准
- 工艺管道仪表流程图(共68页).ppt
- 五项管理行动日志excel表格
评论
0/150
提交评论