数据文件的建立及统计描述

上传人：a*** IP属地：北京上传时间：2020-06-02 格式：PPT 页数：86 大小：780KB 积分：15 举报 版权申诉

已阅读5页，还剩81页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据文件的建立及基本统计描述,第一节初识SPSS,SPSS简介,SPSS（StatisticsPackageforSocialScience）forWindows是一种运行在Windows系统下的社会科学统计软件软件包。SPSS软件包集数据整理、分析过程、结果输出等功能为一体，采用窗口操作界面，统计分析方法涵盖面广，用户操作使用方便，输出数据表格图文并貌，并且随着它的功能不断完善，统计分析方法不断充实,大大提高了统计分析工作的效率。从1968年由美国斯坦福大学开发使用至今，已经拥有全球数以万计的用户，分布在通信、医疗、银行、证券、保险、制造、商业、市场研究、科学教育等众多的行业领域，成为世界上应用最广泛的专业统计软件之一。,随着SPSS产品服务领域的扩大和服务深度的增加，SPSS公司已于2000年正式将英文全称更改为StatisticalProductandServiceSolutions，意为“统计产品与服务解决方案”，标志着SPSS的战略上的重大调整。迄今SPSS软件已有30余年的成长历史。全球约有25万家产品用户，它们分布于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等多个领域和行业，是世界上应用最广泛的专业统计软件。,SPSS的基本功能,SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等，具体内容包括描述统计、列联分析，总体的均值比较、相关分析、回归模型分析、聚类分析、主成份分析、时间序列分析、非参数检验等多个大类，每个类中还有多个专项统计方法。SPSS设有专门的绘图系统，可以根据使用者的需要将给出的数据绘制各种图形，能够满足用户的不同需求。,SPSS的运行方式,完全窗口菜单方式程序运行方式混合运行方式。,SPSS的主要界面,1.数据编辑窗口（DataEditor）2.结果输出窗口（SPSSViewer）3.程序编辑窗口（SyntaxEditor）4.图形编辑窗口（ChartEditor）,数据编辑窗口,SPSSDataEditor是一个集数据输入、数据编辑和变换、数据文件整理、统计分析、统计制图功能于一体的工作环境。它有两个界面：数据视窗（DataView）和变量视窗（VariableView）。,直接输入观测数据值或存放数据,定义和修改变量的名称、类型及其他属性,编辑窗-VariableView,VariableView,Name：变量名。变量名必须以字母、汉字及开头，总长度不超过8个字符，共容纳4个汉字或8个英文字母，英文字母不区别大小写，最后一个字符不能是句号。Type：变量类型。变量类型有8种，最常用的是Numeric数值型变量。其它常用的类型有：String字符型，Date日期型,Comma逗号型（隔3位数加一个逗号）等。Width：变量所占的宽度。Decimals：小数点后位数。Label：变量标签。关于变量涵义的详细说明。,Values：变量值标签。关于变量各个取值的涵义说明。Missing：缺失值的处理方式。Columns：变量在DateView中所显示的列宽（默认列宽为8）。Align：数据对齐格式（默认为右对齐）。Measure：数据的测度方式。系统给出名义尺度、有序尺度和标度尺度三种（默认为标度尺度）。,结果输出窗口,SPSSViewer是SPSS大多数过程的运行结果的显示窗口。该窗口分两部分：大纲输出区和文本输出区。,SyntaxEditor,ChartEditor,菜单栏,带有“”的命令，表示会打开一个级联菜单带有“”的命令，表示会打开一个对话框,工具栏,对话框,AnalyzeDescriptiveStatisticsDescriptives,选择“Options”,利用SPSS进行统计处理的基本流程,建立数据库,直接在SPSS的数据视图窗口中按要求输入数据直接建立数据库（“*.sav”格式）；读入已有的数据文件如DBASE、FOXBASE、FOXPRO、EXCEL、LOTUS、SYLK、SAS以及纯文本等格式生成数据库文件。,管理数据库,管理数据库包括整理数据、数据库维护及数据变换等内容。整理数据的过程就是对数据库中各变量的原始数据进行检查、核对、纠错、修改的过程。,数据库维护（如对数据进行拆分、合并、加权、筛选、排序、转置、分类汇总、变换排列格式等操作）；数据变换（如生成新变量、计算秩次、设定随机函数的种子等操作）。SPSS统计软件的数据库维护功能主要集中在Data菜单选项中，数据变换功能主要涵盖于Transform菜单内。,数据的预分析,描述性统计指标（如集中趋势的统计指标、离散趋势的统计指标、位置指标、分布指标等）和统计图形（如直方图、箱式图、茎叶图、QQ图等）等信息判断资料的性质和分布特点，有助于使用者确定并选择适当的统计分析方法；向用户提示资料中的离群值和缺失数据；数据的预分析还可为变量变换（如以正态性、方差齐性为目的）提供线索。数据预分析主要见于DescriptiveStatistics过程中的Explore选项。,资料的统计分析,样本数据的描述性统计、假设检验（包括参数检验、非参数检验及其它检验）、方差分析（包括单因素方差分析和多因素方差分析）、列联表、相关分析、回归分析、对数线性分析、聚类分析、判别分析、因子分析、对应分析、时间序列分析、生存分析、多维尺度分析、信度分析、缺失值分析等。SPSS统计软件的数据分析功能主要集中在Analyze模块中。,结果的读取与解释,资料的描述性统计应报告统计指标（如集中趋势的描述指标、离散趋势的统计指标、相对数等），将集中指标和变异指标结合起来使用；假设检验的结果中同时报告可信区间、检验统计量和P值。,第二节建立SPSS数据库的原则与方法,1.数据库的结构,每一行称为一个记录（record）或一个观察单位（case），记录每一个研究个体的各研究指标；每一列称为一个变量（variable），表示研究中的各研究指标。横向的纪录和纵向的变量构成了常见的二维数据方阵。,2.建立数据库的原则,方便录入便于核查易于转换利于分析,方便录入,在录入过程中尽可能减少录入的工作量，将原始数据中的分类变量数量化，如表中的性别、民族、高血压糖尿病的患病情况等皆为分类变量，在原始数据中表现为字符的形式，可根据实际情况将其数量化。,便于核查,一定要有标识变量，以便数据的核查校对。,易于转换,录入数据时要考虑不同软件的要求，如一些软件不能识别中文，一些软件的变量名要求不能超过8个字符等，因此，在录入数据时，变量名一般尽可能用英文，不超过8字符，数据尽可能用数值表示，这样数据库被分析软件读入时，就不易丢失数据和出现差错。,利于分析,收集的资料尽可能录成一个数据库文件，而不要分解成多个数据文件，且录入的格式应满足多种统计分析方法的需要。,3数据的质量控制,使用专门的数据库软件如FoxPro、Access、EpiInfo、EpiData等（具有完善的数据管理、查询、修改功能，录入方便）；设定逻辑核查格式；实行双人双录入。,数据核查,逻辑核查；对原始数据的编号和数据库的数据序号进行核对，看有无缺漏；利用统计分析软件列出变量的频数表或散点图，观察其频数分布有无异常或有无离群值的出现；对变量进行描述性统计，观察其样本含量、最大值、最小值是否与原始数据吻合；对分类变量或等级资料，列出交叉列联表，观察变量间的交互频数是否符合实际情况。,4缺失值的处理,为保证资料的质量，应尽量减少缺失值，如有缺项，尽可能的补齐。一般认为，缺失值不能超过数据记录总量的10%。在数据录入的过程中，注意把“0”和缺失值区分开来。在一般的数据库中，缺失值一般用“.”表示。,5生成SPSS数据库,直接录入变量视窗中定义变量数据视窗中录入读入其它类型的数据文件SPSS有很好的兼容性，能将DBASE、FOXBASE、FOXPRO、EXCEL、LOTUS、SYLK、SAS以及纯文本格式的数据文件读入并进行统计分析。直接单击快捷工具栏中的“”按钮，系统就会弹出OpenFile对话框，单击“文件类型”列表框，选择所需的文件类型，选中所要打开的文件即可。,6保存数据文件,选择菜单Filesave，对于从未保存过的数据库，将会弹出SaveDataAs对话框，通过下方的保存类型列表框，可选择保存数据文件的类型；若文件曾经存储过，系统会自动按原文件名保存数据。通过热键“CtrlS”实现文件的保存。数据文件的储存格式为“.sav”；结果浏览窗口的储存格式为“.spo”。,第三节数据文件的管理,管理数据库包括整理数据、数据库维护及数据变换等内容。Data菜单：数据库维护功能Transform菜单：数据变换功能,1.Transform菜单简介,Transform菜单中主要集中了一些对变量进行变换的过程，如对原始数据进行数学运算、为变量赋值、对数据重新编码、计算秩次等。,Compute选项：为变量赋值，目标变量（TargetVariable）可以是新变量，也可以是已有的变量。操作的数据集可以是所有记录，也可以设置逻辑条件，只对满足条件的记录赋值，其余记录的相应变量或保持原状（目标变量为已有变量时）或被赋为缺失值（目标变量为新变量时）。RandomNumberSeed选项:用于设定伪随机函数的随机种子。Count选项：用于标示某个值或某些值在某个变量的取值中是否出现。Recode选项：从原变量值按照某种一一对应的关系生成新变量值，可以将新值赋给原变量，也可以生成新变量，实际效果与Compute选项类似。,CategorizeVariables选项：将连续性变量自动按照要求分成等间距的n组。RankCases选项：根据某个选定变量V的数值大小排序（秩次），再将秩次结果储存至一个新变量rV（即原变量名前加r表示Rank秩次的意思）中。AutomaticRecord选项：按照原变量值的大小生成新变量，变量值为按原值的大小排列的顺次，功能与RankCases相似（等同于相同数值给予最小秩次的情况）。CreateTimeSeries选项：用于自动生成时间序列变量。ReplaceMissingValue选项：用于时间序列模型数据的预处理。,Compute过程,例以表9.2.2中的数据为例（数据库见“例9.2.1某地2005年65岁以上老年人健康体检纪录.sav”），如果我们在数据管理时，需要计算体质指数BMI（BMI=体重/身高2），我们就可以使用Compute过程在原数据库中生成新变量并命名为“bmi”。,选择菜单TransformCompute,例以表9.2.2中的数据为例（数据库见“例9.2.1某地2005年65岁以上老年人健康体检纪录.sav”），我们需要将年龄分段，规定年龄70岁为1，70岁为2，并在原数据库中生成新变量“age1”。,TargetVariable里键入“age1”。右上方的NumericExpression框内输入“1”，然后点击按钮,对年龄70岁的记录赋值,TransformComputeTargetVariable：age1NumericExpression：2IfIncludeifcasesatisfiescondition:age70continueOK,RankCases过程,例9.2.3以表9.2.2中的数据为例（数据库见“例9.2.1某地2005年65岁以上老年人健康体检纪录.sav”），试按性别分类将体重进行秩变换。,TransformRankCasesVariables：weight按体重编秩By:：gender性别作为分组变量AssignRank1tosmallestvalue将秩次1赋值给最小值Displaysummarytables:在结果窗口内输出结果报表RankTypes：Rank秩次类型为秩分数Ties：Mean对于相同测量值取平均秩次OK生成新变量“rweight”,2Data菜单简介,在很多情况下，我们需要对整个数据文件进行整理加工，如根据分析要求对数据进行筛选、分组、加权、合并、拆分、转换存储格式等操作，这些功能主要集中在Data菜单中。,根据菜单中具体选项的功能特点，可将其分为四类：,快捷命令：包括插入变量（InsertVariables）、插入记录（InsertCases）、到达某记录（GotoCase），这些功能在实际操作中往往采用鼠标在数据界面上直接完成，很少调用菜单。常用的选项：包括排序（SortCases）、拆分文件（SplitFile）、选择记录（SelectCases）、加权观测（WeightCases），这些过程在数据管理和分析时的使用频率较高。,变量与数据文件属性向导：包括变量属性定义向导（DefineVariableProperties）和复制数据文件属性向导（CopyDataProperties），是从11.5开始的版本新增内容，用于定义数据字典或将预先定义的数据字典直接引入当前数据文件，对于大型数据分析十分有用。专用选项：包括定义日期变量（DefineDates）、数据转置（Transpose）、数据文件重排（Restructure）、数据文件合并（MergeFiles）、数据汇总（Aggregate）、正交设计（OrthogonalDesign），各有其特定的用途。,DefineDates选项：自动生成时间变量，主要用于时间序列模型。InsertVariable选项：在当前列插入新变量。InsertCases选项：当前行插入新变量。GotoCases选项：到达指定记录号的某记录。SortCases选项：对变量按照观测值进行升序或降序排列，便于进行数据核查，及时发现异常值或缺失值。Transpose选项：对数据进行行列转置，一条记录转成一个变量，变量转为一条记录。未被选入的变量转置时被丢弃。,Restructure选项：改变原数据的排列格式，主要用于重复测量资料的整理。MergeFiles选项：合并数据文件，包括从外部数据文件中增加记录的纵向合并和从外部数据文件中增加变量的横向合并。Aggregate选项：对数据进行分类汇总，可以按照指定的分类变量对观测值进行描述性统计量的计算，结果可存储为新的数据文件，亦可替换当前数据文件。OrthogonalDesign选项：自动生成正交设计表格，是结合分析的重要工具。SplitFile选项：将数据文件按某个或某些分类变量分组进行处理。SelectCases选项：按照设定的条件挑选符合要求的记录进行处理。WeightCases选项：指定权重变量（频数变量），主要用于定义频数表资料的频数变量。,第四节统计图的绘制,统计图比统计表更容易理解和比较，它通过点的位置、线段的升降、直条的长短或面积的大小来表现事物的数量关系。因此，掌握如何绘制图形精美、种类得当的统计图将有助于对资料的理解。,常用的统计图有直条图、直方图、百分比条图和圆图、线图、散点图和统计地图等，还有在数据控索分析中应用的茎叶图、箱式图、残差图，序贯分析的检验区域图，判别分析的类别分布图，聚类分析的谱系图等。它们各有不同的适用范围、目的和绘制方法。,1.直条图,直条图常用于两个或多个组某指标大小的比较，该指标可以是连续性变量、等级变量或分类变量。直条图用等宽直条的长短来表示各独立指标的数值大小和它们之间的对比关系，适用于无连续性关系的、各自独立的资料。直条图可分为单式和复式两种。,例2.3请将表2-4的资料绘制成直条图。,数据文件见“例2.3某省1978年四个地区某病发病率.sav”。分析时的操作步骤如下：GraphBar选择绘制条图SimpleDefine选择简单条图BarsRepresentOthersummaryfunction(mean)Variablerate定义直条代表发病率均值CategoryAxisaera横轴分类变量定义为“aera”,例2-4表2-5是中国卫生年鉴（2008卷）公布的2007年中国城乡居民主要死因的标准化死亡率，据此绘制复式直条图。,数据文件见“例2.42007年中国城乡居民主要死因的死亡率.sav”。GraphBar选择绘制条图ClusteredDefine选择复式条图BarsRepresentOthersummaryfunction(mean)Variablerate定义直条代表发病率均值CategoryAxisdisease横轴分类变量定义为“disease”DefineClusteresbyaera分组变量定义为“aera”OK,2.圆图,圆图通常用来表示数据的部分与整体之间的比例关系。其中，整个圆的面积表示整体，各部分面积的大小对应于所占构成比的大小。圆图适用于描述分类资料的内部构成情况。,分析时的操作步骤如下：DataWeightcases将数据指定为频数格式weightCasesby：FrequencyVariable：fre定义频数变量freOKGraphpie选择绘制饼图SummariesforgroupsofcasesDefineSliceRepresentNofcasesDefineSlicesbykind分类变量定义为“kind”OK,3.直方图,用于表示连续性数值变量的频数分布。以直方下的面积表示频数的

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据文件的建立及统计描述

文档简介

温馨提示

最新文档

评论

数据文件的建立及统计描述

文档简介

温馨提示

最新文档

评论

相关文档