实验四描述性统计分析_第1页
实验四描述性统计分析_第2页
实验四描述性统计分析_第3页
实验四描述性统计分析_第4页
实验四描述性统计分析_第5页
免费预览已结束,剩余10页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试验四描述性统计分析数据的特征和测度数据的特征和测度集中趋势离散程度分布的外形异众比率众偏态数四分位差中位数方差和标准差均值峰度离散系数一、集中趋势的测度定类数据:众数定距和定比数据:均值众数、中位数和均值的比较一组数据向其中心值靠拢的倾向和程度测度集中趋势就是查找数据一般水平的代表值或中心值不同类型的数据用不同的集中趋势测度值数据的集中趋势测度值并不适用于低层次的测量数据确定众数〔Mode〕1、集中趋势的测度值之一2、消灭次数最多的变量值3、不受极端值的影响4、可能没有众数或有几个众数5、主要用于定类数据,也可用于定序数据和数值型数据中位数(Median)6、集中趋势的测度值之一7、排序后处于中间位置上的值505050%Me8、不受极端值的影响9、主要用于定序数据,也可用数值型数据,但不能用于定类数据10、 各变量值与中位数的离差确定值之和最小,即四分位数(Quartiles)集中趋势的测度值之一252525252525QL QM QU不受极端值的影响主要用于定序数据,也可用于数值型数据,但不能用于定类数据均值〔Mean〕集中趋势的测度值之一最常用的测度值一组数据的均衡点所在易受极端值的影响用于数值型数据,不能用于定类数据和定序数据众数、中位数和均值的关系均值中位数众数 均值=中位数=众数 众数中位数均值左偏分布 对称分布 右偏分布二、离散程度的测度定类数据:异众比率定序数据:四分位差定距和定比数据:方差及标准差异众比率离散程度的测度值之一非众数组的频数占总频数的比率仅用于定类数据用于衡量众数的代表性四分位差离散程度的测度值之一也称为内距或四分间距上四分位数与下四分位数之差QD=QU-QL50%数据的离散程度不受极端值的影响用于衡量中位数的代表性方差和标准差〔VarianceandStd。deviation〕离散程度的测度值之一最常用的测度值反映了数据的分布反映了各变量值与均值的平均差异为样本方差或标准差〔kurtosis〕数据分布偏斜程度的测度偏态系数=0为对称分布偏态系数>0为右偏分布偏态系数<0为左偏分布峰度(skewness)数据分布扁平程度的测度峰度系数=3扁平程度适中偏态系数<3为扁平分布偏态系数>3为尖峰分布三、描述统计量的软件实现1、Excel即可输出大局部描述统计量。EXCEL平均122.98标准误差1.14中值(中位数)123模式(众数)122标准偏差8.03样本方差64.43峰值-0.41偏斜度0.00区域(极差)32最小值107最大值139求和6149计数50最大(1)139最小(1)107置信度(95.0%)2.282、SPSSSPSSStatistics面的四个过程:Frequencies过程的特色是产生频数表;Descriptives过程则进展一般性的统计描述;Explore过程用于对数据概况不清时的探究性分析;Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验;X2检验也在其中完成。Frequencies此过程可以便利地对数据按组进展归类整理,形成各变量的不同水平的频数步分析。【Statistics按钮】 位数(Quartiles)、每隔指定百分位输出当前百分位数(Cutpointsfor (Percentiles),如直P2.5P97.5; (Mean)、中位数(Median)、众数(Mode)、总和(Sum);Dispersion复选框组用于定义描述离散趋势的一组指标:标准差(Std.deviation)、方差(Variance)(Range)、最小值(Minimum)、最大值(Maximum)、均值标准误差(S.E.mean);Distribution〔Skewness〕和峰度系数(Kurtosis); 并且具体数值是组中值时,选中该复选框以通知SPSS,免得它犯错误。【Chart按钮】Charttype〔BarHistogram〕,其中直方图还可以选择是否加上正态曲线〔Withnormalcurve〕;ChartValues〔即影响纵坐标刻度〕。例4.1利用房价原始数据图.Sav绘制频数表、直方图,计算均数、标准差、中M、p2.5p97.5。Analyze==>DescriptiveStatistics==>FrequenciesVariablesPriceStatistics钮:Mean、Std.deviation、MedianContinueChartsBarchartsContinueOK。priceNMeanMedianStd.Deviation

StatisticsValidMissing

1050220.72213.0047.108Percentiles2.5134.1097.5326.35N1050Mean=220.72Median=213.00,标准差STD=47.108,P2.5=134.10,P97.5=326.35。案例1:利用居民储蓄调查表数据进展频数分析,实现:目标一:分析储户的户口和职业的根本状况;频数的降序输出,户口按饼图输出,职业按条形图输出;〔取〕款金额的分布,并对城镇储户和农村储户进展比较。提示:由于存〔取〕款金额数据为定距型变量,直接承受频数分析不利于对〔Transform→Record〕对数据分组后再编制频数分布表;〔取位数,并通过四分位数比较两者分布上的差异。Descriptives过程算术和、标准差、最大值、最小值等,且可将原始数据转换成标准Z分值〔标准正态评分值〕并存入数据库。选择菜单Analyze==>descriptive==>Descriptives对话框的界面如下所示:valuesasvariables确定是否将原始数据的标准正态评分存为变量。案例2:利用居民储蓄调查表数据计算根本描述统计量,实现:〔取〕款金额的根本描述统计量,并分别对城镇储户和农村储户进展比较;提示:首先依据户口对数据进展拆分;〔取〕款的数量是否存在不均衡现象。提示:可以从分析金额是否有大量特别值入手;SaveStandardizedAsVariables项,将自动计算存〔取〕Za5;高金额组〕后进展频数分析;〔即低特别值组〕和高金额组〔即高特别值组〕的比例,如特别组0.3%,即认为存〔取〕款金额存在肯定的不均衡现象。Explore过程1.检查数据是否有错误2.数值的分布特征3.对数据的规律的初步观看选择菜单Analyze==>descriptive==>Explore对话框的界面如下所示:【Display用于选择输出结果中是否包含统计描述、统计图或两者均包括。【DependentList用于选入需要分析的变量。【FactorList框】假设想让所分析的变量按某种因素取值分组分析,则在这里选入分组变量。【LabelcasesbyID号的变量。【StatisticsStatistics M-estimators复选框:作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数。OutliersPercentiles5%10%2550%75%9095%位数。【Plot弹出Plot对话框,用于选择所需要的统计图。有如下选项: (Factorlevelstogether),也可以不分组一起绘制(Depentendstogether),或者不绘制(None)。Descriptive(Stem-and-leaf)和直方图(Histogram)。 否符合正态分布的检验。Spreadvs.LevelwithLeveneTest组间方差齐性检验。【Options某统计量时有缺失值的记录,或报告缺失值。StatisticStd.ErrorpriceMean95%ConfidenceLowerIntervalforMeanUpperBoundBound220.72211.61229.844.5975%TrimmedMean219.55Median213.00Variance2219.125Std.Deviation47.108Minimum125Maximum345Range220InterquartileRange65Skewness.473.236Kurtosis-.274.467priceStem&Leaf1.2231.Stem&Leaf1.2231.4551.66677777777777771.888888888889999999992.000000000011112.222222222333332.44444444555552.666667772.88999993.01113.223.003.0016.0020.0014.0014.0013.008.007.004.002.001.00 3.4Stemwidth: 100Eachleaf: 1case(s)以上是茎叶图,整数位为茎,小数位为叶。这样可以格外直观的看出数据的分布范围及形态,在国外格外流行。350300250200150100price以上是箱线图,中间的黑粗线为均数,红框为四分位间距的范围,上下两个细线为最大、最小值。案例3:利用居民储蓄调查表数据分析储户存〔取〕款金额的分布状况。Crosstabs〔列联表分析〕Crosstabs特征,进而分析变量之间的相互影响和关系。称列联表分析或穿插分组下的频数分析。两大根本任务:依据收集到的样本数据编制二维或多维穿插列联表;。Crosstabs〔单变量频数表〕,该功能由Frequencies穿插列联表的卡方检验:检验行变量和列变量是否独立?列变量独立;Pearson确定显著性水平和临界值;结论和决策。方法一:假设卡方的观测值大于卡方临界值,可拒绝零假设;α,拒绝零假设。SPSSSPSSP 策方式进展决策。事实上,全部的假设检验均是这样进展的。例4.2利用下表格数据,进展列联表分析。处理愈合未愈合合计呋喃硝胺54862甲氰咪胍442064合计9828126量――行变量、列变量和指示每个格子中频数的变量,然后用WeightCases对CrosstabsX2R、CW,则数据集构造和命令如下:RCW1.001.0054.001.002.0044.002.001.008.002.002.0020.00Data==>WeightCasesWeightCasesbyFreqencyVariableWOKAnalyze==>DescriptiveStatistics==>CrosstabsRowsRColumnsCStatisticsChi-squareContinueOK从左到右为:检验统计量值(Value)、自由度(df)、双侧近似概率(Asymp.Sig.2-sided)、双侧准确概率(ExactSig.2-sided)、单侧准确概率(ExactSig.1-sided);Chi-Square〕、连续性校正的卡方值(ContinuityCorrection)、对数似然比方法计算的卡方Fisher‘s(Fisher’sExactTest)、线性相LinearAssociation)、有效记录数(NofValidCases)。另外,ContinuityCorrectionPearsonab,表格13.78。因此,这里无须校正,直接承受第一行的检验结果,即X2=6.133,P=0.013,如给定显著性α0.05,由于卡方的频率pα,因此拒绝零假设,即认为两组方法治疗效果有差异。5,则一般不宜使用卡方检验。在这种状况下,可以承受似然率卡方检验等方法进展修正。4.3〔职工数据〕.savAnalyze==>DescriptiveStatistics==>Crosstabs;〔zc〕Row(s)框,将列变量文化程度(xl)ColumnDisplayclusteredbarcharts选项,指定绘制各变量穿插分tables变量间关系;CellFormat行变量取值的升序排列;Chi-Square案例4:利用居民储蓄调查表数据进展计算,实现以下两个目标:持一样的态度;提示:列联表的行变量为户口〔a13〕,列变量为将来收入状况〔a3〕,在列全都进展分析;目标二:分析城镇和农村储户对储蓄是否合算的认同是否全都。提示:该分析中列联表的行变量为户口〔a13〕,列变量为什么合算〔a1〕,在列联表的根底上进展卡方检验。补充:多项选择项分析多项选择项分析是针对问卷调查中的多项选择项问题的。SPSSSPSS将多项选择项问题分解;〔前面已讲过〕利用前面讲到的频数分析或穿插分组下的频数分析等方法进展分析。多项选择项频数分析或多项选择项穿插分组下的频数分析1将多项选择项问题分解并设置成多个变量后,指定这些变量为一个集合。1Analyze==>MultipleResponse==>Definesets;2Variablesinsetscodedascountedvalue哪组值进展分析。SpsscategoriesRangethrough取值的最小值和最大值。4、为多项选择项变量集命名,系统会自动

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论