单变量的统计描述_第1页
单变量的统计描述_第2页
单变量的统计描述_第3页
单变量的统计描述_第4页
单变量的统计描述_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

单变量的统计描述第1页,共23页,2023年,2月20日,星期三一、变量的层次1、定类变量定类变量是变量层次最低的,它的取值只有类别属性之分,而无大小程度之分.如民族,婚姻等.2、定序变量定序变量的层次高于定类变量.它的取值除了有类别属性之外,还有等级次序的差别.常见的如受教育程度,满意度,社会经济地位等.3、定距变量定距变量的层次又高于定序变量.定距变量的取值,除了具有次序属性外,取值之间的距离可以度量.如家庭住房面积,家庭人口数等.4、定比变量定比变量是将两类相关的数加以对比,形成的相对数,用以反映现象的构成、比重、密度和速度等数量关系。例如将家庭人口数与家庭总支出对比计算家庭人均支出水平。第2页,共23页,2023年,2月20日,星期三

二、单变量的统计描述方法基本描述

集中趋势离散趋势定类层次

次数、比例、比率、表格、图示

众数异众比率

定序层次

次数、比例、比率、表格、图示、累计次数、累计百分比中位数四分位差

定距层次

次数、比例、比率、表格、图示、累计次数、累计百分比、分组

均值标准差

第3页,共23页,2023年,2月20日,星期三(一)分布统计表统计图1、分布统计学里的分布是指一个概念或变量,它的各种情况出现的次数或频数,也称频次分布。如住房产别包括12种情况,按被访人的回答,可以得到12对数据:(x1,n1),(x2,n2)…(x12,n12).括号中的第一项表示变量的可能选项,第二项表示所对应的频次。需要注意的是:(1)变量取值必须完备,只有这样才能使被访者一一无遗地进行归类。(2)变量取值必须互斥,这样才能使每一个观察值归入一类,且仅仅归入一类。2、统计表用表格形式来表示变量的分布。统计表必须具备的内容有:表号(统计表x,x),表头(包括标题、时间、地点),标识行(产别、频数、频率),主体行(第一项位置,按列填写变量的不同选项;第二项位置,按列填写变量取值相应的频次和百分比等等)。要写明统计的总数。表尾需要写清资料来源。第4页,共23页,2023年,2月20日,星期三定类变量的统计表

表1、天津市居民住房的产别分布(1997)产别次数百分比1、直管公产43143.12、单位产16916.93、自有资产13713.74、房改购全部产权18718.75、房改购部分产权525.26、合作产权20.27、军产101.08、宗教产101.012、其他产20.2Total1000100.0第5页,共23页,2023年,2月20日,星期三教育fcfcf%C%C%一级685506812.4100.012.4二级9048215816.387.628.7三级10639226419.371.348.0四级19328645735.152.083.1五级939355016.916.9100.0总数550

100.0

定序变量统计表

表2某企业员工的教育水平第6页,共23页,2023年,2月20日,星期三

定距变量统计表

表3、天津市不同收入组居民的住房与收入现状(1997)收入的十等份分组使用面积(平方米)居住面积(平方米)月租金(元)家庭月平均收入(元)128.4919.3417.68472.00233.6523.0426.28726.83336.3823.7122.90867.42432.4522.0224.571003.86536.1724.2924.211154.36638.9026.9226.961306.41740.0826.6429.951481.37842.2526.973.641673.79943.5826.8029.131995.301058.7034.6630.422955.38第7页,共23页,2023年,2月20日,星期三定距变量制表需要考虑的问题1、组数组数太少会掩盖变量变动时频次的变化,组数太多,会使每组内频次过少,看不出明显的规律。一般根据理论和经验进行分组。2、等距分组与非等距分组一般情况下采用等距分组,但研究一些特殊问题,如贫困问题,需要对低收入分得细一些。3、组限(classlimits)就是每组的范围,包括上限和下限。对于离散型变量一般采取相邻组限不重叠的原则,而对于连续型变量,可能出现相邻组限重叠的情况,这时采取的原则就是“上组限不在内”原则。4、分组步骤第一,搜集数据;第二,在数据中找出最大值L,最小值S及极差值R;第三,把数据分组,如K组;第四,计算组距h;第五,计算组中值。第8页,共23页,2023年,2月20日,星期三3、统计图定类变量:圆瓣图;条形图定序变量:条形图定距变量:直方图;折线图第9页,共23页,2023年,2月20日,星期三第10页,共23页,2023年,2月20日,星期三(二)集中趋势测量法(1)集中趋势测量法(measuresofcentraltendency):就是找出一个数值来代表变量的资料分布,以反映资料的集结情况。该方法的意义,就是根据该代表值(或称典型值)来估计或预测每个研究对象的数值。(2)运用该方法要舍去变量的某些信息,但由于所根据的数值最有代表性,所产生的误差最小。(3)有三种方法供选择集中值:一是根据频次,哪个变量值具有的频次最多,就选择哪个变量值。二是根据居中。三是根据平均。第11页,共23页,2023年,2月20日,星期三表4、各种集中趋势量度的比较

均值中位数众数适用于定距数据适用于定序数据适用于定类数据计算时要用到全部数据只需中间数据可最快求出受极端值的影响对极端值不敏感有时对个别值的变动也很敏感分组变化时影响不大分组变化时有影响分组变化时影响较大第12页,共23页,2023年,2月20日,星期三众值、中位值和均值的比较(1)三者设计的目的是相同的,都是希望一个数值来描述整体特征,以便简化资料。(2)众值仅使用了资料中最大频次这一信息,因此,资料中信息的使用是不完善的。(3)虽然均值对资料的信息利用充分,但对严重偏态的分布,会失去它应有的代表性。(4)对于对称的图形,三者位置重叠,当图形正偏或负偏时,均值变化最快,中位值次之,众数不变。

第13页,共23页,2023年,2月20日,星期三(二)离散趋势测量法(1)离散趋势测量法(measurementsofdispersion),是要求出一个值来表示个案与个案之间的差异情况。(2)试比较以下两个班次考试成绩:甲:100,90,80,70,60,50,40

乙:85,80,75,70,65,60,55如果仅用集中趋势测量法来测量两个班的成绩,两班是相等的。但两班的分布显然有差异,需要考虑资料的分散特征。第14页,共23页,2023年,2月20日,星期三表5、各种离散趋势量度的比较

标准差四分位差异众比率适用于定距数据适用于定序数据适用于定类数据计算时用到全部数据只需要其中两段的数据可最快求出受极端值的影响大对极端值不敏感有时对个别值的变动也很敏感第15页,共23页,2023年,2月20日,星期三(3)离异比率(异众比率)(VariationRatio)离异比率就是非众值的次数与全部样本数目的比率。公式如下:

其中,N是全部样本数目,f是众值的次数,二者之差就是非众值的次数。显然,非众值的比例越小,众值的代表性就越好,信息量越大。反之,非众值所占的相对频数越大,众值的代表性越差,所提供的信息量也就越小。(4)四分位差(InterquartileRange)四分位差是定序以上变量度量分散程度的方法。计算方法是将样本由低至高排列,然后分为四个等分(即每个等分包括25%的个案),则第一个四分位置的值(Q1)与第三个四分位置的值(Q3)的差异,就是四分位差(简写为Q)。公式为:Q=Q3-Q1。

25%25%25%25%

低Q1Q2Q3Q4高第16页,共23页,2023年,2月20日,星期三5、标准差定距变量可以利用全距,四分位差计算离散程度,但要损失大量的信息。分析定距变量的离散程度,最常用的方法是标准差(简写S),即将各数值与其均值差的平方和除以全部样板数目,然后取其平方根,公式如下:S=还可以根据分组资料,公式为:

变量(X)72-1181864861316969-41657-16256=73.00506第17页,共23页,2023年,2月20日,星期三表6三群体住房“使用面积”集中和离散趋势对比使用面积均值标准差变异系数租用公房户34.9914.440.413原有私房户41.2727.030.658房改中获得私房户48.0622.150.461第18页,共23页,2023年,2月20日,星期三单变量统计描述与SPSS统计软件

1、频数分析分析步骤:(1)单击Analysis菜单,选择Descriptivestatistics中的Frequencies选择项,打开相应的对话框。在左侧的源变量框中选择一个或多个变量,单击向右箭头按钮,使其进入Variable框中;(2)根据需要选择相应的选择项

DisplayFrequencyTable选择此项将显示频数分布表。选择Statistics,打开统计量选择对话框。在对话框中选择输出统计量。可选择的统计量分四组,每组中的统计量可以同时选择。A、PercentileValues百分位数组,可以选择:

Quartiles:四分位数,显示25%、50%、75%的百分数;

Cutpointforequalgroups:将数据平分为所设定的相等等份,所选择的数值范围为2—100间的整数。例如,如果键入4,那么数据将会被四等分,即计算四分位数值。

Percentile(s):由用户定义的百分位数。键入的范围在0—100之间。第19页,共23页,2023年,2月20日,星期三单变量统计描述与SPSS统计软件B、Dispersion离散趋势组:

Std.deviation标准差

Variance方差

Range极值,最大值与最小值之差

Minimum最小值

Maximum最大值

S.E.Mean均值的标准误C、CentralTendency集中趋势组:

Mean算术平均数

Median中位数

Mode众数

Sum算术和第20页,共23页,2023年,2月20日,星期三单变量统计描述与SPSS统计软件D、Distribution分布参数组,可以选择以上选择项选择完,单击Continue确认这些选择,返回主对话框。Chart统计图形单击Chart按纽展开统计图对话框,对图形的类型及坐标等进行设置。FrequenciesFormat:设置频数表输出的格式,单击Format按纽打开对话框Orderby排序组,在该组中选择频数表中变量排列顺序。共四个选项:

AscendingValues按变量值的升序排列,这是默认的排列方式。

DescendingValues按变量的降序排列

Ascendingcounts按频数的升序排列

Descendingcounts按频数的降序排列。第21页,共23页,2023年,2月20日,星期三单变量统计描述与SPSS统计软件2、统计量的描述

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论