版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二讲单变量的统计描述变量层次的划分A.定类层次;B.定序层次;C.定距层次变量的统计描述
A.分布统计表统计图;B.集中趋势测量法;C.离散趋势测量法一、变量的层次1、定类变量定类变量是变量层次最低的,它的取值只有类别属性之分,而无大小程度之分.如民族,婚姻等.2、定序变量定序变量的层次高于定类变量.它的取值除了有类别属性之外,还有等级次序的差别.常见的如受教育程度,满意度,社会经济地位等.3、定距变量定距变量的层次又高于定序变量.定距变量的取值,除了具有次序属性外,取值之间的距离可以度量.如家庭住房面积,家庭人口数等.4、定比变量定比变量是将两类相关的数加以对比,形成的相对数,用以反映现象的构成、比重、密度和速度等数量关系。例如将家庭人口数与家庭总支出对比计算家庭人均支出水平。
二、单变量的统计描述方法基本描述
集中趋势离散趋势定类层次
次数、比例、比率、表格、图示
众数异众比率
定序层次
次数、比例、比率、表格、图示、累计次数、累计百分比中位数四分位差
定距层次
次数、比例、比率、表格、图示、累计次数、累计百分比、分组
均值标准差
(一)分布统计表统计图1、分布统计学里的分布是指一个概念或变量,它的各种情况出现的次数或频数,也称频次分布。如住房产别包括12种情况,按被访人的回答,可以得到12对数据:(x1,n1),(x2,n2)…(x12,n12).括号中的第一项表示变量的可能选项,第二项表示所对应的频次。需要注意的是:(1)变量取值必须完备,只有这样才能使被访者一一无遗地进行归类。(2)变量取值必须互斥,这样才能使每一个观察值归入一类,且仅仅归入一类。2、统计表用表格形式来表示变量的分布。统计表必须具备的内容有:表号(统计表x,x),表头(包括标题、时间、地点),标识行(产别、频数、频率),主体行(第一项位置,按列填写变量的不同选项;第二项位置,按列填写变量取值相应的频次和百分比等等)。要写明统计的总数。表尾需要写清资料来源。定类变量的统计表
表1、天津市居民住房的产别分布(1997)产别次数百分比1、直管公产43143.12、单位产16916.93、自有资产13713.74、房改购全部产权18718.75、房改购部分产权525.26、合作产权20.27、军产101.08、宗教产101.012、其他产20.2Total1000100.0教育fcfcf%C%C%一级685506812.4100.012.4二级9048215816.387.628.7三级10639226419.371.348.0四级19328645735.152.083.1五级939355016.916.9100.0总数550
100.0
定序变量统计表
表2某企业员工的教育水平
定距变量统计表
表3、天津市不同收入组居民的住房与收入现状(1997)收入的十等份分组使用面积(平方米)居住面积(平方米)月租金(元)家庭月平均收入(元)128.4919.3417.68472.00233.6523.0426.28726.83336.3823.7122.90867.42432.4522.0224.571003.86536.1724.2924.211154.36638.9026.9226.961306.41740.0826.6429.951481.37842.2526.973.641673.79943.5826.8029.131995.301058.7034.6630.422955.38定距变量制表需要考虑的问题1、组数组数太少会掩盖变量变动时频次的变化,组数太多,会使每组内频次过少,看不出明显的规律。一般根据理论和经验进行分组。2、等距分组与非等距分组一般情况下采用等距分组,但研究一些特殊问题,如贫困问题,需要对低收入分得细一些。3、组限(classlimits)就是每组的范围,包括上限和下限。对于离散型变量一般采取相邻组限不重叠的原则,而对于连续型变量,可能出现相邻组限重叠的情况,这时采取的原则就是“上组限不在内”原则。4、分组步骤第一,搜集数据;第二,在数据中找出最大值L,最小值S及极差值R;第三,把数据分组,如K组;第四,计算组距h;第五,计算组中值。3、统计图定类变量:圆瓣图;条形图定序变量:条形图定距变量:直方图;折线图(二)集中趋势测量法(1)集中趋势测量法(measuresofcentraltendency):就是找出一个数值来代表变量的资料分布,以反映资料的集结情况。该方法的意义,就是根据该代表值(或称典型值)来估计或预测每个研究对象的数值。(2)运用该方法要舍去变量的某些信息,但由于所根据的数值最有代表性,所产生的误差最小。(3)有三种方法供选择集中值:一是根据频次,哪个变量值具有的频次最多,就选择哪个变量值。二是根据居中。三是根据平均。表4、各种集中趋势量度的比较
均值中位数众数适用于定距数据适用于定序数据适用于定类数据计算时要用到全部数据只需中间数据可最快求出受极端值的影响对极端值不敏感有时对个别值的变动也很敏感分组变化时影响不大分组变化时有影响分组变化时影响较大众值、中位值和均值的比较(1)三者设计的目的是相同的,都是希望一个数值来描述整体特征,以便简化资料。(2)众值仅使用了资料中最大频次这一信息,因此,资料中信息的使用是不完善的。(3)虽然均值对资料的信息利用充分,但对严重偏态的分布,会失去它应有的代表性。(4)对于对称的图形,三者位置重叠,当图形正偏或负偏时,均值变化最快,中位值次之,众数不变。
(二)离散趋势测量法(1)离散趋势测量法(measurementsofdispersion),是要求出一个值来表示个案与个案之间的差异情况。(2)试比较以下两个班次考试成绩:甲:100,90,80,70,60,50,40
乙:85,80,75,70,65,60,55如果仅用集中趋势测量法来测量两个班的成绩,两班是相等的。但两班的分布显然有差异,需要考虑资料的分散特征。表5、各种离散趋势量度的比较
标准差四分位差异众比率适用于定距数据适用于定序数据适用于定类数据计算时用到全部数据只需要其中两段的数据可最快求出受极端值的影响大对极端值不敏感有时对个别值的变动也很敏感(3)离异比率(异众比率)(VariationRatio)离异比率就是非众值的次数与全部样本数目的比率。公式如下:
其中,N是全部样本数目,f是众值的次数,二者之差就是非众值的次数。显然,非众值的比例越小,众值的代表性就越好,信息量越大。反之,非众值所占的相对频数越大,众值的代表性越差,所提供的信息量也就越小。(4)四分位差(InterquartileRange)四分位差是定序以上变量度量分散程度的方法。计算方法是将样本由低至高排列,然后分为四个等分(即每个等分包括25%的个案),则第一个四分位置的值(Q1)与第三个四分位置的值(Q3)的差异,就是四分位差(简写为Q)。公式为:Q=Q3-Q1。
25%25%25%25%
低Q1Q2Q3Q4高5、标准差定距变量可以利用全距,四分位差计算离散程度,但要损失大量的信息。分析定距变量的离散程度,最常用的方法是标准差(简写S),即将各数值与其均值差的平方和除以全部样板数目,然后取其平方根,公式如下:S=还可以根据分组资料,公式为:
变量(X)72-1181864861316969-41657-16256=73.00506表6三群体住房“使用面积”集中和离散趋势对比使用面积均值标准差变异系数租用公房户34.9914.440.413原有私房户41.2727.030.658房改中获得私房户48.0622.150.461单变量统计描述与SPSS统计软件
1、频数分析分析步骤:(1)单击Analysis菜单,选择Descriptivestatistics中的Frequencies选择项,打开相应的对话框。在左侧的源变量框中选择一个或多个变量,单击向右箭头按钮,使其进入Variable框中;(2)根据需要选择相应的选择项
DisplayFrequencyTable选择此项将显示频数分布表。选择Statistics,打开统计量选择对话框。在对话框中选择输出统计量。可选择的统计量分四组,每组中的统计量可以同时选择。A、PercentileValues百分位数组,可以选择:
Quartiles:四分位数,显示25%、50%、75%的百分数;
Cutpointforequalgroups:将数据平分为所设定的相等等份,所选择的数值范围为2—100间的整数。例如,如果键入4,那么数据将会被四等分,即计算四分位数值。
Percentile(s):由用户定义的百分位数。键入的范围在0—100之间。单变量统计描述与SPSS统计软件B、Dispersion离散趋势组:
Std.deviation标准差
Variance方差
Range极值,最大值与最小值之差
Minimum最小值
Maximum最大值
S.E.Mean均值的标准误C、CentralTendency集中趋势组:
Mean算术平均数
Median中位数
Mode众数
Sum算术和单变量统计描述与SPSS统计软件D、Distribution分布参数组,可以选择以上选择项选择完,单击Continue确认这些选择,返回主对话框。Chart统计图形单击Chart按纽展开统计图对话框,对图形的类型及坐标等进行设置。FrequenciesFormat:设置频数表输出的格式,单击Format按纽打开对话框Orderby排序组,在该组中选择频数表中变量排列顺序。共四个选项:
AscendingValues按变量值的升序排列,这是默认的排列方式。
DescendingValues按变量的降序排列
Ascendingcounts按频数的升序排列
Descendingcounts按频数的降序排列。单变量统计描述与SPSS统计软件2、统计量的描述变量的描述统计量有平均值、标准差、最大值、最小值、方差、极值和平均数的标准误。A、分析步骤单击Analysis菜单,选择Descriptivestatistics中的选择项,打开对所选择的每一个变量在数据框中产生其标准化值;DisplayLabel显示变量的标签;在主对话框中单击Option按纽,选择所要描述的统计量与分布单击OK按钮提交系统执行。B、数据分组对于定距层次的变量,有时需要先分组,然后在进行统计分布和描述。分组方法如下:单击Transform菜单,选择recode中的intodifferentVariables选择项。键入要分组的变量,并定义一个新变量名选择OldandNewValues命令框定义组限,并赋予一个新值。三、二变量的统计描述1,交叉分组与列联表交叉分组下的频数、频率分析的主要任务有两个:第一、根据搜集到的样本数据产生表2、表3的二维交叉列联表;第二,在交叉列联表的基础上,分析和比较两两变量之间是否具有独立性或相关性。2,考虑控制变量下的交叉分组与列联表表7、不同收入组的住房类型(频数表)独用三间及以上独用两间独用一间合计500元以下1172341500—10008164852571000—150018188542601500—200017100181352000—25
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个人职业规划与能力提升
- 如何使用PowerPoint制作出引人入胜的广告宣传片
- 青岛农业大学海都学院《电气安全工程》2023-2024学年第一学期期末试卷
- 商业物业环境卫生管理方案
- 小班人身安全课程设计
- 招投标课程设计个人总结
- 冒泡排序课程设计答辩
- 小班木工坊简单课程设计
- 夏季职场养生-提高工作效率与健康
- 托班亲子课手工课程设计
- 起重机械安全日管控、周排查、月调度制度
- 人教版七年级《道德与法治》上册各单元测试题 期末测试题(8套,含答案)
- 2023高考普通高等学校招生全国统一考试数学试题合集(共9套)
- T-CCTASH 002-2022 夹轨器标准规范
- WMT8-2022二手乘用车出口质量要求
- 退役军人技能培训课件
- 医院住院病人满意度调查表
- 药店安全检查与风险防控
- C语言课程设计-学生成绩管理系统 完整版
- 2024年医疗器械培训计划
- 排球场租用协议
评论
0/150
提交评论