第二章简单统计描述分析(共10页)_第1页
第二章简单统计描述分析(共10页)_第2页
第二章简单统计描述分析(共10页)_第3页
第二章简单统计描述分析(共10页)_第4页
第二章简单统计描述分析(共10页)_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章 单变量(binling)和双变量(binling)统计描述(mio sh)分析第一节 单变量统计描述基本技术变量的计量尺度/层次1、定类变量最低层次的变量类型。只有类别属性之分,无大小程度之分。根据变量值,只能知道研究对象的异同。从数学运算特性来看,定类变量只有等于或不等于的性质。2、定序变量层次高于定类变量。取值除类别属性外,还有等级、次序之分。数学运算特性除等于或不等于外,还有大于或小于。3、定距变量层次高于定序变量。取值除类别属性、次序之外,取值之间的距离可以用标准化的举例度量。数学运算特性除等于不等于,大于小于之外,还可以加减。如收入,以1元为标准化距离,则2000元比1500

2、元多了500元。4、定比变量最高层次变量。除了上述三种属性外,可以进行乘除运算。定类定序定距定比=,+,-,1、社会学研究中,能够满足定距而不能同时满足定比要求的变量不多。如智商,因为智商0分只有相对的意义,0分不等于没有智商,且0值不固定。当前社会统计方法很少要求达到定比层测,所以只介绍前三种层次变量。2、在社会学研究当中,有些变量的层次是不统一可变的,可用定序层次也可用定距层次,根据研究需要。高层次变量可以降低层次来使用。一般来说,测量层次越高越好,数学特性(txng)就越多,统计分析就越方便,能了解资料的程度就越深入。二、基本(jbn)技术1、次数(csh)分布(定类)针对定类变量最基本

3、的统计分析方法。面对大量的数据资料,首先要组织整理,第一步就是要采用次数分布来简化资料,看某变量的每一个值出现的次数是多少。定类变量的取值要求:变量取值必须完备,使得每个各观察值都有所归类;必须互斥,一个观察值只能归入一类,对于分组数据遵循上限不包括在内原则。次数分布可简化资料,但不能比较样本,因为样本量不同。2、比、比例和比率(通常保留一位或两位小数)比:某两类的次数相除,如性别比=男性/女性比例:某类次数除以总数,老年人口比例=老年人口数/总人口数100%比率:某一确定变量相对应的某些事件发生的频率。分子和分母不存在隶属关系,有时是不同的变量,如人均GDP,患病率。3、累加次数和累加百分比

4、(定序和定距)累加次数就是把次数累加起来,分为向上累加和向下累加。作用:知道某值以下或以上的次数总和。累加百分比同理。4、定距层次的特殊处理定距变量的取值很多,难以计算每个值的次数和百分比,需分组测量。组限:上限和下限。组距:上限和下限之差。组中值:上限和下限的平均数。收入次数1000-1999元502000-3999元604000-7999元308000元以上10 如何分组?要考虑几个问题:1、组数太少会掩盖变量变动时频次的变化。组数太多会是每组内频次过少,增加偶然因素,使各组高度参差不齐,看不出规律。2、等距分组和不等距分组。通常用等距分组,但有时不等距分组能更好反映现象本质,如收入100

5、0元和2000元的职工生活水平差距较大,而5000和6000元之间差距较小。5、统计图饼图:多用于定类变量,因为表示变量取值在总体中占的比例,而不管(bgun)取值的排序。条形图:用长条的高度表示(biosh)变量类别的次数或百分比,宽度无意义,一般画成等宽长条,用于定类变量和定序变量。直方图:仅用于定距变量。以长条(chn tio)面积表示频次或相对频次,条形高度表示频次密度(单位组距包含的频次)或相对频次密度,宽度是组距。为何用频次密度而非频次作为条形高度?因为非等距分组情况下,频次作为条形高度会产生错误,每一组的相对比例不一致。例如: 初婚年龄组(岁)频次(人)26-273040-503

6、5根据频次来比较,得出错误结论:40-50岁结婚的人比26-27岁结婚的人多。频次密度=频次/组距;相对频次密度=相对频次/组距30人/27-26=30(人/岁) 35人/50-40=3.5(人/岁)可见,26-27岁结婚的频次密度远大于40-50岁结婚的频次密度。折线图:如果用直线联结直方图中条形顶端的中点,则得折线图。组距减小,线条越平滑,最终成为曲线。社会学研究常见曲线如J形曲线、U形曲线、峰状曲线(单峰、双峰、多峰)、对称和不对称曲线(正态和偏态、右偏/正向偏和左偏/负向偏)。以正态、单峰图形最为常见。第二节 集中趋势测量法 用一个典型的变量值来代表全体变量,这个值就称为集中值或集中趋

7、势。用这个值估计或预测变量肯定有误差,但是这些数值是最具代表性的,所以用这个集中值来估计或预测变量所产生的误差最小。一、众数(zhn sh)(定类变量) 用频数最多的变量(binling)值来表示变量的集中值。适合任何层次的变量(binling),只要知道频次分布,就能找到众值,定距变量可以用频次密度最高的组的组中值来表示众值。中位数(定序变量)Md 位于最中间的变量值,将观察总数一分为二,其中一般比它小,一半比它大。1、根据原始资料求中位数N为奇数时,中位数位于(N+1/)2的地方。N为偶数时,取居中位置左右两数的平均值。2、根据分组资料求中位数组限频次累计频次150-1602020160-

8、1704868170-18032100公式1:中位数=中位数组下限+(n/2-低于中位数组下限的累积次数)/中位数组次数组距159.5+(50-20)/4810=165.8中位数需要数据排序,不适合定类变量,适合于定序变量和定距变量,特别是对分布不规则的情况,中位数比较理想。三、均值(定距变量和定比变量)1、根据原始资料求平均数=Xi/N2、根据(gnj)频次求平均数= =3、用分组资料(zlio)求平均数:将Xi替换(t hun)为组中值四、众数、中位数和均值的关系 众值:主要适用于定类变量,也可用于定序和定距变量 中位数:主要适用于定序,也适用定距变量平均数:主要适用于定距变量统计方法中,

9、平均数最常用。对于定序变量可求平均等级;对于定类变量,可赋予每类一个数值:男为1,女为0,则男性占总体比例就是特殊的均值。虽然平均数对资料利用最充分,但对于严重偏态的数据分布,会失去应有的代表性。众数中位数平均数主要适用于定类变量主要适用于定序变量主要适用于定距变量最不稳定较平均数的稳定性差最稳定可最快速求出只需中间的数据使用全部数据有时对个别值的变动很敏感对极端值不敏感受极端值的影响习题:1、已知美国20世纪90年代的人口自然增长率:年度1990199119921993199419951996199719981999n8.17.77.46.76.46.06.06.56.06.1计算以下年间的

10、平均人口自然增长率:1)1990-1993年的前四年间(7.5%)2)1994-1999年的后六年间(6.2%)3)1990-1999年十年间(6.7%)4)如果原始数据丢失,只知道前四年和后六年的平均增长率,能否计算出10年间的平均增长率?如何计算?(7.5%4+6.2%6)/10=6.7%第三节 离散趋势测量法一、极差和内距1、极差最大值与最小值的差。最容易(rngy)计算,但只告诉分布范围,受极端值的影响很大,不可靠。2、内距/四分(s fn)位数间距也叫四分(s fn)位差,将数据从小到大排序后,用三个四分位数点Q25Q50Q75将其分为四部分,Q75 和Q25的间距就是四分位差。例题

11、:组限相对频率累计频率150-16020%20%160-17048%68%170-18032%100%Q25=159.5+10(25-20)/48=160.54Q75=169.5+10(75-68)/32=171.69Q75 -Q25=171.69-160.54=11.15二、均方差均方差是对分布的离散程度较全面的度量。为了衡量所有数据偏离其平均值的程度,可以先考虑每个观测值偏离平均值的偏差。但是由于偏差有正有负,相互之间会抵消,最终偏差平均为零,因而要将所有偏差作平方,然后再求平均才有意义。公式2:均方差MSD=1/n(X-)2公式3:均方差MSD=1/n(X-)2f(频次表),如果分组资料

12、,X为每一观测值的中点。三、方差(Variance)标准差(Standard Deviation)由于某些技术上的原因,习惯上将公式2中的n换成n-1,得到了方差S2。公式(gngsh)4:S2=(1/n-1)(X-X)2公式(gngsh)5:S2=(1/n-1)(X-X)2f(频次(pn c)资料)方差的平方根=标准差S。通过取平方根,标准差的单位就和原始数据的单位一致了。方差和标准差反映的是数据对其平均值的离散程度,因此标准差/方差较小的分布一定比较集中在均值附近,反之比较离散。举例计算:身高数据S的计算(取X平均值的近似值为169)X(中位数)fX-(X-)2(X-)2f1514-183

13、24129615712-12144172816344-636158416964000175566362016181161214423041874183241296n=200169S2=10224/(200-1)=51.377S=7.17合计10224如何利用MSD计算S2?根据公式3和公式4的关系,可知S2=(n/n-1)MSD身高数据S的计算(取X平均值的近似值为169)Xf/nX (f/n)X-(X-)2(X-)2(f/n)151.023.02-183246.48157.069.42-121448.64163.2235.86-6367.92169.3254.08000.00175.2849

14、.0063610.08181.0814.481214411.52187.023.74183246.48n=200f/n=1.00=169.6S2=(200/199)51.12=51.377S=7.17MSD=51.12四、极差、四分位差和标准差的比较标准差四分位差极差适用于定距变量主要适用于定序变量适用于定距变量最稳定较标准差的稳定性弱最不稳定计算时使用全部数据只需其中两端数据只要两个数受极端值影响较大对极端值不敏感只对极端值敏感一般来说,样本均值X是对分布中心最常用的度量(dling),而样本标准差S是对分布形状最常用的度量。第四节(s ji) 双变量(binling)简单描述统计一、相关的

15、概念一个变化,另一个值按照某种规律在一定范围内变化,被称为不确定的统计关系或相关关系。例如收入与支出的关系。注意区分函数关系与相关关系:函数关系是确定的,一个变量取某一值,另一个变量有确定的值与之对应。例如,销售量与销售额(价格固定)。相关关系与因果关系:相关的两个变量,不一定有因果关系。对称关系与不对称关系:相关的两个变量有时互相影响或共同变化的,不存在某一变量变化引起另一个变化,称为对称关系。如果X变量引起Y变量变化,而Y变量变化不引起X变量变化,则为不对称关系。二、相关方向(direction of association) 1、正相关:一个变量值增大,另一个也增大,反之都减小。2、负相

16、关:一个变量值增大,另一个减小。相关方向分析只限于定序或定距变量,定类变量无高低之分,不可能有正负之分。三、相关程度(degree of association)两个变量(binling)的相关程度有强弱之分,通常(tngchng)由0到1,0代表不相关,1代表全相关。数值(shz)越大,相关关系越强。四、交互分类与联列表在讨论两个变量尤其是两个定类变量x和y是否存在相关关系时,可以先将数据按x分类,然后分别统计当x取不同类别值时y的分类情况。得到数据按两个定类变量进行交叉分类的频次分布表,即二维联列表。例1:某小区对居民的收视爱好进行调查,根据不同年龄和喜爱的电视节目类型进行分类 表1:年龄

17、和收视爱好的交叉分类表老年中年青年合计戏曲2010636歌舞5203055球赛2102638合计274062129 条件次数 边缘次数 边缘次数:按行或按列合计起来的频次。条件次数:当某一变量取不同类别值时,另一变量的频次。频次联列表的缺陷:由于边缘次数不同,仅根据条件次数无法进行比较核分析相关关系,需要制作条件百分表,表2。表2:不同年龄人群的收视爱好分布老年(%)中年(%)青年(%)戏曲74.125.09.7歌舞18.550.048.4球赛7.425.041.9合计(%)100.0100.0100.0通过计算条件百分比,可以知道:年龄和收视爱好相关,随着年轻化,喜爱戏曲的比例逐渐下降,而歌

18、舞和球赛越来越受欢迎。制表规则(1)要有表号、标题。(2)线条简洁、符号标注在标题后或第一行变量类别后。(3)小数点位数统一。计算百分率社会学研究通常(tngchng)以自变量作为计算百分率的方向,如表2。如果以因变量来计算百分率方向,则得出表3:表3 不同(b tn)收视爱好人群中的年龄分布老年中年青年合计戏曲55.627.816.7100.0歌舞9.136.454.5100.0球赛5.326.368.4100.0表3表示不同收视爱好的人群中有多少是老人,多少是中年,多少是青年,这容易受到调查样本(yngbn)中的年龄分布影响。如果样本分布如下表,很容易得出老年人比年轻人更喜欢歌舞的结论。错误情况:以因变量计算百分率老年中年青年合计歌舞205

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论