




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、社会研究的统计应用第一章 科学方法与社会研究历程1、定类测量层次 定类层次是指变项的值只能把研究对象分类, 即只能决定研究对象是同类抑或不 同类,具有=与工的数学特质。定类层次有两个原则,一是互斥性,即类与类之 间要互相排斥, 每个研究对象只能归入一类; 另一个是无遗性, 即所有研究对象 均有归属,不可遗漏。适用于简化一个定类变项资料的方法, 有次数分布、比例、 比率、图示和对比值等。2、定序测量层次定序层次是指能确定值的次序, 即变项的值能把研究对象排列高低或大小, 具有 或的数学特质。定序层次包括了定类层次的特质。3、定距测量层次定距层次是指能够确定值与值之间的距离, 即变项之值与值间的距
2、离是可以知道 的,因为具有加与减的数学特质。定距层次包括了定序与定类层次的特质。4、定比测量层次定比测量层次是最高的测量层次, 其数值中的零值是绝对的、 固定的, 因而除了 具备分类、排序以及加减的特质外,还具有X与宁的数学特质。第二章 简化一个变项之分布第一节 基本技术一、定类层次1、次数分布(f):变项内每一个值在原资料中出现的次数情况。2、比例(p):就是将每类的次数(f)除以总数(N)。3、比率: 就是把计算比例时的所用的基数变大,使读者容易领会,如可转化为 百分率、千分率、万分率等。4、对比值: 对比值就是将两类数值相除,得到一个比值。二、定序层次1 、累加次数( cf): 就是把次
3、数逐级相加起来。分为两种,一种是向上累加,另 一种是向下累加。其作用是使我们容易知道某值以下或以上之次数总和。2、累加百分率(c%):就是将各级的百分率逐级相加。三、定距层次1、组限: 就是每组的范围,包括上限和下限。统计表上所标示的组限不是真实 的组限。真实下限=标示下限一 0.5;真实上限=标示上限+0.5。2、组距: 就是每个组的宽度,即组的真实上限与真实下限之差。3、组中点: 就是真实上限与真实下限的平均数。4、矩形图:以一个矩形的面积(长X宽)表示每组数值之次数或百分率的多少。 矩形图的长度与宽度均有意义, 而且由于数值具有连续性, 各个矩形要相连排列。 绘制矩形图时, 通常是以一个
4、坐标的横轴的宽度表示组距, 以纵轴的长度表示次 数与或百分率,二者的乘积就是该组之次数或百分率。第二节 集中趋势测量法1、集中趋势测量法就是找出一个数值来代表变项的资料分布, 以反映资料的集结情况。 这种方法的 特殊意义在于可以根据这个代表值 (或称典型值)来估计或预测每个研究对象 (即 个案)的数值。使用集中趋势测量法,定类变项最适宜用众值,定序变项最适宜 用中位值,定距变项最适宜用均值。2、众值(简写 M0)就是在样本中出现次数最多之值。 在定类层析变项中, 众值最有代表性, 故此具 有估计或预测的意义, 长远来说, 以众值作预测所犯的错误总数是最小的。 众值 适合于分析定类变项,也可用来
5、分析定序或定距变项的资料。3、中位值(简写 Md) 中位值就是把一组数据按照其大小顺序排列起来, 处于中央位置的数值, 即高于 此值的有 50%的研究个案, 低于此值的也有 50%的研究个案。长远来说, 以中位 值去估计定序变项的数值,所犯的错误总数是最小的。4、均值( Mean)均值是表明一组数据平均水平的数值。 即将定距资料中的各个数值相加, 除以总 体单位总数所得到的数值。长远来说,以均值估计定距变项的资料,错误最小。第三节 离散趋势测量法1、离散趋势测量法 离中趋势测量法是要求出一个值来表示个案与个案之间的差异情况。 离中趋势测 量法与集中趋势测量法具有互相补充的作用。 集中趋势测量法
6、所求出的一个最能 代表变项所有资料的值, 其代表性的高低要视乎各个个案之间的差异情况, 即离 散趋势测量法所求出的数值。 如果个案之间的差异很大, 则众值、 中位值或均值 的代表性就就会甚低。异众比率、四分位差、标准差是分别对众值、中位值、均 值的代表性进行检验的离散趋势测量法。2、离异比率( V) 离异比率是指非众值的次数与全部个案数目的比率。其公式为v=(n-fmo)/n ,这个公式所要求出的是在全部的个案中有多少是偏离众值。 不属于众值的个案所占 的比例愈大, 就表示众值的代表性愈小, 以之作估计或预测时所犯的错误也就愈 大。离异比率的方法虽然道理浅显,且易于计算,但未免过于粗略,因为它
7、将众 值以外的其它类别,不加区分地统一计算,忽略了它们之间的差异,存在局限。3、质异指数( IQV) 质异指数的作用是求出各个类别之间在理论上最多的可能差异中实际出现了多 少差异。4、四分位差( Q) 四分位差是指将个案由低至高排列,然后分为四个等分(即每个等分包括 25% 的个案)之后,第一个四分位置的值(Qi)和第三个四分位置的值(Q3)的差异。 四分位差反映了中间 50%数据的离散程度, 其数值越小,说明中间的数据越集中, 中位值的代表性愈大, 以之作为估计或预测的标准所犯的错误就愈小; 其数值越 大,说明中间的数据越分散, 中位数的代表性愈小, 以之作为估计或预测的标准 所犯的错误就愈
8、大。5、标准差( S) 标准差是将各数值与其均值之差的平方和除以全部个案数目, 然后取其平方根所 得到的数值, 是方差的算术平方根。 分析定距变项的离散情况, 最常用的方法是 标准差,其表示以均值来估计或预测变项值时所犯错误的大小。 标准差愈大, 就 表示变项数值的离势度愈大,即均值的代表性愈小。、离势测量法与集中趋势测量法的关系 1、离势测量法与集中趋势测量法是有互补作用的。二法并用,就可以一方面知 道资料的代表值,有助于估计或预测的工作; 另一方面可以知道资料的差异情况, 反映估计或预测时会犯的错误。2、离势测量法和集中趋势测量法要选用哪一种方法要视乎变项的测量层次,在 定类变项之中, 集
9、中趋势选用众值测量, 离散趋势则选用质异指数测量; 在定序 变项中,集中趋势选用中位值测量, 离散趋势则选用四分位差测量; 在定距变项 之中,集中趋势选用均值测量,离散趋势选用标准差测量。第四节 正态分布与标准值1、正态分布( normal curve )正态分布也称“常态分布”,最早由A.棣莫弗在求二项分布的渐近公式中得到, 是一个在数学、 物理及工程等领域都非常重要的概率分布, 在统计学的许多方面 有着重大的影响力。 正态分布具有单峰和对称的特质, 因此众值、 中位值和均值 是相同的;正态分布的另一项特质是 x 值与均值的差异愈大,其次数会愈少,但 不会等于零。以标准差为单位的正态分布,
10、称为标准正态分布, 标准正态分布可以将不同形态 的正态分布归纳为一种分布, 简化了统计分析的工作。 标准正态分布的均值是 0, 标准差是 1。正态曲线呈钟型,左右对称,两头低,中间高,曲线两端逐渐减降,但不会接触 底线。2、标准值( Z)标准值代表每个变项值 x 在标准正态分布上的数值。 标准值是正数时, 所表示的 面积是在均值右边;标准值是负数是,所表示的面积则是在左边。第三章 简化两个变项之分布第一节 统计相关的性质1、相关( 1)定义: 相关是指一个变项的值与另一个变项的值具有连带性,即如果一个 变项的值发生变化,另一个变项的值也发生变化,则这两个变项就是相关了。( 2)性质: 变项与变
11、项之间的相关程度有强弱之分,可用统计法予以测量。 大多数统计法是以 0代表无相关,以 1代表全相关,介于 0与 1之间的数值愈大, 就表示两个变项的相关程度愈强。 变项与变项之间的相关程度有正负两个方 向。正相关(或称正比)是指一个变项的值增加时,另一个变项的值也增加。 负 相关(或称反比)是指一个变项的数值增加时,另一个变项的值减少。相关方向 的分析只限于定序或定距变项,因为这些变项的值有高低或多少之分。(3)相关的两个变项, 不一定有因果之分, 可能是共同变化。 若两个变项之间, X影响丫,而丫不会影响X,则称为不对称关系;若不确定或不区分影响的方向, 就称为对称关系。第二节 交互分类与百
12、分表1、列联表(条件次数表)(1)列联表又称交互分类表,所谓交互分类,是指同时依据两个变量的值,将 所研究的个案分类。交互分类的目的是将两变量分组, 然后比较各组的分布状况, 以寻找变量间的关系。(2)列联表也称为条件次数表,条件次数表有大小之分,表的大小就是横行数 目与纵行数目的乘积(即表的大小=rx C)。在列联表中,一般将自变项放于表的 上端,将因变项放于表的左端。( 3)列联表的优点是精简清晰,可以清楚地看出每个类别的个案的次数,缺点 是难于比较不同条件下的次数分布, 这是因为作为基数的边缘次数的值各不相同。2、条件百分表(1)将条件次数表中的各个条件次数转变为百分率所制成的表格,就是
13、条件百 分表。(2)制定条件百分表时的准则: 每个表的顶端要有表号和标题; 绘表时 所用的线条,要尽可能简洁; 在表上层的自变项每个值之下的 号,表示下 列的数值都是百分率; 表下层括弧内的数值,表示在计算百分率是所根据的 个案总数; 表内百分率数值的小数位要保留多少,视乎研究的需要,但最好 有一致性; 在绘制条件百分表时, 通常是根据自变项的方向来计算百分率; 但如 果依变项缺乏代表性,就要根据依变项的方向。( 3)条件百分表的优点是资料丰富,缺点是尚未够精简,尤其当表的大小很大 是,百分率便会很多,不容易看出两个变项之间是否有关系。第三节 简化相关与消减误差1、相关测量法相关测量法就是以一
14、个统计值表示变项与变项之间的关系, 这个值,通常称为相 关系数。相关测量法的种类很多, 选择何种相关测量法, 首先要注意变项的测量 层次,是定类、定序还是定距,属于不同测量层次的变项,使用的相关测量法也 不同;其次要注意两个变项之间关系是对称的还是不对称的; 第三就是最好选用 统计值具有消减误差比例的意义的相关测量法。2、消减误差比例( PRE)假定不知道X的值,在预测丫值时所会产生的全部误差是 Ei,知道X的值时,根 据X的每个值预测丫值所产生的全部误差是E2,则以X的值来预测丫值时所减少 的误差就是:E1-E2,这个数值与原来的全部误差(Ei)相比,就是消减误差比例。 PRE的数值愈大,就
15、表示以X值预测丫值时能够减少的误差所占的比例愈大,即 X与丫的关系愈强。PRE数值在0与1之间,当PRE为1时,表示X与丫全相关, 当PRE为0时,表示X与丫无关。PRE数值的意义就是表示用一个现象来解释另 一个现象时能够减除百分之几的错误。第四章 相关测量法与测量层次第一节 两个定类变项: Lambda, tau-y1、Lambda 相关测量法 其基本逻辑是计算以一个定类变项的值来预测另一个定类变项的值时, 如果以众 值作为预测的准则,可以减除多少误差。Lambda相关测量法适用于分析两个定 类变项的关系, 也可以用来分析一个定类变项与一个定序变项的关系。 其有两种 形式,入假定是对称形式,
16、入y则假定是不对称形式。Lambda相关测量法具有消 减误差比例的意义,其统计值介于 0与 1之间。2、tau-y 相关测量法Tau-y系数属于不对称相关测量法,要求两个定类变项有一个是自变项,另一个是依变项, 其适用于分析两个定类变项, 或是一个定类变项和一个定序变项的情 况。其系数值介于 0与 1之间,具有消减误差比例的意义。这个方法的特色,是 在计算系数值时会包括所有的边缘次数和条件次数。 由于该测量法是考虑全部的 次数,因此其敏感度高于Lambda测量法。第二节 两个定序变项: Gamma,yd1、简化两个定序变项的关系,可应用 Gammas数,也可应用萨默斯的dy系数。 前者适用于分
17、析对称的关系, 后者适用于不对称的关系, 但两者的系数值都是由 -1 至+1,既表示相关的程度,也表示相关的方向,且两者都具有消减误差比例的 意义。2、Gamm系数与dy系数可以统称为级序相关法。级序相关法的基本逻辑是要求 出:根据任何两个个案在某变项上的等级来预测他们在另一个变项上的等级时, 可以减少的误差是多少。 换言之,级序相关法是以每对个案之间的相对等级作为 预测的准则。3、 (1)同序对(2):某对个案在两个变项上的相对等级是相同的; 异序对(NA): 某对个案在两个变项上的相对等级是不相同的。(2) Gamm系数与dy系数就是根 据这两个数值来计算两个定序变项的相关程度和相关方向。
18、 两者相差愈大, 就表 示两个变项的相关愈强,若同序对大于异序对,表示两变项成正比,反之,成反 比。4、肯德尔的 tau 系数肯德尔的 tau 系数有三种形式,分别称为 tau-a 、 tau-b 和 tau-c ,其数值为 -1 至+1,都适宜于分析对称的关系。5、斯皮尔曼 rho 系数 该系数的特点是计算每个个案在两个变项上的等级时, 不仅要区分二者的高低差 异,而且还要计算二者差异的确切数值。 Rho是对称相关测量法,要求同分情况 不多。其统计值是由 -1 至+1,表示相关的程度和方向,其平方值具有消减误差 比例的意义。第三节 两个定距变项:简单线性回归与积矩相关1、简单线性回归分析要求
19、两个变项都是定距变项, 且彼此的关系是不对称的。 简单线性回归分析法是 根据一个直线方程式,以一个自变项(X)的数值来预测一个依变项(Y)的数值。 其方程式为Y=bX+a回归法在绘制回归线的时候所根据的准则是最小平方。2、回归系数( b)b值的大小,就是表示X对丫的影响有多少,b值代表每增加一个单位的X值,丫 值的变化有多大。b值是表示自变项对依变项的影响的大小和方向,它是一个分 析不对称关系的统计法。b值有正负之分,其大小是视乎变项的衡量单位而定。3、积矩相关测量法 皮尔逊的积矩相关系数是用来测量两个定距变项之间的相关强弱的测量法。 适合 于分析两个定距变项的对称关系,统计值是由-1至+1,
20、其平方值r2具有消减误 差比例的意义。除了表示相关的程度与方向之外, r 系数值也可表示简单线性回 归方程式在预测时的准确程度, r 系数值愈大,则准确度愈大。但 r 系数是假定 两个变项之间具有直线关系。第四节 定类变项与定距变项:相关比率与非线性相关1 、相关比率适用于分析一个定类变项与一个定距变项的不对称关系, 也适用于分析定序变项 与定距变项的关系, 还适用于分析两个不具有直线关系的变项的关系。 这种方法 的统计值是由0至1,其数值(E2)具有消减误差的意义。第五章 抽样与统计推论第四节 几率与抽样分布1、抽样分布抽样分布是根据几率的原则而成立的理论性分布, 显示由同一总体中反复不断抽
21、 取不同样本时, 各个可能出现的样本统计值的分布情况。 抽样分布的两种主要分 布形式是二项抽样分布与均值抽样分布。2、均值抽样分布的特征(1) 如果样本相当大(通常是指n不可少于30,最好是n=100,当然愈大愈好), 则抽样分布接近正态分布。 其特点是单峰和对称的, 因而众值、 中位值和均值都 相同。( 2)抽样分布之均值就是总体之均值。( 3)由于均值的抽样分布是正态分布,其面积就是均值的次数,因此任何两值 之间的样本均值次数所占比例是可知的。统计推论一般可以分为两大类:参数估计与假设检定3、参数估计 参数估计就是根据一个随机样本的统计值来估计总体之参数值是多少。 是统计推 论的一种形式, 分为点估计与区间估计两部分。 参数估计具有无偏性、 一致性和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 土地使用权转让合同
- 油罐清洗施工方案
- 装饰顶帽施工方案
- 公司员工聘用合同书
- 桥梁施工方案对比
- 缆索吊拱桥施工方案
- 2025年防雷防爆及弱电工程设备项目建议书
- 拆除温感烟感探头施工方案
- 酒店弱电养护方案
- 滁州商场指示牌施工方案
- (二模)2025年宝鸡市高考模拟检测试题(二)物理试卷(含答案)
- 基地种植合作合同范本
- 露天煤矿安全生产技术露天煤矿安全管理培训
- 2025年安徽警官职业学院单招职业倾向性测试题库标准卷
- 2025年浙江宁波市江北区民政局招聘编外工作人员1人历年高频重点模拟试卷提升(共500题附带答案详解)
- 2025年湖南大众传媒职业技术学院单招职业技能测试题库学生专用
- YB-T 6121-2023 钢的晶间氧化深度测定方法
- 2025届中交投资有限公司全球校园招聘来了笔试参考题库附带答案详解
- 2025年南京旅游职业学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 【2025年卫生健康宣传日】世界防治结核病日
- 物流仓储的火灾防范
评论
0/150
提交评论