




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《社会统计学》讲义
教学目的和要求:
通过本课程的学习,使学生熟悉常用的统计方法,并且学会如何将统计分析
知识应用于社会调查研究之中,掌握统计方法的灵活运用。本课程偏重统计方法
的实际应用,而非其数理基础。在教学过程中,注重对于不同统计分析方法适用
条件的说明,统计公式的讲解,以及对于统计值意义的说明。
教学重点和难点:
本课程的教学重点是不同统计分析方法所适用的条件以及统计值意义的解
释。难点是统计公式的讲解以及不同统计分析方法在实际社会调查研究中的应
用。
教法特点说明:
课堂讲授为主,注重对实例的讲解。
教材和参考书目:
1、卢淑华著:《社会统计学(第三版)》,北京大学出版社,2007年。
2、李沛良著:《社会研究的统计应用》,社会科学文献出版社,2002年。
3、柯惠新等著:《调查研究中的统计分析法》,北京广播学院出版社,1992年。
4、风笑天著:《现代社会调查方法》,华中科技大学出版社,2001年。
5、袁方主编:《社会研究方法教程》,北京大学出版社,1997年。
第一章统计学简史
教学目的和要求:
通过本章的学习使学生了解统计学的产生、发展历程有初步的认识。
教学重点和难点:
重点是国势学派与政治算数学派的差异,难点是文字记述与数字记述各自的
特点。
教学方法:
课堂讲授
教学内容:
一、统计学的起源
统计技术:古埃及、古中国(大禹治水)
统计学:17世纪中叶Status(拉丁词汇,国家、状态)——Statistics
研究国家的宏观状态①国势学②政治算术
二、国势学(17世纪的德国)
德国大学学派:H•Coring用文字记录一个国家的状况和制度
G*Achenwall第一个定义---把国家的显著事项全部记录
下来的学科
三、政治算术(17世纪的英国)
英国的经验主义者:用数量或数字的方法说明国家的特征
J•Graunt《关于伦敦死亡表的观察》用数量分析社
会、政治问题
WilliamPetty《政治算术》
四、概率论(数理特征更加明显)
1.JBernoulli(贝努里)瑞士大数法则借助大数法则可以从社会现象复杂
不定的偶然性中寻找规律,它说明了社会现象的稳定性
2.Gauss(高斯)德国正态分布(中心极限定理的基础)
五、数理统计学
AdolpheQuetelet(阿道夫•凯特勒)法籍比利时人
数理统计学派的创始人“经验社会学之父”《社会物理学》
“平均人”
六、描述统计
高尔顿(FGalton)回归现象根据对1078对父、子身高的散布图发现,
虽然身材高的父母比身材矮的父母倾向于有高的孩子。
但平均而言,身材高大的其子要矮些,而身材矮小的其
子要高些。或者说,无论高个子或矮个子的后代,都有
向均值方向拉回的倾向。这种遗传上身高趋于一般,“退
化到平庸”的现象,即是回归现象。
卡•皮尔逊(KPearson)分布、相关、频数、皮尔逊系数
七、推论统计
部分一整体T检验、F检验
第二章社会调查研究与统计分析
教学目的和要求:
通过本章的学习使学生了解社会调查研究的历程,明确统计分析在社会调查
研究中所处的位置和作用。熟悉统计分析的具体内容,牢记统计分析方法的选择
标准,能够熟练地判断应用。
教学重点和难点:
重点是社会调查研究的历程,难点是统计分析方法的选择标准,尤其是变
量的测量层次。
教学方法:
课堂讲授,结合实例讲解
教学内容:
第一节社会调查研究历程
一、概念
二、社会调查研究的历程
1.确定课题
课题的选择应具有一定的理论意义或应用价值,应当是社会迫切解决理论
问题或实际问题就要有一定的迫切性,另外还要注意课题的可行性,以及研究者
的主客观条件是否具备等。
2.初步探索
通过查阅文献和向有经验的,有知识的人请教或者自己进行探索性调查,
搜集获取第一手资料。
3.建立假设
差异式(如果A越高,则B也
越高)文化程度
(如果A越高,则B
也越高)
函数式(A不同则B不同)
提出离婚
4.理论解释和澄清概念
概念的操作化:把那些通常只存在于我们头脑中的抽象概念,转化为我们
看得见、摸得着,可以观察的具体指标
社会地位——个人在社会中的位置——收入、职业、受教育程度
5.设计问卷
封闭式问题、开放式问题
6.试填问卷
7.调查实施
8.资料整理:问卷的核对、登录
9.统计分析与命题检验
二、社会学研究的两个层次
1.抽象层:包括概念命题理论
2.经验层:包括观察量度测定分析等
两者的关系紧密相联系遵循着:理论来源于实践,而又必须受到实践的检
验
第二节社会调查资料的特点和统计分析的内容
一、社会调查资料的特点
1.随机性
大部分社会现象都具有非确定性,即在某种条件下可能发生也可能不发生。
2.统计规律性
在表面上是偶然性在起作用的地方,这种偶然性始终是受内部的隐蔽着的规
律支配的,而问题就在于发现这些规律。
二、统计分析的内容
描述性统计:主要介绍资料的整理,分类和简化或特征研究
推论性统计:主要介绍参数估计、假设检验、回归、列联、方差、等级相关
等统计技术。
第三节怎样选用统计分析方法
一、调查的方式
全面调查——描述性统计
抽样调查——推论性统计
二、变量因素
1.变量个数单变量双变量多变量
2.变量层次
定类:最低的变量层次,取值只有类别属性之分,而无大小程度之分。
数学运算符表示(=、*)
定序:取值除了有类别属性之外,还有登记次序的差别。数学运算符表
示(=、#、>、<)
定距:取值除了有类别、次序属性之外,取值之间的距离可用标准化的
距离去测量。数学运算符表示(=、W、>、<、+、-)
定比:除具有以上三种属性外,还可构成一个有意义的比率。
数学运算符表示(=、W、>、<、+、-、*、/)(在社会学研究中,
只满足定距而不满足定比的变量很少,因而研究中不再区分定比
定距,而合为一类,称作定距变量)
①高层次变量具有低层次变量的特性,反之不成立
②一个变量他的层次并不是唯一的,
③变量的层次与社会实际衡量之间存在着差距或不一致
④变量类型的划分也不是唯一的,可根据自己领域的需要来划分。
第三章单变量描述性统计分析
教学目的和要求:
通过本章的学习使学生能够根据变量的测量层次,选择适当的表格、图形对
数据资料进行初步简化,熟练地应用集中趋势和离散趋势测量法,对调查资料进
行简化分析。
教学重点和难点:
重点是集中趋势测量法、离散趋势测量法,难点是不同类型的统计图,尤其
是直方图。
教学方法:
课堂讲授,辅之以实例讲解
教学内容:
第一节最基本的单变量描述统计技术
一、定类变量
1、频次分布
文字法、集合法、统计表法、统计图法
2、频率分布
文字法、集合法、统计表法、统计图法
3、统计图——条形图、圆瓣图
二、定序变量
累加频次、累加频率
三、定距变量
1、连续型变量的分组问题
组数;等距分组or非等距分组;决定分点的精度(组限、组距、组中点);
2、统计图
矩形图or直方图;折线图
3、曲线类型
四、统计表的制作
1、统计表必须具备的内容
表号、表头、标识行、主体行、表尾
2、制表过程
收集数据;找出极差区=最大值L-最小值S;确定组数;计算组距;实际
分组;
取中心值;统计频次,制表
第二节集中趋势测量法
-、定类变量---众值
Mo——出现次数最多的值
某班男生15人,女生30人。Mo=女生
二、定序变量---中位值
Md——在一个序列的中央位置之值。高于此值的有50%的个案,低于此值
的也有50%的个案。
(一)未分组数据
1、原始资料
首先要对个案按照从低到高的顺序排列;其次计算中位值所在的位置Md位
置==叶1/2;最后查找对应的数值
2、频次分布
(频次分布表必须是按照由低到高的顺序排列的,而且列出了向上累加频
次)
首先计算中位值所在的位置Md位置==n+l/2;其次按照累加频次找出中位
值。
(二)分组数据
Md位置==n/2
卜日
Md=L+------w
f
\/
L=中位值组之真实下限£=中位值组之次数亚=中位值组之组距
cft=低于中位值组真实下限之累加次数n=全部个案数目
三、定距变量——均值
X——将变量的各个数值相加起来,求取…个平均的数值
(一)未分组数据
1、原始资料
又n是全部个案数目表示各个个案数值之和
n
2、频次分布
又=注x是变量的各个取值,f是每个变量值对应的次数,n个案数
n
目
(二)分组数据
X=x是组中心值/=—
nm2
小结:
①三值设计的共同目的,都是希望通过一个数值来描述整体特征,以便简化
资料]它们都反映了变量的集中趋势。
一般说:
众值:适用于定类、定序和定距变量;
中位值:适用于定序和定距变量;
均值:适用于定距变量。
它们三者的代表性决定了它们具有估计和预测的作用。
②众值仅使用了资料中最大频次这一信息,因而资料使用不完全。中位值,
考虑了变量的顺序和居中位置,因此和总体频次分布有关,但因为只考虑居中位
置,因而其他变量值的变化很难影响中位值,它也是三个集中值中最不敏感的。
均值,既考虑频次又考虑变量值的大小,因而更灵敏。它的解释力最强,具有较
高的统计价值。
③均值虽然灵敏,但对严重偏态的分布容易失去代表性。即存在非常极端的
分布值时,代表性不足。例如,个国家会因某些少数富翁的存在,使平均收入
变得很高。且在分组资料中的极端组没有组限时,不能求出均值,只能用中位值。
④偏态图形和三值的关系。对于正态分布的图形来说,三值是合一的。当图形正
偏或负偏时,均值变化最快,中位值次之,众值不变。
第三节离散趋势测量法
一、定类变量——异众比率
Y——非众值的次数与全部个案数目的比率。
公式为:7=仁刎
n
n是全部个案数目
fmo是众值的次数
二、定序变量——极差、四分位差
(一)极差1<=最大值-最小值
(二)四分位差
1、未分组数据
(1)原始资料
位置=等&位置=即/。
Q=Q~Qi
(2)频次分布
2、分组资料
。"立置=彳Q位置=手
-
储=4+幺丁吗
。3=4+
/|丁
\7
。=。3—2
属组之真实下限4=Q属组之真实下限
工=01属组之次数6=0属组之次数
dt=低于。属组下限之累加次数/t=低于Q属组下限之累
加次数
吗=2属组之组距%2属组之组距
三、定距变量——标准差、方差
(-)标准差、方差
离均差x-7一离均差之和一离均差绝对值之和Z|x—y一
频次分布S=
22
分组资料s=户(:-,4^EK-(SK)
(二)变异系数/离散系数
1、使用离散系数的原因
2、CV=%
四、小结
异众比率最适合于分析定类变项,也可分析定序、定距变项。它仅考虑频次
极差、四分位差(十分位差)最适合用来分析定序变项,也可分析定距变项。
极差仅仅考虑了变量的两个极端值,而四分位差考虑了变量的次序或大小。
标准差(或方差)只能用来分析定距变项。由于它们的计算涉及每一个变量
值,所以它们反映的信息在离散值中是最全面、最可靠的变异描述指标。方差还
具有可加性,能够参与进一步的统计运算。不过,也正是由于标准差和方差的计
算涉及每一个变量值,所以,它们也会受到极端值的影响,当数据中有较明显的
极端值时不宜使用。另外,它们在计算中实际都使用了均值,因此实际上只有均
值能反映集中趋势时才能使用方差和标准差来反映离散趋势。因此,实际上方差
和标准差的适用范围应当是正态分布。还有一点要说明的是,比较均值,不一定
要看离散趋势,但比较标准差时,一定要看均值的情况。变异系数的计算涉及均
值和标准差,因此,它也只能用于分析定距变量。它实际是对标准差的修正。
离散趋势测量法和集中趋势测量法是有互补作用的。二法并用,就可以一方
面知道资料的代表值,有利于估计或预测工作,另一方面可以知道资料的差异情
况,反映估计或预测时会犯的错误。
第四章简化两个变量的分布
教学目的和要求:通过本章的学习使学生能够对相关及其性质有初步认识,学会
制作与分析列联表,明确选择相关测量法的标准。
教学重点和难点:重点是列联表、PRE意义,难点是相关关系与因果关系。
教学方法:课堂讲授,辅之以实例讲解
教学内容:
第一节统计相关的性质
一、什么是相关?
相关,是指一个变量的值与另一个变量的值有连带性。具体来说,如果一个
变量的值发生变化,另一个变量的值也有变化。
二、相关的强度和方向
1、相关强度
相关系数——表示变量间的相关程度的量的指标。
相关系数的特征:(1)不具有实际数学运算意义,只能表示相关程度更强。
(2)统计相关:相关系数是统计得来的,它只能说明两种现象间可能存在
一定的关联度,不一定具有实际意义,即实际上可能并不存在,这也就是我们讲
的统计相关。
(3)取值范围:[-1,1]
相关系数的正负号表明了相关的方向。其绝对值则表明了相关的程度。一般
0表示无相关,1代表全相关(-1是完全负相关,1则是完全正相关)。绝对
值越大,说明两变量之间的相关程度越强。
2、相关方向
正相关:一个变量的值增加时,另一个变量的值也随着增加。收入水平-消
费水平
负相关:一个变量的值增大时,另一个变量的值却减小。教育水平-理想子
女数目
需要大家注意的是,相关方向的分析只限于定序以上层次的变量。
三、相关关系的类型(按变量变化的表现形式)
直线相关、曲线相关
直线相关:当变量X发生变动时,变量Y的值也发生大致均等的变动。
散点图一一适用于定距以上层次的变量,它是以直角坐标的横轴表示变量X
的取值变化范围,纵轴表示变量Y的取值变化范围。根据每一个个案在变量X
和变量Y上的值来确定坐标图中的每一个点。直线相关表现在直角坐标系中,X、
Y值所对应的点分布狭长,成直线趋势。曲线相关表现在直角坐标系中,X、Y
值所对应的点分布分散,呈曲线趋势。
四、因果关系
1、定义:当其中一个变量变化时(取不同的值时)会引起或导致另一个变
量也随之发生变化(取值也不同),但反之不成立,当后一变量变化时,不会引
起前一变量的变化。
自变量X-因变量Y
自变量一一变化发生在前面,并且能引起另一变量发生变化的那个变量
因变量——变化发生在后面并且这种变化是前边变量的变化所引起的那个
变量
对称关系、不对称关系
2、判断条件
相关关系可能包含着因果关系,但并非所有存在着相关关系的变量之间,都
一定存在因果关系(相关的两个变量可能仅仅是共同变化),而因果关系必然是
相关关系。
因果关系的判断条件:
①变量X与变量Y之间存在着不对称的相关关系。
②变量X与变量Y在发生的顺序上有先后之别。先有自变量的变化,后有
因变量的变
化。如果两个变量的变化同时发生,分不出先后,则不能成为因果关系。
③变量X与变量Y的关系不是同源于第三个变量的影响。即变量X与变量
Y之间的关系不是某种虚假或表面的关系。
第二节交互分类与百分表
一、定义
交互分类,就是同时依据两个变量的值,将所研究的个案分类。交互分类的
结果通常以交互分类表(又称列联表)的形式反映出来。
列联表适用于对两个定类变量(或一个定类、一个定序变量)的分析。
边缘次数、条件次数(在自变量的每个值(条件)的情况下依变量的各个值
的个案数目。)
二、列联表制作准则
1.每个表的顶端要有表号和标题。
2.绘表时所用的线条,要尽可能简洁。
3.百分号的简便处理。
4.列出边缘次数。
5.表内百分率数值的小数位要保留多少,取决于研究的需要,但前后要保持
一致性。
6.如何安排交互分类的两个变量。自变量放在表的上层,将因变量放在表的
左侧。表的大小=横行数目(r)*纵列数目(c)o
7.交互分类中两个变量的变量值应有所限制,不宜太多。
三、百分率的计算
一般的原则是:根据自变量的方向。
如果依变量在样本内的分布不能代表它在总体内的分布,则百分率的计算要
依据依变量的方向。
第三节简化相关与消减误差
相关测量法——以一个统计值表示变量与变量之间的关系。
一、相关测量法的选择标准
1.测量层次
定类-定类;定序-定序;定距-定距;定类-定序;定类-定距;定序-定距。
2.对称关系
3.统计值的意义,一般选用具有PRE意义的测量法。
二、消减误差比例PRE
PRE=(E,-E2)/EI
El不知道X值时,预测Y值时所产生的全部误差
E2——依据X值预测Y值时所产生的全部误差
E1-E2——依据X值预测Y值时所减少的误差
PRE的数值越大,就表示以X值预测Y值时能够减少的误差所占的比例越
大,也就是说,X与Y的关系越强。PRE=1,X与Y是全相关;PRE=O,X与
Y之间无相关。
PRE数值的意义,就是表示用一个现象(如变量X)来解释另一个现象(如
变量Y)时能够减除百分之几的错误。
三、2*2表——巾(佛爱)系数和Q系数
1.小系数(佛爱)
/ad-be
I-------=
+O)(c+d)(a+c)("+d)
ad=bc时,两个变量相互独立。a=d=O(或b=c=O),解=1。如果a*d
与b*c的差异越大,就表示相关程度越强。
2.Q系数
Q^ad-bca\b\c\d中有一个为0,则=1
ad+hc
第五章相关测量法与测量层次
教学目的和要求:通过本章的学习使学生能够熟练的依据变量的测量层次,变量
是否对称以及是否具有PRE性质,选用适当的相关测量法,以判断变量间的相
关程度。
教学重点和难点:重点是两个定类变量、两个定序变量以及两个定距变量相关
关系的分析,难点是简单线性回归。
教学方法:课堂讲授,辅之以实例讲解。
教学内容:
第一节两个定类变量:入,1
一、人相关测量法
1、基本逻辑
XiX2…Xcn*j
n*i
yinu021nci
Y2012022nC2n*2
・・・
yrHlrn2rHern*r
Ui*ni*112*nc*n
不知道x值时,预测y值所产生的误差用="-max(〃J(n为全部个案数
目,是y变量的众值次数,即最后一列中的最大值)
根据x变量预测y变量所产生的误差E2O
X=XI时,y的众值次数为max,j
x=X2时,y的众值次数为max(%)
x=x3时'y的众值次数为max(%)
x=Xc时,y的众值次数为max(%)
maxmax(%)+max(%J+…+…+max(%)={max(nJ(2max(nJ
是x变量的每个值之下y变量的众值次数之和,体现在列联表当中就是每列最高
次数之和)
=n-Emaxin^
E2
F"—maxEmax(nJ]Zmax(n”-max(〃*J
PRE=12=-------入y
gmax,)
用y变量预测X变量的
〃_max(%*)一n—Emax(n,Zmax(-max(
j=i'
Ax=
产)n-max("谆)
分析对称关系的入系数
Smax(rijj)+Zmax(nJ-[max(〃产)+max(%)]
4=豆(max(%)x变量的众值
2n-[max(〃产)+max(〃*,)]
次数,Lmaxfn,)=y变量的每个值之下x变量的众值次数之和,体现在列
联表中就是
每行最高次数之和。)
入相关测量法的基本逻辑是计算以一个定类变量的值来预测另一个定类变量的
值时,如果以众值作为预测的准则,可以减除多少误差。
2、取值范围[0,1]
x与y无关时,边缘频率分布等于条件频率分布
即_〃21_〃31“12_〃22_〃32〃*2
〃1*〃2*n〃产〃3*n
Smaxn..=max(s.)Ay=Q
x与y全相关时,各列及各行都只有一个不为0的频次值
,n=Zmax(n..),1=1。在。到1之间,入y越大表示两个变量越相关。
3、使用条件
如果全部众值集中在条件次数表的同一行或同一列中,则人系数等于0,此
时其敏感性可能存在问题。
二、T相关测量法
1、基本逻辑:不再以众值作为预测的准则,而是充分考虑边缘分布、条件
分布的情况进行预测。
基本公式:
n
g
其中〃=样本容量f=某条件次数
G=Y变项的某个边缘次数FV=X变项的某个边缘次数
2、取值范围:[0,1]
x与y无关时,至=®_=&_=...=%,组=9=21=…士,此时,
"]*〃2*〃3*〃〃产〃2*〃
T=0;
当X与y全相关时,各列及各行都只有一个不为0的频次值,由此推导得出
T=1o
3、使用条件:T系数适用于对两个定类变量不对称关系的测量,它同样具
有消减误差比例的含义。在各变量值比例失调的情况下慎用。
三、小结与讨论
入系数,T系数,均以消减误差比例为基础,而且在计算过程中依据的都是列联
表形式。
列联表中各列的众值处于同一行时,入系数永远为0,无法准确说明两变量之间
的相关关系。此时需要选用T系数。但在各变量值比例失调的情况下慎用T系数。
几率比
第二节两个定序变量
等级相关法:目的在于分析两列等级的关系,即研究变量之间的等级是否存在着
联系。
-、斯皮尔曼等级相关系数L
1.基本逻辑
丈夫的家庭地位为变量x,妻子的家庭地位为变量y
同样分为五类:1.很低;2.较低;3.一般;4.较高;5.很高。
通过调查发现,这五对夫妇的家庭社会经济地位如下:
(1,2)(2,3)(3,4)(4,5)(5,1)——完全正等级相关、完全负等级
相关
设样本容量为n,变量x共有n个等级,分别为Xi,X2,X3…,Xn,变量y也有n
个等级,分别为yi,y2,y3,…,y”
假设每一个个案对应的x值、y懒J:(X),yi)(X2,y2)(x3,…(xn>
yn)»
它们等级差的平方分别为:(xi-y।)2=d12(x2-y2),dz?(X3-y3)•••(xn-yn)
22
=dn
斯皮尔曼等级相关系数4=1-2江
'〃(〃2—1)
2、取值范围[-1,1]
完全的正等级相关:X]=yi;x2=y2;X3=y3;…Xn=yn,此时心=1。
完全的负等级相关:(xi,yi)=(1,n);(X2,y2)=(2,n-1);(X3,ya)
=(3,n-2)…(xn,yn)=(n,1)
列联相关与等级相关的区别:列联相关表示两个变量的类别、属性是有关的。
根据其中一个变量的类别,我们可以预测另一个变量的类别。而等级相关,表示
两个变量之间的等级次序是有关的。根据其中一个变量的等级可以预测另一个变
量的等级。
二、Gamma等级相关
1、基本概念
设个案A变量x和y的取值分别为Xi,y”个案B对应的变量值分别为修,为
如果有:
%>为或为<与,则称AB为同序对。
x,<xj,或x,>xj,必<为,则称AB为异序对
%,丰力则称AB为X变量同分对
x尸弓,》=力则称AB为Y变量同分对
Xi=Xj,y,=X则称AB为X,Y变量同分对
2.基本逻辑:
设有两个定序变量x、y。个案A(为*);傣B(Xj,yj)
不知道x与y存在等级相关时,若同序对数为异序对数为nd(注意,这
里我们不考虑同分对的情况,所以ns+nu即为总对数),则误差
当知道x与y之间存在等级相关,则此时的误差E2=Nd
砥+.“4一•
贝l」PRE=—」____工2
f,%+%〃s+〃d〃,+%
22
Gamma相关系数就是根据任何两个个案在某变量上的等级来预测它们在另
一个变量上的等级时可以减少多少误差。换言之,它是以每对个案之间的相对等
级作为预测的准则。
3.取值范围[-1,1]
4.利用列联表计算小%
高中低
高nin4n7
中11205ns
低H3n6n9
ns=ni*(出+厮+邱+%)+114*(必+侬)+叱*(小+3)+&*119
Ild=由*(叱+&+3+”)+114*(112+113)+118*(113+116)+115*113
不管列联表如何变化,不管它的r是多少,c是多少,计算同序对数、异序
对数的方法都是一样的。在列联表中,同序对、异序对互为对角线,x或y的同
分对,在同列或同行,x、y的同分对为自身的排列组合。
三、其他等级相关系数
1、肯氏T系数
T一4一句
<_____________%___________
^1n(n-l)-Tx^|n(n-l)-Ty
Tx表示变量x的全部同分对数,Ty表示变量y的全部同分对数。如果出现x
和y变量都同分的情况,则既要归入Tx,又要归入Ty
Tx=ZC:=;Zt/t-l)Ty=洱(t[1)
rc=-:———-----m为r*c列联表中r和c值中较小者
—n2—1)/加]
四、dy相关测量法及其适用条件[分析不对称关系]
dk〃'一〃"ny:只在依变量上同分的对数
〃,+%+%
第三节两个定距变量:简单线性回归与积矩相关
-、简单线性回归
1.概率与概率分布
确定性现象和非确定性现象(随机现象)
随机现象:非确定性、统计规律性
统计规律性是指在一定条件下,就其个别一次的结果来说都具有偶然性,但
大量重复的试验或观察,则其结果无不呈现必然的规律性。概率论恰恰是要研究
随机现象的这种统计规律性。概率(P)则是这种统计规律性的数量表现。
随机事件——随机现象的结果以及这些结果的集合就称作随机事件,或简称
事件。
概率分布,则要说明随机现象一共有多少种结果,以及每种结果所伴随的概
率是多少。
e=”访谈三户中核心家庭数”
它对应了4个取值
Xi表示访谈结果为0户核心家庭、3户非核心家庭,X2表示访谈结果为1
户核心家庭、2户非核心家庭,X3表示访谈结果为2户核心家庭、1户非核心家
庭,乂表示访谈结果为3户核心家庭、0户非核心家庭。
频率、概率;频率分布、概率分布——频率分布是实验值或观测值,是我们
调查所获的的结果,它是可以变化的。而概率分布是理论值,是唯一的。它是事
物客观属性的数量表现。简单来说,频率分布反映的样本的情况,概率分布反映
的是总体的情况。频率分布又称随机变量的统计分布或经验分布,而概率分布则
称作随机变量的理论分布。只有当观测次数很大时,即样本容量很大时;随机变
量取值的频率接近其概率,这时随机变量的频率分布与概率分布将大致相符。
2、回归分析的对象
回归分析所研究的就是定距变量与定距变量之间的非确定关系,而且,它主
要用于研究相关中的因果关系。
所谓两变量间存在相关关系,意味着它们之间存在的是一种非确定性关系。
或者说,它们存在统计规律性。我们可以采用这种方法来描述相关关系:设有两
个变量x和y。当x变化时会引起y相应的变化,但它们之间的变化关系是不确
定的。如果当x取任一可能值七时,y相应地服从一定的概率分布,则称随机变
量y和变量x之间存在着相关。
3.回归方程与线性回归方程
散点图适用于定距以上层次的变量,它可以用于表示两变量间的相关关系。
它是以直角坐标系的横轴表示变量x的取值变化范围,纵轴表示变量y的取值变
化范围。根据每一个个案在变量x和变量y上的值来确定坐标图中的每一个点。
散点图具有这样一个特点:即对于一个确定的毛值,%的值不是惟一的,9是随
机变量。
y对x的回归方程:E(y。=f(xj)(E(yi)表示当x=Xi时,y的均值,f
(为)则是数学中函数表达式的一般写法)。
-*一线性回归方程E(y)=a+Bx(a回归常数,B回归系数);曲线回归
方程
每一个真实的依变量值X与回归线间都有一定的关系,我们可以用式子%=
a+Bxi+ei来表示。其中心是随机误差。它的值是非固定的,因此x与y之间呈
现非确定的关系。
4.回归直线方程的建立
假设从总体中随机抽取一个样本,其抽样结果为:(xi,yi)(X2,y2)(X3,y3)…
(Xn,yn)。
y=a+bx
(xi,yi)——y尸a+bxi
&y;Q=Z&'=Z[y-(a+姐)丁
X(x-x)(y-y)「(X町HZx)(I>)
斜率b
Z(-X)2一〃(歹)-(》2
®,ffEa=y-bx=-----------------
n
回归分析是指对具有相关关系的现象,根据其关系形态,选择一个合适的数
学模型,用来近似的表示变量间平均变化关系的一种统计分析方法。
采用的方法配合其直线或曲线形态采用回归直线或回归曲线,对应的方程式
称为回归直线方程或回归曲线方程。
二、积矩相关测量法
1.基本逻辑
不知道x值,y-y,Ei=2_,(y-y)"
知道x值,预测、估计每个y值时,以线性回归方程(y=bx+a)作为准
则,这样预测所犯的误差是y-y,因而所消减的误差是y)=y-亍
-Ei-E2=Z(yr)2
PRE;E2_Z(y-p[(Z(x-Q
&Z(y-y)-1J(y-亍>J
r系数所要表示的,就是以线性回归方程式作为预测的工具时所能减少的误
差比例。
第四节定类变量与定距变量:相关比率与非线性相关
一、基本逻辑
—■个定类变量x,一个定距变量y。
2
不知道变量x时,E1=£(y-y)
知道变量x与变量y有关之后,&=Z(y-1)?,
PRE=炉=WW=泣一中。
々-每个自变量取值的个案数目。7表示y变量的均值,[表示X变量每个
取值之下,y变量的均值。
E2——fO,1]
二、例题
三、两定距变量的非线性相关
相关比率还可以用来分析两个定距变量之间的非线性关系。之前,我们说过,
简单线性回归与积距相关系数r都假定变量x与变量y之间具有直线的关系。如
果,这项假定不符合实际情况,利用简单线性回归和积距相关系数r就会犯错误。
第五节定类与定序变量、定序与定距变量
一、定类与定序变量
1、威尔科森的区分系数(theta系数)
基本逻辑是根据各个个案在定类变量上的类别来估计它们在定序变量上的
相对等级。
取值范围:[0,1]。不具有PRE意义。
2、Lambda或tau-y系数
二、定序与定距变量
贾斯彭的多序相关系数
分析对称关系的相关系数,系数值由-1至1之间,具有消减误差比例的意义。
但是,这个系数不仅要假定两个变量具有直线的相关,而且要假定,如果定
序变量改用定距层次来测量,则其数值会做正态分布。由于要符合这两项假定,
因此,很多社会学研究放弃采用该相关系数,改用相关比率,即将定序变量看作
定类变量。另外,也有些社会学家将定序变量看作是定距变量,因此采用积距相
关系数,甚至进行线性回归分析。
第六节双变量相关分析小结
1.Lambda系数-入[0,1J
两个定类变量的关系或者一个定类与一个定序变量的关系。计算公式按照对
称与不对称分为两种。PREo
2.tau-y系数-T[0,1]
两个定类变量的关系或者一个定类与一个定序变量的关系。它只适合于分析
不对称关系,敏感度高于Lambda系数。PRE。
3.斯皮尔曼等级相关系数飞卜1,1]
两个定序变量之间的对称关系。平方值具有PRE意义。
4.Gamma系数[-1,1]
两个定序变量之间的对称关系。PRE。
4.dy系数[-1,1]
两个定序变量之间的不对称关系。PRE。
5.简单线性回归分析
两个变量都是定距变量,且彼此关系不对称。
线性回归方程式y'=a+bx来预测或估计依变量y的数值。
6.积距相关系数r[-l,1]
两个定距变量的对称关系,而且假定两变量间呈线性相关。其平方值具有
PRE的意义。除了表示相关程度与方向外,r系数值也可表示简单线性回归方程
在预测时的准确程度。
7.相关比率E2[0,1]
一个定类变量与一个定距变量的非对称关系,也可用来分析定序变量与定距
变量的非对称关系。PREo可用于分析具有非线性关系的两个定距变量。
第六章统计推论与抽样
教学目的和要求:通过本章的学习,使学生初步了解统计推论中的相关概念,明
确抽样的历程和抽样类型的划分,能够根据调查的具体情况选取合适的抽样方
法,理解概率论的基础知识,把握抽样分布及其特征。
教学重点和难点:重点是概率抽样法的分类,难点是抽样分布,尤其是正态分布
的相关知识。
教学方法:课堂讲授,辅之以实例讲解。
教学内容:
第一节统计推论的特点及相关概念
一、统计推论的特点
1、由于样本资料来源于总体,因此样本资料的特性在某种程度上能够反映
总体的特性。
2、由于社会资料具有随机性,即抽样的结果不是唯一的,而且在抽样过程
中不可避免地会产生误差,因此,一次抽样的结果不能恰好就等于总体的结果。
二、相关概念
1、统计值:从样本中计算出来的数值
2、参数值:总体中的数值
运用样本的统计值来推测总体的参数值。
第二节抽样的历程
一、界定总体
二、收集个案名单
三、决定样本的大小
四、设计抽样的方法
五、评估样本的正误
第三节非概率与概率抽样法
非概率抽样,在抽取样本时根据主观判断或其他操作上的方便进行。例如立
意抽样法、偶遇抽样法和定额抽样法都属于这种。
概率抽样在抽取样本时依据的是随机原则。所谓随机原则就是在抽选调查对
象时,规定了一定的程序,以保证每一个个体都有同等入选的机会,从而避免了
主观因素的影响。
一、非概率抽样
1、立意抽样法,又称判定抽样法,是依据研究者的主观见解和判断,选取
他认为是典型的个案。
2、偶遇抽样法。就是碰到谁调查谁。
3、定额抽样法。根据某些标准将总体分组,然后用立意或偶遇抽样法由每
组中选取样本个案。
二、概率抽样
1、简单随机抽样:按照随机原则,直接从总体N个个案中,抽取n个个案
作为样本,保证总体中每个个案在抽选时都有同等的机会被选中。
(1)简单重复抽样:把已经抽取出来的个案记录下来以后,再放回原有的
总体中,参加下一次抽取。
(2)简单不重复抽样:被抽中的个案不再放回原来的总体中,因此是连续
进行n次抽取构成一个样本。
随机数表的使用
2、等距抽样
又被称为机械抽样或系统抽样。它指的是,先将总体按某一因素排列,然后
依固定的间隔,每隔若干个案抽出一个,构成等距抽样的样本。
总体中用以排序的因素,可以是与调查内容无关的,也可以是与调查内容有
关的。在大规模的研究中,等距抽样简化了抽样过程,较为方便快捷。但需要大
家注意的是,总体的排列不能存在周期性,否则样本的代表性会降低。
3、分层抽样
先将总体按与研究内容密切有关的主要因素分类或分层,然后在各层中按随
机原则抽选一定个案构成样本。分层的目的,在于充分利用对总体已知的信息,
把总体划成若干同质层,减少层内差异,增加抽样调查样本的代表性。所采用的
分层标准,要保证分层以后,层与层之间的差别很大,但层内的差别则很小。
(1)分层定比抽样:样本中各层的抽取比例是相同的
(2)分层异比抽样:样本中各层的抽取比例不相同。当总体中某一层人数
较少,但又具有较高的研究价值,这时可增大这一层的抽样比例。
4、整群抽样
总体被分为很多“群”,这些群是抽样的单位。一旦某些群被选入样本后,
则群中的每一个个案都要接受调查。
整群抽样适用于群间差异小,而群内差异大的总体,这点正好和分层抽样相
反°
5、多阶段抽样和PPS抽样
多阶段抽样,是先抽取若干群,然后从所选取的群中再抽取若干子群,再从
子群中随机抽取子子群,依法继续往下抽取,直至抽中的个案满足了抽样者的要
求。
PPS抽样是一种常用的多阶段抽样方法。它要求抽样的概率与群规模成比
例。它的优点是不要求各阶段的群规模大小相同,只通过各阶段不等的抽样概率,
最终实现了总体中的个体具有相同的抽样概率,从而保证了估计的无偏性。
f尸(某班人数/总人数)*2
f2=50/某班人数
f=fi*f2=(某班人数/总人数)*2*(50/某班人数)=1/10
第四节概率与抽样分布
-、概率的计算
概率指的是随机事件发生可能性大小的数量表示。
L频率法
可以把随机事件的概率视作试验或观察次数N趋于无穷时相应频率n/N的
稳定值。这是概率的频率定义。由于试验或观察次数N为无穷是做不到的,因
此,实际上可把观察次数N充分大时(例如社会调查中的样本数为1000人)的
频率作为概率的近似值。
2.古典法:利用模型本身所具有的对称性来事先求得概率
⑴样本点和样本空间
随机试验,要求满足在相同条件下可以重复,而且在每次试验前虽然不能预
言会出现哪一种结果,但它共有多少种可能的结果又是事先已知的。我们把随机
试验中的每一种结果称作一个样本点Ei,或称基本事件。而所有样本点的总体称
作样本空间S。
扔掷一枚硬币。样本点日:正面朝上;E2:反面朝上。样本空间5={正面
朝上,反面朝上)
扔掷一枚色子。样本点Ei:出现“1”点;E2:出现“2”点;E3:出现“3”
点;E4:出现"4"点;E5:出现“5”点;E6:出现“6”点。样本空间S=(T,
“2”,“3”,“4”,“5”,“6”)
⑵随机事件
基本事件自身或由基本事件组成的集合。它实际上就是样本空间S的子集。
扔掷一枚色子,“出现奇数点”就是一个随机事件。A=(1,3,5)。
⑶古典法的使用
随机试验需要满足两个条件:
i.样本空间只有有限个样本点。也就是随机现象的结果类型是有限的
ii.每个样本点出现的可能性相同。即每一种结果出现的可能性相同。
当满足这两个条件时,我们即把随机试验称为古典型随机试验。
如果随机试验的样本空间包含n个样本点,它们出现的可能性是相同的。而
随机事件A包含m个样本点,则事件A的概率为P(A)=-
n
例1:扔掷一枚硬币,求出现“正面朝上”的概率。
样本点Ei:正面朝上;E2:反面朝上。样本空间$={正面朝上,反面朝上}。n=20
由于艮,E,是等可能的,所以满足古典概型。随机事件人="正面朝上”,包含1
个样本点Ei。即m=l。概率P(A)=?=!
n2
例2:扔掷一枚色子,出现“偶数点”的概率
n=6。随机事件人="偶数点”,包含3个样本点,所以m=3。P(A)=-=2=lo
n62
例3:扔掷两枚均匀的硬币,求出现“两枚都朝上”的概率以及“一枚朝
上,一枚朝下”的概率[这两枚硬币是先后扔掷的]
样本空间S包括四个样本点,E,:两枚都朝上;E2:两枚都朝下;E3:第一枚朝
上,第二枚朝下;E4:第一枚朝下,第二枚朝上。n=4。
随机事件A“两枚都朝上”,包含1个样本点。m=L概率P(A)=丝」。
n4
随机事件B“一枚朝上,一枚朝下”包括2个样本点。概率p(B)=丑=2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 宠物食物搭配与营养均衡试题及答案
- 一年级语文考试题目详解及答案
- 学习习惯评价六年级语文维度题试题及答案
- 语文阅读理解试题及答案
- 美容师职业技能与理论知识的交互影响试题及答案
- 2024年计算机基础知识考察导向试题及答案
- 美容师职业精神的培养与试题及答案
- 食品质检员考试知识体系梳理及试题答案
- 2024年宠物营养师职业发展路径的探索与试题及答案
- 宠物营养时代的挑战与机遇考题试题及答案
- 概览中外民间美术 课件 2024-2025学年赣美版(2024)初中美术七年级上册
- 停车场管理移交协议书模板
- 医院伦理审查批件
- 奶制品风味物质合成与改良技术
- 2024年6月四川省高中学业水平考试生物试卷真题(含答案详解)
- 2023-2024学年辽宁省沈阳市南昌中学八年级(下)月考英语试卷(4月份)
- 国服中山装的设计特点及含义
- TB10001-2016 铁路路基设计规范
- 19S406建筑排水管道安装-塑料管道
- KA-T 20.1-2024 非煤矿山建设项目安全设施设计编写提纲 第1部分:金属非金属地下矿山建设项目安全设施设计编写提纲
- 绿色生活实践
评论
0/150
提交评论