版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章:绪论
社会学研究与统计分析
一、研究的科学性(研究方法论)
▲确定课题一了解情况一建立假设一确立概念和测量方法(术语)一设计问卷一试填问卷
调查实施(抽样调查)一校核与登录--统计分析与命题的检验
例:中学升学率调查
课题确定:升学率差异较大;学生择校
了解情况:收集文献,前人研究;咨询相关人员;典型个案观察(好坏各2-3所中学)
假设:构思影响因素:1、师资专业水平,2、学生入学水平,3、父母教育水平
师资水平高升学率高
入学成绩好升学率高
父母教育水平高升学率高
操作化定义:如,师资:学历、职称、获奖等;学生水平:考分、地域、性别等;父母水平:
学历、职业、教育子女的时间等(注意:每一个定义就是一个变量,要注意变量的各种可能
取值)
设计问卷:依操作化定义而定。三个方面:基本资料;态度;原因。
实施调查:地点、抽样对象、样本量、组织与培训、实施。(要注意地域的代表性和抽样的随
机性)
校核与登录
统计分析与检验:资料统计由计算机完成
统计分析:
1、假设检验;
2、相关分析;
3、结论:对策与建议;或提出新的假设
二、社会调查资料的特点与统计学的运用
调查资料的特点:
•随机性
・统计规律性
社会统计学即有关社会调查资料的收集、整理、分析和推论的统计方法。
二、调查资料的特点与统计学的运用
在研究中运用统计分析的前提:统计分析:
・资料的信度和效度•描述统计
・资料收集的科学性•推断统计
・资料在总体中的分布
统计分析中常见的错误:
混淆统计联系与因果关系:根据观测数据得到的统计联系(如相关关系)只是因果关系存在
的必要条件,而不是充分条件。
生态学错误:混淆宏观模式与微观模式。如:教育、经济水平越高的地区生育水平越低,不
能引申为个人教育水平与生育水平的关系。
还原论错误:根据较低层次研究单位的分析结果推断较高层次单位的运行规律。
混淆统计检验显著与实际意义显著:统计检验是否显著相对于以下三个条件:实际差异幅
度、置信度、抽样规模。如果样本规模很大,在降低置信度要求的情况下,统计检验会显著,
但实际意义不大。
关于平均值的理解:
样本均值是人们采用最多的一种描述数据的方法,它反映了一组数据整体上的一些信息,然
而容易掩盖一些极端的情况,所以有时候样本均值不一定合理。
思考1.甲同学听说,有个身高1.75米的成年人在平均水深为1米的小河中淹死了,他觉
得不可思议。这件事情是否是一个玩笑?
思考2.一位统计学家把一只脚放进100℃的开水里,另一只脚放进冰水中。然后宣布:现
在,在平均值的意义上,我感觉很舒服。
关于正确解释统计数据:
下面是某高速公路上发生的交通事故有关数据:
速度km/h小于7070~180大于180
数量12323
丙同学由此得出结论说:统计数据显示,在高速公路上,汽车速度越高,也就越安全。
实际上绝大多数的汽车行驶速度都在70~180,因此发生事故的次数也就多。
三、统计分析方法的选择
全面调查与抽样调查的分析方法不同:
全面调查一统计描述抽样调查一统计推论
单变量与多变量的分析方法不同:
单变量一集中与分散特征多变量一相关性(有时需要将多个指标合并。)
不同层次变量的分析方法不同:按计量尺度的不同分为定性变量和定量变量两大类:
定类变量定序变量定距变量定比变量
定类变量
按某一个品质特征将总体单位划分若干个类型;
有属性之分,无大小、程度之分
两个原则:互斥原则;穷尽原则。
如:性别;婚姻。
定类-定类:列联表;定类-定序:非参数检验;定类-定距:方差分析;
定序变量
除类别、属性之分外,还有等级、秩序之分
如:教育程度;社会经济地位
定序-定序:等级相关
定距变量
除定类、定序外,取值之间有标准化的量度
可进行加减运算,但不能进行乘除运算
典型例子:智商测定
定距-定距:回归与相关
定比变量
除定类、定序、定距之特征外,取值可
构成一个有意义的比例
有一个绝对固定的、非任意的零点
可进行乘除运算
绝大多数经济变量可进行定比测定
如:年龄;收入;
第二章单变量统计描述分析
一、分布'统计表、统计图
1、分布
一个概念或变量,在各个情况出现的次数或频次。
表现形式:(X1,n1).(X2,n2).(X3.n3)—Xn是变量X的一切可能取值
n:频次分布%:百分比分布P:概率分布
某校学生的父亲职业
职业nP%
干部1100.20020.0
工人1520.27627.6
农民2280.52452.4
总数5501.000100.0
变量取值需要注意的问题:
(1)完整性
(2)互斥性
P23表2T~2-4
2、统计表
统计表:用表格形式来表示变量分布。
统计表的制作要注意的问题:
1、表号、表头(标题、时间、地点)内容简明
2、统计栏数多时,要加编号
3、数字填写要求:位数对准,同栏数字、小数位要一致,相同数字不可以写“同上”,无
数字栏用“一”,缺资料“…”
4、表中数字用同一单位时,标在右上角
表3.141997〜1998年城镇居民家庭抽样调查资料总标题
项目单位1997年1998年*---纵-
栏
‘一、调查户数
户3789039080)标
二、平均每户家庭人口数人3.193.16题
指
横三、平均每户就业人口数人1.831.80
5458.34|
行
四、平均每人全部收入元5188.54标
标
五、平均每人实际支出元4945.875322.95数
题
#消费性支出元4185.644331.61值
非消费性支出元755.94987.17
12.40J
1六、平均每人居住面积平方米11.90
资料来源:《中国统计摘要1999》,中国统计出版社,1999,第79页.附
注:1.本表为城市和县城的城镇居民家庭抽样调查材料.加
2.消费性支出项目包括:食品、衣着、家庭设备用品及服务、医疗
保健、交通和通讯、娱乐教育文化服务、居住、杂项商品和服务.
5、表的左右两端不封闭
2.统计表
不同层次变量统计表制作:
(1)定类变量(2)定序变量(3)定距变量
(1)定类变量
表1T某单位职工民族情况汇总(2016年2月)
按民族分组人数(人)比重(%)
144048
66022
90030
合计3000100
多选项统计解决方案:P26二分法;分类法;加权平均法
(2)定序变量
表1T某单位职工年龄情况汇总(2016年2月)
按年龄段分组人数(人)比重(%)
14448
6622
9030
合计300100
(3)定距变量
某单位职工日加工零件汇总(2016年3月10日)
按零件数分组频数(人)频率(%)
105-110
110~115
115-120X
120-12514
125~130
1
130-135
135-140
合计50100
【例】某生产车间50名工人日加工零件数如下(单位:个)。试采用统计图表的
方式对数据进行整理和显示。
117122124129139107117130122125
108131125117122133126122118108
110118123126133134127123118112
112134127123119113120123127135
137114120128124115139128124121
分组方法
单项式分组组距分组
等距分组异距分组
表1某车间50名工人日加工零件数分组表
零件数频数零件数频数零件数频数
(个)(人)(个)(人)(个)(人)
107111911282
108212021291
110112111301
112212241311
113112341332
114112431542
115112521351
117312621371
118312731392
表2某车间50名工人日加工零件数分组表
零件数分组频次(人)频率(%)
110以下36
110-114510
115-119816
120-1241421
125-1291020
130-13461:
135及以上48
合计50100
定距变量分组时需注意:
1)组数适宜2)等距分组和非等距分组3)精度确定
计量资料频数表的编制
一般情况下,样本含量小于50的统计资料无须编制频数表,但对于大样本含量的资料,编制频
数表有利于进一步的统计分析、且频数表本身也具有统计描述的作用。
编制频数表的步骤
噪一组段包括极小值,最后
一组段包括极大值,除最后
一组段可同时标出上下限,
其他组段只标出下限。
举例说明计量资料频数表的编制过程
某地13岁女孩118人的身高(cm)资料
151134143144152145146141143156
142141142145149141150140147144
144139145139144147140139135148
139144138146146142150145138147
143140138145146148151145138148
143141160155138140150148137148
135147139148139140144142129143
142149154148153146132146148145
136145144137143150143146149143
143157143146139142143131135149
135149138152141150146142147136
141146143149147140138142
步骤如下:
R=160-129=31o组段数=10;组距=以10=3.1比3(金);按要求确定每一组段上下限。分组统
计每一组段的频数,编制频数表。
计量资料频数分布表
118例13岁女孩身高(cm)资料频数表
频数标明组段真实组段频数中心值
12130
A
2129〜131128.5〜131.52133
A
3132〜134131.5-134.58136
A9
4135-137134.5〜137.5213
X0
5138-140137.5〜140.5214
A-
6141〜143140.5〜143.514
X5
7144〜146143.5〜146.522514
18
8147〜149146.5〜149.5915
A1
9150-152149.5〜152.53154
1
10153〜155152.5〜155.52157
A1
-1156〜158155.5-158.51166
1
-159~161158.5-161.5
合计118
频数分布表的用途
揭示数值变量频数分布的类型和特征
作为陈述资料的形式
便于发现一些特大或特小的可疑值
便于进一步的统计分析
3、统计图
统计图就是用图形的形式来表示变量的分布。
饼图反映所占比例;适用于定类;
条形图高度:频次或百分比;宽度无意义;
定类:离散长条;定序:紧挨长条或离散长条;
直方图高度:频次密度=频次/组距;宽度有意义;紧挨长条;适用于定距;
折线图直方图顶点中心相连;要计算组中心值。适用于定距变量;
频
次
密
度
105110115120125130135140
日加工零件数(个)
某车间工人日加工零件数的直方图
直方图与条形图的区别
•条形图中,条形的长度表示各类别频数或百分比,宽度则往往固定,没有数值意义。
•直方图中,矩形的高度表示每一组的频次密度或相对频次密度,宽度则表示各组的组距,
其高度与宽度均有数值意义。
•直方图的各矩形通常是连续排列,条形图则有连续排列,也有离散排列。
•直方图适用于定距变量,条形图适用于定类变量和定序变量。
,折线图也称频数多边形图(Frequencypolygon)«
•在直方图的基础上,把直方图顶部的中点(组中值)用直
线连接而成。
折线图(Polygon)
•用各组变量值或组中值与相应的频数或频率作为每个点的横纵坐标,连线而成。
•折线的两个端点与横轴相交,具体的做法是:
-第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个
矩形顶部中点与其竖边中点连接到横轴。
对某公司职员月平均收入进行抽样调查,得以下数据资料。
按收入分组人数比重(%)
(元)
1000-1499910
1500〜19992123.3
2000〜24993235.6
2500〜29991516.7
3000〜35001314.4
合计90100
直方图(Histogram)
4、累计图和累计表
cft:向上累计•小于某一数字的频数
cfI:向下累计。大于某一数字的频数
年龄人数cfTcfl
153318
166915
179189
按收入多占全部收人口累计累计的收入百分比
少形成的入的比重百分比
绝对平均绝对不平实际情况
人口序列(%)(%)
(%)均(%)(%)
最低的10.122020010.12
20%
第二个14.074040024.19
20%
第三个17.826060042.01
20%
第四个21.998080064.00
20%
第五个36.00100100100100.00
20%
资料来源:(统计研究》1986年第1期
漏
>
1
(号
)
p(%
人口
曲线
洛仑兹
/A+B
数:A
基尼系
析
布图分
5、分
)
(peak
研究
峰点
(1)
ry)
(symmet
研究
对称
(2)
曲线
与J形
形曲线
(3)U
线
峰状曲
曲线
不对称
对称与
线
U形曲
曲线
反J形
曲线
正J形
2-23
P42图
变。
而改
不同
组的
随着分
状,会
的形
布图
:分
注意
计量资料频数分布的类型和特征
二、集中趋势测量法
用典型变量或特征值来代表变量全貌。
1.众数(mode)
频数最多的变量值,适合于单峰对称;适用任何层次的变量(定类、定序、定距);
2.中位数(median)
数据序列中央位置之值。适合于定序及以上变量(定序、定距);
根据原始资料:
将数据排序后,排在中间位置的数,数据分为两半,一半比它大,一半比它小;median()
根据频次分布:P45
累计百分比c%3中间值位置50%的变量值;
累计频次eft,中间值位置N+1/2的变量值;
寻找累计百分比c%f中50%的点;
P46表2-19
分组数据,根据分组区间:
寻找累计百分比c%t中50%的点;
P46表2-19
X/(U-L)=(50%-L%)/(U%-L%)
X/(l.0-0.8)=(50%-36.3%)/(54.5%-36.3%)
X/0.2=13.7%/18.2%
X=0.15
中位值Md=0.8+0.15=0.95
3.均值
算术平均、加权平均,可适用于定距变量。
1)对于未分组资料
-Yx..
X——average()
N
注意:对求和符号,此时流动脚标的变动范围是1,2.3.…,凡是总体单位数。
[例]求74、85、69、91>87、74、69这些数字的算术平均数。
[解]
根据频次/频率分布求;P49
叉=
N
2)对于分组资料
7=工咕
注意:对求和符号,此时流动脚标的变动范围是1,2,3…,〃,〃是组数,而不是总体单位
数。
很显然,算术平均数不仅受各变量值(M大小的影响,而且受各组单位数(频数)的影响。由于
对于总体的影响要由频数(户)大小所决定,所以尸也被称为权数。值得注意的是,在统计计
算中,权数不仅用来衡量总体中各标志值在总体中作用,同时反映了指标的结构,所以它有
两种表现形式:绝对数(频数)和相对数(频率)。
[例]求下表(单项数列)所示数据的算术平均数
人口数(X)户数⑴频率(P)
250.10
380.16
4160.32
5100.20
660.12
740.08
810.02
合计501.00
对于组距数列,要用每一组的组中值权充该组统一的变量值。
[例]求下表所示数据的的算术平均数
间距频数(f)组中值(X)
148—1521150
152—1562154
156—1605158
160—16410162
164—16819166
168—17225170
172—17617174
176—18012178
180—1845182
184—1883186
188—1920190
192—1961194
合计100
"d(冗M3
对称的
负偏正偏
图3.5中位数、众数和算术平均数的位置比较
三、离散程度测度
7(1)异众比率;(2)极差和四分位差;(3)方差、标准差;
所谓离散趋势,是指数列中各变量值之间的差距和离散程度。离势小,平均数的代表性高;
离势大,平均数代表性低。
例如有A、B、C、D四组学生各5人的成绩如下:
A组:60,60,60,60,60
B组:58,59,60,61,62
C组:40,50,60,70,80
D组:80,80,80,80,80
数据显示,平均数相同,离散趋势可能不同;平均数不同,离散趋势可能相同。
(1)异众比率(variationratio)
非众数在总数N中所占的比例产(N-f)/Nf为众值的频数
{1,3,4,5,6,6,6,7}T=(8-3)/8=0.625
(2)极差(Range)
最大值和最小值之差,也叫全距。全距越大,表示变动越大。
R(极差)=Xmax-Xmin
[例]求74,84,69,91,87,74,69这些数字的全距。
[解]把数字按顺序重新排列:69,69,74,74,84,87,91,显然有
R=Xmax-Xmin=91—69=22
优点:计算简单、直观。
缺点:(1)受极端值影响大;
(2)没有量度中间各个单位的差异性;
(3)受抽样变动影响大,大样本全距比小样本全距大。
(3)四分互差(interquartilerange)
第三四分位数和第一四分位数的半距。避免全距受极端值影响大的缺点。
四分位差越小,说明中间部分的数据越集中;四分位差越大,则意味着中间部分的数据越分
散。
四分位数:将所有数值按大小顺序排列并分成四等份,最小的四分位数称为下四分位数,中
点位置的四分位数是中位数,最大的四分位数为上四分位数•quartile(array,k)。k为0,则
返回最小值;k为1,返回第1个四分位数…,k为4,返回最大值。
百分位数:测定数据在总体中的百分位置的指标。将数值按大小排列,分成100个等份,则
这99个数值或99个点就称为百分位数。percentile(array,k)k为0—1之间的百分点值。
(4)方差(variance)62与标准差(standarddeviation)6
方差:将观察值与均值之差的平方和除以全部观察总数N。
标准差:标准差:所有观察值与其均值的离差平方的平均数的平方根。反映总体中各数值的
平均离差程度。标准差有总体标准差stdevp()和样本标准差之分stdev()
求72、81、86、69、57这些数字的标准差。
转容:耍73.05=/守=片=私。6
[例]调查大一男生60人的身高情况如下表所示,求他们身高的标准差。
组距力£
150〜154+
154〜158+2P
158〜162”7。
162〜166,10+
166-170-16-
170-174^12.
174〜178.7。
178〜182~5,
合计「60.
第三章概率
一、基础概率
1、随机现象与随机试验
随机现象一一非确定性现象(随机现象也存在规律)
随机试验:对随机现象的观察
随机试验须符合的条件:
1)可以在相同的条件下重复进行
2)试验的所有结果是事先已知的,并且不止一个
3)每次试验只能出现可能结果的一种,且不能预先判断是哪一种如:掷硬币
2,概率的概念
随机事件:随机现象结果的集合;
概率:随机事件发生可能性大小的数量表示。反映随机事件内涵的统计规律性。
三种情况:
1)不可能事件0概率P
2)必然事件S概率
3)必然与不可能之间E概率
3、概率的计算方法
1)频率法
频数与频率
随机事件E出现的次数n一一频数
n与实验次数N的比值一频率
频率的三种状况:
概率是实验或观察次数N趋于无穷时,相应频率的稳定值。
频率是一个近似值,概率是一个理论值、唯一的精确值,比频率完美。
二、概率分布、均值与方差
1、概率分布:
随机现象一共有多少种结果,以及每种结果伴随的概率。
为了研究方便,将随机现象进行量化,看做变量,把随机变现象的各种结果看做变量的
各种取值。
={X1=硬币正面,X2=硬币反面}
概率分布:(XI,pl)(X2,p2)
分布列表明全部概率在各可能取值之间的分布规律,全面描述离散随机变量的统计规律。(变
量取值要满足:完备,不相容)
(1)离散型随机变量及其概率分布
可能的取值是有限个或可数个数,这些取值都具有确定的概率。
适用于定类、定序、定距变量。
概率分布:R■;=工i)=Pi
性质:
I)PkNG2)EPK=;
K=J
由此可以计算随机变量取值Xi所对应的概率pi,也可以计算随机变量在某一区间的概率。
【例】投掷一颗骰子后出现的点数是一个离散型随机变量。写出掷一枚骰子出现点数的概率
分布
概率分布
X=Xj123456
P(X=xi)=pi1/61/61/61/61/61/6
P(x=3,4,5)=
[例]某地区儿童普查数据如下表,求其儿童年龄概率分布图。求3岁以下儿童的概率情况。
年龄(X)百分比(%)
210%
316%
432%
520%
612%
78%
82%
合计100%
概率
3岁以下儿童的概率情况
离散型随机变量的概率分布
1.列出离散型随机变量X的所有可能取值
2.列出随机变量取这些值的概率
3.通常用下面的表格来表示
X=XjAT],X?'.一,大〃
P(X=xi)=piPl9Pl9…,Pn
4.P(X=x/)=pi称为离散型随机变量的概率函数
*
=1
PR;XA
(2)连续型随机变量及其概率分布一一概率密度函数
可能的取值,连续地充满某个区间。适用于定距变量。
因为取值是连
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024中国银行国家助学贷款保证合同
- 2024室内装修施工合同范本模板
- 2024年度软件开发及许可协议
- 2024年度知名品牌餐饮连锁加盟合同
- 成本制胜课件教学课件
- 2024年度供货合同范本
- 2024年大型风力发电项目施工合同
- 2024年度市场营销策划与执行合同
- 2024年建筑工地安全协议
- 2024年度医疗服务提供合同
- 人教版数学五年级上册课本习题(题目)
- 钢筋合格证(共6页)
- BIM技术全过程工程管理及应用策划方案
- 弯扭构件制作工艺方案(共22页)
- 水利工程填塘固基、堤身加固施工方法
- 中医针灸的骨边穴怎样定位
- 人教版八年级上册英语单词表默写版(直接打印)
- 电脱水、电脱盐讲解
- 江西省科技创新平台建设(PPT课件)
- 违约损失率(LGD)研究
- 沟槽回填施工方案(完整版)
评论
0/150
提交评论