版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、社会统计学复习整理一、变量的测量层次测量层次变里举例数学特性单变量分析定英nominal 区分类别性别职业婚姻状况信仰=丰频数分布、频率分布 众数、异众比率定序ordinal 区分类别后,还 能排列高低、大 小、先后、强弱等等级序列文化程度 城市规模 社会地位 生活水平 住房条件 工作能力=w、频数分布、频率分布众数、异众比率中位数、四分位差定品巨interval 区分类别、等级 后还能算出等级 间的差距数量, 但没有实际意义 的“0”收入 年龄 时间出生率 性别比=丰、频数分布、频率分布众数、异众比率中位数、四分位差 平均数、标准差、离散系数定比ratio 区分类别、等级 后还能算出等级 间
2、的差距数量, 但具有实际意义的“0”收入 年龄 时间出生率 性别比=w、V、X +频数分布、频率分布众数、异众比率中位数、四分位差 平均数、标准差、离散系数二、判断变量层次的技巧1 .首先所有的变量都是定类变量2 .其次看变量的取值能否比较大小,不能这个变量只能是定类变量。3 .最后如果这个变量能够比较大小,那么就看变量取值加减乘除是否有意义,如果有意义就是定距变量,如果没有意义就只能是定序变量。三、变量层次的比较定类变量、定序变量和定比变量的数层次是从低到高排列的,高层次的变量 同时具有低层次变量的功能四、相关分析方法变量层次相关系数是否对称取值围PRE 义检验类-类 定英-序入不对称0,
3、11有X2定序-定序G否【-1 ,1】有Z定类-定距 定序-定距Eta2不对称0, 11无F定距一定距r对称【-1 ,1】无Fr 2对称0, 11有第二节简化一个变项的分布定类变量1 .统计表:用表格的形式来表示变量频次(或频率)分布的一种工具2 .统计表必备的容:1. )表号、标题2. )标识行:变量名、对应数据说明(频次、频率)3. )主题行:变量取值的统计数据4. )表尾:如果是引用必须说明资料来源定序变量5. 适合定序变量的简化资料的方法(1)累加次数:把次数逐渐相加起来,分为向上累加次数( cf T) 和向下累加次数(cf J )。(2)累加频率:把各级的百分率逐渐相加。也分为向下累
4、加百分率 和向下累加百分率。6. cf T的计算方法就是按照变量取值的等级从低往高逐层相加。7. cf ;计算方法就是按照变量取值的等级从高往低逐层相加。? cf T表示低于某个等级的频数有多少? cf ;表示高于某个等级的频数有多少三、定距变量1 .定距变量的简化工具是:分组、直方图和折线图。2 .连续型定距变量的分组统计(1)组数:分组的数量,一般5到7组合适,分为等距分组和非等 距分组。(2)组限:包括上限(up)和下限(low)(3) 标识下限和标识上限,例500699(4)真实下限:标识下限一0.5;真实上限:标识上限+0.5.(5)组距:真实上限与真实下限之差。(6)组中值:真实上
5、限与真实下限的平均值。第三节集中趋势测量法1 .集中趋势:用一个典型的变量值或特征值来代表全体变量的问题,用这个数 值来代表变项的资料分布,以反映资料的集结情况。2 .集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象的数值。、定类变量1 .众值(Mode Mo用具有频数最多的变量的取值来表示变量的集中值。2 .众信的特征:(1):众值理论上可以用于定类、定序和定距三个层次的变量来描述 集中趋势,但是由于众指不精确,一般只用于定类层次的变量。(2):众信最好找,是最容易求出的值,但它精确度也是最差的。、定序变量1. 中位值(Md。2. 分组数据求中位值公式:Md=L+(n/2-
6、cf T/n)(U-L)L :中位值的真实下界值U :中位值的真实上界值n :中位值组的频数cf T :低于中位值所在组的累加(向上)频次N :调查总数Md 位值:N/2、定距变量1 .均值(Meat):将变量的各个数值相加起来,除以总个数,求取一个平 均值的数值,一般用一x来表示。2 .均值的特征:仅适合定距层次的变量它最灵敏,预测的精确度最高对资料所提供的信息运用得最充分3,均值的求法(1) 原始数据求均值:X=EXi/ N(X表示变量x的均值;汇X1表示变量观察值的总和。)iniXl(2) 根据频次分布求均值:x=(Xq表示变量X的均值;表示变量的每一个取值和该变量频数相乘的和;表示把变
7、量的每个取值下的频次都加起来,即调查总数N)(三)分组数据求均值:女二(n1表示每组次数,b表示每组的组中值,表示个案数目)第四节 离散趋势测量法离散趋势测量法:是求出一个值来表示个案与个案之间的差异情况。离散趋势或离散特征可以告诉我们估计值误差的大小。定类变量(异众比率V)V就是非众值的次数与全部个案数目的比率。N fmoNV=(N-全部个案数目;fmo /v值越小,众值代表性越好。定序变量1 .极差(F)一观察的最大值与最小值之差。2,四分互差:将数值排序,分为四个等分,第一个四分位置的值与第三 个四分位置的值的差异。四分位差Q=C75- C25(一)未分组数据:2 2 3 4 6 9 1
8、0 10 11 13 15Md 的位置=N+1/2=11+1/2=6Q25的位置=N+1/4=11+1/4=3 (第三位数)33Q75 的位置=? (N+1) =5 (11+1) =9 (第九位数)所以,四分位差Q= Q75-Q25=11-3=8(二)分组数据N1. 中位值公式=Md=L+1 - cf t )/n(U-L)N2. Q25=L+(1 - cf T )/n(U-L)L :四分之一位值组的真实下界值U:四分之一位值组的真实上界值 n:四分之一位值组的频数cf T :低于四分之一位值组的向上累加频次N:调查总数Q25 位置=N/4;3. Q75=L+国-cf T)/n(U-L)L :四
9、分之三位值组的真实下界值U:四分之三位值组的真实上界值n:四分之三位值组的频数cf T :低于四分之三位值组的向上累加频次N:调查总数Q75 位置=3N/4;定距变量(一)标准差(T与方差(T 2(6即对均值的偏差平方均值的平方根)(r2 (二)根据未分组的频次分布求方差N-调查总数;Xi-表示变量的每个取值;ni-表示每个取值的频次(三)分组数据求方差一一用组中值代替bi代替xi代入公式中(T 第三章概率一、概率1,不可能事件的概率:P(O)=02 .必然事件的概率:P(S)=13 .随机事件的概率:0WP(E)W1二、两个重要概念1 .普查:对统计总体的全部单位进行调查以搜集资料统计资料的
10、 工作。2 .抽查:按照某种方法以总体中抽取一部分样本进行调查,以搜 集统计资料的工作。三、频率分布于概率分布的关系1 .频率分布是实验值,是可以变化的,称之为统计分布或经验分 布。2 .概率分布是理论值,是唯一的,称之为理论分布。3 .当观测次数很大时,随机变量取值的频率接近于其概率,这时 随机变量的统计分布与理论分布将大致相符。四、总体均值和方差1 .总体均值(E):随机变量各取值分别乘取值的概率的总和。E(工)=E PiXi2 .总体方差(D):就是随机变量偏离总体均值的程度。D=S2=E(X2)- E(x) 23 .总体均值和样本均值的区别:总体均值是对研究对象进行普查后得出的均值。样
11、本均值是对从总体中抽取的样本数据计算出来的均值。4 .总体方差与样本方差的区别:总体方差是对研究对象进行普查后,利用数据算出来的方 差。样本方差是根据从总体中抽取出的样本的调查总数据,计算出来的方差。5 .总体均值方差和样本均值方差表示法1. 总体均值E=p,总体方差D=(r 2,总体标准差=(t2. 样本均值=X ,样本方差=s2,样本标准差=S6 .结论1. 通过普查,可以得出概率、总体均值E(力、总体方差D(r2), 这些值我们称为参数值。2. 通过抽查,可以得出频率、样本均值 女、样本方差s2,这 些值我们称为统计值。3. 当样本为大样本(N三30),频率概率、样本均值总体均值、样本方
12、差总体方差。4 .当样本数无穷接近总体数的时候,频率 =概率、样本均值=总 体均值、样本方差=总体方差。5 . 统计学的任务就是如何利用统计值来推论参数值(统计推论),实现我们的研究目的。第四章常见统计分布第一节二点分布一、二点分布(0-1分布):就是变量的取值只有两类的分布。如: 性别。二、二分变量的分布律:随机变量如果满足二点分布,则其概率分布-P(E=0)=q; P(E=1)=P; P+q=101P=d=Xi)qp第二节二项分布一、 二项分布:在相同条件下进行n次独立试验,每次试验 只有两种可能的结果,事件 A出现的概率P(A)=P,事件A不出 现的概率P(A)=1-p=q.第三节正态分
13、布什么是正态分布? 中心极限定理:对于任何变量,不管其原有分布如何,如果把 它们n个加在一起,当n大于一定数之后(n30),那么其和的 分布必然接近正态分布。二、正态分布密度曲线的特点1. 一个高峰2. 一个对称轴一一X=p3. 一个渐近线一一X轴4. 正态分布曲线是单峰值对称的,因此这种分布的变量,其众值、 中位值和均值是重叠的。5. 正态分布下的面积为1.三、正态曲线的参数意义1 .正态分布的两个参数是 W (总体均值)和(T (总体方差)。2 .两个参数对曲线形状的影响:(1) 0 (X)在x=p处达到峰值,以直线x=p为对称轴。在一定的情况下,若w增大,图形右移;若w减小,则左移,但形
14、状不变。(2) 当w值一定时,仃值越小,则对应的图形越尖越瘦。第四节标准正态分布标准正态分布:标准正态分布就是通过公式把一般正态分布转化 而来,这样把不同的正态分布都统一为(0, 1)的正态分布,然后再 通过查表求出两点之间的概率。公式:1 .标准正态分布的W =0,(7=1,其图形以Z =0为对称轴。2 .标准正态分布记作 XN(0, 1), 一般正态分布记作 XN(p(t2)3 .标准正态分布的图形唯一的,其值可以通过查表(附表 4) 求得。(只有标准正态分布才能查表,如果是一般正态分布 则先用公式转化为标准正态分布)=1=-14 .正态分布N(p(r2 )和标准正态分布N(0, 1)面积
15、之间的对当 X=p +(7 时,当 X=W - (T 时,第五节常用统计分布X2分布(卡方分布)设变量E 1、22,、Ek相互独立,且都服从N(0, 1),则X2=(E1)2+(22)2+-一+(已k)2称为自由度为K的X2分布。记作:E X2 (k)二、t分布设随机变量和不独立,且N(0, 1),刀X2 (k),则随机变量t ( t=R )服从自由度为k的t分布,记作tt(k)。三、F分布设随机变量W和不独立,且已X2 (ki) 1X2 (k2),则随机X kiX变量F ( F=k2 )服从自由度(ki, k2)的分布记作FF (ki, k2)o第五章参数估计一、关于抽样的一些概念1 .总体
16、:构成总体的所有元素的集合,元素则是构成总体的最基本 的单位。2 .样本:从总体中按一定方式抽取出来的一部分元素的集合。3 .抽样:从总体中,按一定的方式选择或抽取样本的过程。4 .抽样单位:一次直接抽样所使用的基本单位。二、统计推论1 .统计推论:根据局部资料(样本资料)对总体进行推断的过程。2 .样本资料的特点:(1)样本资料来源于总体,因此局部资料的特性在某种程度上能 反映总体的特征。(2)由于抽样的随机性,则抽样的结果有可能不等于总体的结果。(3)当样本达到一定规模的时候(大样本),呈现规律性。3 .统计值:从样本中计算出来的数值。4,参数值:总体的数值。5,统计推论的容分为两个部分:
17、(1)通过样本的统计值对总体的未知参数进行估计,称为 参数估 计。(2)通过样本对总体的某种假设进行检验,称为 假设检验。三、抽样分布1,样本均值 x的分布:我们按照简单随机抽样的方法,从总体 中抽取样本,因为每一个个体被抽中的机会具有随机性, 所以每一次 抽出的样本其均值都不同,那么在同一个总体中,抽取n次就有n个 样本均值(丸 ,% ),而样本均值X勺分布就是这n个样本均值的分布。_2xN( ,) n 我们把X进行标准化 2 即=,2=,f=n 、. nZ =一、, n2,样本方差S2的分布:就是n个样本方差的分布。第三节参数的点估计点估计:直接用样本计算出来的统计值来估计总体的参数值,由
18、于它只是一个点值,所以称参数的点估计。总体参数的点估计公式1,总体均值W的点估计值为样本均值XXi2 .总体方差0 2的点估计值为样本方差 S1ni 1(xr)2S2=厂3 .总体标准差(7的点估计值为样本标准差 S第五节正态总体的区间估计区间估计:通过样本计算出一个围来对总体未知参数进行估计。区间估计的概率表达式:未知参数P(QM直)Q; QA Q-统计值(样本值);【人Q-e , A Q+e】置信区间为Q的可能取值围);1-置信度(置信区间包含 Q可靠性程度);一般是根据研究者想让自己的研究达到什么样的精确度而自己给定的显著性水平(significant ),表示用置信区间估计不可靠的概率
19、第六节大样本区间估计(一)0 2已知时,样本均值呈正态分布p( Q-q Q+ ) =1-P(x-x+ )=1-一 X-7Z 2、n xX+Z 2 丁 )=1-整理后得出P(丽区Z可估嚅率公式:x;Z芦石尸1-P(x- Z 2 -所以,W的双侧置信区间为:X- Zx+ Z2 pn,(二)大样本,总体分布满足xN( 1122(T ),但(T未知时对WZ=进行区间估计:用样本标准差s代替总体标准差b )整理后得出W的区间估计概率公式:)=1-所以,W的双侧置信区间为:S Sx- Z 2x + Z 2 v n- ?故总体成数P的区间估计公式为P(0-Q Q + )=1-P($- P p+ )=1-Z
20、2, P(1 P) p PP(1 P) , n、n 丁) p pz 2 P7)=1-如果P未知,可以用A P取代。(三)常用置信度下的置信区间当1= 0.90时,置信区间为:x1.65、n ,x1.65、n当1- =0.95时,置信区间为:1.96、n,x1.96/n1- =0.99时,置信区间为:2.58、n,x2.58第六章假设检验的基本概念一、统计假设:依靠抽样数据对总体分布进行验证的假设,包括原假设和备择假设。二、原假设和备择假设1 .原假设H0:又称之为虚无假设,根据已有的资料,或周密考虑后 确定的,如果没有充分根据,是不会被轻易否定的。2 .备选假设H:又称研究假设,经过抽样调查,
21、有充分根据否定原 假设H时,产生的假设。三、假设检验的基本原理大数定理:1 .对事件进行大量观察时,事件的发生是有规律的,这种有规律性 的数量成为概率。2 .在大量观察中,频繁出现的事件具有较大的概率,反之,则具有 小的概率。小概率原理:?认为小概率事件在一次观察中是不可能出现的 ,称为小概率原 理。?如果在一次观察中出现了小概率事件,就否定原有事件具有小 概率事件的假设。四、假设检验的思想1 .经过抽样调查获得数据后,如果根据样本计算的某个统计量 表明在原假设 伸成立的条件下几乎是不可能发生的,我们就拒 绝原假设,而接受备选假设。2 .如果在原假设成立的条件下,根据样本所计算的某个统计量,
22、发生的可能性很大的话,我们就接受原假设。五、相关名词:1 .统计检验中的假定(前提):是进行检验的前提或要求。如 计算时,要求时正态分布,样本的抽取应该是随机抽样。2 .统计量:用来检验总体的样本的函数f (x1, x2, - xn),常 用的统计量有服从Z分布、t分布、F分布、X2分布等,他们的统计 量分别对应为Z、t、F、X2。3 .显著性水平(significance) % =小概率小概率的标准,小概率的数量界限。常用的显著性水平有 =0.10、0.05 或 0.01。4 .临界值、接受域和拒绝域根据原假设作出统计量的分布图六、假设检验的两类错误1 .弃真的错误是在拒绝原假设时出现的错误
23、,即将正确的 原假设当作假的所犯的错误。弃真错误的大小就是2.纳伪的错误一一是接受原假设时出现的错误,即接受了实际上错误的原假设的错误。称为第二类错误。七、两类错误的关系一一弃真错误减少导致纳伪错误的增大反之亦 然。即,当显著性水平减小时,由于拒绝域的减小,弃真的错误会 减小,但由此而来的是接受域增大了,因而纳伪的概率增大,反之亦 然。八、解决的方法增加样本容量九、假设检验的四个步骤:1. 成立原假设2. 成立备择假设3. 统计量4. 拒绝域和接受域第九章列联表一、什么是列联表(一)相关:是指一个变项的值与另一个变项的值有连带性。即如果 一个变项的值发生变化,另一个变项的值也有变化。(1)正相
24、关(正比):是指一个变项的值增加时,另一个变项的值 也增加。(2)负相关(反比):是指一个变项的值增加时,另一个变项的值 却减少。(二)自变量、因变量:科学研究中,我们成立假设,一般假定某变 项是因,另一变项是果,那么前者称之为自变量,后者称为因变量。(1)不对称关系:自变量影响因变量,因变量不影响自变量(2)对称关系:自变量和因变量互相影响。(三)列联表(交互分类表):按照两个变量进行交互分类的频次分 布表,其综合了两个变项的共同分布。即:我们先将数据按自变量x分类,然后分别统计自变量的每一取值 下的因变量y的取值,然后形成的统计表。二、列联表要注意的问题1.线条要尽量的少,舍去不必要的线条
25、。2,每个表的顶端要有表号和标题。3 .表的顶端为自变量,表的左旁边为因变量。4 .表的大小=表的横行数目(rows,简写为r) x表的纵行数目 (columns,简写为 c)。5 .表的下端和表的右边称为边缘分布。6 .联合次数分布表和联合频率分布表可以互换。7 .联合频率分布表中,一定要注明样本总数。8,应以自变量的方向计算百分比的方向。三、边缘分布1 .边缘分布:只研究联合分布中某一变量的分布, 而不管另一个变 量的取值。2 .关于y的边缘分布(N*j ):把联合分布中的概率,次数按行的 方向加总起来的分布。3 .关于x的边缘分布(Ni* ):把联合分布中的概率,次数按列的 方向加总起来
26、的分布。四、条件分布将其中一个变量控制起来取固定值, 研究另一变量的分布,即得 到第二个变量的条件分布。关于y的条件分布(控制x的取值),最多有c个。关于x的条件分布(控制y的取值),最多有r个。五、列联表中变量的相互独立性(自变量与因变量无关时)列联表中变量相互独立性时,则如下等式成立:Ni jITx1x2NjyiN11N21y2N12N22N*NPij=Pi*P*jx1X2Pjy1P11P21y2P12p22R*1六、列联表的检验1 .检验的容:x与y是否有关总体参数:p N(总体概率及总数)样本参数:A P n(样本频率及频次)2 .列联表检验的原假设Ho: R = p i* p *j
27、i=1, 2,,cNi NNiNi i =j=l, 2,,r七、列联表检验的统计量1 .期望格值Eij是假定H0成立的条件下,每格期望发生的频次(理 论值);2 .样本格值nij是样本实测频次或观察频次。3 .原假设成立的情况下,有下面的的等式:八、统计量XN Eh) 2Eii(r-1 ) (c-1)X反映观测格值与期望格值之间的差 异,X;越大,两者差异越大,说明总 体中正与J相关的可能性越大。九、列联强度1 .r xc列联表一一PREM量法PRE 二 1 一/E1:不知道y与x的关系时,预测y的全部误差E2:知道y与x的关系后,用x去预测y的全部误差E1-E2:知道y与x的关系后预测y所减少的误差? PRE ( Proportional reduction in error )称为减少误差比例, 表示用x解释y时可以减少的误差的百分比。2 .PRE的取值围:PRE=0 E i=E 贝U x与y无关PRE=1 E 2=0x与y完全相关0c PRE 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《做个岩石百宝箱》课件
- 九年级政治全套知识课件
- 本学期学习报告范文
- 二下语文19课知识课件
- 2024年度核电站建设与施工合同
- 学幼儿拼音教学课件教学课件教学
- 《抽样原理与方法》课件
- 骨折的质量课件
- 手机动车买卖合同
- 影视剧导演聘用合同经纪合同
- 离婚返还彩礼起诉状范本合集
- DZ∕T 0211-2020 矿产地质勘查规范 重晶石、毒重石、萤石、硼(正式版)
- GB/T 14207-2024夹层结构或芯子吸水性试验方法
- 2.1.1 中国的地形(山脉纵横交织)(课件) 八年级地理 (湘教版)
- 胎心监护及判读
- 人教部编版七年级下册语文必背古诗文(原文+译文)
- 天津市长期护理保险护理服务项目和标准
- 匠心筑梦成就出彩人生-大学生就业指导智慧树知到期末考试答案2024年
- 工会工作指导员挂职工作总结
- 国投集团笔试测评题
- (高清版)DZT 0214-2020 矿产地质勘查规范 铜、铅、锌、银、镍、钼
评论
0/150
提交评论