社会统计学:总复习_第1页
社会统计学:总复习_第2页
社会统计学:总复习_第3页
社会统计学:总复习_第4页
社会统计学:总复习_第5页
已阅读5页,还剩163页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

社会统计学总复习考试题型与分值分布一、 单项选择题(1分×10=10分,每题一个正确选项)二、判断题(2分×10=20分,对于您认为错误的,指出错误之处并改正。)三、计算题(5个,共70分)☆“客观题练习”:考试题目不限于此。☆“计算题”:考试题目仅限于此。第1章认识社会统计学(对应教材第1章)统计方法统计方法描述统计推断统计参数估计假设检验描述统计

(descriptivestatistics)就是大多数人听到“统计”一词所想到的那回事内容收集数据展示数据描述样本数据目的描述数据特征02550Q1Q2Q3Q4¥x=30s2=105推断统计

(inferentialstatistics)研究如何利用样本数据来推断总体特征内容参数估计假设检验目的对总体特征作出推断样本总体描述统计与推断统计的关系反映客观现象的数据总体内在的数量规律性推断统计(利用样本信息和概率论对总体的数量特征进行估计和检验等)概率论(包括分布理论、大数定律和中心极限定理等)描述统计(统计数据的搜集、整理、显示和分析等)总体数据样本数据统计数据的分类

(按计量层次分)定类数据(categoricaldata/nominal)

只能归于某一类别的非数字型数据对事物进行分类的结果,数据表现为类别,用文字来表述例如,人口按性别分为男、女两类

定序数据(rankdata/ordinal)

只能归于某一有序类别的非数字型数据对事物类别顺序的测度,数据表现为等级,用文字来表述例如,生活满意度分为很满意、比较满意、不满意等定距数据(metricdata/scale)

按数字尺度测量的观察值结果表现为具体的数值,对事物的精确测度例如:身高为175cm、168cm、183cm123量化等级功能包容123社会统计学的特点1、研究内容多是抽象概念,需操作化定义。2、收集资料的对象通常是人而不是物。3、收集的资料中低层次的变量居多。参数和统计量参数值(parameter)用来描述总体特征的,是研究者想要了解的总体的某种特征值所关心的参数主要有总体均值(

)、标准差(

)、总体比例(

)等总体参数通常用希腊字母表示统计值(statistic)用来描述样本特征的,它是根据样本数据计算出来的,所关心的样本统计量有样本均值(

x)、样本标准差(s)、样本比例(p)等样本统计量通常用小写英文字母来表示第1章客观题练习1、下列变量中不属于定类变量的是()。A、车牌号B、手机号C、学历D、性别2、根据样本计算出来的一切统计数字特征值被称为

,总体值称为

。3、以样本的统计值来估计总体的参数值,有两大类做法,一类是

,另一类是

,二者均要求样本是以

方法抽取的。C统计值参数值参数估计假设检验随机4、描述统计与推断统计的关系()A、描述统计是推断统计的发展。B、推断统计是描述统计的的发展。C、描述统计是推断统计的前提。D、推断统计是描述统计的前提。E、描述统计与推断统计是统计学的两大基本内容。B、C、E第2章单变量数据的分布、

统计表、统计图(对应教材第2章第1节)

社会统计学中,分布指一个概念或变量的各个情况出现的次数。分布的一般形式为:

(X1,n1)其中,X1,X2,Xn是变量X的(X2,n2)一切可能取值,n1,n2,n3为其对

应数值。(Xn,nn)

n代表不同的含义是表示不同的分布。当n表示频次时为频次分布。当n表示概率时为概率分布。当n表示百分比时称为百分比分布或频率分布或相对频次分布。统计表和统计图是变量分布的不同表现形式。

变量取值要注意的问题:1、完备性2、互斥性统计表与统计图

(基本问题)要弄清所面对的数据类型,因为不同类型的数据,所采取的整理方式和图示方法是不完全相同的;对定类数据和定序数据主要是作分类整理;对定距数据则主要是作分组整理;适合于低层次数据的整理和图示方法也适合于高层次的数据;但适合于高层次数据的整理和图示方法并不适合于低层次的数据。掌握各种统计图的特点。定距数据分组方法分组方法等距分组异距分组单变量值分组组距分组组距分组

(要点)将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况需要遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组~~~~~直方图与条形图的区别条形图是用条形的长度表示各类别频数的多少,其宽度(表示类别)则是固定的,宽度的大小没有意义。直方图是用面积表示各组频数的多少,条形的高度表示频次密度,宽度则表示各组的组距,其高度与宽度均有意义。直方图的各条形通常是连续排列,条形图则是分开排列或连续排列均可。条形图主要用于展示定类数据和定序数据,直方图则主要用于展示定距数据。第3章集中趋势与离散趋势的测量(对应教材第2章第2节、第3节)数据特征的测度众值中位值平均值离散系数方差和标准差四分互差异众比率集中趋势离散趋势集中趋势测量

—众值M0

一组数据中出现次数最多的变量值不受极端值的影响一组数据可能没有众值,可能有1个或有几个众值主要用于定类数据,也可用于定序数据和定距数据求众值。中位值Md

排序后处于中间位置上的值Md50%50%不受极端值的影响主要用于定序数据,也可用定距数据,但不能用于定类数据。求中位置。四分位数

排序后处于25%和75%位置上的值3.不受极端值的影响4.主要用于定序数据,也可用于定距数据,但不能用于定类数据5.求四分位数Q25Q50Q7525%25%25%25%2.也可写作Q1Q2Q3QLQMQU或平均值

集中趋势的最常用测度值2.易受极端值的影响用于定距数据,不能用于定类数据和定序数据。3.求平均值众值、中位值、平均值的比较目的是相同的,都是希望通过一个数值来描述整体特征,以便简化资料;都反映了变量的集中趋势。众值仅使用了“最大频次”这一信息,对资料的使用是不完全的;中位置只考虑居中位置,其他变量值与中位置间的差距是不影响中位的;均值既考虑到频次,又考虑到变量值的大小值,它是最灵敏的。虽然均值对资料的利用最充分,但当严重偏态时,代表性不好,此时可考虑使用中位值。严重偏态分布五个人,月工资(单位:元)分别是1000,1000,1300,1700,20000。平均值=5000。中位置=1300右偏分布众值

中位值均值数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据类型定类数据定序数据定距数据适用的测度值※众值※中位值※平均值—四分位数众值—众值中位值——四分位数——————离散趋势测量

—异众比率

1. 非众值的频数占总频数的比例2. 计算公式为3.用于衡量众值的代表性主要用于定类数据,也可用于定序数据和定距数据。5.求异众比率。四分互差

也称为内距、四分间距或四分位差上四分位数与下四分位数之差

Q

=Q1–

Q33.反映了中间50%数据的离散趋势4.不受极端值的影响5.用于衡量中位数的代表性6.主要用于定序数据,也可用定距数据,但不能用于定类数据7.求四分互差方差和标准差

(varianceandstandarddeviation)数据离散趋势的最常用测度值反映了各变量值与均值的平均差异适用于定距数据,但不能用于定类数据和定序数据求方差和标准差离散系数

1. 标准差与其相应的均值之比对数据相对离散程度的测度4. 用于对不同组别数据离散程度的比较5.求离散系数。计算公式为数据类型与离散趋势测度值数据类型和所适用的离散程度测度值数据类型定类数据定序数据数值型数据适用的测度值※异众比率※四分位差※方差或标准差—异众比率※离散系数(比较时用)——

平均差——

极差——

四分位差——

异众比率第3章客观题练习1、标准差数值越小,则反映变量值()A、越分散,平均数代表性越低B、越集中,平均数代表性越高C、越分散,平均数代表性越高D、越集中,平均数代表性越低2、原始数据2、3、5、1、7、9、2的中位值是()。A、5B、3C、2D、1BB3、对收集来的数据,数值最大者和最小者之差叫作(),又称之为()。4、设有甲乙两个变量数列,甲数列的平均数和标准差分别为20和2.5,乙数列的平均数和标准差分别为50和5.2,这些数据说明()A、甲数列的差异程度高于乙数列B、甲数列的差异程度低于乙数列C、甲乙两数列的差异程度相同D、甲乙两数列的差异程度无法比较极差全距A第3章计算题教材:P60:九P62:十六☆教材第3、4、5章不作为单独考核的内容。☆但不排除其中某些内容在后面章节的运用。例如,在推断统计时会要求总体满足“二项分布”、“正态分布”的假设;确定临界值时涉及到正态分布、t分布、F分布、卡方分布等。第6章参数估计(对应教材第6章第1、2、3、5、6节)点估计和区间估计1、总体均值的点估计值2、总体方差的点估计值3、总体比例的点估计值区间估计是在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的。点估计区间估计置信区间包含总体参数真值的次数所占的比例称为置信水平,也叫置信度表示为1-

常用的置信水平值有99%,95%,90%相应的

为0.01,0.05,0.10置信水平由样本统计量所构造的总体参数的估计区间称为置信区间统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个置信区间

(confidenceinterval)评价估计量的标准无偏性

(unbiasedness)无偏性:估计量抽样分布的数学期望等于被估计的总体参数P(

)BA无偏有偏有效性

(efficiency)有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效

AB

的抽样分布

的抽样分布P(

)一致性

(consistency)一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数AB较小的样本容量较大的样本容量P(

)一个总体参数的区间估计

总体均值的区间估计

(正态总体、

2已知,或大样本)1. 假定条件(满足二者之一)总体服从正态分布,且方差(

2)

已知大样本:如果总体不是正态分布(或不知道总体服从何种分布),可由正态分布来近似(n

30)。当总体方差未知时,可用样本方差来代替。使用正态分布统计量z总体均值

在1-

置信度下的置信区间为总体均值的区间估计

(正态总体、

2未知)1. 假定条件总体服从正态分布,且方差(

2)

未知使用t

分布统计量总体均值

在1-

置信水平下的置信区间为总体比例的区间估计1. 假定条件(同时满足以下两个条件)总体服从二项分布大样本使用正态分布统计量z3.总体比例

在1-

置信水平下的置信区间为总体方差的区间估计1. 假设总体服从正态分布2.总体方差

2

的点估计量为s2,且3.总体方差在1-

置信水平下的置信区间为两个总体参数的区间估计

两个总体均值之差的区间估计

1. 假定条件(同时满足条件1和条件2)1.两个总体都服从正态分布,

12、

22已知或是大样本2.两个样本是独立的随机样本使用正态分布统计量z1.

12,

22已知时,两个总体均值之差

1-

2在1-

置信水平下的置信区间为

12、

22未知时,两个总体均值之差

1-

2在1-

置信水平下的置信区间为两个总体均值之差的区间估计(

12,

22

未知但

12=

22)假定条件两个独立的小样本两个总体都是正态分布

12、

22未知但相等,即

12=

22

(称为方差齐性)检验统计量其中:自由度:两总体方差相等,但未知,可以用两样本方差的加权平均值代替。1. 假定条件(同时满足以下条件)两个总体服从二项分布大样本(可以用正态分布来近似)两个样本是独立的2. 两个总体比例之差

1-

2在1-

置信水平下的置信区间为两个总体比例之差的区间估计总结

(单总体均值的区间估计)

Z检验:适用情形一:大样本(任意总体)。适用情形二:小样本且正态总体且方差已知(但由于总体方差通常是未知的,所以此种情形实际基本不存在)。T检验:适用情形:小样本且正态总体且方差未知。总结

(二总体均值差的区间估计-独立样本)

Z检验:适用情形一:两个独立大样本(任意总体);适用情形二:小样本且正态总体且方差已知(但由于总体方差通常是未知的,所以此种情形实际基本不存在)。T检验:适用情形:小样本且正态总体且方差未知,但要求方差相等。总体方差是否相等,可通过方差齐性检验来推断。第6章客观题练习1.如果统计量的抽样分布的均值恰好等于被估计的参数值,那么这一估计便可以认为是()估计。

A、有效B、一致C、无偏D、精确2、虽然随机样本和总体之间存在一定的误差,但当样本容量逐渐增加时,统计量越来越接近总体参数,满足这种情况,我们就说该统计量对总体参数是一个()的估计量。

A、有效B、一致C、无偏D、精确CB3、用简单随机抽样方法抽样,用以估计总体的均值。如果要使抽样误差降低50%,则样本容量需要扩大到原来的()。A、2倍B、3倍C、4倍D、5倍4、判断(1)在用样本统计值推断总体参数值时,把握程度越高则误差范围越小。()(2)进行区间估计,置信水平总是预先给定的。()(3)在参数估计中,概率的大小由显著性水平所决定,它可以认为是决定区间估计信度的关键因素。()C×√√第6章计算题教材:P226:二、五PPT《第六章参数估计课后作业》第7章假设检验的基本问题

(对应教材第7章)原假设与备择假设假设一般包括两部分:原假设和备择假设。原假设

(nullhypothesis)根据已有的资料或以往的经验,经周密的考虑确定的。没有充分根据是不会被轻易否定的。又称“虚无假设”“解消假设”或“0假设”。3. 表示为

H0H0:

=某一数值

例如,H0:

20岁当经过抽样调查,有充分根据否定原假设时,所要接受的其逻辑对立面的假设。也称“研究假设”表示为

H1H1:

<某一数值,

=某一数值或

某一值例如,H1:

<20岁,

=20岁或

20岁备择假设(alternativehypothesis)【例】某地区成年男性中吸烟者占75%。经过戒烟宣传后,进行了抽样调查,发现100名被调查的成年男性中,有63人是吸烟者。原假设与备择假设(例题分析)宣传是否取得了成效?烟民比重是否发生了变化?原假设和备择假设是一个完备事件组,而且相互对立在一项假设检验中,原假设和备择假设必有一个成立,而且只有一个成立因研究目的不同,对同一问题可能提出不同的假设(也可能得出不同的结论)原假设与备择假设(结论与建议)假设检验的原理—小概率事件原理[例]某农贸市场共有摊贩100名.根据以往统计,其中本地居民有10名.现抽样调查10名,发现全是本地居民,问原来的统计结果是否成立.原假设:100名摊贩中只有10名本地人统计量:抽查10名中本地居民人数(计算不要求)假设检验的步骤和两类错误假设检验步骤的总结提出原假设(和备择假设);从所研究的总体中抽出一个随机样本;确定一个适当的检验统计量,并利用样本数据算出其具体数值(提出备择假设);确定一个适当的显著性水平,并计算出其临界值,指定拒绝域;将统计量的值与临界值进行比较,作出决策。假设检验中的两类错误1. 第Ⅰ类错误(弃真错误)原假设为真时拒绝原假设第Ⅰ类错误的概率记为

被称为显著性水平2. 第Ⅱ类错误(纳伪错误)(不要求计算)原假设为假时未拒绝原假设第Ⅱ类错误的概率记为

(Beta)由于非真的状态不唯一,因此

也是不确定的。随着真实m和原假设中m0的的偏离程度而变化,越小,越大。

错误和

错误的关系

N一定时,你不能同时减少两类错误!

的关系就像翘翘板,

就大,

就小假设检验结论的表述写决策和结论时,记住:☆决策是关于H0的。(即拒绝原假设?还是不拒绝原假设)☆结论是关于H1的,即H1的观点是否被支持。假设检验结论的表述拒绝原假设时结论是清楚的例如,H0:

=10,拒绝H0时,我们可以说10。当不拒绝原假设时并未给出明确的结论不能说原假设是正确的,也不能说它不是正确的。例如,当不拒绝H0:

=10,我们并未说它就是10,但也未说它不是10。我们只能说样本提供的证据还不足以推翻原假设。第七章客观题习题PPT《第七章假设检验习题》第8章单总体的假设检验(对应教材第8章)总体均值的检验

(适用条件)

是否已知小样本容量n大

是否已知否t检验否z检验是z检验

是z检验总体均值的检验

(大样本检验方法的总结)假设双侧检验左侧检验右侧检验假设形式H0

:m=m0H1:

m

m0H0:m=m0H1:m<m0H0:

m=m0

H1:

m>m0统计量

已知:

未知:拒绝域总体均值的检验

(小样本检验方法的总结)假设双侧检验左侧检验右侧检验假设形式H0

:m=m0H1:

m

m0H0

:m=m0H1:

m<m0H0:

m=m0

H1:

m>m0统计量

已知:

未知:拒绝域

未知注:

已知的拒绝域同大样本总体比例的检验总体比例检验假定条件(同时满足)总体服从二项分布大样本检验的z统计量

0为假设的总体比例总体比例的检验

(检验方法的总结)假设双侧检验左侧检验右侧检验假设形式H0:

=

0H1:

0H0

=

0H1:

<

0H0

=

0

H1:

>

0统计量拒绝域总体方差的检验

(

2检验)总体方差的检验

(

2检验)

1.假设总体近似服从正态分布2.使用

2分布3.检验统计量样本方差假设的总体方差总体方差的检验

(检验方法的总结)假设双侧检验左侧检验右侧检验假设形式H0

2=

02H1:

2

02H0

2=

02H1:

2<

02H0:

2=

02H1

2>

02统计量拒绝域第8章计算题教材:P254:二、三、四第10章二总体假设检验

(二分变量—二分变量;二分变量—定距变量)(对应教材第9章)两个总体参数的检验z

检验(大样本)独立样本两个总体参数的检验t

检验(小样本)t

检验(小样本)z检验F

检验配对样本均值差比例差方差比两个总体均值之差的检验

(独立大样本)两个总体均值之差的检验

(独立大样本)1. 假定条件两个样本是独立的随机样本正态总体或非正态总体大样本(n1

30和n2

30)检验统计量

12

22

已知:

12

22

未知:两个总体均值之差的检验

(大样本检验方法的总结)假设双侧检验左侧检验右侧检验假设形式H0

:m1-m2=H1:

m1-m2

H0

:m1-m2=H1:m1-m2<H0:

m1-m2=H1:

m1-m2>统计量

12

22

已知

12

22

未知拒绝域两个总体均值之差的检验

(独立小样本)两个总体均值之差的检验

(

12,

22

已知)假定条件两个独立的小样本两个总体都是正态分布

12,

22已知检验统计量两个总体均值之差的检验

(

12,

22

未知但

12=

22)假定条件两个独立的小样本两个总体都是正态分布

12、

22未知但相等,即

12=

22检验统计量其中:自由度:两个总体均值之差的检验

(配对样本)假定条件:两个总体服从正态分布。若原假设

d=0(即

A-

b=0)则

检验统计量配对差的均值配对差的方差两个总体均值之差的检验

(配对样本检验方法的总结)假设双侧检验左侧检验右侧检验假设形式统计量拒绝域两个总体比例之差的检验1. 假定条件两个总体都服从二项分布可以用正态分布来近似

~2.检验统计量检验H0:

1-

2=D0检验H0:

1-

2=D0两个总体比例之差的检验两个总体比例之差的检验

(检验方法的总结)假设双侧检验左侧检验右侧检验假设形式H0

1-

2=H1:

1-

2

H0

1-

2=H1:

1-

2<H0:

1-

2=H1:

1-

2>统计量拒绝域两个总体方差比的检验两个总体方差比的检验

(F

检验)假定条件两个总体都服从正态分布两个独立的随机样本检验统计量两个总体方差比的检验

(检验方法的总结)假设双侧检验左侧检验右侧检验假设形式H0:

12/

22=1H1:

12/

22

1H0:

12/

22=1H1:

12/

22<1

H0:

12/

22=1H1:

12/

22>1

统计量

拒绝域第10章客观题练习判断题1.均值差的抽样误差比各个均值的抽样误差大,是因为它多了一个误差来源。()2.对于小样本,σ12和σ22未知,两样本均值差的抽样服从Z分布。()3.配对样本配对的目的就在于尽可能对实验变量以外的其他独立变量进行控制。()4.两总体方差未知时,可以利用样本的信息检验他们是否可能相等。()5.把样本方差中的较大者放在分子上,那么无论是单侧检验还是双侧检验,F的临界值都只在右侧,这样就可以统一使用右侧检验的方法得出检验的结论。()√×√√√第10章计算题教材:P272一、二、四、五计算题练习题:1、对两所学校学生组织的社会活动获奖情况进行调查,发现甲校共组织60次,有18次获奖;乙校共组织40次,有14次获奖。据此,能否认为乙校获奖次数的比例高于甲校(α=0.05)?2、为研究睡眠对记忆的影响,在两种条件下对人群进行了试验。(1)在早7点放电影,被测者晚上睡眠正常,第二天晚上就电影的50项内容进行测试;(2)在早7点放电影,被测者白天情况正常,同一天晚7点就电影的50项内容进行测试。样本是独立的,每组人数15人,测试结果为:测试1:平均37.2个正确,

S1=3.33,n1=15;测试2:平均35.6个正确,

S2=3.24,n2=15。假定两种条件下总体均服从正态分布,且方差相等,是否认为睡眠对记忆有显著影响(α=0.05)?3、某公司调查了甲居民区的网民(21户)和乙居民区的网民(16户)的平均上网小时数。对这两个独立样本得到的数据是:均值1=16.5小时,

S1=3.7小时;均值2=19.5小时,

S2=4.5小时。是否认为甲居民区的网民(21户)比乙居民区的网民(16户)的平均上网小时数少。(假设上网时间为正态分布,α=0.10)4、对某工段8名工人进行的技能培训前后的产量数据如下所示:工人甲乙丙丁戊己庚辛培训后8687569384937579培训前8087589177827466试问此项培训是否有效?(α=0.05)第11章列联表(对应教材第10章)列联表的检验原假设其中(二)统计量其中关于列联表统计量的讨论对于列联表对于的要求的格数不超过总格数的20%;不能有的情况。否则将导致分析的偏差。

3、列联表的检验是通过频次而不是通过相对频次的比较进行的。4、列联表就其检验的内容来看是双边检验。但从形式上看,很像右侧单边检验。列联强度

适合自变量的不同取值都会影响到因变量的情况;适合实验性研究。

值的非对称性我们介绍的是以x为自变量,y为因变量,用x去预测y,记为.如果以y为自变量,x为因变量,用y去预测x,则为如果x和y的因果关系不明显时,可同时计算这两个系数,取二者的平均值作为x和y相关程度的度量。2、当不知道x和y有关系时来预测y,充分考虑到y值边缘分布所提供的信息。因此不再用众值来对y进行预测,而是用边缘分布所提供的比例来进行预测。1、2、讨论第11章客观题练习1、列联表检验是通过相对频数的比较进行的。()2、由于削减误差比例的概念不涉及变量的测量层次,因此它的优点很明显,用它来定义相关程度可适用于变量的各测量层次。()3、如果众数集中在条件分布列联表的同一行中,系数便会等于0,从而无法显示两变量之间的相关性。()4、两个定类变量间的相关系数范围在[-1,1]间。()×√√×判断第11章计算题教材:P312:二、五第12章等级相关

(对应教材第11章)定序变量之间的相关测量如同定类变量之间的相关测量一样,要注意以下两个个问题:相关关系是否存在?相关程度之强弱。相关关系的方向(不同于定类的)。一、斯皮尔曼等级相关系数

rs取值范围[-1,+1]二、Gamma系数(二)Gamma具有PRE性质(三)当定序变量只有两个等级时

n1n2

n3n4Q系数可以看成是G系数的一个特例。第13章回归与相关(对应教材第12章)相关关系

(correlation)变量间存在着关系,但这种关系是非确定性的。一个变量的取值不能由另一个变量唯一确定当变量

x取某个值时,变量y的取值可能有几个各观测点分布在直线周围

xy(一)什么叫相关关系?相关研究的对象相关关系往往是伴随、共存的关系。当然也不排斥以一方为主的情况,但作为相关关系,一般不再追究孰因孰果。下列几种情况都可以作为相关研究的对象:

w(x,y间的关系,是由于共同的因素w所造成的)xy相关关系的描述与测度

散点图

(scatterdiagram)

不相关

负线性相关

正线性相关

非线性相关

完全负线性相关完全正线性相关

相关系数

(correlationcoefficient)对变量之间关系密切程度的度量对两个变量之间线性相关程度的度量称为线性相关系数,简称相关系数相关系数

(取值及其意义)

r

的取值范围是[-1,1]

|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关

r=0,不存在线性相关关系

-1

r<0,为负相关

0<r

1,为正相关

|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切相关系数的显著性检验相关系数的显著性检验

(检验的步骤)1. 检验两个变量之间是否存在线性相关关系采用

t检验检验的步骤为提出假设:H0:

;H1:

0

计算检验的统计量:

确定显著性水平,并作出决策若t>t

,拒绝H0

若t<t

,不能拒绝H0相关系数的显著性检验

(简化方法)计算r值r与相比较(k=n-2),见附表8拒绝域

一元线性回归回归分析与相关分析的区别1、相关关系往往是伴随、共存的关系。当然也不排斥以一方为主的情况,但作为相关关系,一般不再追究孰因孰果;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化。2、相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x

可以是随机变量,也可以是非随机的确定变量;3、相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。一元线性回归方程

(regressionequation)描述y的平均值或期望值如何依赖于x的方程称为回归方程一元线性回归方程的形式如下

E(y)=+

x方程的图示是一条直线,也称为直线回归方程

是回归直线在y轴上的截距,称为回归常数

是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值误差项e是随机变量:

e反映了除x和y之间的线性关系之外的随机因素对y的影,是不能由x和y之间的线性关系所解释的变异性。

估计的回归方程

一元线性回归中估计的回归方程为用样本统计量和代替回归方程中的未知参数和,就得到了估计的回归方程总体回归参数和

是未知的,必须利用样本数据去估计其中:是估计的回归直线在y

轴上的截距,是直线的斜率,它表示对于一个给定的x

的值,是y

的估计值,也表示x

每变动一个单位时,y的平均变动值

a和b的计算公式

根据最小二乘法的要求,可得求解a和b的公式如下回归直线的拟合优度变差的分解

(图示)xyy{}}

TSSRSSRSSRE1E2E1-E2离差平方和的分解

(三个平方和的关系)TSS=RSS+RSSR总平方和(TSS){回归平方和(RSSR)剩余平方和(RSS){{离差平方和的分解

(三个平方和的意义)总平方和(TSS)反映不知道x与y有关系,估计y的总误差E1剩余平方和(RSS)反映知道x与y有关系,估计y的总误差E2,是通过回归直线进行估计的误差,3.回归平方和(RSSR)反映通过回归直线被解释掉的误差,也称为可解释的平方和判定系数r2回归平方和占总离差平方和的比例反映回归直线的拟合程度取值范围在[0,1]之间

R2

1,说明回归方程拟合的越好;R2

0,说明回归方程拟合的越差判定系数等于相关系数的平方,r2判定系数r2

判定系数的意义它表示当知道x和y有线性的相关关系后,可以改善的预测程度,或可以用x解释掉y的误差.例如:r2=0.75,表示当知道x和y有线性关系后,可以改善预测程度的75%或可以用x解释掉y的75%的误差.显著性检验回归系数的检验

(检验的步骤)提出假设H0:

=0H1:

02.计算检验统计量F确定显著性水平

,并根据分子自由度1和分母自由度n-2找出临界值F

作出决策:若F>F

,拒绝H0;若F<F

,不拒绝H0总结1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论