版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计之都COS Capital Of Statistics人大统计学考研历年真题参考解答精华版 (03-09)2009 年人大统计学专业课初试题参考解答、设第一、二个总体均值分别为 1 与 2 ,样本均值分别为 X1 与 X2 ,样本方差分别为 S12与S22 。 HYPERLINK IN THE NAME OF STATISTICS, UNITE!1统计之都COS Capital Of Statistics构造原假设和备择假设H0 : 1 2 0 H1 : 1 2 0构造统计量。由于两总体方差相等,且均为正态总体,则可以构造如下检验统计量(X1 X2) ( 1 2) t11Sp n1 n2其
2、中S2p22 (n1 1)S12 (n2 1)S22 n1 n2 215 64 35 4953.515 3524 201153.5( )16 364461.82017.3144 7.21113. 计算临界值。给定显著性水平 ,如0.05,计算临界值 t (n1 n2 2) t0.05 (50) ,由于 5030,则 t0.05(50) z0.05 1.645 。4. 做出决策。由于 t 1.8201 1.645 ,故拒绝原假设,即认为 1、 1.对于回归模型 Y X , 的最小二乘估计为:(XX) 1Xy 。现在来看它的期望E( ) E(XX)1Xy (XX) 1XE(y)(XX) 1X E(
3、X)(XX) 1X (X E( )(XX) 1XE( )从上面可以看出,要使 为无偏估计,则必须满足 E( ) 0 ,所以只有当 E( ) 0时,才为有偏估计。2. 使 E( ) 0 的原因:遗漏了关键自变量,即全模型正确时,而我们误用了选模型。用选模型建模时,使 得误差项中含有遗漏自变量的信息,从而期望不为零。证明过程如下 HYPERLINK IN THE NAME OF STATISTICS, UNITE!2统计之都COS Capital Of Statisticsp 证明:假设正确模型为 Y X ,令 X (Xp,Xt),p 。而我们选用了模p t t型Y Xp p 来估计 ,得到 p
4、(XpXp) 1Xpy,则 1 E( p) E(XpXp) 1Xpy 1 (XpXp) 1XpE(y)(XpXp) 1XpXp 1 p(XpXp) 1Xp(Xp,Xt) pt p (XpXp) 1XpXt t从上式可以看出 p 是 p的有偏估计。加入了无关紧要的自变量,即选模型正确,而我们误用了全模型,这样会过度提取 误差项信息,使得估计量有偏。证明过程和上式差不多。这里省略。解决办法:在选择自变量时,对因变量有重要影响的自变量尽量考虑全面,但自变量 又不是越多越好,应该去掉那些对因变量没有影响或者影响很小的自变量。具体实施 办法有前进法、后退法、逐步回归法等。三、是平稳过程,证明如下1E(X
5、t ) E(Acos( t ) Acos( t ) d1 Asin( t ) Asin( t )1 Asin( t )2022Var(Xt ) Var ( A cos( t ) E( A cos( t )2) E(Acos( t )22 2 2 1E( A cos( t)2)A2 cos2( t ) d21A21A2cos(2 t 2 )d A2A22A2sin(2 t 2 ) HYPERLINK IN THE NAME OF STATISTICS, UNITE!3统计之都COS Capital Of Statistics(t,s) cov(Xt,Xs) E(XtXs) E(Xt )E(Xs)
6、21E(XtXs)A2 cos( t )cos( t ) d1A2cos( t s) cos( t t 2 )d1 A2A2 cos( (t s) sin( t s 2 ) 222Acos( (t s)即协方差函数只与 t s有关。由平稳过程的定义知,题中所定义的过程为平稳过程。四、1. 先来估计各层总体的方差。在比例估计中定义Yi 10,第其i它个单元具有所考虑的特征i 0, 其它i 1,2,., N)则可得如下关于总体方差的式子2 1 N 2 1 N 2 2 S2 N1 1 i 1 (Yi Y)2 N1 1 i 1Yi2 N(Y)2N Y(1 Y) N PQN 1 N 1从上式我们可以估计
7、出各层的方差2s1N1 p1(1 p1) 0.5 0.5 0.25, s1 0.5N1 1由于 Nk 很大,故省略系数 Nk 。)Nk 1N2 1N2 p2(1 p2) 0.7 0.3 0.21, s2 0.4583N3 1N3 p3(1 p3) 0.6 0.4 0.24, s3 0.48992. 考虑样本容量为 600的简单随机抽样的方差。在简单随机抽样下总体比例的估计量为600p 300 0.5 180 0.7 120 0.6 0.58估计量方差的估计值为1 v(p)n1pq pq 0.58 0.42n10.00040675993. 考虑奈曼分配的情形。设抽取的样本容量为n ,样本量在各层
8、的分配公式为 HYPERLINK IN THE NAME OF STATISTICS, UNITE!4统计之都COS Capital Of Statistics WhShnh n LWhShh1代入数据得到n10.5 0.5n20.25 0.3 0.4583 0.2 0.48990.3 0.45830.5149nn0.25 0.3 0.4583 0.2 0.48990.2 0.48990.2832nn 0.25 0.3 0.4583 0.2 0.4899 则奈曼分配的估计量方差的估计为n30.2019nL2v(pst)Wh2(1 fh)h1phqhnh 1Wh2 phqh h 1nh 10.2
9、50.210.240.25 0.09 0.04 0.5149n 10.2832n 10.2019n 10.0625 0.0189 0.0096 0.23560.5149n 1 0.2832n 1 0.2019n 1 n计算 n。要使奈曼分层抽样与简单随机抽样有相同估计量方差,则必须满足v(p) v( pst )0.23560.0004067n解得n 579五、略。六、1. 来看 t 的性质E( t) 0var( t ) E( t2) E( t)22xt2cov( t, s) E( t s ) E( t )E( s) 0(t s)由上可看出,该模型违背古典线性回归模型的方差一致性假设,残差存在异
10、方差性。2. 加权最小二乘法。当残差存在异方差时,如果还是用最小二乘法估计参数,会带来严 重的后果,如下 HYPERLINK IN THE NAME OF STATISTICS, UNITE!5统计之都COS Capital Of Statistics参数估计值虽是无偏的,但不是最小方差线性无偏估计;参数的显著性检验失效;回归方差的应用效果极不理想。 鉴于此,我们必须寻求适当的方法对原来的估计方法进行变换,使变换后的估计方法 满足同方差性假设。由于异方差性导致离差平方和nQ( 0, 1)(yi E(yi )2i1中的各项的比重不一样,地位不平等,导致使用普通最小二乘法时,回归线就被拉向方差大的
11、项。而在此题中,残差系列与自变量观测值的平方成正比,即var( t ) 2xt2 因此当我们在平方和各项前面加入一个权重 wi 1/ xi2 时,各项的地位就平等了。从而 克服了普通最小二乘法的弊端,这就是加权最小二乘法。它实施起来简单,原理清晰, 是解决本题最好的方法。七、1. 数据分析。在本题中有三个影响因素:时间、活动空间、安眠药。因变量是老鼠的活 动状态,可以把它看成数值型变量。要研究的是时间、活动空间、安眠药对老鼠活动 状态是否有显著的影响。我的分析思路是:首先,我把数据列成如下的表格吃药后立即记录的数据吃药不吃药关在一起x11jx12 j分开喂养x21 jx22 j吃药后一小时记录
12、的数据吃药不吃药关在一起y11 jy12j分开喂养y21jy22 j吃药后两小时记录的数据吃药不吃药关在一起z11jz12 j分开喂养z21 jz22 j HYPERLINK IN THE NAME OF STATISTICS, UNITE!6统计之都COS Capital Of Statistics其中 j 1,2,.,10 表示老鼠的编号,每个组有 10 只老鼠。 x, y, z 代表时间。其次,对每个表格的数据进行有交互作用的方差分析,通过分析得到活动空间、安眠 药是否对老鼠活动状态有显著的影响,也可得到它们的交互作用是否对老鼠活动状态 有显著的影响。通过在三个观测时间上各自的分析,最后
13、得到安眠药在那个时间点上 的效果最好。2. 分析步骤。(和第八题的步骤差不多,这里就不写了。 ) 注:上述问题属于有重复测量的方差分析问题,它与一般方差分析的不同之处在于它的 时间观测值数据之间不是独立的、是相关的。这里将时间分开来处理,似乎有所不妥, 特此说明,仅供参考。八、1. 本题中职称和性别都是属性变量,满意度是数值型变量,要研究属性变量对数值型的 影响,很自然会想到用方差分析方法,而本题中我们用无交互作用的双因素方差分析 方法。问题提出:在分析一个属性变量对一个数值型变量的影响时,我们把属性变量的各 个水平各看成一个总体,然后比较这几个总体的均值,看它们是否有显著的差异, 如果有显著
14、的差异,则说明在各个水平下得到的数据之间是有差异的,即认为属性 变量对数值型变量有显著影响。在本题中,比如我们要研究性别对满意度有无显著 影响,我们的思路是把男、女两个水平各看成一个总体,然后根据数据设计一种方 法检验它们的均值有无显著的差异,如果没有差异,那么我们认为两总体间的数据 没有什么区别,即满意度差异不大,也即性别对满意度没有影响。基本思想:在方差分析中我们假定因素的各个水平服从方差相等正态分布,这样在 每个总体下抽取样本,由于抽样的随机性,会导致数据的不同,且各水平之间数据 也会不同,我们现在要研究的各水平数据的差异性能完全由抽样的随机性解释吗? 如果可以,我们认为个水平均值没有差
15、异;否则,就有差异。具体的做法是,我们 引进组内误差和组间误差两个概念,它们分别用组内平方和与组间平方和诠释。如 果组间平方和与组内平方和经过平均后的数值相接近,则说明数据间的差异是由抽 样的随机性引起的,不存在系统性差异,即属性变量对数值型变量没有影响。分析步骤提出假设行因素假设H0 : 1 2, 性别对满意度没有影响H1 : 1 2 性别对满意度有影响列因素假设H0 : 1 2 3 职称对满意度没有影响H1 : 1, 2, 3不全相等 职称对满意度有影响构造检验的统计量kr总误差平方和 SST(xij x)2i 1 j 1k rSSR行因素误差平方和 SSR(xi x)2 ,均方误差 MS
16、R SSRi 1 j 1k 1 HYPERLINK IN THE NAME OF STATISTICS, UNITE!7统计之都COS Capital Of Statistics TOC o 1-5 h z k rSSC列因素误差平方和 SSC(xj x)2 ,均方误差 MSC SSCi 1 j 1r 1剩余因素误差平方和 SSE SST SSR SSC,均方误差 MSE SSE(k 1)(r 1)F 统计量MSRMSCFR F(k 1,(k 1)(r 1), FC F(r 1,(k 1)(r 1)MSEMSE统计决策。给定显著性水平,如果 FR F ,则拒绝原假设,说明行因素对观测值有显著的
17、影响;如果 FC F ,则拒绝原假设,说明列因素对观测值有显著 的影响。2. 假定:各个水平对应的总体都服从正态分布;各个总体的方差相同;各观测值是独立的;性别和职称对满意度的影响是独立的,即它们之间没有交互作用。 HYPERLINK IN THE NAME OF STATISTICS, UNITE!8统计之都COS Capital Of Statistics2008 年人大统计学专业课初试题参考解答一、用中位数来描述家庭收入数据的集中趋势有优点亦有不足。1. 中位数是指一组数据排序后处于中间位置的变量值,不受极端值影响,对偏斜程度较 大的顺序或数值型数据代表性较好,所以它能够排除过高收入或过
18、低收入带来的不良 影响。2. 作为描述数据集中趋势的指标,中位数的应用远不及平均值广泛,中位数只是一组数 据中的一个值,因而对整个香港家庭收入信息有较大浪费;而平均值能包含所有收入 信息,而且具有优良的数学性质,不过它易受极端值的影响,主要适用于测度偏斜度 不大的数据。3. 用中位数作为判别低收入的指标,那么低收入的比例一直都是50%,这显然与“比例在增长”相矛盾。二、方差分析表面上是检验多总体均值是否相等,本质上是研究变量间的关系,即通过各总 体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响,其中需要分析数 据变异的来源,所以叫做方差分析。观察到的数据一般是参差不齐的,我们用 S
19、ST(总平方和)度量数据总的变异,将它分 解为可追溯到来源的部分变异 SSE(组内平方和)与 SSA(组间平方和)之和,若后者的 平均 MSA(组间均方)明显比前者的平均 MSE(组内均方)大,就认为自变量对因变量有 显著影响。在方差分析的基本假定下,上述问题形式上就转化为检验各总体均值是否相 等的问题。所谓基本假定就是,各总体服从正态分布;各总体方差相同;各观测值相互 独立。三、有多种预测模型可供选择:1. 时间序列分解模型加法模型: xt Tt St It ;乘法模型: xt Tt St It ;混合模型: xt St Tt It, xt St (Tt It)。其中xt为时刻 t的序列值,
20、 Tt,St , I t分别表示趋势、季节性、随机波动,下同。2. 季节多元回归模型xta0a1tb1Q1b2Q2b3Q3Itt0趋势11 1季节2成分23 3随机波t 动其中 Qi (i 1,2,3) 为 0-1 虚拟变量。3. ARIMA(p,q,d,T) 模型(求和自回归移动平均模型) HYPERLINK IN THE NAME OF STATISTICS, UNITE!9统计之都COS Capital Of Statisticsd(B) T dxt B( ) tE( t ) 0,Var t( ) 2 E , s (t )s 0t ( )E(xs t ) 0s( t )符号说明B 为一阶
21、延迟算子( Bxt xt 1 );(B) 1 1BpBp ( p 0)为自回归系数多项式;(B) 1 1BqBq ( q 0) 为移动平均系数多项式;d (1 B)d 为d 阶差分算子,用于消除趋势成分;T 为步长为周期 T 的 T 步差分算子,用于消除季节成分。四、( 1)厂家从自身利益出发,当然希望每袋平均重量250g ,这样有利于提高产品销量,于是可以把 250g 放在“被保护”的位置,而原假设正具有“被保护”的特性,于 是可提出如下检验假设:H0 : 250gH1 :250g(2)从消费者利益出发,我们担心每袋平均重量250g ,如果要我们相信 250g,那么厂家就得拿出充分的证据来证
22、明,所以250g 应放在“不利”的位置,即放在备择假设中,于是有:H0 : 250gH1 :250g(3)在 0.5的显著性水平和( 2)中的检验假设下, p 0.4297 意味着 250 是显 著不成立的,即拒绝原假设,我们可以相信厂家所言。 p值的含义是当原假设为真时,检验统计量取其实现值以及更极端值的概率,它是 检验的真实显著性水平。(4)这里的区间 (241.1,257.5) 是一个确定的区间,而食品的实际平均重量要么在其中, 要么不在其中,无概率可言。该区间是 95%的随机置信区间的一个实现,后者的意 思是食品的实际平均重量以 95%的概率落入其中。五、经典多元线性回归模型为 HYP
23、ERLINK IN THE NAME OF STATISTICS, UNITE!10统计之都COS Capital Of StatisticsyX其中 y是 n维随机向量, X 是n (p 1)设计矩阵, 是 p 1维系数向量, 是n维随机 误差向量。关于自变量 x1, ,xp 的假设主要有:1. 自变量都是确定性变量。回归分析中的自变量与因变量地位是不等的,其中后者是随 机的,这与相关分析二者都是随机的不同。从而自变量与随机误差(以及因变量)也 就不相关,保证了回归分析理论的顺利进行。2. 自变量不存在多重共线性。 这就要求设计矩阵 X 列满秩,进而观测次数(样本量) n必 须大于自变量个数
24、 p 。该假设保证了 的普通最小二乘估计可表示为? (XX) 1Xy并且具有良好的数学性质, 更方便了进一步的假设检验和回归分析的实际操作与应用。 否则出现多重共线性,就会带来上述诸多方面的麻烦。六、常见的(概率)抽样方式有简单随机抽样、分层抽样、整群抽样、多阶段抽样 和系统抽样,其中简单随机抽样是最基本的,是其他抽样方式的基础。所谓基本抽样 方式,我觉得以不同的标准或不同的思维角度会得出不同的分类方式,比如:1. 如果将整群抽样(通常指一阶)看作特殊的二阶段抽样(二阶段抽样比100%),则有四种基本抽样方式。2. 如果又将分层抽样视为特殊的二阶段抽样(一阶段抽样比100%),则有三种基本抽样
25、方式。3. 如果将系统抽样看作特殊的分层抽样(每层抽一个单元)或者特殊的整群抽样(只抽 一个群),则有四种基本抽样方式。七、贝叶斯判别分析的原理是将贝叶斯统计思想用于判别分析。具体说来,设有 k 个总体 G1, ,Gk ,分别有密度函数 p1( x), ,pk(x)(一般假定总体都服从正态分布,协方差阵都 相等,各均值有显著差异) ,已知出现这 k个总体的先验概率为 q1, ,qk 。我们希望给出 一种判别法,也就是给出空间 Rm的一种划分: D D1, ,Dk ,当 x落入 Di 时,将其判 给 Gi ,使得在该判别法下所带来的平均损失kkECM(D)qi L( j |i)P( j|i)i
26、1 j 1达到最小。其中 L( j | i)为样品来自 Gi而被判给 Gj 的错判损失, P( j |i) pi ( x)dx为错判Dj HYPERLINK IN THE NAME OF STATISTICS, UNITE!11统计之都COS Capital Of Statistics概率。(1)与聚类分析数据都是未知类别的相比,贝叶斯判别分析的数据结构中有一部分数据 是已知类别的,还有一部分属于待判别归类的未知类别的。(2)贝叶斯判别法最终是将样品判给平均损失最小的总体。而其他判别法,比如距离判 别法是将样品判给相距最小的总体;逐步判别法是先选择最优判别变量,再结合其 它判别法进行判别等等。
27、八、(1)建造大坝是一项复杂的工程,要综合水利、建筑、地质、数学、统计等多学科的知 识,要考虑方方面面的因素。就其中坝高设计这一点来说,要考虑的主要因素我认 为有河流宽度与两岸高度、周围地质构造、河水各季度平均流量、地域旱涝特征, 还有建坝的预估资金和时间等等。(2)具体步骤如下:制定计算坝高的详细计划;确定影响坝高的主要指标;充分收集整理指标数据;综合利用各学科知识建立坝高数学模型;检验优化模型;利用模型计算坝高估计值,给出置信度和置信区间。流程图如下: HYPERLINK IN THE NAME OF STATISTICS, UNITE!12统计之都COS Capital Of Stati
28、stics2007 年人大统计学专业课初试题参考解答、(1)需假定总体是正态总体。不能用数据证明。数据至多只能检验该数据的分布是否接近正态分布,而不能从 理论上证明或肯定它一定就来自正态分布总体,即正态性检验不能提供不拒绝正 态性原假设的结论。不是。该区间是确定的区间,要么覆盖真实总体均值,要么不覆盖,没有概率可 言。它是置信度为 95%的随机置信区间的一个样本实现, 后者才是以 95%的概率覆 盖真实总体均值。(2)需假定:总体服从正态分布;总体方差未知;样本量较小(一般30)。不能。“接受零假设”的说法是不妥的,否则就得负责任的给出犯第二类错误的概 率,而该检验的备选假设是“总体均值 4.
29、8 克”,据此是无法算出此概率的。所 以只能说, 在显著水平为 0.05 时利用该数据进行检验不足以拒绝零假设, 不拒绝 不等同于接受。、(1)不是。因为只有员工看到并愿意答复电子邮件时才有机会进入样本,所以每个员工 入样的概率并不一样,这其实是一种非概率抽样。(2)不对。不说实话只是产生响应误差的原因之一,而被调查者与调查者两方面的因 素,都有可能导致响应误差。调查者不当的引导或者问卷设计不科学或者被调查 者知识的局限性,都可能使被调查者对要回答的问题的理解产生偏差,这时候即 使他(她)说了“实话” ,也会产生响应误差,因为这不是我们想要的“实话” 。 另外,拒绝回答也是一种重要原因。随机误
30、差是不可以避免的,因为它是由抽样的随机性造成的,是客观的。(3)整体来说是不独立的。因为同一个网络公司员工加班时间一般是不独立的,而不同 网络公司员工加班时间一般是独立的。、(1)令自驾车上班人数比例为 ,由于不能轻易否定原结论,则检验假设为:H0 : 30%H1 : 30%(2)令样本量为 n ,其中驾车上班人数为 X ,假定 X 服从二项分布 B(n,0.3) ,X 的样 本值为 x0 ,则p值 P X x0 P X 0 PX 1 P X x0检验统计量 Z X / n 0.3 近似 N(0,1) 。0.3(1 0.3)/ n 近似 假定:大样本( X 5, n X 5 );每人驾车上班与
31、否相互独立且服从同参数 0-1 分布。 HYPERLINK IN THE NAME OF STATISTICS, UNITE!13统计之都COS Capital Of Statistics(3)统计上显著并不意味着实际上显著,要具体问题具体分析。比如,某箱牛奶经统计 检验,含三聚氰胺的概率显著低于 5%,但人们未必敢要这箱牛奶; 统计上 0.1 与 0.01 有显著差异的时候,实际中未必有多大意义。不过统计显著与实际显著很多时候是 一致的。四、不负责。一个负责任的调查报告应该给出较详尽的内容,主要如下:主题; 调查时间与地点; 调查主题、客体、对象; 数据搜集方法、抽样框、抽样单元、样本量、抽
32、样方法、估计方法; 结论描述; 精度、质量评估; 责任; 参考文献。五、无道理。如果进行第二次主成分分析,那么它处理的变量是第一次主成分分析得到的 互不相关的主成分,这样得到的“新”的主成分其实跟第一次得到的主成分是完全一 样的,这可以通过矩阵运算进行验证,所以做的是无用功。变量之间相关系数多数较小(一般指 F 临界值 8.65 ,P值 0.000002显著性水平 =0.01,故拒绝 原假设,即认为车速对磨损程度有显著影响。(2)同( 1)之理,可知不同供应商的轮胎之间的磨损程度有显著差异。(3)假设:车速与供应商对轮胎的磨损程度无交互作用; 车速与供应商不同水平组合形成的总体都是正态总体;
33、上述总体方差都相同;各观测数据相互独立;行因素原假设 H0 : 1 5 ( i是总体均值,下同 );列因素原假设 H0 : 1 2= 3。四、简单随机抽样是从单元数为 N的总体中逐个不放回等概率抽取 n 个单元或者一次性随机 抽出 n 个单元,得到简单随机样本。它是最简单的概率抽样方法。适用于总体总量较小 或总体方差与任意局部方差基本相当的场合。 如果总体总量较大或总体各单元差异较大, 就不宜单独使用,因为此时拥有完整的抽样框是困难的,抽样单元也比较分散,会增加 调查费用, 而且会使总体目标量的估计产生较大误差。 所以一般是与其他方法结合使用, 比如分层抽样各层内科采用简单随机抽样,整群抽样抽
34、取群、多阶段抽样各阶的抽样也 都可采用它。五、回归模型: y X 。假设:解释变量为非随机变量; HYPERLINK IN THE NAME OF STATISTICS, UNITE!17统计之都COS Capital Of Statistics 解释变量不存在多重共线性(即要求设计矩阵 X 列满秩,样本量大于自变量个 数);Guass-Markov 假定: E( ) 0, Var( ) 2In ;正态假定: N(0, 2In) 。假设不成立之应对: 假设是回归分析基本要求,否则就不是回归分析; 假设若不满足,就是多重共线性现象。有多种克服方法,比如剔除不重要自变量,增 大样本量,对回归系数进
35、行有偏估计(主成分法、岭回归法、偏最小二乘法等)等等。 假设若不满足,随机误差 有可能出现异方差现象或自相关现象。若是前者,可通过 加权最小二乘法、 Box-Cox 变换法、方差稳定性变换等方法来克服;若是后者,可通过 修改模型、增加自变量、迭代法等方法来克服。 假设若不满足,则无法进行参数区间估计和假设检验。可以重新观测数据或对数据进 行正态性变换。六、意义:该模型表示原始变量被表示为公共因子和特殊因子的线性组合,展现了原始变 量与公共因子之间的相关关系,多数的原始变量( p个)被综合少数的新变量( m 个,m p )公共因子, 起到了降维的效果, 简化了问题的复杂性又抓住了问题的主要 矛盾
36、。假设:a. X 是可观测的随机向量, E(X) 0 ;F 是不可观测的随机向量, E(F) 0,D(F) Im (m p) ;E( ) 0, D( ) diag( 12, , 2p) ;Cov( ,F) 0 。七、( 1)若不考虑国外部门的影响, GDP 被分配于政府、企业、居民三个部门。 (可以对原 始收入形成、初次分配、再分配过程进行一定的阐述)(2)略。八、(1)参看高敏雪, 李静萍. 经济社会统计 M. 北京:中国人民大学出版社 , 2003之 P75-P76 财务统计分析, P78 经济效益考核体系。(2)略。 HYPERLINK IN THE NAME OF STATISTICS
37、, UNITE!18统计之都COS Capital Of Statistics2005 年人大统计学专业课初试题参考解答、(1)图略。(2)图略。(3)由茎叶图和箱线图知,上网者年龄主要集中在 20-30 岁之间,离散程度较小,呈右 偏分布。、若采用两两配对的方式检验,会增加犯第一类错误的概率(设检验水平为 ,连续作 3 次两两检验犯第一类错误的概率为 1 (1 )3 ),另外随着检验次数的增多, 偶然因素 导致差别的可能性也会增加; 而方差分析是同时考虑所有样本, 因而排除了错误的累积, 减少了偶然因素的不利影响,也简化了检验过程。、(1)样本量为 36,可视为大样本,考虑如下 95%的置信
38、区间(x z0.025s/ n,x z0.025s/ n) 代入 x 107,s 29.96 , n 36, z0.025 1.96得(97.22,116.78) (2)不一定。因为区间是一个确定的区间,餐馆实际月平均用水量要么在其中,要么 不在其中,两者只有其一。区间其实是区间的一个样本实现,区间是一个随 机区间,它有 95%的可能性包含餐馆实际月平均用水量。(3)餐馆管理协会估计的月平均用水量 =100 吨是不能轻易否定的,应处于被“保护” 位置,则检验假设为H0 : 100 吨0H1 : 100 吨若拒绝原假设,也就是发生了小概率事件,那么我们有充分的理由支持备择假设; 若不拒绝原假设,
39、并不意味着它就一定正确,只是现有证据不足以拒绝它而已。(4)用到了中心极限定理。它说的是独立同分布随机变量之和的极限分布是正态分布, 揭示了正态分布的源泉和重要地位,是参数区间估计和假设检验的理论基础。四、(1)线性回归方程为y? 207.9037 1.4378x1 0.8545x2 0.0626x3其中第 i (i 1, 2,3)个回归系数 ?i 的意义是,在其它自变量保持不变时, xi 每变动个单位, y 就平均变动 ?i 个单位。(2)由 p 值=0.00 知,回归方程的线性关系是显著的。 HYPERLINK IN THE NAME OF STATISTICS, UNITE!19统计之都
40、COS Capital Of Statistics(3)第 1,2,3个回归系数显著性检验 p 值分别是0.0271 ,0.0083 ,0.3607故第 1,2个回归系数显著,第 3 个回归系数不显著。(4)多重判定系数2R2 SSR/ SST 70090029.08 / 75375973.33 0.93它反映了因变量变异中能用自变量解释的比例,描述了回归直线拟合样本观测值的 优劣程度。此处 R2 0.93 ,表明回归拟合效果很好。(5)估计标准误差SSEsyMSE 480540.39 693.21n p 1sy是 y的标准差的股价,反映了 y (房地产销售价格)的波动程度。(6)有用。虽然该
41、变量的系数没通过显著性检验,但并不意味着该变量没用,它在经济 解释上可能还是有一定意义的,方程总体显著,说明方程包含该变量总体上是有用 的。也可能是多重共线性造成了不显著。五、(1)图略。(2)按照分层的观点,划分子总体应该是两个子总体之间的差异尽量大,而子总体内 部的差异尽量小,故划分方式为:第一个子总体为 Y1 ,第二个子总体为 Y2,Y3,Y4,Y5,Y6,Y7,Y8,Y9, 。但如果要进行精度的计算,不能出现一个总体只含有一个单元的情况,故为了计 算精度,下面的划分方式也是可以接受的:第一个子总体为 Y1,Y8 ,第二个子总体为 Y2,Y3,Y4,Y5,Y6,Y7,Y9, 。 此外也可
42、以应用多元统计中的系统聚类法形成两个子总体:第一个子总体为 Y1 ,第二个子总体为 Y2,Y3,Y4,Y5,Y6,Y7,Y8,Y9, 。(3)上述数据出现了离群值,它是调查数据里的极端值,会于其它数据明显不一致。其 起因一般有三个:被调查者回答有误;调查者记录有误;数据本身的差异。当总体呈偏态分布时,这种情况就可能发生。例如数据是不同 公司的市场份额,那么少数公司占整个销售额的绝大部分,其余公司占小部分的 情况是很普遍的。但是,题目强调了给定的数据是总体的全部真实数据,那么第、种情况是不存 在的,所以应该是第种情况。(4)总体均值 HYPERLINK IN THE NAME OF STATIS
43、TICS, UNITE!20统计之都COS Capital Of Statistics19YYi 2.539 i 1 i总体方差19S2 911 i 1 (Yi Y)2 6.505)在本例应用的四种方法: 简单随机抽样的不足之处在于估计精度略低。 分层抽样的不足之处在于如果按照最优的层内差距尽量小、层间差距尽量大的原则 (2)之)分层会导致精度无法估计,故只能选择次优分层方法( (2)之) 整群抽样的不足之处在于无法通过分群使群间差异尽量小,因为Y1 在任何一个群中 都会使该群与其它群差异较大。 此外整群抽样的估计精度一般也比简单随机抽样低; 系统抽样的不足之处在于估计量方差的估计相对困难。
44、综上所述,尽管各种抽样方式各有不足之处,但是结合下面一道问题,我认为简单 随机抽样、分层随机抽样和系统抽样的不足之处都可以接受,但是整群抽样的不足 之处相对显著,而且整群抽样在下面一道题里计算也非常困难,所以整群抽样最不 合适。6)简单随机抽样可能的样本: (Yi ,Yj ), 1 i j 9 ;样本均值:E(y) Y 2.53 ;样本方差:1f2V(y)S2 2.53 。n分层随机抽样分层方式为( 2 )之。可能样本:(Yi ,Yj ), i 1,8; j 2,3,4,5,6,7,9 ;样本均值:E(yst ) Y 2.53;样本方差:L 1 fV(yst)Wh2h Sh2 0.33。h 1
45、nh系统抽样抽样方式为环形等距抽样( k 4 )。可能样本为:(Y1,Y5),(Y2,Y6),(Y3,Y7),(Y4,Y8),(Y5,Y9),(Y6,Y1),(Y7,Y2),(Y8,Y3),(Y9,Y4)样本均值: E(ysy ) Y 2.53;样本方差: HYPERLINK IN THE NAME OF STATISTICS, UNITE!21统计之都COS Capital Of Statistics2 1 k 2V(ysy) E(ysy Y)2(yr Y)2kr11(Y1Y52.53)2(Y2Y62.53)2(Y9Y42.53) 2 ( 152.53)( 262.53)( 942.53)
46、9 2 2 22.28简单随机抽样 deff1 1 。分层随机抽样 deff2 V(yst ) 0.33 0.13。2 Vsrs(y) 2.53系统抽样 deff3 V(ysy) 2.28 0.90。3 Vsrs ( y) 2.53分层随机抽样和系统抽样的设计效应均小于1,说明这两种方式在此情景下的抽样效率要高于简单随机抽样。此外 deff2 deff3 ,说明分层随机抽样的效率高于系统抽 样。由于 deff2 远小于 1,说明此情形下分层随机抽样的效率远高于简单随机抽样。 而deff3接近于 1,说明系统抽样的效率接近于简单随机抽样。六、联系:形式接近。 y? ?0 ?1x , Ylr y
47、(X x) ; 确定方式接近。回归估计中若 未知,则Lxy 。Lxx区别:目的不同。回归方法揭示因变量和自变量的线性依赖关系,即因变量变化引起的自变量变化。抽样里则是利用辅助变量 X 来提高对 Y 的估计精度。七、生产过程提供了用于分配的增加值。分配在生产的基础上对增加值进行分配。使用在分 配基础上进行消费和储蓄。八、(1)A 地贫困者比重 20%11%9009%2001100010000.415 。20%1%9009%500B 地贫困者比重 10%A 地贫困深度 P1 1 1B 地贫困深度 P2 1 2 1 1000 1000 0.46 。2 2 10%2)A 地贫困者人数比 B地多,但是由
48、贫困深度反映出 A 的贫困人员在整体收入水平上 比 B 地更接近贫困线。 HYPERLINK IN THE NAME OF STATISTICS, UNITE!22统计之都COS Capital Of Statistics(3)不能,贫困者比重仅能反映人数,不能反映贫困程度;贫困深度反映了一定的贫困 程度,但是受贫困情况分布影响较大,不能很好的反映当贫困者的收入存在较大差 异时的情况。 此外仅靠收入状况也不能客观地反映贫困状况。 可以采用森贫困系数, 也可采用其他指标作为补充,如文盲率、婴儿死亡率等等。九、(1)40 ,-70 ,-30。(2)交易中经常账户和资本金融账户的盈余,进入储备资产,
49、也即储备资产增加125 亿元。(3)GDP+来自国外的生产要素净额 =GNP,即 GDP+40=GNP。 GNP+来自国外的转移净收入 =国民可支配收入,即 GNP- 65=国民可支配收入。(4)该国在货物和服务以及财产收入方面有较大的顺差,储备资产增加,多余资金流出 到国外各地投资,取得大量的财产收入,是发达国家的典型表现。 HYPERLINK IN THE NAME OF STATISTICS, UNITE!23统计之都COS Capital Of Statistics2004 年人大统计学专业课初试题参考解答图略。分三方面比较:集中趋势(平均数、中位数、众数) ,离散程度(标准差、方差、
50、极 差),分布形态(峰度、偏斜度) 。可画散点图直观判断;也可计算与均值的绝对距离,看是否偏大。 可画画直方图、 Q-Q 或 P-P 图;也可计算峰度与偏斜度。420,2,1.48;27,142;4256。因为 p值 0.245946 ,F 1.478873 F crit 3.354131 ,所以不能拒绝均值相等的原假设,即认为三种方法组装的产品数量之间无显著性差异。 假定:三种方法对应的总体服从正态分布;各总体方差相同; 各观测值相互独立; 个工人水平相当。前提:方差分析得出总体均值不全相等的结论; 作用:进一步分析到底是哪些均值之间不相等, 是通过总体均值之间两两配对比较来 进行检验的。从
51、袋中任取一球,观察其颜色,定义随机变量1, 取到白球0, 取到黑球X 就是该问题的总体,其分布为1.(1)(2)(3)(4)2(1)(2)(3)(4)3(1)(2)(3)(4)X1p样本量 n 4 。若令 Xi表示第 i次取球的结果,则样本为(X1,X2,X3,X4) ,拒绝域为C (x1,x2,x3,x4)| i 1xi 2, xi 0或1犯第一类错误的概率4.以单因素方差分析说明:141131351C14 10.3125242216C40P 否定H0 |H0为真 Pi41xi 2| p 12 HYPERLINK IN THE NAME OF STATISTICS, UNITE!24统计之都
52、COS Capital Of Statistics由方差分析基本假定,有 xij N( j, 2), i 1, ,nj; j 1, ,k。令 ij xij j N(0, ) , 有 xijj ij 。1 kkkk令总均值 1 nj j (nnj) ,有 nj( j )nj j 0(其中 j称为第 j个水平n j 1j1j1j1的(主)效应,它表示每个自变量对因变量的单独影响) ,得单因素方差分析模型xijj ij , i 1, ,nj ; j 1, ,kij N(0, 2), 各 ij 相互独立ij k ijj 1nj j 0举例略。5. 正态线性回归模型为yX2 N(0, 2In )最小二乘
53、估计就是寻找 ,使得离差平方和2Q( ) y X (y X )(y X )达到最小。由上述模型知y N(X , 2In)似然函数就是随机向量 y 的联合概率密度2f(y; , 2) (2 )n/2 nexp 2(y X )(y X )最大似然估计就是寻找 使得 f (y; , 2 )达到最大,由上式易知,这只需(y X ) (y X )达到最小,这与最小二乘估计殊途同归。证毕。6-10略。 HYPERLINK IN THE NAME OF STATISTICS, UNITE!25统计之都COS Capital Of Statistics2003 年人大统计学专业课初试题参考解答、不能。 GDP
54、 在进行国家间比较的时候采用汇率法,汇率的变动会影响折算后的结果,不 能客观反映经济水平。若按照甲国本币计算, GDP 仅下降 25%,该方法的问题在于汇率 法进行国际比较的局限性: 汇率由多种因素构成;、(1)汇率仅代表国际贸易成分,未代表国内产品; 低估发展中国家的水平。19852001原始收入 =工资+劳动+利息 +财产+营业盈余6265333可支配收入 = 原始收入 +转移支付净额7166555消费支出 =食品+衣着+医疗 +居住6725308、国际收支平衡表原理认为:经常贸易差额 +资本项目差额 +储备资产变动 +误差与遗漏 =0 储备资产变动 = -(经常贸易差额 +资本项目差额 +误差与遗漏 ) 若不考虑误差与遗漏,则该国国际收支为逆差。2)19852001工资和劳动0.850.72各种收入占可支配收入的比例财产0.010.04经营0.010.06转移支付0.120.18恩格尔系数 = 食品支出 /可支配收入0.490.31物质0.870.77各种支出所占比例服务
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 20年后的校园课件
- 三年级音乐采山课件
- 荒坡承包合同
- 《工程造价专业课程》课件
- 部门自查自纠报告范文
- 《团队协作与执行力》课件
- 执行和解协议的完善及民诉法2条的修改
- 2024年度科学研究与技术服务合同2篇
- 文了解居间合同般收费标准
- an en in un 课件教学课件
- 安全生产管理的基本原理
- 绩效考评360度绩效评价表对上级同级下级
- 采购流程及时间节点一览表
- 2019年全国普通高等学校体育单招真题英语试卷(原卷+解析)
- 第1课 口哨与小狗 示范课PPT课件(共9张PPT)
- 命格的计算方法
- 2021年二手车买卖合同协议
- 日本传统颜色表
- 超前钻勘查工程合同
- 磁性功能材料
- 颈动脉斑块科普知识PPT参考幻灯片
评论
0/150
提交评论