人民大学统计学在职题库统计综述答案_第1页
人民大学统计学在职题库统计综述答案_第2页
人民大学统计学在职题库统计综述答案_第3页
人民大学统计学在职题库统计综述答案_第4页
人民大学统计学在职题库统计综述答案_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实用文档%实用文档%实用文档%实用文档%1中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统讣学考试科th统计思想综述考题卷号:1课程代码:考题卷号:1(20分)随机抽取20块手机电池,测得其使用寿命数据如下(单位.小时人10089939981007101110021013999100899598399510009771015101099810051011996列出描述上述数据所适用的统计图形,并说明这些图形的用途。直方图:直观的展示一组数据(电池使用寿命)的分布悄况。箱线图:直观反映原始数据(电池寿命)的数据分布的特征.如偏态,是否冇离群点。(20分)方差分析中有哪些基本假定?这些假定中对哪个假定的要求比较严格?1、方差分析有3个丿念本假定:(1)止态性:每个总体都应服从止态分布,即对于因子的每一个水平,其观测值是来自止态分布总体的简单随机样本;(2)方差齐性:各个总体的方差必须相同;(3)独立性:每个样本数据是来自因子各水平的独立样本2、对独立性要求比较严格,独立性得不到满足会对方差分析结果冇较大影响,对正态性和方差齐性的要求相对比较宽松。三、(20分)某种食品每袋的标准重量是100克,从该批食品中抽取一个随机样本,检验假设Hu:“=100,如果拒绝你的结论是什么?,如果不拒绝你的结论是什么?能否得到一个样本能够证明该食品的平均重量是100克?请说明理山。如果山该样本得到的检验的P=0.03,你的结论是什么?0.03这个值是犯第I类错误的概率,是实际算出来的显著性水平,你怎样解释这个P值?拒绝该种食品每袋的平均觅ft不是lOOg不拒绝弘:提供的样本不能证明该种食品每袋的半均重駅不是lOOg不能,样本得出的结论只能是拒绝或不拒绝原假设,并不能直接确定原假设为真(3)结论:若给定显苦性水平为0.05,则可以拒绝原假设,认为该食品每袋的平均車凰不是100克;但若给定显著性水平为0・01,则不能拒绝原假设P值:如果该种食品每袋的平均磴疑是lOOg,样本结果会像实际观测那样极端或更极端的概率仅为0.03四、(20分)在建立多元线性回归模型时,通常需要对自变量进行四、筛选。请谈谈你对变量筛选的必要性的看法。列出变量筛选的方法,请简要说明这些方法的特点。(1)若将所有的自变量都引入回归模型•往往会导致所建立的模型不能进行冇效的解释,也可能会导致多重共线性,增加自变量还会导致判定系数/增大•从而拓估模型拟合优度。(2)变《筛选有向前选择、向后剔除、逐步回归等方法。特点如下:向前选择:从没有自变量开始,不停向模型中增加自变量,直到增加不能导致SSE显著增加为此向后剔除:从所冇自变量开始,不停从模型中剔除自变屋,直到剔除不能导致SSE显著减小为止。逐步回归:结合向前选择和向后剔除,从没冇自变ft开始,不停向模型中增加自变境,每增加一个自变量就对所冇现有的自变彊进行考察,若某个自变量对模型的贡献变得不显著就剔除。如此反复,直到增加变ft不能导致SSE显苦减少为止。五、(20分)如果一个时间序列包含趋势、季节成分、随机波动,适用的预测方法有哪些?对这些方法做检验说明。可以使用Winter指数平滑模型、引入季节哑变ft的多元回归和分解法等进行预测。(1)Winter指数平滑模型包含三个平滑参数,即gp.Y(取值均在0~1),以及平滑值»、趋势项更新人、季U•项更新h、未来第k期的预测f/iFt+teL为季卩・周期的长度,对于季度数据.L=4>对于月份数据,L=12:1为季1丫涮iY因子。平滑值消除季U•变动,趋势项更新是对趋势值得修正■季H•项更新是I期的季卩•涮整因子,fc+fc=(5,+级儿•屮是用于预测的模型。便用Winter模型进行预测,要求数据至少是按季度或月份收集的,而且需要有四个以上的季肖周期(4年以上的数据)-使用Winter模型进行预测,要求数据至少是按季度或月份收集的,而且需要有四个以上的季节周期(4年以上的数据)。(2)引入季节哑变量的多元回归对于以季度记录的数据,引入3个哑变ftQz、Qz、S其中QfI(第I季度)或0(其他季度),以此类推,则季节性多元回归模型表示为:?=i?0+bM+ @2十 +Ha其中bO是常数项,bl是趋势成分的系数.表示趋势给时间序列带来的影响,b2、b3、M表示每一季度与参照的第1季度的平均差值。(3)分解预测第1步,确定并分离季节成分。计算季节指数,然后将季节成分从时间序列中分离出去・即用每一个时间序列观测值除以相应的季节指数以消除季节性。第2步,建立预测模型并进行预测。对消除了季节成分的时间序列建立适当的预测模型,并根据这一模型进行预测。第3步,讣算出最后的预测值。用预测值乘以相应的季节指数,得到最终的预测值。2中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统讣学考试科th统计思想综述考题卷号:2课程代码:考题卷号:2(20分)在某小学随机抽取35名小学生,调査他们每周购买零食的花费情况9得到的数据如下(单位:元):24172629386284439830172632401020274333154283526472517264516362937列出描述上述数据所适用的统计量,并说明这些统计量的用途。半均数:用于度最对象的一般水平。中位数(分位数):用中间(某个)位置上的值代表数据水平,也用于度量对象的一般悄况,且不受极值的影响具冇稳定性。方差(标准差):用于描述一组数据的差异水平,越大说明数据的分布越分散不稳定。偏态系数:用于描述数据分布的不对称性,越接近0越对称。峰度系数:用于描述数据分布峰值舟低,大于0为尖峰,小于0为扁平分布。(20分)简要说明『分布和F分布在推断统讣中应用。t分布:X.止态总体标准差未知时•在小样本的条件下对总体均值的佔讣和检验要用到t分布。描述样本均值分布,用于对两个样本均值差异进行显著性测试.佔算置信区间等。F分布:通常用于比较不同总体的方差是否冇显著差异。应用于方差分析、协方差分析和回归分析等,还可用于似然比检验。三.(20分)什么是P值?要证明原假设不正确,如何确定合理的P值?P值:犯第I类错误的tt实概率,也称观察到的显苦性水平。是X原假设为tt时,得到的样本结果会像实际观测结果这样极端或者更极端的概率。若要证明原假设不止确,则山样本得到的P值应小于给定的显著性水半。四、(20分)某企业准备用三种方法组装一种新的产品,为四、确定哪种方法每小时生产的产品数量最多,随机抽取了30名工人,并指定每个人使用其中的一种方法。通过对差异源SSdfMSFP-value每个工人生产的产品数进行方差分析得到下面的结果:方差分析表

组间2100.24594•)组内3836——总汁2———完成上面的方差分析表。组装方法与组装产品数量之间的关系强度如何?若显著性水平a=0.05,检验三种方法组装的产品数量之间是否有显著差异?差异源SSdfMSFP-value组间2*210=4201-1=22102100.24594142.07组内383630-3=27營=142.07——总汁420+3836=425629———(2)从P值来看,组装方法与组装产品数畐之间的关系强度较弱。(3)原假设:三种方法每小时组装的产品数杲没冇差异若显著性水半为0.05,则P>0・05,因此不能拒绝原假设,即不能证明三种方法组装的产品数最之间冇显著差异。五、(20五、(20分)简要说明分解预测的基本步骤。第1步,确定并分离季节成分。il•算季节指数,然后将季节成分从时间序列中分离出去,即用每一个时间序列规测值除以相应的季节指数以消除季节性。第2步,建立预测模型并进行预测。对消除了季节成分的时间序列理立适X的预测模型,并根据这一模型进行预测。第3步dl•算出最后的预测值。用预测值乘以相应的季节指数,得到最终的预测值。3中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统讣学考试科th统计思想综述考题卷号:3课程代码:考题卷号:3(20分)在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表:处名国累预賊嬪决赛10枪成绩(环)約皓狮46杰林魁俄罗斯39110.08,510.010210610,58・8979,593郭文培中国59010.010,610410410110,36,410J10,897車格日渤箭5翩珠a験古J879.310.0578.39.29.58.510.79.29.2妮诺萨卢5瓦译格會盲亚3868,810310.09.510210710,410,69.110.8錐多利亚橐卡6俄罗斯3&48.39410410110210,5S.210,59,88.8莱万多夫斯卡萨贡波兰3848.110J329.99810,43£9,410J9.6巫奇昨亚m10J9,69J9.993ai6710,09J9.9米拉内方苏芬兰JW8.79.39.210.39.810.09.79.99.99.7要对各名运动员进行综合评价,使用的统讣量有哪些?简要说明这些统汁量的用途。(1) 集中趋势:指-组数据向某■中心(吃靠拢的程度,它可以反映选于射击成绩中心点的位置半均数:-组数据相加后除以数ffi的个数得到的结果。若各组数据在组内是半均分布的,则计算的结果还是比较准确的,否则误差会比较大。(如中国选于发挥很稳定,适合使用平均数判断其成绩)中位数:■组数据排序后处丁中间位置上的变吊值,但不受极端值的影响。(如波弋选于大多数成绩比较平均,但冇•枪打到8.1,会严虫影响其平均值,但不会影响中位数)(2) 离散程度:各变呆值远离其中心值的程度,它可以反映选于发挥的稳定性标"E咎:方差的半方根,能够很好的反映出数据的离散e度,若选手的半均成绩差异不大,可以通过直接比较标准差的方式进行衡量离散系数:一组数据的标准差与其相应的平均数之比,离散系数越大则数据的离散程度也大,若选手的平均成绩差异很大,则需要讣算离散系数比较稳定性极差:一组数据的最大值与最小值之差,它容易受极端值的影响,不能反映中间数据的分散悄况,但可从另一方面选手是否存在发挥异常分布形状峰态:峰态是对数据分布平峰或尖峰程度的测度,'*1K>0时为尖峰分布,数据的分布更集中;'*iK<0时为扁平分布,数据的分布越分散。通过对选手的峰态分布悄况分析,可看出成绩分布是否平均。偏态:偏态是对数拯分布对称性的测量,若偏态系数明显不等于0,表明分布是非对称的,偏态系数的数值越大,表不偏斜的程度越大。通过对选手的偏态分布悄况悄况分析,可看出选手成绩分布是否对称,是否受比赛时Z影响。二、(20分)为什么说假设检验不能证明原假设正确?假设检验的I」的主要是收集证据拒绝原假设,而支持你所倾向的备择假设。因为假设检验只提供不利于原假设的证据(证据的强弱取决于P值的大小)。因此,“1拒绝原假设时,表明样本捉供的证据证明它是错误的;半没冇拒绝原假设时,我们也没法证明它是正确的,因为假设检验的程序没有提供它正确的证据。假设检验得出的结论都是根据原假设进行阐述的。我们要么拒绝原假设,要么不拒绝原假设I不能拒绝原假设时,我们也不能说“接受原假设”,因为没冇足够的证据拒绝原假设并不等于你已经证明了原假设时真的,它仅仅意味着LI前我们还没有'足够的证据证明原假设,只表示I」前的样本提供的证据还不足以拒绝原假设。(3>假设检验通常是先确定显著性水半a,这等于控制了第I类错误的概率;但犯第II类错误的概率卩却是不确定的。在拒绝H0时,犯第丨类错误的概率不超过给定的显著性水平a;、“|样本结果

显示没冇充分理山拒绝原假设时,也难以确定第II类错误发生的概率。因此,在假设检验中采用“不拒绝H0”而不采用“接受H0”的表述方法,这样在多数场合下便避免了第H类错误发生的风险。(20分)为估计公共汽车从起点到终点平均行驶的时间,一26分钟,标准差为8分钟。26分钟,标准差为8分钟。(1)(2)(3)说明样本均值服从什么分布?依据是什么?计算平均行驶时间95%的置信区间。解释95%的置信水平的含义。(^0.05=1・645»2()025=1'96*?0Q5=1•860*心.。”=2.306)样本均值服从止态分布.通过中心极限定理:设从均值为方差为(有限)的任怠-・个总体中抽取样本量为n的样杠Xn充分大时,样本均值的抽样分布近似服从均值4方差人的山态分布。一般统计学中的nN30为大样本,本题中抽収了36个样本,因此样本均值服从止态分布。已知n=36,5^26,s=8,置信区间95%所以z呼西竺=1.96平均行驶时间95%的置信区间为:x±z.^=26±1.96ox±z.^=26±1.96丁詁=26±2・61即(23.39,28.61)-•般地•如果将构造置倍区间的步骤巫复多次,置信区间中包含总体参数真值的次数所占的比例称为賈信水平。如果用某种方法构造的所冇区间中冇95%的区间包含总体参数的K值,5%的区间不包含总体参数的真值,那么用该方法构造的区间称为置信水平为95%的置信区间<四、(20分)设单因素方差分析的数学模型为:儿=“+%+勺。解释这一模型的含义,并说明对这一模型的基本假定。单因素方差分析指的是只冇一种处理因素在影响结果,或者说只冇一个自变量在影响因变量的悄况。(1)设任何一次实验结果都可以农示成如下形式:Yi二u+ei其中Yi是第i次实验的实际结果,口是该结果的最佳佔汁值,其实就是总体均值,£i是均值和实际结果的偏差也就是随机误差(2)假定Ei服从均值为0,标准差为某个定值的止态分布,把以上形式按照方差分析进行推广,假设我们要研究儿种水平之间的差异,每种水半抽取一定样本并收集相关数据,那么模型公式可以表示为:Yij二ui+eij其中Yij是第i组水平的第j个样本的实际结果,Ui是第i组的均值,£ij是第i组第j个样本相对于实际结果的偏差。同样假定£1服从均值为0,标准差为某个定值的止态分布,如果这i组水平没冇差异,则Yij应等于总体均值加上随机误差项。(3)为了方便统i|•推断,模型公式改为如下形式:Yij=U+ai+eij其中U农示不考虑分组时的总体均值,ai表示第i组的附加效应,即在第i组时的均值改变悄况,例如aiFO,表示第i组的均值要比总体均值多W,如果这i组均值并无差显,那么«1=02=«3=.....=ai,反之则不等,据此我们可以建立假设:H0:i取任意值时,ai=0Hl:i取任意值时,至少冇一个aiOO结介差异分解的方差分析思路,我们发现ai实际上就是处理因素导致的差异。五、(20分)在多元回归中,判断共线性的统计量有哪些?简要五、解释这些统汁量。自变量间的相关系数矩阵:如果相关系数超过0.9的变最在分析时将会存在共线性问题。在0.8以上可能会冇问题。但这种方法只能对共线性作初步的判断,并不全面。容忍度(Tolerance):以毎个自变量作为应变量对其他自变彊进、行回归分析时得到的残差比例,大小用1减决定系数来表示。该指标越小,则说明该自变量被其余变量预测的越精确,共线性可能就越严虫。方差膨胀因子(Varianceinflationfactor,VIF):VIF.=1/(1-Ej)j=1,2,…,也其中斤;为兀与其余(m-l)个自变量线性回归的决定系数。值越大,多克共线程度越严血4、特征根(Eigenvalue):主要包括条件指数和方差比。条件指数是锻大特征根与每个特征根之比的平方根。十对应的方差比大于0.5时,可认为多元共线性严重存在4中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统讣学考试科th统计思想综述考题卷号:4课程代码:考题卷号:4<20分)在2008年8月10日举行的第29届北京奥运会男f10米气手枪决赛中,最后获得金牌和银牌的两名运动员10枪的决赛成绩如下表所示:运动员决赛成绩庞伟9310310.510.310410310710.41079・3秦钟午9・59・910.610.39・410,210J10.89・99・8根据上表计算的韩国运动员秦钟午的平均环数是10.05环,标准差是0・445环。比较分析哪个运动员的发挥更稳定。平均数、标准差:庞伟的平均环数二10.22环,标准差是0.507;秦钟午的平均环数二10.05环,标准差是0.-1-15环,山于庞伟的平均环数明显大于秦钟午,因此只比较标准差不能说明二人的稳定性中位数:庞伟的中位数=10.35,秦钟午的中位数二10,同样可以看出庞伟的成绩更优秀一些极差:庞伟的极差=1.4,秦钟午的极差二1.4,两者极差相同离散系数:庞伟的离散系数=0.0496,秦钟午的离散系数=0.0443综上所述,选于庞伟的成绩更优秀,但秦钟午的发挥更稳定.(20分)什么是统计意义上的显著性?为什么说统计上显著不一定就有现实意义?在假设检验中,拒绝原假设称样本结果在“统计上是显著的";不拒绝原假设则称结果是“统计上不显著的"。“显吾的"

在这里的意思是指非偶然的,它表示这样的样本结果不是偶然得到的,同样,结果是不显著的则表明这样的样本结果很可能是偶然得到的。在进行决策时,我们只能说P值越小,拒绝原假设的证据就越强,检验的结果也就越显著。YP值很小而拒绝原假设时,并不一定意味着检验的结果就有实际意义。因为在假设检验中的“显著”仅仅是“统汁意义上的显著”。P值与样本的大小密切相关,样本最越大,检验统计最的值也就越大,P值就越小,就越可能拒绝原假设。因此,十样本量很大时,解释假设检验的结果需要小心,因为在大样本悄况下,总能把与假设值的任何细微差别査出来,即使这种差别儿乎没冇任何实际意义。因此,在实际检验中,不能把“统计意义上的显著性”与“实际意义上的显著性”混同起来。(20分)简要说明判断一组数据是否服从正态分布的统计方法。图示法P-P图以样本的累计频率作为横坐标,以按照正态分布汁算的相应累计概率作为纵坐标,以样本值表现为直角坐标系的散点。如果数据服从正态分布,则样本点应用绕第一象限的对角线分布。Q-Q图(频率直方图)是否以钟型分布,同时可以选择输出止态性曲线。以样本的分位数作为横坐标,以按照止态分布讣算的柑应分位点作为纵坐标,把样本表现为直角坐标系的散点。如果数ffi服从正太分布,则样本点应围绕第一象限的对角线分布。(频率直方图)是否以钟型分布,同时可以选择输出止态性曲线。直方图判断方法:箱线图观察矩形位置和中位数,若矩形位于中间位置且中判断方法:位数位于矩形的中间位置,则分布较为对称,否则是偏态分布。观察矩形位置和中位数,若矩形位于中间位置且中茎叶图判断方法:观察图形的分布状态,是否是对称分布。

(2) 偏度、峰度检验法峰态:尖峰分布,越分散。偏态:峰态是对数据分布平峰或尖峰程度的测度,'*1K>0时为数据的分布更集中;'*(2) 偏度、峰度检验法峰态:尖峰分布,越分散。偏态:偏态是对数据分布对称性的测昴,若偏态系数明显不等于0,表明分布是非对称的,偏态系数的数值越大,表示偏斜的程度越大。偏态是对数据分布对称性的测昴,若偏态系数明显不等(3) 非参数检验非参数检验方法包括Kolmogorov-Smirnov检验(D检验)和Shapiro-Wilk(检验)1样本数X<2000时,shapiro-w订k的甲统汁虽检验止态性;"1样本数N>2000时,KoImogor0v-Smirnov的D统讣虽检验正态性:检验时,根据样本汁算…个统计量即检验统计彊D。它把样本分布的形状和止态分布相比较,比较得出一个数值P(0<p<b即实际的显苫性水平)来描述对这个想法的怀疑程度。如果P值小于给定的显著性水半,则拒绝原假设,认为数据不是来自正态分布,反之则认为数据来自止态分布。正态分布的拟合优度检验如PearsonX:检验、对数似然比检验四、(20分)国家统计局日前对地区的划分中,将我国31个省市自治区划分为东部地区、中部地区、西部地区、东北地区。四、(1) 要分析四个地区的平均消费水平是否存在显著差异,所

用的统汁方法有哪些?这些方法的区别是什么?(2) 你会选择什么方法进行分析?你的假设是什么?(1)可两两之间进行t检验或4组数据进行方差分析。T检验:两独立样本t检验(twoindependentsamplest-test),乂称成组t检验。适用于完全随机设计的两样本均数的比较,其1」的是检验两样本所来自总体的均数是否相等。完全随机设汁是分别从不同总体中随机抽样进行研究,即本项I」中从不同地区随机抽样进行研究相符合。单因素方差分析:研究一个分类型自变昂对一个数值型因变虽的影响,如本项I」中就是硏究四个不同地区对平均消费水平的影响。区别:T检验属「均值分析,它是用来检验两类母体均值是否相等。均值分析是来考察不同样本之间是否存在差异,即两个不同地区之间消费水平是否存在显暑:差异;而方差分析则绘评佔不同样本之间的差异是否山某个因索起上要作用,即消费水平的显苦差异;&否是111地区不同引起的.并且通过单因素方差分析只能得出4组数据皑否存在显着差异,并不能得出具体是哪儿个地区之间冇显著差异。Kruskal-Wallis检验。用于检验多个独立总体是否相同的一种非参数检验方法。原假设:四个地区平均消费水平相等,备择假设:四个地区平均消费水平不全相等。不需耍方差分析的正态分布H方差相等的假设。该检验可用于顺序数据也可用丁•数值型数据(2)我选择用单因索方差分析,因为本项1」共分为可组数据,只要求分析他们之间是否存在显苫差异,并不用确定具体差异如何存在的。原假设为:四个地区之间的平均消费水平没冇显著差异。若最终拒绝原假设,则说明四个地区之间的平均水平存在显著差异。即证明了题1」中的要求.因为对四个地区的分布和方差未知,选择非参数方法。五、(20分)一家房地产评估公司想对某城市的房地产销售价格五、y(元/m2)与地产的评估价值山(万元)、房产的评估价值七(万元)和使用面积心(m2)建立一个模型,以便对销售价格作出合理预测。为此,收集了20栋住宅的房地产评佔数据,山统计•软件给出的部分回归结果如下(显著性水平为95%):方差分析dfSSMSFSig.回归387803505.4629267835.1546.703.879E-08残差1610028174.54626760.91总计1997831680Coefficients标准误差tStatP-valueIntercept14&7005574.42130.25890.799XVariable10.81470.5121.59130.1311XVariable20.8210.21123.88760.0013XVariable30.1350.06592.05030.0571对所建立的回归模型进行综合评价。(1)线性回归方程为y=148.7005+0・8147心+0.8212%2+OlSSxg其中第/(2123)个回归系数的意义丿4在其它自变量保持不变时,片每变动一•个单位,y就平均变动A个单位。例如在房产的评估价值和使用面积都不变的帖况下,地产的评估价值每上升1万元,房地产销售价格就上升8M7▲兀。(2)设a=0・05,IIIplYt=3.879*10"®<<z知,回归方程的线性第1,2,3个回归系数显着性检验卩值分别址0.1311>«.0.0013a・0.0571>«故第2个回归系数显著,第1、3个回归系数不、显普:。多巫判定系数R"=—=87803505.46=。朋了厶SST97S31680它反映了因变量变异中能用自变昴:解释的比例,描述了回归也线拟合样本观测值的优劣程度。此处R2=0.8975,农明回归拟合效果很好。佔讣标准误差JSSE =QmSE=V626760.91=791.68n-p一1片是y的标准差的佔ih反映了y(房地产销售价格)的波动程度。(6)冇用。虽然该变最的部分系数没通过显著性检验,但并不意味着该变量没用,它在经济解释上可能还是有一定意义的,方程总体显著,说明方程包含该变量总体上是有用的。也可能是多虫共线性造成了不显著。5中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统讣学考试科th统计思想综述考题卷号:5课程代码:考题卷号:5(20分)为研究大学生的逃课悄况。随机抽取350名大学生进行调査,得到的男女学生逃课情况的汇总表如下。是否逃课男女合计逃过课8488172未逃过课78100178合计162188350这里涉及的变量有哪些?这些变量属于什么类型?涉及的变屋冇性别、是否逃课。是否逃课及性别为分类型变量・不同性别的逃课和非逃课人数,为数值变量。(2)描述上述数据所适用的统讣图形有哪些?可以用条形图、复式条形图,饼图、复式饼图,环形图。(20分)现从一批零件中随机抽取16只,测得其长度(单位:厘米)如下:TTi143148146i?2148丽14614.8 15.1 15.3 14.7 15.0 15. 15.1 14.7(1)如果要使用/分布构建零件平均长度的置信区间,基本的假定条件是什么?在小样本(n<30)情况下,对钟体均值得估计都是建立在总体服从正太分布假设前提下。当正态总体的5未知,样本均值经过标准化后服从自由庚为nJ的t分布,用样本方差S2代替总(2)构建该批零件平均长度的95%的置信区间。样本均值平均长度为X=14.9■95%的S倍区间为X土人・叨(《-1)$/亦=14・9±2・131x0・247656/4=14・9±0・132(1477,15.03)(3)能否确定该批零件的实际平均长度就在你所构建的区间内?为什么?(注:如⑺一1)=匕25(15)=2」31)不能.因为该样本所构造的是一个特定的区间,不再是随机区间。只能说在95%董倍水平下,该区间是大畳包含奠值的区间中的一个。也可能是少数几个不包含参数真值的区间中的一个。(20分)在假设检验中,当不拒绝原假设时,为什么一般不采取"接受原假设"的表示方式?假设检脸的目的主要是收集证据拒绝原假设,而支持你所倾向的备择假设。因为假设检验只提供不利于原假设的证据假设检脸得出的结论都是根据原假设进行阐述的。当不能拒绝原假设时,我们也从来不说“接受原假设”,因为没有证明原假设是貞•的。没有足够的址据拒绝原假设并不等于你已经“证明”了原假设是真的,它仅仅总为着目前还没有足够的证据拒绝原假设,只表示乎头上这个样本提供的证据还不足以拒绝原假设。“不拒绝”的表述方式实际上总味着没有得出明确的结论假设检验中通常是先确怎显著性水平,这就等于控制了第I类错误的概率,但犯第1【类错误的概率却是不确定的。

四、(20四、(20分)简要说明r分布在统计中的应用。卡方分布应用很广.常用于假设检验和宜倍区间的计算•比如应用到独立性检验中,同质性检验、适合性检验等等独立性检验:主要用于两个或两个以上因素多项分类的讣数资料分析,也就是研究两类变量之间的关联性和依存性问题拟合优度检验:检脸单个多项分类名义型变量并分类间的实际观测次数与理论次数之间是否一致的问题同质性检验:检验两个或两个以上总体的某一特性分布,也就是乞“类别'•的比例是否统一或相近适介性检验:检验某一类分类资料所在总体的分布是否符介某个假设或理论的分布【感觉简答题可以适当写多点・也可以只说检验名字】五、(20五、(20分)简要说明解决多元回归中共线性的方法。变量的选择方法:向前选择、向后剔除、逐步回归。2:岭回归方法:有偏估计3:主成分分析:降维,提取信息4:偏最小二乘回归法:原理•与主成分方法相似2:岭回归方法:有偏估计3:主成分分析:降维,提取信息4:偏最小二乘回归法:原理•与主成分方法相似6中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统讣学考试科th统计思想综述考题卷号:6课程代码:考题卷号:6(20分)一家电视台为了解观众对某档娱乐节U的喜欢程度,对不同年龄段的男女观众进行了调査,得到喜欢该档娱乐节U的观众比例(单位:%)如下:年龄段男性女性20岁以下5620—30岁253230—40岁161540—50岁121250岁以上68(1)这里涉及的变量有哪些?这些变量属于什么类型?有分类变疑和数暈变量。分类变量有性别,年龄段。数量变量有各年龄段的男女人数。(2)描述上述数据所适用的统讣图形有哪些?可以用条形图和饼图【宜方图用于连续变戢的这里最好不用】(20分)假定总体共有1000个个体,均值a=32,标准差b= 从中抽取容量为100的所有简单随机样本。样本均值戈的期望值和标准差各是多少?得出上述结论所依据的是统计中的哪一个定理?请简要叙述这一定理。样本均值的期望值为32,标准差为0.5是中心极限圮理,理如下设从均值为P、方差为0*2:(有限〉的任意一个总体中抽取样本量为n的样本."in充分大时,样本均值的抽样分布近似服从均值为U.方差为0*2/n的正态分布(20分)在假设检验中,利用P决策与利用统计量决策有什么不同?P值:如果能把犯第I类错课的竟实概率算出来•就可以宜接用这个概率做出决策。而不需要管什么事先给窪的显著性水平U,这个犯第【类错误的貞•实概率就是P值。统il虽检验是根据事先确定的显著性水平《用成的拒绝域作出决策,不论检验统汁量的值是大是小,只要把它落入拒绝域就拒绝原假设乩否则就不拒绝H。这样•无论统il量落在拒绝域的什么位置,你也只能说犯第一错i吳的概率为。,而用P值检验则能把犯第】类错误的貞•实概率算出来9P值决策优于统计量决策.P值决策提供了更多的侣息。四、(20分)简要说明方差分析的基本原理。四、方差分析被解释为检脸多个总体均值是否相等的统计方法,这种解释侧重于方遼分析的过程和形式。本质上,方差分析研究的是分类自变量对数值因变量的影响方差分析总的思想是通过计算来比较因某一特定因素带来的样本值的差异与随机偶然因素对样本值的差异的大小,从而判断该因素对总体是否有统讼意义

五、(20五、(20分)比较说明指数曲线和直线的异同。一、相同点:指数曲线模型和直线模型都可以对时间序列进行拟合;都可以进行参数佔计和假设检验;都可以对于未来的时点进行预测。不同点:1、直线为线性的,指数曲线为非线性的。2、两者适用于不同特点的时间序列;线性趋势是时间序列按一个固定的常数(不变的斜率)增长或下降,指数曲线是时间序列各期观察值按一定的增长率增长或衰减;两者的模型表达式不同;4、系数的求解方法不同。直线用最小一乘法求得。指数曲线,需先采取线性化手段将其化为对数直线形式,根据最小一乘法,求解出系数的对数,再取其反对数。5、两者的预测方法不同,直线趋势可以用Holt指数平滑和一元线性回归法预测,指数曲线可以用指数模型来预测。7中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统讣学考试科th统计思想综述考题卷号:7课程代码:考题卷号:7(20分)一项关于大学生体重状况的研究发现,男生的平均体重为60kg,标准差为5kg;女生的平均体巫为50kg,标准差为5kg。请回答下面的问题是男生的体重差异大还是女生的体重差异大?为什么?粗略地佔计一下,男生中有百分之儿的人体重在55kg到65kg之间?粗略地佔计一下,女生中有百分之儿的人体重在40kg到60kg之间?(1)女生的体觅差异大。男生体巫的离散系数是VI=5/60=0.083女生体虫的离散系数是V2=5/50=0・l离散系数大的离散程度也就大,V2>VL因此.女生的体巫差异大(2)设男生的体虫为XhXi-N(60,5-)设Z,=(Xr60)/5男生体重在55kg到65kg之间的概率为R则P(55<X<65)=P(-1<乙Q)=68%因此,男生冇68%的体屯在55~65kg之间。(3)设女生的体重为X汽则XxN(50・52)・设乙=(X2-50)/5•则Z2~N(ai)P(4O<X2<6O)=P(-2<Z2<2)=95%故女生冇95%的体制在40、60kg之间。(20分)叙述评价估讣量的标准。评价佔讣疑的标准主要有3个。<1>无偏性。无偏性是指佔讣暈抽样分布的期望值等+被佔讣的总体参数。设总体参数为C所选择的佔讣疑为,如果则称&'为&的无偏估计量。<2>冇效性。有效性是指佔lift的方差尽可能小。一个无偏佔计量并不总味着它就非常接近被佔计的总体参数,佔计量与参数的接近程度是用佔讣量的方差来度量的。对同一总体参数的两•个无偏佔讣虽•有更小方差的佔讣量更冇效。<3:>—致性。一致性是指随着样本暈的增大,点估讣最的值越接近总体参数。一个大样本给出的估讣鼠要比一个小样本给出的佔讣暈更接近总体的参数。样本均值的标准误差<7[=<7/石与样本最的大小有关,样本母越大,a:的值就越小。因此,大样本疑给出的佔讣屋更接近总体均值b从这个怠义上来说,样本均值是总体均值的一个一致佔讣童。(20分)一家房地产开发公司准备购进一批灯泡,公司打算在两个供货商之间选择一家购买,两家供货商生产的灯泡使用寿命的方差大小基本相同,价格也很相近,房地产公司购进灯泡时考虑的主要因素就是使用寿命。其中一家供货商声称其生产的灯泡平均使用寿命在1500小时以上。如果在

1500小时以上,在房地产公司就考虑购买。山36只灯泡组成的随机样本表明,平均使用寿命为1510小时,标准差为193小时。如果是房地产开发公司进行检验,会提出怎样的假设?请说明理山。如果是灯泡供应商进行检验,会提出怎样的假设,请说明理山。设灯泡的平均使用寿命为《Ho:u>1500(使用寿命符合标准)Hi:u<1500(使用寿命不符合标准)房地产开发公司倾向于证明灯泡的使用寿命小于1500个小时。因为这会损害公司的利益(如果房地产公司非常相信灯泡的使用寿命在1500小时以上,也就没有必要抽检了)通常备择假设用于表达研究者倾向于支持的看法,因此,备择假设为u<1500小时,原假设为1*1500。(2)设灯泡的半均使用寿命为11・H(}:IIH(}:II<1500Hl:u>1500灯泡供应商倾向于支持灯泡的使用寿命大于1500小时,所以备择假设为:u>1500;原假设为:U<1500四、(20分)什么是判定系数?它在回归分析中的主要作用是什四、1•判定系数是对佔讣的回归方程拟合优度的度暈。引起y值变化的这种波动称为变差。变差主要冇两种:一是自变•lx的变化引起y变化•这部分的平方和称为回归平方和;一是除X以外的其他随机因素导致y变化,这部分变差的平方和称为残差平方和。变差的平方和=回归的半方和+残差的平方和判定系数(R2)=回归的平方和(SSR)/变差的平方和(SST)2•判定系数测度了回归直线对观测数据的拟合程度。回归直线拟合的好坏取决于SSR/SST比值的大小。各观测点越嵩近直线•值越大,直线拟合的越好;值越小,直线拟合的越差。五、 (20分)说明f分布的适用条件,如何判断某个过程产生的数据满足这一条件?1J"I正态总体的标准差未知时,在小样本的条件下对总体均值的佔讣和检验要用到t分布2•正态性:可以划出样本数据的直方图和茎叶图或者P-P图,Q-Q图检脸数据的正态性小样本:当样本的数呈小于30个・当成小样本处理8中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统讣学考试科th统计思想综述考题卷号:8课程代码:考题卷号:8(20分)在金融证券领域,一项投资的的预期收益率的变化通常用该项投资的风险来衡量。预期收益率的变化越小,投资风险越低,预期收益率的变化越大,投资风险就越高。下面的两个直方图,分别反映了200种商业类股票和200种高科技类股票的收益率分布。在股票市场上,高收益率往往伴随着高风险。但投资于哪类股票,往往与投资者的类型有一定关系。定关系。Q)商业类股票 (b)神技类股票你认为该用什么样的统计量来反映投资的风险?如果选择风险小的股票进行投资,应该选择商业类股票还毘面科技类股票?(3)如果你进行股票投资,你会选择商业类股票还是高科技类股票?(3)(1)(2)(1)(2)风险小的股票应选商业类股票(3)如果选择风险小的股票,选择商业类股票,如果选择高收益的股粟・选择拓科技类股票。(20分)某种感冒冲剂规定每包重量为12克,超重或过轻都是严重问题。从过去的生产数据得知<7=0.6克,质检员抽取25包冲剂称a检验,平均每包的重量为11.85克。假定产品重量服从正态分布。根据上述检验计算出的P=0.02,感冒冲剂的每包重量是否符合标准要求(a=0.05)?说明上述检验中可能犯哪类错误?该错误的实际含义是什么?⑴不符合标dEP=0.02<0.05点评人:原假设为H0:产品符合标准要求,山于P值小于0.05,因此拒绝原假设,即,每包重量不符合标准要求°【P为犯笫一先错误的概即原假设正确,实际拒绝的概率为QO3,位于拒绝域内,推{MHO】可能犯第I类错误(a错误)。原假设是正确的,实际确拒绝了原假设。三、(20分)简述方差分析的基本假定。正态性:每种处理所对应的总体都应服从止态分布。方差齐性:各个总体的方差必须相等。独立性:每个样本数据都来自不同处理的独立样本。方差分析对独立性的要求比较严格,若该假设得不到满足,方差分析的结果会受到较大影响。而对正态性和方差齐性的要求相对较宽松,十正态性不满足和方差略冇不齐时•对分析的结果影响不是很大。

四、五、(20分)怎样自相关图和偏自相关图来识别ARIMA(从乩q)四、五、模型中的参数?第一步:将序列平稳化。只冇半稳序列才能建立ARIMA模型,、勺原始序列不半稳时,通过差分可以将其半稳化。第一步:识别模型的阶数。如果原始序列(或差分序列〉的偏自相关系数有P个明显的峰值,在P个值后截尾,而它的自相关函数呈现出指数衰减或正眩衰减,呈现出拖尾,为AR(p)序列,模型为ARIMA(p・0・0)•如果序列的自相关函数有q个明显的峰值,在q个值后截尾,而它的偏自相关函数呈指数或正弦衰减,呈现出拖尾,为MA(q)序列,模型为ARlMA(OQq).如果序列的自相关图和偏自相关图的询p个条和前q个条没有固定规律,其后都是趋渐于0而不是突然变为0,都呈现出拖尾,模型为ARMA(RQ),"I"的取值取决于差分的阶数。第三步:模型诊断。如果模型正确,模型预测产生的误差是0噪声序列,残差序列的自相关图没冇什么固定模式。书上245页(20分)什么是回归中的置信区间估讣和预测区间佔计?两个区间的宽度是否一样?X取何值时两个区间宽度最窄?半均值的置信区间佔计:是对X的一个给定值X。•求出y的半均值的佔讣区间。个别值的预测区间佔讣:是对X的一个给定值XO•求出y的一个个别值的佔讣区间。两个区间的宽度是不一样的。预测区间要比置信区间宽一些。Xx=xM・・两个区间的宽度最窄,此时,两个区间也都是最准确的。9国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统讣学考试科th统计思想综述考题卷号:9课程代码:考题卷号:9(20分)为研究少年儿童的成长发育状况,某研究所的一位调査人员在某城市抽取100名7〜17岁的少年儿童作为样为样本。请回答下面的问题,并解释其原因。(1)本,另一位调査人员则抽取了1000名7~17为样本。请回答下面的问题,并解释其原因。(1)哪一位调査研究人员在其所抽取的样本中得到的少年儿童的平均身高较大?或者这两组样本的平均身高相同?哪一位调査研究人员在其所抽取的样本中得到的少年儿童身高的标准差较大?或者这两组样本的标准差相同?哪一位调査研究人员有可能得到这1100名少年儿童的最高者或最低者?或者对两位调査研究人员来说,这种机会是相同的?1K如黒抽样注隧机的,M样钉二学“以:样七;:」:“占人竹决宦作川.rr衆是不呦宦的;(2).如果抽样是随机的•抽样样本数H对样本方左杯冷星没仃决定作川.答秦是不确定的:(3).木点任*•養"「能C(20分)在参数统计分析中,应用r分布、分布和F分布的假定条件是什么?如何判断样本数据是否满足假定条件。

解・.])设X|服从标笊匸态分布N(0J).X::加从口山度为n®r:—,HX宀Xdffl"独立,则称变仆命=点从的分布为门山度为nmnA期蚩E仃)=0方星D仃)=n/(n-2).n>2:1力•汀布:役XhX乙……Xntil/f:独X部服从标准止态分布N(0⑴,则称随机变mXJXd+X舟…・+X2服从门山度为n的才分布。期里E{X2)=n.D(X2)=2n:F7>^j:役Xi服从门山度为nfr/" X2服从门由度. X,m为mF/分和,11X1UX2相4独*•则称变屋丨礼服从Fr21(2)止态件检验及独立件检验'(20分)山于时间和成本对产量变动的影响很大,所以在一种新的生产方武投入使用之前,生产厂家必须确信其所推荐新的生产方法能降低成本。目前•生产中所用的生产方法成本均值为每小时200元。对某种新的生产方法,测量其一段样本生产期的成本。(1)在该项研究中,建立适当的原假设和备择假设。(2)当不能拒绝时,试对所做的结论进行评述。(3)本生产期的成本。(1)在该项研究中,建立适当的原假设和备择假设。(2)当不能拒绝时,试对所做的结论进行评述。(3)当可以拒绝时,试对所做的结论进行评述。解:(1)、原假设:Hu:讦的工产方法成本的均值不低于200兀/

每小时;备择假攻:H、新的工产方法成本的均值低丁200元附

小时。(2)、If:能拒九肌时.说明并没冇把握说明新的工产方法能降低工产成本:(3)、Y可以拒纟匸刃。;:.•呪明新的⑴产方法可以降低工产成本,可以采川新的方法四、(1)两个分类变量。(20分)列出度量下述测度变量间的关系所使用的统计量。四、(1)两个分类变量。两个数值变量。两个顺序变量。(4)一个分类变量与一个数值变量。(4)一个分类变量与一个数值变量。解:分类变彊分为冇序变最、无庁变最及二分类,在羌别杵检验中•分类变就和无序变呆都对以川卡方统计最检验.不过•个绘四方格、•个是RXC列联卡方.冇川变虽也即等级资料得用秩和检验。冇If变晟中nfj11紡尤回归來检脸假设,对r无序变:,::使[|]logistics回I丿丨。T)Z'统H■!(:(2)、和关系数:(3)、等级和关系数:(4).F五、(20分)在多元线性回归分析中,F检验和/检验有何不同?五、W:(1).F检验是对模世整体區弁性水平的检验,而t检齡只是对小独变応的、显茗件水T:的检验「(2).F检验靠•牢说明模型拟介效果显茗,但并不能说明每个

10中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统讣学考题卷号:10考试科th统计思想综述课程代码:考题卷号:10(20分)在2008年8月北京举办的笫29届奥林匹克运动会上,获得金牌总数前三名的国家及奖牌数如下。要描述这一数据,可以使用的图形有哪些?说明它们在描述这一数据中的用途。排名国家金银铜总1中国5121281002美国3638361103俄罗斯23212872列出适合展示上述数据的图形并说明这些图形的用途。IH: 11力图或肴条电图:陡够代观的衣明并个国豕圧丄银、铜牌上的奖牌数股。如果以国家为横出标,以奖牌数为纵出标•能够《观的比饺不同W家或得奖牌总数的悄况;如果以奖牌种类为橫出标,以国家为纵出标•能够血观的行到每个国家获得各种奖牌的怙况;(2)、饼图或者环形图:能够活楚的比絞备个国家获得乐银.铜奖牌的比例。(20分)某企业生产的产品需用纸箱进行包装,按规定供应商提供的纸箱用纸的疗度不应低于5毫米。已知用纸的片度服从正态分布,b—直稳定在0.5毫米。企业从某供应商提

供的纸箱中随机抽査了100个样品,得样本平均厚度x=4・55毫米。(2)在a=0.05的显著显著性水平上,是否可以接受该批纸箱?该检验中会犯哪类错误?该错误的含义是什么?抽查的100个样本的平均片度为多少时可以接收这批纸箱?此时可能会犯哪类?该错误的含义是什么?(2)0025(注=Zoms=1-96,Zoo5=1.645)0025山题可知,纸倉!的度mu:N(“Q52)无=4.55“=511=100.坐工假11=100.坐工假U:Hq“25H,“<5X-Li4.55-“ 4.55-5 一6亦_0.5/7而"0.510U= ・L= 6亦_0.5/7而"0.510X°=0・05时r伽版几任该类检验中犯了第啖错头即原假役止确,但实际任该类检验中犯了第啖错头即原假役止确,但实际上却拒绝了原假设的错亂(2、(2、「厂1.96W96时.解彳畀4・902<xv5・098即弋纸笔!的"度在4・902总米5.098宅来之间时,可以接受原假设,即可以接爻这些纸箱。此时•吋能犯第••类错決即原假设错臥但是头惊I:却接受了原假设的错躲三、(20分)简要说明力2分布在统讣中的的应用。*丁布常应川「假设检验及汽信区间的讣算屮,山卡方分布延伸出來皮尔森卡方检宦常川于:(1)样本某杵质的比例分布吗总体理论分布的拟介优度:(2)同•总体的两个随机变洛•泌占独*・;(3)・或多个总体同•属tt的同索件检左即,独疗忤检齡同质件检验、适介杵检验竽。四、(20分)在多元线性回归分析中,如果某个回归系数的/检验不显著,是否就意味着这个自变量与因变量之间的线性回归不显著?为什么?当出现这种情况时应如何处理?解:“八不足。W为在多冗线性冋归槌型中,如果多个门变就Z间存在较強的相关性,或者因为数据收集的展础不够宽.适成多个门变昴之间存在相关件时.此时在进行单个变t检验时.冇可能会通不过检验•即该多元线杵回归模空存在多贞共线忤,(2八、"|模熨检煽不显茗时.需嗖进彳「判别(1、系数估讣值的符号是否不对2.是否存在某些虫嗖的|j变i|<tffl低,而R方不低3、是否出现半•不太巫要的解释变肚被删除后,I叩丿I结果靠普变化〉、检验(相关性检验)模根中是否出现多巫共线性,需要通过:1、增加数据;2、对模型施加某些约束条件;3、删除•个或儿个共线变垃:农将模型适半变形:5、I•:成分回归:6、向就选择、向后剔除.逐步初归等方法去除共线性,选出合适的门变忖〔來反应W变磺的变化情况心而在处理多眞共线性的时候需要注总:1、多电共线性是普遍存在的,轻微的多W共线性间题可不采取描施:2、严贞的多左共线件问题,•般可根据经验或通过分析冋归结果发现“血影响系数符号,电嗖的解禅变:kt值很低•要根据不同惜况采取必耍描施。3、如果模型仅川]:预测,则只要拟介程度好,可不处理女贞其线

件问题.〃在多丑共线性的模型用于预测时,往彳上不影呐预淞彳壬采;五、(20分)下表是某贸易公司近儿年的出口额数据:年份出口额(万美元)200213200319200424200535006582007882008145(1) 从图形上判断,出口额时间序列含有什么成分?(2) 要预测该公司的出口额,应釆用哪种趋势线?该趋势线的特点是什么?(3) 根据±面的数据拟合的指数曲线方程为:Z=&02x(1+04904/.这里的0.4909的具体含义是什么?1CO140XXO100•駅EJ1•駅EJ1•山图可OO“3001 700? 7003 3004 900匸2O0C2007SOM3000以看;Ih 额随着时间的増匕成曲线增氏趙势。(2)、如下图所頁川指数打F£=&0202e°肿M拟合出丨I额的增K趋拟介的Rffi高达0-9896.实用文档%实用文档%实用文档%实用文档%11中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统讣学考试科th统计思想综述考题卷号:11课程代码:考题卷号:11(20分)A、B两个班各有50名学生,统计•学考试成绩的描述统计量如下:统计量A班B班平均数744685中位数756725%四分位数675675%四分位数8083标准差10.6174最小值4435最大值96100(1)(2)(1)(2)(3)解:⑴两个班考试成绩的最低分和最奇分是否属于离群点?

从图中可以看出,A班学生各科的平均考试成绩较高,且各学科成绩之间离散程度也较小,B班学生各科的平均考试成绩相对较低,且各学科成绩之间离散程度也较大;图中用“O”标出的最小值是A班同学考试成绩的最低分,被视为A班学生考试成绩的离群点。(2)A班学生各科的平均考试成绩较高,B班学生各科的平均考试成绩相对较低;两个班成绩平均数和中位数基本相等,说明两个班级考试成绩分布接近对称;A班学生各科成绩的极差和四分位差均小于B班,说明B班学生各科成绩中间的数据及两端的数据均比A班学生成绩分散:A班学生考试成绩的离散系数小于B班学生考试成绩的离散系数,故A班学生考试成绩的离散程度小于B班。A班学生考试成绩最低分属于离群点。(20分)谈谈你对方差分析的理解。解:方差分析是分析各分类自变量对数值因变量影响的一种统讣方法。自变量对因变量的影响也称为自变量效应,而影响效应的大小则体现为因变量的误差里有多少杲山于自变量造成的。因此,方差分析是通过对数据误差的分析来检验这种效应是否显著。【复核补充】方差分析(AnalysisofVariance,简称AXOVA)t又称"变异数分析”或“F检验",用于两个及两个以上样本均数差别的显著性检验。由于各种丙素的影响,研究所得的数据呈现波动状0造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量,其基本思想是通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用.以及显著影响因素的报佳水平等。方差分析是在可比较的数组中,把数据间的总的“变差"按各指定的变差来源进行分解的一种技术。对变差的度采用离差平方和0方差分析方法就是从总离差平方和分解出可追溯到指企来源的部分离差平方和。(20分)某厂产品的优质品率一直保持在40%,近期质检部门来厂抽査,共抽査了50件产品,其中优质品为9件。在a=0,05的显著显著性水平上,能否认为其优质品率仍保持在40%?

该检验中可能犯哪类错误?其含义是什么?(3)根据上述检验计算出的P=0.564,解释这个P值的具体含义。(注:Zog=1.96,Go5=135)解:依题意建立的原假设和备择假设为:HQ••兀=40%;H「兀丰40%9根据抽样结果汁算得:P= =检验统计量为:N O.l—OM一MP・4(l-0.4)V利用Excel中的NORMSDIST函数得到双尾检验的P=0.001498o显著性水平为0.05时不拒绝H0,没有证据表明优质品率不是40%。【复核改】根据显著性水平a=0.0522=1.96,lzl=3J75>L96,因S此拒绝原假设,优品率没有保持在40%O可能犯第II类错误,是指原假设是错误的,却没有拒绝它。【复核改】可能犯第I类错误,是指原假设是正确的却拒绝了原假设:即优品率保持为40%,却认为不是,犯这个错误的可能性为5%。P二0.564的实际含义是:如果该企业优质品率是40%,检验结果却认为不是40%,犯这一错误的概率为0.564。四、(20分)设因变量为k个自变量分别为州,花,…,Xr,四、则多元线性回归模型可表示为:(1)(2)00+卩\X\+02勺+…+0庄k+£(1)(2)对这一模型的假设有哪些?如果模型中存在多重共线性,会对结果产生哪些影响?

(3) 解决多重共线性的方法有哪些?对各方法进行简要评述。解:(1)在多元线性回归模型中,对误差项£有三个基本假定:1、正态性。£是一个服从正态分布的随机变量,且期望值为0,即E(£)=O•意味着对于给定的勺%耳的值,尸的2、3、期望值为£(y)=00+01*1+022、3、方差齐性。对于自变量兀卩勺,•…,忑的所有值,£的方差小都相同。独立性。对于自变《西,勺,•…,耳一组特定值,他所对应的£与州,花厂…,耳任意一组其他值所对应的£不相关。同样,对于给定的K,兀2厂…,的值,因变量y也是一个服从正态分布的随机变量。(2)首先,变量之间高度相关时,可能会给回归的结果造成混乱,其至会把分析引入歧途。其次,多重共线性可能对参数佔计•值的正负号产生影响,特别是0,的正负号有可能同预期的正负号相反。逐步回归是避免多a共线性的有效方法之一,先通过向前选择法选择变量,不过在新增加一个自变量后,它会对模型中所有的变量a新进行考察,看有没有可能剔除某个自变量。如果在新增加一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除。按此方法不停的增加变量并考虑剔除以询增加的变量的可能性,直至增加变量已经不能导致SSE显著减少(这个过程可以通过F检验来完成)。逐步回归法的特点是:在前面步骤中增加的自变量在后面的步骤中有可能被剔除,而在前面步骤中被剔除的自变量在后面的步骤中也可能重新进入模型中。五、(20分)使用主成分分析和因子分析时应注意哪些问题?五、首先,只有当原始变量之间有较强的相关关系是,降维的效果才回明显,否则不适合进行主成分分析和因子分析。其次,主成分和因子的选择标准应S于定量分析的结果,并结合具体问题而定,在某种程度上取决于研究者的知识和经验,而不是方法本身。再次,即使得到了满意的主成分或因子,在运用它们对实际问题进行评价、排序等分析师,仍然要保持谨慎,因为主成分和因子比较是高度抽象的量,无论如何,它们的含义都不如原始变量清晰。最后,因子分析可以看做主成分分析的推广和拓展,而主成分分析则可以看作因子分析的一个特例。U前因子分析在实践中应用广泛,而主成分分析通常只作为大型统计分析的中间步骤,儿乎不再单独使用。12中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统讣学考试科th统计思想综述考题卷号:12课程代码:考题卷号:12(20分)下表是2006年北京、上海和天津按收入法计算的地区生产总值(按当年价格计算)数据。地区劳动者报酬生产税净额固泄资产折旧营业盈余北京3496.571161.55125L091961.07天津1383.36775.09595.091605.61上海3756.561623.361730.513255.94描述上述数据的图形有哪些?简要说明这些图形的用途。解:可以用帕累托图,按各类别出现的频数多少排序后绘制的条形图,可以看出哪类频数出现的多,哪类出现的少。可以用环形图,每个样本用一个环来表示,样本中每一类别的频数比例用环中的一段表示。因此环形图可显示多个样本各类别频数所占的相应比率。(20分)一家超市某种牛奶的日销售量服从正态分布,h未知。根据已往经验,其销售量均值为60箱。该超市在最近一周进行了一次促销活动,以促进销售。一周的日销量数据(单位:箱)分别为:64,57,49,73,76,70,59。a)检验促销活动是否有效(a=0・01)。a)检验促销活动是否有效(a=0・01)。b)该检验中可能犯哪类错误?其含义是什么?C)根据上述检验计算出的P=0・1576,解释这个P值的具体含C)义。(注:535=2.58,血5(7-1)=3.143)解:3)促销活动是否有效,即“是否大于60,因此属于右侧检验,假设为:仏:“<60,仏:“>60【复核补充】检验统计量为:t=^=^=2.899匸2・899<血5(7一1)=3.143所以不拒绝HO,没有证据表明促销活动无效。b)可能犯第1类错误,是指原假设是正确的却拒绝了原假设:即促销活动有效却判断为无效,犯这个错误的可能性为5%oC)P=0」576的实际含义是:如果该促销活动无效,检验结果却没有认为其无效,犯这一错误的概率为0.1576O三、(20分)一家电视台为了解观众对某档娱乐节U的喜欢程度,对不同年龄段的男女观众进行了调査,得到喜欢该档娱乐节U的观众比例(单位:%)如下:年龄段男性女性20岁以下6820—30岁253230—40岁161540—50岁121250岁以上56要分析男性观众喜欢该档娱乐节U的比例和女性是否一致,使用的统汁方法是什么?简要说明分析的基本步骤。两个独立样本的Man・Whitney检验,具体步骤如下j捉出如下假设:Hq: =J/y;:M,工孔先把两组数据混合在一起,得到m+n=N个数据,将N个数据按从小到大排列9找到他们的秩。最小的数据秩

为1,第二个最小的数秩为2,依此类推,最大的数据秩为N,若两个数据相同,取其秩的平均数。2、2、分别对两个样本的秩求出平均秩歹X和歹八并对其差距进行比较,如果差距较大,意味着一组样本的秩普遍偏小,另一组样本的秩普遍偏大,此时原假设可能不成立。3、3、讣算样本一中每个秩大于样本二的每个秩的个数乞Y,并对仇V和厶J进行比较,如果Ex和厶J相差较大,则4、4、根据S•和抄计算WilcoxonW统讣量和M(m・WhilneyU统计量,先分别求出两个样本的秩和,设样本一的秩和为化,样本二的秩和为殘,若m<n,检验统计量W二食;若检验统计量W二办;若m二n,检验统讣量W为第一个变量值所在样本租的W值。Mann=WhitneyU统讣量定义为:式中,k为W对应样本组的样本数据个数。5、讣算出统计量P值并做出决策。若PVb则拒绝【复核补充】使用列联检验法1、提出假设H0:男性与女性喜好一致

Hl:男性与女性喜好不一致2、讣算卡方值3、设定a水平,进行显著性水平检验4、若卡方V卡方a,故拒绝HO,即男性与女性喜欢该档娱乐节U的比例不一致四、五、(20分)在因子分析中,因子数量的确定通常需要考虑哪些四、五、因素?解:因子数量的确定与主成分分析类似,可以根据因子方差的W献率来选择。一般悄况下•累计贡献率达到80%以上的前•儿个因子可以作为最后的公因子。从特征根角度看,一般要求因子对应的特征根要大于1,因为特征根小于1说明该公因子的解释力度太弱,还不如使用原始变量的解释力度大。实际应用中,因子的提取要结合具体问题而定,在某种程度上,取决于研究者自身的知识和经验。(20分)在多元线性回归中,选择自变量的方法有哪些?向前选择法、向后剔除法、逐步回归法。向前选择法是从模型中没有自变量开始,分别拟合因变量y对k个自变量(州,花,•…,的一元线性回归模型,共有k个,然后找出F统计量的值最大的(或P值最小的)模型及其自变量並,并将该自变量首先引入模型(如果所有模型均无统计•上的显著性,则运算过程终止,没有模型被拟合)。其次,在模型已经引入心的基础上,在分别拟合引入模型外的k-I个自变量(厲'・• Xf+i(厲'・• Xf+i)的回归模型,即自变量组合为X)+ ••也+兀T,兀兀+1亠+"«的1<・1个回归模型,分别考察这k・l个模型,大的(或者P值最小的)自变量"丿引入模型,如果除心之外的k・l个自变量中没有一个是统讣上显著的,则运算终止。如此反复,直至模型外的自变量均无统讣显著性为止。向后剔除法,拟合因变量对所有k歌自变量的线性回归模型。考察P(pvk)个去掉一个自变量的模型(这些模型中的每一个都有k-1个自变量),使模型的SSE值减少最少的自变量(F统讣量的值最小或其P值最大)被挑选出来并从模型中剔除。其次考察P-1个去掉一个自变量的模型(这些模型中的每一个都有k-2个自变量),使模型的SSE值减少最少的自变量被挑选出来并从模型中剔除)。如此反复,直至剔除一个自变量不会使SSE显著减小为止。这时,这个变量就不会再进入模型中。逐步回归法将上述两种方法结合起来筛选自变量,前•两步与向前选择法相同。不过在新增加一个自变量后,它会对模型中所有变量直新进行考察,看有没有可能剔除某个自变量。如果新增加的自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除按此方法不停的增加变量并考虑剔除以前增加的变量的可能性,直至增加变量己经不能导致SSE显著减少(这个过程可通过F检验来完成)实用文档%实用文档%实用文档%实用文档%实用文档%13中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统讣学考试科th统计思想综述考题卷号:13课程代码:考题卷号:13(20分)下面是测量的30袋食品重量的绝对误差数据(单位:克):6.14.76.56.27.76.45.57.16.15.35.76.15.34.04.83.23.91.94.93.85.32.65.35.55.82.76.87.45.63.3(1) 适合描述该组数据分布的图形有哪些?说明这些图形的主要特点。直方图.川矩形的宽度和岛•度来表示频数分布箱线图,可以方便的看出数据的分布特征茎叶图.不仅可以看到分布.还能保留原始数据(2) 适合描述该组数据分布特征的统计量主要有哪些?说明这些统计量的特点。均值:I反映「测届的30城什品的乍均用届水丫训四分位数:I反映r测吊的30efr品的川:吊按照丿、I小顺庁押列h;处J-25(7、5(滋及75q的水况:众数:I反映」'测伉的30応代胡的电出现i让幺次W怙况:I —疏7]反映r测吊•的3()"文ft品的用肚小M帀-'J嚴I跡应异水TM况:I四分位差:I反映「测吊的30“总代品的巫吊按照丿JI小顺丿汕列h;中间509的数据的肉敷水,怙况:I

(20分)从(20分)从3个总体中各抽取容量不同的样本数据,检验3个总体的均值之间是否有显著差异,得到的方差分析表如下(a=0.05):差异源SSdfMSFP-value组间A2388c0.011组内4509B总计122611(1) 计算出表中A、B、C三个单元格的数值。A=776B=50(2) A、B两个单元格中的数值被称为什么?它们所反映的信息是什么? A代表组间平方和,反映了组间■差异 B代表组内反映了组内■差异程度(3) 在0・05的显著性水平下,检验的结论是什么?组间差异显?;:,拒绝H0民r>4・2(nK之间有晁著性羞异.三、(20分)谈谈那个置信水平和置信区间的理解。置倍水平:在巫复构造的总体参数的多个置信区间中包含总体参数真值的次数所占的比仞I 盟置信区间:山样本统讣忻构造出的总体参数在-•宦置倍水平下的佔汁区间四、(20分)要建立一个多元线性回归模型,谈谈你的建模思路。四、■确定变吊间的关系建立■找性回归模型

对模型进行检齡f模甲!及门变届0用性的检验八]用佔讣方程预残差分析:检验模型假定r预测效果的检弘£1模十!的解释7"!五、(20五、(20分)聚类分析时对变量或数据有哪些基本要求?1•要选择与分类U标冇关的变磧2.各变疑的取值不应该冇数量级上的过大差异3.各变最之间不应该冇强的相关关系14中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统讣学考试科th统计思想综述考题卷号:14课程代码:考题卷号:14(20分)为分析不同地区的消费者与所购买的汽车价格是否有关,一家汽车企业的销售部门对东部地区、中部地区和西部地区的400个消费者作了抽样调査,得到如下结果:汽车价格东部地区中部地区西部地区10万元以下20404010—20万元50605020—30万兀30202030万元以上402010列出描述上述数据所适用的统计•图形,并说明这些图形的用途。环形图显不多个样本各类别所占的相应的比例复式饼图简单饼图的嵌套,展示多个分类变量的构成比较复式条形图、显不不同类别的频数或济分布悄况(20分)从一批零件中随机抽取16只,测得其评价长度为14.9cm,标准差为0.25cm。如果要使用/分布构建零件平均长度的置信区间,基本的假定条件是什么?总体服从止态分布。构建该批零件平均长度的95%的置信区间。14・9±2」31*O・25/J16=14・9±O・133=|H3S・3SS能否确定该批零件的实际平均长度就在你所构建的区间内?为什么?不能确定•因为这个95%的程信区间是根据目询的样本汁算的,是•个常数区间,实际零件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论