下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计学第一章1 .什么是统计学?怎样理解统计学与统计数据的关系?答:统计学是一门收集、整理、显示和分析统计数据的科学.统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义.2 .简要说明统计数据的来源答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济治理领域,主要通过统计调查方式来获得,如普查和抽样调查间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得.3.简要说明抽样误差和非抽样误差答:统计调查误差可分为非抽样误差和抽样误差.非抽样误差是由于调查过程
2、中各环节工作失误造成的,从理论上看,这类误差是可以防止的.抽样误差是利用样本推断总体时所产生的误差,它是不可防止的,但可以限制的.4.答:(1)有两个总体:A品牌所有产品、B品牌所有产品(2)变量:口味(如可用10分制表示)(3)匹配样本:从两品牌产品中各抽取1000瓶,由1000名消费者分别打分,形成匹配样本.(4)从匹配样本的观察值中推断两品牌口味的相对好坏.第二章、统计数据的描述思考题1描述次数分配表的编制过程答:分二个步骤:(1)根据统计研究的目的,将数据按分组标志进行分组.按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的粗细.按数量标志进
3、行分组,可分为单项式分组与组距式分组单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组.统计分组应遵循“不重不漏原那么(2)将数据分配到各个组,统计各组的次数,编制次数分配表.2.解释洛伦兹曲线及其用途答:洛伦兹曲线是20世纪初美国经济学家、统计学家洛伦兹根据意大利经济学家帕累托提出的收入分配公式绘制成的描述收入和财富分配性质的曲线.洛伦兹曲线可以观察、分析国家和地区收入分配的平均程度.3.一组数据的分布特征可以从哪几个方面进行测度?答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度.常用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态
4、系数和峰度系数.4怎样理解均值在统计中的地位?答:均值是对所有数据平均后计算的一般水平的代表值,数据信息提取得最充分,具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特征的一种反映,在统计推断中显示出优良特性,由此均值在统计中起到非常重要的根底地位.受极端数值的影响是其使用时存在的问题.5比照率数据的平均,为什么采用几何平均?答: 比率数据往往表现出连乘积为总比率的特征,不同于一般数据的和为总量的性质,由此需采用几何平均.6.简述众数、中位数和均值的特点和应用场合.答:众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度来考虑的,而均值是对所有数据
5、计算后得到的.众数容易计算,但不是总是存在,应用场合较少;中位数直观,不受极端数据的影响,但数据信息利用不够充分;均值数据提取的信息最充分,但受极端数据的影响.7为什么要计算离散系数?答:在比拟二组数据的差异程度时,由于方差和标准差受变量值水平和计量单位的影响不能直接比拟,由此需计算离散系数作为比拟的指标.练习题:1.频数分布表如下:效劳质量等级评价的频数分布效劳质量等级家庭数频率频率%A1414B2121C3232D1818E1515100100条形图略21采用等距分组:n=40 全距=152-88=64 取组距为 10组数为 64/10=6.4 取 6 组频数分布表如下:40 个企业按产品
6、销售收入分组表按销售收入分组企业数频率向上累积问卜累积万元个(%)企业数频率企业数频率100 以下512.5512.540100.0100110922.51435.03587.51101201230.02665.02665.0120130717.53382.51435.0130140410.03792.5717.5140 以上37.540100.037.5合计40100.0一一一一2某治理局下属 40 个企分组表按销售收入分组万兀企业数个频率%先进企业1127.5良好企业1127.5一般企业922.5落后企业922.540100.03采用等距分组全距=49-25=24n=40取组距为5,那么组
7、数为24/5=4.8取5组频数分布表:按销售额分组万元频数天数25-30430-35635-401540-45945-506合计40vcneunqrF5 54.(1)排序略.(2)频数分布表如下:100 只灯泡使用寿命非频数分布%650660226606705567068066680690141469070026267007101818710720131372073010107307403374075033100100直方图(略).(3)茎叶图如下:6518661456867134668112372012273356741475等距分组n=65全距=9-(-25)=34取组距为5,组数=34/
8、5=6.8,取7组频数分布表:按气温分组天数-25-208-20-158-15-1010-10-514-50140-545-107合计656900111170001122710022335566677888899788897(1)茎叶图如下:A班树茎B班数据个数树叶树叶数据个数03592144044842975122456677789121197665332110601123468892398877766555554443332100700113449876655200812334566632220901145660100003(3)A 班测试成绩的分布比拟集中,且平均分数较高;B 班测试成绩
9、的分布比 A 班分散,且平均成绩较 A 班低8.箱线图如下:(特征请读者自己分析)vcneuaATF0-30-2010-10tempture各城市相对湿度箱线图95857565554535北京长春南京郑州武汉广州成都昆明兰州西安9 .1x=274.1万元;Me=272.5;QL=260.25;QU=291.25.(2)s21.17(万元).3mi10 .甲企业平均本钱X14=19.41(元),mii1%3mz乙企业平均本钱X2J-1=18.29(元);m1ii1X2i原因: 尽管两个企业的单位本钱相同,但单位本钱较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均本钱.k_Xifi11 .
10、X=T426.67万元;fii1sU=116.48万元:J113(1)离散系数,由于它消除了不同组数据水平上下的影响FTa工TmnTT-T中中HZF1-HZF1-HH| |1 1B BI IH H-n_1-IMin-Max25%-75%MMedianvalue(2)成年组身高的离散系数:幼儿组身高的离散系数:4.2172.12.371.30.024;0.032;XiXfi由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大14.表给出了一些主要描述统计量平均165.6平均128.73平均125.53中位数165中位数129中位数126众数164众数128众数126
11、标准偏差2.13标准偏差1.75标准偏差2.77极差8极差7极差12最小值162最小值125最小值116最大值170最大值132最大值128先考虑平均指标,在平均指标相近时考虑离散程度指标.应选择方法A,其均值远高于其他两种方法,同时离散程度与其他两组相近15.(1)风险的度量是一个不断开展的问题,在古典金融理论中,主要采用标准差这个统计测度来反映,现代金融中,采用在险值(valueatrisk).(2)无论采用何种风险度量,商业类股票较小(3)个人对股票的选择,与其风险偏好等因素有关.第三章1.总体分布指某个变量在总体中各个个体上的取值所形成的分布,它是未知的,是统计推断的对象.从总体中随机
12、抽取容量为n的样本xi,X2,L,xn,它的分布称为样本分布.由样本的某个函数所形成的统计量fx1,x2,L,xn,它的分布称为抽样分布(如样本均值、样本方差的分布)2 .重复抽样和不重复抽样下,样本均值的标准差分别为:因此不重复抽样下的标准差小于重复抽样下的标准差,两者相差一个调整系数3 .解释中央极限定理的含义答: 在抽样推断中,中央极限定理指出,不管总体服从何种分布,只要其数学期望和方差存在,对总体进行重复抽样时,当样本容量充分大,样本均值趋近于正态分布.中央极限定理为均值的抽样推断奠定了理论根底.第四章、参数估计1.简述评价估计量好坏的标准答:评价估计量好坏的标准主要有:无偏性、有效性
13、和相合性.设总体参数的方法A方法B方法C估计量有?和如果 E?,称?是无偏估计量; 如果?和?是无偏估计量,且 D?小于 D?,那么?比?更有效;如果当样本容量 n那么?是相合估计量.2.说明区间估计的根本原理答:总体参数的区间估计是在一定的置信水平下,根据样本统计量的抽样分布计算出用样本统计量加减抽样误差表示的估计区间,使该区间包含总体参数的概率为置信水平.置信水平反映估计的可信度,而区间的长度反映估计的精确度.3 .解释置信水平为95%的置信区间的含义答:总体参数是固定的,未知的,置信区间是一个随机区间.置信水平为95%的置信区间的含义是指,在相同条件下屡次抽样下,在所有构造的置信区间里大
14、约有95%包含总体参数的真值.4 .简述样本容量与置信水平、总体方差、允许误差的关系练习题:2.解:由题意:样本容量为n49-15右 15,x-=2.143、n.49120,xz/2r,xZ/2r1204.20228,1204.20228nn115.7997,124.202283.解:由题可得:n36,x3.317,s1.609尽管采用不重复抽样,但由于样本比例很小不到0.5%,其抽样误差与重复抽样下近似相同,采用重复抽样的抽样误差公式来计算.n36为大样本,那么在的显著性水平下的置信区间为:sZ/2_、n当 0.1,z/21.64,置信区间为(2.88,3.76)当 0.05,z/21.96
15、,置信区间为(2.80,3.84)答:以估计总体均值时样本容量确实定公式为例:样本容量与置信水平成正比、与总体方差成正比、22z/2nE2与允许误差成反比.(D(2)0.05,Ez/2r1.96*2.1434.20228(3)当 0.01,z/22.56,置信区间为(2.63,4.01)8.此题需先检验两总体的方差是否相等:2222H.N0:127H1:12F0.025(13,6)5.37,F0.975(13,6)1/F0.025(6,13)1/3.60.28,不拒绝原假设认为两总体方差是相同的.(D190%,XX2to.19心(19.81.729798.44*29*4.5
16、5即(1.93,17.669)(2)195%,XiX2t002519Jsj19.82.093.98.44*93*4.55147即(0.27,19.32)5解:假设距离服从正态分布,n16,x9.375,s4.113平均距离的95%的置信区间为_s_sxt0.02515-=,Xt0.02515nn(7.18,11.57)7解:由题意:n50,p3264%.50由于np,n1p均超过5,大样本(1)总体中赞成比率的显著性水平为的置信区间为Pz/P1P,Pz/2当0.05时,Ez/2P1P64%*36%,1.96*.:13.3%50置信区间为(50.7%,77.3%)(2)如果要
17、求允许误差不超过10%,置信水平为95%,那么应抽取的户数:Z/221nE21.962*0.8*00.1262在5%勺显著性水平下,22Fs2/s296.8/102.00.94911.大样本的情况P1P2Z/2P11P1P21P2ni12.解:由题可计算:S20.2422,s;0.0762两个总体方差比12/2在95%的置信区间为:2,22/2S/S2S1/S2,F/2nl1,n21F1/2n11,11第五章、假设检验思考题1.1.理解原假设与备择假设的含义,并归纳常见的几种建立原假设与备择假设的原那么.答:原假设通常是研究者想收集证据予以反对的假设;而备择假设通常是研究者想收集证据予以支持的
18、假设.建立两个假设的原那么有:1原假设和备择假设是一个完备事件组.2一般先确定备择假设.再确定原假设.3等号“=总是放在原假设上.4假设确实定带有一定的主观色彩.5假设检验的目的主要是收集证据来拒绝原假设.2 .第一类错误和第二类错误分别是指什么?它们发生的概率大小之间存在怎样的关系?答:第I类错误指,当原假设为真时,作出拒绝原假设所犯的错误,其概率为.第II类错误指当原假设为假时,作出接受原假设所犯的错误,其概率为.在其他条件不变时,增大,减小;增大,减小.3.什么是显著性水平?它对于假设检验决策的意义是什么?答:假设检验中犯第一类错误的概率被称为显著性水平.显著性水平通常是人们事先给出的一
19、个值,用于检验结果的可靠性度量,但确定了显著性水平等于限制了犯第一错误的概率,但犯第二类错误的概率却是不确定的,因此作出“拒绝原假设的结论,其可靠性是确定的,但作出“不拒绝原假设的(1)90火信度下40%*60%30%*70%40%30%1.645*:25025010%6.979%(3.021%,16.979)(2)95咄信度下40%30%40%*60%30%*70%1.96*.25025010%8.316%(1.684%,18.316%)4.06,14.3514.解:由题意:120,z/21.96,E20那么必须抽取的顾客数为:2z/2E22_21.96*12020139结论,其可靠性是难以
20、限制的.4.什么是p值?p值检验和统计量检验有什么不同?答:p值是当原假设为真时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率.P值常常作为观察到的数据与原假设不一致程度的度量.统计量检验采用事先确定显著性水平,来限制犯第一类错误的上限,p值可以有效地补充提供地关于检验可靠性的有限信息.p值检验的优点在于,它提供了更多的信息,让人们可以选择一定的水平来评估结果是否具有统计上的显著性.5.什么是统计上的显著性?答:一项检验在统计上是显著的(拒绝原假设),是指这样的(样本)结果不是偶然得到的,或者说,不是靠机遇能够得到的.显著性的意义在于“非偶然的练习题3.解(1)第一类错
21、误是,供给商提供的炸土豆片的平均重量不低于60克,但店方拒收并投诉.(2)第二类错误是,供给商提供的炸土豆片的平均重量低于60克,但店方没有拒收.(3)顾客会认为第二类错误很严重,而供给商会将第一类错误看得较严重.4 .解:提出假设 Ho:6,H2:61.19,n100,0.05(1)检验统计量为 Z6:aN0,1.n(2)拒绝规那么是:假设 Zz,拒绝 H.;否那么,不拒绝 H0(3)由X6.35得:Z6.3562.94z0051.64,拒绝 H.,认为改良工 1.193J00艺能提升其平均强度.5解:设为如今每个家庭每天收看电视的平均时间(小时)需检验的假设为:H0:6.70,H1:f6,
22、70调查的样本为:n200,x7.25,s2,5在0.01的显著性水平下,右侧检验的临界值为 Z0.012.33由于z2.33,拒绝 H.,可认为如今每个家庭每天收看电视的平均时间增加了.222 22大样本下检验统计量为:X6.70s/、n7.256.702.5/.2000.55*16.解:提出假设:n30,s22,0.05检验统计量22n1s29*222.一仝三1030052942.557拒绝 H.,可判定电视使用寿命的方差显著大于VCR7.解:提出假设:H0:125,也:1250.02,n1100,n250,独立大样本,那么检验统计量为:5.1458而 Z0.012.
23、33由于zz/2,拒绝 H0,平均装配时间之差不等于5分钟8,解:匹配小样本提出假设:H0:ab,H1:ab由计算得:d0.625,sd1,302,n8,0.05,检验统计量为t-d0,625厂1.3577t00571.8946,不拒绝 H0,不能认为广告提升sd/,n1,302/8了潜在购置力的平均得分.9.解:提出假设:H0:12,也:12一197301:n1288,%0.684,%367,p20.82,0.1288367z14,810.450.820.6210050H0:TVVCR0.75,H1:TV0.75小于非信息追求者.10.解:提出假设:H0:第七章相关与回归分析思考题1.相关分
24、析与回归分析的区别与联系是什么?答:相关与回归分析是研究变量之间不确定性统计关系的重要方法,相关分析主要是判断两个或两个以上变量之间是否存在相关关系,并分析变量间相关关系的形态和程度.回归分析主要是对存在相关关系的现象间数量变化的规律性作出测度.但它们在研究目的和对变量的处理上有明显区别.它们均是统计方法,不能揭示现象之间的本质关系.3.什么是总体回归函数和样本回归函数?它们之间的区别是什么?答:以简单线性回归模型为例,总体回归函数是总体因变量的条件期望表现为自变量的函数:EYXifXiXi,或YXiu.总体回归函数是确定的和未知的,是回归分析所估计的对象.样本回归函数是根据样本数据所估计出的
25、因变量与自变量之间的函数关系:??xi或yi?xiei.回归分析的目的是用样本回归函数来估计总体回归函数.它们的区别在于,总体回归函数是未知但是确定的,而样本回归函数是随样本波动而变化;总体回归函数的参数,是确定的,而样本回归函数的系数?,?是随机变量;总体回归函数中的大样本,那么检验统计量为:p1n1p2n2288*0.684367*0.82Pnin22883670.76PlP20.6840.824.0476d11p1pnn20.76*0.2411288367而 Z0.11.29,由于 z可认为信息追求者消极度假的比率显著由题计算得:n,25,s.0.221,n222,s20.077检验统计
26、量为:FS20.22120.0778.2376,而F0.02524,212.37FF/2nl1,n21,所以拒绝H.,认为两种机器的方差存在显著差异.误差项 5 不可观察的,而样本回归函数中的残差项s是可以观察的.4.什么是随机误差项和残差?它们之间的区别是什么?答:随机误差项u表示自变量之外其他变量的对因变量产生的影响,是不可观察的,通常要对其给出一定的假设.残差项 e 指因变量实际观察值与样本回归函数计算的估计值之间的偏差,是可以观测的.它们的区别在于,反映的含义是不同且可观察性也不同,它们的联系可有下式:ey望族ixuXi?xUi5 .为什么在对参数进行最小二乘估计时,要对模型提出一些根
27、本的假定?答:最小二乘法只是寻找估计量的一种方法,其寻找到的估计量是否具有良好的性质那么依赖模型的一些根本的假定.只有在一系列的经典假定下,最小二乘估计量才是BLUE15.为什么在多元回归中要对可决系数进行修正?答:在样本容量一定下,随着模型中自变量个数的增加,可决系数R2会随之增加,模型的拟合程度上升,但自由度会损失,从而降低推断的精度,因此需要用自由度来修正可决系数,用修正的可决系数来判断增加自变量的适宜性.16.在多元线性回归中,对参数作了t检验后为什么还要作方差分析和F检验?答:t检验仅是对单个系数的显著性进行检验,由于自变量之间存在着较为复杂的关系,因此有必要对回归系数进行整体检验,
28、方差分析和F检验就是对回归方程的整体统计显著性进行的检验方法.练习题1.解:设简单线性回归方程为:yi2X334229.090.786425053.73回归系数经济意义:销售收入每增加1万元,销售本钱会增加0.786万元.SSE1R2yiy20.0002*262855.25n2122101y?x549.80.786*647.8840.566(2)可决系数为:R2_2Vy_2yy334229.092425053.73*262855.250.9998(1)采用OLS估计:2XiXyiyT2xix回归标准误:2.29(3)检验统计量为:tSe?/2XiX0.786rc223.762.29八42505
29、3.73所以2是显著不为零(4)2xf40.5660.786*800669.36695%?f1.96*?,11xfx2669.3661.96*2.29J21800647.8812425053.73即(664.579,674.153)2.(1)8y642657080852175X(2)负相关关系(3)SourceSSdfMSNumberofobs=9F7)=24.67Model.6381186861.638118686ProbF=0.0016Residua.1810369067.025862415R-squared=0.7790AdjR-squared=0.7474Total.819155592
30、8.102394449RootMSE=.16082yCoef.Std.Err.tP|t|95%Conf.Interval-4.970.002-.1039346-.03689415.720.0013.5296328.50603(4)估计的斜率系数为7.0414,表示航班的正点率每提升1%,百万名乘客的投诉次数会下降:7.0414*0.01=0.070414次.(5)如果 xf0.8,贝(Jyf6.01787.0414*0.80.38468 次3.ResultsofmultipleregressionforySummarymeasuresMultipleR0.9521R-Square0.9065A
31、djR-Square0.8910StErrofEst3.3313ANOVATableSourcedfSSMSFp-valueExplained31937.7485645.916258.20480.0000Unexplained18199.751511.0973RegressioncoefficientsCoefficientStdErrt-valuep-valueLowerlimitUConstant32.99313.138610.51210.000026.3991x10.07160.01484.85390.00010.0406xcons-.0704144.01417576.0178311.0
32、5226x216.87273.99564.22280.00058.4782x317.90424.88693.66370.00187.63724.SourceSS1dfMSNumberofobs=29F(1_27)=3034.13Model2.9873e+1012.9873e+10ProbF=0.0000Residual265831846279845623.91R-squared=0.991209909rTTsjiisquSreT.Total3.0139e+10281.0764e+09RootMSE=3137.8consumpCc ef.Std.Err.tP|t|95%Conf.Interval
33、gnp.5459054.009910655.080.000.5255705.5662403_cons2426.563809.87893.000.006764.8294088.298SourceSSdfMSNumberofobs=29F(-1,27)=3034.13Model2.9873e+1012.9873e+10ProbF=0.0000Residua265831769279845621.08R-squared=0.9912AdjR-squared=0.9909Total3.0139e+10281.0764e+09RootMSE3137.8consumpCoef.Std.Err.tP|t|95%Conf.Intervalgnpf.5459054.009910655.080.000.5255705.5662403cons131260.21869.52870.210.000127424.3135096.25.SourceSSdfMSNumberofobs=26)=281284595F(-2r( J,26)ru.u.Model6.2442e+1023.1221e+10ProbF=0.0000Residual63190678.2262430410.7R-squared=0.9990i;ni;nn
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 创新初中体育教案2024年版
- 三角形分类全解析:2024年教学新方法
- 七年级下册期末语文测试卷(B卷)
- 探究2024:八年级上册物理教案全新设计
- 2024年多媒体课件评分标准:助力教育现代化
- 第45届世界技能大赛全国选拔赛汽车喷漆项目技术工作文件
- 科目一科目四理论考试记忆口诀-驾考实操
- 2024届上海市某中学高考化学全真模拟密押卷含解析
- 掌握2024年视觉盛宴:AE基础培训教程从入门到精通
- 2024年C语言程序设计教案新编教程
- 大学生辩论赛评分标准表
- 诊所污水污物粪便处理方案及周边环境
- 江苏开放大学2023年秋《马克思主义基本原理 060111》形成性考核作业2-实践性环节(占过程性考核成绩的30%)参考答案
- 《我是班级的主人翁》的主题班会
- 酒店安全设施及安全制度
- 近代化的早期探索与民族危机的加剧 单元作业设计
- 租赁机械设备施工方案
- 屋面融雪系统施工方案
- 二年级家长会语文老师课件
- 结构加固改造之整体结构加固教学课件
- 教堂安全风险分级管控体系方案全套资料(2019-2020新标准完整版)
评论
0/150
提交评论