版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGEPAGE14第1章绪论1.什么是统计学?怎样理解统计学与统计数据的关系?2.试举出日常生活或工作中统计数据及其规律性的例子.3..一家大型油漆零售商收到了客户关于油漆罐分量不足的许多抱怨。因此,他们开始检查供货商的集装箱,有问题的将其退回。最近的一个集装箱装的是2440加仑的油漆罐.这家零售商抽查了50罐油漆,每一罐的质量精确到4位小数。装满的油漆罐应为4。536kg。要求:(1)描述总体;(2)描述研究变量;(3)描述样本;(4)描述推断。答:(1)总体:最近的一个集装箱内的全部油漆;(2)研究变量:装满的油漆罐的质量;(3)样本:最近的一个集装箱内的50罐油漆;(4)推断:50罐油漆的质量应为4。536×50=226.84.“可乐战”是描述市场上“可口可乐”与“百事可乐”激烈竞争的一个流行术语。这场战役因影视明星、运动员的参与以及消费者对品尝试验优先权的抱怨而颇具特色。假定作为百事可乐营销战役的一部分,选择了1000名消费者进行匿名性质的品尝试验(即在品尝试验中,两个品牌不做外观标记),请每一名被测试者说出A品牌或B品牌中哪个口味更好。要求:(1)描述总体;(2)描述研究变量;(3)描述样本;(4)一描述推断。答:(1)总体:市场上的“可口可乐”与“百事可乐”(2)研究变量:更好口味的品牌名称;(3)样本:1000名消费者品尝的两个品牌(4)推断:两个品牌中哪个口味更好。第2章统计数据的描述——练习题●1.为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的等级分别表示为:A.好;B。较好;C。一般;D。差;E。较差。调查结果如下:BECCADCBAEDACBCDECEEADBCCAEDCBBACDEABDDCCBCEDBCCBCDACBCDECEBBECCADCBAEBACDEABDDCADBCCAEDCBCBCEDBCCBC(1)指出上面的数据属于什么类型;用Excel制作一张频数分布表;(3)绘制一张条形图,反映评价等级的分布。解:(1)由于表2。21中的数据为服务质量的等级,可以进行优劣等级比较,但不能计算差异大小,属于顺序数据.(2)频数分布表如下:服务质量等级评价的频数分布服务质量等级家庭数(频数)频率%A1414B2121C3232D1818E1515合计100100(3)条形图的制作:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→条形图→选择子图表类型→完成(见Excel练习题2.1).即得到如下的条形图:●2。某行业管理局所属40个企业2002年的产品销售收入数据如下(单位:万元):1521241291161001039295127104105119114115871031181421351251171081051101071371201361171089788123115119138112146113126(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率;(2)如果按规定:销售收入在125万元以上为先进企业,115万~125万元为良好企业,105万~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组.解:(1)要求对销售收入的数据进行分组,全部数据中,最大的为152,最小的为87,知数据全距为152-87=65;为便于计算和分析,确定将数据分为6组,各组组距为10,组限以整10划分;为使数据的分布满足穷尽和互斥的要求,注意到,按上面的分组方式,最小值87可能落在最小组之下,最大值152可能落在最大组之上,将最小组和最大组设计成开口形式;按照“上限不在组内"的原则,用划记法统计各组内数据的个数—-企业数,也可以用Excel进行排序统计(见Excel练习题2.2),将结果填入表内,得到频数分布表如下表中的左两列;将各组企业数除以企业总数40,得到各组频率,填入表中第三列;在向上的数轴中标出频数的分布,由下至上逐组计算企业数的向上累积及频率的向上累积,由上至下逐组计算企业数的向下累积及频率的向下累积。整理得到频数分布表如下:40个企业按产品销售收入分组表按销售收入分组(万元)企业数(个)频率(%)向上累积向下累积企业数频率企业数频率100以下100~110110~120120~130130~140140以上591274312。522。530.017.510.07.55142633374012.535。065。082。592。5100.04035261473100.087。565。035。017.57.5合计40100.0-———(2)按题目要求分组并进行统计,得到分组表如下:某管理局下属40个企分组表按销售收入分组(万元)企业数(个)频率(%)先进企业良好企业一般企业落后企业11119927。527。522。522。5合计40100.03。某百货公司连续40天的商品销售额如下(单位:万元):41252947383430384340463645373736454333443528463430374426384442363737493942323635根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图.解:全部数据中,最大的为49,最小的为25,知数据全距为49-25=24;为便于计算和分析,确定将数据分为5组,各组组距为5,组限以整5的倍数划分;为使数据的分布满足穷尽和互斥的要求,注意到,按上面的分组方式,最小值24已落在最小组之中,最大值49已落在最大组之中,故将各组均设计成闭口形式;按照“上限不在组内”的原则,用划记法或用Excel统计各组内数据的个数—-天数,(见Excel练习题2.3)并填入表内,得到频数分布表如下表中的左两列;将各组天数除以总天数40,得到各组频率,填入表中第三列;得到频数分布表如下:某百货公司日商品销售额分组表按销售额分组(万元)频数(天)频率(%)25~3030~3535~4040~4545~5046159610。015。037。522。515。0合计40100.0直方图:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→柱形图→选择子图表类型→完成.即得到如下的直方图:(见Excel练习题2。3)●4。为了确定灯泡的使用寿命(小时),在一批灯泡中随机抽取100只进行测试,所得结果如下:700716728719685709691684705718706715712722691708690692707701708729694681695685706661735665668710693697674658698666696698706692691747699682698700710722694690736689696651673749708727688689683685702741698713676702701671718707683717733712683692693697664681721720677679695691713699725726704729703696717688(1)利用计算机对上面的数据进行排序;(2)以组距为10进行等距分组,整理成频数分布表,并绘制直方图;(3)绘制茎叶图,并与直方图作比较。解:(1)排序:将全部数据复制到Excel中,并移动到同一列,点击:数据→排序→确定,即完成数据排序的工作。(见Excel练习题2.4)(2)按题目要求,利用已排序的Excel表数据进行分组及统计,得到频数分布表如下:(见Excel练习题2.4)100只灯泡使用寿命非频数分布按使用寿命分组(小时)灯泡个数(只)频率(%)650~66022660~67055670~68066680~6901414690~7002626700~7101818710~7201313720~7301010730~74033740~75033合计=SUM(ABOVE)100=SUM(ABOVE)100制作直方图:将上表(包含总标题,去掉合计栏)复制到Excel表中,选择全表后,点击:图表向导→柱形图→选择子图表类型→完成。即得到如下的直方图:(见Excel练习题2。4)(3)制作茎叶图:以十位以上数作为茎,填入表格的首列,将百、十位数相同的数据的个位数按由小到大的顺序填入相应行中,即成为叶,得到茎叶图如下:651866145686713467968112333455588996900111122233445566677888899700011223456667788897100223356778897201225678997335674147将直方图与茎叶图对比,可见两图十分相似。●5.下面是北方某城市1~2月份各天气温的记录数据:-32-4-7—11-1789-6—7-14-18—15-9-6-105—4-9—3-6—8-12-16-19-15—22-25-24-19-21—8—6—15—11—12-19-25—24-18—17-24-14-22-13-9—60-15—4—9—3—32—4—4-16-175-6-5指出上面的数据属于什么类型;对上面的数据进行适当的分组;绘制直方图,说明该城市气温分布的特点。解:(1)由于各天气温的记录数据属于数值型数据,它们可以比较高低,且0不表示没有,因此是定距数据。(2)分组如下:由于全部数据中,最大的为9,最小的为-25,知数据全距为9-(-25)=34;为便于计算和分析,确定将数据分为7组,各组组距为5,组限以整5的倍数划分;为使数据的分布满足穷尽和互斥的要求,注意到,按上面的分组方式,最小值-25已落在最小组之中,最大值9已落在最大组之中,故将各组均设计成闭口形式;按照“上限不在组内”的原则,用划记法(或Excel排序法,见Excel练习题2.5)统计各组内数据的个数-—天数,并填入表内,得到频数分布表如下表;北方某城市1~2月份各天气温分组天数(天)-25~—208-20~—158—15~—1010—10~-514-5~0140~545~107合计=SUM(ABOVE)65(3)制作直方图:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→柱形图→选择子图表类型→完成。即得到如下的直方图:(见Excel练习题2。5)●6.下面是某考试管理中心对2002年参加成人自学考试的12000名学生的年龄分组数据:年龄18~1921~2122~2425~2930~3435~3940~4445~59%1。934。734.117.26。42。71.81.2对这个年龄分布作直方图;从直方图分析成人自学考试人员年龄分布的特点。解:(1)制作直方图:将上表复制到Excel表中,点击:图表向导→柱形图→选择子图表类型→完成。即得到如下的直方图:(见Excel练习题2。6)(2)年龄分布的特点:自学考试人员年龄的分布为右偏。7。下面是A、B两个班学生的数学考试成绩数据:A班:4457596061616263636566666769707071727373737474747575757575767677777778787980808285858686909292929396B班:3539404444485152525455565657575758596061616263646668687070717173747479818283838485909191949596100100100将两个班的考试成绩用一个公共的茎制成茎叶图;比较两个班考试成绩分布的特点.解:(1)将树茎放置中间,A班树叶向左生长,B班树叶向右生长,得茎叶图如下:A班树茎B班数据个数树叶树叶数据个数03592144044842975122456677789121197665332110601123468892398877766555554443332100700113449876655200812334566632220901145660100003(2)比较可知:A班考试成绩的分布比较集中,且平均分数较高;B班考试成绩的分布比A班分散,且平均成绩较A班低.8.1997年我国几个主要城市各月份的平均相对湿度数据如下表,试绘制箱线图,并分析各城市平均相对湿度的分布特征.月份北京长春南京郑州武汉广州成都昆明兰州西安149707657777279655167241687157758083654167347507768818081584974450397267758479614670555566863718375584158657547357748782724342769708274818684845862874798271738478745755968667167718175775565104759755372807876456511665982777872787153731256578265827582715272资料来源:《中国统计年鉴1998》,中国统计出版社1998,第10页。解:箱线图如下:(特征请读者自己分析)●9。某百货公司6月份各天的销售额数据如下(单位:万元):257276297252238310240236265278271292261281301274267280291258272284268303273263322249269295(1)计算该百货公司日销售额的均值、中位数和四分位数;(2)计算日销售额的标准差。解:(1)将全部30个数据输入Excel表中同列,点击列标,得到30个数据的总和为8223,于是得该百货公司日销售额的均值:(见Excel练习题2.9)===274。1(万元)或点选单元格后,点击“自动求和”→“平均值”,在函数EVERAGE()的空格中输入“A1:A30",回车,得到均值也为274.1。在Excel表中将30个数据重新排序,则中位数位于30个数据的中间位置,即靠中的第15、第16两个数272和273的平均数:Me==272.5(万元)由于中位数位于第15个数靠上半位的位置上,所以前四分位数位于第1~第15个数据的中间位置(第8位)靠上四分之一的位置上,由重新排序后的Excel表中第8位是261,第15位是272,从而:QL=261+=261。25(万元)同理,后四分位数位于第16~第30个数据的中间位置(第23位)靠下四分之一的位置上,由重新排序后的Excel表中第23位是291,第16位是273,从而:QU=291-=290。75(万元)。(2)未分组数据的标准差计算公式为:s=利用上公式代入数据计算是个较为复杂的工作。手工计算时,须计算30个数据的离差平方,并将其求和,()再代入公式计算其结果:得s=21。1742。(见Excel练习题2.9)我们可以利用Excel表直接计算标准差:点选数据列(A列)的最末空格,再点击菜单栏中“∑”符号右边的小三角“▼”,选择“其它函数”→选择函数“STDEV”→“确定”,在出现的函数参数窗口中的Number1右边的空栏中输入:A1:A30,→“确定”,即在A列最末空格中出现数值:21。17412,即为这30个数据的标准差。于是:(万元)。(见Excel练习题2.9)●10。甲乙两个企业生产三种产品的单位成本和总成本资料如下:产品名称单位成本(元)总成本(元)甲企业乙企业ABC152030210030001500325515001500比较哪个企业的总平均成本高?并分析其原因。解:设产品单位成本为x,产量为f,则总成本为xf,由于:平均成本==,而已知数据中缺产量f的数据,又因个别产品产量f==从而=,于是得:甲企业平均成本===19.41(元),乙企业平均成本===18.29(元),对比可见,甲企业的总平均成本较高.原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。●11.在某地区抽取的120家企业按利润额进行分组,结果如下:按利润额分组(万元)企业数(个)200~30019300~40030400~50042500~60018600以上11合计120计算120家企业利润额的均值和标准差。解:设各组平均利润为x,企业数为f,则组总利润为xf,由于数据按组距式分组,须计算组中值作为各组平均利润,列表计算得:按利润额分组(万元)组中值企业数(个)总利润xfxf200~300250194750300~4003503010500400~5004504218900500~600550189900600以上650117150合计—12051200于是,120家企业平均利润为:===426。67(万元);分组数据的标准差计算公式为:s=手动计算须列表计算各组数据离差平方和(x-426。67)2f,列表计算如下组中值企业数(个)(x-426.67)2xf25019593033。489135030176348。6674504222860.133855018273785.200265011548639。1779合计1201614666。668表格中(x-426.67)2f方法一:将表格复制到Excel表中,点击第三列的顶行单元格后,在输入栏中输入:=(a3-426.67)*(a3-426.67)*b3,回车,得到该行的计算结果;点选结果所在单元格,并将鼠标移动到该单元格的右下方,当鼠标变成黑“+"字时,压下左键并拉动鼠标到该列最后一组数据对应的单元格处放开,则各组数据的(x-426.67)2f计算于是得标准差:(见Excel练习题2.11)s===116。48(万元).点击第三列的合计单元格后,点击菜单栏中的“∑”号,回车,即获得第三列数据的和。方法二:将各组组中值x复制到Excel的A列中,并按各组次数f在同列中复制,使该列中共有f个x,120个数据生成后,点选A列的最末空格,再点击菜单栏中“∑”符号右边的小三角“▼”,选择“其它函数”→选择函数“STDEV”→“确定”,在出现的函数参数窗口中的Number1右边的空栏中输入:A1:A30,→“确定”,即在A列最末空格中出现数值:116.4845,即为这120个数据的标准差.(见Excel练习题2.11)于是得标准差:s=116。4845(万元)。●12。为研究少年儿童的成长发育状况,某研究所的一位调查人员在某城市抽取100名7~17岁的少年儿童作为样本,另一位调查人员则抽取了1000名7~17岁的少年儿童作为样本。请回答下面的问题,并解释其原因。(1)哪一位调查研究人员在其所抽取的样本中得到的少年儿童的平均身高较大?或者这两组样本的平均身高相同?(2)哪一位调查研究人员在其所抽取的样本中得到的少年儿童身高的标准差较大?或者这两组样本的标准差相同?(3)哪一位调查研究人员有可能得到这1100名少年儿童的最高者或最低者?或者对两位调查研究人员来说,这种机会是相同的?解:(1)(2)两位调查人员所得到的平均身高和标准差应该差不多相同,因为均值和标准差的大小基本上不受样本大小的影响。(3)具有较大样本的调查人员有更大的机会取到最高或最低者,因为样本越大,变化的范围就可能越大.●13。一项关于大学生体重状况的研究发现,男生的平均体重为60公斤,标准差为5公斤;女生的平均体重为50公斤(1)是男生的体重差异大还是女生的体重差异大?为什么?(2)以磅为单位(1公斤=2.2磅(3)粗略地估计一下,男生中有百分之几的人体重在55公斤到65公斤之间?(4)粗略地估计一下,女生中有百分之几的人体重在40公斤到60公斤之间?解:(1)由于两组的平均体重不相等,应通过比较离散系数确定体重差异较大的组:因为女生的离散系数为V===0。1男生体重的离散系数为V===0。08对比可知女生的体重差异较大.(2)男生:==27。27(磅),s==2。27(磅);女生:==22.73(磅),s==2。27(磅);(3)68%;(4)95%。14.对10名成年人和10名幼儿的身高(厘米)进行抽样调查,结果如下:成年组166169172177180170172174168173幼儿组68696870717372737475(1)要比较成年组和幼儿组的身高差异,你会采用什么样的指标测度值?为什么?(2)比较分析哪一组的身高差异大?解:(1)应采用离散系数,因为成年人和幼儿的身高处于不同的水平,采用标准差比较不合适。离散系数消除了不同组数据水平高低的影响,采用离散系数就较为合理。(2)利用Excel进行计算,得成年组身高的平均数为172.1,标准差为4.202,从而得:成年组身高的离散系数:;又得幼儿组身高的平均数为71。3,标准差为2。497,从而得:幼儿组身高的离散系数:;由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大.15。一种产品需要人工组装,现有三种可供选择的组装方法。为检验哪种方法更好,随机抽取15个工人,让他们分别用三种方法组装。下面是15个工人分别用三种方法在相同的时间内组装的产品数量(单位:个):方法A方法B方法C164129125167130126168129126165130127170131126165130128164129127168127126164128127162128127163127125166128126167128116166125126165132125你准备采用什么方法来评价组装方法的优劣?如果让你选择一种方法,你会作出怎样的选择?试说明理由.解:(1)下表给计算出这三种组装方法的一些主要描述统计量:方法A方法B方法C平均165.6平均128.73平均125。53中位数165中位数129中位数126众数164众数128众数126标准偏差2。13标准偏差1。75标准偏差2.77极差8极差7极差12最小值162最小值125最小值116最大值170最大值132最大值128评价优劣应根据离散系数,据上得:方法A的离散系数VA==0。0129,方法B的离散系数VB==0。0136,方法C的离散系数VC==0.0221;对比可见,方法A的离散系数最低,说明方法A最优。(2)我会选择方法A,因为方法A的平均产量最高而离散系数最低,说明方法A的产量高且稳定,有推广意义。16.在金融证券领域,一项投资的的预期收益率的变化通常用该项投资的风险来衡量。预期收益率的变化越小,投资风险越低,预期收益率的变化越大,投资风险就越高.下面的两个直方图,分别反映了200种商业类股票和200种高科技类股票的收益率分布.在股票市场上,高收益率往往伴随着高风险。但投资于哪类股票,往往与投资者的类型有一定关系。(1)你认为该用什么样的统计测度值来反映投资的风险?(2)如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票?(3)如果你进行股票投资,你会选择商业类股票还是高科技类股票?频数025频数0255002550频数—3003060-3003060收益率收益率(a)商业类股票(b)高科技类股票解:(1)方差或标准差;(2)商业类股票;(3)(略)。17。下图给出了2000年美国人口年龄的金字塔,其绘制方法及其数字说明与【例2.10】相同,试对该图反映的人口、政治、社会、经济状况进行分析。第3章概率与概率分布—-练习题1。某技术小组有12人,他们的性别和职称如下,现要产生一名幸运者。试求这位幸运者分别是以下几种可能的概率:(1)女性;(2)工程师;(3)女工程师,(4)女性或工程师。并说明几个计算结果之间有何关系?序号123456789101112性别男男男女男男女男女女男男职称工程师技术员技术员技术员技术员工程师工程师技术员技术员工程师技术员技术员解:设A=女性,B=工程师,AB=女工程师,A+B=女性或工程师(1)P(A)=4/12=1/3(2)P(B)=4/12=1/3(3)P(AB)=2/12=1/6(4)P(A+B)=P(A)+P(B)-P(AB)=1/3+1/3-1/6=1/22.某种零件加工必须依次经过三道工序,从已往大量的生产记录得知,第一、二、三道工序的次品率分别为0.2,0.1,0。1,并且每道工序是否产生次品与其它工序无关。试求这种零件的次品率。解:求这种零件的次品率,等于计算“任取一个零件为次品”(记为A)的概率.考虑逆事件“任取一个零件为正品”,表示通过三道工序都合格.据题意,有:于是3.已知参加某项考试的全部人员合格的占80%,在合格人员中成绩优秀只占15%。试求任一参考人员成绩优秀的概率。解:设A表示“合格”,B表示“优秀”。由于B=AB,于是=0。8×0.15=0。124.某项飞碟射击比赛规定一个碟靶有两次命中机会(即允许在第一次脱靶后进行第二次射击)。某射击选手第一发命中的可能性是80%,第二发命中的可能性为50%.求该选手两发都脱靶的概率。解:设A=第1发命中.B=命中碟靶。求命中概率是一个全概率的计算问题。再利用对立事件的概率即可求得脱靶的概率。=0.8×1+0.2×0.5=0.9脱靶的概率=1-0.9=0.1或(解法二):P(脱靶)=P(第1次脱靶)×P(第2次脱靶)=0.2×0。5=0.15.已知某地区男子寿命超过55岁的概率为84%,超过70岁以上的概率为63%。试求任一刚过55岁生日的男子将会活到70岁以上的概率为多少?解:设A=活到55岁,B=活到70岁。所求概率为:6.某企业决策人考虑是否采用一种新的生产管理流程.据对同行的调查得知,采用新生产管理流程后产品优质率达95%的占四成,优质率维持在原来水平(即80%)的占六成。该企业利用新的生产管理流程进行一次试验,所生产5件产品全部达到优质.问该企业决策者会倾向于如何决策?解:这是一个计算后验概率的问题.设A=优质率达95%,=优质率为80%,B=试验所生产的5件全部优质。P(A)=0.4,P()=0。6,P(B|A)=0.955,P(B|)=0.85,所求概率为:决策者会倾向于采用新的生产管理流程。7。某公司从甲、乙、丙三个企业采购了同一种产品,采购数量分别占总采购量的25%、30%和45%。这三个企业产品的次品率分别为4%、5%、3%。如果从这些产品中随机抽出一件,试问:(1)抽出次品的概率是多少?(2)若发现抽出的产品是次品,问该产品来自丙厂的概率是多少?解:令A1、A2、A3分别代表从甲、乙、丙企业采购产品,B表示次品.由题意得:P(A1)=0。25,P(A2)=0.30,P(A3)=0。45;P(B|A1)=0。04,P(B|A2)=0。05,P(B|A3)=0.03;因此,所求概率分别为:(1)=0。25×0.04+0。30×0。05+0.45×0。03=0。0385(2)8。某人在每天上班途中要经过3个设有红绿灯的十字路口。设每个路口遇到红灯的事件是相互独立的,且红灯持续24秒而绿灯持续36秒.试求他途中遇到红灯的次数的概率分布及其期望值和方差、标准差。解:据题意,在每个路口遇到红灯的概率是p=24/(24+36)=0。4。设途中遇到红灯的次数=X,因此,X~B(3,0.4)。其概率分布如下表:xi0123P(X=xi)0。2160.4320。2880。064期望值(均值)=1。2(次),方差=0.72,标准差=0.8485(次)9.一家人寿保险公司某险种的投保人数有20000人,据测算被保险人一年中的死亡率为万分之5。保险费每人50元。若一年中死亡,则保险公司赔付保险金额50000元。试求未来一年该保险公司将在该项保险中(这里不考虑保险公司的其它费用):(1)至少获利50万元的概率;(2)亏本的概率;(3)支付保险金额的均值和标准差.解:设被保险人死亡数=X,X~B(20000,0。0005).(1)收入=20000×50(元)=100万元。要获利至少50万元,则赔付保险金额应该不超过50万元,等价于被保险人死亡数不超过10人。所求概率为:P(X≤10)=0.58304。(2)当被保险人死亡数超过20人时,保险公司就要亏本。所求概率为:P(X>20)=1-P(X≤20)=1-0.99842=0.00158(3)支付保险金额的均值=50000×E(X)=50000×20000×0。0005(元)=50(万元)支付保险金额的标准差=50000×σ(X)=50000×(20000×0。0005×0。9995)1/2=158074(元)10.对上述练习题3.09的资料,试问:(1)可否利用泊松分布来近似计算?(2)可否利用正态分布来近似计算?(3)假如投保人只有5000人,可利用哪种分布来近似计算?解:(1)可以.当n很大而p很小时,二项分布可以利用泊松分布来近似计算。本例中,λ=np=20000×0.0005=10,即有X~P(10).计算结果与二项分布所得结果几乎完全一致.(2)也可以。尽管p很小,但由于n非常大,np和np(1—p)都大于5,二项分布也可以利用正态分布来近似计算。本例中,np=20000×0。0005=10,np(1-p)=20000×0.0005×(1-0.0005)=9。995,即有X~N(10,9。995)。相应的概率为:P(X≤10.5)=0.51995,P(X≤20。5)=0。853262。可见误差比较大(这是由于P太小,二项分布偏斜太严重)。【注】由于二项分布是离散型分布,而正态分布是连续性分布,所以,用正态分布来近似计算二项分布的概率时,通常在二项分布的变量值基础上加减0.5作为正态分布对应的区间点,这就是所谓的“连续性校正”。(3)由于p=0。0005,假如n=5000,则np=2。5<5,二项分布呈明显的偏态,用正态分布来计算就会出现非常大的误差.此时宜用泊松分布去近似。11。某企业生产的某种电池寿命近似服从正态分布,且均值为200小时,标准差为30小时。若规定寿命低于150小时为不合格品。试求该企业生产的电池的:(1)合格率是多少?(2)电池寿命在200左右多大的范围内的概率不小于0。9。解:(1)=0.04779合格率为1—0。04779=0.95221或95。221%。(2)设所求值为K,满足电池寿命在200±K小时范围内的概率不小于0.9,即有:即:,K/30≥1.64485,故K≥49。3456。12。某商场某销售区域有6种商品。假如每1小时内每种商品需要12分钟时间的咨询服务,而且每种商品是否需要咨询服务是相互独立的。求:(1)在同一时刻需用咨询的商品种数的最可能值是多少?(2)若该销售区域仅配有2名服务员,则因服务员不足而不能提供咨询服务的概率是多少?解:设X=同一时刻需用咨询服务的商品种数,由题意有X~B(6,0.2)(1)X的最可能值为:X0=[(n+1)p]=[7×0。2]=1(取整数)(2)=1—0。9011=0。0989第4章抽样与抽样分布——练习题1。一个具有个观察值的随机样本抽自于均值等于20、标准差等于16的总体。⑴给出的抽样分布(重复抽样)的均值和标准差⑵描述的抽样分布的形状。你的回答依赖于样本容量吗?⑶计算标准正态统计量对应于的值。⑷计算标准正态统计量对应于的值。解:已知n=64,为大样本,μ=20,σ=16,⑴在重复抽样情况下,的抽样分布的均值为a。20,2b.近似正态c.—2。25d。1。502.参考练习4。1求概率。⑴<16;⑵>23;⑶>25;⑷.落在16和22之间;⑸〈14。解:a.0。0228b。0.0668c.0.0062d.0。8185e。0。00133.一个具有个观察值的随机样本选自于、的总体。试求下列概率的近似值:解:a.0。8944b.0.0228c。0。1292d.0。96994。一个具有个观察值的随机样本选自于和的总体。⑴你预计的最大值和最小值是什么?⑵你认为至多偏离多么远?⑶为了回答b你必须要知道吗?请解释。解:a.101,99b.1c。不必5。考虑一个包含的值等于0,1,2,…,97,98,99的总体。假设的取值的可能性是相同的。则运用计算机对下面的每一个值产生500个随机样本,并对于每一个样本计算。对于每一个样本容量,构造的500个值的相对频率直方图.当值增加时在直方图上会发生什么变化?存在什么相似性?这里和。解:趋向正态6.美国汽车联合会(AAA)是一个拥有90个俱乐部的非营利联盟,它对其成员提供旅行、金融、保险以及与汽车相关的各项服务.1999年5月,AAA通过对会员调查得知一个4口之家出游中平均每日餐饮和住宿费用大约是213美元(《旅行新闻》TravelNews,1999年5月11日).假设这个花费的标准差是15美元,并且AAA所报道的平均每日消费是总体均值。又假设选取49个4描述(样本家庭平均每日餐饮和住宿的消费)的抽样分布。特别说明服从怎样的分布以及的均值和方差是什么?证明你的回答;对于样本家庭来说平均每日消费大于213美元的概率是什么?大于217美元的概率呢?在209美元和217美元之间的概率呢?解:a。正态分布,213,4.5918b.0.5,0。031,0。9387.技术人员对奶粉装袋过程进行了质量检验.每袋的平均重量标准为克、标准差为克.监控这一过程的技术人者每天随机地抽取36袋,并对每袋重量进行测量。现考虑这36袋奶粉所组成样本的平均重量.(1)描述的抽样分布,并给出和的值,以及概率分布的形状;假设某一天技术人员观察到,这是否意味着装袋过程出现问题了呢,为什么?解:a.406,1。68,正态分布b。0.001c.是,因为小概率出现了8.在本章的统计实践中,某投资者考虑将1000美元投资于种不同的股票。每一种股票月收益率的均值为,标准差。对于这五种股票的投资组合,投资者每月的收益率是。投资者的每月收益率的方差是,它是投资者所面临风险的一个度量.假如投资者将1000美元仅投资于这5种股票的其中3种,则这个投资者所面对的风险将会增加还是减少?请解释;假设将1000美元投资在另外10种收益率与上述的完全一样的股票,试度量其风险,并与只投资5种股票的情形进行比较。解:a。增加b。减少9.某制造商为击剑运动员生产安全夹克,这些夹克是以剑锋刺入其中时所需的最小力量(以牛顿为单位)来定级的.如果生产工艺操作正确,则他生产的夹克级别应平均840牛顿,标准差15牛顿。国际击剑管理组织(FIE)希望这些夹克的最低级别不小于800牛顿。为了检查其生产过程是否正常,某检验人员从生产过程中抽取了50个夹克作为一个随机样本进行定级,并计算,即该样本中夹克级别的均值。她假设这个过程的标准差是固定的,但是担心级别均值可能已经发生变化。如果该生产过程仍旧正常,则的样本分布为何?假设这个检验人员所抽取样本的级别均值为830牛顿,则如果生产过程正常的话,样本均值≤830牛顿的概率是多少?在检验人员假定生产过程的标准差固定不变时,你对b部分有关当前生产过程的现状有何看法(即夹克级别均值是否仍为840牛顿)?现在假设该生产过程的均值没有变化,但是过程的标准差从15牛顿增加到了45牛顿。在这种情况下的抽样分布是什么?当具有这种分布时,则≤830牛顿的概率是多少?解:a。正态b.约等于0c.不正常d.正态,0。0610.在任何生产过程中,产品质量的波动都是不可避免的。产品质量的变化可被分成两类:由于特殊原因所引起的变化(例如,某一特定的机器),以及由于共同的原因所引起的变化(例如,产品的设计很差)。一个去除了质量变化的所有特殊原因的生产过程被称为是稳定的或者是在统计控制中的.剩余的变化只是简单的随机变化。假如随机变化太大,则管理部门不能接受,但只要消除变化的共同原因,便可减少变化(Deming,1982,1986;DeVor,Chang,和Sutherland,1992)。通常的做法是将产品质量的特征绘制到控制图上,然后观察这些数值随时间如何变动。例如,为了控制肥皂中碱的数量,可以每小时从生产线中随机地抽选块试验肥皂作为样本,并测量其碱的数量,不同时间的样本含碱量的均值描绘在下图中。假设这个过程是在统计控制中的,则的分布将具有过程的均值,标准差具有过程的标准差除以样本容量的平方根,。下面的控制图中水平线表示过程均值,两条线称为控制极限度,位于的上下3的位置。假如落在界限的外面,则有充分的理由说明目前存在变化的特殊原因,这个过程一定是失控的。当生产过程是在统计控制中时,肥皂试验样本中碱的百分比将服从和的近似的正态分布。假设则上下控制极限应距离多么远?假如这个过程是在控制中,则落在控制极限之外的概率是多少?假设抽取样本之前,过程均值移动到,则由样本得出这个过程失控的(正确的)结论的概率是多少?解:a。0.015b。0。0026c。0.15874.11。参考练习4。10。肥皂公司决定设置比练习4。10中所述的这一限度更为严格的控制极限。特别地,当加工过程在控制中时,公司愿意接受落在控制极限外面的概率是0.10。若公司仍想将控制极限度设在与均值的上下距离相等之处,并且仍计划在每小时的样本中使用个观察值,则控制极限应该设定在哪里?假设a部分中的控制极限已付诸实施,但是公司不知道,现在是3%(而不是2%)。若,则落在控制极限外面的概率是多少?若呢?解:a.(0.012,0。028)b。0.6553,0.72784.12.参考练习4.11。为了改进控制图的敏感性,有时将警戒线与控制极限一起画在图上。警戒限一般被设定为。假如有两个连续的数据点落在警戒限之外,则这个过程一定是失控的(蒙哥马利,1991年)。假设肥皂加工过程是在控制中(即,它遵循和的正态分布),则的下一个值落在警戒限之外的概率是什么?假设肥皂加工过程是在控制中,则你预料到画在控制图上的的这40个值中有多少个点落在上控制极限以上?假设肥皂加工过程是在控制中,则的两个未来数值落在下警戒线以下的概率是多少?解:a。0.05b。1c。0。000625参数估计●1。从一个标准差为5的总体中抽出一个容量为40的样本,样本均值为25。样本均值的抽样标准差等于多少?在95%的置信水平下,允许误差是多少?解:已知总体标准差σ=5,样本容量n=40,为大样本,样本均值=25,(1)样本均值的抽样标准差===0.7906(2)已知置信水平1-=95%,得=1。96,于是,允许误差是E==1.96×0.7906=1。5496。●2。某快餐店想要估计每位顾客午餐的平均花费金额,在为期3周的时间里选取49名顾客组成了一个简单随机样本。假定总体标准差为15元,求样本均值的抽样标准误差;在95%的置信水平下,求允许误差;如果样本均值为120元,求总体均值95%的置信区间.解:(1)已假定总体标准差为=15元,则样本均值的抽样标准误差为===2.1429(2)已知置信水平1-=95%,得=1。96,于是,允许误差是E==1。96×2。1429=4。2000。(3)已知样本均值为=120元,置信水平1-=95%,得=1.96,这时总体均值的置信区间为=120±4。2=可知,如果样本均值为120元,总体均值95%的置信区间为(115.8,124。2)元。●3。某大学为了解学生每天上网的时间,在全校7500名学生中采取不重复抽样方法随机抽取36人,调查他们每天上网的时间,得到下面的数据(单位:小时):3。33。4。15.44.53。24.42.05.42.66。41。83.55。72。32.11。91.25。14。34.23。60.81。54。71.41.22。93。52。40.53.62。5求该校大学生平均上网时间的置信区间,置信水平分别为90%、95%和99%。解:⑴计算样本均值:将上表数据复制到Excel表中,并整理成一列,点击最后数据下面空格,选择自动求平均值,回车,得到=3。316667,⑵计算样本方差s:删除Excel表中的平均值,点击自动求值→其它函数→STDEV→选定计算数据列→确定→确定,得到s=1.6093也可以利用Excel进行列表计算:选定整理成一列的第一行数据的邻列的单元格,输入“=(a7—3.316667)^2”=90。65再对总和除以n-1=35后,求平方根,即为样本方差的值s===1.6093。⑶计算样本均值的抽样标准误差:已知样本容量n=36,为大样本,得样本均值的抽样标准误差为===0。2682⑷分别按三个置信水平计算总体均值的置信区间:置信水平为90%时:由双侧正态分布的置信水平1-=90%,通过2-1=0.9换算为单侧正态分布的置信水平=0。95,查单侧正态分布表得=1。64,计算得此时总体均值的置信区间为=3。3167±1.64×0。2682=可知,当置信水平为90%时,该校大学生平均上网时间的置信区间为(2。87,3。76)小时;置信水平为95%时:由双侧正态分布的置信水平1-=95%,得=1.96,计算得此时总体均值的置信区间为=3.3167±1。96×0.2682=可知,当置信水平为95%时,该校大学生平均上网时间的置信区间为(2.79,3。84)小时;置信水平为99%时:若双侧正态分布的置信水平1-=99%,通过2-1=0.99换算为单侧正态分布的置信水平=0.995,查单侧正态分布表得=2.58,计算得此时总体均值的置信区间为=3。3167±2。58×0.2682=可知,当置信水平为99%时,该校大学生平均上网时间的置信区间为(2。62,4。01)小时。4。从一个正态总体中随机抽取容量为8的样本,各样本值分别为:10,8,12,15,6,13,5,11。求总体均值95%的置信区间。解:(7.1,12.9)。5。某居民小区为研究职工上班从家里到单位的距离,抽取了由16个人组成的一个随机样本,他们到单位的距离(公里)分别是:103148691211751015916132求职工上班从家里到单位平均距离95%的置信区间。解:(7。18,11.57).●6。在一项家电市场调查中,随机抽取了200个居民户,调查他们是否拥有某一品牌的电视机。其中拥有该品牌电视机的家庭占23%。求总体比率的置信区间,置信水平分别为90%和95%。解:已知样本容量n=200,为大样本,拥有该品牌电视机的家庭比率p=23%,拥有该品牌电视机的家庭比率的抽样标准误差为===2.98%⑴双侧置信水平为90%时,通过2-1=0.90换算为单侧正态分布的置信水平=0.95,查单侧正态分布表得=1.64,此时的置信区间为=23%±1。64×2.98%=可知,当置信水平为90%时,拥有该品牌电视机的家庭总体比率的置信区间为(18.11%,27。89%)。⑵双侧置信水平为95%时,得=1.96,此时的置信区间为=23%±1.96×2。98%=可知,当置信水平为95%时,拥有该品牌电视机的家庭总体比率的置信区间为;(17。16%,28。84%)。●7.某居民小区共有居民500户,小区管理者准备采取一项新的供水设施,想了解居民是否赞成。采取重复抽样方法随机抽取了50户,其中有32户赞成,18户反对。(1)求总体中赞成该项改革的户数比率的置信区间,置信水平为95%;(2)如果小区管理者预计赞成的比率能达到80%,应抽取多少户进行调查?解:已知总体单位数N=500,重复抽样,样本容量n=50,为大样本,样本中,赞成的人数为n1=32,得到赞成的比率为p===64%(1)赞成比率的抽样标准误差为==6.788%由双侧正态分布的置信水平1-=95%,得=1.96,计算得此时总体户数中赞成该项改革的户数比率的置信区间为=64%±1。96×6。788%=可知,置信水平为95%时,总体中赞成该项改革的户数比率的置信区间为(50。70%,77.30%).(2)如预计赞成的比率能达到80%,即p=80%,由=6.788%,即=6。788%得样本容量为n==34.72取整为35,即可得,如果小区管理者预计赞成的比率能达到80%,应抽取35户进行调查.8.从两个正态总体中分别抽取两个独立的随机样本,它们的均值和标准差如下表:来自总体1的样本来自总体2的样本求90%的置信区间;求95%的置信区间。解:(1。86,17。74);(0。19,19.41)。9。从两个正态总体中分别抽取两个独立的随机样本,它们的均值和标准差如下表:来自总体1的样本来自总体2的样本(1)设,求95%的置信区间;(2)设,,求95%的置信区间;(3)设,,求95%的置信区间;(4)设,,求95%的置信区间;(5)设,,求95%的置信区间。解:(1)2±1.176;(2)2±3。986;(3)2±3.986;(4)2±3.587;(5)2±3.364。10.下表是由4对观察值组成的随机样本:配对号来自总体A的样本来自总体B的样本1202573106485(1)计算A与B各对观察值之差,再利用得出的差值计算和;(2)设和分别为总体A和总体B的均值,构造95%的置信区间。解:(1),;(2)1.75±4.27。11.从两个总体中各抽取一个的独立随机样本,来自总体1的样本比率为,来自总体2的样本比率为。(1)构造90%的置信区间;(2)构造95%的置信区间。解:(1)10%±6。98%;(2)10%±8.32%。12.生产工序的方差是共需质量的一个重要度量.当方差较大时,需要对共需进行改进以减小方差。下面是两部机器生产的袋茶重量(克)的数据:机器1机器23.453。223.903.223。283。353。202.983.703.383.193.303。223。753。283.303.203.053.503。383。353.303.293.332。953。453.203。343.353。273.163。483.123.283。163。283。203.183。253.303。343.25构造两个总体方差比95%的置信区间.解:(4.06,14.35)。●13.根据以往的生产数据,某种产品的废品率为2%。如果要求95%的置信区间,若要求允许误差不超过4%,应抽取多大的样本?解:已知总体比率=2%=0。02,由置信水平1-α=95%,得置信度=1.96,允许误差E≤4%即由允许误差公式E=整理得到样本容量n的计算公式:n===≥=47.0596由于计算结果大于47,故为保证使“≥"成立,至少应取48个单位的样本.●14.某超市想要估计每个顾客平均每次购物花费的金额。根据过去的经验,标准差大约为120元,现要求以95%的置信水平估计每个购物金额的置信区间,并要求允许误差不超过20元,应抽取多少个顾客作为样本?解:已知总体标准差=120,由置信水平1-α=95%,得置信度=1.96,允许误差E≤20即由允许误差公式E=整理得到样本容量n的计算公式:n=≥=138。2976由于计算结果大于47,故为保证使“≥”成立,至少应取139个顾客作为样本。15。假定两个总体的标准差分别为:,,若要求误差范围不超过5,相应的置信水平为95%,假定,估计两个总体均值之差时所需的样本容量为多大?解:57.16。假定,允许误差,相应的置信水平为95%,估计两个总体比率之差时所需的样本容量为多大?解:769。第6章假设检验——练习题研究者想要寻找证据予以支持的假设是“新型弦线的平均抗拉强度相对于以前提高了”,所以原假设与备择假设应为:,。=“某一品种的小鸡因为同类相残而导致的死亡率”,,。,。(1)第一类错误是该供应商提供的这批炸土豆片的平均重量的确大于等于60克,但检验结果却提供证据支持店方倾向于认为其重量少于60克;(2)第二类错误是该供应商提供的这批炸土豆片的平均重量其实少于60克,但检验结果却没有提供足够的证据支持店方发现这一点,从而拒收这批产品;(3)连锁店的顾客们自然看重第二类错误,而供应商更看重第一类错误。(1)检验统计量,在大样本情形下近似服从标准正态分布;(2)如果,就拒绝;(3)检验统计量=2。94〉1.645,所以应该拒绝。=3。11,拒绝。=1.93,不拒绝。=7。48,拒绝。=206.22,拒绝。=—5。145,拒绝。=1.36,不拒绝.=—4。05,拒绝。=8.28,拒绝.(1)检验结果如下:t—检验:双样本等方差假设变量1变量2平均100.7109.9方差24.1157894733.35789474观测值2020合并方差28。73684211假设平均差0df38tStat-5。427106029P(T<=t)单尾1.73712E—06t单尾临界1。685953066P(T〈=t)双尾3。47424E-06t双尾临界2.024394234t-检验:双样本异方差假设变量1变量2平均100.7109。9方差24。1157894733.35789474观测值2020假设平均差0df37tStat-5.427106029P(T〈=t)单尾1.87355E-06t单尾临界1.687094482P(T〈=t)双尾3.74709E—06t双尾临界2。026190487(2)方差检验结果如下:F-检验双样本方差分析变量1变量2平均100。7109.9方差24.1157894733。35789474观测值2020df1919F0.722940991P(F<=f)单尾0.243109655F单尾临界0。395811384第7章方差分析与试验设计——练习题(或),不能拒绝原假设。(或),拒绝原假设。,拒绝原假设;,不能拒绝原假设;,拒绝原假设.方差分析表中所缺的数值如下表:差异源SSdfMSFP-valueFcrit组间42022101。4780.2459463。354131组内383627142。07———总计425629——-—(或),不能拒绝原假设。有5种不同品种的种子和4种不同的施肥方案,在20快同样面积的土地上,分别采用5种种子和4种施肥方案搭配进行试验,取得的收获量数据如下表:(或),拒绝原假设。(或),拒绝原假设。(或),不能拒绝原假设。(或),不能拒绝原假设.(或),拒绝原假设。(或),不能拒绝原假设。(或),不能拒绝原假设。第8章相关与回归分析--练习题●1。表中是道琼斯工业指数(DJIA)和标准普尔500种股票指数(S&P500)1988年至1997年对应股票的收益率资料:年份DJIA收益率(%)S&P500收益率(%)年份DJIA收益率(%)S&P500收益率(%)198816.016。6199316。810.1198931。731。519944。91。31990-0。4-3。2199536.437。6199123.930。0199628.623。019927。47.6199724.933。4计算两种指数收益率的相关系数,分析其相关程度,以0。05的显著性水平检验相关系数的显著性。解:(1)解法一:利用Excel进行表格计算相关系数设DJIA收益率为x,S&P500收益率为y,将已知表格复制到Excel中,列出计算x2、xy、y2及其合计数的栏目并进行计算,得结果如下:(利用Excel计算进行表格计算的方法类似于标准差的Excel计算)年份DJIA收益率(%)S&P500收益率(%)X2xyy2xy198816.016。6256265。6275.56198931。731。51004。89998.55992.251990-0。4-3.20.161。2810.24199123.930。0571。2171790019927.47。654。7656.2457.76199316。810。1282.24169。68102.0119944.91.324.016.371。69199536.437.61324。961368。641413。76199628.623。0817.96657.8529199724.933.4620。01831。661115.56合计190.2187。94956.25072。825397。83代入相关系数计算公式得:r===0。948138解法二:利用Excel函数“CORREL”计算相关系数(Correlationcoefficient,相关系数)=1\*GB3①将已知数据表复制到Excel中,同类数据置于同一列;②在表格外选择某一单元格后,点选菜单栏中“∑”右边的“▼"后,选择“其它函数”,在“插入函数”窗口中,点击“或选择类别(C)”输入栏右边的“∨”,选择“统计”,再在“选择函数(N)”中选择函数“CORREL",然后点击“确定”;③在“函数参数"窗口中,点击“Array1”输入栏后,在Excel表中刷取“DJIA收益率”数据,再点击“Array2”输入栏后,在Excel表中刷取“S&P500收益率"数据,然后点击“确定”。(由于相关系数中,两变量是对等的,故两列数据的选择顺序可以对换,而计算结果是相同的。)这时即在第②步骤中所选择的单元格中出现相关系数的计算结果。可知,相关系数为,以上相关系数的计算结果说明,DJIA收益率与S&P500收益率的相关程度属于高度正相关.(2)计算t统计量(免)给定显著性水平=0.05,查t分布表得自由度n—2=10-2=8的临界值为2。306,显然,表明相关系数r在统计上是显著的.2.利用【例8—3】的表8.3中提供的各省市人均GDP和第一产业中就业比例的数据,试分析各省市人均GDP与第一产业就业比例的相关性,并对其显著性作统计检验。解:表8.3中提供的各省市人均GDP和第一产业中就业比例的数据为:序号地区GDP就业比例%序号地区GDP就业比例%1北京2845。6511.217湖北4662。2848。42天津1840。1020.018湖南3983.0060。53河北5577。7849。619广东10647。7040.04山西1779.9746.920广西2231.1961。85内蒙古1545。7953.921海南545.9660。36辽宁5033.0837。222重庆1749。7754.77吉林2032.4850。723四川4421.6758。88黑龙江3561。0049.624贵州1084。9066。49上海4950.8412。525云南2074.7173。610江苏9511.9141。426西藏138.7371。811浙江6748。1535.727陕西1844。2755.712安徽3290.1358。728甘肃1072.5159。413福建4253.6845.829青海300.9560.014江西2175.6851。630宁夏298.3856.515山东9438.3152.331新疆1485.4856。616河南5640。1163.1利用Excel中的”数据分析”计算各省市人均GDP和第一产业中就业比例的相关系数,方法同上第1题,即应用统计函数“CORREL”进行计算,也可以构成计算表格进行计算:解法一:构成Excel计算表格对相关系数计算公式中的计算元素进行列表计算:序号地区GDP就业比例%x2xyy2xy1北京2845。6511.28097723.922531871。3125.442天津1840.1020.03385968.010036802.0400。003河北5577.7849.631111629。7284276657.92460.164山西1779.9746。93168293。200983480。62199。615内蒙古1545.7953。92389466。724183318。12905.216辽宁5033。0837.225331894。2864187230.61383。847吉林2032.4850。74130974。9504103046.72570.498黑龙江3561.0049。612680721。0000176625。62460.169上海4950。8412.524510816。705661885。5156。2510江苏9511。9141。490476431。8481393793。11713。9611浙江6748。1535。745537528。4225240909。01274。4912安徽3290。1358.710824955。4169193130.63445。6913福建4253。6845.818093793。5424194818.52097.6414江西2175。6851。64733583.4624112265.12662。5615山东9438.3152.389081695.6561493623.62735.2916河南5640.1163。131810840。8121355890。93981.6117湖北4662。2848.421736854.7984225654。42342.5618湖南3983.0060。515864289.0000240971。53660。2519广东10647。7040。0113373515。2900425908。01600。0020广西2231。1961.84978208.8161137887.53819。2421海南545.9660.3298072。321632921。43636。0922重庆1749.7754.73061695。052995712.42992。0923四川4421.6758.819551165.5889259994.23457.4424贵州1084.9066。41177008。010072037.44408。9625云南2074。7173.64304421.5841152698。75416.9626西藏138。7371。819246.01299960.85155。2427陕西1844。2755。73401331.8329102725。83102.4928甘肃1072。5159.41150277.700163707.13528.3629青海300.9560。090570.902518057。03600。0030宁夏298。3856.589030.624416858.53192.2531新疆1485.4856.62206650。830484078。23203.56合计106766.161564。7596668656。05404964521.985687.89将计算结果代入相关系数计算公式中,由上得r=====-0.342391解法二:应用Excel中的函数“CORREL”计算,=1\*GB3①将已知数据表复制到Excel中;②在表格外选择某一单元格,点选菜单栏中“∑”右边的“▼”后,选择“其它函数”,在“插入函数”窗口中,点击“或选择类别(C)”输入栏右边的“∨",选择“统计”,再在“选择函数(N)”中选择函数“CORREL",然后点击“确定”;③在“函数参数”窗口中,点击“Array1”输入栏后,在Excel表中刷取“就业比例%"数据,再点击“Array2”输入栏后,在Excel表中刷取“GDP”数据,然后点击“确定”。这时即在第②步骤中所选择的单元格中出现相关系数的计算结果。结果也是r=-0。34239,这说明人均GDP与第一产业中就业比例是负相关,但相关系数只有-0。34239,表明二者相关程度并不大,属于低度负相关关系.相关系数检验:(免)在总体相关系数的原假设下,计算t统计量:查t分布表,自由度为31-2=29,当显著性水平取时,=2。045;当显著性水平取时,=1.699。由于计算的t统计量的绝对值1.9624小于=2。045,所以在的显著性水平下,不能拒绝相关系数的原假设。即是说,在的显著性水平下不能认为人均GDP与第一产业中就业比例有显著的线性相关性。但是计算的t统计量的绝对值1。9624大于=1。699,所以在的显著性水平下,可以拒绝相关系数的原假设。即在的显著性水平下,可以认为人均GDP与第一产业中就业比例有一定的线性相关性。●3.表中是16支公益股票某年的每股账面价值和当年红利:公司序号账面价值(元)红利(元)公司序号账面价值(元)红利(元)122。442。4912.140。80220.892.981023。311。94322.092。061116。233.00414.481.09120.560。28520.731.96130.840.8467819.2520。3726.431。552.161。6014151618。0512.4511。331。801.211.07根据上表资料:(1)建立每股账面价值和当年红利的回归方程;(2)解释回归系数的经济意义;(3)若序号为6的公司的股票每股账面价值增加1元,估计当年红利可能为多少?解:(1)设当年红利为Y,每股帐面价值为X则回归方程为,下面分别应用两种方法计算回归参数:方法一:利用Excel进行表格运算计算公式元素:公司序号账面价值(元)红利(元)x2xyxy122。442。4503。553653。856220。892.98436。392162.2522322.092。06487。968145。5054414。481。09209.670415。7832520。731。96429。732940。6308619。251。55370。562529。8375720.372.16414.936943。9992826.431。6698。544942。288912.140.8147。37969。7121023。311。94543。356145.22141116.233263。412948。69120。560.280。31360。1568130.840。840.70560。70561418。051。8325.802532。491512.451.21155。002515。06451611.331。07128.368912.1231合计261.5926.745115.703498。3157将计算结果代入回归系数计算公式,得:回归系数==0.07287590初始值===0.47977458方法二:应用Excel函数计算直线回归方程的两个参数:=1\*GB2⑴应用统计函数“SLOPE”计算直线斜率:(slope,斜率)=1\*GB3①在表格外选定某单元格,作为直线斜率的放置位置,点击:菜单栏中“∑”右边的“▼”后,选择“其它函数”,在“插入函数”窗口中,点击“或选择类别(C)"输入栏右边的“∨”,选择“统计",再在“选择函数(N)”中选择函数“SLOPE”,然后点击“确定”;=2\*GB3②在“函数参数”窗口中,点击“Known_y's”输入栏后,在Excel表中刷取y列数据,再点击“Known_x’s"输入栏后,在Excel表中刷取x列数据,然后点击“确定”。这时即在选定的单元格中出现直线斜率的计算结果0.072876=2\*GB2⑵应用统计函数“INTERCEPT”计算直线与y轴的截距-—直线起
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024物业服务合同服务内容与标的
- 地铁车辆段维修挖机租赁合同样本
- 企业内部保安员招聘合同
- 借用资质的内部合作协议
- 2024版二手房买卖合同无房产证
- 二零二五年度能源消耗优化合作协议书2篇
- 二零二五年度电子元器件库存管理合同3篇
- 2024版建设工程合同管理题库
- 2024环境保护合同协议书
- 二零二五年度社保代缴业务合作协议2篇
- 铸牢中华民族共同体意识-考试复习题库(含答案)
- 新GCP医疗器械临床试验知识试题(附含答案)
- 2024年浙江首考高考选考生物试卷试题真题(含答案详解)
- 春节期间安全告知书
- 天津市红桥区2023-2024学年七年级上学期期末地理试题
- 西门子数字化工厂-数字化车间-先进制造技术
- 饭店新店后厨培训方案
- 青少年礼仪培训课件
- 2024医院消防安全培训
- 景区销售可行性报告
- 公路自然灾害的防治-路基水毁的类型与防治对策
评论
0/150
提交评论