数理统计部分new_第1页
数理统计部分new_第2页
数理统计部分new_第3页
数理统计部分new_第4页
数理统计部分new_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数理统计部分实验1:威廉向克斯的背景:1872 年,英国学者威廉向克斯(18121882)花费了整整二十个年头把的值算到了小数点后707 位。向克斯死后,人们纪念他,就在他的墓碑上刻下了他一生心血的结晶:的707 位小数。此后半个多世纪,人们对威廉向克斯的计算结果深信不疑,以至于在1937 年巴黎博览会发现馆的天井里,依然显赫地刻着向克斯的值。又过了若干年,数学家法格逊对向克斯的计算结果产生怀疑,他认为在的数值式中,各数码出现的概率都应当相等。于是,他统计了威廉向克斯的头608 位小数中,各数码出现的频率,发现其不相等法格逊猜想:在的数值中各数码0,1,9出现的可能性大小应当相等。实验问题:(

2、1) 验证法格逊猜想(2) 进一步地,能否验证任一无理数的小数中,任一个数值出现的可能性都是一样的。求解过程: (1)计算频率xx=input(请输入你的验证无理数,s); nn=input(请输出入你要计算的无数理的小数位数,n其值不超过25万);xx=sym(xx);tempq=vpa(xx,nn+1);tempq=char(tempq);loca=find(tempq=.);tempq(1:loca)= ;probn=zeros(3,10);probn(1,:)=0:9;for ii=0:9 probn(2,ii+1)=length(find(tempq=num2str(ii);endp

3、robn(3,:)=probn(2,:)./nn例:xx=pi ,nn=100000结果为:数字0123456789频数0.10000.10140.09910.10030.09970.10030.10030.10030.09980.0990(2)分布的假设检验方法对其进行检验。假设:09这十个数字的出现是等可能的。设这十个数字出现的概率为,则。设这十个数字出现的频数为。设为样本容量。我们可以构造统计量:由概率统计知识有:如果原假设成立,则当样本容量时,的极限分布为自由度为9的分布。本例中,十个数字出现的频数分别为9999,10137,9908,10025,9971,10026,10029,10

4、025,9978,9902。程序如下(接上段)%对频率进行检验npi=1./10.*ones(1,10).*nn;vi=probn(2,:);chi2=sum(npi-vi).2 ./npi);alpha=input(请输入检验的显著性水平alpha ,其值为大于零小于1的数);crichi= chi2inv(1-alpha,9);exp1=strcat(在显著性水平alpha =,num2str(alpha),的条件下,可以认为各数字出现是等可能的);exp2=strcat(在显著性水平alpha =,num2str(alpha),的条件下,各数字出现不是等可能的);if chi2 cric

5、hi disp(exp2);else disp(exp1);end例:xx=pi ,nn=10000,显著性水平=0.05的情况下。结果为:接受原假设。能否进一步猜想,无理数的小数中,任何一个k位数的出现都是等可能的。能否用一些无理数来验证。 实验2:用回归找规律 某个炼钢厂为了测定某种合金钢的抗拉强度y(kg/mm2)与钢中的含碳时x(%)之间的关系。收集了92组炼钢中碳含量及强度的数据(见表1)。为满足某个用户的要求,此种合金钢的抗拉强度y要大于32(kg/mm2)。若要以90%的把握满足此要求,应把含碳量控制在什么范围内?表1:抗拉强度Y(kg/mm2)与含碳量X的对应关系序号x(%)y

6、(kg/mm2)序号x(%)y(kg/mm2)序号x(%)y(kg/mm2)10.0340.5320.143.5630.1347.520.0441.5330.140.5640.1349.530.0438340.144650.144940.0542.5350.142.5660.144150.0540360.141.5670.144360.0541370.137680.1447.570.0540380.143690.154680.0643390.141.5700.154990.0643.5400.145710.1539.5100.0739.5410.141720.1555110.0743420.1

7、142.5730.1548120.0742.5430.1142740.1648.5130.0842440.1142750.1651140.0842450.1146760.1648150.0842460.1145.5770.1753160.0841.5470.1249780.1850170.0842480.1242.5790.252.5180.0841.5490.1244800.255.5190.0842500.1242810.257200.0942.5510.1243820.2156210.0939.5520.1246.5830.2152.5220.0943.5530.1246.5840.21

8、56230.0939540.1343850.2360240.0942.5550.1346860.2456250.0942560.1343870.2453260.0943570.1344.5880.2453270.0943580.1349.5890.2554.5280.0944.5590.1343900.2661.5290.0943600.1345.5910.2959.5300.0945610.1344.5920.3264310.0945.5620.1346问题分析:这是一个用数据来近似规律的问题。初看起来,大家觉得用回归的办法对数据进行拟合就行了。其实分析时要考虑相关问题。首先,我分析数据反映

9、的是确定性规律还是不确定性规律(这里主要指相关关系)。如果是确定性规律,常用插值和拟合的方式来近似。如果是相关关系,常用回归来处理。其次,回归方法是有条件的。要求试验误差项相互独立同分布、误差服从正态分布、回归关系和系数要显著等等。由于我们对背景了解少,所有的只是大量的实验数据,我们可以认为这是一个相关关系。来找Y对X的回归方程。基本假设:(1)抗拉强度y(kg/mm2)主要受含碳量x有影响,其他因素的综合影响视为随机因素。(2)每组数据的采集是相互独立的。(1) 抗拉强度y(kg/mm2)与含碳量x的关系为相关关系。(2) 误差服从正态分布.模型的建立(1)作出数据的散布图,找到近似的回归函

10、数输入为:xx=0.03, 0.04, 0.04, 0.05, 0.05, 0.05, 0.05, 0.06, 0.06, 0.07, 0.07, 0.07, 0.08, 0.08, 0.08, 0.08, 0.08, 0.08, 0.08, 0.09, 0.09, 0.09, 0.09, 0.09, 0.09, 0.09, 0.09, 0.09, 0.09, 0.09, 0.09, 0.10, 0.10, 0.10, 0.10, 0.10, 0.10, 0.10, 0.10, 0.10, 0.10, 0.11, 0.11, 0.11, 0.11, 0.11, 0.12, 0.12, 0.12

11、, 0.12, 0.12, 0.12, 0.12, 0.13, 0.13, 0.13, 0.13, 0.13, 0.13, 0.13, 0.13, 0.13, 0.13, 0.13, 0.14, 0.14, 0.14, 0.14, 0.15, 0.15, 0.15, 0.15, 0.15, 0.16, 0.16, 0.16, 0.17, 0.18, 0.20, 0.20, 0.20, 0.21, 0.21,0.21, 0.23, 0.24, 0.24, 0.24, 0.25, 0.26, 0.29, 0.32 ;yy=40.5, 41.5, 38.0, 42.50, 40.0, 41.00,

12、40.0, 43.00, 43.5, 39.5, 43.0, 42.5, 42.0, 42.0, 42.0, 41.5, 42.0, 41.5, 42.0, 42.5, 39.5, 43.5, 39.0, 42.5, 42.0, 43.0, 43.0, 44.5, 43.0, 45.0, 45.5, 43.5, 40.5, 44.0, 42.5, 41.5, 37.0, 43.0, 41.5, 45.0, 41.0, 42.5, 42.0, 42.0, 46.0, 45.5, 49.0, 42.5, 44.0, 42.0, 43.0, 46.5, 46.5, 43.0, 46.0, 43.0,

13、 44.5, 49.5, 43.0, 45.5, 44.5, 46.0, 47.5, 49.5, 49.0, 41.0, 43.0, 47.5, 46.0, 49.0, 39.5, 55.0, 48.0, 48.5, 51.0, 48.0, 53.0, 50.0, 52.5, 55.5, 57.0, 56.0, 52.5, 56.0, 60.0, 56.0, 53.0, 53.0, 54.5, 61.5, 59.5, 64.0 ;plot(xx,yy,.);输出为: 图2:抗拉强度y kg/mm2)对含碳量x的散布图(2)找近似规律 从上面的散布图看,我们可以认为回归关系是近似于线性的。从而用

14、可用线性回归来近似。即。 输入为 aa=ones(length(xx),1); XX=aa,xx; coe=XXyy; 输出为:coe=coe = 34.7699 87.9259 所以回归的经验公式为。(3)回归的拟合优度检验 对于数据,在拟合关系下,我们可以计算残差,和的方差的估计值,从而可以计算出标准残差 如果标准残差主要分布在区间-2,2上,而且是完全随机的,则我们认为拟合是成功的。这一点可以从标准残差图来观察。输入为:ei=yy-XX*coe;dive=ei*ei/(length(ei)-2);rei=ei/sqrt(dive);plot(yy,rei,o);输出为:图3:回归标准残差

15、re随抗拉强度Y的散布图对散布图中,我们可以认为拟合是合理的,因为绝大多数数据点落在区间-2,2 上,而且数据没有呈现出其它的规律性。(4)的方差的齐次性检验 对于数据,求拟合关系,我们假设了残差方差都。但实际数据并不一定是这样的,从而需要我们对进诊断。如果残差是完全随机的,而且它的上下界没有扩大的稳势,则我们认为方差都。这一点可以从残差图来观察。输入为:plot(yy,ei,o) 输出为:图4:回归残差ei随抗拉强度Y的散布图 从上图以可得到:残差的方差没有变大的趋势,我们可以认为随机误差的方差都是。(5)对回归系数b的显著性检验假设:在原假设成立的前提下,回归离差平方和的分布服从。残差平方

16、和有分布服从, 且与相互独立。 所以可以取检验统计量,在显著性水平的情况下作假设检验。 输入为:ssr=norm(XX*coe-mean(yy).2;sse=ei*ei;ranF=ssr/(sse/length(ei)-2);alpha=0.05; %显著性水平alphacrit=finv(1-alpha,1, length(ei)-2); 得到检验统计量= 500.87,而显著性水平的情况下,上侧分位数为3.9469。 所以拒绝,从而我们认为回归系数是显著的。 从而我们的回归模型是成立的。即 (6)计算控制量x的值 合金钢的抗拉强度Y的值实际上是一个随机变量,它的分布服从从而有其中。即求x使

17、对于。分布的上侧面分位数为= 1.645.即求x的取值,使输入为:syms xlxx=(xx-mean(xx)*(xx-mean(xx);dlta =sqrt(1 + 1length(ei) + (x - mean(xx)2/lxx)*sqrt(dive);alpha=0.1; %保证抗拉强度0.9的可能性在32以上tacrit=tinv(1-alpha, length(ei)-2);dlta=dlta.*tacrit;yyxx=1,x*coe;yu = yyxx + dlta;yl = yyxx - dlta;ezplot(yu,-20,20)hold onezplot(yl,-20,20)

18、hold offx0 = fzero(char(yl-32),mean(xx)输出为:图5:和的关系图,中间的曲线为,上面的为yu,下面的为yl.x0 = 0.3380所以我们可以得到结论:为满足用户的要求,此种合金钢的抗拉强度y应大于32,若要以90%的把握满足此要求,应把含碳量x大于0.3380。进一步分析:我们上面的讨论是在认为每个数据是相互独立的条件下做的拟合,我们的数据不一定是相互独立的。我们能不能检验。如果我们的有些检验是不成立的,我们有没有办法对数据或拟合方法进行修正,使它也能用回归的方法来求解模型。 实验3估计和检验 我们常说一个班上的学生的成绩服从正态分布。但却鲜有人去举个例

19、子来验证。 下面是我们考查我校一个班(160名学生)的某一门课程的成绩如下。80 95 60 60 60 78 43 63 92 91 95 75 81 80 84 30 71 44 44 88 70 73 83 15 66 71 60 15 83 61 89 87 72 43 63 49 87 80 91 78 60 81 84 97 73 92 81 76 73 69 88 82 70 95 88 62 68 63 81 68 85 70 84 41 80 83 94 72 60 77 83 65 61 79 84 79 61 47 51 90 67 60 44 95 78 63 86 6

20、9 80 65 90 34 37 90 41 65 86 72 82 62 61 41 60 77 91 75 83 67 85 87 79 27 84 84 80 70 74 44 71 61 76 79 72 81 26 51 60 85 91 70 76 71 64 61 90 78 35 87 80 79 82 80 91 32 60 69 71 50 80 44 81 61 60 70 50 76 66 63 44 99实验问题:1)计算均值、标准差、极差、偏度、峰度,画出直方图;2)检验分布的正态性;3)若检验符合正态分布,估计正态分布的参数并检验参数。求解过程:(1)理论基础设总

21、体为X,是一组容量为n的样本。1、 表示取值集中的位置的统计量平均值和中位数 平均值(或均值,数学期望): 中位数:将数据由小到大排序后位于中间位置的那个数值.2、 表示变异程度的统计量标准差、方差和极差 标准差: 它是各个数据与均值偏离程度的度量. 方差:标准差的平方. 极差:样本中最大值与最小值之差. 3. 表示分布形状的统计量偏度和峰度偏度: 偏度反映分布的对称性,g1 0称为右偏态,此时数据位于均值右边的比位于左边的多;g1 0称为左偏态,情况相反;而g1接近0,则可认为分布是对称的。峰度: 峰度是分布形状的另一种度量,正态分布的峰度为3,若g2比3大很多,表示分布有沉重的尾巴,说明样

22、本中含有较多远离均值的数据,因而峰度可用作衡量偏离正态分布的尺度之一.4. 作频率直方图。在直角坐标系的横轴上,标出各分点,分别以为底边,作高为(其中是样本值落在的频率,)的矩形,,即得频率直方图。(2)计算xx=80 95 60 60 60 78 43 63 92 91 95 75 81 80 84 30 71 44 44 88 70 73 83 15 66 71 60 15 83 61 89 87 72 43 63 49 87 80 91 78 60 81 84 97 73 92 81 76 73 69 88 82 70 95 88 62 68 63 81 68 85 70 84 41 8

23、0 83 94 72 60 77 83 65 61 79 84 79 61 47 51 90 67 60 44 95 78 63 86 69 80 65 90 34 37 90 41 65 86 72 82 62 61 41 60 77 91 75 83 67 85 87 79 27 84 84 80 70 74 44 71 61 76 79 72 81 26 51 60 85 91 70 76 71 64 61 90 78 35 87 80 79 82 80 91 32 60 69 71 50 80 44 81 61 60 70 50 76 66 63 44 99;xxbar=mean(xx); %计算样本均值s_gu=std(xx); %计算样本标准差jicha=max(xx)-min(xx); %计算极差g1= skewness(xx); %计算偏度g2= kurtosis(xx); %计算偏度xxarea=min(xx)+jicha.*(1:15)./15; %确定直方度的划分区间为15个pinglv, xi=hist(xx,xxarea); %计算各区间的频数和区间中点xipinglv= pinglv ./ 160; %计算各区间的频率bar(xi,pinglv); %绘制频率直方图图1:学生成绩频率直方图 结果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论