登革热创新实验报告_第1页
登革热创新实验报告_第2页
登革热创新实验报告_第3页
登革热创新实验报告_第4页
登革热创新实验报告_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数学与计算科学学院创新性实验结题报告书实验题目:登革热发病率隐藏的统计分析 实验成绩(教师填写): 学 院: 数学与计算科学学院 专 业: 统计学 组 长: 薛亚妮 1400720218 小组成员: 谭建军1400720214 指导教师: 祝光湖老师 目录一、实验目的及主要创新性点3二、实验要求3三、实验原理33.1多元线性回归基本理论与概述33.2多元线性回归模型的建立43.3模型的检验原理43.3.1拟合优度检验(R检验)53.3.2方程显著性检验(F检验)53.3.3变量显著性检验(T检验)5四、检验结果与分析64.1多元线性回归方程64.2方差分析74.3相关系数84.3广东省各市回归

2、分析84.4 图形描述11五、心得体会16六、实验过程原始记录(数据,图表,计算等)16一、实验目的及主要创新性点1.1目的:自变量和因变量之间没有严格的、确定性的函数关系,回归分析的可以设法找出最能代表它们之间关系的数学表达形式。利用统计学中的回归分析来揭1.2创新点:把有实际意义的数值与统计方法相结合,通过多元回归分析理解它的应用。二、实验要求1、了解统计分析 2、会具体应用线性回归分析 3、学会分析统计结果,具体要求可细分为:(1)找出广东省各个区影响登革热发病的因素及与之相关的社会、经济和人口等因素;(2)进行各种回归分析,如用多元线性回归分析对数据进行处理;(3)通过回归分析,获得导

3、致登革热病发的关键因素。三、实验原理3.1多元线性回归基本理论与概述由于事物之间的联系经常是多方面的,一个因变量的变化往往受到多个自变量的影响。由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。多元线性回归是一种数理统计方法。设因变量为y,自变量为x,自变量有p个, 它们的组观测值为 .其多元线性回归表达式为: 写成矩阵形式为 : 是多元线性回归方程的回归系数。现实生活中,我们常会遇到含有多个自变量的问题,经常要同时考察多个自变量对一个因变量的相关度,如在对广东省21个市登革热发病率隐藏的统计分析中 ,

4、我们会发现各个市的总人口数、农村人口、相对湿度、年降雨量、年平均温度、年平均温度、城镇化比例、经济数据(GDP)、人口密度等都会对登革热发病率产生影响。这就是多个自变量影响一个因变量的情况。在实际问题中,这种考察多个自变量与一个因变量的依赖关系的问题是大量存在的,在地质学、生物学、环境学等各种领域中也会碰到类似的问题,多元线性回归是多元统计分析中的一个重要方法。3.2多元线性回归模型的建立为了探究我国广东省21个市在20042014期间影响登革热的发病因素,我们收集了这几年广东省的患登革热病例数,并在统计局与气象网等收集了各市20042014年期间的总人口数量、农村人口、相对湿度、年降雨量、年

5、平均温度、年平均温度、人口密度、城镇化比例、经济数据(GDP)这几个因素的数据,利用统计学的多元线性回归分析来揭示数据隐藏的关系,找出导致登革热发病的因素。2.2自变量的选取登革热病例数与总人口数量、农村人口、相对湿度、年降雨量、年平均温度、城镇化比例、经济数据(GDP)、人口密度等多种因素相关。我们取这些因素作为自变量。3.3模型的检验原理统计检验是由统计理论决定的,目的在于检验模型的统计学性质。它是运用数理统计的方法,对方程进行检验、对模型参数估计值的可靠性进行检验主要包括拟合优度检验、方程显著性检验、变量显著性检验等。在多元线性回归模型中,为了了解回归模型是否符合变量之间的客观规律需要对

6、回归模型进行检验,以确定预测结果的可信程度。R检验与F检验都是将所有的自变量作为一个整体来检验它与因变量的相关性程度以及回归效果。3.3.1拟合优度检验(R检验)为了检验肺结核发病率的多元线性回归方程与数据的拟合程度,我,们采取拟合优度检验的方法来说明拟合优度检验方法是构造一个可以表征拟合程度的 指标。定义为: 总变差平方和是各个观察值与样本均值之差的平方和,反映了全部数据之间的差异;残差平方和是总变差平方和中未被回归方程解释的部分,由解 释变量中未包含的一切因素对被解释变量的影响而造成的;回归平方和是总变差平方和中由回归方程解释的部分。称为复可决系数,在实际预测时,首先根据选定的检验水平A查

7、表得到相关系数的临界值RA,要求RRA;如果R<RA,则预测结果不能使用。3.3.2方程显著性检验(F检验)解释自变量与肺结核发病率之间的线性关系,我们计算统计量的值来说明 总体上被解释变量与所有解释变量之间的线性关系是否显著。F变量定义为:即统计量服从以( n,n-1-k) 为自由度的分布,其中n为选取数据的组数k为回归方程的自由度通过查询分布统计表,我们便可以得出在特定显著度的条件下检验的临界值当统计量的值大于临界值时,即可认为在总体上,自变量与 肺结核发病率呈显著的线性关系,即回归方程中所含有自变量足以解释因变量的变化存在,若F<FA,则认为线性回归方程显著不成立。3.3.3

8、变量显著性检验(T检验)通过 T检验我们可以看出每个自变量对因变量的影响,T检验则是t统计量对所有回归模型的每一个系数逐一进行检验,对于给定的检验水平,查t分布表得到临界值tA,若ti>tA时,回归系数bi有显著意义,Xi应保留在回归方程.否则,应去掉Xi,重新建立回归方程.统计量t 定义为:其中为各变量系数的估计值, 为各变量系数估计值的标难差,t检验法得到的数据的相关性不一定能反映逻辑的相关性,还需要考虑自变量是否在逻辑上与因变量关系密切。T检验则是t统计量对所有回归模型的每一个系数逐一进行检验,对于给定的检验水平,查t分布表得到临界值tA,若ti>tA时,回归系数bi有显著意

9、义,Xi应保留在回归方程.否则,应去掉Xi,重新建立回归方程.四、检验结果与分析本实验针对2014年数据进行分析,找出影响登革热发病的原因。4.1多元线性回归方程以下根据2014年广东省省病例数建立多元线性回归模型,其中表示自变量(表示GDP,表示相对湿度,表示年均降雨量,表示日照时数,表示年平均温度,表示总人口数,表示农村人口数,表示城镇化, 表示人口密度,Y表示因变量,即登革热发病率。2014年:Y=0.11245848341188+12.0059463308907+0.396148619016271-0.317092286552617+343.272562649585+3.2576148

10、936427-5.04374482199255+11.2175867917586-0.848171971518785-9001.85057800703详细数据见(表1)4.2方差分析年份显著性水平Significance FF值20140.050.09942499419281192.352601462096534.3相关系数GDP相对湿度年降雨量日照时数平均温度总人口数农村人口城镇化比例人口密度登革热患病人数0.6822250.1410740.222929-0.17143-0.0250.28095410.2737110.101804相关系数的绝对值在0.35以下是无直线关系,0.3以上是直线相

11、关,0.3-0.5,是低相关关系,0.5-0.8是显著关系(中等程度相关),,0.8以上是高度相关。根据数据得相对湿度、年降雨量、日照时数、平均温度、总人口数、农村人口、城镇化比例、人口密度的绝对值均小于0.3,说明这些因素与登革热病人数不是直线相关,GDP因素的相关系数介于0.3-0.5之间,低度相关。4.3广东省各市回归分析4.3.1 利用Excel进行数据回归分析由回归分析结果知最后一个因素的P值小于0.05,有显著性,因此人口密度对登革热患病人数影响最大。4.3.2 利用Mathematica软件画散点图广东省各市登革热患病人数详细数据见(表2)4.4 图形描述4.4.1 患病人数与GDP的关系图4.4.2 患病人数与相对湿度的关系图4.4.3 患病人数与年降雨量的关系图4.4.4 患病人数与日照时数的关系图4.4.5 患病人数与平均温度的关系图4.4.6 患病人数与总人口数的关系图五、心得体会,通过这次实验我了解到如何查找数据,如何应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论