毕业设计(论文):广义线性模型及其在数据分析中的应用_第1页
毕业设计(论文):广义线性模型及其在数据分析中的应用_第2页
毕业设计(论文):广义线性模型及其在数据分析中的应用_第3页
毕业设计(论文):广义线性模型及其在数据分析中的应用_第4页
毕业设计(论文):广义线性模型及其在数据分析中的应用_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

广义线性模型及其在数据分析中的应用研究目的及意义广义线性模型的研究使得广义线性模型在各个领域得到了越来越多的应用。研究现状近百年来,广义线性模型在国内外均得到了飞速的发展,模型从广义模型拓展到了广义线性混合模型、半参数线性模型、广义非线性模型等。广义线性模型和经典线性模型经典线性模型的表达形式通常为:广义线性模型的表达形式则为:常见的广义线性模型泊松回归模型Probit回归模型Logistic回归模型负二项回归模型广义线性模型的应用医学领域生物学领域经济领域广义线性模型新药临床试验中的应用影响90分钟timi分级变量表年龄糖尿病史性别体重指数过往心绞痛史吸烟史过往高血压史现在有无吸烟是否高胆固醇白细胞正常与否治疗前纤维蛋白发病到治疗间隔的时间变量尺度参数参照值系数标准误差卡方P值过往高血压史:无0.0864有-0.47240.0233409.89<0.001过往高血压史:无有-0.47240.273.060.0802是否高胆固醇:否1.3058是-0.2950.41930.490.4817是否高胆固醇:否是-0.2950.32110.840.3583糖尿病史:无0.8844有0.36670.35431.070.3007糖尿病史:无有0.36670.40060.840.36体重指数0.9295-0.09330.04584.150.0417体重指数-0.09330.04933.580.0584白细胞:异常0.8577正常0.36420.23222.460.1168白细胞:异常正常0.36420.27071.810.1786纤维蛋白0.8901--0.00010.00010.410.5197纤维蛋白--0.00010.00010.330.5667吸烟史:无0.4475有-0.22430.12613.160.0754吸烟史:无有-0.22430.28180.630.4262现在有无吸烟:无0.3559是0.04010.09610.170.6762现在有无吸烟:无0.04010.09610.020.8818考虑其他因素交互的单变量分析变量尺度参数参照值系数标准误差卡方P值过往高血压史:无0.9696有-0.50770.27143.50.0614年龄--0.00760.01510.250.615吸烟史:无0.8191有-0.15750.26210.360.548性别:男女0.17630.33190.280.5953现在有无吸烟:无0.751是0.14780.22140.450.5044性别:男女0.34840.29231.420.2332高血压史和体重指数都对90分钟timi分级有影响。结论:广义线性模型在水稻区域试验中的应用A因子水平B因子水平123ⅠaBcⅡ//dⅢe/fⅣghi

把观察值Y作为应变量,对试验中每个影响因素的各个处理水平进行编码,将0和1分别作为两个虚拟变量,建立一个广义线性模型。例如,一个A、B两因素无重复试验,A因子有4个水平,B因子有3个水平,一共12个组合处理,其观察结果为一组非平衡数据。广义线性回归模型的矩阵表达式传统方差分析与广义线性模型方差分析结果比较变异来源传统方差分析广义线性模型方差分析DFSSMSFProb.DFSSMSFProb.点内区组81.020.131.000.44试验点3166.5055.50436.930.005178.7635.75373.100.00品种108.790.886.920.001018.721.8719.540.00品种×试点3027.100.907.110.004844.740.939.730.00试验误差8010.160.1312812.720.10总和131213.57191254.67试验点效应、品种效应及品种与试验点之间都有很明显的互作效应,并且两种方法都可以得出一个结论,试验点的生产力、品种的产量潜力以及不同的品种都在各个试点表现出很明显的差异。从自由度(DF)和平方和(SS)我们也可以得知,广义线性模型方差分析比传统方差分析更多地利用了试验数据。分析与小结广义线性模型在非平衡数据的处理上,比传统的缺区估计方法来得更准确、更完善。如本文所述的水稻品种区域试验实例,广义线性模型尽可能多的使原始试验数据得到了利用。广义线性模型不只是适用于类似文中所述的一年内多个试验点的数据,同时也适用于多年间多个试验点的数据的分析。在实际生活应用中,我们不能单单考虑品种的丰产性,还需要考虑到品种的稳定性和适应性。这些分析与评估都是广义线性模型暂时还无法提供的,还有待研究人员对模型进行优化和改进。广义线性模型在汽车保险定价中的应用采用一组损失数据来讨论汽车保险费率厘定问题中广义线性模型的应用。其中共有7个变量:年行驶里程数(分5个级别,用K表示),无赔款折扣等级(分7个级别,用B表示),行驶地区(分7类,用Z表示),车型(分9类,用M表示),保单年数,索赔次数和赔付额;所有的被保险人被划分成了2182个类别(应该是2205个类别,其中23个类别没有被保人),总的保单年数为2383170.08。经验数据的平均索赔频率为0.04749,次均赔款为4955.25,平均纯保费为235.31。部分表格展示比较结果表格关于索赔次数的泊松假设和正态假设的拟合优度比较泊松假设正态假设CriterionDFValueValue/DFDFValueValue/DFDeviance21592967.03300.10032159216.54731.3743ScaledDeviance21592967.03301.374321592182.00051.0107PearsonChi-Square21593012.90590.10032159216.54731.3955ScaledPearson21593012.90591.395521592182.00051.0107LogLiKelihood-4424844325.9344分析和小结从这个实例中我们可以看出广义线性模型和经典线性模型在许多数据处理结果上是相同的。广义线性模型在数据分析中的应用较之于经典线性模型可用性更高,处理的结果也更精细。广义线性模型的优点(1)广义线性模型对数据的要求较为宽泛,经典线性回归模型对于数据的要求比较苛刻,只适用与连续型数据,而广义线性模型对于连续型和离散型的数据都适用。(2)广义线性模型在应用的范围上比经典线性回归模型大了许多。(3)经典线性回归模型仅仅考虑当联系函数为恒等函数时这种特殊情况,但广义线性模型用联系函数将两个解释变量连成一个整体,从而使得整个模型满足线性关系。全文总结和展望

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论