用局部加权回归散点平滑法观察二维变量之间的关系_第1页
用局部加权回归散点平滑法观察二维变量之间的关系_第2页
用局部加权回归散点平滑法观察二维变量之间的关系_第3页
用局部加权回归散点平滑法观察二维变量之间的关系_第4页
用局部加权回归散点平滑法观察二维变量之间的关系_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、用局部加权回归散点平滑法观察二维变量之间的关系用局部加权回归散点平滑法观察二维变量之间的关系2008/11/26回归分析、推荐文章、统计图形Bootstrap、LOESS、LOWESS、R语言、回归、局部加权回归散点平滑法、相关、统计图形、重抽样谢益辉局部加权回归散点平滑法二维变量之间的关系研究是很多统计方法的基础,例如回归分析通常会从一元回归讲起,然后再扩展到多元情况。局部加权回归散点平滑法(locally weighted scatterplot smoothing,LOWESS或LOESS)是查看二维变量之间关系的一种有力工具。LOWESS主要思想是取一定比例的局部数据,在这部分子集中拟

2、合多项式回归曲线,这样我们便可以观察到数据在局部展现出来的规律和趋势;而通常的回归分析往往是根据全体数据建模,这样可以描述整体趋势,但现实生活中规律不总是(或者很少是)教科书上告诉我们的一条直线。我们将局部范围从左往右依次推进,最终一条连续的曲线就被计算出来了。显然,曲线的光滑程度与我们选取数据比例有关:比例越少,拟合越不光滑(因为过于看重局部性质),反之越光滑。本文的数据文件:物种数目与海拔高度(感谢中科院植物所赖江山博士提供数据并授权使用)R程序代码:# 从本站counts.txt文件直接将数据读入Rx = read.csv("/wp-content/

3、uploads/2008/11/counts.txt")par(las = 1, mar = c(4, 4, 0.1, 0.1)plot(x, pch = 20, col = rgb(0, 0, 0, 0.5)# 取不同的f参数值for (i in seq(0.01, 1, length = 100) lines(lowess(x$altitude, x$counts, f = i), col = gray(i), lwd = 1.5) Sys.sleep(0.15)以上Sys.sleep()语句只是为了让读者看清楚添加LOWESS曲线的过程,实际画图过程中可以去掉。以上代码生成的图

4、形如下:局部加权回归散点平滑法上图中,曲线颜色越浅表示所取数据比例越大。不难看出白色的曲线几乎已呈直线状,而黑色的线则波动较大。总体看来,图中大致有四处海拔上的物种数目偏离回归直线较严重:450米、550米、650米和700米附近。若研究者的问题是,多高海拔处的物种数最多?那么答案应该是在650米附近。如果仅仅从回归直线来看,似乎是海拔越高,则物种数目越多。如此推断下去,恐怕月球或火星上该物种最多。以下是回归直线的图示:par(las = 1, mar = c(4, 4, 0.1, 0.1), mgp = c(2.5, 1, 0)plot(x, pch = 20, col = rgb(0, 0

5、, 0, 0.5)abline(lm(counts altitude, x), lwd = 2, col = "red")物种数目与海拔高度的关系:回归直线为了确保我们用LOWESS方法得到的趋势是稳定的,我们可以进一步用Bootstrap的方法验证。因为Bootstrap方法是对原样本进行重抽样,根据抽得的不同样本可以得到不同的LOWESS曲线,最后我们把所有的曲线添加到图中,看所取样本不同是否会使得LOWESS有显著变化;以下是R代码:set.seed(711) # 设定随机数种子,保证本图形可以重制par(las = 1, mar = c(4, 4, 0.1, 0.1

6、), mgp = c(2.5, 1, 0)plot(x, pch = 20, col = rgb(0, 0, 0, 0.5)for (i in 1:400) idx = sample(nrow(x), 300, TRUE) # 有放回抽取300个样本序号 lines(lowess(x$altitudeidx, x$countsidx), col = rgb(0, 0, 0, 0.05), lwd = 1.5) # 用半透明颜色,避免线条重叠使得图形看不清 Sys.sleep(0.05)dev.off()生成图形如下:物种数目与海拔高度的关系:Bootstrap结合LOWESS查看可以看出,经过400次重抽样并计算LOWESS曲线,刚才在第一幅图中观察到的趋势大致都还存在(因为默认取数据比例为2/3,因此拟合曲线都比较光滑),只是700米海拔附近物种数目减小的趋势并不明显了,这是因为这个海拔附近的观测样本量较少,在重抽样的时候不容易被抽到,因此在图中代表性不足,最后得到的拟合曲线分布稀疏。作者注:只是一副散点图而已,能做的文

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论