(应用数学专业论文)m维arp模型的统计诊断.pdf_第1页
(应用数学专业论文)m维arp模型的统计诊断.pdf_第2页
(应用数学专业论文)m维arp模型的统计诊断.pdf_第3页
(应用数学专业论文)m维arp模型的统计诊断.pdf_第4页
(应用数学专业论文)m维arp模型的统计诊断.pdf_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 近年来,时间序列已经成为一个相当活跃的领域,由于其在农业、工程、医学、气象 学、质量控制、社会学等学科中有着广泛的应用,所以关于时间序列的统计分析已经成 为当今统计学者研究的一个热点在现实生活中,一般所涉及到的时间序列模型都包括 几个变量,也就是说我们在实际问题中遇到的往往是高维的时间序列模型,例如我们在 一个销售业绩的研究中,变量可包括销售规模、价格、销售力度和广告支出等所以对高 维时间序列的统计研究很具有实际价值由于时间序列中的移动平均模型和自回归移动 平均模型在一定的条件下都可以转化自回归模型,因而对于自回归模型的统计研究就很 具有代表意义 数据删除模型和均值飘移模型作为目前主要的影响分析模型,不仅适应于线性回归 模型,也同样适用于其它更复杂的模型数据删除模型作为统计诊断中最基本的模型,它 主要描述的是某个估计量在删除数据前后的差异,也就是说它是通过删除第f 个数据点 来分析此点的统计性质,进而检测第f 个数据点是否为异常点或强影响点均值飘移模型 则是通过检验第f 个点处的均值与其它点相比是否发生了飘移 本文首先介绍了m 维彳尺( p ) 模型的参数估计与假设检验,其次应用数据删除模型和 均值飘移模型分别对m 维4 r ( 1 ) 模型进行了统计诊断,然后证明了两者的等价性,并且得 出了c o o k 统计量的具体计算公式最后采用同样的方法将模型推广到m 维a r ( p ) 的情 形,对研维彳r ( p ) 模型进行了初步的统计诊断,同样得出了具体的c o o k 统计量的计算公 式,并且引入广义c o o k 距离,分别得到了形一足统计量和么p 统计量 关键词 彳j r ( p ) 模型,数据删除,广义c o o k 统计量,n d - - 乘,统计诊断 a b s t r a c t i nr e c e n ty e a r s ,t i m es e r i e sb e c o m ea ni m p o r t a n tr e s e a r c hf i e l di nt h es t a t i s t i c a l b e c a u s et h em o d e li su s e f u li nm a n yp r o b l e m s ,s u c ha sa g r i c u l t u r e ,e n g i n e e r i n g ,m e d i c i n e , m e t e o r o l o g y , q u a l i t yc o n t r o l ,s o c i o l o g ya n ds oo n ,t h er e s e a r c ho ft i m es e r i e sm o d e lh a s a t t r a c t e dc o n s i d e r a b l ea t t e n t i o n i nf a c t ,t h ed a t ao ft i m es e r i e so f t e ni n c l u d e ss e v e r a lv a r i a b l e s , i no t h e rw o r d s ,t h et i m es e r i e sm o d e lw h a tw eo f t e nm e e ti sh i g hd i m e n s i o n a lm o d e l f o r e x a m p l e ,s a l ev o l u m e ,p r i c e ,s a l ef o r c ea n da d v e r t i s i n gs p e n d i n ga r ea l w a y si n v o l v e di n v a r i a b l e s oi t sw o r t h yo ft h ea n a l y s i sf o rh i 班d i m e n s i o n a lt i m es e r i e sm o d e l b e c a u s ea u t o r e g r e s s i o nm o d e l ,m o v i n ga v e r a g em o d e la n da r m am o d e lc a nb et r a n s f o r m e di n t oa u t o r e g r e s s i o ni n c e r t a i nc o n d i t i o n s ,i t sv e r ys i g n i f i c a n to ft h es t a t i s t i c a la n a l y s i s f o ra u t o r e g r e s s i o nm o d e l a st h em a j o ri n f l u e n c ea n a l y s i sm o d e l s ,t h ed a t ad e l e t i o nm o d e la n dt h em e a ns h i f tm o d e l a r en o to n l ya d a p tt ol i n e a rr e g r e s s i o nm o d e l ,b u ta l s ot h eo t h e rm o r ec o m p l e xm o d e l s a st h e b a s i cs t a t i s t i c a ld i a g n o s t i cm o d e l ,t h ed a t ad e l e t i o nm o d e li st h ed e s c r i p t i o no ft h ed i f f e r e n c e a f t e rt h ed e l e t i o no fd a t ai nt h ee s t i m a t i o n ,w h i c hm e a n st h em o d e la n a l y s i st h eo u t l i e r sa n d i n f l u e n t i a lp o i n tb yd e l e t i o no fd a t a , m e a ns h i f tm o d e lt e s tt h eo u t l i e r sa n di n f l u e n t i a lp o i n tb y a n g l i c i z i n gw h e t h e rt h em e a nh a sb e e nd r i f t i nt h i sp a p e r , w ei n t r o d u c et h ee s t i m a t i o no fp a r a m e t e ra n di t sh y p o t h e s i st e s t i n gi nm d i m e n s i o n a la r ( 1 ) m o d e l sa tf i r s t t h e nw ed i s c u s ss t a t i s t i c a ld i a g n o s t i c sf o rt h em o d e la n d g e tt h ec o n c i s ec o o ks t a t i s t i c sb a s e do nc a s ed e l e t i o nm o d e l ,t h ee q u i v a l e n c yb e t w e e nt h e c a s ed e l e t i o nm o d e la n dt h ec a s em e a ns h i f to u t l i e rm o d e li sp r e s e n t e d a tl a s t ,w eo b t a i nt h e c o n c i s ec o o ks t a t i s t i c so fmd i m e n s i o n a la r ( p ) m o d e l s ,t h e nw i t ht h eg e n e r a l i z e dc o o k d i s t a n c e ,t h ew ks t a t i s t i c sa n da ps t a t i s t i c sa r eo b t a i n e d k e y w o r d s a r ( p ) m o d e l s ,c a s ed e l e t i o n ,g e n e r a l i z e d c o o kd i s t a n c e ,l e a s ts q u a r e s ,s t a t i s t i c a l d i a g n o s t i c s 西北大学学位论文知识产权声明书 本人完全了解西北大学关于收集、保存、使用学位论文的规定学 校有权保留并向国家有关部门或机构送交论文的复印件和电子版本人 允许论文被查阅和借阅本人授权西北大学可以将本学位论文的全部或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存和汇编本学位论文同时授权中国科学技术信息研究所等机构 将本学位论文收录到中国学位论文全文数据库或其它相关数据库 保密论文待解密后适用本声明 学位论文作者签名: 垂吼垒 指导教师签名 叫。年6 月i 日i , 乃o 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果据我所知,除了文中特别加以标注和致谢的地 方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含为 获得西北大学或其它教育机构的学位或证书而使用过的材料与我一同 工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示谢意 学位论文作者签名:仨嘞见 砷年月1 1 日 西北大学硕七学位论文 第一章绪论 1 1 引言 人类生活的一切活动,就其根本目的不外乎两种:认识世界和改造世界时间序列既 可以揭示某一现象的发展规律,也可以从动态的变化中刻画某些现象与其它现象之间的 内在数量关系及其变化规律,从而达到认识世界的目的运用时间序列模型可以对某些 活动做预测,控制未来的行为,进而可以优化或修正系统以达到改造客观世界的目的时 间序列广泛存在于各个领域:在农业领域,我们观察农作物的价格和每年的产量等;在 经济和商业领域,人们关心的股票的每日收盘价格、每周的利息率、每月的价格指数和 年利润等;在物理地球领域,我们记录的一个地区的地球噪声和海浪等;在医学研究领 域,人们测量的脑电图( e e g ) 和心电图( e k g ) 追踪等总之时间序列在农业、工程、 医学、气象学、质量控制、社会学等学科中都有着广泛的存在 从统计学的角度来看,统计学研究和处理的是一批有实际背景的数据,虽然数据的 背景和类型有所不同,但从数据的形成而言,可以分为静态数据和动态数据( 或者称为横 剖面数据和纵剖面数据) 静态数据是由若干现象在某一相同时间上的状态组成,它反应 了同一时间、地点等客观环境下各种现象之间的内在数值关系对于这种数据的统计研 究方法是多元统计分析动态数据是由某一个现象或若干个现象在各个时刻上的状态而 形成的数据,其反映的是现象之间关系的发展变化规律对于这种数据的统计分析方法 就是时问序列分析实际问题中的时间序列模型的建立,依靠的是实际问题中的一批数据, 如果收集的这批数据较为准确,那么对于我们建立合理的时间序列模型很有帮助但是 一般情况下,由于各种人为的或不可避免的原因,会造成收集的数据中出现一些有“毛 病”的点,这就需要人们给这些有“毛病 的点进行“治疗 统计诊断是数据分析的一个重要部分,它主要是检测已知观测数据是否符合既定模 型由于其广泛的应用背景,自上个世纪七十年代以来已经成为统计学的一个重要分支 一般的人们研究问题的出发点是具有实际背景的数据集,然后通过这些数据集来解 决现实中的问题对于这些数据,人们通常是把它和现有的某种统计模型进行拟合但是, 由于任何一种统计模型都只是对客观实际问题的一种近似描述,所以不可避免的包含了 某些特定的假设条件。那么是否能用假定的模型解决实际问题就值得我们考虑,若我们 选定的模型与实际问题偏差很大,就有可能得到与实际问题严重不符的结果,这就是统 计诊断值得思考的问题 第一章绪论 检测已知观测数据是否满足假设条件就是统计诊断的首要问题一般情况下,数据 集中都会出现“格格不入 的点,这些点严重偏离即定模型为了减少这些“污染”数据 所提供的伪信息,我们在建立模型时首先需要删除这些“污染”点,然后再建立较为合理 的模型我们把对统计推断具有较大的影响的点称为强影响点( i n f l u e n t i a lp o i n t ) ,有时 强影响点也可能会被误认为异常点( o u t l i e r ) 而剔除,那么强影响点所提供的信息就会被 人们忽略所以,通过统计量找出数据中的强影响点和异常点,就成为了统计诊断的主要 内容 异常点的识别、残差分析、数据变化和影响分析等内容已经成为统计诊断的重要课 题对于线性模型的统计诊断,c o o ka n dw e i s b e r g ,韦博成等已经做了比较系统的研究 1 1 - 4 ;关于广义线性模型的统计诊断,a n t o n i oa n db e i r l a n t 、t h o m a s 、张玲、周雁等相继 做了研究f 5 8 】;在非线性模型方面,刘应安、韦博成等也已经做了相关的研究【9 - 1 9 】;朱仲 义、赵为华等在半参数非线性模型的统计诊断方面做了相关研究【2 0 。2 引自从1 9 7 2 年统计 诊断进入时间序列分析领域以来,时间序列分析在统计诊断方面也有了一定的发展,陈 敏等给出了时间序列中条件异方差性的检验【2 6 2 7 1 ,虽然对多维彳r 0 ) 模型已经有了成熟 的估计理论,但其统计诊断还有待发展【2 3 i 1 2 预备知识 1 2 1 矩阵运算 ( 1 ) 设矩阵x 的分块形式为x = 眨乏) ,若x 可则o x 的逆矩阵为 叫:p s l 2 其中x 1 1 _ ( 五。一五:如一1 五。) 一,彳2 2 = ( 五:一五。x 1 1 - 1 五:) 一, x 1 2 = 一( 五。一五:x 2 2i 托。) q 五:五:,x2 1 = 一x 2 21 五。( 五。一五:如一1 五。) 一 l x l = l x , 。l l 五:一t 。五。一x l :i - i 五:1 i 五。一五:k q 五1 如果我们取五。= ,五。- m ,五:= n ,x 2 2 = x ,则由上式得 防一删l = 俐i ,一似。1 m 1 ( 1 1 ) 2 西北大学硕十学位论文 ( 2 ) 设x 为r l n 阶矩阵,m ,分别是n x m ,m xr l 阶矩阵,并且假设都可逆,则 ( x + 删) 一1 - x - i _ x 一1 m ( i + n x 一1 m ) m i 本文用到的特殊形式为 似r x 一矸墨) _ 1 :伍r x ) 1 + 伍r x ) - 1 x - ( ,一x 。伍r x ) _ 1 x - ) - 1 x 。伍r x ) 1 1 2 2 投影阵及其性质 定义1 1 若矩阵y 满足】,7 = y ,y 2 = y ,则称】,为投影阵 设x 为一个,l p 阶的列满秩矩阵,t 证p :x ( x r x ) 。1 x r 为投影阵, 因为 p r = 肖( x r 彳) 一x 7 ,= ( x 7 ) r ( ( x r x ) q ) 7 x r = x ( x r x ) 。1 x 7 = p p 2 = 尸p r = 尸p = 工( x 了x ) - 1 x r x ( x r x ) x r = x ( x r x ) 。1x r x ( x r x ) _ x r = x i ( x r x ) q x 7 = x ( x 7 x ) - 1 x r = 尸 ( 1 2 ) 若记q = ,一p ,q 为x 的列向量生成的线性空间,q 上表示其正交补空间,则p q = 0 我们容易验证q r = q ,q 2 = q ,即q 也为投影阵 对于经典线性模型模型 其中 y = x 缈+ 占 ( 1 3 ) l ,= ( m ,儿,虬) r , x = ( x t t 屯r ,r ) r ,薯r = ( t 。,毛:,) ,矿= ( 仍,仍,纯) , s r = ( 毛,岛,毛) ,占( o ,万2 ,) 由最小二乘知 3 第一章绪论 因为 所以 参= ( x7 x ) 一x r 】, 参2 = 上膦:鱼 万一p玎一p 口a t p = ( y x 参) r ( y 一工参) - - ( r 一尸j ,) 7 ( j ,一p y ) = ( ( ,一尸) y ) 7 ( ( ,一p ) y ) = ( q 】,) 7 ( q y ) = y r q 】, 艿a 2 = 型 n p ( 1 4 ) 1 3 本文主要工作 本文讨论了高维自回归模型,重点在于统计诊断方面的研究主要分为三章来写: 第二章首先介绍了m 维彳r ( p ) 模型的参数估计与假设检验,其次应用数据删除模型 和均值飘移模型分别对m 维a r ( 1 ) 模型进行了统计诊断,然后证明了两者的等价性,并 且得出了c o o k 统计量的具体计算公式 第三章将模型推广到肌维a r ( p ) 的情形,对于朋维彳r ( p ) 模型m 维彳月( p ) 应用降 维和矩阵论的些技巧,将对所维彳月( p ) 模型的统计诊断最终转化为讨论一维彳尺( 1 ) 模 型的统计诊断,得出模型c o o k 统计量的计算公式最后引入广义c o o k 距离,分别得到了 模型的形一k 统计量和4 尸统计量 4 两北大学硕十学位论文 第二章朋维a r ( 1 ) 模型的统计诊断 2 1 聊维a r ( p ) 模型简介及其参数估计 定义2 1 若p 。 是一个朋维的w n ( 0 ,q ) ,仍,仍,纬为聊肌阶实矩阵,使得 d e t ( 厶一嘉o j z j 。,i z i 则称模型 z :壹纡x t - j + 6 t f z j = l 是一个所维么月( p ) 模型 假设给定的观察值x 。,x :,x 。满足模型( 2 1 ) ,写成矩阵形式为 ( 2 1 ) 其中y = 薹1 x = 二主:;二茎二伊= 薹e = 耄1 关于肌维彳足( p ) 模型的参数估计,一般采用的方法有最小二乘法、最大似然估计、 为了使得模型的残差平方和s ( 伊) = n ( 五一仍五一。一纬五一,) 2 达到最小,也就是 要选择仍,仍,使s ( 缈) = ( 】,一彳伊) 7 ( 1 ,一x 伊) 达到最小 翌丝:望! 兰二丝! :! 兰二堑2 = - 2 x 7 ( y - x q 口) 为使s ( 伊) 达到最小,令掣= 。,即一2 x r ( r - x 9 ) = 。,当x r x 可逆时,我们 5 第二章m 维彳r ( 1 ) 模型的统计诊断 参= ( x7 x ) 1x 7 y 妒= ( x7 ) 7 2 递推估计 对于模型2 1 1 ,运用广义矩方法我们可得 ( 2 3 ) 咋= r pr i p ( 2 4 ) 其中皖= ( 丢磊计疣= ( 三。才乏= 去毫五砭 r p = 7 : 7 名一1 由此我们可以看出用广义矩方法要求出未知参数缈,首先要求出r 一虽然在理论上 # = 丢毫五疋,具有渐近无偏性,但是当刀充分大时,由于p 斋笔,兰 ,所以p 也可能 很大f 3 引这时r 一1 计算量会非常大为了解决这一计算量问题,我们考虑朋维彳月( p ) 模 型系数矩阵的递推运算首先我们定义符号,( 1 p ) 表示当阶数为p 时纺的估计 记 = ( z 。,五,蠢) r ,= ( z 。,五,磊) r 则公式( 2 4 ) 可表示为 b 。2r , 为了实现递推运算,我们再写出公式( 2 5 ) 的对偶方程 r p u 叩= s 口 其中吒= b b v 。,艺) r ,皖= ( , 其中=。,:,j ,= 1 t ,:, 6 ( 2 5 ) ( 2 6 ) 铀擘:乏 r 磊乏; 两北大学硕士学位论文 当p = 1 时, = o ,卅 由公式( 2 5 ) ,( 2 6 ) 知: 由于为对称阵,所以 将公式( 2 7 ) 展开 即 写成方程形式为 t 一i tt 一i 仍i = r o ,;,岛l = r o ,i r 一it t 一1 仍i = r o ,6 l l = ,;。r o r 吒 : ,; a 墨+ i v k + 1 ,“1 = r r + i u m 舢i = s k r k l r k 一2 : r k i : rr r k i 气一2 ,i rr r 咯一i ,; 公式( 2 8 ) 同理可表示为: 信 。 r ,多 ,、 f o l 妒 纯+ 1 1 1 纯+ i 2 纯+ i h l kv k + l 。k + s k 伊t + 1 i2r i r t v k + l j + 伊“1 i = g k + l 7 r ,王 r 吃 : t r k + l ( 2 7 ) ( 2 8 ) ( 2 9 ) q 1 0 ) q 1 1 ) 时 i+七 在则船 址 缈 到得已七 个某对定假在现 ; 刁 “ ,。一 = 一、, i i + +。 七 7 见 & ,_ 方程形式即为: 由公式( 2 1 0 ) 得: 即 将公式( 2 1 4 ) 代k ( 2 1 5 ) 得: 因为 即 由公式( 2 1 4 ) 得 第二章m 维彳尺( 1 ) 模型的统计诊断 ,7 i 尺i 7 r bt + l 。k + r iu k + i t = ,“1 r bk + l ,t + r t 【,t + 1 t = s k 痧t + - ,t = 袅t 一1 ( 易。一t 参。+ 。+ 。 一i 一i = r kr k - r k s k 伊“1 i + 1 , 矿t + i ,k2 矿 ,k u k ,t 伊i + 1 t “ s k r ( 多t t 一痧t ,t 参i + 。,七+ 。) - i - r “。参i + 。+ 。= ;i + - ly t 一u i ,i 缈i + l + li o 缈i + l 。“l2 ,“1 , 易r 。+ ,。+ 。= ( “一 r 。t 一1l ,a t t + - 一 r o s ku ks k r v “k 。t 缈t “。t + l2 i 一 。i li ,“l 一 。t i a ( r t + t - ;t k , kt ( ;。- 6 r t ,t t ) - 一1f t 凡ls i ( - r k r bk + 1 i + l 一1t-l t = r ts i - r k r ib 叭k + l 8 ( 2 1 2 ) ( 2 1 3 ) ( 2 1 4 ) ( 2 1 5 ) ( 2 1 6 ) + i 九 s ,l = i l 1k 巩 ,。l仉 ,j。l n 玑 ,【 = i “ u 西北大学硕士学位论文 即 将公式( 2 1 7 ) 代a ( 2 1 3 ) 得 即 又因为 则 即 r u i + l = u t k - - 儿jbk + l 。“i ;。舍7 t + 一,t + t - 易i ( 痧t ,t 多t ,t 舍r t + ,t + t ) = = ;t + - b “k + l , k + l = ( r “r k + t 一痧r t ,t 易。r 。一y at t ,t 易。) 一1 r t 一i rr 【,t ,i 刁t2s kr k 刁t = s tvt j 舍“雌= ( ;i + t 一:莎i j ( ;。一多i 七易。) 1 b “k + - 。t + - = ( ;t + - 一 + l t + l2 ln + l w 一 + 1 ,l lr o 一 l t 一l 7 r 一i 所以联合仍,= ,i r o ,岛l = ,i r o 及公式( 2 1 5 ) , 阶数p 时的纬,纬:,即 一1 r1 巧i ) ( 2 1 7 ) ( 2 1 8 ) ( 2 1 6 ) ,( 2 1 7 ) ,( 2 1 8 ) 便可以递推估计出 ;,= = ( z ;,z ;:,;:,) 2 = = ( 西,z ? :,:,) 2 由于递推算法中涉及到的求逆都是m u m 阶的,因此计算量大大减少 2 2 假设检验 下面我们先介绍一下似然比统计量 3 3 1 对于模型( 2 2 ) ,设观察值y 的密度函数为 p ( o ) ,对数似然函数为 9 圭问问 第二章m 维彳尺( 1 ) 模型的统计诊断 三( 秒) 地p ( 妒) ,伊= ( 印,引r 则假设检验问题风:q = q oh 马:q q 。的似然比统计量为: l 尺= 2 ( 三( 台) 一三( 反) ) 其中东为风成立时秒的极大似然估洲i 反= 陋否赢) 卜砜固定时岛的极大似 其中岛为风成立时秒的极大似然估计即岛= i 碥,秒z ( 岛。) i 表示q 。固定时岛的极大似 然估计 当n - - o o 时,l r 依分布收敛于x 2 ( p i ) ,即三尺与x 2 ( 局) ,其中p l 为幺的维数对 于模型( 2 1 ) ,我们以前p 个观测值为条件,根据后t 个观测值来进行参数估计 因为 巨f 耐( o ,q ) x , l x , 巾x , - 2 , - - - , 置一,( 仍置一,+ 仍五一:+ + 绵置叫q ) 因而第f 个观测值的条件密度为: s ( z , lx , - ,五彩五叩) :( 2 万) 一詈l q 一- 产p 一象局一矿互) r 口- i 似彳z ,) 其中缈= ( 仍,仍,纬) r ,z f = ( z 小五巾,墨一p ) 7 进一步我们得到样本对数似然函数为: 三( 缈,q ) :圭l i l 厂( 置i 五书五彩五一,;驴) = 一三聊m ( 2 万) + 三h i q i 一丢喜 ( 五一伊7 z ,) ,q 。( 五- d z , ) 最终我们得到缈和q 的极大似然估计为 参r = 喜五彩 喜置彩 - l 。2 , 刍= 南静b a t 现在我们想检验五是否为p 阶回归,也就是想检验这样的原假设矾:墨是乃阶自 1 0 西北大学硕士学位论文 回归& 备择假设日。:五p 2 ( p 2 a ) 阶自回归若令 p = ( 印,彰) r ,岛= ( 仍,仍,纬) ,岛= ( 小彩,) 则以上的假设检验问题相当于: 风:幺= 0 付q :岛0 为了运用似然比检验,我们要求三( 参,q ) 达到的最大值 因为 所以 ( 参,q ) = 一三m h ( 2 万) + ;- n l q 一1 i 一丢喜 毒q l 会r 三( 参,刍) = 一三m m ( 2 万) + 三- n i 刍q i 一三喜 岔分1 会, 其中刍= 一;静毒 为求在零假设风下的对数似然函数的最大值,我们令磊= ! z 圭t = l 会,( a ) ;a ) ,则此 时对数似然的最大值为: 为: 因为 厶= 一;所m ( 2 万) + 三h i q l 一1 i 一互l 面+ l f e ri a ) q l l 会t ( 马) 同理,在备择假设q 下,令磊= ! t 妻t = l 会r ( 段) 群:仍) ,此时的对数似然函数的最大值 厶= 一三朋h ( 2 刀) + 三h l 幺一1 i 一三喜 茸;岛) q 一1 会r ( 仍) 所以 圭善t e j a 9 a 。1 会,= j 1 驴 喜毒分会, = 三驴 喜刍一t 会r = 虿驴 q - i 丁刍 = i 1 护= 竿 2 ( 厶一厶) = 2 吾( t n p i f 一,n f 刍:1 ) 一互1 缶t 岛 r ( a ) 磊。1 色( a ) + 三喜毒( 仍) 杰叫会r ( 岛) = 2 ( ;t nj 刍。l 一;hj 参:j 一t r m + 丁t m ) = 丁( m 阡t 制) 在零缳设风的限制下,风与q 相比,每一个变量少p 2 一a 阶滞后,即且相当于是 乩在每个方程上多加了历( 仍一局) 个限制所以局对于鼠共施加了脚2 ( 仍一局) 个限 制故在零假设下,当样本容量r 充分大时,2 ( 厶一厶) 渐近分布以自由度为 m 2 ( p 2 - p j ) 的z 2 分布,即 r ( h i 刍:i h i 刍。f ) z 2 ( 肌2 ( 仍一a ) ) 当样本容量比较小时,为了通过假设检验得出更合理的推断,我们需要对似然比检 验作一些修正以适应小样本的情况阻l ( h ) 陋乩刍。; 其中尼为每个方程中未知参数的个数 1 2 西北大学硕士学位论文 对于模型( 2 1 ) ,即 ( :“。) z 2m 2 ( t - r a p 2 ) i n q - l n q m ( p 2 一a ) )l : 。l z 2( p 2 一a ) ) 2 3 统计诊断模型 2 3 1 数据删除模型 数据删除模型是统计诊断中最基本的模型,它主要是描述某个估计量在删除数据前 后的差异数据删除法不仅适应于线性回归模型,对于其它更复杂的模型也同样适用【3 5 。 数据删除法作为目前一种重要的影响分析法,其主要思想是假设给定一组数据 x = ( 五,五,以) ,如果数据集中的点都是正常的,那么它们在统计推断中的影响差别 不大,即使去掉一两个数据点也不会对统计推断造成太大的影响但是若第f 个数据点是 异常点( o u t l i e r ) 或强影响点( i n f l u e n t i a lp o i n t ) ,则去掉这个点以后对统计推断的结果可能 会造成很大的影响,所以为了研究数据点五对模型某参数矽的估计妒的影响,我们通过 删除第f 个数据点墨前后估计量伊的变化来考察设删除五后矽的估计为伊( f ) ,若鼍为 正常数据点,则妒与缈( f ) 之间的差别不大;若为异常点或强影响点,则缈与够( f ) 之间的 差别会很大所以为了判断置是否为强影响点或异常点,关键是看缈与伊( f ) 之间的差别 但是一般妒与伊( f ) 是向量无法比较大小,所以引入广义c o o k 距离进行判断,实践证明数 据删除法是一个最为实用的诊断方法f 3 6 j 以下我们介绍基于数据删除模型的统计诊断的具体实施步骤: i 计算估计量伊与妒( 班接着给出两者之间的关系式; i i 定义具体合适的c o o k 距离作为统计量,来度量伊与伊( f ) 之间的差异( 这里的统计量 可以有多种形式) ; i i i 分别删除每个数据点五,计算具体相应的统计量b ,进而找出较大的几个皿所对应 的数据点,则这些数据点就可能是模型中的异常点或强影响点 对于经典线性回归方程】,= x 伊+ e ,由最小二乘理论我们知参= ( x7 x ) _ 1x 7 y ,如 1 3 第二章聊维彳r ( 1 ) 模型的统计诊断 果删除第f 组数据,即删除第f 个方程,得到的新方程为】,( ,) = x ( ,) 缈+ e ( f ) 此时同样用 a 最小二乘估计可以得到伊( f ) ,伊与p ( j ) 的关系如下 参( ,) :参一量兰! := 三兰三宇尘当 其中p 筇= _ 伍r x h 为了研究第f 个数据点,x ,) 对模型的影响,我们考虑删除第f 组数据以,_ ) 前后估 计量的变化可见缈一缈( f ) 就是点执,t ) 的影响大小的度量,差值越大影响越大由于 伊一妒( ,) 是一个向量不便于比较,因而必须选择一个合适的度量,用来定量的比较影响的 大小,下面引入c o o k 距离: q :壁三一其中p 是伊的行数 d ,越大,第f 个数据点对回归效果的影响就越大对于c o o k 距离大小标准的判定比较复 杂,较精确的方法见参考文献 3 7 ,3 8 一个粗略的标准是当皿 1 时,认为是异常值点 2 3 2 均值漂移模型 数据删除模型是通过删除第f 个数据点来分析此点的统计性质,进而检测第i 个数 据点是否为异常点或强影响点均值飘移模型则是通过检验第f 个点处的均值与其它点 相比是否发生了飘移下面我们首先以线性模型为例,简单介绍一下均值漂移模型 对于一般的线性回归模型,其相应的均值漂移模型表示为 肛2 气伊+ & 七= 1 ,2 ,以且 ( 2 2 0 ) t y , 2 x 静+ y i 其中7 表示在第f 个点处咒的均值漂移,用矩阵形式表示为 】,= x 伊+ 心+ e ( 2 2 1 ) 其中z ,= ( o ,一,0 ,1 ,0 ,o ) r 若7 显著不为零,就可以说明第f 个点处的均值发生了漂移, 则第i 个数据点不满足假定的线性回归模型,即第i 个点为异常点所以为了检测数据点 1 4 两北大学硕士学位论文 是否为异常点,关键是要判断参数y 是否显著为零,常用的方法是参数估计和假设检验 出9 神厂耐若y 。,显著不为零,则y 也显著不为零,因此判定第f 个点为异常点我们也可 在线性回归模型中,运用最小二乘分别估计得出的伊扪缈( f ) 之间的关系是缈。,= 伊( f ) , 也就是说在线性回归模型中,均值漂移模型与数据删除模型具有等价性【4 0 1 2 4 基于数据删除的聊维4 r ( 1 ) 模型的统计诊断 在聊维彳r ( 1 ) 模型中删除一组数据,需要删除不止一个方程,基于这种情况,我们需 要研究一般线性模型删除多个方程后,g o 与缈( f ) ,万与万( i ) 以及r s s 与尼镕( ,) 之间的 r ( i ) = x ( j ) 伊+ e ( f ) ( 2 2 2 ) 其中y = 三x = 三:;二芝妒= 三e = 三 参( f ) = 参一( x ,x ) 。1 霹( ,一弓) q 毛 r s se qe q + e ,q ( ,一乞e “q ) = 一 ( ,一0 ) 1 乞 呻, 2 ,:踹冉垫学 这里x 。表示x 中被删除的( q + 1 ) p 阶矩阵;名= x 。伍r x ) _ 1 x 。t 表示y 中被删除的( g + 1 ) l 阶矩阵;e q 表示e 中被删除的( g + 1 ) 1 阶矩阵 1 5 第二章 m 维4 尺( 1 ) 模型的统计诊断 ! 搴= ! ! = 皇皇! = = 皇! 皇罩= 暑im li 皇毫= = = = 詈鼍= = 詈詈詈皇皇皇詈暑詈詈皇= 詈皇! ! 詈詈= 詈詈= 暑詈昌 表示】,中被删除的q + 1 ) l 阶矩阵;e q 表示e 中被删除的q + 1 ) 1 阶矩阵 证明:由最小二乘估计知参( f ) = ( x7 ( f ) x ( f ) ) x 7 ( f ) 】,( f ) 因为 又因为 因此 x 7 x = x 7 c ,x c ,+ 三;:,1j r l x :, j :;:p l 口。l 札g ,j = ( j ) 彳( ,) + 霹 x 7 y = x r ( f ) 】,( f ) + 霹 ( x7 x 一五t 以。7 - i = ( x7 x ) 一+ ( x r x ) 。霹( ,一( x7 1 x ) 。1 霹) _ ( x7 x ) 1 参( f ) = ( x7 ( f ) x ( f ) ) 。1x r ( f ) y ( f ) = ( x7 1 x 一霹) _ x r 】,一霹) = ( x 7 x ) 一+ ( x7 x ) 。砰( ,一( x 7 x ) 卅群) 一x q ( x r x ) 一 ( x r y 一霹) = 参一( 以) 叫砰( ,一p q ) 。1 ( 一参) = 参一( 7 彳) 叫霹( ,一岛) 一包 因为 r s s ( r ) = j 乒i , i + l ( 乃一扪) 2,j 岬 喜( - x 7 参( ,) ) 2 一差( 虼一7 参( ,) ) 2 ( 一- r 参+ x f 参- x f 参( ,) ) 2 一“_ _ g i y m - - x m r 参( ,) ) 2 1 6 卢 西北大学硕+ 学位论文 嘉( - x j t 参+ x j 参- - x j 参( ,) ) 2 = 喜 ( 乃一_ r 参) 2 + ( t r 参- x 7 参( ,) ) 2 + 2 ( 乃一t r 易) ( 勺7 参一勺r 参( ,) ) 又因为 = 会,小翻) rx 啊( 嘲) ) + 2 q 嘲) ) r ex = y 7 凹= 0 参( f ) = 参一( x r x ) 。1 ( j 一乞) q 层 ( 撕) ) r 以( 撕) ) = ( m ) 一1 一( ,一。) 一1 针霹( ,一只) 一1 会- :会;( ,一乞) 一r 五( x r x ) 一1 霹( ,一乞) 一1 会。 :金;( ,一乞) 一1 名( ,一弓) 一1 会叮 警( 虼一r 参( ,) ) 2 = 茎( 虼一r ( 参一( 参一参( z ) ) ) ) 2 所以 = 耄( 儿( 却r z ) 1 霹( h ) 。1 包) ) 2棚;f = 默i q 虼一7 缸7 ( m ) 一1 霹( ,一乞) 一1 何 = 耄( w ( 心) 一霹( h ) 。1 包) 2 = 茁会。+ ( x7 x ) 一1 霹( ,一乞) 一1 包 r 砰_ ( x r x ) 一1 矸 ( ,一弓) 。1 包 = 如+ ( 以) 一1 霹( ,一乞) 一1 钉霹乞( ,一与) 一1 包 :会:会。+ 会。r i 一只) 一r 碍( j 一乞) 一1 台, 1 7 第二章朋维彳足( 1 ) 模犁的统计诊断 尺s s ( z ) = 会r 会+ ( 参一参( ,) ) 7 x7 x ( 参一参( z ) ) 一萎i + q 【、f 虼一7 参( ,) ) 2 :r s s + 岛at ( ,一名) 一1 乞( ,一乞) 一1 包一岛 t 局a 一包7 ( ,一乞) 一r 弓( ,一乞) 一1 包 因为 所以 故 :r s s e g at 岛+ 日at ( 卜o ( 卜e “。一包r ( ,一砰( ,一盯包 :r s s 一会;会,+ e a ,t ( ,一乞) 一( 名一彳) ( ,一乞) 一1 会g :r s s 一会;会。+ 会;( ,一乞) 一弓会。 会2 r s s 万= ,l p 2 ( n - p - q ) 8 ( i ) = 麟( f ) = r s s r s s - e qe 。+ 茁( ,一盯乞e “。 = g + 局l ,一只) e 9 :( 刀一p ) 各2 - e “;e “碍+ 会;( z - e q ) 一1 乞e “。= ( 刀一p ) 万 q 碍+ e a () 1 乞- 反归踹矗塾辩 证毕 定理给出了一般线性模型在删除第f ,f + 1 ,i + q 组数据前后的估计量之间的关系, 这些公式是我们进行模型统计诊断的基础由于复杂模型可以近似转化为一个线性模型, 所以这个定理不仅适用于一般的线性模型,还可以适用于其他更复杂的模型从定理中 易( f ) = 易一( x7 1 x ) 叫鬈( ,一二) 。1 乓我们可以看出,乞越大,参与易( f ) 之间的差距也就越 1 8 ) 一g o 一一 蚕l 唧 l i “:, 万 西北大学硕士学位论文 大,这符合残差值较大的点可能是异常值的结论所以,数据删除法通过比较矿与妒( f ) 之 问的差距来判定某点是否为异常点或强影响点是合理的 2 4 1 二维a r ( 1 ) 模型的数据删除 a b r a h a ma n db o x 应用b a y e s 方法研究了时间序列中的异常点问题,下面我们用数 据删除法来研究二维a r 0 1 模型 即 褂 荔:慨 + 期 ( 2 2 3 ) f 五,= 仍五产i + 伤五卜i + q , ( 2 2 4 ) l 置,= 伤墨,- l + 纯五r - i + 岛, ( 2 2 5 ) 若e p ,占- ) 玩昭g :,占三) ,即e 0 占:,) o 时,留。,) 和 z ,) 是两个有关系的一a r ( 1 ) 序列;而若e g ,占,) = 幽昭g :,占三) 时,则留“ 和 x 2 ,) 是两个不相关的一维么月( 1 ) 序列我 们假设e b ,) = d i a g ( c :,占三) ,那么研究公式( 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论