《计算统计学》教学大纲_第1页
《计算统计学》教学大纲_第2页
《计算统计学》教学大纲_第3页
《计算统计学》教学大纲_第4页
《计算统计学》教学大纲_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 计算统计学教学大纲前言计算统计学是统计学专业一门专业选修课程,本课程以数据分析工作为起点,介绍统计思想应用于计算的技术方法,了解数据分析的处理方法与基本统计计算方法。设置本课程的目的是使学生掌握基本的统计计算数值方法,了解产生U(0,1)分布随机数的各种同余方法及其基本定理及产生其他分布随机数的一些基本的数学方法,掌握概率统计模拟方法在定积分计算中的应用与多元线性回归的计算方法,了解常见的数据处理方法与最近出现的部分新方法理论。学习本课程的要求是:使学生能够把统计推导、数值计算和计算机实现有机地结合起来,从而掌握用统计方法解决实际问题的过程,为后继课程的学习奠定基础。先修课程要求:数值分析、

2、应用多元统计分析、Matlab程序设计本课程计划总学时54学时,3学分。选用教材:自编与参考教材相结合。参考教材为:高惠璇编著,统计计算,北京大学出版社,1995教学手段:课堂讲授为主,习题课与讨论课为辅考核方法:考查教学进程安排表周次学时数教学主要内容教学环节备注13第一章Monte Carlo方法及其应用1.1 Monte Carlo方法1.2简单应用的例子讲课课堂讨论23第二章误差与数据处理,分布函数算法2.1试验误差2.2计算误差2.3数据的变换与校正讲课332.4分布函数的一般算法1)积分的近似算法2)函数逼近法讲课43第三章样本抽样方法3.1随机数生成3.2均匀随机数的产生讲课53

3、3.2 均匀随机数的产生3.3均匀随机数的检验讲课633.3均匀随机数的检验3.4非均匀随机数的产生讲课733.4非均匀随机数的产生讲课833.5减少方差的重要抽样法(相似密度抽样法)3.6减少方差的分层抽样法与MCMC方法习题选讲讲课习题课93第四章 聚类分析4.1 常用的距离4.2相似系数4.3系统聚类方法4.4聚类算法的性能比较讲课1034.5聚类方法1以点与点之间的相似性信息进行聚类分析2以空间点分布的密度信息进行聚类分析4.6两种聚类方法的比较4.7聚类分析在数据挖掘中的应用讲课113期中考查课堂讨论123第五章 多元线性回归的计算方法5.1多元线性回归模型的参数估计与假设检验5.2

4、基于正规方程的回归算法讲课1335.2基于正规方程的回归算法5.3利用正交三角分解进行回归计算讲课1435.3利用正交三角分解进行回归计算5.4谱分解在岭回归估计中的应用讲课1535.5利用消去变换进行逐步回归计算讲课1635.6线性约束回归及其计算讲课173第六章有限混合模型与EM算法6.1期望值最大化方法(EM算法)6.2有限混合模型讲课183总复习课堂讨论第一章 Monte Carlo方法及其应用一、学习目的了解Monte Carlo方法的基本思想,以及运用该方法的基本思路,即蒙特卡罗求解问题首先要建立一个概率模型或随机过程,使它的参数等于问题的解,然后通过对模型或过程的观察或抽样试验来

5、计算所求参数的统计特征,最后再输出所求解的近似值。第一章计划3学时。二、课程内容1.1 Monte Carlo方法蒙特卡罗(Monte Carlo)方法是一种独特的科学计算方法,既可求解随机性问题,又可以求解确定性问题。该方法有其独特的优点:1)与所求解问题的几何维数及问题条件关系不大,几何越复杂,它相对优点越明显;2)适应性强;3)程序结构简单,所需计算机存贮单元比其他数值方法少,容易建立通用性很强的应用软件。1.2简单应用的例子1蒲丰投针问题2任意曲边梯形面积的近似计算三、重点、难点提示和教学手段Monte Carlo方法的基本思想,以及该方法的基本思路四、思考与练习如何应用Monte C

6、arlo方法对确定性问题进行求解?第二章 误差与数据处理,分布函数算法一、学习目的了解试验误差与计算误差的处理方法,掌握数据的变换与校正方法,基本掌握分布函数的一般算法过程。第二章计划6学时二、课程内容2.1试验误差1系统误差2随机误差3过失误差2.2计算误差2.3数据的变换与校正1数据的近似正态化变换2试验误差的校正2.4分布函数的一般算法1积分的近似算法1)等距内插求积公式2)高斯型求积公式2函数逼近法1)有理函数逼近2)连分式逼近三、重点、难点提示和教学手段重点:试验误差的校正;分布函数的一般算法难点:积分的近似算法中的高斯型求积公式;连分式逼近四、思考与练习1.误差产生的原因分析及其处

7、理方法2.等距内插求积公式法近似求积分的误差分析第三章 样本抽样方法一、学习目的掌握随机数生成与变换的基本定理;掌握均匀随机数与非均匀随机数的产生方法;了解减少方差的相似密度抽样法与减少方差的分层抽样法;了解MCMC方法。第三章计划15学时二、课程内容3.1随机数生成1随机数的定义在计算机上用数学方法产生均匀随机数是指按照一定的计算方法而产生的数列,它们具有类似于均匀随机变量的独立抽样序列的性质,这些数既然是依照确定算法产生的,因而不可能是真正的随机数,但是具有真正随机数的一些统计性质,就可以作为真正随机数使用。2随机数生成与变换的基本定理3.2均匀随机数的产生1线性同余法(线性同余发生器)利

8、用数论中的同余运算来产生随机数,故称为同余发生器,包括混合同余发生器和乘同余发生器。2混合同余法(混合式LGC)3乘同余法(积式发生器)4素数模乘同余法3.3均匀随机数的检验1参数检验均匀随机数的参数检验是检验由某个发生器产生的随机数序列的均值,方差或各阶矩等均匀分布的理论值是否有显著的差异。2均匀性检验随机数的均匀性检验又称为频率检验,它用来检验由某个发生器产生的随机数序列是否均匀的分布在0,1区间上,即是检验经验频率与理论频率的差异是否显著。1)检验2)柯氏检验柯氏检验是连续分布的拟合性检验。它检验样本的经验分布函数与总体的分布函数间的差异是否显著。3)序列检验3独立性检验1)相关系数检验

9、12)相关系数检验23)列联表检验3.4非均匀随机数的产生3.5减少方差的重要抽样法(相似密度抽样法)重要抽样法把积分区域上的均匀抽样改为按对积分值I贡献大的某个密度抽样,这就是重要抽样法的基本思想,也是减少随机模拟试验的误差,加快收敛速度的技巧。3.6减少方差的分层抽样法与MCMC方法分层抽样法的基本思想与重要抽样法相似,它们都是使得对积分值贡献大的抽样更多的出现,不同之处是:分层抽样法不改变原来的概率分布,而是将抽样区间分成一些小区间,在各个小区间内的抽样点数根据贡献大小决定,使得对积分值贡献大的抽样更多的出现,以便提高抽样效率。MCMC方法能够为后验概率得到一致估计,这是因为采样过程最终

10、会进入一种动态平衡,即长期来看在每个状态上花费的时间都与其后验概率成正比。三、重点、难点提示和教学手段重点:1.随机数生成与变换的基本定理。2均匀随机数的产生方法3均匀随机数的均匀性检验与独立性检验。4相似密度抽样法与分层抽样法难点:1.非均匀随机数的产生方法2. MCMC方法原理四、思考与练习1.分析MCMC抽样方法与减少方差的重要抽样法之间内在联系2给出随机数生成与变换基本定理的证明过程3.MCMC方法试验(基于matlab语言)第四章 聚类分析一、学习目的了解常用距离的表示与系统聚类方法;了解相似性聚类的各种变形与以空间点分布的密度信息进行聚类分析的方法;了解FCM算法.第四章计划6学时

11、。二、课程内容4.1常用距离1明氏距离2马氏距离4.2相似系数1夹角余弦2相关系数4.3系统聚类方法1最短距离法2划分方法3层次方法4基于密度,网格,模型的方法4.4聚类算法的性能比较4.5聚类方法1以点与点之间的相似性信息进行聚类分析1)相似性聚类方法给定一集合KX,给定X上的一个相似性函数f(x,y)及一正数g,求K的一个划分,并满足:若两元素x,y有f(x,y)g,则x,y分到同一类.这种聚类随g不同而不同,而且所有可能的聚类构成一个分层递阶结构。2)相似性聚类的各种变形2以空间点分布的密度信息进行聚类分析因为聚类不但与聚类中的个别点的相似性有关,而且与其周围环境的点的相似性也有关,一般

12、“周围环境”的情况用“密度”、“分布函数”来表示。故统计学中的总体分布的非参数估计法(如Parzen窗法、kn-邻近估计等),均可移植到聚类分析中来4.6两种聚类方法的比较4.7聚类分析在数据挖掘中的应用三、重点、难点提示和教学手段点与点之间的相似性信息进行聚类分析,空间点分布的密度信息进行聚类分析四、思考与练习1.明氏距离与马氏距离的特点是什么?2给出系统聚类方法的各种表示第五章 多元线性回归的计算方法一、学习目的掌握基于正规方程的回归算法以及利用消去变换进行逐步回归计算方法;了解岭回归估计中谱分解;了解正交三角分解进行回归计算过程与线性约束回归及其计算方法。第五章计划15学时、二、课程内容

13、5.1多元线性回归模型的参数估计与假设检验回归分析是处理变量间相关关系的一种很有效的统计方法,通过观测数据,寻找某些指标(因变量)与另一些变量(自变量)之间的相互依赖关系。若当假设它们满足线性关系时,所使用的回归方法就称为线性回归分析。设因变量Y与自变量线性相关,n次观测数据满足以下多元线性回归模型:其中是观测误差,且假定N相互独立,记:,则上式可以写为矩阵形式:回归分析主要讨论以下几方面的问题:1)参数与的估计问题2)对参数的线性函数进行统计检验3)预测问题4)回归变量的筛选问题5.2基于正规方程的回归算法回归模型中参数的最小二乘估计量的常用算法是求解正规方程,即求线性方程组的解。1用消去变

14、换进行回归计算2用Cholerky分解进行回归计算设rank,记S,对S作Cholerky分解:S=,其中T为m+1阶上三角形矩阵,比较两式,得到:,由此可得:5.3利用正交三角分解进行回归计算1变换在回归中的应用2Givens变换在增删观测的回归计算中的应用1) Givens变换化矩阵A为上三角形矩阵的另一种正交变换,Givens变换,于1954年提出。2) 应用于回归计算在回归分析的计算过程中,经回归诊断,若发现某个观测是异常值,则应删除,再用余下的n-1组正常数据重新建立回归模型,且希望利用已有的结果经少量计算来获得删除某个观测后的回归结果。5.4谱分解在岭回归估计中的应用1利用谱分解计

15、算2岭回归估计的算法5.5利用消去变换进行逐步回归计算1逐步筛选变量的过程逐步回归的基本想法:逐个引入自变量,每次引入对因变量Y影响最显著的变量,每引入一个新变量,对先前引入方程的老变量逐个进行检验,将变为不显著的变量,从影响最小的开始,逐个剔除,直到没有可剔除时考虑引入新变量,此过程反复进行直到不能再引入新变量为止。由此得到的回归方程中所有变量对Y的作用都是显著的,而不在方程中的变量对Y的作用都是不显著的,这样的回归方程称为“最优”回归方程。2逐步筛选法的基本步骤1) 考虑可否剔除变量的基本步骤假设已引入回归方程的变量为(),计算已在方程中的变量的偏回归平方和,并设,即相应的变量是方程中对Y

16、影响最小的变量 ;检验变量对Y的影响是否显著:对变量进行回归系数的显著性检验,即检验,检验统计量为:,给定检验水平,若,则剔除,重新建立Y与余下的r-1个变量的回归方程,再检验方程中最不重要的变量可否剔除,直到方程中没有变量可剔除后,转入考虑能否引入新变量的步骤。2) 考虑可否引入新变量的基本步骤假设已入选r个变量,不在方程中的变量记为,计算不在方程中变量的偏回归平方和,并设,即不在方程中的变量是对Y影响最大的变量;检验变量对Y的影响是否显著:对变量作回归系数的显著性检验,即检验,检验统计量为:,给定水平,若,则引入变量,并转入考虑可否剔除变量的步骤。若则逐步筛选变量的过程结束。假设用逐步筛选

17、方法得到r个变量,逐立Y与这t个变量的回归方程,就是用逐步回归方法得到的“最优”回归方程。3用消去变换进行逐步回归计算5.6线性约束回归及其计算1化为无约束回归的算法2拉格朗日乘子法三、重点、难点提示和教学手段用Cholerky分解进行回归计算方法;用消去变换进行逐步回归计算步骤四、思考与练习用Matlab软件的统计软件包或SPSS统计软件作回归分析的一个试验,数据可选用UCI中的某个数据集,并分析试验结果。第六章有限混合模型与EM算法一、学习目的了解EM算法的一般步骤与有限混合模型的基本思想。第六章计划3学时。二、课程内容6.1期望值最大化方法(EM算法)EM算法是一种在不完全数据情况下计算极大似然估计或者后验分布的迭代算法。在每一迭代循环过程中交替执行两个步骤:E步,在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望;M步,用极大化对数似然函数以确定参数的值,并用于下步的迭代。算法在E步和M步之间不断迭代直至收敛,6.2有限混合模型数据集中数据是由一个混合分布P(x)生成的,这样的分布有k种成份,每种成份自身为一个概率分布,数据的生成是通过先选择一种成份,然后根据该成份生成此数据,这里成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论