第1章多元正态分布的参数估计m_第1页
第1章多元正态分布的参数估计m_第2页
第1章多元正态分布的参数估计m_第3页
第1章多元正态分布的参数估计m_第4页
第1章多元正态分布的参数估计m_第5页
已阅读5页,还剩152页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计与应用数学学院本课程特点主要介绍各种多元统计分析方法的基本思路和原理,同时讲述一些方法的数学推导过程;主要利用统计软件——SPSS,学习和掌握各种多元统计方法;从数据入手,来讲述各种分析方法,最后得出结论;学习的目标:会使用统计软件SPSS,进行多元统计分析。本课程的主要参考书目《多元统计分析》何晓群、中国人民大学出版社《多元统计分析》于秀林、任雪松、中国统计出版社《多元统计分析》张润楚、科学出版社《社会统计分析方法-SPSS软件应用》郭志刚、中国人民大学出版社《统计分析与spss的应用》薛薇、中国人民大学出版社《SPSS在统计分析中的应用》,朱建平、清华大学出版社多元统计的产生和应用

多元统计的产生多元统计分析起源于本世纪初,1928年Wishart发表论文《多元正态总体样本协差阵的精确分布》,是多元分析的开端。多元统计分析主要发展于三、四十年代,Fisher、Hotelling、Roy、徐宝禄等人做了一系列的多元统计分析的理论探索。但是由于多元分析的计算复杂,计算量又大,使其发展受到影响。随着计算机的普遍应用及统计软件的广泛应用,多元统计重新出现活力,现已大量应用于各种领域中。多元统计的应用经济学上的应用

:如不同地区的经济发展水平比较,综合的经济效益评价等医学上的应用

:如研究某种病的起因,研究某种新药或某种医疗方法的治疗效果,利用计算机初步诊断病情等。地质学上的应用:如在地质勘探中,如何根据岩石标本的多种特征来判别地层的地质年代,是有矿还是无矿,是铜矿还是铁矿等等多元统计的应用文学上的应用:复旦大学李贤平教授带领他的学生对《红楼梦》进行了多元统计分析。把《红楼梦》的120回,作为120个样本,以虚词作为变量,计算在每一回中(样本)变量(虚词)出现的次数,然后用聚类的方法进行分类。结论:120回分为两类

前80回为一类—进一步与曹雪芹著作相比分析,答案是肯定的。

后40回为一类—进一步分析,证实不是高鹗一人所写。另外在生态学、体育科学、社会学、考古学、军事科学等等领域,多元统计都得到了广泛的应用。多元统计分析的内容1.设法将数据简化,譬如将多个变量设法综合为一个综合变量,以便于比较。例如:将学生的各门课程的考试成绩综合为一个总成绩,用以作为学生高考录取的标准或学生评优的标准。2.设法将数据分类,以便于各类的比较分析,这种分类既可以是对变量的分类,也可以是对样品的分类。例如:企业需要根据对市场调查得到的各种信息数据,对其所推出的产品未来的销售态势进行评估,以便进行生产经营决策。3.对不同变量之间的关系进行分析,以期找出一些规律。例如:分析反映宏观经济运行的各种经济指标与反映股票市场运行的各种指标之间的关系。

第一章多元正态分布的参数估计第一节基本概念第二节多元正态分布第三节多元正态分布的参数估计第一节基本概念

一、随机向量我们所讨论的是多个变量的总体,所研究的数据是同时观测p个指标(即变量),又进行了n次观测得到的,我们把这p个指标表示为,常用向量表示:样品

变量X1X2…XP12nx11x21xn1x12x22xn2………x1px2pxnp随机向量横看上表,记为表示第个样品的观测值竖看上表,记为表示对第个变量的次观测数值随机向量样本资料矩阵可用矩阵语言表达:随机向量定义1:二、多元分布定义2性质(1)(2)(3)(4)定义3:注:一个p元函数能作为中某个随机向量的密度函数的主要条件是:⑴⑵例1:试证函数定义4:例2:对例1中的求边缘密度函数。定义5:例3:例2中的X1与X2是否相互独立?三、随机向量的数字特征定义6三、随机向量的数字特征即随机向量X的均值:三、随机向量的数字特征当A、B为常数矩阵,X、Y为随机向量,则可以推得均值(向量)有如下性质:⑴⑵⑶三、随机向量的数字特征定义7:注:⑴⑵当A、B为常数矩阵时,由定义可以推出协方差阵有如下性质:⑴⑵⑶⑷数据的标准化对于随机向量,可将其各个分量标准化,即:一、多元正态分布的定义二、多元正态分布的性质第二节多元正态分布一、多元正态分布的定义一元正态分布的密度函数为定义8注:注:定理1二、多元正态分布的性质1.如果正态随机向量的协方差阵是对角阵,则的各分量是相互独立的随机变量。2.多元正态向量的任意线性变换仍然服从多元正态分布。3.多元正态分布的任何边缘分布为正态分布。注:多元正态向量的任何一个分量子集的分布称为的边缘分布。第三节多元正态分布的参数估计一、多元样本的概念二、多元样本的数字特征三、均值向量与协差阵的最大似然估计四、维希特(Wishart)分布一、多元样本的概念需要注意的问题1.多元样本中的每个样品,对p个指标的观测值往往是有相关关系的,但不同样品之间的观测值一定是相互独立的。2.多元分析处理的多元样本观测数据一般都属于横截面数据。二、多元样本的数字特征定义9:⑴样本均值向量定义为:⑵样本离差阵定义为:⑶样本协差阵定义为:⑷样本相关阵其中:注:样本均值向量和离差阵也可以用样本资料阵X直接表示如下:三、均值向量与协差阵的最大似然估计均值向量与协差阵的最大似然估计均值向量与协差阵的最大似然估计均值向量与协差阵的最大似然估计注:均值向量与协差阵的最大似然估计均值向量与协差阵的最大似然估计μ和∑的估计量的基本性质⑴⑵⑶定理2四、维希特(Wishart)分布Wishart分布是Wishart在1928年推导出来的。定义10:维希特(Wishart)分布维希特分布的基本性质⑴维希特分布的基本性质⑵⑶维希特(Wishart)分布说明:什么是随机矩阵的分布设随机矩阵将该矩阵的列向量(或行向量)一个接一个地连起来,组成一个长的向量,即拉直向量:维希特(Wishart)分布注:多元正态分布参数估计的实例与计算机实现一二一均值向量的估计二协差阵的估计下面通过一个实例来说明多元正态分布参数估计的SPSS实现过程。从沪深两市上市公司中随机抽取300家公司,取其三个反映收益情况的三个财务指标:每股收益率(eps)、净资产收益率(roe)和总资产收益率(roa)。现要求对这三个指标的均值和协差阵进行估计。一均值向量的估计1.选择菜单项Analyze→Descriptive

Statistics→Descriptives,打开Descriptives对话框,如下图。将待估计的三个变量移入右边的Variables列表框中。2.单击Options按钮,打开Options子对话框,如下图所示。在对话框中选择Mean复选框,即计算样本均值向量。单击Continue按钮返回主对话框。3.单击OK按钮,执行操作。则在结果输出窗口中给出样本均值向量,如下表。即样本均值向量为(0.175,0.044,0.026)。二协差阵的估计1.选择菜单项Analyze→Correlate→Bivariate,打开BivariateCorrelations对话框,将三个变量移入右边的Variables列表框中。2.单击Options按钮,打开Options子对话框,选择Cross-productdeviationsandcovariances复选框,即计算样本离差阵和样本协差阵。单击Continue按钮,返回主对话框。3.单击OK按钮,执行操作。则在结果输出窗口中给出相关分析表。注:这里给出的样本协差阵是S/(n-1)

,而不是S/n。统计软件SPSS使用说明

SPSS简介SPSS是软件英文名称的首字母缩写,原意为StatisticalPackagefortheSocialScience,即“社会科学统计软件包”。但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为:

StatisticalProductandServiceSolutions,意为“统计产品与服务解决方案”.

SPSS

使统计分析过程

变得简单容易SPSS软件基础知识

SPSSforWindows的安装和启动

SPSSforWindows作为Windows操作系统下的软件产品,具有和其他软件基本相同的安装步骤。基本步骤概括如下:(1)启动Windows,将存有SPSSforWindows的光盘放入光盘驱动器(2)运行资源管理器,读取光盘文件。(3)双击执行安装程序文件setup.exe.(4)根据用户的需要选择所需要安装的程序项。

正确完成安装步骤以后,就可以启动运行SPSSforWindows软件了。SPSSforWindows中的两个基本窗口

1.SPSS的数据编辑窗口—直接进入的窗口SPSS数据编辑窗口的窗口标题为dataeditor,它是SPSSforWindows的主程序窗口。数据编辑窗口是对分析对象—SPSS数据文件进行录入、修改、管理等基本操作的窗口。SPSS数据文件均以.Sav作为文件扩展名存储在磁盘上。数据编辑窗口数据编辑窗口的系统状态显示区用来显示系统的当前运行状态。当系统等待用户操作时,会出现“

SPSSprocessorisready”的提示信息。

数据编辑窗口的特点

数据编辑窗口是在系统启动过程中自动打开的窗口,在SPSS运行过程中只能打开一个数据编辑窗口。

SPSS中的各种统计分析功能都是针对该窗口中的数据进行的。

关闭数据编辑窗口意味着退出关闭SPSS软件系统。

SPSS的输出窗口SPSS输出窗口的窗口名为Output-SPSSViewer,它是显示和管理SPSS统计分析结果、报表及图形的窗口。出现在该输出窗口中的内容均以.spo作为文件扩展名存储在磁盘上。SPSS数据文件的

建立和管理

数据文件的特点SPSS数据文件是一种结构性的数据文件,它包括文件结构(VariableView)和数据(DataView)内容两部分。SPSS数据文件中的一列数据称为一个变量(Variable)。每个变量都应有一个名称,即:变量名,SPSS数据文件中的一行数据称为一条个案(Case)。所有个案组成了SPSS数据文件的数据部分。spss变量的属性在spss数据编辑窗口中单击Variableview标签,进入变量视图界面,就可以对变量的各个属性进行设置。1.变量名(Name)变量名是变量存取的唯一标志,spss变量名的规则如下:①变量名字符个数不得超过8②首字符必须是英文字母或汉字,后面可以跟除了空格及!、?、*之外的字母或数字、汉字,且下划线和圆点不能作为最后一个字符③变量名不区分大小写字母④变量名不能与ALL、BY、AND、NOT、OR等spss保留字相同2.变量类型(Type)常用的spss中的变量有3种:数值型、字符型和日期型①数值型变量标准型(Numeric):是spss最常用的类型,也是默认的数据类型逗号型(Comma):用句点来分割整数部分和小数部分,整数部分从个位开始每3位以一个逗号相隔句点型(Dot):以逗号作为小数部分和整数部分的分隔符,而以句点分隔较长的整数部分科学记数型(Scientificnotation):使用科学记数法表示数据。默认长度为8,包括数据尾部的正负号、字母E和幂次美元型(Dollar):这种变量类型在数据前自动加上美元符号。自定义型(Customcurrency):可供用户根据需要自己定制数据的表现方式②字符型变量(String)由一个字符串组成,能够区分大小写,不能参加算术计算该变量的长度可以在Characters框后面的输入框中由用户随意设置③日期型变量(Date)用来表示日期或时间。选中Date按钮后,VariableType对话框中自动出现日期型变量格式列表,用户可以根据需要选择日期型变量的数据格式3.变量名标签与变量值标签

(LabelandValues)变量名标签是对变量名附加的解释说明,其长度可以达到120个字符变量值标签可以说明符号和数字所代表的实际意义,增强统计分析结果的可读性4.缺失值(Missing)利用定义缺失值的方法来指定用户缺失值,将其中存在问题的数据与正常数据区分开来5.变量的列显示宽度和对齐方式

(ColumnsandAlign)Columns指在数据编辑窗口中该变量占的字符列数Align用于设置变量值在单元格中的对齐方式6.变量的度量尺度Scale是尺度变量,用于代表连续数据,即定距数据和定比数据Ordinal是顺序变量,用于测度定序数据Nominal是名义变量,用于代表定类数据Spss系统把数字默认为Scale,把字符串默认为Nominal建立SPSS数据文件应通过两大步骤实现第一步:定义SPSS数据文件的结构;第二步:输入分析数据。

1.定义spss数据文件的结构①定义变量名②定义变量类型及长度③定义变量名标签和变量值标签定义变量名标签只需要在Label列下的单元格中输入相应变量的文字解释说明定义变量值标签要在所示的变量值标签定义对话框中进行设置④定义缺失值选择Missing列下相应变量对应的单元格,单击单元格右边的删节号,弹出缺失值定义对话框⑤定义变量的列显示格式及度量尺度2.在数据编辑窗口中输入数据单击DataView即可数据的录入可以以样品(观测)为单位进行录入,即横向录入;也可以以变量为单位进行录入,即纵向录入横向录入——Tab纵向录入——Enter读取外部数据主要介绍如何读取Excel文件1.按File→Open→data,调出OpenFile对话框,在文件类型下拉列表中选择“Excel(*.xls)”2.选择要打开的Excel文件,单击“打开”按钮,调出OpenExcelDataSource对话框spss数据的编辑与保存

1.Edit菜单中的数据编辑功能Undo撤销上一步操作Redo恢复上一步被撤销的操作Cut剪切选定内容Copy复制选定内容Paste将复制或剪切的内容粘贴到指定位置Clear删除选定的变量、记录,或者清除选定区域的内容Insertvariable在指定位置的左侧插入一个变量Insertcase在指定位置的上方插入一个记录Gotocase用于数据的定位

2.SPSS数据文件的保存

通过File→Save或者File→Saveas菜单方式执行SPSS数据文件格式:是SPSS系统默认的数据格式,也是最常用的一种数据格式。在磁盘上以.Sav作为文件扩展名。Excel工作表格式文件:文件扩展名为.xls。Dbase数据库文件格式文件:文件扩展名为.dbf。文本格式文件:文件扩展名为.dat。SPSS数据文件的

整理

数据排序个案排序:按照用户指定的某一个或多个变量的变量值的升序或降序重新排列,这里用户所指定的变量称为排序变量。个案排序的操作步骤:Data—>SortCases

数据排秩所谓“秩”,是指对变量排序之后观测的顺序号。Spss可以实现自动计算变量的秩,并生成新的秩变量。操作步骤:Transform→RankCases数据转置有时需要将数据文件进行转置,即把变量和观测进行互换。操作步骤:Data→Transpose选择记录的子集在统计分析中,有时候只需要对所有记录的一部分进行分析操作步骤:Data→SelectCases数据分类汇总是指以指定的一个或多个分类变量为分类依据,将另一个或多个变量的数值按照分类结果进行描述统计。操作步骤:Data→Aggregate合并数据文件合并数据文件是指将两个或多个数据文件中的观测或变量合并到一个数据文件中去,它包括纵向合并(AddCases)和横向合并(AddVariable)两种方式1.纵向合并(AddCases)是指把两个或多个数据文件实现上下对接。纵向合并要求两个数据文件有相同的变量和不同的观测。操作步骤:Data→MergeFiles→AddCases2.横向合并(AddVariables)是指把两个或多个数据文件实现左右对接。横向合并要求两个数据文件有相同的观测和不同的变量。操作步骤:Data→MergeFiles→AddVariables数据拆分在进行统计分析时,经常要对文件中的记录进行分组,然后按组分别进行分析。这时就要对数据进行拆分。操作步骤:Data→SplitFile注:这里的数据拆分并不是物理结构上的分成两个数据文件,而只是在进行各项数据分析之前,做形式上的拆分。计算新变量在对数据文件中的数据进行统计分析时,有时需要对数据文件中的变量加工产生新的变量,这时就要通过计算产生新的变量。操作步骤:Transform→Compute数据重新编码有时候收集到的数据形式不太适合作进一步的统计分析,这时就可以利用spss提供的重新编码命令进行处理。操作步骤:数据标准化在进行统计分析时,经常需要对各统计指标数值进行标准化处理,最为常用的数据标准化方法是“标准差标准化法”,也称为“Z分数法”。其计算公式如下:数据标准化的操作步骤:

Analyze→DescriptiveStatistics→DescriptivesSPSS数据文件的

统计描述基本概念和原理统计描述是指如何搜集、整理、分析、研究并提供统计资料的理论和方法,用于说明总体的情况和特征。频数分布频数分布是指在统计分组的基础上,将总体所有的单位按某一标志进行归类排列,并计算各组的单位数。集中趋势指标集中趋势指标也叫平均指标,它表明同类现象在一定时间、地点和条件下所达到的一般水平,是总体内部各单位参差不齐的标志值的代表值。集中趋势指标平均指标有数值平均数和位置平均数两大类。常用的数值平均数有算术平均数、调和平均数、几何平均数。常用的位置平均数有中位数和众数。集中趋势指标⑴算术平均数(Mean):由样本标志值的总和除以样本数据的个数得出。算术平均数指标仅适用于定比数据和定距数据。⑵中位数(Meadian):是将样本标志值按大小顺序排列之后,位于中间位置的那个标志值。中位数适用于定比数据、定距数据和定序数据。集中趋势指标⑶众数(Mode):是指在总体中出现频数最大的那个标志值。众数是一种位置平均数,不受异常值的影响,在实际工作中应用较为普遍众数指标适用于定比数据、定距数据、定序数据和定类数据。离散程度指标离散程度指标也称为变异指标,在统计分析中具有重要作用。⑴它可以表明现象的均衡程度和稳定程度;⑵它可以表明平均指标的代表性,数据离散程度越大,则该分布的平均指标代表性就越小。常用的离散程度指标①方差(Variance)各单位标志值与算术平均数离差平方的平均数。其计算公式为:常用的离散程度指标②标准差(Std.deviat

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论