版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 平时:平时: 40% 实验课实验课+作业作业 (课后习题、第(课后习题、第9周上交,周上交,38、34、30) 考试:考试: 60% 第第10周周 考试考试 周四晚(周四晚(11月月19日)日) 基本概念;回归分析;线性模型;判别分析;基本概念;回归分析;线性模型;判别分析;聚类分析;主成分分析;因子分析聚类分析;主成分分析;因子分析 ;典型相关;典型相关; 公共邮箱:公共邮箱: bjfu_ 密码:密码:博客博客 : http:/ 课课 程程 介介 绍绍 相关、偏相关、相关、偏相关、典型相典型相线性回归、线性线性回归、线性模型、判别模型、判别主成分、因子分主成分、因子分析、对应分析析、对应分
2、析聚类、判别聚类、判别1 多元统计分析及多元统计分析及R语言建模(语言建模(3)王斌会)王斌会 暨南大学出版社暨南大学出版社 2 多元统计分析多元统计分析 第第3版版 何晓群何晓群 编编 人民大学大出版社人民大学大出版社3 应用多元统计分析应用多元统计分析 高惠璇高惠璇 编编 北京大学出版社北京大学出版社4多元统计分析选讲多元统计分析选讲 张饶庭张饶庭 著著 中国统计出版社中国统计出版社 1 Applied Multivariate Statistical Analysis(6th Ed) 2007 Richard A. Johnson Dean W.Wichern China Statist
3、ics Press (国外国外MBA优秀教材优秀教材) 2 Analyzing Multivariate Data 2003 Lattin Carroll Green China Machine Press ( 斯坦福大学,罗格斯大学,宾夕法尼亚斯坦福大学,罗格斯大学,宾夕法尼亚) 3 Applied Multivariate Methods for Data Analysts 2005 Dallase E. Johnson Higher Education Press (海外优秀数学类教材海外优秀数学类教材)本专业研究生博士生论文本专业研究生博士生论文线性代数和数理统计复习线性代数和数理统计
4、复习矩阵的定义矩阵的定义 由由 个数个数排成的排成的 行行 列的数表列的数表nm mn njmiaij, 2 , 1;, 2 , 1 111212122212nnmmmnaaaaaaaaa称为称为 矩阵矩阵. .简称简称 矩阵矩阵. .nm nm 矩阵运算矩阵运算 加法加法数与矩阵相乘数与矩阵相乘矩阵与矩阵相乘矩阵与矩阵相乘转置矩阵转置矩阵方阵的行列式方阵的行列式123235471132202132015AB 矩阵的秩矩阵的秩矩阵的逆矩阵的逆方阵的特征值和特征向量方阵的特征值和特征向量rank(A)inv(A)det(A)AA*BA+BkAV,D=eig(A)一、单变量统计在自然界中,有些变量
5、在每次观察前,不可能事先确定其取值;经过在自然界中,有些变量在每次观察前,不可能事先确定其取值;经过大量反复观察,其取值又有一定的规律,这种变量称为大量反复观察,其取值又有一定的规律,这种变量称为。例例 (1). 掷骰子出现某点数的概率为掷骰子出现某点数的概率为1/6,若掷,若掷100次,则出现该点数的次,则出现该点数的次数次数X是随机变量是随机变量; (2). 332路公车每路公车每10分钟发一趟车,某人在随机的时间到达车站等分钟发一趟车,某人在随机的时间到达车站等车,则等车时间车,则等车时间X是随机变量。是随机变量。 X的所有可能取值是有限个或可列个。的所有可能取值是有限个或可列个。 最常
6、见的一类非离散型随机变量。最常见的一类非离散型随机变量。 对连续型随机变量,考察事件对连续型随机变量,考察事件aXb的概率。若存在非负的可的概率。若存在非负的可积函数积函数p(x),使得:对任意的,使得:对任意的a, b(ab),都有,都有badxxpbXaP)( 则称则称p(x)为随机变量为随机变量X的的 对所有随机变量对所有随机变量X,可以定义以下的概率分布函数,可以定义以下的概率分布函数F(x): xdttpxXPxF)( xFxp)(1)(0)(dxxpxpP(x)的性质:的性质:设离散型随机变量设离散型随机变量X的分布律为:的分布律为:,.3 , 2 , 1,ipxXPii若若1ii
7、ipxXE收敛,则称收敛,则称E(X)为随机变量为随机变量X的的或或。xi:质点质点i的坐标;的坐标;pi: 质点质点i的质量的质量E(X): 质心坐标质心坐标设设X为连续型随机变量,它的概率密度函数为为连续型随机变量,它的概率密度函数为p(x) ,若,若 dxxxpXE收敛,则称收敛,则称E(X)为随机变量为随机变量X的的或或。小结:小结:E(X)反映随机变量反映随机变量X的统计平均性质,代表随机变量取值的一般水平的统计平均性质,代表随机变量取值的一般水平或集中的位置,略去了随机变量概率分布规律的具体细节。或集中的位置,略去了随机变量概率分布规律的具体细节。设随机变量设随机变量X的均值为的均
8、值为E(X),则:,则:XDXXEXEXDX的标准差或均方差:的方差:2对于离散型随机变量对于离散型随机变量X,其方差为:,其方差为:12iiipXExXD对于连续型随机变量对于连续型随机变量X,其方差为:,其方差为: dxxpXExXD2小结:小结:D(X)反映随机变量反映随机变量X的相对于均值的相对于均值E(X)的偏离程度,代表随机变量取的偏离程度,代表随机变量取值的分散性,也是统计平均的性质。值的分散性,也是统计平均的性质。设随机变量设随机变量X的概率密度为:的概率密度为:xexpx22221)(其中其中- 0均为常数。称均为常数。称,记,记作作 :均值;:均值; :方差:方差 =0;
9、2=1时,称为标准正态分布,记为时,称为标准正态分布,记为遵从正态分布的随机变量遵从正态分布的随机变量X,其正态分布函数为:,其正态分布函数为:xdtexXPxt22221)(正态分布完全由其均值正态分布完全由其均值 和方差和方差 2决定决定;正态分布的概率密度函数曲线呈对称的正态分布的概率密度函数曲线呈对称的“钟形钟形”;经验规则(经验规则(3 准则):准则):9973.039545.026826.0 xPxPxP689599 2 3 2 3 p(x)x21(population) 研究对象的某种特征值的全体组成的集合。用研究对象的某种特征值的全体组成的集合。用X表示。表示。X1, X2,
10、, Xn (sample) 在总体中选取部分有代表性的子集称为(随机)样本。在总体中选取部分有代表性的子集称为(随机)样本。 一个样本是来自总体一个样本是来自总体X的一组相互独立同的一组相互独立同X分布的随机变量。分布的随机变量。x1, x2, , xn 从总体从总体X随机抽取的一组观测值,常用随机抽取的一组观测值,常用x1, x2, , xn来表示样本或样来表示样本或样本值。本值。 (statistical quantity) 设设X1, X2, , Xn为总体为总体X的的n个样本,个样本,g(x1, x2, , xn)为连续函数,则为连续函数,则称称g(X1, X2, , Xn) 为一个统
11、计量。为一个统计量。 显然,统计量显然,统计量g(X1, X2, , Xn)也是一个随机变量。也是一个随机变量。 总体均值总体均值 :刻划总体的平均取值:刻划总体的平均取值 总体方差总体方差 2:刻划总体取值的分散(涨落)程度:刻划总体取值的分散(涨落)程度样本均值样本均值 :niixnx11样本方差样本方差s:niixxns12211niixxns1221显然,样本均值、样本方差都属于统计量。显然,样本均值、样本方差都属于统计量。通常用样本均值、样本方差作为总体均值、总体方差的无偏估计量。通常用样本均值、样本方差作为总体均值、总体方差的无偏估计量。无偏估计无偏估计:当当n取得充分大,样本均值
12、、样本方差分别逼近总体均值取得充分大,样本均值、样本方差分别逼近总体均值和总体方差。和总体方差。或或(当当n较大时较大时)x 假定总体假定总体X的分布函数形式已知,对其中的某些参数进行估计。的分布函数形式已知,对其中的某些参数进行估计。 估计方法:矩估计法、最小二乘法、最大似然法,估计方法:矩估计法、最小二乘法、最大似然法, 从样本值出发,判断关于总体分布的某种假设是否成立。从样本值出发,判断关于总体分布的某种假设是否成立。 值用以衡量(或拒绝)原假设成立所需证据的指标。值用以衡量(或拒绝)原假设成立所需证据的指标。 值越小,否定原假设的条件越高,不容易否定原假设;值越小,否定原假设的条件越高
13、,不容易否定原假设; 值越大,否定原假设的条件越低,比较容易否定原假值越大,否定原假设的条件越低,比较容易否定原假设。设。 变量与变量的关系:变量与变量的关系:确定性关系确定性关系U=IRv=gt变量与变量的关系:变量与变量的关系:非确定性关系非确定性关系(具有统计规律)(具有统计规律)Y=f(x1, x2, , xn)+ 寻求表达寻求表达Y与与x1, x2, , xn的相关关系的的相关关系的,简称简称; 利用回归方程,在一定可靠度的要求下,预估当自变量利用回归方程,在一定可靠度的要求下,预估当自变量x1, x2, , xn取确定值时,随机变量取确定值时,随机变量Y的取值,称为的取值,称为;
14、为使为使Y在给定的范围内取值,利用回归方程,控制自变在给定的范围内取值,利用回归方程,控制自变量量x1, x2, , xn的取值范围,称为的取值范围,称为。数据分析的两大阶段数据分析的两大阶段探索阶段探索阶段实证阶段实证阶段详细查看数据,详细查看数据,分离出数据的模式和特点分离出数据的模式和特点评估观察到的模式或效应评估观察到的模式或效应着重评估现有的证据着重评估现有的证据提供显著性和置信度的陈述提供显著性和置信度的陈述分析工具:分析工具:SPSS、SAS、S-PLUS、MATLAB、R探索性数据分析探索性数据分析 耐抗性耐抗性:重视主体部分,不重视离群值:重视主体部分,不重视离群值 对局部不
15、良行为的非敏感性对局部不良行为的非敏感性 (工资:中位数和平均值那个耐抗性好?工资:中位数和平均值那个耐抗性好?) 残差残差: 残差残差=数据数据-拟合拟合 重新表达重新表达:找到什么样的尺度:找到什么样的尺度(对数或平方根对数或平方根)会简化分会简化分 析,如果原始测量尺度不合适,重新表达会有助析,如果原始测量尺度不合适,重新表达会有助 于对称性、线性关系的发现。于对称性、线性关系的发现。 启示启示:通过显示数据、拟合曲线、残差图等反映数据:通过显示数据、拟合曲线、残差图等反映数据的特点和行为。的特点和行为。变换之后更加接近正态分布对变量sale 进行对数变换重新表达的意义重新表达的意义St
16、atisticsStatisticsAmount of last sale70055.450024.00008.00a103.9394010803.40012.000024.000052.8750ValidMissingNMeanMedianModeStd. DeviationVariance255075PercentilesMultiple modes exist. The smallest value is showna. 均值中位数众数标准差方差分位数探索性数据分析探索性数据分析-描述描述直方图饼图探索性数据分析探索性数据分析-图示图示条形图复合条形图Boxplotsmedian25th
17、 percentile75th percentileOutliersextreme values Maximum minimum箱线图快速直观快速直观. 便于比较便于比较. 箱线图R语言 快速直观快速直观. 便于比较便于比较. 75th percentile25th percentileMaximum minimumOutliersextreme values median将受教育大于等于16年的数据筛选出来,观察开始工资14500=14.5x1000 stemleafStem width茎叶图35000=3.5x10000星相图图像形状为圆形:星相图的每一个角表示一个变量。从该图可以看出:北
18、京、上海、广东、浙江四个地区的消费情况较为突出,其他地区的消费情况大致相同。食品、衣着、设备“医疗、交通、教育、居住、杂项星相图图像形状为半圆形:星相图的每一个角表示一个变量。从该图可以看出:北京、上海、广东、浙江四个地区的消费情况较为突出,其他地区的消费情况大致相同。星相图图像形状为圆形:星相图的每一个角表示一个变量。从该图可以看出:北京、上海、广东、浙江四个地区的消费情况较为突出,其他地区的消费情况大致相同。星相图图像形状为半圆形:星相图的每一个角表示一个变量。从该图可以看出:北京、上海、广东、浙江四个地区的消费情况较为突出,其他地区的消费情况大致相同。脸谱图将每个指标用人脸型的某一部位的
19、形状或大小来表示。脸谱之间的差异反映了所对应样品之间的差异特性,非常直观。右上图所示的脸谱图中: height of face 食品 width of face 衣着 structure of face 设备 height of mouth 医疗 width of mouth 交通 smiling 教育 height of eyes 居住 width of eyes 杂项对比三个发达地区和三个不发达地区 脸谱图生动、直观,能够非常形象地表达样本之间的差异。尽管如此,脸谱图在现实生活中并未得到广泛的应用,究其原因,有以下三点:能够绘制脸谱图的相关软件并未开放,这就限制了人们对脸谱图的应用;一个脸
20、谱图代表一个样本,当样本量小时比较方便,但现实生活中我们经常面临的是较多样品,这样脸谱图就不是最佳选择了;国内介绍脸谱图的教材很少,限制了人们视野。1.数据表达2.数据类型3.3.随机向量的分布函数和分布密度随机向量的分布函数和分布密度4 4 均值均值5 5 协差阵协差阵 P表示变量, n表示项目或实验单元11121(1)21222(2)()12( )ppnpnnnpnxxxXxxxXxxxXX轾轾犏犏犏犏犏犏=犏犏犏犏犏犏犏犏臌臌LLMMLMMK例如,某书店销售情况变量1 销售金额:42 52 48 58变量2 售出数量 4 5 4 342 452 548 458 3X1.数据表达将数据输入
21、或者读入R软件中,存储为数据框。数据框是R语言的特有的数据类型。如下图所示:2.2.随机向量的分布图形随机向量的分布图形3.3.随机向量的分布函数和分布密度随机向量的分布函数和分布密度联合分布函数联合分布函数分布密度函数分布密度函数),(),(221121pppxxxPxxxF)()(xPxF),()(21pxxxfxf满足满足 pxxpppdydydyyyyfxxxF1212121),(),(xdyyfxF)()(ppppxxxxxxFxxxf212121),(),( 设 X=(X1,X2,Xp) 是p维随机变量,定义X的数学期望为4 均值均值11121(1)21222(2)()12( )p
22、pnpnnnpnxxxXxxxXxxxXX轾轾犏犏犏犏犏犏=犏犏犏犏犏犏犏犏臌臌LLMMLMMK) )(,),(),()(21pxExExEExDescriptive StatisticsDescriptive Statistics109$12,000$79,980$27,088.90$10,495.862109$23,100$135,000$57,228.94$20,550.455109Beginning SalaryCurrent SalaryValid N (listwise)NMinimumMaximumMeanStd. DeviationX1X212127089257228XXXE
23、XEXE X121162.0833247.5000XXXE XEXE X身高体重5 协方差211,221,22XXXXXX 10.7840.7841 )var(),cov(),cov(),cov()var(),cov(),cov(),cov()var()(2122121211pppppxxxxxxxxxxxxxxxVarx的协方差矩阵为),(21pxxxx5 协方差211,221,22XXXXXX 10.95930310.95930311 )var(),cov(),cov(),cov()var(),cov(),cov(),cov()var()(2122121211pppppxxxxxxxxxx
24、xxxxxVarx的协方差矩阵为),(21pxxxx例题: 计算均值、离差阵、协方差和相关阵411335X 4 1 3231 3533X 样本离差(平方乘积和)矩阵S112211221()anaaaappaappxxxxSxxxxxxxx11121121222212ppnnnnpxxxxxxxxXxxxx411335X 计算离差阵112211221()421 3421 2321 23 31 33 35 3325 314228anaaaappaappxxxxSxxxxxxxx 142112833VS样本协差阵样本协差阵三、多元正态分布1 1 多元正态分布定义多元正态分布定义2 2 多元正态分布的
25、定义及基本性质多元正态分布的定义及基本性质3 3 多元正态分布参数估计多元正态分布参数估计1 多元正态分布定义多元正态分布定义设设U=(U1,Uq)为随机向量为随机向量, U1,Uq相互独立且同相互独立且同N(0,1)分布;设分布;设为为p维常数向量,维常数向量,A为为pq 常数矩阵,常数矩阵,则称则称X=AU + 的分布为的分布为p维正态分布,或称维正态分布,或称X为为p 维正维正态随机向量态随机向量,记为记为X Np(, AA)。 简单地说,称简单地说,称q个相互独立的标准正态随机变量的一个相互独立的标准正态随机变量的一些线性组合构成的随机向量的分布为多元正态分布。些线性组合构成的随机向量
26、的分布为多元正态分布。若若p维随机向量维随机向量X的特征函数为的特征函数为: )0(2exp)(ttittX则称则称X服从服从 p 维正态分布维正态分布,记为记为 X Np(,) .若若p维随机向量维随机向量X的任意线性组合均服从一元正态分布,的任意线性组合均服从一元正态分布,则称则称X为为p维正态随机向量维正态随机向量. 以上给出了多元正态分布的以上给出了多元正态分布的3种定义。这三种定义是等价的。种定义。这三种定义是等价的。下面是用密度函数给出的定义下面是用密度函数给出的定义,它可看成一元正态密度的直,它可看成一元正态密度的直接推广;但在这个定义里要求接推广;但在这个定义里要求是正定阵是正
27、定阵,它给出的是非退化的它给出的是非退化的正态分布的定义。正态分布的定义。 11212211( ,)exp()()2(2 ) |ppf x xxxx12pXXXX若随机向量若随机向量 的分布密度函数为的分布密度函数为则称则称 服从服从p p维正态分布。其数学期望与协方差矩阵维正态分布。其数学期望与协方差矩阵分别为分别为 E XD X 其中其中 12pppji)(为对称正定矩阵,为对称正定矩阵, 特例特例1 1( (一元正态分布一元正态分布)2)(exp21)(22xxf Xx )(2则则 )()()(21exp)2()(1221221xxf1x改写为:特例2 (二元正态分布)2)(2)(2)(
28、)1 (21exp121),(2122221221121211222121xxxxxxf12XXX1222212121)1 (1)1 (1)1 (1)1 (122212212212211设则 2 多元正态分布的定义及基本性质1, ,pXX1)若若是对角阵,则是对角阵,则1(,)( , ),ppXXXN相互独立相互独立与与 是否独立?是否独立? 练习:设设1233( , ).XXXXN( , , )问问 与与 是否独立?是否独立? 其中410130002 1X2X12XX(,)3X2 多元正态分布的定义及基本性质为常数阵,为常数阵,d为常数向量,则为常数向量,则( , ),pXNA1(,)s p
29、ssAXdN Aud A A2)若若正态随机向量的线性函数还是正态的正态随机向量的线性函数还是正态的3)若若(1)(1)1112(2)(2)2122(1)(1)(2)(2)1122(,),(,).qqqp qp qp qqp qXXXXNXN则则练习:设练习:设3维随机向量维随机向量33( ,2)XNIm:20.510.510 ,0.500.520Adm轾犏轾轾-犏犏犏=犏犏犏-臌臌犏犏臌试求试求 的分布的分布YAXd=+3)若若(1)(1)1112(2)(2)2122(1)(1)(2)(2)1122(,),(,).qqqp qp qp qqp qXXXXNXN则则2 多元正态分布的定义及基本
30、性质思考题:设随机向量思考题:设随机向量1111222212(,).(,)pqXNXNXXX与与 独立?且独立?且 问1X2X服从什么分布?服从什么分布?四、多元统计中常用的分布四、多元统计中常用的分布 在一元统计中,常用的分布有卡方分布、在一元统计中,常用的分布有卡方分布、t分分布和布和F分布。在多元统计中,他们分别发展为分布。在多元统计中,他们分别发展为Wishart分布、分布、T2分布和分布和Wilks分布。分布。 1 Wishart分布分布2 T2分布分布3 Wilks分布分布1 分布和分布和Wishart分布分布 2定义1 设 为 相互独立且同服从于 分布的随机变量。则(1)所服从的分布叫做 分布, 称为自由度且记为 。 nxxx,21) 1, 0(Nniix1222n)(22n定理定理2. 由由(1)式定义的随机变量的分布密式定义的随机变量的分布密度函数为度函数为 2时当时当000)(21)(12222xxxexfnxnn 为奇数时当为偶数时当nnnnnn2123)22)(12()!2()2(定理定理3. 设设 ,且且 与与 相互独立,则相互独立,则 )(121nX)(222nX1X2X)(21221nnXX推论推论2 设设 是抽自正态总是抽自正态总体体 的简单随机样本,则统计的简单随机样本,则统计量量),
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度出租车座套供应周期与质量保证合同
- 电咖啡机用空咖啡胶囊市场发展现状调查及供需格局分析预测报告
- 椎间盘修复用医疗设备市场需求与消费特点分析
- 2024年度机械设备维修与租赁合同
- 轧线机电池制造机械市场发展现状调查及供需格局分析预测报告
- 理发座椅市场需求与消费特点分析
- 2024年度卫星通信技术应用合同
- 2024年度实验室搬迁及运输合同
- 2024年度房屋租赁合同(东莞版)
- 数据管理用计算机市场发展现状调查及供需格局分析预测报告
- 补偿收缩混凝土应用技术规程JGJT1782009
- 机井资料表格(共9页)
- 豆类食物营养成分表
- 造纸及纸制品行业企业风险分级管控体系实施指南(DB37T 3149—2018)
- 农药英语词汇
- 第十二讲区域变质岩的鉴定与描述(1)
- 8D报告(完整详解版)
- 敏捷开发介绍(精选干货)
- 三类医疗器械医疗机构规章管理制度
- 上海版牛津英语5A M2U1 Grandparents教学案例
- (完整版)生育服务证办理承诺书
评论
0/150
提交评论