




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
专题一类分一.聚类分析析 来性和定量分析结合起来进行分类工作,从而数学工具逐渐被引入到了分类学当数值分类学离。二.聚类分析的定义聚类分析又称群分析,它是研究对样品或指标进行分类的一种多元统计方的具体分类情况,通过对观测数据进行分析处理,选定一种度量接近程在经济学中存在的这类问题:不是逐个省市区进行分析,而较好的做法是通过选取能反映企业经济效益的代表性指标,如百元固定资产实现利税,利税率、产值利税率,百元销售收入实现利润,全员劳动生产率等等,根据这些指标对30个省市区进行分类,然后根据分类结果对企业经济效益进行综合评分,从而得若对某些地区的物价指数进行,但是物价指数包含的内容很多,像价格指数等,由于要的物价指数很多,通常先对这些物价指数进行三.聚类分析的内种最优准则将他们分割为两类、三类,一直分割到所需的k类为止。这第二节距离与相一.数据的变换方这里有n个样品,每个样品测得m项指标(变量),观测数据为xij(i,"n,j,"X1""""""Xj""""""Xx11""""""x1j""""""# # X(ixi1""""""xij""""""# # X(xn1""""""xnj""""""均值x1""""""xj""""""S1""""""Sj""""""极差R1""""""Rj""""""极差=(该组中maxmin,也称为全距1n这些数据当中,均值定义形式为:xj nt
(j1,,"
(j1,
,1nn(xx1nn(xx txx (i1,"n;j1," *差阵为:S*S(S),其中: n(xx)(xx) 1*
ijn
t
n
t
xtiCovX,YDXDYCovX,YDXDYXY
——X与YDXYDXDY2CovX,YCovX,YEXYEXEY——协方差CovXXDX设n维 量X1,X2"Xn的二阶混合中心矩均存在CijCovXi,YjEXiEXiXjEXj,i,j1," Cc 2n ——XX"X的协方差 ij
n
nn x xy y22211f2211
212 2
2
2 1 exp1xC1x 22C x1 1 c
,
,C
c12 122x2 2 22 1 推广到n维情况:fx,x"x exp1xC1x,这里 1 22C x
EX1x1 1
X
2,
2
C是XX"X的协方差# # xn
n
EXn n维正态分布的重要性质:(1)n维随 量X1,X2"Xn服从n维正态分布性组合l1X1l2X2"lnXn服从一维正态分布;
X1X2"Xn的任意(2)若X1X2"Xn服从n维正态分布,设Y1,Y2",Xjj1,"的线性函数,则Y1,Y2,",也服 正态分布(线性变换不变性(3)设X1X2"Xn服从nX1,X2"Xn相互独立X1X2"Xn两两】xxijx (i1,"n;j1,"SSj变换后每个变量的样本均值为0,标准差为1,并且标准化变换后的数据{x*}xxijx (i1,"n;j1,"RRjx01,并且*1x极差正规化变换(规格化变换xijminx 1t (i1,"n;j1,"RRj变换后的数据0x*11xlog(x (x (i1,"n;j1,"二.样品间的距离和相似描述样品间的亲疏程度最常用的是距离,由先前表格数据,用dijX(i)Xj)之间的距离,一般要求dij0对一切i,j;当dij0X(i)Xjdijdji对一切i,jdijdikdkj对一切i,jk(三角不等式);闵距离
d(q)[mt
x
q
(i,j1,"mdij(1)xitxjtt1m
(i,j1,"
(2)
(i,j1,"xm2 t ,如用1xm2 tq时,Chebyshevdij()maxxitx
(i,j1,"兰氏距离(xij0由Lance和Williams最早,定义为(L)1
xitx
(xx) (i,j1,,"t 马氏距离X(iXj)dij(M)(X(i)X(j))S1(X(i)X(j) (i,j1,"其中S1为样本协差阵的逆 m mdij[2(xikxjk)(xilxjl)rklmk1l
(i,j1,"其中rkl为变量XkXl之间的相关系数三.变量间的相似系数和距Cij1XiaX (a0,常数Cij1i,jCijCjii,j
变量Xi的n次观测值(x1i,x2i"xni)看成n的向量,则Xi和Xj夹角ij的余弦称为两向量的相似系数,记为Cij(1),即:C(1)
xtitnnx2t2xn] t tnnx2t2xn当ij时,夹角ij0,Cij(1)1,XiXjij90,Cij(10,常用rij表示,在这里我们记为Cij(2),即:n(xtixi)(xtjxjCij(2)
t
(i,j1," (xtixi (xx t t当ijCij(2)1
Cij(2)1
1
d21C (i,j,", S(sij)0dijsiisjj- (i,j1,,"注意:聚类分析带有非常强的实用主义特征,在分类方法和最终类别数的确定上,检验和统计指标并非至关重要,结果是否适用专题二归分回归分析(Regressionysis)是研究变量之间作用关系的一种统计分析方一、历史19SirFrancisGalton,1822-1911)发展起来的概念也是高尔顿第一次使用的,他是怎样产生这些概念的呢?1870年,高尔顿和他的学生,也是另一位现代统计学的奠基人(K.Pearson)在研究人类1078二、回归分析的种类按回归方程的表现形式不同,可分为线性回归分析和非线性回归分析三、回归分析的主要内容四、一元线性回归分析xy两个变量无明显因果关系,则存在着两个回归方程:一个是直线回归方程中,回归系数b可以是正值,也可以是负值。若b0,表示直线上升,说明两个变量同方向变动;若b0,表示直线下降,说明
ycaa,b为回归方程参数。其中,a是直yx等于0时,因变量所达到的数值;b是直线的斜率,在回归方程中亦称为回归系数,它表示当自变量x每变动一个单位时,因变量y平均变动的数值。yyc的离差平方和为最小值,即QyyQyyc)2=根据微积分中求极值的原理,需分别对ab0,经过整理, xy x 解此方程组,可求得abbnxyx nx2(ay例1:可支配收入(千元)消费支元)xybnxyxy 66247356204 nx2( 1051656 aybx47.30.7266.2yc0.360.72120=86.04yyc n( n(yy例2:xy(yyc y2cn10y2cn10差3.546千元。估计标准误差用来说明各实际观察值对回归直线的接近情况,Sy例3:从某所大学中随机选取8名女大学生,其身高和体重数据如下表所示:12345678身高体重量y,作散点图。得到回归方程是yˆ0.849x相关分析一、相关关系的概念Y与该商品的销售量Q以及该商品价格P之间的关系可以用下列公式表示:YQ的变动而变动,Q的某一个具体数值,Y就有唯一确定的值与之相对应;在商品的销售数量YP的变化而变化。又如圆的面积与二、关关三、相关分析的主要内容专题三主成分分析(主分量分析第一节主成分分析的一.主成分分PrincipalComponentysis,最早是在1901年由KarlParson对非随量的讨论中引入的,1933年,Holing又将该方法推广到了随量。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合Eg1:要做一件上衣,要测量许多尺寸,如身长、袖长、、腰围、二.基本思均是对同事物的反,不可免的造成信的大量,这种信息的有甚至会抹事物的真特征和在规律。基以上的问, 若将选取的第一个线性组合即第一个综合指标记为F1,自然希望F1尽可能F1的方差来表达,即Var(F1)越大,表示F1包含的信息越多。<例一个花瓶个信息熵的概念,越是复杂、的东西其信息熵越大。>因此,在所有的线组合中所选取的F1应该是方差最大的,故称F1为第一主成分。若第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合,为了有效的反映原来的信息F1已有的信息就不需要再出现F2中,数学上就称为 第二节主成分分析的数学模型及几何解释一.数学模设有np项指标(变量)X1X2"Xp,得到原始数 " X 2 # "x
(X1,X2"Xp n np
(共有n个样品,每个样pp个n维向量。x1i X
2i
i," #niXp个分量(p个指标向量)X1X2",Xp作线性组合,也就FaXaX"a 12 p or记为
FaX X"a 1p 2 Fia1iX1a2iX2"apiXp i,"Xi是n维向量,从而Fi也是n维向量以上的方程组要求:a2a2"a21,i,"p(这是一个一般化的限制要求 且aijFiFi(ij,ij,"p不相关F1X1X2",Xp的一切线性组合(系数满足上述方程组)F2F1X1X2",Xp的一切线性组合(系数满足上述方程组中方差最大的,",FpF1F1,"Fp1都不X1X2",Xp的切线性组合中方差最大的每个方程式中的系数向量(a1ia2i,"api),i1,"p不是别的,而恰X的协差阵的特征值所对应的特征向量,即,使Var(F1达到最大,这个最大值就是在的第一个特征值所对应的特征向量处达到。同理,使Var(Fp达到最大值是在p数学模型中为什么做线性组合数学上容易处理;每次主成分的选取使Var(Fi最大,若不加限制就可能使Var(Fia2a2"a21,i,", 二.主成分的几何意从代数学观点看主成分就是p个变X1X2"Xp的一些特殊的线性组X1X2"Xp构成的坐标系旋转产生的新坐标系,设有npX1X2",Xp,它们的综合变量记F1F2"Fpp2时,原变量是X1,X2,则:XX1X2N2坐标轴F1,短轴方向取坐标轴F2,这就相当于在平面上作了一个坐标变换按逆时针方向旋转 FXCosXSinFXSin
Ui 2 2显然UU1并且是正交矩阵(U'U1)F1轴上的波动,而在F2轴上的波动很小。如果上图的椭圆相当扁平,则我最终只要取第一个综合变量F1F1即椭圆长轴。第三节主成分的推导和App阶实对称矩阵,则一定可以找到正交阵U # # 0" p其中12"pA的特征根A的特征根所对应的单位特征向量为u1"up"u,u" (u"u) 2p # u,u"u p ppuiiuj0UU'U'UI一.主成分的推设FaXaX"a a'X1 2 paa1a2"ap)',XX1X2"X求主成分就是寻找X的线性函数pa'XVar(a'X)E(a'XE(a'X))(a'XE(a'Xa'E(XE(X))(XE(X))'设协差阵的特征根为12p0,相应的单位特征向量为u1u2"up, (u"u)
u,u"u 2p(p # u,u"u p pp由前面线性代数定理可知:U'UUUI
0 0 U
U'uuii p
i∵a'aia'uu'ai(a'ui)(a'ui)'i(a'uip
a'a(a'u)2a'u(a'u)'a'uu'aa'a 而且,当au1
u'uu'(uu')uu'uu'u(u'u)2
ii
i1ii 1 因此au1使Var(a'Xa'a V
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2016-学年高中历史 第五单元 法国民主力量与专制势力的斗争 第2课 拿破仑帝国的建立与封建制度的复辟教学设计 新人教版选修2
- 2024-2025学年高中政治 第二单元 人民当家作主 第五课 我国的根本政治制度 1 人民代表大会:我国的国家权力机关教学设计 部编版必修3
- 吉林艺术学院《物联网原理及应用》2023-2024学年第二学期期末试卷
- 湖南农业大学东方科技学院《耳鼻咽喉科学》2023-2024学年第一学期期末试卷
- 河南科技大学《科学与工程计算方法》2023-2024学年第二学期期末试卷
- 四川铁道职业学院《水产微生物学实验》2023-2024学年第二学期期末试卷
- 上海工艺美术职业学院《文本解读与训练》2023-2024学年第一学期期末试卷
- 发布前期物业服务合同
- 双方协议劳动合同
- 内墙工程施工合同
- 2025-2030中国金属化陶瓷基板行业市场发展趋势与前景展望战略研究报告
- 2025年中国民营精神病医院行业市场前景预测及投资价值评估分析报告
- Unit4StageandScreen词汇课件12023学年高中英语
- 六年级总复习常见的量市公开课一等奖省赛课获奖课件
- 餐饮商户安全培训
- 远离背后“蛐蛐”-摒弃“蛐蛐”拥抱友善主题班会-2024-2025学年初中主题班会课件
- 视觉传达考试试题及答案
- 2025-2030中国再生铝行业需求潜力分析与发展行情走势预判研究报告
- 《版式设计》课件-第三章 流动资产
- 2025中考化学详细知识点
- DB23-T 3919-2024 大跨钢结构技术标准
评论
0/150
提交评论