




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元统计大数定律:切比雪夫大数定理,伯努利大数定理,辛钦大数定理(最常用)a)辛钦大数定律:设为独立同分布的随机变量序列,若山的数学期望存在,limP—£二[则服从大数定律:即对任意的£>0,有公式三:L|心1中心极限定理:从均值为u,方差为sigma方的总体中任意抽取样本量为n的样本,当样本量充分大的时候,样本均值X-bar服从均值为u,方差为n分之sigma方的正态分布;格力文科定理:当n相当大时经验分布函数是总体分布函数的一个良好近似变量值:从一次观察到另一次观察呈现差别或者发生变化的某种特征(变量)随机变量:随机试验结果数量化;变量按照随机规律所取的值?分布:统计学的核心概念随机变量的分布:随机变量的所有取值,以及其对应的概率的一揽子表示;包含两个意思,第一,随机变量的每个取值都包含在内,第二,取值对应的概率都包含在内;随机变量的分布:a)总体分布:??b)样本分布:??c)抽样分布:??参数:总体的某种特征,是我们所关心的感兴趣的,或者要研究的总体的某个或者某些方面的数量表现;10•总体:所有个体的集合称为总体,个体规模N样本:被抽中的个体称为样本,对应的规模是样本量n总体均值a)问题:凭什么用样本均值估计总体b)回答:因为总体均值是变量,但不是随机变量,它由随机变量来确定,也就是有样本均值会服从以总体均值为期望的~~~分布(就是中心极限定理)为什么服从t分布??d和alpha和n和N的关系:公式见书上1-f:n和N的关系工与s的关系a)问题:为什么不用小工,用sb)回答:因为工未知均方误和其估计的异同?R"2相当于y-hat和y的相关系数?P(AB)-P(A)*P(B)二距离??Spearman和pearson相关系数的等价性?施密特变换和主成分变换的异同??随机抽样:抽取样本的时候,总体中每个个体都有同等机会选入样本中随机样本:从总体中随机抽样得到的样本;随机试验:?随机试验:a)条件试验可以重复进行试验的所有可能结果事先是知道的;每一次试验之前无法预知结果(这是随机的本质性质)所有的试验结果用一个变量表示,每一种试验结果都对应一个变量值;一个变量值只是一种试验结果的记号或代码;“随机试验=随机抽样”的原因:由于变量值只有在抽样后的调查才能获得,所以显然不能认为试验的所有可能结果已知,不能满足设计实验三个条件中的第二个;因此随机试验结果只能理解为样本(受查客体的集合),于是实验只能理解为随机抽样尤其是简单随机抽样;简单随机抽样:就是一个典型的随机试验,N中抽取n,依不放回抽样方式一举从中抽取n个个体构成一个样本,若将其看成实验,则完全满足随机试验的三个条件;其中“可重复”这个条件是在理想进行,所有条件环境均可严格控制;随机试验之结论变量值不是试验的直接结果,而是随机抽样的连带结果;正因此变量值才可以合理的被当作是随机实验结果。而所有实验结果才能可以用随机变量来概括反映;变量值是随机变量,一定是因为变量值是从随机抽样调查中取得的;随机性仅仅来源于随机抽样;实体与属性:概念:实体:人们能清晰感知其边界范围的客观存在属性:是实体的组成构建或者附在其上的性质,可以区分此实体与不同类的实体,也可以区分与同类的其他实体;关系:属性不能离开实体,不同实体的区分借助属性实现;多个属性组合在一起的组合体就是实体描述实体的特征称为属性意义:一个属性值对应一个个体,而属性值可以对个体分类或者作为个体的一种标识,所以随机试验结果可以用随机变量表示;??概率个体承载试验结果,不同个体对应相同试验结果;存在两种概率解释:个体是等概率的;变量值可能等概率可能不等概率;变量值的概率=对应该变量值的个体数/总体全部个数某一变量值的频率=对应该变量值的个体数/样本全部个体数估计:根据取自总体的样本的统计量来推断或评价总体参数的过程描述统计学:分布+分布特征样本分布+样本分布特征总体分布+总体分布特征33.推断统计学:样本分布特征T总体分布特征样本分布T总体分布样本分布特征T总体分布特征T总体分布34.多元统计核心:降维,描述,推断
35.分布的表示方法:a)文示法:以文字表述,简单b)表示法:以表格陈列,较复杂c)图示法:以图形展示,复杂36.分布特征:a)几何特征:?集中趋势,离散程度代数特征:?数字特征?均值,方差等抽样误差??误:相对真值而言,总体分布特征而言差:相对均值而言40.联合分布41.边缘分布42.条件分布a)条件b)条件概率c)条件期望43.多元统计的框架:a)自变量分类+因变量分类b)自变量分类+因变量数值c)自变量数值+因变量分类d)自变量数值+因变量数值列联分析、对应分析方差分析、联合分析判别分析,逻辑回归回归分析,结构方程44.列联分析a)公式列联分析斗=^Pj列联分析斗=^PjM/HPtPrb)最终类类相关系数:Pearson列联系数Cramer关联系数iii.Cramer修正关联系数45.方差分析:公式a)分类对数值的相关关系:A=组间差/(组内差+组间差)总平方和=组间平方和+组内平方和b)公式:对比回归分析:回归分析SSE=£(兀-见广]■!二£w-y)2fpMEE=z(r.-y.f加一P-nJ-lF=MSR/MSE证明:两种组间平方和的关系
=3-V:2ri».*i,i^j一*、=3-V:2ri».*i,i^j一*、J-I-咬、£心•外y:sr!—£・“|:乳外少-*■瓦哥込阿“-若心‘」卜莎心―-沖、即可、.远“曲-沙-韬如耆薛賦;為跟汕阍护林亍汕一汕卵絆斤护e)•关键词:多类,每类不同的样本量,数据f)数据要求:这样的数据可以认为是每层独立的进行抽样,且每层都独立进行简单随机抽样的所谓分层抽样的样本数据;i.独立性假设ii.各类均为多元正态总体iii.各类协方差矩阵相等g)“每层=每类”的原因:独立性假设即每类内部样本点之间彼此独立其样本量都能大到中心极限定理成立的(n大,nh大)同时每类的样本之间都彼此独立(类与类之间独立forF统计量构造顺利,其分子分母都服从卡方分布,且相互独立)h)方差分析的F比卡方优的地方i.F检验融入了统计学外的逻辑准则:组间差平均应至少大于组内差平均,增加结论说服力,逻辑合理;i)不同类或组的方差都相等的假设合理性i.理论:每类里的抽样的都是大样本量的,样本方差既然都是总体方差的容许估计,则应该相等;ii.实际:标准化是保证方差相等的有效手段;(大样本有时被经费限制,不能满足;所以要求最后通过检验);(要求齐方差)联合分析:??方差分析和联合分析的区别:详见PPT典型相关分析:a)基本思想:找到两组自变量线性组合,使得这两组变量组合生成的变量(和其他线性组合相比)之间的相关系数最大b)基本思想2:每组变量都进行线性组合,生成代表性变量;计算不同组任意两个代表性变量的相关关系;找到相关系数最大对应的两个代表性变量作为“典型”,将“典型”之间的相关系数用来代表两组变量的线性相关程度称为典型相关系数,又称为广义相关系数;i.典型相关系数的检验:Qk检验ii.典型相关系数的性质:堆成rou=0,u和v不相关,从而任一与任一中的随机变量都不相关rou=l,u和v可以相互线性表出rou=p=1,等于Pearson相关系数的平方p大于rou=1,等于复相关系数的平方或决定系数c)数学表达:对两组变量X和Y寻找系数向量a,b使得新的综合变量(称为典型变量),有尽可能大的相关关系(公式见PPT,感觉不会考),实现的最大相关系数的一对综合变量(称为典型变量)就是称为第1对典型相关变量,他们之间的相关系数就是第一典型相关系数典型变量的性质:a)第一,X的典型变量U不相关,Y的典型变量W不相关b)第二,同一对典型变量Ui和Wi之间的典型相关系数lamdai,不同对的lamdai不相关典型相关:a)问题:Spearman和pearson相关系数的等价性?b)回答:因子分析+主成分a)思想:多元,变量之间存在很高的相关关系,其本质是信息的重叠性。回归分析时,相关程度很高,也就是出现了多重共线性时i.处理1,去除一部分变量,只保留很少的一部分变量;ii.处理2,使用这些变量的线性组合代替原有变量,而尽量不减少它们所包含的信息;(同时认为这些组合表征的是深层原因--因子)b)满足条件:i.第一,减少变量的个数ii.第二,新变量之间不再线性相关,最好正交第三,新变量和原变量之间的关系清晰容易判断c)问题:i.以何表示原来变量的所含信息ii.如何寻找达成条件的线性组合此处线性组合和回归分析和判别分析里的线性组合有何区别?主成分分析性质:主成分是原变量的线性变换a)主成分彼此独立的原因?b)方差递减的原因?c)方差总和守恒的原因?目标:施密特变换和主成分变换的异同??聚类分析a)谱系聚类i.步骤:定义点间距定义类间距所有的样品看成n类计算点间距,并将距离最小者归为一类,其余不变确定各类之间的类间距,并将距离最小者归为一类,其余不变以此类推,直至所有样品归为一类ii.点间距:绝对值距离欧式距离欧式平方距离马氏距离(标准欧式平方距离)切氏距离蓝氏距离明氏距离iii.组间距最短距离法最远距离法中间距离法重心距离法可变类平均距离法可变距离法ward距离法(离差平方和法)b)动态聚类:见PPTc)一分为二聚类:见PPTd)有序聚类:离差平方和法最小(局部最优解?)56.判别分析:a)思想:假设早先依据训练样本的信息得到了某种隐含的标准,那么就可以据此标准对待判样本进行判别:将待判样本归于不同的“类”中;b)本质:预测行为,区别(回归)预测:i.预测依据是公式化的模型;ii.判别依据的非公式化的隐含关系(训练样品的分类结果与判别变量值之间的对应关系)c)方法:i.距离判别问题:马氏距离的离散形式回答:?ii.费歇尔判别:投影到使样本点尽可能分开的方向,也就是类间离差平方和与类内离差平方和之比最大的方向,然后计算待判样本与各类中心(已经投影之后)的距离,哪类最近,就归哪类iii.贝叶斯判别:G,q,f,L;L=l-sigma(详见PPT),使得损失函数最小的判别结果就是所求结果;57.逻辑回归a)引入模型的原因i.误差项:只能取两个值,为离散非正态分布ii.异方差:误差项仍然保持零均值,但是不具有方差齐性;回归方程的限制:y
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 六一孩子班级活动方案
- 六一搬家活动方案
- 六一活动手工类活动方案
- 六一活动水上足球活动方案
- 六一火锅活动方案
- 六一特卖活动方案
- 六一红歌会活动方案
- 六一茶花活动方案
- 六十岁生日亲人活动方案
- 医生三基考试试题及答案
- 湖北省潜江市十校联考2025届初三5月底中考模拟考试英语试题含答案
- 中央空调维保方案
- 2025年乡镇心理健康服务计划
- 气排球裁判试题库及答案
- 2025年周口理工职业学院单招职业技能考试题库附答案
- 人工智能对人力资源管理的影响与转型
- GB/T 6433-2025饲料中粗脂肪的测定
- 2025年贵州省粮食储备集团有限公司招聘笔试参考题库含答案解析
- 机房施工安全培训
- 房颤临床指南
- 2025年度危化品运输合同协议带事故应急预案及责任划分3篇
评论
0/150
提交评论