数据挖掘中的统计学_第1页
数据挖掘中的统计学_第2页
数据挖掘中的统计学_第3页
数据挖掘中的统计学_第4页
数据挖掘中的统计学_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘中的统计学参考资料:Wiki:统计学研究者July的CSDN蜗牛向前冲2013年6月2日星期日纲要概率论条件概率全概率贝叶斯公式离散型随机变量连续型随机变量概率论总结数理统计数学期望方差协方差相关系数主成分分析中心极限定理χ2分布、t分布、F分布正态分布简史正态分布简史误差计算中英文对照概率分布集中趋势离散程度分布形态2013-06-02Sunday2概率论条件概率全概率贝叶斯公式离散型随机变量连续型随机变量概率论总结2013-06-02Sunday3条件概率定义:在同一个样本空间Ω中的事件A、B,如果从Ω中随机选出的一个元素属于B,那么这个随机选出的元素也属于A的概率就定义为B条件下A发生的条件概率,即为P(A|B)=|A∩B|/|B|分子、分母同除以|Ω|,得到条件概率的公式:P(A|B)=P(A∩B)/P(B)亦称为后验概率。P(A|B)与P(B|A)的关系为:P(A|B)×P(B)=P(B|A)×P(A)2013-06-02Sunday4全概率公式

2013-06-02Sunday5贝叶斯公式

2013-06-02Sunday6贝叶斯公式正概率是由原因推结果(现在推未来),称为概率论某药厂用从甲、乙、丙三地收购而来的药材加工生产出一种中成药,三地的供货量分别占40%,35%和25%,且用这三地的药材能生产出优等品的概率分别为0.65,0.70和0.85,求从该厂产品中任意取出一件成品是优等品的概率。(0.7175)逆概率是由结果推原因(现在推过去),称为数理统计如果一件产品是优质品,它的材料来自甲地的概率有多大呢?(0.3624)2013-06-02Sunday7离散型随机变量

2013-06-02Sunday8连续型随机变量

2013-06-02Sunday9连续型随机变量

2013-06-02Sunday10连续型随机变量图片来源:《大嘴巴漫谈数据挖掘》2013-06-02Sunday11概率论总结图片来源:《概率论与数理统计》盛骤版2013-06-02Sunday12概率论总结图片来源:《概率论与数理统计》盛骤版2013-06-02Sunday13数理统计数学期望方差协方差相关系数主成分分析中心极限定理χ2分布、t分布、F分布2013-06-02Sunday14数学期望MathematicalExpectation随机变量X的期望值vs样本均值积分的本质亦是求和例:掷色子一次,期望值为3.52013-06-02Sunday15方差Variance方差:变量距其期望值的距离;亦称为二阶矩2013-06-02Sunday16协方差Covariance

协方差矩阵两个向量的协方差cov(X,Y)和cov(Y,X)互为转置矩阵2013-06-02Sunday17相关系数CorrelationCoefficient

而实际上,上述数据的函数关系为y=0.10+0.01x;E(x)=3.8,E(y)=0.138,x-E(x)、y-E(y)得x=(−2.8,−1.8,−0.8,1.2,4.2)、

y=(−0.028,−0.018,−0.008,0.012,0.042),得皮尔逊相关系数2013-06-02Sunday18相关系数CorrelationCoefficient2013-06-02Sunday19主成分分析PrincipalComponentAnalysis又称主分量分析,PCA指将多个变量通过线性变换以选出较少个数重要变量的方法,在减少数据集维数的同时,保持数据集的对方差贡献最大的特征。

PCA的目的是使变换后的数据有最大的方差,这些性质不同于普通模型为求稳定性往往会减小方差;主要方法:对协方差矩阵进行特征分解,得出数据的主成分(特征向量)和权值(特征值)步骤:数据标准化;求特征协方差矩阵;通过正交变换使非对角线的元素为0,求得特征值和特征向量;对特征值降序排列,取最大k个组成特征向量矩阵;投影矩阵=原始样本数据×特征向量矩阵;(理论依据为SVD)2013-06-02Sunday20中心极限定理

独立变量和

2013-06-02Sunday21中心极限定理

独立同分布变量和

2013-06-02Sunday22中心极限定理

此定理表明:二项分布的极限是正态分布;二项分布是离散分布,正态分布是连续分布n重伯努利试验在出现第r个A前A不出现的试验次数的概率分布为负二项分布,又称帕斯卡分布。独立同分布

2013-06-02Sunday23中心极限定理

若序列满足李雅普若夫条件:

独立变量2013-06-02Sunday24χ2分布、t分布、F分布在正态分布、中心极限定理确立之下,20世纪后χ2分布、t分布、F分布也出现了2013-06-02Sunday25正态分布简史正态分布简史误差计算2013-06-02Sunday26正态分布简史17世纪,惠更斯(1629-1695)研究赌博时创立数学期望;18世纪,伯努利(1667-1748)伯努利大数定律:事件发生的频率依概率收敛于事件的概率;1909年由伯莱尔证明;18世纪,棣莫弗(1667-1754)二项概率逼近:用二项分布逼近正态分布,并提出了中心极限定理;18世纪,拉普拉斯(1749-1827)建立了中心极限定理的一般形式;19世纪,勒让德(1752-1833)发明最小二乘法;19世纪,高斯(1777-1855)正态误差理论(以下有详解);19世纪,拉普拉斯在高斯研究的基础上,用中心极限定理论证了正态分布(高斯分布);19世纪,海根提出元误差学说,逐步正式确立误差服从正态分布。2013-06-02Sunday27误差计算

即可解得系数a、b。

2013-06-02Sunday28误差计算

2013-06-02Sunday29中英文对照概率分布集中趋势离散程度分布形态2013-06-02Sunday30中英文对照-概率分布ProbabilityTheory:概率论MathematicalStatistics:数理统计SampleSpace:样本空间RandomOccurrence:随机事件Fundamentalevent:基本事件Certainevent:必然事件Impossibleevent:不可能事件RandomVariable:随机变量DiscreteRandomVariable:离散型ContinuousRandomVariable:连续型Bayes’sFormula:贝叶斯公式ProbabilityDistribution:概率分布DistributionFunction:分布函数DistributionLaw:分布律ProbabilityDensity:概率密度ConditionalDistribution:条件分布UniformlyDistribution:均匀分布BinomialDistribution:二项分布BernoulliDistribution:伯努利分布GeometricDistribution:几何分布PoissonDistribution:泊松分布ExponentitalDistribution:指数分布MathematicalExpectation:数学期望Variance:方差Covariance:协方差CorrelationCoefficient:相关系数NormalDistribution:正态分布CentralLimitTherem:中心极限定理Chebyshev’sInequality:切比雪夫不等式PrincipalComponentAnalysis:主成分分析2013-06-02Sunday31中英文对照-集中趋势

2013-06-02Sunday32中英文对照-离散程度Rang

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论