数据挖掘中的统计学_第1页
数据挖掘中的统计学_第2页
数据挖掘中的统计学_第3页
数据挖掘中的统计学_第4页
数据挖掘中的统计学_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘中的统计学,参考资料: Wiki:统计学 研究者July的CSDN,蜗牛向前冲 2013年6月2日星期日,纲要,2013-06-02 Sunday,2,概率论,2013-06-02 Sunday,3,条件概率,定义: 在同一个样本空间中的事件A、B,如果从中随机选出的一个元素属于B,那么这个随机选出的元素也属于A的概率就定义为B条件下A发生的条件概率,即为 P(A|B)=|AB|/|B| 分子、分母同除以|,得到条件概率的公式: P(A|B)=P(AB)/P(B) 亦称为后验概率。 P(A|B)与P(B|A)的关系为: P(A|B)P(B)= P(B|A)P(A),2013-06-02

2、 Sunday,4,全概率公式,2013-06-02 Sunday,5,贝叶斯公式,2013-06-02 Sunday,6,贝叶斯公式,正概率是由原因推结果(现在推未来),称为概率论 某药厂用从甲、乙、丙三地收购而来的药材加工生产出一种中成药,三地的供货量分别占40%,35%和25%,且用这三地的药材能生产出优等品的概率分别为0.65,0.70和0.85,求从该厂产品中任意取出一件成品是优等品的概率。(0.7175),逆概率是由结果推原因(现在推过去),称为数理统计 如果一件产品是优质品,它的材料来自甲地的概率有多大呢?(0.3624),2013-06-02 Sunday,7,离散型随机变量,

3、2013-06-02 Sunday,8,连续型随机变量,2013-06-02 Sunday,9,连续型随机变量,2013-06-02 Sunday,10,连续型随机变量,图片来源:大嘴巴漫谈数据挖掘,2013-06-02 Sunday,11,概率论总结,图片来源:概率论与数理统计盛骤版,2013-06-02 Sunday,12,概率论总结,图片来源:概率论与数理统计盛骤版,2013-06-02 Sunday,13,数理统计,2013-06-02 Sunday,14,数学期望Mathematical Expectation,随机变量X的期望值vs样本均值 积分的本质亦是求和,例:掷色子一次,期望

4、值为3.5,2013-06-02 Sunday,15,方差Variance,方差:变量距其期望值的距离;亦称为二阶矩,2013-06-02 Sunday,16,协方差Covariance,协方差:Cov(X,Y) Cov(X,Y)=E = - 其中, =, = 用于衡量两个变量间的总体误差;,协方差矩阵 两个向量的协方差cov(X,Y)和cov(Y,X)互为转置矩阵,2013-06-02 Sunday,17,相关系数Correlation Coefficient,相关系数: XY 相关系数用于衡量变量的相关程度,取值范围为 1,1 计算:将每个变量转化为标准单位,成绩的平均数即为相关系数; 几

5、何特征:向量的夹角的余弦函数; 如x= (1, 2, 3, 5, 8) 、y= (0.11, 0.12, 0.13, 0.15, 0.18),得,相关距离: =1- XY,2013-06-02 Sunday,18,相关系数Correlation Coefficient,2013-06-02 Sunday,19,主成分分析Principal Component Analysis,又称主分量分析,PCA 指将多个变量通过线性变换以选出较少个数重要变量的方法,在减少数据集维数的同时,保持数据集的对方差贡献最大的特征。 PCA的目的是使变换后的数据有最大的方差,这些性质不同于普通模型为求稳定性往往会减

6、小方差; 主要方法:对协方差矩阵进行特征分解,得出数据的主成分(特征向量)和权值(特征值) 步骤: 数据标准化; 求特征协方差矩阵; 通过正交变换使非对角线的元素为0,求得特征值和特征向量; 对特征值降序排列,取最大k个组成特征向量矩阵; 投影矩阵=原始样本数据特征向量矩阵;(理论依据为SVD),2013-06-02 Sunday,20,中心极限定理,中心极限定理: 设 1 , 2 独立变量序列,其数学期望与方差存在,则前n个变量和的标准化变量 = =1 =1 ( ) =1 ( ) ,对xR,有,独立变量和,则称该独立变量序列服从中心极限定理 此定理表明,当n充分大时, 近似服从N(0,1)分

7、布: =1 ( =1 ( ), =1 ( ),2013-06-02 Sunday,21,中心极限定理,林德伯格-列维中心极限定理: 设 1 , 2 独立同分布,E( )=,D( )= 2 ,i=1,2 则前n个变量和的标准化变量 = =1 ( =1 ) ( =1 ) = =1 = / ,对xR,有,此定理表明,当n充分大时, 近似服从N(0,1)分布: =1 (, 2 ),独立同分布变量和,进一步,即便 1 , 2 并不独立,也不具有相同的概率分布形式,很多时候求和的最终归宿仍为正态分布。,2013-06-02 Sunday,22,中心极限定理,棣莫弗-拉普拉斯中心极限定理:林列定理的特例 设

8、 为n重伯努利试验中事件A发生的次数,P(A)=p(0p1), 标准化变量 = (1) ,对xR,,独立同分布,此定理表明,当n充分大时, 近似服从N(0,1)分布: (,(1),2013-06-02 Sunday,23,中心极限定理,林德伯格-费勒中心极限定理 设随机变量序列 独立但不一定同分布,它们具有有限的数学期望和方差E( )=,D( )= 2 0,i=1,2n,则前n个变量和 = =1 ,记 2 =D( ), 2 = =1 2 =( ) ,对0,若序列满足林德伯格条件:,则称该序列趋向于正态分布,即 / N(0,1),独立变量,2013-06-02 Sunday,24,2分布、t分布

9、、F分布,在正态分布、中心极限定理确立之下,20世纪后2分布、t分布、F分布也出现了,2013-06-02 Sunday,25,正态分布简史,2013-06-02 Sunday,26,正态分布简史,17世纪,惠更斯(1629-1695)研究赌博时创立数学期望; 18世纪,伯努利(1667-1748)伯努利大数定律:事件发生的频率依概率收敛于事件的概率;1909年由伯莱尔证明; 18世纪,棣莫弗(1667-1754)二项概率逼近:用二项分布逼近正态分布,并提出了中心极限定理; 18世纪,拉普拉斯(1749-1827)建立了中心极限定理的一般形式; 19世纪,勒让德(1752-1833)发明最小二

10、乘法; 19世纪,高斯(1777-1855)正态误差理论(以下有详解); 19世纪,拉普拉斯在高斯研究的基础上,用中心极限定理论证了正态分布(高斯分布); 19世纪,海根提出元误差学说,逐步正式确立误差服从正态分布。,2013-06-02 Sunday,27,误差计算,最小二乘法:目的是使误差最小 观测中有误差,所有方程的累积误差度量方法为:累积误差= (观测值理论值) 2 ,使得该累积误差最小的方法称为最小二乘法。 对于y=ax+b,,以及一系列观测值( , ),确定a、b;记,2013-06-02 Sunday,28,误差计算,误差曲线:目的是寻找误差分布规律 18世纪,辛普森(1710-

11、1761),设误差为 = ,用算术平均值来估计得误差分布函数为 = =1 ; 18世纪,拉普拉斯(1749-1827),拉普拉斯分布。设误差分布函数满足 = ,解得误差分布函数为f = 2 | ;,2013-06-02 Sunday,29,中英文对照,2013-06-02 Sunday,30,中英文对照-概率分布,Probability Theory:概率论 Mathematical Statistics:数理统计 Sample Space:样本空间 Random Occurrence:随机事件 Fundamental event:基本事件 Certain event :必然事件 Imposs

12、ible event :不可能事件 Random Variable:随机变量 Discrete Random Variable:离散型 Continuous Random Variable:连续型 Bayess Formula:贝叶斯公式 Probability Distribution:概率分布 Distribution Function:分布函数 Distribution Law:分布律 Probability Density:概率密度 Conditional Distribution:条件分布,Uniformly Distribution:均匀分布 Binomial Distributi

13、on:二项分布 Bernoulli Distribution:伯努利分布 Geometric Distribution:几何分布 Poisson Distribution:泊松分布 Exponentital Distribution:指数分布 Mathematical Expectation:数学期望 Variance:方差 Covariance:协方差 Correlation Coefficient:相关系数 Normal Distribution:正态分布 Central Limit Therem:中心极限定理 Chebyshevs Inequality:切比雪夫不等式 Principal

14、 Component Analysis:主成分分析,2013-06-02 Sunday,31,中英文对照-集中趋势,Mean:均值 Quadratic Mean:平方平均数(RMS), 常用来计算一组数据和某个数据的“平均差” Arithmetic Mean:算术平均数( ), 较中位数、众数更少受随机因素影响, 缺点是它更容易受到极端值影响 Geometric Mean:几何平均数(G), 适用于对比率数据的平均,并主要用于计算数据平均增长(变化)率 Harmonic Mean:调和平均数(H), 适用于计算平均速率,如电阻并联 调和平均数几何平均数算术平均数平方平均数 Median:中位数

15、,排序后取中间值 Mode:众数,出现次数的变量值,用于分类数据;,2013-06-02 Sunday,32,中英文对照-离散程度,Range:全距,最大值与最小值的差值() Standard Deviation:标准差(),样本的标准差(s):样本方差是对总体方差的无偏估计, 因约束条件 =1 ( ) =0,得( )的自由度为n-1,Variance:方差,亦称二阶矩( 2 ) 标准差的单位和样本数据一致,方差则不同; 二者均常用,如(, 2 )、3,+3,方便起见,二者同时存在,总体的标准差() :,定义:如右图所示,可理解为一个从n维空间的 一个点( 1 , 2 )到一条直线的距离函数,

16、2013-06-02 Sunday,33,中英文对照-离散程度,Coefficient of Variable:变异系数( ),标准离差率 相比标准差,变异系数无需参考数据的平均值,且是一个无量纲量,故在比较两组量纲不同或平均值不同的数据,应该用变异系数; 平均值接近0时,微小扰动会造成其较大波动; 常用于更新理论、排队理论、可靠性理论,InterQuartile Range:四分差,四分位距,(IQR) 描述第一四分位数( 1 )和第三四分位数( 3 )的差值 与方差、标准差一样表示变量的离散程度,但其为Robust统计 如序列1,2,11,其中 1 =3, 3 =9, 2 =6为中位数;IQR=9-3=6 其算术平均值为6,标准差为 110 ,几何平均数约为4.91,全距为10,Quartile:四分位数, 1 、 2 、 3 如序列1,2,3,4,其中 1 、 2 、 3 分别为1.5、2.5、3.5,2013-06-02 Sunday,34,中英文对照-分布形态,Skewness:偏度( ) 衡量统计数据分布偏斜方向和程度的量,描述分布的非对称程度; 0,正偏态,右偏态,右侧尾部更长,算术平均数中位数众数;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论