版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第第2章章 从数理统计到数据挖掘从数理统计到数据挖掘2.2数理统计与数据库技术的结合数理统计与数据库技术的结合2.3回归分析的基本概念回归分析的基本概念2.4线性回归方程线性回归方程2.5线性相关的显著性检验线性相关的显著性检验2.1数理统计与数据挖掘的关系数理统计与数据挖掘的关系2.7多元线性回归分析多元线性回归分析2.8一般情况下的回归分析一般情况下的回归分析2.9逐步回归分析的软件设计逐步回归分析的软件设计2.10锻模设计准则的制定锻模设计准则的制定2.6非线性回归分析非线性回归分析第2章 从数理统计数据挖掘2.1数理统计与数据挖掘的关系数理统计与数据挖掘的关系 数理统计和数据挖掘有着共
2、同的目标,即发现数据中的结构 。但数据挖掘不是数统计的分支 ,因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。因而需要逐个考察这两门学科的性质,区分它们的异同,并关注与数据挖掘相关联的一些难题。 第2章 从数理统计数据挖掘 2.1.1数理统计的性质数理统计的性质 试图为数理统计下一个太宽泛的定义是没有意义的,数理统计是一门比较保守的学科,目前有一种趋势是越来越精确 。数学背景和追求精确加强了这样一个趋势,即在采用一个方法之前先要证明,而不是象计算机科学和机器学习那样注重经验 。第2章 从数理统计数据
3、挖掘2.1.2数据挖掘的性质数据挖掘的性质 计算机使得传统统计模型的视野大大地扩展了,还促进了新工具的飞速发展 。数理统计很少会关注实时分析,然而数据挖掘问题常常需要这些 ,数据挖掘者也不可持完全非统计的观点,尽管数理统计主要关注的是分析定量数据,数据挖掘的多来源意味着还需要处理其它形式的数据。特别地,逻辑数据越来越多。第2章 从数理统计数据挖掘2.1.3 从数理统计到数据挖掘从数理统计到数据挖掘 数据挖掘有时候不是一次性的实验,尽管数据集是确定的,它更应该被看作是一个不断迭代的过程。从一个角度检查数据可以解释结果,以相关的观点检查可能会更接近规律。关键是,极少情形会知道哪一类模式是有意义的。
4、数据挖掘的本质是发现非预期的模式同样非预期的模式要以非预期的方法来发现。 第2章 从数理统计数据挖掘 数据挖掘不能替代传统的统计分析技术,相反,它是统计分析方法学的延伸和扩展。数据挖掘算法有些本来就是统计的方法 ,数据挖掘仍然是计算机行业的一个方向,而不是广义统计的一部分。同时,对于数据挖掘算法中来自机器学习和人工智能的一部分,其核心是规则,而规则内部的获得机制虽然是基于数理统计的,但是这种技术本身已经不属于统计了。第2章 从数理统计数据挖掘2.2数理统计与数据库技术的结合数理统计与数据库技术的结合 数据挖掘技术从一开始就是面向应用的,它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据
5、进行微观及宏观的统计、分析、综合和推理,用以指导实际问题的求解,力图发现事物间的相互联系,甚至可利用已有的数据对未来的活动进行预测。 数理统计是数学中最重要、最活跃的学科之一,然而它和数据库技术结合得并不算快,但一旦有了从数据查询到知识发现、从数据演绎到数据挖掘的要求,则数理统计就会获得新的生命力。数理统计作为数据挖掘的3个主要支柱之一,有许多寻找变量之间规律性的方法,而回归分析方法是其中最有效的方法之一。第2章 从数理统计数据挖掘2.3回归分析的基本概念回归分析的基本概念 变量之间的关系可分为两类:一类是确定性的关系,也就是通常所说的函数关系;另一类是非确定性的关系,变量之间的这种非确定性关
6、系称为相关关系。 设有两个变量X和Y,其中X是可以精确测量或控制的非随机变量,而Y是随机变量,X的变化将使Y发生相应的变化,但它们之间的变化关系是不确定的,若当X取得任一可能值x时,Y相应地服从一定的概率分布,则称随机变量X与变量Y之间存在相关关系。 第2章 从数理统计数据挖掘设进行次独立的试验,测得试验数据如下表 xXxXYYy)(E其中 及 分别是变量X与随机变量Y在第i次试验中的观测值。取X=x时随机变量Y的数学期望时 的估计值,即 iyxXY)(Eix), 2 , 1(niXY1x1y2x2ynxny显然, 当变化时, xxXY)(E是 的函数,记作xxXYx)(E)(于是,可以用一个
7、确定的函数关系式)(xy (21) (22) (23)第2章 从数理统计数据挖掘 大致地描述 与 之间的相关关系,函数 称为 关于 的回归函数,方程(23)称为 关于 的回归方程。回归方程反映了 的数学期望EY随 的变化而变化的规律性。 在确定了函数 的类型后,就可以设 其中 为未知参数。于是,上述问题就归结为:如何根据试验数据合理地选择参数的估计值 使方程YX(x)YXXYYX(x),;()(21kaaaxxkaaa,21kaaa,21),;(21kaaaxy在一定的意义下“最佳地表现 与 之间的相关关系。YX解决上述问题的方法,可以利用最小二乘法。 第2章 从数理统计数据挖掘2.4线性回归
8、方程线性回归方程 为了便于确定回归函数 中未知参数的值,首先讨论变量 与 之间存在线性相关关系的情形。 设变量 与 之间存在线性相关关系,则由试验数据得到的点 将散布在某一直线周围。于是,可以用线性方程(x)YXYX), 2 , 1)(,(niyxiibxay大致地描述变量 与 之间的关系。设随机变量YX),(2bxaNY按最小二乘法确定未知参数 及 时,有偏差平方和abniibxayS12为了使S取得最小值,分别求 对 及 的偏导数,并令它们等于零,得方程组Sabniiiiniiixbxaybxay110)(0)(第2章 从数理统计数据挖掘整理得niiiniiniiniiniiyxbxaxy
9、bxna112111解方程组得xxxyllbxbya上式中niixnx11niiyny11nixixxsnxxl122) 1()(其中 观测值 的样本方差;2xSnxxx,21niniiiiixyyxnyxyyxxl11)(第2章 从数理统计数据挖掘为了以后进一步分析的需要,再引进niyiyysnyyl122) 1()(其中 是观测值 的样本方差。2ySnyyy,21将由公式2-5计算得到的及的值代入2-10),就得到所求的线性方程xbay 这个方程称为 关于 的线性回归方程, 称为回归系数,对应的直线称为回归直线。YXb第2章 从数理统计数据挖掘2.5线性相关的显著性检验线性相关的显著性检验
10、2.5.1线性回归的方差分析线性回归的方差分析线性回归得方差分析表如下: 方差来源方差来源 平方和平方和 自由度自由度 F F值值 临界值临界值 回归剩余 RSeS12n(2)ReSFSn0.05(1,2)Fn0.01(1,2)Fn2.5.2相关系数的显著性检验相关系数的显著性检验相关系数的显著性检验法2nFFr一系列变化得第2章 从数理统计数据挖掘 (1当 时,则认为 与 之间的线性相关关系不显著,或者不存在线性相关关系。 (2当 时,则认为 与 之间的线性相关关系显著。 (3当 时,则认为 与 之间的线性相关关系特别显著。 综上所述,讨论随机变量与 变量 之间的线性回归问题,一般应按以下步
11、骤进行。 )2(05. 0nrr)2()2(01. 005. 0nrrnr)2(01. 0nrrYYYXXxyyyxxlllyx及,YXX第2章 从数理统计数据挖掘 (1先根据试验数据计算 ,再计算样本相关系数 的值;然后,查相关系数显著性检验表,得到相关系数临界值 ,从而推断变量 与 之间的线性相关关系是否显著。 (2假设 与 之间的线性相关关系显著,则计算 的值,可得 关于 的线性回归方程,它大致描述了 与 之间的变化规律。YXxyyyxxlllyx及,rrYYYXXXba及第2章 从数理统计数据挖掘2.6非线性回归分析非线性回归分析2.6.1化非线性回归为线性回归化非线性回归为线性回归
12、根据专业知识或散点图,选择适当的曲线回归方根据专业知识或散点图,选择适当的曲线回归方程程 其中其中 及及 为未知参数。为了求参数为未知参数。为了求参数 及及 的估计的估计值,往往可以通过变量置换,把非线性回归化为值,往往可以通过变量置换,把非线性回归化为线性回归,然后用上述线性回归方法来确定这些线性回归,然后用上述线性回归方法来确定这些参数的估计值。参数的估计值。),;(baxyaabb第2章 从数理统计数据挖掘2.6非线性回归分析非线性回归分析2.6.2多项式回归 设回归方程为 这里假设多项式的次数 小于试验次数 。因而可以利用最小二乘法确定系数 的值。最常用的是二次或三次多项式。mmxax
13、axaay2210mnmaaa,21第2章 从数理统计数据挖掘2.7多元线性回归分析多元线性回归分析2.7.1多元线性回归方程多元线性回归方程2.7.2多元线性回归的方差分析多元线性回归的方差分析 检验原假设检验原假设 是否是否成立成立 最后写出多元线性回归的方差分析表如下:最后写出多元线性回归的方差分析表如下:mmxbxbxbay22110H210mbb:b方差来源方差来源 平方和平方和 自由度自由度 F F值值 临界值临界值 回归剩余 RSeSM1mn) 1(mnSmSFeR0.050.01( ,1)( ,1)FFm nmm nm第2章 从数理统计数据挖掘 与与 之间的线性相关关系显著性判
14、断规则如下之间的线性相关关系显著性判断规则如下YmXXX,21mXXX,21mXXX,21mXXX,21YYY(1假设 则接受原假设 ,即认为 与 之间的线性相关关系不显著。(2假设 则拒绝原假设,即认为 与 之间的线性相关关系显著。(3假设 则可以认为 与 之间的线性相关关系特别显著。),1,(F05. 0mnmF0H),1,(F) 1,(F01. 005. 0mnmFmnm),1,(F01. 0mnmF第2章 从数理统计数据挖掘2.8一般情况下的回归分析一般情况下的回归分析 2.8.1一般情况下的回归方程一般情况下的回归方程 最小二乘估计原理:当参数最小二乘估计原理:当参数 满足满足 时,
15、函数时,函数 达到最小值。若矩阵是非奇异达到最小值。若矩阵是非奇异的,则最小值由的,则最小值由 唯一给出。唯一给出。yTT22121)(TIyyT)(1第2章 从数理统计数据挖掘2.8.2一般情况下的参数估计一般情况下的参数估计 最小二乘法可以用于动态系统的参数估计。设系统输入序列 已施加于系统并测得相应的输出序列 ,未知参数为 )(,),2(),1 (Nuuu)(,),2(),1 (NyyyTnnbbbaaa,;,2121第2章 从数理统计数据挖掘 又 若矩阵 是非奇异的,则最小二乘估计由式276给出。粗略地讲,只要输入信号是足够丰富的,矩阵 就是非奇异的。)()2() 1()()2() 1
16、() 1(,),1(),();1(,),1(),( ) 1(NynynyyNnnnkukukunkykykykTT第2章 从数理统计数据挖掘2.9逐步回归分析的软件设计逐步回归分析的软件设计逐步回归分析软件应具有以下功能逐步回归分析软件应具有以下功能:(1从一组数据出发,确定变量间的定量关系式。从一组数据出发,确定变量间的定量关系式。(2对关系式的可信度程度进行统计检验。对关系式的可信度程度进行统计检验。(3从影响着某一变量的许多变量中判断哪些变从影响着某一变量的许多变量中判断哪些变 量的影响是显著的,哪些是不显著的。量的影响是显著的,哪些是不显著的。第2章 从数理统计数据挖掘 根据对逐步回归
17、分析软件功能的分析,得出其数据流图如图所示。 第2章 从数理统计数据挖掘图图2-1 逐步回归分析软件数据流图逐步回归分析软件数据流图2.10锻模设计准则的制定锻模设计准则的制定 2.10.1研究的内容研究的内容 (1飞边尺寸设计准则的制定;飞边尺寸设计准则的制定; (2飞边金属消耗设计准则的制定。飞边金属消耗设计准则的制定。 2.10.2资料收集与数据处理资料收集与数据处理 2.10.3飞边尺寸设计准则的制定飞边尺寸设计准则的制定 (1数学模型建立的依据数学模型建立的依据 (2数学模型的建立和回归分析样本表数学模型的建立和回归分析样本表 (3结论结论 2.10.4飞边金属消耗设计准则的制定飞边
18、金属消耗设计准则的制定 (1数学模型建立的依据数学模型建立的依据 (2数学模型的建立和回归分析样本表数学模型的建立和回归分析样本表 (3结论结论 第2章 从数理统计数据挖掘 本章阐述了数据挖掘与数理统计的关系,对数理统计和数据库技术的结合进行了讨论,由此说明了数理统计在数据挖掘中的基础地位。重点讨论了数理统计中的核心分析方法回归分析法。就回归分析的基本概念、线性回归方程、线性相关的显著性检验、非线性回归分析、多元线性回归分析、一般情况下的线性回归分析进行了论述。结合数据挖掘的特点,给出了采用逐步回归分析法建立锻模设计准则的实例。就逐步回归分析的软件设计、锻模飞边尺寸设计准则的制定、锻模飞边金属
19、消耗设计准则的制定等问题进行了描述。最后,得出了利用逐步回归分析软件建立的上述两类准则,并对结果进行了分析,获得了相关结论。 第2章 从数理统计数据挖掘 1在某种产品的表面腐蚀刻线,腐蚀深度与腐蚀时间在某种产品的表面腐蚀刻线,腐蚀深度与腐蚀时间关,测得试验数据如下关,测得试验数据如下5101520 581013 30405060 16171923 7090120 252946 sitmiusitmiusitmiu (1检验腐蚀深度与腐蚀时间之间线性相关关系是否显著;如果显著,检验腐蚀深度与腐蚀时间之间线性相关关系是否显著;如果显著,求关于的线性回归方程。求关于的线性回归方程。 (2求当腐蚀时间
20、时腐蚀深度的置信水平为的预测区间。求当腐蚀时间时腐蚀深度的置信水平为的预测区间。 第2章 从数理统计数据挖掘 2冶金厂生产某种零件,对一批成品的质量与压溃强度进行实际测试冶金厂生产某种零件,对一批成品的质量与压溃强度进行实际测试,得到数据如下:,得到数据如下:142145149153158 420510535605675 160162164168170 710730750825845 172175177180 93598010301090 kgx-2Ncmiykgx-2Ncmiykgx-2Ncmiy第2章 从数理统计数据挖掘 (1检验压溃强度与质量之间线性相关关系是否显著;如果显著,求关检验压
21、溃强度与质量之间线性相关关系是否显著;如果显著,求关于的线性回归方程。于的线性回归方程。 (2求当质量为时压溃强度的置信水平为的预测区间。求当质量为时压溃强度的置信水平为的预测区间。 3一册书的成本费与印刷册数有关,统计结果 如下:1235 10.155.524.082.85 10203050 2.111.621.411.30 100200 1.211.15 x 千册iy 元x 千 册iy 元x 千册iy 元检验成本费与印刷册数的倒数之间线性相关关系是否显著;如果显检验成本费与印刷册数的倒数之间线性相关关系是否显著;如果显著,求关于的回归方程。著,求关于的回归方程。第2章 从数理统计数据挖掘
22、4对变量对变量 与与 ,测得试验数据如下,测得试验数据如下 23456 6.428.209.589.509.707891011 10.009.939.9910.4910.59 1213141516 10.6010.8010.6010.9010.76 ixiyixixiyiy第2章 从数理统计数据挖掘画出散点图,为了求得变量关于的回归方程,考虑选配下列曲线方程。画出散点图,为了求得变量关于的回归方程,考虑选配下列曲线方程。(1) (2) (3)按所得的各个回归方程,分别计算先剩余平方和按所得的各个回归方程,分别计算先剩余平方和 比较它们的大小,从而选定比较它们的大小,从而选定“最正确最正确回归曲线方程最小者为回归曲线方程最小者为“最正确最正确”)152
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 微网课程设计个人总结
- 2024年华师大新版高三英语下册阶段测试试卷630
- 直角杠杆课程设计
- 2024年新世纪版八年级物理上册月考试卷含答案
- 2024年岳麓版二年级语文上册月考试卷111
- 2024年人教A版九年级地理上册阶段测试试卷含答案684
- 2024年人教A版七年级化学下册月考试卷175
- 2024年人教版PEP高二化学上册阶段测试试卷263
- 一年级数学计算题专项练习汇编
- 《传感器原理及应用》课程试题(A卷)
- 2024-2030年中国铝汽车紧固件行业销售规模与盈利前景预测报告
- 城市建设苗木吊装安全方案
- 中医院医生作风建设工作方案(6篇)
- DIY手工坊创业项目计划书
- (高清版)DB21∕T 1795-2021 污水源热泵系统工程技术规程
- 2024-2025学年人教版数学五年级上册期末检测试卷(含答案)
- 【MOOC】犯罪心理学-中南财经政法大学 中国大学慕课MOOC答案
- 《外盘期货常识》课件
- 2024江苏盐城港控股集团限公司招聘23人易考易错模拟试题(共500题)试卷后附参考答案
- 2024年三支一扶考试基本能力测验试题及解答参考
- 中华人民共和国统计法
评论
0/150
提交评论