



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
从回归分析到数据挖掘关键词:回归分析数据挖据质量管理JMP回归分析是研究两种或两种以上变量之间相互依赖的定量关系的统计分析方法,在很多行业都有广泛的应用。无论是银行、保险、电信等服务行业的业务分析人员在进行数据库营销、欺诈风险侦测,还是半导体、电子、化工、医药、钢铁等制造行业的研发技术人员在进行新产品实验设计与分析、流程优化与过程监控,或者更广义地说,不同类型的企业在开展质量管理和六西格玛项目时,都常常会用到回归分析。回归分析可以帮助我们判断哪些因素的影响是显著的,哪些因素的影响是不显著的,还可以利用求得的回归方程进行预测和控制。但是,稍微对回归模型的有效程度和预测精度有一定要求时,我们就会发现回归分析有一些先天性的不足和隐患:缺少用实际数据验证模型有效性的环节,经常听到的抱怨是:模型看上去很美,但是一到应用环节就发现预测不准确;建模手段单一,不能多角度地考虑问题,从而更好地拟合数据;无法系统地比较通过不同方法得到的不同模型,更谈不上在众多候选模型中甄选出一个相对最佳的模型。这时,想要消除上述隐患,突破工具瓶颈的理想办法就是从“回归分析”的层次上升到“数据挖掘”的层次。数据挖掘是一个更大的数据分析概念,主要指从大量的企业数据中揭示出隐含的、先前未知的并有潜在价值的信息的整个过程。从统计技术层面上讲,数据挖掘至少具有三大特征:1.强调分析建模之前的数据源划分,一般需要将所有原始数据分为模型训练数据trainingdata、模型验证数据validationdata、模型测试数据testdata三类。从而从源头上确保了由此求得的模型是经得起现实复杂情况的严峻考验。2.提供了丰富的建模手段,除了基于最小二乘法、逐步法和Logistic法等传统的回归分析之外,还包括很多新颖又实用的建模技术,如:决策树(DecisionTree)、神经网
络(NeuralNetwork)、关联规^V(AssociationRule)、支持向量机(SupportVectorMachine)、文本挖掘(TextMining)等。这使我们在遇到回归分析失效的情况下,依然具备解决问题的能力。3."模型比较(ModelComparison)"是数据挖掘后期的过程中必不可少的一个环节,这样一来,我们就可以科学、客观地从不同的候选模型中找到最理想的模型来做最精准的预测分析,将预测误差降低到最低。显然,数据挖掘的这三个特征有效地弥补了回归分析的不足,为我们的建模预测工作奠定了扎实的基础。下面用一个真实案例来说明从回归分析到数据挖掘的实际应用,出于数据安全性的考虑,核心数据(包括变量名称)已做了相应的编码处理。某知名钢铁公司的研发部门在一个构建结构钢端淬曲线预测模型的项目中,先用用SAS公司面向普通工程师和科学家开发的交互式可视化统计发现软件JMP中的逐步回归做了一个预测模型(见下图)。RSq=O^RMSE=13^46血SummaryofFrtRSqu^reRSq=O^RMSE=13^46血SummaryofFrtRSqu^re0J39402RSqu^fgAdjOB14297RootMeanStuartEtr^r138.4551OfFt能po能白&D33701OhMrvabW宫(arSumWglsJ127SourceDFMfiOfrl51Error75CTotal1264AnalysisofVarianceSumolSquaresMe^nSquareFRaEio11&69012226B4311.8334143773619170Prob>F13006748<(H)Dr图一JMP软件中的回归分析报表从分析报告上来看,这个预测模型还是不错的。但在模型的推广过程中,多次发现预测误差很大,甚至严重动摇了技术人员应用统计建模的信心。所幸在权威咨询机构的
指导下,发现造成模型预测失误的主要原因是模型过度拟合,包含了很多不必要拟合的噪声信息。项目成员重新思考了技术攻关中需要用到的方法论,最终决定升级到高级版JMPPro,没有多做一次现场实验,没有申请任何额外预算,却显著改善了模型的预测效果,达到了预期效果。从技术细节上来看,项目后期与前期的不同之处也恰巧体现了前面所介绍的数据挖掘的三大特征,即:第一,没有囫囵吞枣地把所有数据全都用来构建模型,而是有计划地按照一定比例将所有数据分为训练数据、验证数据、测试数据三类,各类数据各司其职,确保由此产生的模型在生产阶段的有效性。SpeciiyDataProportionsAction^Number*Lirec^RECD»dle&^APISpeciiyDataProportionsAction^Number*Lirec^RECD»dle&^API—日Q3Jsob亠BoiraSelectColumnTrainingSetvalidauorSetT&stSet06020^2Cancel图二JMPP「□软件中的数据分层界面第二,开拓思路,有机地运用除了回归分析之外的多种数据挖掘建模工具,如决策树、神经网络,以及其衍生工具(如随机森林BootstrapForest、提升树BoostedTree等),避免了由于单一方法的生搬硬套而导致的建模错误。严良自砒(001户曲图三JMPP「o软件中的决策树结构图曲DiagramHydfauittRadius曲DiagramHydfauittRadiusTiFWmaM阳汽述Pressursra&o:6S#riii3lfTflmp#ratuirfr■遂「皿的弱n“护Walerb^GtiratiDnWalerVigcwrty图四JhIPP「G软件中的神经网络结构图第三,先松后紧,整合之前求得的各个候选模型,将科学严谨的统计量化指标与实际业务经验相结合,挑选出整体上最合适的预测模型,体现了“博采众长,取长补短”的建模理念。MeasuresofFitforRECPfSCftCtOfCreatorJ.4Jfi.8R5quar«RASEAAEFr百q取g呼dTtMRECe^siedti桝0.&37219?77140.3Q127NeuralForestRECNeural0.601020214152.70127Slepwi3Fl旳n$話i知R^CFilL韓射S<]uaree0.58902V&16156.08137NturalRECNeuralO.5C&3505.83154.08127NeuralRECNeural:IO.5C3321147172-11137ScosbrapForestRECBootstrapForest015386217^7169.20127D0c$ltirlTrfeSRECPartition0.50*222534175.65127图五,JMPPm软件中的模型比较输出报表总之,“从回归分析到数据挖掘”是企业在精细化管理发展到一定阶段后必定会遇到的一个问题
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 6031:2025 EN Functional extenders for special application - Nanoscale diamonds for polymer composites
- 【正版授权】 ISO 19396-2:2025 EN Paints and varnishes - Determination of pH value - Part 2: pH sensors with ISFET technology
- 2025年质量员之土建质量专业管理实务能力提升试卷A卷附答案
- 【赤峰】2025年内蒙古赤峰市委党校竞争性比选事业编制工作人员4人笔试历年典型考题及考点剖析附带答案详解
- 2025年施工员之土建施工基础知识题库检测试卷A卷附答案
- 2020-2025年统计师之初级统计基础理论及相关知识题库综合试卷A卷附答案
- 六盘水市2025年事业单位公开招聘笔试联考笔试历年典型考题及考点剖析附带答案详解
- 第五节分子间力和氢键第六章分子结构与性质91课件
- 第七章化工工艺图62课件
- 口腔牙髓病课件
- 医共体人事编制管理办法
- 小儿肛周脓肿护理
- 山东畜牧兽医单招考试题及答案
- 医疗器械网络销售质量管理规范宣贯培训课件2025年
- 高考英语3500个单词和短语
- 《大数据习题库汇总-机器学习》复习题库(含答案)
- 苏教版数学一年级上册-全册配套课堂作业
- 交通导行方案样稿
- 《建筑工程设计文件编制深度规定》(2023年版)
- 贵州贵阳银行招聘笔试(六盘水地区)上岸提分题库3套【500题带答案含详解】
- 社区获得性肺炎的护理查房
评论
0/150
提交评论