【原创】机器学习:在SAS中运行随机森林数据分析报告论文附代码数据_第1页
【原创】机器学习:在SAS中运行随机森林数据分析报告论文附代码数据_第2页
【原创】机器学习:在SAS中运行随机森林数据分析报告论文附代码数据_第3页
【原创】机器学习:在SAS中运行随机森林数据分析报告论文附代码数据_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

有问题百度搜索拓端数据”就可以了欢迎登陆官网:/datablog机器学习:在SAS中运行随机森林数据分析报告为了在SAS中运行随机森林,我们必须使用PROCHPFOREST指定目标变量,并概述天气变量是类别'还是定量实例1为了进行此分析,我们使用了目标(Repsone变量),该目标是分类的(SAS语言中标称的),如下面的图像代码中所描述的黄色和红色:PROC身二工2丁二匚京/由THISISTOHUWAHASTSOCTSEZSTKSEKE1=干土巨二:鼻TrPj£"T二?R-.u二E■工—ICWthZdJLZ15HRACJCZGCWiL一—--■.bJlL3It:=i二民工工」止一「*一七一二一JIMFQRTAJn?SYSLTKfcVE7DENTERIKSEPARATEISKTSTAZMKT二R二R:;二HU&L丁A巨[值*PROCHOF0FT:TARGETHZSHSCIZrU:I三二3三至二二C三二2i=一;七二声』=一三三三二二,三二G■三二忑二三二5三二C习1:二三?三三二,二三TT二二二:二£7二之二」1一二-i.-t±=--az.jeze«s._----__--JrkVN;V"一〜一运行代码后,我们得到了一系列表格,这些表格将详细分析数据。例如,模型信息让我们知道,随机选择了3个变量来测试每个节点或每个树中可能的分割(黄色)。我们还可以看到,运行的最大树数为100,如蓝色下划线所示。该模型信息还告诉我们,袋中部分”设置为默认值的60%,使OBB的比率为40%。请注意,修剪分数”默认设置为“0”因为将其最接近设置为“1,”然后树木将具有的最低生长水平。换句话说是不修剪。HPFOREST自动仅使用在任何观察值下均没有缺失记录的有效变量。但是,我们还可以看到,在研究样本的213个国家中,有213个被利用。这是因为我已经利用了一组没有缺失值的县。

有问题百度搜索“拓端数据”就可以了欢迎登陆官网:/datablogTkHFFORESTPiriocedurePerfwmaneeInkwmationE*e-cuti£>nMode|NymHrofThreads2AccessInfDTflTJtion班口EngiiwRolePattiWORK距码letode1InFormationPararoetsrVilwViriibte*}toTry2iDeFiunbP4axiiTrFifmTre^sSe#a51nbagFraHEtiorU.S•XFml二:PrurwFractionRrup#ThruhNdn-i1AFISLe^fFracton_____ripcEMJt)LeafSlze5-eHing-1ZfefSL-..:-Leafflu*1:口(frBwyBins纪IntervalStsEMMnimumCategorySizt5;xr皿No*罚E・时”::・MaU而则DepthzcAlpha□efmiz.Ejc113inti”处?ItefaL.::Rowsof%?quFncetgSkip5SpiitCrittfion?.Mtthod:***:2*jrihErlisEingHaigHindiingUdl*,MumbtrcfObif-r*alieni%陛Numibe-rofObseirvatiofirsNumberofObfreirvations接下来,我们可以看到模型生成带有基线拟合统计量”的表。就本研究中的数据而言,我们可以看到该模型识别出38%的误分类,换句话说是62%的准确分类<这表示大部分样本已在每个随机选择的样本中正确分类。有问题百度搜索“拓端数据”就可以了欢迎登陆官网:/datablogBeelineFrtStatistic1St£tl5t]CBeelineFrtStatistic1St£tl5t]CValue丈URTN#Sqmr&ErrorMw1i»rfiaa6onRate塔二LogLoti-D.W在下表中分析森林的适合度时,我们可以看到误分类率已经达到了最低点,树号为100.这表明在OOB样本中使用该模型进行测试时,误分类率仅在22%。Top10FieTop10Fie谣WfIIhHumberatTim口于事「武尸白EH1Trig2引AErrcirPOEI>Mi=10:,而对"FialelTiPj>in|U|国Ratelooai皿Ld%3d5lx>^5BOOS1119.197j2^1<!J1C:二;Ml*2tlire™J9HLJJNXC7IXD1i.Dll3j1*1KBn■asr-7431'i□3J11J竭)1F40¥023注---:阳E相二F汇旷二七工糊73D235-tQ3+0…B72里丁6C.244,13■弓5二53ZZ.=j:9D2津c汪032-953?”月ID3^:53t244”热二.EW二TheMisclassification

ratetends

todecreaseBottom10Bottom10TheMisclassificationAlmostLevelsoff最后,我们看到SASPOCHPFOREST为我们提供了损失减少变量的重要性表。下表概述了每个变量如何有助于模型的可预测性的重要性等级。如下图所示,酒精变量排名最高。现在,以下内容将帮助我们理解如何阅读表格:•规则数:告诉我们使用变量的拆分规则数欢迎登陆官网:/datablog每个数据计算两次:Gini:这是在袋装”阶段计算的数据GiniOOB:这是在“OutofBag阶段中计算生的数据拟合统计告诉我们,OOB数据的偏差较小,因此,数据通过OOBGini度量进行排序就预测自杀率高于正常水平而言,这些变量被列为高度重要性(顶部)和最低重要性(底部)。从下表中我们可以看生,最容易预测模型自杀率高于正常模型的变量是酒精消费量,就业率和城市率。LoasReductionVarhbleImportanceVariableNumberofRulesGintOOBGiniMargin□OBMarginHIGHALCOHOL129002647300231200529460046982HIGHEMPLOY1360.01S3W0.00697O.Q32S200.01958&HIGHURBAN1250.0129250.005150025851001896SHIGHELECTRIC78OOO8733Q.Q016B0G134660008143HIGHARMED二11300W&220001H0.0216430010213breasted11cerperlOOth1O.OOOE^O000022O.Q013200001959HJGHINTERNET990.0Q5&47-D.D0Q360。116gdQ.0D3&5&hivrate320012300-Q0010100245990.01610^HIGHCO590.004718-000412D.D0943500005环有问题百度搜索拓端数据”就可以了欢迎登陆官网:/datablog通过上面的练习,我们可以看到随机森林是一种数据挖掘算法,可以选择重要的解释变量,这些变量可以用于确定响应变量(目标变量)的结果,无论是分类变量还是定量变量。止匕外,此练习还允许我们结合使用分类变量和定量变量。总之,这个森林让我们知道哪些变量很重要,但彼此之间没有关系。实例2:缺失值和估算值本示例使用SAS样本库中的房屋净值数据来说明使用缺失值和估算值之间的区别。数据丢失的非随机模式可以帮助预测目标。当缺失值由训练数据中的推定值代替时,PROCHPFOREST无法使用此模式。下面的语句通过两次运行PROCHPFOREST来说明这一点:一次在原始数据上运行,一次在数据缺失的标称值已被变量的模式替换而缺失的间隔值已被变量的均值替换后的数据。该Sampsio.Hmeq数据集包含虚拟抵押数据,其中每个案例代表房屋抵押贷款的申请人。所有申请人都有现有抵押。BAD对于最终违约或严重违约的申请人,二进制目标等于1。九个间隔输入可用于建模。JOB并且REASON是唯一的标称输入。对于模式JOB和REASON分另1J是OTHER和DEBTCON。prochpimputedata=sampsio.hmeqout=imout;inputmortduevalueyojclagenin

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论