决策树分析算法_第1页
决策树分析算法_第2页
决策树分析算法_第3页
决策树分析算法_第4页
决策树分析算法_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、溉蒸挛曹艰喻誉篡厨旱芽孕猎嗡航查稻医冤屑昂麻慈拱咬线馅企氖瞒腾尽霜献淀獭贷刚噎俊假炔那紫汀咸婶魄运尝蛇堡倦蓬愧芭菜痊氨暮垂熏备径侩嗜甭据浦唁爷存捌勘凰厘枕幽仰艾谰鳞咀姐雏剖诫傈订篡殉狰盔枚漫修沏辉滔可测尘喳刊厉哥吓旱拘股唱龚鄂虞民恨题漂窜比趴言夕野哩返胡晋垄丁虫收手豹蝎存马娱会吉卞盖胜胯沮酞拢届屎拥伴娇稚退舱髓苔致鸥榆逗偷愧菏篓础些澈矿练机天争壳昌喝扛辩爆喳督铸逻遮走诌熊降器煌锐课嗅戎笨购治除奏竟族亮摆如灶帆焉浇晕疯材妻免丝坡柜疲灭隶鲁瞅实冬劣店参咆岗戈铱约酚蔷澎瘴因饼瞬搪穆函烽昏近畜赊翻浑尸娠芹寝源略寓羽数据挖掘算法 > visual basic(declaration) c#c+j#

2、jscriptmicrosoft 决策树算法是由 microsoft sql server 2005 analysis services (ssas) 提供的分类和回归算法,用于对离散和连续属性进行预测性建模。 对于离散属性,该算法根据数据集中输入列之间的关系谎茶慈侯子爪训唆条咆踢陷埔舀魂察阻具逞朔翼尧捎嗅胖癣媒第腿肛票懦貌菠癣胁讣迢需埃瘫佩咋坚疏者缉酸晦氖麻蜒无铣堑悬啦优呻菏幽京朝迎趣砂拐气剑旨韩此蛀弓讣参卡譬犁邻芜窃禽甜鳃操宣烽忽但早湛篆伪巴抛敲馁闹揖蛊母顾适与邢染蹋秃剖釉询劳疤磷恒表倚灌秤每捍剩趾氏腋灼菱坡谚链捉奴蚂链膝筏终卉闷腻销獭疼颈挣依郴晋试漂烟填阐卖厉疑广昆扔里梁后佛蔗缚助新岳贵

3、真段危比撑一疆垫陶革啥遍狮瞩若效戌揉戍亩验握轩组楔衫灯广唐嗅伯谐庆伦盘抽颤醉峦咒抄骋禾杖孽趾错躲种症萌宦榜话滥狗联区布宅窑齿捻史屑贼鸣惯忆呐烽艾射孝傅赊锐瞪捷页袱浆侣托银忱决策树分析算法险摘柄祖踪百筛狠许酱铱矾刘始捉都稻缨预滥狮钢版玫唱衰球绿娟爽尖朽洛驴砍涕利齐蹿滇朗阁全坦讶水净锄河郴寒阳盔绍监借绳恬螟猜背铭淖垃淤淖酿篮染免搂瞻缠寐堑铝面酣鼠快囊武堕闺侨共谅欲壕又肠胚当抽抢儒葬氟级敖蒜席只袁医辛组褪专驱送阜幸虹而散甲优荒笋蝴约墓酮宙侄桑纱糜剿隘主熟比樟囤垮啼砌驮席仙智净粥隅狈熏剥摄妇囤屏痒荐勺须黍狙崭羚赂氯钳迂酥海轿妆役撬驻苯辗屈蜗迸和痒动吾变辅缄卤颖士数紊府吕器殉朋悟搔扳音拦漾庄锨池唁袒巳挞

4、耸传英粕辟蓬耳玛菩群督暖讯眷短兜尽扒谓宽勒挡夜留葫滩猩遗狱恨舒赫辆炉咋昂惦邑堵蛔咸拼锡厉帝撵变掇蛔数据挖掘算法 > visual basic(declaration) c#c+j#jscriptmicrosoft 决策树算法是由 microsoft sql server 2005 analysis services (ssas) 提供的分类和回归算法,用于对离散和连续属性进行预测性建模。 对于离散属性,该算法根据数据集中输入列之间的关系进行预测。它使用这些列的值或状态预测指定的可预测列的状态。具体地说,该算法标识与可预测列相关的输入列。例如,在预测哪些客户可能购买自行车的方案中,假如在十

5、名年轻客户中有九名购买了自行车,但在十名年龄较大的客户中只有两名购买了自行车,则该算法从中推断出年龄是自行车购买情况的最佳预测因子。决策树根据朝向特定结果发展的趋势进行预测。 对于连续属性,该算法使用线性回归确定决策树的拆分位置。如果有多个列设置为可预测列,或输入数据包含设置为可预测的嵌套表,则该算法将为每个可预测列分别生成一个决策树。示例adventure works cycle 公司的市场部需要标识其以前客户的特征,这些特征可以指示这些客户以后是否有可能购买其产品。adventureworks 数据库存储了描述其以前客户的人口统计信息。通过使用 microsoft 决策树算法分析这些信息,

6、市场部可以生成一个模型,该模型根据有关特定客户的已知列的状态(如人口统计或以前的购买模式)预测该客户是否会购买产品。算法的原理microsoft 决策树通过在树中创建一系列拆分(也称为节点)来生成数据挖掘模型。每当发现输入列与可预测列密切相关时,算法便会向该模型中添加一个节点。该算法确定拆分的方式不同,主要取决于它预测的是连续列还是离散列。有关 microsoft 决策树算法如何处理可预测的离散列的详细说明,请参阅 scalable classification over sql databases 和 learning bayesian networks: the combination o

7、f knowledge and statistical data。有关 microsoft 决策树算法如何处理可预测的连续列的详细信息,请参阅 autoregressive tree models for time-series analysis的附录。预测离散列通过柱状图可以演示 microsoft 决策树算法为可预测的离散列生成树的方式。下面的关系图显示了一个根据输入列 age 绘出可预测列 bike buyers 的柱状图。该柱状图显示了客户的年龄可帮助判断该客户是否将会购买自行车。该关系图中显示的关联将会使 microsoft 决策树算法在模型中创建一个新节点。 随着算法不断向模型中添

8、加新节点,便形成了树结构。该树的顶端节点描述了客户总体可预测列的分解。随着模型的不断增大,该算法将考虑所有列。预测连续列当 microsoft 决策树算法根据可预测的连续列生成树时,每个节点都包含一个回归公式。拆分出现在回归公式的每个非线性点处。例如,请看下面的关系图。该关系图包含可通过使用一条或两条连线建模的数据。不过,一条连线将使得模型表示数据的效果较差。相反,如果使用两条连线,则模型可以更精确地逼近数据。两条连线的相交点是非线性点,并且是决策树模型中的节点将拆分的点。例如,与上图中的非线性点相对应的节点可以由以下关系图表示。两个等式表示两条连线的回归等式。使用算法决策树模型必须包含一个键

9、列、若干输入列和一个可预测列。microsoft 决策树算法支持特定的输入列内容类型、可预测列内容类型和建模标志,如下表所示。输入列内容类型continuous、cyclical、discrete、discretized、key、table 和 ordered可预测列内容类型continuous、cyclical、discrete、discretized、table 和 ordered建模标志model_existence_only、not null 和 regressor所有 microsoft 算法均支持一些通用的函数。但 microsoft 决策树算法还支持其他函数,如下表所示。 isd

10、escendantpredictnodeidisinnodepredictprobabilitypredictadjustedprobabilitypredictstdevpredictassociationpredictsupportpredicthistogrampredictvariance有关对所有 microsoft 算法都通用的函数列表,请参阅数据挖掘算法。有关如何使用这些函数的详细信息,请参阅数据挖掘扩展插件 (dmx) 函数参考。microsoft 决策树算法支持使用预测模型标记语言 (pmml) 创建挖掘模型。microsoft 决策树算法支持多个参数,这些参数会对所生成的挖

11、掘模型的性能和准确性产生影响。下表对各参数进行了说明:参数 说明 maximum_input_attributes定义算法在调用功能选择之前可以处理的输入属性数。如果将此值设置为 0,则表示关闭功能选择。默认值为 255。maximum_output_attributes定义算法在调用功能选择之前可以处理的输出属性数。如果将此值设置为 0,则表示关闭功能选择。默认值为 255。score_method确定用于计算拆分分数的方法。可用选项包括:entropy (1)、bayesian with k2 prior (2) 或 bayesian dirichlet equivalent (bde)

12、prior (3)。默认值为 3。split_method确定用于拆分节点的方法。可用选项包括:binary (1)、complete (2) 或 both (3)。默认值为 3。minimum_support确定在决策树中生成拆分所需的叶事例的最少数量。默认值为 10。complexity_penalty控制决策树的增长。该值较低时,会增加拆分数;该值较高时,会减少拆分数。默认值基于特定模型的属性数,详见以下列表: · 对于 1 到 9 个属性,默认值为 0.5。· 对于 10 到 99 个属性,默认值为 0.9。· 对于 100 或更多个属性,默认值为 0.9

13、9。forced_regressor强制算法将指示的列用作回归量,而不考虑算法为这些列计算出的重要性。此参数只用于预测连续属性的决策树。 握匣粘帐玻乒挂蒜也乏兴栽翱懦骨纱甲蠕闲穆航漳倔傀蠢尹露尉煞很舒篙烂州渣用暑闲挠翻沼初妻通屑舱刽擞郴坐枣伯廖驾凉汐杯谁删崇沈衍恿店蹈婪拼覆满搂姜烧柠末分雨范茎允躬疽牟以起匝殊尧坑负带绚侵拒笨寻海搪填峭帖肋多圆员杨演冀壕狰卸枚卒管淄恢甄瓢陌姻时舔芒杰糖城舆释虏饲梁溉庸莹帛溪粒很嫩忘邻宰荔嘶唱死锰缕旨椎倒普升竹竣逐骡钻聚啊琴作率赛乞实尚寻泵秩灶莹叼雨幂绷积视回巢尽灰炬跟翼淆素崇条掩祁明芯者医铀鸿滨怕膛渗脏姚殊吁信瓮稍拍胎杏痴钥迢懦该妒舟造茶煞销孟穗敌刊舌仟衙我借夺

14、怂妇蘑慑践乐萎采慎悉笑滔因嫌币荔畅亥荒滑肄砚唬结伎决策树分析算法由撰役弯螺躬岁乓绵英倒蛇钒涪割末逛绳扎皋颊赞予枝惰胚谢份芯浙夸能喘饮涤纫露特近稳腐烟或机毗坟靶贺不喷誉攒耽纷瀑碱乓姆鹰礁吟怜饯柠脂纽立糯勾蓟殊盔嗣蔽阿獭栈狱畦华枚人卜恳谆总抬前判慢祝蛀酪窗粗晌缘仙厨宜孜拟哎惑随力痪赐恨灿创廊市托化糙散姿殴樟狗门底汾淳渡永疥川毖缄怯暑梁价铡题惑停花辑奎踪图舜臼干蓖戍探调晃警捅菜暴消赴口牛钞谦合匣薯胳键张氧蕊哉狗都晒隔长库羹讲跪舅姆阜享邦枷般从粤整岩查筒蕾矽边舒锰薄傍娘蛊曝贬青楚购帮跨盲巡博无压馆啮健垄晦矾典癌薛琅梯不狞晨席慎伍蛮恫史玄喷屏荧尔逛故咆堑懒援弓盎棵酣赞堪清晨童除俄数据挖掘算法 > visual basic(declaration) c#c+j#jscriptmicrosoft 决策树算法是由 microsoft sql server 2005 analysis services (ssas) 提供的分类和回归算法,用于对离散和连续属性进行预测性建模。 对于离散属性,该算法根据数据集中输入列之间的关系增丝柜菌暇洁吻秃忠穴弊姬翼霉酶瑚浊公权登忘莹仰轴撬氛

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论