X第三部分数据挖掘与统计决策决策树关联遗传_第1页
X第三部分数据挖掘与统计决策决策树关联遗传_第2页
X第三部分数据挖掘与统计决策决策树关联遗传_第3页
X第三部分数据挖掘与统计决策决策树关联遗传_第4页
X第三部分数据挖掘与统计决策决策树关联遗传_第5页
已阅读5页,还剩145页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、课程名称:课程名称: 数据挖掘与统计决策数据挖掘与统计决策 教教 师:师: 廖廖 芹芹 Email : Email : 问题:问题:如果有如果有6060个因素影响银行贷款,要判别是否给企业贷款,如个因素影响银行贷款,要判别是否给企业贷款,如何用少数主要的若干个影响因素,建立贷款判别规则?即如何从一何用少数主要的若干个影响因素,建立贷款判别规则?即如何从一组数据提取具有因果关系的分类判别规则?组数据提取具有因果关系的分类判别规则? 决策树:决策树:通过样本数据对分类类别信息的确定性程度,建立树结构通过样本数据对分类类别信息的确定性程度,建立树结构表示分类因果关系,以提取分类规则的分类方法。表示分

2、类因果关系,以提取分类规则的分类方法。问题:问题:对下列对下列14个分类样本数据集,如何建立天气分类决策树?个分类样本数据集,如何建立天气分类决策树?五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树- - ID3算法算法P150五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树- - ID3算法算法P152五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树- - ID3算法算法P153在条件在条件V下,减少或下,减少或五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树- - ID3算法算法P153五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树- - ID3算

3、法算法P154五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树- - ID3算法算法补充补充类似类似P155(5.6)五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树- - ID3算法算法补充补充类似类似P155(5.7)五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树- - ID3算法算法补充补充类似类似P155(5.7)五、数据挖掘方法五、数据挖掘方法决策树决策树(比特)(比特)决策树决策树- - ID3算法算法P156补充补充类似类似P155(5.8),(5.9),P156(5.10)决策树决策树- - ID3算法算法P156五、数据挖掘方法五、数据挖掘方法决策树

4、决策树决策树决策树- - ID3算法算法天气天气风力风力湿度有雨有雨 晴晴 多云多云 潮湿潮湿 正常正常 有风有风 无风无风 可以看到:可以看到:对样本需要四个属性才能分类的问题,通过决策树可以用两个属性就对样本需要四个属性才能分类的问题,通过决策树可以用两个属性就 可以分类。可以通过决策树提取分类的判别规则以应用。可以分类。可以通过决策树提取分类的判别规则以应用。 问题:问题:少了某因素变量的决策树是否合理?是否可以应用?少了某因素变量的决策树是否合理?是否可以应用?五、数据挖掘方法五、数据挖掘方法决策树决策树用建立的决策树检验第用建立的决策树检验第1 1号样本:号样本: 1 1号样本:天气

5、:晴;温度:热;湿度:潮湿;风力:没风;号样本:天气:晴;温度:热;湿度:潮湿;风力:没风; 用规则用规则1 1 :则气候属于:则气候属于N N类,与样本的专家判别结果一样类,与样本的专家判别结果一样结论:最多用两个因素变量(属性)即可以判别天气类别。结论:最多用两个因素变量(属性)即可以判别天气类别。只有一个因素变只有一个因素变量就可以判别量就可以判别五、数据挖掘方法五、数据挖掘方法决策树决策树五、数据挖掘方法五、数据挖掘方法决策树决策树Clementine辅助决策树辅助决策树五、数据挖掘方法五、数据挖掘方法决策树决策树Clementine辅助决策树辅助决策树决策树决策树- - C4.5算法

6、算法P158H(X,a)=(X,a)()()()(a) 决策树决策树- - C4.5算法算法P154决策树决策树 C4.5算法算法P158五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树-C4.5-C4.5算法算法P158-P159五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树-C4.5算法算法P159五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树-C4.5算法算法补充补充一、决策树一、决策树 -C4.5算法算法补充补充五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树-C4.5算法算法补充补充五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树-C4.5

7、算法算法补充补充五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树-CART算法算法P159五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树-CART算法算法P159五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树-CART算法算法P160五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树-CART算法算法P160决策树决策树-CART算法算法P161决策树决策树-CART算法算法P161五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树-CART算法算法补充补充五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树P170五、数据挖掘方法五、数据挖掘方法决

8、策树决策树 叶结点深度是指叶结点相距叶结点深度是指叶结点相距根结点的层数。如下决策树,根结点的层数。如下决策树, 叶结点数叶结点数=2+3+1=6=2+3+1=6, 叶结点深度和叶结点深度和=2=2* *2+32+3* *2+12+1* *1=111=11决策树决策树- -剪枝算法剪枝算法当到达某结点的树具有指定的实例识别率时,停止生长当到达某结点的树具有指定的实例识别率时,停止生长P171决策树决策树-剪枝算法剪枝算法P171五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树-剪枝算法剪枝算法P172五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树-剪枝算法剪枝算法P172决策

9、树决策树-剪枝算法剪枝算法P172五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树-剪枝算法剪枝算法P173五、数据挖掘方法五、数据挖掘方法决策树决策树决策树决策树-剪枝算法剪枝算法P173决策树决策树-剪枝算法剪枝算法P174数据挖掘软件数据挖掘软件ClementineClementine辅助决策树辅助决策树城市医疗水平能力综合评价分类决策树建立城市医疗水平能力综合评价分类决策树建立1 1、导入评价样本数据并选择模型;、导入评价样本数据并选择模型;2 2、设置参数、设置参数城市医疗水平能力综合评价分类决策树建立城市医疗水平能力综合评价分类决策树建立10个样本个样本如果导入数据时选择是

10、连续如果导入数据时选择是连续型取值的型取值的范围范围,则,则C5.0方法方法的决策树也是两叉形式,只的决策树也是两叉形式,只有选择离散型的取值时,才有选择离散型的取值时,才有三叉以上的输出。有三叉以上的输出。 当修剪严重度为当修剪严重度为90%90%、95%95%时,决策树分别见下面左与右,时,决策树分别见下面左与右,左树的深度减少了一层,右树的深度减少了两层。左树的深度减少了一层,右树的深度减少了两层。城市医疗水平能力综合评价分类决策树建立城市医疗水平能力综合评价分类决策树建立样本样本不修剪分类不修剪分类正确率正确率修剪修剪90%90%分分类正确率类正确率修剪修剪95%95%分分类正确率类正

11、确率建模样本建模样本100%90%70%检验样本检验样本44.44%44.44%33.33%与神经网络模型预与神经网络模型预测误差相比,检验测误差相比,检验样本误差增加了。样本误差增加了。城市医疗水平能力综合评价分类城市医疗水平能力综合评价分类二叉决策树二叉决策树建立建立模型建立:模型建立: 选择选择“建模建模”中的中的“C&RC&R树树”节点,右键设置模型参数。分别设置根以下的节点,右键设置模型参数。分别设置根以下的层为层为5,35,3和和2 2,得到不同的决策树,得到不同的决策树。 模型结果:模型结果: 运行模型得到决策树分类结果,右键浏览模型结果:根以下层为运行模型得到决

12、策树分类结果,右键浏览模型结果:根以下层为5 5时,表示根以下层数目不会超时,表示根以下层数目不会超过过5 5,结果如下所示,可以发现,结果只有,结果如下所示,可以发现,结果只有3 3层,也就是说根以下层达到层,也就是说根以下层达到3 3时,已经对数据完全分类。时,已经对数据完全分类。若设置根以下层为若设置根以下层为3 3,结果也是与下面结果一致。,结果也是与下面结果一致。 城市医疗水平能力综合评价分类城市医疗水平能力综合评价分类二叉决策树二叉决策树建立建立根以下根以下5 5层与层与3 3层决策树结果见左图,根以下层决策树结果见左图,根以下2 2层决策树结果见右图:层决策树结果见右图:模型检验

13、:模型检验: 可以看到模型的自检验的可以看到模型的自检验的100%100%准确的,误差是准确的,误差是0 0,而检验样本检验的绝对平均误差是,而检验样本检验的绝对平均误差是1.778.1.778.可以把分类结果导出,可以看出建模样本的准确率是可以把分类结果导出,可以看出建模样本的准确率是100%100%,检验样本的准确率是,检验样本的准确率是33.33%33.33%。 城市医疗水平能力综合评价分类城市医疗水平能力综合评价分类二叉决策树二叉决策树建立建立学习样本学习样本病人数病人数医生数医生数工作人员数工作人员数门诊所数门诊所数死亡率死亡率医疗能力评医疗能力评价价医疗能力评价医疗能力评价(根以下

14、(根以下3 3层)层)医疗能力评价医疗能力评价(根以下(根以下2 2层)层)上海上海0.50.51.51.51.51.51.51.5-1.5-1.51.51.51.51.51.51.5北京北京-0.5-0.51.51.51.51.51.51.50.50.51.51.51.51.51.51.5沈阳沈阳-1.5-1.5-1.5-1.5-1.5-1.5-0.5-0.50.50.5-1.5-1.5-1.5-1.5-1.5-1.5武汉武汉0.50.50.50.50.50.5-0.5-0.5-1.5-1.5-0.5-0.5-0.5-0.5-0.25-0.25哈尔滨哈尔滨1.51.50.50.5-0.5-0

15、.5-1.5-1.5-0.5-0.5-0.5-0.5-0.5-0.5-0.25-0.25重庆重庆0.50.50.50.5-1.5-1.5-1.5-1.5-1.5-1.5-1.5-1.5-1.5-1.5-1.5-1.5成都成都-0.5-0.50.50.50.50.5-0.5-0.5-0.5-0.5-0.5-0.5-0.5-0.5-0.25-0.25兰州兰州1.51.50.50.5-0.5-0.50.50.51.51.51.51.51.51.51.51.5青岛青岛0.50.5-1.5-1.51.51.51.51.5-0.5-0.50.50.50.50.50.50.5鞍山鞍山0.50.5-0.5-0

16、.5-0.5-0.5-1.5-1.51.51.50.50.50.50.5-0.25-0.25天津天津-1.5-1.50.50.5-1.5-1.50.50.5-0.5-0.5-1.5-1.51.51.51.51.5广州广州-0.5-0.50.50.50.50.50.50.5-0.5-0.50.50.51.51.51.51.5南京南京-1.5-1.50.50.50.50.50.50.5-0.5-0.50.50.51.51.51.51.5西安西安0.50.50.50.5-0.5-0.50.50.50.50.50.50.5-0.5-0.51.51.5长春长春0.50.50.50.50.50.5-0.5

17、-0.50.50.50.50.51.51.5-0.25-0.25太原太原1.51.50.50.50.50.50.50.51.51.51.51.5-1.5-1.51.51.5大连大连-1.5-1.5-0.5-0.5-1.5-1.5-0.5-0.50.50.5-1.5-1.51.51.5-1.5-1.5济南济南1.51.51.51.51.51.50.50.5-0.5-0.51.51.5-1.5-1.51.51.5抚顺抚顺0.50.5-1.5-1.5-1.5-1.5-1.5-1.50.50.5-0.5-0.51.51.5-1.5-1.5三层样本正确率:自检三层样本正确率:自检100%, 100%,

18、检验检验 33%33%二层样本正确率:自检二层样本正确率:自检40%, 40%, 检验检验 33%33%城市医疗水平能力综合评价分类城市医疗水平能力综合评价分类二叉决策树二叉决策树建立建立问题:问题:智能功能实现,需要知识规则和知识推理的支持,决策树可智能功能实现,需要知识规则和知识推理的支持,决策树可以支持提取确定性的知识规则,但实际中可能出现许多不确定的情以支持提取确定性的知识规则,但实际中可能出现许多不确定的情况。如何提取不确定性规则?况。如何提取不确定性规则?购物篮问题:购物篮问题:超市中每天有大量的购买数据,这些数据中发现啤酒超市中每天有大量的购买数据,这些数据中发现啤酒与尿片的关系

19、密切,是否需要关注这种情况而改变超市中这两种物与尿片的关系密切,是否需要关注这种情况而改变超市中这两种物品的摆放位置,以适应顾客的需要?品的摆放位置,以适应顾客的需要?应用问题:应用问题:为了促销产品,应该以什么方案配置才具有激励购买积为了促销产品,应该以什么方案配置才具有激励购买积极性的作用?极性的作用?扩展问题:扩展问题:未来产品产业链的发展与什么有关?发展速度与增长幅未来产品产业链的发展与什么有关?发展速度与增长幅度的可能性如何预测?度的可能性如何预测?思路:思路:可以采用关联分析或时序关联分析,发现事物之间同时出现可以采用关联分析或时序关联分析,发现事物之间同时出现可能性大的行为模式和

20、规则,以支持原因之间、原因与结果之间的可能性大的行为模式和规则,以支持原因之间、原因与结果之间的推理。推理。六、数据挖掘方法六、数据挖掘方法关联分析关联分析关联规则分析关联规则分析六、数据挖掘方法六、数据挖掘方法关联分析关联分析思路:思路:1 1、物品或项目出现可能性大的才关注;、物品或项目出现可能性大的才关注; 2 2、A A出现导致出现导致B B出现可能性大的规则才关注;出现可能性大的规则才关注; 3 3、指定期望可能性,大于这一可能性的项目或规则才关注。、指定期望可能性,大于这一可能性的项目或规则才关注。由此定义支持度与置信度。由此定义支持度与置信度。 补充补充关联规则分析主要概念关联规

21、则分析主要概念=P189关联规则分析主要概念关联规则分析主要概念关联规则分析关联规则分析-Apriori方法方法P189关联规则分析关联规则分析-Apriori方法方法=P190六、数据挖掘方法六、数据挖掘方法关联分析关联分析其中,其中,“过滤过滤”是指判别项目集是否大于最小支持度,如果大于就是指判别项目集是否大于最小支持度,如果大于就保留,否则淘汰保留,否则淘汰六、数据挖掘方法六、数据挖掘方法关联分析关联分析补充,类似补充,类似P191例例6.2 六、数据挖掘方法六、数据挖掘方法关联分析关联分析补充,类似补充,类似P192例例6.2 六、数据挖掘方法六、数据挖掘方法关联分析关联分析补充,类似

22、补充,类似P193例例6.2 问题:问题:除除BCEBCE外,还有其外,还有其它的最大频繁集吗?它的最大频繁集吗?六、数据挖掘方法六、数据挖掘方法关联分析关联分析设有五种物品:设有五种物品:A,B,C,D,E,销售记录的五项业务销售记录的五项业务T为:为: 业务:业务:T001 T002 T003 T004 T005T001 T002 T003 T004 T005 物品:物品:ACD BCE ABCE ABCEACD BCE ABCE ABCE D D问题:问题:下面物品中,哪些物品之间被购买有密切关系?什么物品被下面物品中,哪些物品之间被购买有密切关系?什么物品被买可以导致另一些物品被买?买

23、可以导致另一些物品被买?同理可以得到同理可以得到: BCE,BE C,CE B 的规则的规则 六、数据挖掘方法六、数据挖掘方法关联分析关联分析Clementine 辅助过程及结果辅助过程及结果六、数据挖掘方法六、数据挖掘方法关联分析关联分析Clementine 辅助过程及结果辅助过程及结果六、数据挖掘方法六、数据挖掘方法关联分析关联分析Clementine 辅助城市医疗水平影响因素的关联分析辅助城市医疗水平影响因素的关联分析学习样本学习样本样本样本病人数病人数医生数医生数工作人员数工作人员数门诊所数门诊所数死亡率死亡率医疗能力评价医疗能力评价上海上海0.51.51.51.5-1.51.5北京北

24、京-0.51.51.51.50.51.5沈阳沈阳-1.5-1.5-1.5-0.50.5-1.5武汉武汉0.50.50.5-0.5-1.5-0.5哈尔滨哈尔滨1.50.5-0.5-1.5-0.5-0.5重庆重庆0.50.5-1.5-1.5-1.5-1.5成都成都-0.50.50.5-0.5-0.5-0.5兰州兰州1.50.5-0.50.51.51.5青岛青岛0.5-1.51.51.5-0.50.5鞍山鞍山0.5-0.5-0.5-1.51.50.5检验样本检验样本样本样本病人数病人数医生数医生数工作人员数工作人员数门诊所数门诊所数死亡率死亡率医疗能力评价医疗能力评价天津天津-1.50.5-1.50

25、.5-0.5-1.5广州广州-0.50.50.50.5-0.50.5南京南京-1.50.50.50.5-0.50.5西安西安0.50.5-0.50.50.50.5长春长春0.50.50.5-0.50.50.5太原太原1.50.50.50.51.51.5大连大连-1.5-0.5-1.5-0.50.5-1.5济南济南1.51.51.50.5-0.51.5抚顺抚顺0.5-1.5-1.5-1.50.5-0.5Clementine Clementine 辅助城市医疗水平影响因素的关联分析辅助城市医疗水平影响因素的关联分析1 1、导入评价样本数据并选择模型,其中、导入评价样本数据并选择模型,其中数据集中的

26、取值转换为定性取值:数据集中的取值转换为定性取值: 1.5=V, 0.5=g, -0.5=a, -1.5=b1.5=V, 0.5=g, -0.5=a, -1.5=b2 2、设置参数、设置参数六、数据挖掘方法六、数据挖掘方法关联分析关联分析Clementine Clementine 辅助城市医疗水平影响因素的关联分析辅助城市医疗水平影响因素的关联分析 不同支持度和置信度下的关联规则数目不同支持度和置信度下的关联规则数目最小支持度最小支持度50%50%40%40%30%30%30%30%20%20%最小置信度最小置信度50%50%40%40%50%50%40%40%20%20%规则数目规则数目2

27、22 238385151349349 最小支持度为最小支持度为30%30%和最小置信度为和最小置信度为50%50%时的部分关联规则时的部分关联规则后项前项支持度支持度 % %置信度置信度 % %医生数=g医疗能力评价=a30100病人数=g死亡率=b30100工作人员数=v门诊所数=v30100门诊所数=v工作人员数=v30100病人数=v工作人员数=a3067死亡率=v工作人员数=a3067死亡率死亡率 = a= a医疗能力评价医疗能力评价 = a = a and and 医生数医生数 = g= g303067 67 门诊所数门诊所数 = a= a医疗能力评价医疗能力评价 = a = a a

28、nd and 医生数医生数 = g= g303067 67 医生数医生数 = g= g死亡率死亡率 = b and = b and 病人数病人数 = g= g303067 67 医疗能力评价医疗能力评价 = = v v门诊所数门诊所数 = v and = v and 工作人员数工作人员数 = v= v303067 67 病人数病人数 = g= g门诊所数门诊所数 = v and = v and 工作人员数工作人员数 = v= v303067 67 医疗能力评价医疗能力评价 = = a a医生数医生数 = g= g505060 60 死亡率死亡率 = b= b病人数病人数 = g= g50506

29、0 60 六、数据挖掘方法六、数据挖掘方法关联分析关联分析 对最小支持度为对最小支持度为30%30%和最小置信度为和最小置信度为50%50%时得到的模型,进行建模检验样本的关系预测。时得到的模型,进行建模检验样本的关系预测。建模样本关系预测:对每一样本,把与样本项相关的后项或建模样本关系预测:对每一样本,把与样本项相关的后项或前项结果列示,显示对应的规则置信度,以及有关规则数前项结果列示,显示对应的规则置信度,以及有关规则数六、数据挖掘方法六、数据挖掘方法关联分析关联分析检验样本关系预测检验样本关系预测六、数据挖掘方法六、数据挖掘方法关联分析关联分析问题问题1:有多少顾客购买了打印机后,相隔多

30、长时间会购买打印纸?有多少顾客购买了打印机后,相隔多长时间会购买打印纸?其中又有多少顾客其中又有多少顾客相隔多长时间会购买硒鼓相隔多长时间会购买硒鼓 ? 问题问题2:顾客购买了顾客购买了A移动销售方案,相隔多长时间会转购买移动销售方案,相隔多长时间会转购买B移动移动销售方案?销售方案? 思路:思路:1)对具有时间特点的顾客行为模式进行关联分析,称为时序关联,挖掘)对具有时间特点的顾客行为模式进行关联分析,称为时序关联,挖掘具有时间先后发生的判别规则。具有时间先后发生的判别规则。 2)把同一顾客的先后行为模式转换为具有先后项目顺序的序列表示,在)把同一顾客的先后行为模式转换为具有先后项目顺序的序

31、列表示,在序列中求频繁出现的项目序列。序列中求频繁出现的项目序列。主要概念:主要概念:例:例:A A顾客:顾客:2 2月购买月购买“打印机,打印纸打印机,打印纸”, 3 3月购买月购买“打印纸打印纸”,7 7月购买月购买“硒鼓硒鼓” ” ; B B顾客顾客:1 1月购买月购买“打印纸打印纸”, 2 2月购买月购买“打印机打印机”,6 6月购买硒鼓月购买硒鼓 ; C C顾客:顾客:1 1月购买月购买“打印机,打印纸,硒鼓打印机,打印纸,硒鼓 ” ”,4,4月购买月购买“打印纸打印纸”,6,6月购买月购买“打印纸打印纸”六、数据挖掘方法六、数据挖掘方法时序关联分析时序关联分析例如打印机例如打印机是

32、一项目是一项目例如例如A顾客顾客先买先买“打印机,打印纸打印机,打印纸”,再买,再买“硒硒鼓鼓”是一项目集组成的序列:是一项目集组成的序列:s1,s2,其中,其中, s1由由“打印机,打印纸打印机,打印纸”组成,组成,s2由硒由硒鼓组成。鼓组成。问题:问题:有有B B顾客,先买打印机,再买打印纸顾客,先买打印机,再买打印纸 有有C C顾客,买打印机顾客,买打印机 有有D顾客,先买打印机,再买硒鼓顾客,先买打印机,再买硒鼓问哪一顾客的购买模式被问哪一顾客的购买模式被A顾客模式包含?顾客模式包含?Supp六、数据挖掘方法六、数据挖掘方法时序关联分析时序关联分析P208 时序时序关联规则分析关联规则

33、分析主要问题主要问题六、数据挖掘方法六、数据挖掘方法时序关联分析时序关联分析时序时序关联规则分析关联规则分析-Apriori-G方法方法P208 思路:思路:先从事务数据中找大项目集,由大项目先从事务数据中找大项目集,由大项目集组成可能出现的时序模式,再求大序列集。集组成可能出现的时序模式,再求大序列集。时序时序关联规则分析关联规则分析-Apriori-G方法方法时序时序关联规则分析关联规则分析-Apriori-G方法方法大项目集挖掘过程如下:大项目集挖掘过程如下:时序时序关联规则分析关联规则分析-Apriori-G方法方法时序时序关联规则分析关联规则分析-Apriori-G方法方法 当总顾客

34、数为当总顾客数为5 5时,最少支持度为时,最少支持度为10%10%,则项目集支持度要大于,则项目集支持度要大于1/5=10%,1/5=10%,才保留。才保留。所以,(所以,(3030),(),(4040),(),(7070),(),(9090),(),(4040,7070)是大频繁)是大频繁集集时序时序关联规则分析关联规则分析-Apriori-G方法方法时序时序关联规则分析关联规则分析-Apriori-G方法方法时序时序关联规则分析关联规则分析-Apriori-G方法方法顾客号映射如下顾客号映射如下时序时序关联规则分析关联规则分析-Apriori-G方法方法补充补充时序时序关联规则分析关联规则

35、分析-Apriori-G方法方法补充补充时序时序关联规则分析关联规则分析-Apriori-G方法方法六七月份同一日期六七月份同一日期有识别情况有识别情况时序关联分析案例时序关联分析案例Clementine12辅助过程辅助过程时序关联分析案例时序关联分析案例Clementine12辅助过程辅助过程时序关联分析案例时序关联分析案例Clementine12辅助过程辅助过程时序关联分析案例时序关联分析案例Clementine12辅助过程辅助过程把三种后项结果列示,当样本中出现对把三种后项结果列示,当样本中出现对应应T的项与列示的后项被包含在挖掘规的项与列示的后项被包含在挖掘规则中时,显示规则的置信度为

36、则中时,显示规则的置信度为0.5.时序关联分析案例时序关联分析案例Clementine12辅助城市医疗建设时序关联辅助城市医疗建设时序关联问题:问题:城市医疗建设过程的影响因素具有哪些时序发展关系?城市医疗建设过程的影响因素具有哪些时序发展关系?年限年限样本样本基础基础建设建设医生医生引进引进工作人员工作人员 引进引进门诊所门诊所 建设建设设备设备建设建设环境环境建设建设1997上海aaabbb1998上海ggaabb1999上海ggggaa2000上海vvvvgg1997北京aabbba1998北京aaaaba1999北京aggggg2000北京avvvgv1997沈阳bbbagb1998沈

37、阳aabagb1999沈阳babaga2000沈阳bbbagb1997武汉abaabb1998武汉aagabb1999武汉gaaabb2000武汉gggaba1997哈尔滨aaabbb1998哈尔滨agbaba1999哈尔滨ggbaab2000哈尔滨vgabaa年限年限样本样本基础基础建设建设医生医生引进引进工作人工作人员引进员引进门诊所门诊所 建设建设设备设备建设建设环境环境建设建设1997重庆babbbb1998重庆aaabba1999重庆agaabb2000重庆ggbabb1997成都abbbab1998成都abaaaa1999成都aagaaa2000成都gggaaa1997兰州abba

38、ab1998兰州aaaaaa1999兰州ggagag2000兰州vgagvv1997青岛bbaabb1998青岛bbagab1999青岛abggaa2000青岛abvvag1997鞍山abbbab1998鞍山ababaa1999鞍山gaabga2000鞍山gaabvg1 1)数据预处理)数据预处理 数据进行处理,使得数据具有变量和时间特征,如下表所示,数据进行处理,使得数据具有变量和时间特征,如下表所示,A-FA-F分别代表各分别代表各个标量,中间的个标量,中间的a,b,v,ga,b,v,g为原来变量的取值,为原来变量的取值,1-41-4代表不同的年份代表不同的年份 年限年限样本样本基础建设基

39、础建设A A医生引进医生引进B B工作人员工作人员引进引进C C门诊所建门诊所建设设D D设备建设设备建设E E环境建设环境建设F F19971997上海上海Aa1Aa1Ba1Ba1Ca1Ca1Db1Db1Eb1Eb1Fb1Fb119981998上海上海Ag2Ag2Bg2Bg2Ca2Ca2Da2Da2Eb2Eb2Fb2Fb219991999上海上海Ag3Ag3Bg3Bg3Cg3Cg3Dg3Dg3Ea3Ea3Fa3Fa320002000上海上海Av4Av4Bv4Bv4Cv4Cv4Dv4Dv4Eg4Eg4Fg4Fg4时序关联分析案例时序关联分析案例Clementine12辅助城市医疗建设时序关联辅

40、助城市医疗建设时序关联2 2)时序关联规则模型建立)时序关联规则模型建立 时序关联分析案例时序关联分析案例Clementine12辅助城市医疗建设时序关联辅助城市医疗建设时序关联3 3)模型结果分析)模型结果分析 分别设置不同的置信度和支持度,运行时序规则模型,规则数目如下:分别设置不同的置信度和支持度,运行时序规则模型,规则数目如下:最小支持度最小支持度70%70%60%60%50%50%最小置信度最小置信度70%70%60%60%50%50%规则数目规则数目1 16 63131 最小支持度为最小支持度为60%60%和最小置信度为和最小置信度为60%60%时的时的有效规则有效规则前项前项 后

41、项后项支持度支持度 % %置信度置信度 % %Cb1Cb1Aa2Aa260.060.0100.0100.0Aa1Aa1Aa2Aa270.070.085.7185.71Aa1Aa1Da2Da270.070.085.7185.71Fb1Fb1Aa2Aa290.090.077.7877.78Fb1Fb1Ca2Ca290.090.066.6766.67Fb1Fb1Da2Da290.090.066.6766.67时序关联分析案例时序关联分析案例Clementine12辅助城市医疗建设时序关联辅助城市医疗建设时序关联将提取的规则转换为文字:将提取的规则转换为文字:规则规则1 1:若工作人员引进:若工作人员

42、引进=b=b,则第二年基础建设,则第二年基础建设=a=a,支持度为,支持度为60%60%,置信度,置信度100%100%规则规则2 2:若基础建设:若基础建设=a,=a,则第二年基础建设则第二年基础建设=a=a,支持度为,支持度为70%70%,置信度,置信度85.71%85.71%规则规则3 3:若基础建设:若基础建设=a,=a,则第二年门诊所建设则第二年门诊所建设=a=a,支持度为,支持度为70%70%,置信度,置信度85.71%85.71%规则规则4 4:若环境建设:若环境建设=b, =b, 则第二年基础建设则第二年基础建设=a=a,支持度为,支持度为90%90%,置信度,置信度77.78

43、%77.78%规则规则5 5:若环境建设:若环境建设=b, =b, 则工作人员引进则工作人员引进=a=a,支持度为,支持度为90%90%,置信度,置信度66.67%66.67%规则规则6 6:若环境建设:若环境建设=b, =b, 则第二年门诊所建设则第二年门诊所建设=a=a,支持度为,支持度为90%90%,置信度,置信度66.67%66.67%时序关联分析案例时序关联分析案例Clementine12辅助城市医疗建设时序关联辅助城市医疗建设时序关联若不考虑事务发生的时间间隔性,可将数据处理为:若不考虑事务发生的时间间隔性,可将数据处理为:年限年限样本样本基础建设基础建设A A医生引进医生引进B

44、B工作人员引进工作人员引进C C门诊所建设门诊所建设D D设备建设设备建设E E环境建设环境建设F F19971997上海上海AaAaBaBaCaCaDbDbEbEbFbFb19981998上海上海AgAgBgBgCaCaDaDaEbEbFbFb19991999上海上海AgAgBgBgCgCgDgDgEaEaFaFa20002000上海上海AvAvBvBvCvCvDvDvEgEgFgFg分别设置不同的置信度和支持度,运行分别设置不同的置信度和支持度,运行时序规则模型,在没有先后时间条件下,时序规则模型,在没有先后时间条件下,规则数目、最小支持度和最小置信度都是规则数目、最小支持度和最小置信度都

45、是60%60%的有效规则如下所示:的有效规则如下所示:最小支持度最小支持度80%80%70%70%60%60%50%50%最小置信度最小置信度80%80%70%70%60%60%50%50%规则数目规则数目7 730307777235235前项前项 后项后项支持度支持度 % %置信度置信度 % %FbFbFaFa90.090.0100.0100.0FbFbAaAa90.090.088.8988.89FbFbCaCa90.090.088.8988.89AaAaCaCa100.0100.080.080.0AaAaFaFa100.0100.080.080.0AaAaAaAa100.0100.080.

46、080.0AaAaDaDa100.0100.080.080.0时序关联分析案例时序关联分析案例Clementine12辅助城市医疗建设时序关联辅助城市医疗建设时序关联取值没有时间的时序关联,提取规则的文字表示:取值没有时间的时序关联,提取规则的文字表示:规则规则1 1:若环境建设:若环境建设=b=b,则未来环境建设,则未来环境建设=a=a,支持度为,支持度为90%90%,置信度,置信度100%100%规则规则2 2:若环境建设:若环境建设=b=b,则未来基础建设,则未来基础建设=a=a,支持度为,支持度为90%90%,置信度,置信度88.89%88.89%规则规则3 3:若环境建设:若环境建设

47、=b=b,则未来工作人员引进,则未来工作人员引进=a=a,支持度为,支持度为90%90%,置信度,置信度88.89%88.89%规则规则4 4:若基础建设:若基础建设=a=a,则未来工作人员引进,则未来工作人员引进=a=a,支持度为,支持度为100%100%,置信度,置信度80%80%规则规则5 5:若基础建设:若基础建设=a=a,则未来环境建设,则未来环境建设=a=a,支持度为,支持度为100%100%,置信度,置信度80%80%规则规则6 6:若基础建设:若基础建设=a=a,则未来基础建设,则未来基础建设=a=a,支持度为,支持度为100%100%,置信度,置信度80%80%规则规则7 7

48、:若基础建设:若基础建设=a=a,则未来门诊所建设,则未来门诊所建设=a=a,支持度为,支持度为100%100%,置信度,置信度80%80% 时序关联分析案例时序关联分析案例Clementine12辅助城市医疗建设时序关联辅助城市医疗建设时序关联取值体现时间的时序关联,提取规则的文字表示:取值体现时间的时序关联,提取规则的文字表示:规则规则1 1:若工作人员引进:若工作人员引进=b=b,则第二年基础建设,则第二年基础建设=a=a,支持度为,支持度为60%60%,置信度,置信度100%100%规则规则2 2:若基础建设:若基础建设=a,=a,则第二年基础建设则第二年基础建设=a=a,支持度为,支

49、持度为70%70%,置信度,置信度85.71%85.71%规则规则3 3:若基础建设:若基础建设=a,=a,则第二年门诊所建设则第二年门诊所建设=a=a,支持度为,支持度为70%70%,置信度,置信度85.71%85.71%规则规则4 4:若环境建设:若环境建设=b, =b, 则第二年基础建设则第二年基础建设=a=a,支持度为,支持度为90%90%,置信度,置信度77.78%77.78%规则规则5 5:若环境建设:若环境建设=b, =b, 则工作人员引进则工作人员引进=a=a,支持度为,支持度为90%90%,置信度,置信度66.67%66.67%规则规则6 6:若环境建设:若环境建设=b, =

50、b, 则第二年门诊所建设则第二年门诊所建设=a=a,支持度为,支持度为90%90%,置信度,置信度66.67%66.67%遗传算法遗传算法基本概念基本概念P241七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法问题:问题:1、如何求一组评价指标值(、如何求一组评价指标值(X1,X2,X3,X4,X5),使医疗评价能力最大且医疗成本最小?,使医疗评价能力最大且医疗成本最小? 2、对、对N个股票,如何分配投资比例,使收益最大且风险在可接受范围?个股票,如何分配投资比例,使收益最大且风险在可接受范围? 3、要使网络收益在期望范围,影响网络收益的因素应在什么范围变化?、要使网络收益在期望范围,影响网络

51、收益的因素应在什么范围变化?特点:随机搜索,优胜劣汰特点:随机搜索,优胜劣汰七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法遗传算法遗传算法基本概念基本概念P241-242七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法遗传算法遗传算法基本概念基本概念补充补充七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法补充补充P242七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法 对个体进行选择复制对个体进行选择复制 按一定概率和定义进行变异按一定概率和定义进行变异 按一定概率和定义进行交叉按一定概率和定义进行交叉满足终止条件满足终止条件 对每一个体计算适应值对每一个体计算适应值 显示适应值或最优解显示

52、适应值或最优解 随机产生初始种群随机产生初始种群遗传算法遗传算法主要流程主要流程P243遗传算法遗传算法编码设计编码设计P242七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法遗传算法遗传算法编码设计编码设计P242七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法遗传算法遗传算法适应值函数设计适应值函数设计P243七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法遗传算法遗传算法选择选择算子设计算子设计P244遗传算法遗传算法选择选择算子设计算子设计P244遗传算法遗传算法交叉算子设计交叉算子设计P245遗传算法遗传算法交叉算子设计交叉算子设计P246七、数据挖掘方法七、数据挖掘方法遗传算法遗传

53、算法遗传算法遗传算法交叉算子设计交叉算子设计P246七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法遗传算法遗传算法交叉算子设计交叉算子设计P246七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法遗传算法遗传算法交叉算子设计交叉算子设计P246遗传算法遗传算法交叉算子设计交叉算子设计P246七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法遗传算法遗传算法变异变异算子设计算子设计P247遗传算法遗传算法变异变异算子设计算子设计P247七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法遗传算法遗传算法应用例应用例P247七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法遗传算法遗传算法应用例应用例P2

54、48遗传算法遗传算法应用例应用例P249七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法遗传算法遗传算法应用神经网络权值优化应用神经网络权值优化P250遗传算法遗传算法应用神经网络权值优化应用神经网络权值优化P250七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法遗传算法遗传算法应用神经网络权值优化应用神经网络权值优化P250七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法遗传算法遗传算法应用神经网络权值优化应用神经网络权值优化P250七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法遗传算法遗传算法应用神经网络权值优化应用神经网络权值优化P251七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法

55、遗传算法遗传算法应用神经网络权值优化应用神经网络权值优化P251七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法遗传算法遗传算法模式定理有关概念模式定理有关概念P251七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法遗传算法遗传算法模式定理有关概念模式定理有关概念P252遗传算法遗传算法模式定理有关概念模式定理有关概念P252遗传算法的遗传算法的模式定理有关概念模式定理有关概念P253七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法遗传算法的遗传算法的模式定理模式定理P254 分析:分析:第二章管理与决策支持的数据挖掘方法(三)第二章管理与决策支持的数据挖掘方法(三)遗传算法的遗传算法的模式定

56、理模式定理P2542 2)遗传算法的遗传算法的模式定理模式定理P2543 3)4 4)遗传算法的遗传算法的模式定理模式定理P2545 5)七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法问题描述问题描述 在城市医疗能力评价中,令在城市医疗能力评价中,令X1病床数,病床数,X2医生数,医生数,X3工作人员工作人员数,数,X4诊所数,诊所数,X5死亡率,死亡率,Y医疗能力,医疗能力, 若设若设Xi?1000,10000,i=1,2,3,X4 ?10,100, X5 ?0,0.2,Y ?0,1, X=(X1,X2,X3,X4,X5)要求:要求:设计遗传算法,求达到医疗能力最好且总成本最小的设计遗传算

57、法,求达到医疗能力最好且总成本最小的X(即(即Xi的最优组的最优组合)?合)?设计包括:设计包括:(1)定义医生、病床、工作人员、诊所的成本条件;)定义医生、病床、工作人员、诊所的成本条件;(2)设计编码、适值函数、选择算子、交叉算子和变异算子;)设计编码、适值函数、选择算子、交叉算子和变异算子; 其中,适应值函数要求设计为一般形式;当输入其中,适应值函数要求设计为一般形式;当输入ai、bi、C、D时,可以时,可以建立不同参数下的适值函数建立不同参数下的适值函数: DcbXaXfnitiii1)(1)(软件辅助遗传算法的求解软件辅助遗传算法的求解七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法

58、七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法 为了能够使用为了能够使用MatlabMatlab里面的遗传算法工具箱来解决此次问题,需要把里面的遗传算法工具箱来解决此次问题,需要把MatlabMatlab升级到升级到7.107.10(20122012版本)或者以上。版本)或者以上。 打开打开MatlabMatlab之后,直接的窗口中输入之后,直接的窗口中输入optimtooloptimtool,然后选择,然后选择gaga,或者直接输入,或者直接输入gatoolgatool,调用遗传,调用遗传算法工具箱。如下图所示:算法工具箱。如下图所示: 界面分界面分3 3个板块,其中个板块,其中左边和中间

59、左边和中间的板块是遗传算法参数的设置区域,第三板块是对于各个参数的板块是遗传算法参数的设置区域,第三板块是对于各个参数的说明。的说明。 在使用遗传算法工具箱之前,需要对之前写好的适应值函数做小小的修改,以使其能应用在遗在使用遗传算法工具箱之前,需要对之前写好的适应值函数做小小的修改,以使其能应用在遗传算法工具箱里面。传算法工具箱里面。 七、数据挖掘方法七、数据挖掘方法遗传算法遗传算法利用利用Matlab的多层感知机的神经网络模型,学习后提取的模型参数如下:的多层感知机的神经网络模型,学习后提取的模型参数如下:隐节点隐节点1 1权值权值1 1:1.37141.3714阈值:阈值:0.295420

60、.29542权值权值2 2:3.21343.2134权值权值3 3:1.91931.9193权值权值4 4:0.662170.66217权值权值5 5:1.97821.9782隐节点隐节点2 2权值权值1 1:-3.4496-3.4496阈值:阈值:-0.0020444-0.0020444权值权值2 2:-1.2138-1.2138权值权值3 3:1.62771.6277权值权值4 4:-2.7673-2.7673权值权值5 5:0.0430260.043026隐节点隐节点3 3权值权值1 1:2.80842.8084阈值:阈值:0.50380.5038权值权值2 2:-0.93835-0.93835权值权值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论