


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、分类分类是用于识别什么样的事务属于哪一类的方法,可用于分类的算法有决策树、bayes分类、神经网络、支持向量机等等。决策树一个自行车厂商想要通过广告宣传来吸引顾客。他们从各地的超市获得超市会员的 信息,计划将广告册和礼品投递给这些会员。但是投递广告册是需要成本的,不可能投递给所有的超市会员。而这些会员中有的 人会响应广告宣传,有的人就算得到广告册不会购买。所以最好是将广告投递给那些对广告册感兴趣从而购买自行车的会员。分类模型的作用就是识别出什么样的会员可能购买自行车。自行车厂商首先从所有会员中抽取了1000个会员,向这些会员投递广告册,然后记录这些收到广告册的会员是否购买了自行车。数据如下:事
2、例列会员编号12496141772438125597输入列-婚姻状况MarriedMarriedSingleSingle性别FemaleMaleMaleMale收入40000800007000030000孩子数1500教育背景BachelorsPartial CollegeBachelorsBachelors职业Skilled ManualProfessionalProfessionalClerical是否有房YesNoYesNo汽车数0210上班距离0-1 Miles2-5 Miles5-10 Miles0-1 Miles区域EuropeEuropePacificEurope年龄426041
3、36预测列是否购买自行车NoNoYesYes在分类模型中,每个会员作为一个事例,居民的婚姻状况、性别、年龄等特征作为输入列, 所需预测的分类是客户是否购买了自行车。使用1000个会员事例训练模型后得到的决策树分类如下:图中矩形表示一个拆分节点,矩形中文字是拆分条件。矩形颜色深浅代表此节点包含事例的数量,颜色越深包含的事例越多,如全部节点包含所有的1000个事例,颜色最深。经过第一次基于年龄的拆分后,年龄大于67岁的包含36个事例,年龄小于 32岁的133个事例,年龄在 39和67岁之间的602个事例,年龄32 和39岁之间的229个事例。所以第一次拆分后,年龄在39和67岁的节点颜色最深,年龄
4、大于67岁的节点颜色最浅。节点中的条包含两种颜色,红色和蓝色,分别表示此节点中的事例购买和不购买自行车的比例。如节点 年龄=67'节点中,包含36个事例,其中28个没有购买自行车,8个购 买了自行车,所以蓝色的条比红色的要长。表示年龄大于67的会员有74.62% 的概率不购买自行车,有23.01% 的概率购买自行车。在图中,可以找出几个有用的节点:1. 年龄小于32岁,居住在太平洋地区的会员有72.75% 的概率购买自行车;2. 年龄在32和39岁之间的会员有 68.42% 的概率购买自行车;3. 年龄在39和67岁之间,上班距离不大于10公里,只有1辆汽车的会员有 66.08%的概率
5、购买自行车;4. 年龄小于 32 岁,不住在太平洋地区,上班距离在 1 公里范围内的会员有 51.92% 的概 率购买自行车;在得到了分类模型后,将其他的会员在分类模型中查找就可预测会员购买自行车的 概率有多大。随后自行车厂商就可以有选择性的投递广告册。数据挖掘的一般流程第一步,建立模型,确定数据表中哪些列是要用于输入,哪些是用于预测,选择用何种算法。这时建立的 模型内容是空的,在模型没有经过训练之前,计算机是无法知道如何分类数据的。第二步,准备模型数据集,例子中的模型数据集就是 1000 个会员数据。通常的做法是将模型集分成训练 集和检验集,比如从 1000 个会员数据中随机抽取 700 个
6、作为训练集,剩下 300 个作为检验集。第三步,用训练数据集填充模型,这个过程是对模型进行训练,模型训练后就有分类的内容了,像例子图 中的树状结构那样, 然后模型就可以对新加入的会员事例进行分类了。 由于时效性, 模型内容要经常更新, 比如十年前会员的消费模式与现在有很大的差异,如果用十年前数据训练出来的模型来预测现在的会员是 否会购买自行车是不合适的,所以要按时使用新的训练数据集来训练模型。第四步, 模型训练后, 还无法确定模型的分类方法是否准确。 可以用模型对 300 个会员的检验集进行查询, 查询后, 模型会预测出哪些会员会购买自行车, 将预测的情况与真实的情况对比, 评估模型预测是否准
7、确。 如果模型准确度能满足要求,就可以用于对新会员进行预测。第五步,超市每天都会有新的会员加入,这些新加入的会员数据叫做预测集或得分集。使用模型对预测集 进行预测,识别出哪些会员可能会购买自行车,然后向这些会员投递广告。Na?ve BayesNa?ve Bayes 是一种由统计学中 Bayes 法发展而来的分类方法。例1有 A、 B 两个政党对四个议题进行投票, A 政党有 211 个国会议员, B 政党有 223 个国会议员。下表统计了政党对四个议题赞成或反对的票数。国家安全法个人财产保护法遗产税反分裂法赞成反对赞成反对赞成反对赞成反对A 政党41166871141841117823B 政党
8、21442116172362101A 政党20%80%43%57%94%6%89%11%B 政党 98% 2% 97% 3% 83% 17% 99.50% 0.50%A 政党的议员有 20% 概率赞成国家安全法, 43% 概率赞成个人财产保护法, 94% 概率赞成遗产税, 89% 概率赞成反分裂法。B 政党的议员有 98% 概率赞成国家安全法, 97% 概率赞成个人财产保护法, 83% 概率 赞成遗产税, 99.5% 概率赞成反分裂法。基于这样的数据, Na?ve Bayes 能预测的是如果一个议员对国家安全法投了赞成票, 对个人财产保护法投了反对票, 对遗产税投了赞成票,对反分裂法投了赞成票
9、。哪么, 这个 议员有多大的概率属于 A 政党,又有多少的概率属于 B 政党。例2一个产品在生产后经检验分成一等品、 二等品、 次品。 生产这种产品有三种可用的配方,两种机器,两个班组的工人。下面是1000 个产品的统计信息。配方机器工人总计配方 1配方 2配方 3机器 1机器 2班组 1班组 2一等品4711012123255130148278二等品299103165392175327240567次品742556698638117155一等品16.91%39.57%43.53%8.27%91.73%46.76%53.24%27.80%二等品52.73%18.17%29.10%69.14%30
10、.86%57.67%42.33%56.70%次品47.74%16.13%36.13%44.52%55.48%24.52%75.48%15.50%使用Na?ve Bayes模型,每次在制定生产计划,确定生产产品所用的配方、机器及工人,便能预测生产中有多少的一等品、二等品和次品。神经网络神经网络是一种模拟生物上神经元的工作的机器学习方法。面是银行用来识别给申请信用卡的客户发放何种信用卡的神经网络。輪入层隐藏层输出层图中每个椭圆型节点接受输入数据,将数据处理后输出。输入层节点接受客户信息的输入,然后将数据传递给隐藏层,隐藏层将数据传递给输出层,输出层输出客户属于哪类信用卡。这类似于人脑神经元受到刺激
11、时,神经脉冲从一个神经元传递到另一个神经元。每个神经元节点内部包含有一个组合函数刀和激活函数f。X1, X2是其他神经元的输出值,对此神经元来说是输入值,组合函数将输入值组合后传递给激活函数。激活函数经过特定的计算后得到输出值 y,y有被传递给其他神经元。输入边上的w1和w2是输入权值,用于在组合函数中对每个输入值进行加权。训练模型时,客户事例输入,神经网络计算出客户的类别,计算值与真实值比较后, 模型会修正每个输入边上的权值。在大量客户事例输入后,模型会不断调整,使之更吻合真实情况,就像是人脑通过在同一脉冲反复刺激下改变神经键连接强度来进行学习。回归分类算法是建立事例特征对应到分类的方法。分
12、类必须是离散的,像信用卡的种类只有三种,如果是要通过客户收入、婚姻状况、职业等特征预测客户会使用信用卡消费多少金额时,分类算法就无能为力了,因为消费金额可能是大于 0的任意值。这时只能使用回归算法。例如,下表是工厂生产情况。机器数量工人数量生产数量12604007783891181674使用线性回归后,得到了一个回归方程:生产数量=a机器数量+丫工人数量。代表每多一台机器就可以多生产B单位的产品,每多一个工人就可以多生产丫单位的产品。除了简单的线性回归和逻辑回归两种,决策树可以建立自动回归树模型,神经网络也 可以进行回归,实际上,逻辑回归就是去掉隐藏层的神经网络。例如,服装销售公司要根据各地分
13、销店面提交的计划预计实际销售量。使用自动回归树得到上图的模型,假如山东销售店提交的计划童装数量是500套,预计销售量是-100+0.6 X 500=200套,按6Sigma原则,有99.97%的概率实际销售量可能是200 ± 90套。广州提交计划童装300套,预计销售量是 20+0.98X 300=314 ± 30套。广州的销售店制定的童装计划比山东的准确。聚类分类算法的目的是建立事例特征到类别的对应法则。但前提是类别是已存在的,如已知道动物可以分成哺乳类和非哺乳类,银行发行的信用卡有银卡、金卡、白金卡三种。有时在分类不存在前,要将现有的事例分成几类。比如有同种材料要分类装
14、入到各个仓库中,这种材料有尺寸、色泽、密度等上百个指标,如果不熟悉材料的特性很难找到一种 方法将材料分装。又例如,银行刚开始信用卡业务时,没有将客户分类,所有的客户都使用同一种信用卡。在客户积累到一定的数量后,为了方便管理和制定市场策略,需要将客户分类,让不同类别的客户使用不同的信用卡。但问题是,银行该把客户分成几个类别,谁该属于哪一类。假定银行仅仅要参照客户的收入和使用信用卡销售金额两个指标对客户分类。通常情况下,仅仅是衡量这些指标的高低来分类,如规定收入小于4000,且消费小于2000的客户分成第一类;收入在 4000至8000,消费在2000至4000的客户分成第二类;收入在 8000
15、至12000,消费在 4000至6000的客户分成第三类;收入在 12000以上,消费在 6000以上 分成第四类。下面的图展示了这种分类。i LA收人图中三角形的点代表客户,图中的红色线条是对客户的分类。可以看到这种不合理,第一 类别没有包含任何事例,而第四类也只有少量事例,而第二和第三类分界处聚集着大量事例。观测图像,发现大部分客户事例聚集在一起形成了三个簇,下图中用三个椭圆标岀了这些 簇。J LA咗人鼓励他一种同在一个簇中的客户有着类似的消费行为,黑色簇中的客户消费额与收入成正比;蓝 色簇中的客户不习惯使用信用卡消费,可以对这类客户发放一种低手续费的信用卡,们使用信用卡消费;绿色簇中的客
16、户消费额相对收入来说比较高,应该为这类客户设计低透支额度的信用卡。聚类模型就是这种可以识别有着相似特征事例,把这些事例聚集在一起形成一个类别的算 法。聚类模型除了能将相似特征的事例归为一类外,还常用来发现异常点。消费像上图中用红圈标出的点, 这两个客户偏离了已有的簇,他们的消费行为异于一般人,远超出收入。意味他们有其他不公开的收入来源,这些客户是有问题的。科学试验中,研究人员对异常点很感兴趣,通过研究不寻常的现象提出新的理论。聚类的另一个用途是发现属性间隐含的关系。例如有30名学生考试成绩:学号美术语文物理历史英语音乐数学化学3100174508961536596873100270658855
17、50659287310036550865463739196教师想知道学科之间是否有关联,如果学生某门学科成绩优秀,是否会在另一门学科上也有优势。通过聚类后将 30 名学生分成了 3 个类:变量 状态 总体 ( 全部 )分类 3分类 2 分类 1大小30101010语文 平均值7471.689.659.4语文 偏 差13.394.383.955.46英语 平均值7272.788.156.1英语 偏差14.274.46.94.46音乐 平均值7889.174.471音乐 偏 差9.717.314.125.27物理 平均值757456.693.4物理 偏差15.964.424.844.95数学 平均
18、值7574.357.392.3数学 偏差15.164.43.974.95美术 平均值7890.671.871.4美术偏差10.435.384.715.66历史 平均值7373.287.658.1历史 偏差13.235.854.435.13化学 平均值7474.756.290.6化学偏差15.093.065.396.02分类 1 学生的共同特点是他们的物理、数学、化学平均分都比较高,但语文、历史、英语的 分数很低;分类 2 则恰恰相反。从中,可以得到规则:物理、数学和化学这三门学科是有相 关性的,这三门学科相互促进,而与语文、历史、英语三门学科相排斥。分类 1 中的学生序列聚类新闻网站需要根据访问者在网页上的点击行为来设计网站的导航方式。通过聚类算法 可以发现网页浏览者的行为模式, 比如识别出了一类浏览者的行为: 喜欢察看体育新闻和政 治新闻。 但浏览者访问网页是有顺序的, 先浏览体育新闻再浏览政治新闻, 与先浏览政治新 闻再
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 药品采购药库管理制度
- 药店中药入库管理制度
- 药店库房货位管理制度
- 论述人力资源管理制度
- 设备创建流程管理制度
- 设备安装进场管理制度
- 设备施工安全管理制度
- 设备点检编制管理制度
- 设备维修项目管理制度
- 设备需求清单管理制度
- 中国重点、热点区域(讲练)-2025年中考地理二轮复习(全国版)
- 陪玩俱乐部合同协议
- 2025年统计学期末考试题库-深度解析综合案例分析题
- 2024北京朝阳区五年级(下)期末数学试题及答案
- 《商场促销活动策划》课件
- 多模态成像技术在医学中的应用-全面剖析
- 郭秀艳-实验心理学-练习题及答案
- 员工测试题目及答案
- 汽车点火考试题及答案
- 2024年湖南学考选择性考试政治真题及答案
- 《用电饭煲蒸米饭》(教案)-2024-2025学年四年级上册劳动鲁科版
评论
0/150
提交评论