《第13课 数据有关联》参考课件7_第1页
《第13课 数据有关联》参考课件7_第2页
《第13课 数据有关联》参考课件7_第3页
《第13课 数据有关联》参考课件7_第4页
《第13课 数据有关联》参考课件7_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据有关联浙教版四上01数据关联基本概念02数据关联挖掘步骤03作业04小结目录Content01数据关联基本概念

基本概念关联规则挖掘:在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。频繁模式:频繁地出现在数据集中的模式。假定某超时销售的商品包括:bread,beer,cake,cream,milk,tea。项目与项集:设I={i1,i2,i3,…,im}是m个不同项目的集合,其中每个ik(k=1,2,3,…,m)都是一个项目(item),项目的集合称为项集(itemset),项集中项目的个数称为项集的长度,长度为k的项集称为k-项集。例如,{bread,cream,milk,tea}是一个4项集。交易:每一笔交易T都是项目全集的子集。每一笔交易都有一个交易号,TID。交易的全体构成D,交易数据库。支持度:给定一个项集A,支持度表示在交易数据库D中,同时出现A的概率:\n\n例如:设A={bread,tea},则support(A)=5/10=0.5支持度描述了项集A的重要性。项集的最小支持度与频繁集:有用户或者领域专家定义最小支持度,当项集A的支持度不小于最小支持度,则称A为频繁项集。关联规则:有关联的规则,描述成一种蕴含式。其中X称为前件,Y称为后件,支持度和置信度是伴随着关联规则出现的。关联规则的置信度是交易数据库D中同时包含X和Y的交易数的频率。置信度:表示关联规则前件出现时,后件出现的概率。关联规则的最小支持度和最小可信度:关联规则的最小支持度就是衡量频繁项集的最小支持度,关联规则的最小置信度表示关联规则需要满足的最低可靠性。如果某个关联规则同时满足最小支持度阈值和最小置信度阈值,则认为这个关联规则是有趣的。同时也称这个规则是强关联规则。02数据关联挖掘步骤关联规则挖掘步骤(1)从数据集中找出所有频繁项集。通常先找频繁1项集,再找频繁2项集,依次类推。(2)从找到所有长度大于2的频繁k项集中产生关联规则。如果产生的规则的置信度和支持度满足最小支持度和最小置信度,则称此规则为强关联规则。(3).如何减少产生的关联规则数量:因为从数据集中产生频繁项集经常出现的问题是会产生大量满足最小支持度阈值的频繁项集。(因为当一个项集是频繁时,其子集也是频繁的。)所以分析关联规则会花费大量的时间资源和空间资源。实际运用中不需要分析所有满足条件的频繁项集和关联规则。03小结小结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论