




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章关联规则与点对相关性数据分析与数据挖掘01主成分分析最初的频繁模式挖掘是从购物篮分析开始的。购物篮是用户的一次购买所包含的商品的集合。用户的一次购买行为称为一个“事务”,购买的各商品称为“项”。支持度(Support)是指项集在事务数据库中出现的频率。频繁模式的基本概念关联规则中有两个重要度量指标:支持度(Support)和置信度(Confidence)。X→Y是一个关联规则候选,在事务数据库D中,如果support%的事务包含XUY,则X=Y的支持度为support%。关联规则的基本概念极大频繁模式与闭频繁模式性质1:频繁项集的子集必为频繁项集;性质2:非频繁项集的超集一定是非频繁的。02频繁模式挖掘Apriori算法Agrawal在阐述关联规则模型后又提出经典的Apriori频繁模式挖掘算法。挖掘频繁模式后可直接计算出关联规则的支持度和置信度,通过设置最小支持度阈值和置信度阈值可实现关联规则挖掘。垂直数据格式(Verticaldataformat)是通过将事务数据库的格式转换为按照项进行索引,再通过集合交集运算来计算频繁模式的。垂直数据格式基于前述频繁模式,可以计算关联规则。关联规则常用支持度(Support)和置信度(Confidence)作为规则有用性度量,此外,提升度(Lift)也常被使用。基于频繁模式计算关联规则03频繁模式树频繁模式树(FrequentPatternTree,FP-Tree)又称频繁模式增长树(Frequentpatterngrowthtree)也是一种频繁模式挖掘算法。它通过对事务数据库压缩表示,减少了事务数据库的扫描次数。频繁模式树的构建频繁模式树的主要工作过程为:①生成头表(Headlist)。②事务数据库中事务项集重排。③构建频繁模式树。④提取条件模式基。⑤生成频繁模式。因子分析过程下面结合表8.4的示例说明如何构建频繁模式树,进而挖掘频繁模式。在图8.6中,将sub-S-n视作新的事务数据库,按照8.3.1节中的步骤一至步骤三,构建头表,并构建频繁模式树T-d。频繁模式树的递归过程04点对相似度的典型度量点对关系常见度量
如果将容量为N的样本集中包括X的样本视作一个集合,将包括Y的样本视作另一个集合,如图8.7(a)所示。许多学者构建了较多相关性度量指标,如表8.6所示。点对关系常见度量许多学者构建了较多相关性度量指标,如表8.6所示。点对关系常见度量
置信度是有方向度量,confidence(X,Y)可能与confidence(Y,X)值相同也可能不同。表8.6中,有些指标与置信度存在关系,举以下三个例子:点对相关性度量的几种特性05信息熵及其应用与点对相关性度量信息熵
把一个随机事件x的自信息量定义为式(8.7)。在信息论中,通常将对数的底设置为2,此时自信息量的单位为比特(Bit,二进制数的1位),有时也设置为自然常数e,此时自信息量的单位为奈特(Nat)。图8.9(b)展示了结果有两种状态时,信息熵值与一个状态概率p₁的变化曲线。对于随机事件X存在3种或更多种状态时,信息熵仍使用式(8.8)表示。信息熵联合熵与互信息联合熵与互信息将信息增益(InformationGain,IG)定义为待分类集合的信息熵和选定某个特征的条件熵之差,如式(8.21)所示。信息增益、相对熵和交叉熵互信息I(X;Y)可用于相似度的度量。在关联规则或文本挖掘领域中,衡量两个项或两个词的相关性,可以使用点对互信息,简称点互信息(PointwiseMutualInformation,PMI),如式(8.27)所示。互信息、交叉熵用于相关性06本章小结本章小结本章讲述了频繁模式、关联规则、点对相关性度量和信息熵方面的知识。频繁模式是事务数据库中频繁出现的项集、子序列或子结构。关联规则是获得形如X→Y的规则,主要指标包括支持
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年企业市场营销经理聘请合同示例
- 2025兼职人员合同格式
- 2025年企业级软件策划与测试工程师劳动合同模板
- 2025年化妆品供应商年合同
- 2025年全程会议协调承办合同
- 2025年刘某与张某合同履行纠纷上诉案
- 2025年双方诚信策划购销合同范本
- 2025年式家电产品购销合同模板
- 社交媒体与体育营销策略-深度研究
- 2025年电动自行车电池品牌代理销售合同范本
- 2022苏教版科学五年级下册全册优质教案教学设计
- 加油员的安全生产责任制
- 2023年R2移动式压力容器充装操作证考试题及答案(完整版)
- 九年级物理实验记录单
- 2022年湖北省高中学业水平考试真题-音乐学科
- 提高屋面防水施工质量年QC成果
- 部编初中语文古诗词按作者分类梳理
- 博朗IRT6520中文说明书家用版
- 旅行社运营实务电子课件 1.1 初识旅行社
- 【读书如熬粥阅读答案】读书如熬粥阅读答案
- 少儿美术绘本教案课件-3-6岁 《西兰花先生的理发店》
评论
0/150
提交评论