版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、知识回顾1.分类属性的处理1.1概念介绍1.2处理方法1.3分类属性二元化的不足2.连续属性的处理2.1基于离散化的方法2.1基于统计学的方法2.3基于非离散化的方法关联规则挖掘假定输入数据由称作项的二元属性组成。还假定项在事物中出现比不出现更重要。这样,项被看作非对称的二元属性,且只有频繁模式才被认为是有趣的。例: 6-2购物篮数据的二元0/1表示TID面包牛奶尿布啤酒鸡蛋可乐11100002101110301110141111005111001从上述的购物篮数据中,我们可得出尿布啤酒这一有趣的规则。这一频繁项集的得出,我们可以运用:Apriori算法、Hash树法、FP增长算法等等。关于该
2、规则的支持度和置信度的计算如下:上面规则的支持度s=尿布、啤酒支持度计数/事物个数=3/5=0.6上面规则的置信度c=尿布、啤酒支持度计数/尿布支持度计数=3/4=0.75性别文化程度州家庭计算机网上聊天网上购物关注隐私女研究生伊利诺伊是是是是男大学加利福尼亚否否否否男研究生密歇根是是是是女大学弗吉尼亚否否是是女研究生加利福尼亚是否否是男大学明尼苏达是是是是男大学阿拉斯加是是是否男高中俄勒冈是否否否女研究生得克萨斯否是否否上面的因特网调查数据中,像性别、家庭计算机、网上聊天、网上购物和关注隐私这些属性,我们称为对称二元属性;而像文化程度、州称之为标称属性。 1.2处理方法对于对称二元属性,可以
3、转化成一对二元属性如:性别分为男男和女女,而对于标称属性,则可以用多个二元项取代,例如:文化程度=大学大学,文化程度=研究生研究生,文化程度=高中高中。通过这样将分类属性和对称二元属性转化成“项”之后,我们就可以如下二元化后的调查数据:男女文化程度=研究生文化程度=大学关注隐私=是关注隐私=否011010100101101010010110011010100110100101100001011001使用关联分析,从上表挖掘出的信息是:网上购物=是关注隐私=是1.2分类属性二元化的不足利用二元化后的数据进行关联分析时,需要注意以下几点:(1)有些属性值可能不够频繁,不能成为频繁模式的一部分。这个
4、问题主要出在标称属性上,如例子中的州名这一属性。若不加处理的将其用多个二元项取代,计算量将会过大,不太实际。所以实际做法是,将相关的属性值分组,形成少数类别。例如,每个州名都可以用对应的地理区域如中西部、太平洋西北部、西南部和东海岸取代。另一种可能性是,将不太频繁的属性值聚合成一个称作其他的类别。(2)某些属性的频率可能比其他属性高很多,容易产生冗余模式。例如,假定85%的被调查人都有家庭计算机。如果为每个频繁出现在数据中的属性值创建一个二元项,我们可能产生许多冗余模式,如下面的例子所示:家庭计算机=是,网上购物=是关注隐私=是(3)尽管每个事物的宽度与原始数据中属性个数相同,但是计算时间可能
5、增加,特别是当新创建的项变成频繁项时。这是因为需要更多时间处理由这些项产生的候选集。减少计算时间的一种方法是,避免产生包含多个来自同一属性的项的候选项集。例如,我们不必产生诸如州=X,州=Y,的候选项集,因为该项集的支持度计数为零。性别年龄年收入每周上网小时数E-mail帐号数关注隐私女2690K204是男51135K102否男2980K103是女45120K153是女3195K205是男2555K255是男37100K101否男4165K82否女2685K121否上表是具有连续属性的因特网调查数据,如年龄、年收入、每周上网小时数、e-mail账号数就是连续属性。对连续属性数据进行关联分析的方
6、法具体有(1)基于离散化的方法,(2)基于统计学的方法,(3)非离散化方法。 2.1基于离散化的方法所谓离散化就是将连续属性的邻近值分组,形成有限个区间。例如,年龄属性可以划分成如下区间:年龄12,16),年龄16,20),年龄20,24),年龄56,60)其中,a,b)代表包含a但不包含b的区间。离散的区间可以映射到非对称的二元属性,使得可以使用已有的关联分析算法男女年龄网上聊天=是 (s=30%,c=57.7%)R2:年龄36,60)-网上聊天=否 (s=28%,c=58.3%)尽管它们有较高的支持度,但是较宽的区间导致两个规则的置信度都低于最小置信度阈值。其结果是,离散化之后,两个模式都
7、失去了。(2)如果区间太窄,则可能因为缺乏支持度丢失某些模式。例如,如果区间宽度为4岁,则R1被分裂成如下两个子规则。R11:年龄16,20)-网上聊天=是 (s=4.4%,c=84.6%)R12:年龄36,60)-网上聊天=否 (s=4.4%,c=78.6%)由于两个子规则都低于最小支持度阈值,离散化后R1丢失了。同理,规则R2被分裂成4个子规则,也因4个子规则的支持度都低于最小支持度阈值而丢失。如果区间宽度是8岁,则规则R2被分裂成如下两个子规则。R21:年龄44,52)-网上聊天=否 (s=8.4%,c=70%)R22:年龄52,60)-网上聊天=否 (s=8.4%,c=70%)由于R2
8、1和R22都有足够的支持度和置信度,R2可以通过聚合两个子规则而恢复。与此同时,R1被分裂成如下两个子规则。R11:年龄12,20)-网上聊天=是 (s=9.2%,c=60.5%)R12:年龄20,28)-网上聊天=是 (s=9.2%,c=60.0%)不像R2,我们不能通过聚合两个子规则来恢复R1,因为两个字规则的置信度都低于阈值。处理这些问题的一个方法是,考虑邻近区间的每种可能的分组。例如,我们可以以宽度4岁开始,将临近的区间合并成较宽的区间,年龄12,16),年龄12,20),年龄12,60),年龄16,20),年龄16,24)等等。这种方法能够检测出R1和R2是强规则。然而,这也导致如下
9、计算问题。(1)计算开销非常大。如果值域被划分成k个区间,则必须创建k(k-1)/2个二元项来代表所有可能的区间。此外,如果对应于区间a,b)的项是频繁的,则包含a,b)的区间对应的所有项也必然是频繁的。因此,这种方法可能产生过多的候选和频繁项集。为了处理这些问题,可以使用最大支持度阈值,防止创建对应于非常宽的区间的项,并减少项集的数量。(2)提取许多冗余规则。例如,考虑下面的规则对:R3:年龄16,20),性别=男-网上聊天=是R4:年龄16,24),性别=男-网上聊天=是2.1基于统计学的方法需指定用于刻画有趣总体段特性的目标属性,保留目标属性,对其余属性进行二元化,产生频繁项集时,对目标
10、属性在每个段内的分布进行汇总。例:对因特网用户的年龄求平均值得到 年收入$100K,网上购物=是 -年龄:均值=38 这一有趣规则。方法:假设检验。实施(针对上面规则):先对一些符号进行说明,设u是满足规则的事物中的年龄的均值,u是不满足规则的事物中的年龄的均值。用户可接受的年龄差(若年龄差小于 ,认为无差异)n1是满足规则的事物个数,n2是不满足规则的事物个数;s1是满足规则的事务中年龄的标准差,s2是不满足规则的事务中年龄的标准差。 2.3基于非离散化的方法文档word1word2word3word4word5word6文档10.30.60000.2文档20.10.20000.2文档30.40.20.7000.2文档40.200.3000.1文档50001.01.00.3对所有文档的平均规范化频率求和S(word1,word2)=(0.3+0.6)/2+(0.1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年电影院广告投放与品牌合作合同2篇
- 二零二五年知识产权许可特别合同2篇
- 二零二五年度留学国家与学校选择合同2篇
- 二零二五年网红直播广告合作合同1200字范本3篇
- 二零二五版矿山资产转让与资源补偿合同3篇
- 二零二五年度边沟工程防渗漏与防水害合同2篇
- 二零二五年度跨江大桥PC构件预制及吊装工程合同3篇
- 二零二五年度软件许可与维护合同3篇
- 2025年度网络安全防护软件开发类框架合同3篇
- 小区物业保洁劳务合同(2篇)
- 2025年下半年贵州高速公路集团限公司统一公开招聘119人高频重点提升(共500题)附带答案详解
- 资产评估服务房屋征收项目测绘实施方案
- 2025年经济形势会议讲话报告
- 北师大版小学三年级上册数学第五单元《周长》测试卷(含答案)
- 国家安全责任制落实情况报告3篇
- 2024年度顺丰快递冷链物流服务合同3篇
- 六年级下册【默写表】(牛津上海版、深圳版)(汉译英)
- 合同签订培训
- 电工基础知识培训课程
- 铁路基础知识题库单选题100道及答案解析
- 金融AI:颠覆与重塑-深化理解AI在金融行业的实践与挑战
评论
0/150
提交评论