《商务智能方法与应用》全册配套课件_第1页
《商务智能方法与应用》全册配套课件_第2页
《商务智能方法与应用》全册配套课件_第3页
《商务智能方法与应用》全册配套课件_第4页
《商务智能方法与应用》全册配套课件_第5页
已阅读5页,还剩805页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《商务智能方法与应用》

全册配套课件引例:(1)榨菜指数3引例:榨菜指数(1/2)4引例:榨菜指数(3/4)引例:榨菜指数(4/4)(2)日本7-11案例(感冒指数)6日本7-11案例(温度和畅销品)7一家零售商最近发现,当天气变冷,肉桂葡式蛋挞的销量上升500%。那么零售商可能就要做出抉择。每当预测天气转冷时,应该储备多少肉桂葡式蛋挞?还有一家零售商发现,奶酪打折似乎能促进红酒的销售。那么希望减小红酒库存的时候,是不是应考虑奶酪打折这种方法?

这两个问题的答案取决于大数据分析的核心问题:弄清与因果关系之间的区别。将相关性误解为因果关系所做出的决策是危险的,可能会遭受惨败,因为你所期待看到的影响可能并不会发生。8葡式蛋挞(3)啤酒与尿布一般看来,啤酒和尿布是顾客群完全不同的商品。但是沃尔玛一年内数据挖掘的结果显示,在居民区中尿布卖得好的店面啤酒也卖得很好。原因其实很简单,一般太太让先生下楼买尿布的时候,先生们一般都会犒劳自己两听啤酒。因此啤酒和尿布一起购买的机会是最多的。塔吉特美国一名男子闯入Target店铺进行抗议:"你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券。“该经理当时并不知道这一行为是总公司数据挖掘的结果。一个月后,这位父亲来道歉,因为这时他才知道他的女儿的确怀孕了。Target比这位父亲知道他女儿怀孕的时间足足早了一个月。10塔吉特Target能够通过分析女性客户购买记录,“猜出”哪些是孕妇。他们从Target的数据仓库中挖掘出25项与怀孕高度相关的商品,制作“怀孕预测”指数。比如他们发现女性会在怀孕四个月左右,大量购买无香味乳液。以此为依据推算出预产期后,就抢先一步将孕妇装、婴儿床等折扣券寄给客户来吸引客户购买。1112★过去零售商依靠供应链软件、内部分析软件甚至直觉来预测库存需求。预测分析能够准确预测哪些商店位置应该保持哪些产品。★使用Microsoft

AnalysisServices,采用数据挖掘技术可以为产品存储决策提供准确及时的信息,可以预测在未来一周内一本书是否将脱销,准确性为98.52%,预测该书是否将在未来两周内脱销的准确性为86.45%。(4)库存预测★美国一家箱包销售网站通过个性化的展示提高销售额。与其他网站设计页面以鼓励大部分消费者采购的做法不同,该网站个性化的解决方案将不停地创建页面以适合每个具体的访问者。★如果访问者的浏览记录显示其对手提包感兴趣,网站将创建突出这些商品的个性化页面。★支撑上述目的实现的手段:准确的数据挖掘和智能分析。(5)登录网站的当前用户现在最可能购买什么东西?亚马逊网站的个性化推荐服务★NBA的教练的新式武器:数据挖掘。使用IBM公司开发的数据挖掘应用软件优化他们的战术组合。★AnferneeHardaway+BrianShaw=-17分★AnferneeHardaway+DarrellArmstrong=+14分★增加Armstrong的上场时间,Armstrong得了21分,哈德卫得了42分,魔术队以88比79获胜。(6)NBA教练如何布阵以提升获胜机会?曼城队2011年夏天,曼城队助理教练大卫·普拉特决定利用数据分析来解决球队在表现方面遇到的一个棘手难题。普拉特发现,尽管球队阵容中拥有多名高大强壮的球员,但他们的角球得分情况却不尽如人意。

在征求了俱乐部内部数据分析师的意见后,该队增加了对内旋角球(球转向守门员方向)的使用。战术转变产生了惊人的效果。在整个赛季中,曼城队依靠角球打入15个进球,成为英超角球得分效率最高的球队,其中2/3的进球采用的是内旋角球。

17曼城队这一实践为数据驱动型决策提供了强有力的支撑。事实上,早在两年前,曼奇尼曾就球队角球的使用情况咨询过俱乐部的数据分析师。分析师回应,曼奇尼依靠直觉偏爱采用的战术——外旋角球(球飞向远离守门员的方向)从数据统计上看并不理想。曼奇尼选择相信自己的直觉而非数据分析的导向性建议。因为直觉告诉他,球旋向远离门将的方向减小了门将触球的概率,同时增加了进攻队员冲顶时争到头球的概率。但当曼奇尼发现两种变数存在某种联系的时候,直觉却模糊了他对两者关联程度的判断能力。换句话说,外旋角球和进球数可能存在着某种关联,但数据表明,内旋角球和进球数存在着更为直接的因果关系。

18创立于2007年9月,是淘宝第一箱包品牌成功秘笈:强大的数据分析来锁定消费者需求利用IT技术,麦包包实现了对淘宝、拍拍和有啊三大C2C平台数百家箱包店铺以及数十家B2C箱包网站的信息和数据抓取,从而判断市场前景。麦包包的数据抓取范围已经走出中国,开始监控亚马逊、eBay和欧洲的一些电子商务平台。支撑这一系统的,是50多台服务器以及10个专职的数据分析师,天天对抓回来的数据进行分析,试图精确捕捉消费者需求。(7)麦包包:数据预测需求提前两个月,麦包包就在做市场分析计算出各种款式的受欢迎度预测在淘宝以及它所有在线零售市场可能的销售数额倒推回去做产品设计、包装及宣传推广麦包包:数据预测需求成功模式中粮生化简介中粮集团中粮集团有限公司于1952年成立,是一家集贸易、实业、金融、信息、服务和科研为一体的大型企业集团,横跨农产品、食品、酒店、地产等众多领域。1994年以来,一直名列美国《财富》杂志全球企业500强。旗下上市公司

中国粮油

中国食品

中粮屯河

中粮包装

中粮生化

中粮地产

蒙牛乳业旗下品牌福临门玉米油,金帝巧克力,长城葡萄酒…中粮生化简介信息化建设较为完善作为世界500强企业,中粮集团一直积极致力于信息化建设工作,充分利用信息化工具提高企业管理水平。中粮生化下属各利润点基本实现业务流程的信息化,主要包括财务系统、生产制造系统、采购系统、人力资源管理系统、6S报表系统。全面信息化后存在的问题1数据量增大,数据难以管理★随着中粮生化能源事业部各个业务系统的持续运行和未来业务系统的陆续投入,形成了大量的基础数据★子公司数据不断上传各业务系统,给业务系统带来大数据量的事务处理压力全面信息化后存在的问题2查询与报表不足以支持战略决策的需求★在各业务系统中进行统计分析,对各系统的日报表汇总形成企业整体日报表★领导层不会看底层的原始数据和怎么处理业务,希望看到整个公司层面的信息全面信息化后存在的问题3信息孤岛,部门数据相互独立★销售、财务、人力资源、生产、日报表等业务系统相互独立,形成信息孤岛★各子公司数据相互独立,无法满足决策层统观全局的要求商务智能解决方案-数据整合建立统一数据模型对数据的规范化定义,实现统一的信息资源层次体系、数据元素标准和信息编码,建立统一的数据模型以满足各个业务系统的集成。整合各个业务系统,建立中粮生化数据仓库系统由于数据分布在不同的业务系统,给数据共享、数据管理和数据应用带来很多不便,因此中粮生化整合各个业务系统,建立中粮生化数据仓库系统,将数据集中起来,解决数据层面的信息孤岛问题。

商务智能解决方案-数据分析多维分析支持直接基于现有的业务数据库(关系型数据库)创建多维立方体;可进行常规的切片,旋转、钻取等在线分析操作;支持图表(如:直方图、饼图等),并能在图表中钻取数据。数据挖掘从时间、空间、横向、纵向等多维度对数据进行分析。按主题细分,可划分为生产主题分析、采购主题分析、销售主题分析、财务主题分析、产成品库存主题分析、物流主题分析、人力资源主题分析等。商务智能解决方案-数据分析销售分析产品库存管理分析物流管理分析人力资源管理分析财务管理分析原料采购管理分析生产管理分析商务智能解决方案-结果展示能够制作标准、主从、交叉、分组统计、参数等各种形式的报表能够创建多种类型图形包括2D和3D饼图、柱状图、线性图、泡泡图、散点图、漏斗图、金字塔图、锥体图等,提供多种美观仪表盘、信号灯等,支持多种形式的数据钻取支持Web方式浏览,所有报表能发布到指定的Webserver,可以通过IE方式浏览各种报表的数据和相应的图表商业智能案例:银行高管驾驶舱SmarteVision高管驾驶舱目标32以用户最熟悉工具实现关键业务应用高可用性高性能

及时的关键指标以集团运营的视角,渗透到整个企业,释放新的洞察力突破性的洞察力按需要,快速创建跨系统、逐步扩展的业务解决方案按需求构建与扩大

关注三位一体战略实况产品业务类别现金管理绩效分析客户贡献分析36营业网点收益分析37服务网点扩张策略分析38数据挖掘(2)商务智能能够为我们做什么?Tosupportdecisionmakingatalllevelsofbusinessmanagementbasedonthefactsand(scientific)predictionsofcurrentandfuturebusinesssituationsthatareobtainedfromintelligentanalysisofhistoricalbusinessdata.BusinessdecisionsmadewithBIsupportaremore

★Correct

★Accurate

★Objective

★Timely40聚类示意图(1/5)41聚类示意图(2/5)42聚类示意图(3/5)43聚类示意图(4/5)44聚类示意图(5/5)45聚类——银行客户细分46聚类——非学生群体的通信行为474849复杂类型数据挖掘空间数据挖掘空间数据包括:地图,遥感图片,医学图像等空间数据的特点包括距离、位置、色块、气温等信息。通常按照复杂、多维的空间索引结构组织数据。空间数据挖掘是指对空间中非显式存在的知识、空间关系或其他有意义的模式等进行提取,需要综合数据挖掘与空间数据库技术。例如,通过对地质断裂带应力分析可以推断出哪些地方近期发生地震的概率较高,这个挖掘过程中,不但需要对地址断裂带的地理位置数据进行处理,还需要结合地震历史数据和时间数据进行挖掘。5051复杂类型数据挖掘多媒体数据挖掘多媒体数据包括:音频数据、视频数据、图像数据等。典型的多媒体数据库系统包括GoogleEarth,百度图像,人类基因数据库等。如在反恐档案和追踪系统中,应用恐怖份子图像查询和搜索,音频匹配与语音识别等方面。52图像数据——轮胎痕迹(1/2)53图像数据——轮胎痕迹(2/2)54图像数据——模糊的车牌画面(1/2)5556图像数据——模糊的车牌画面(2/2)文本挖掘和多媒体挖掘举例(定制爱情)575859文本挖掘和多媒体挖掘举例60文本挖掘和多媒体挖掘举例花田界面清新简洁,采用类似微博的信息流展示形式。首页是异性用户最近更新的图片、内心独白和文字传情,展示其生活方式、个人品味等软性资料。花田团队正试图通过自然语言处理技术和语义分析方法来解码用户性格,实现“软硬兼施”的精准推荐。首先,他们运用切分词方法,从用户的“内心独白”中提取出现频率较高的关键词;再将这些关键词分类,如感性词汇或理性词汇;最后,通过文本分析、语义分析,从中挖掘出用户的性格是内向、外向、理想化还是现实派等等。6162文本挖掘和多媒体挖掘举例花田团队只有30多个人,大多是85后。他们在对海量软硬数据进行分析的基础上,总结出一些人物特征,建立出一定数量的人物模型。再分析具体用户,将其分门别类套入各种模型。这样,用户心仪其中某一个人,便可向其推荐这一类人。这种模型不仅是性格模型,还包括外貌模型。“我们马上要推出人脸识别。比如你想找个像范冰冰的女生,你输入范冰冰,就会推荐给你很多范冰冰脸型的女生。”花田的后台已经提取出范冰冰脸型的数据,之后还会推出几十种流行的男女明星脸型供用户选择。63文本挖掘和多媒体挖掘举例如果花田能够跨产品平台,结合网易门户、邮箱、游戏等其它网易资源进行大数据分析,是否就能向用户推荐与自身阅读习惯、工作习惯、娱乐习惯都匹配的对象呢?真正的大数据必然是跨平台的,但跨平台数据提取在一定程度上又涉及用户隐私。数据分析不只可用于精准推荐,还能识别婚恋网站中的造假和诈骗。引入大数据可以开发出一套骗子识别模型,由以往的被动等待用户举报骗子,改为主动出击。64网络挖掘——寻找意见领袖65END66商务智能方法与应用北京信息科技大学胡敏minmin516@第一章导言Lecture1:Introduction思维导图上课内容:whattorememberinclass?

whattounderstandinclass?

whattoexerciseafterclass?

whattowidenyoursights?

whattogodeepintoresearch?主要内容1.1商务智能的基本概念1.2商务智能的过程1.3商务智能的系统构成1.4商务智能的发展历史1.1商务智能的基本概念商务智能数据信息和知识商务智能商务智能(Businessintelligence)1996年GartnerGroup

HowardDresner数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以辅助企业决策为目的一类技术及其应用商务智能商务智能(Businessintelligence)工业界商务智能可以被看作是一类技术或工具,利用它们可以对大量的数据进行收集、管理、分析和挖掘,以改善业务决策水平,增强企业的竞争力学术界商务智能是一套理论、方法和应用,通过它们可以快速地发现海量数据中隐含的各种知识,有效地解决企业面临的管理和决策问题,支持企业的战略实施。商务智能的概念

商务智能指收集、转换、分析和发布数据的过程,目的是为了更好的决策。商务智能是指将数据转化为知识的过程。它包括捕获和分析信息,交流信息,以及利用这些信息开发市场。商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升商务绩效,增强综合竞争力的智慧和能力。BusinessIntelligenceisaprocessofturningdataintoknowledgeandknowledgeintoactionforbusinessgain

—DataWarehouseInstitute

商务智能是融合了先进信息技术与创新管理理念的结合体,集成企业内外数据,进行加工并从中提取能够创造商业价值的知识,面向企业战略并服务于管理层、业务层,指导企业经营决策,提升企业竞争力。商务智能的概念

商务智能的概念数据ETL数据仓库数据挖掘可视化OLAP数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济POS人口统计生命周期77商务智能在行业的应用银行客户利润分析分支行利润分析交叉销售信用风险管理新产品推销收费策略保险欺诈管理收费策略目标市场活动客户挽留客户利润分析零售地区/商店各种货物(品牌,分类等)销售业绩定价和减价市场篮子关系市场需求预测仓储规划通讯客户忠实客户流失模式客户利润分析竞争分析欺诈管理80各行业电子商务网站算法层商业逻辑层行业应用层商业应用商业模型挖掘算法CRM产品推荐客户细分客户流失客户利润客户响应关联规则、序列模式、分类、聚集、偏差分析…WEB挖掘网站结构优化网页推荐商品推荐……基因挖掘基因表达路径分析基因表达相似性分析基因表达共发生分析……银行电信零售保险制药生物信息科学研究……相关行业商务应用需求的推动神经网络、决策树、回归分析、粗集、遗传算法商务智能应用领域银行美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9%。分析客户使用分销渠道的情况和分销渠道的容量;建立利润评测模型;客户关系优化;风险控制等电子商务网上商品推荐;个性化网页;自适应网站…生物制药、基因研究DNA序列查询和匹配;识别基因序列的共发生性…电信欺诈甄别;客户流失…保险、零售……政府部门、教育机构、医疗机构和公用事业等。利用商务智能的企业现在已越来越多,遍及各行各业。数据仓库理解业务:网络资源分析产品结构及组合分析服务质量分析业务发展分析理解客户:客户贡献度分析客户群体划分客户行为分析制订市场营销策略风险分析:客户流失的测算信用分析欺诈分析内部绩效考核:产品、部门利润分析资源分配资源成本分析谁是最好的客户?如何扩大利润?如何避免风险?收入/成本如何分配?商务智能对企业的作用和价值不同层次的商务智能应用以前发生了什么为什么发生了现在发生着什么将来会发生什么业务活动管理不同层次的商务智能应用商务智能用户数据(data)数据是对事物描述的符号。在计算机科学中,数据是数字、文字、图像、声音等可以输入到计算机被识别的符号企业运营离不开数据。企业运营的各个环节每天都在积累数据,如供应商、客户的数据,销售、生产以及库存数据等。用户生成数据(usergenerateddata,UGD)社会化媒体、智能化手机等使得全世界不计其数的个体也在不断产生数据。结构化数据(structureddata)通常二维表格的形式存储在关系数据库中交易细节表交易号商品号单价折扣数量005872051337922.99010058720514677520100587205000700104.500587206147525105.900587206113838107.5非结构化数据(unstructureddata)文本数据iphone4s,目前最大的问题,感觉还是电量,充满一次,用两天,不过,我还没怎么玩游戏,都是开浏览器之类的应用,和听歌,但是想想,毕竟手机的电池和ipad的还是没法比。信息(information)通过一定的技术和方法,对数据进行集成、分析,挖掘其潜在的规律和内涵,得到的结果是信息。信息是具有商务意义的数据例如,通过对零售信息的集成和分析发现,某超市的客户群根据其消费行为可以分为若干个群体,每个群体具有一些明显的特征。例如,其中一个群体是单身女性,喜欢经常购买化妆品,消费金额高。知识(knowledge)当信息用于商务决策,并基于决策开展相应的商务活动时,信息就上升为知识信息转化为知识的过程不仅需要信息,而且需要结合决策者的经验和能力,用以解决实际的问题。例如,某连锁超市的经理发现,近期化妆品的销售业绩下降了,为了解决该问题,决定采取促销措施,根据对数据的分析得到的客户分群的信息,销售经理锁定了促销的目标客户群,最终开展了为这部分客户邮寄优惠券的促销活动。1.2商务智能过程1.2.1知识发现知识发现的特征知识模式是使用一种形式化语言来进行的表达,表达描述了事实集合的子集中的一种显著的事实。通过某种知识发现方法得到一个顾客细分的结果子集为{41岁顾客,42岁顾客,48岁顾客,43岁顾客,64岁顾客…},可以归纳为“40岁之上的顾客”或者“中年以上的顾客”等。知识发现强调模式的有效性、新颖性、潜在有用性以及最终能被理解。921.2商务智能过程1.2.2知识发现过程1、理解所要进行研究的领域、与之相关的以前的知识、以及用户的目标;2、创建/选择目标数据集合;3、数据清理和预处理;4、数据缩减和投影;5、选定数据挖掘任务;6、选择数据挖掘算法;7、数据挖掘过程;8、对挖掘出来的模式进行解释;9、完善和巩固所发现的知识。9394信息管理学院1.2.2知识发现过程——7个步骤如下:1)数据清理:消除噪声或不一致2)数据集成:多种数据源组合在一起3)数据选择:从数据库中检索与分析任务相关的数据。4)数据变换:数据变换或统一成适合挖掘的形式,如汇总或聚集操作5)数据挖掘:使用智能方法提取数据模式6)模式评估:根据某种兴趣度量,识别表示知识的真正有趣的模式7)知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识1.2商务智能过程信息管理学院知识发现过程7个步骤如下:数据清理数据集成数据库数据仓库知识任务相关的数据选择与转换数据挖掘模式评估与知识表示1.2商务智能过程商务智能流程1

Identifybusinessissue2Formulatebusinessquestion3Whatinfo.doIneed4WheredoIfindtheinfo.5Retrieveinfo.6

Analyse

Info.7

Report

answers8

Take

actions1.3商务智能的系统构成六个主要组成部分数据源数据仓库在线分析处理数据探查数据挖掘业务性能管理数据源企业内部的操作型系统,即支持各业务部分日常运营的信息系统企业的外部,如人口统计信息、竞争对手信息等数据仓库(datawarehouse)各种数据源的数据经过抽取、转换之后需要放到一个供分析使用的环境,以便对数据进行管理,这就是数据仓库数据集市(datamart):通常针对单个部门的数据仓库,区别于企业范围内的数据仓库。数据仓库可以将分析数据与实现业务处理的操作型数据隔离,一方面不影响业务处理系统的性能,另一方面为数据的分析提供了一个综合的、集成的、统一的数据管理平台。详细信息在第8章介绍在线分析处理(onlineanalyticalprocessing)在线分析处理:业务性能度量可以通过多个维度、多个层次进行多种聚集汇总,通过交互的方式发现业务运行的关键性能指标的异常之处。多维数据可以进行多种操作如切片、切块、下钻、上卷等详细信息在第9章介绍数据探查(exploration)包括灵活的查询、即时报表以及统计方法等该类方法属于被动分析方法探查数据的方法可以借助统计上的中心性、发散性以及相关性的统计量分析,多变量分析时也可以借助可视化技术。详细信息在第7、10章介绍。数据挖掘(datamining)数据挖掘是从大量数据中自动发现隐含的信息和知识的过程,属于主动分析方法,不需要分析者的先验假设,可以发现未知的知识常用的分析方法包括分类、聚类、关联分析、数值预测、序列分析、社会网络分析等数据挖掘:分类分类(classification)是通过对具有类别的对象的数据集进行学习,概括其主要特征,构建分类模型,根据该模型预测对象的类别的一种数据挖掘和机器学习技术。例如,电信公司的客户可以分为两类,一类是忠诚的,一类是流失的。根据这两类客户的个人特征方面的数据以及在公司的消费方面的数据,利用分类技术可以构建分类模型数据挖掘:聚类聚类(clustering)是依据物以类聚的原理,将没有类别的对象根据对象的特征自动聚集成不同簇的过程,使得属于同一个簇的对象之间非常相似,属于不同簇的对象之间不相似。其典型应用是客户分群数据挖掘:关联分析关联分析最早用于分析超市中顾客一次购买的物品之间的关联性例如,发现关联规则(associationrule)“尿不湿

啤酒(0.5%,60%)”,其含义为,0.5%的交易中会同时购买尿不湿和啤酒,且买尿不湿的交易中有60%会同时买啤酒数据挖掘:数值预测数值预测用于预测连续变量的取值。常用的预测方法是回归分析例如,可以根据客户个人特征,如年龄、工作类型、受教育程度、婚姻状况等,来预测其每月的消费额度。数据挖掘:序列分析序列分析是对序列数据库进行分析,从中挖掘出有意义模式的技术。序列模式(sequentialpattern)的发现属于序列分析,它是从序列数据库中发现的一种有序模式例如,《赤壁,鸿门宴,见龙卸甲》,意味着“看了赤壁之后会接着看鸿门宴,过段时间会看见龙卸甲”。数据挖掘:社会网络分析社会网络(socialnetwork)是由个人或组织及其之间的关系构成的网络社会网络分析(socialnetworkanalysis)是对社会网络的结构和属性进行分析,以发现其中的局部或全局特点,发现其中有影响力的个人或组织,发现网络的动态变化规律等。业务绩效管理业务绩效管理(businessperformancemanagement),简称BPM,又称为企业绩效管理(corporateperformancemanagement),是对企业的关键性能指标,如销售、成本、利润以及可盈利性等,进行度量、监控和比较的方法和工具。这些信息通常通过可视化的工具如平衡积分卡和仪表盘等进行展示。相关内容见第10章。1.4商务智能的发展管理信息系统决策支持系统主管信息系统数据仓库、数据挖掘和在线分析处理管理信息系统(managementinformationsystem)简称MIS,产生于二十世纪七十年代为企业提供企业管理的全方位信息,为管理人员提供管理决策信息的信息系统其目的主要是提供信息以实现对企业或组织的快速有效管理决策支持系统(decisionsupportsystem),简称DSS,开始于二十世纪七十年代,发展于八十年代决策支持系统是基于计算机的用于支持业务或组织决策的信息系统。通常,决策支持系统基于数据库和模型库,用于解决半结构化和非结构化的决策问题,辅助管理人员做出快速、正确的决策主管信息系统(Executiveinformationsystem)简称EIS,又称为经理信息系统,出现于二十世纪八十年代是针对企业内的高级管理人员的决策支持系统。这种系统提供了灵活的报表生成、预测、趋势分析等功能。系统以直观的形式展现企业的运行状况以及关键成功因素(criticalsuccessfactors)商务智能商务智能系统是随着数据仓库、数据挖掘和在线分析处理等技术的发展于二十世纪九十年代而产生的通过数据仓库可以集成企业内外的各种数据,为数据的分析处理提供基础。在线分析处理则提供从多个维度探查业务性能指标的交互分析功能。数据挖掘结合人工智能、统计等技术实现对大量数据中潜在模式、规律、异常的发现和评价。这些新兴的技术为企业管理人员提供了更强大的决策支持工具。第2章商务智能过程Lecture2:DevelopingBIapplications主要内容2.1商务智能系统的开发方法2.2数据仓库与数据库2.3在线分析处理与在线事务处理2.4商务智能与决策支持系统2.1商务智能系统的开发方法商务智能系统的开发过程商务智能系统成功的关键因素2.1.1商务智能系统的开发过程规划需求分析设计实现识别业务需求识别信息需求时间成本规划规划详细的需求分析数据定义分析技术选择设计实现数据仓库OLAP设计数据挖掘设计数据集市构建数据仓库构建数据集市在线分析处理数据挖掘算法增强查询报表企业绩效管理2.1.1商务智能系统的开发过程规划需求分析设计实现在规划阶段,主要目标是选择要实施商务智能的业务部门或业务领域,从而解决企业的关键业务决策问题,识别使用商务智能系统的人员以及相应的信息需求,规划项目的时间、成本、资源的使用了解每个业务部门或业务领域的需求,收集他们当前急需解决的问题企业中哪些业务环节的支出费用太高?哪些过程耗用时间太长?哪些环节的决策质量不高2.1.1商务智能系统的开发过程规划需求分析设计实现每类需求,重要性和实现的难易程度重要性方面,可以从三个方面进行衡量衡量商务智能提供的信息的可操作性;衡量实施商务智能可能给企业带来的回报,衡量实施商务智能可以帮助企业实现短期目标实现的难易程度商务智能的实现需要涉及的范围衡量数据的可获取性2.1.1商务智能系统的开发过程规划需求分析设计实现分析阶段,针对在规划阶段最终选择要实现商务智能的业务部门或业务领域,进行详细的需求分析收集需要的各类数据,选择需要的商务智能支撑技术,如数据仓库、在线分析数据或者数据挖掘等2.1.1商务智能系统的开发过程规划需求分析设计实现如果要创建数据仓库,则进行数据仓库的模型设计,常用的是多维数据模型。数据集市可以从数据仓库中抽取数据进行构建在不构建数据仓库的情况下,也可以直接为某个业务部门设计和实现数据集市。如果要实现OLAP解决问题,则要设计多维分析的聚集操作类型。如果要借助数据挖掘技术,则需要选择具体的算法2.1.1商务智能系统的开发过程规划需求分析设计实现实现阶段,选择ETL工具实现源数据的抽取,构建数据仓库和(或)数据集市对数据仓库或数据集市的数据,选取并应用相应的查询或分析工具,包括增强型的查询、报表工具、在线分析处理工具、数据挖掘系统以及企业绩效管理工具等在具体应用该系统之前,需要完成对系统的数据加载和应用测试,设计系统的访问控制和安全管理方法。2.1.2商务智能系统成功的关键因素业务驱动高层支持业务人员和IT人员的合作循序渐进培训2.2数据仓库与数据库联系表现在两个方面数据仓库中的大部分数据来自于业务系统的数据库中当前绝大多数数据仓库都是利用数据库系统来管理的区别:构建目的、管理的数据、管理方法都不同数据库主要用于实现企业的日常业务运营,提高业务运营的效率;数据仓库的构建主要用于集成多个数据源的数据,这些数据最终用于分析数据库通常只包含当前数据,数据的存储尽量避免冗余,数据的组织按照业务过程涉及的数据实现,是应用驱动的。数据仓库中的数据是按照主题组织的,将某一主题的所有数据集成在一起,数据存在冗余2.2数据仓库与数据库区别:构建目的、管理的数据、管理方法都不同数据库中的数据需要进行频繁的插入、删除、修改等更新操作,需要复杂的并发控制机制保证事务运行的隔离性。数据仓库中的数据主要用于分析处理,除了初始的导入和成批的数据清除操作之外,数据很少需要更新操作数据库中数据的更新操作的时效性很强,事务的吞吐率是个非常重要的指标。而数据仓库的数据量十分庞大,分析时通常涉及大量数据,时效性不是最关键的。数据仓库中的数据质量非常关键,不正确的数据将导致错误的分析结果。2.3在线分析处理与在线事务处理OLTPvs.OLAP在线事务处理(onlinetransactionprocessing),简称OLTP,是数据库管理系统的主要功能,用于完成企业内部各个部门的日常业务操作。在线分析处理(onlineanalyticalprocessing),简称OLAP,是数据仓库系统的主要应用,提供数据的多维分析以支持决策过程OLTPvs.OLAP

在线事务处理OLTP在线分析处理OLAP用户普通职员管理人员,分析人员功能日常业务处理决策支持数据库设计高度规范化非规范化数据处理在线插入、删除、修改批量加载和删除使用方式重复操作即时的图表形式的交互查询执行单元短的事务处理复杂的查询数据当前、细节数据历史的汇总数据性能指标事务吞吐量查询响应时间事务特性并发控制和事务恢复很重要并发控制和事务恢复不重要2.4商务智能与决策支持系统DSS决策支持系统(decisionsupportsystem)的概念最早由ScottMorton在20世纪70年代初提出“一种交互式的基于计算机的系统,用于协助决策者使用数据和模型解决非结构化的问题”决策支持系统的用户主要是管理人员和业务分析人员,主要目的是辅助决策者进行科学决策DSS的系统架构RalphH.Sprague和EricD.Carlson:对话-数据-模型架构(Dialog-Data-Modeling,DDM)决策支持系统由数据库管理系统、模型库管理系统和对话产生与管理系统三部分组成。后来又引入了知识库管理系统数据库模型库知识库数据库管理系统模型库管理系统知识库管理系统对话产生与管理系统用户DSS数据库管理系统用于抽取、存储、更新决策所需的数据模型库管理系统主要用于管理决策所需的各种模型知识库管理系统提供知识的表示、存储和管理,用于支持定量模型无法解决的决策过程,帮助用户建立、应用和管理描述性、过程性和推理性知识对话产生与管理系统主要负责用户与系统的交互。数据库模型库知识库数据库管理系统模型库管理系统知识库管理系统对话产生与管理系统用户DSS&BIDSS中数据库的数据集成功能较弱,而数据仓库技术,具有良好的数据集成、转换等功能决策支持系统的知识库通常是设置好的,知识很少发生变化,知识的类型和范围很窄。商务智能系统则能从大量的数据中发现新颖有用的知识,提供更加灵活的查询和报表功能以及多维分析功能,可以对决策支持系统的知识库进行动态更新商务智能系统与决策支持系统相比,在数据分析和知识发现方面具有更强的功能,但是它只提供对决策有帮助的信息,并不提供可能的决策方案第3章关联分析Chapter3:AssociationAnalysis141关联若两个或多个变量的取值之间存在某种规律性,就称为关联。关联规则是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。关联分析即利用关联规则进行数据挖掘。关联规则是形式如下的一种规则,“在购买计算机的顾客中,有30%的人也同时购买了打印机”。从大量的商务事务记录中发现潜在的关联关系,可以帮助人们作出正确的商务决策。142购物篮分析此类关联分析在零售业,如超市等得到广泛应用,企业可以获得注入产品间的关联,或者产品类别和购买这些类别的产品的顾客的统计信息之间的关联规则。关联分析又称购物篮分析,在销售配货、商店商品的陈列设计、超市购物路线设计、产品定价和促销等方面得到广泛应用。143什么是关联挖掘?关联规则挖掘:在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联结构。应用:购物篮分析、交叉销售、产品目录设计、聚集和分类等。举例:

规则形式:“Body—>Head[support,confidence]”.buys(x,“diapers”)—>buys(x,“beers”)[0.5%,60%]major(x,“CS”)^takes(x,“DB”)—>grade(x,“A”)[1%,75%]主要内容3.1频繁模式与关联规则3.2频繁项集的典型挖掘方法3.3关联规则的生成方法3.4关联规则的其他类型3.5关联规则的兴趣度的其他度量3.1频繁模式与关联规则从交易数据库、关系数据库以及其他的数据集中发现项或对象的频繁模式(frequentpatterns)、关联(associations)的过程buys(x,“diapers”)®buys(x,“beers”)[0.5%,60%]Rao,SrikumarS.“Diaper-beerSyndrome,”Forbes,April6,1998.pp.128–130outlooktemperaturehumiditywindyplaysunnyhothighFALSEnosunnyhothighTRUEnoovercasthothighFALSEyesrainymildhighFALSEyesrainycoolnormalFALSEyes交易号(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts交易数据库I={A,B,C,D,E,F}2项集:Transactionaldatabase

每个交易:由顾客一次购买的商品(items)组成I={i1,i2,…,im}项集(Itemset):x={ij1,ij2,…,ijp},ijiI每个项集包含的项的个数,称为项集的长度,一个长度为k的项集又称为k项集。支持度(Support)交易包含项集X的概率E.g.X={A},Y={A,B}=AB若support(X)>=minsup,则X称为频繁项集(frequentitemset),也可以说X是频繁的.设minsup=50%{A:3,B:3,D:4,E:3,AD:3}TIDItemsbought10A,B,D20A,C,D30A,D,E40B,E,F50B,C,D,E,F闭合频繁项集一个频繁项集X被称为闭合频繁项集(closedfrequentitemset)当且仅当不存在任一个项集Y满足X

Y且support(Y)=support(X)。闭合频繁项集X被称为是闭合的。例如:A是频繁的,但不是闭合的,因为support(AD)=support(A),且A

ADTIDItemsbought10A,B,D20A,C,D30A,D,E40B,E,F50B,C,D,E,F关联规则给定两个项集X和Y,关联规则是形如X→Y的蕴含式X

I称为规则的前件,Y

I称为规则的后件,X∩Y=

规则X→Y的支持度(support)support(X→Y)=support(X∪Y)规则X→Y的置信度(confidence)SupportandconfidenceTransaction-idItemsbought10A,B,D20A,C,D30A,E40B,E,F50B,C,D,E,F关联规则:X

Ysupport(X

Y)=support(X∪Y)=|TXY|/nE.g:X={A}Y={C}support(A

C)=support(AC)=0.2X={A,D}=ADY=Csupport(AD

C)=support=(ADC)=0.2SupportandconfidenceTIDItemsbought10A,B,D20A,C,D30A,E40B,E,F50B,C,D,E,F置信度(confidence)Confidence(X

Y)=|TXY|/|TX|=sup(XY)/sup(X)A

C(20%,33%)AD

C(20%,50%)买尿片的交易同时买啤酒和尿片的交易买啤酒的交易关联规则的挖掘给定如下阈值minimumsupport:minsupMinimumconfidence:

minconf发现所有形如X

Y

的关联规则,满足Support(XY)≥minsupConfidence(XY)≥minconf3.2频繁项集的典型挖掘方法3.2.1逐层发现算法AprioriApriori(Agrawal&Srikant@VLDB’94)3.2.2无候选集发现算法FP-growthFreq.patterngrowth(FPgrowth—Han,Pei&Yin@SIGMOD’00)其他方法:Verticaldataformatapproach(Charm—Zaki&Hsiao@SDM’02)Highdimensionaldataset:TD-close(Liu,Han,etal.@ICDE06)…3.2.1逐层发现算法Apriori主要步骤k=1统计每个k项候选集的支持度,找出频繁的k项集:Lk利用频繁的k项集生成k+1项候选集(Candidateitemset

):Ck+1k=k+1;转至步骤2示例DatabaseTDB1stscanC1L1L2C2C22ndscanC3L33rdscanTidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsup{A}2{B}3{C}3{D}1{E}3Itemsetsup{A}2{B}3{C}3{E}3Itemset{A,B}{A,C}{A,E}{B,C}{B,E}{C,E}Itemsetsup{A,B}1{A,C}2{A,E}1{B,C}2{B,E}3{C,E}2Itemsetsup{A,C}2{B,C}2{B,E}3{C,E}2Itemset{B,C,E}Itemsetsup{B,C,E}2minsup=2/4如何生成候选项集?性质1:给定最小支持度阈值minsup,一个频繁项集的所有非空子集都是频繁的。if{beer,diaper}isfrequent,sois{beer}and{diaper}If{beer}isnotfrequent,{beer,diaper}isnotfrequentApriori剪裁规则:若存在某些项集是不频繁的,则这些项集的任何超集都是不频繁的,因而无须生成和测试。157

项集格上图是{i1,i2,i3,i4}的项集格(lattice),这种结构能枚举所有可能的项集。假设{i2,i3,i4}是频繁项集,那么它的所有子集{i2},{i3},{i4},{i2,i3},{i2,i4}和{i3,i4}都是频繁的。反之,如{i1,i2}是非频繁的,它的所有超集{i1,i2,i3},{i1,i2,i4}和{i1,i2,i3,i4}都是非频繁的。如何生成候选项集?假设每个Lk

中的项集的项都是按顺序排列的步骤1:两两组合

Lk中项集生成

Ck+1步骤2:裁剪(pruning)如何生成候选项集?假设项集的项按字母序排列:beer<bread<butter<cheese<diaper<nuts如何生成候选项集?步骤1

abcd

abce设p和q

是Lk

中的两个项集,满足时生成(k+1)项集:p.item1=q.item1,…,p.itemk-1=q.itemk-1,

p.itemk<q.itemkp.item1p.item2…p.itemk-1p.itemkq.item1q.item2…q.itemk-1q.itemkp.item1p.item2…p.itemk-1p.itemkq.itemk如何生成候选项集?步骤1字母序:a<b<c<d<eL3={abc,abd,acd,ace,bcd}abcdfromabcandabdacdefromacdandaceC4={abcd,acde}L3item1item2item3abcabdacdacebcd如何生成候选项集?步骤2删除那些包含非频繁k项集的(k+1)项集E.g:L3={abc,abd,acd,ace,bcd},C4={abcd,acde}由于{cde}不频繁,所以acde不可能频繁

C4={abcd}DatabaseTDB1stscanC1C2C22ndscanL33rdscanC3L1L2TidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsup{A}2{B}3{C}3{D}1{E}3Itemsetsup{A}2{B}3{C}3{E}3Itemset{A,B}{A,C}{A,E}{B,C}{B,E}{C,E}Itemsetsup{A,B}1{A,C}2{A,E}1{B,C}2{B,E}3{C,E}2Itemsetsup{A,C}2{B,C}2{B,E}3{C,E}2Itemset{B,C,E}Itemsetsup{B,C,E}2Supmin=2164Apriori性能瓶颈Apriori算法的核心:用频繁的(k–1)-项集生成候选的频繁k-项集用数据库扫描和模式匹配计算候选集的支持度Apriori的瓶颈:候选集生成巨大的候选集:多次扫描数据库:

如果最长的模式是n的话,则需要

n+1次数据库扫描FP增长算法与Apriori算法不同,频繁模式增长(frequentpatterngrowth)算法,简称FP增长算法使用一种称为FP树的数据结构,并且采用分而治之的策略,无需产生候选频繁项集就能得到全部的频繁项集。3.2.2无候选集发现算法FP-growthFPgrowth—Han,Pei&Yin@SIGMOD’00采用一种树的数据结构(FP-tree)来实现频繁项集的发现,不需要先生成候选项集FP-tree的特点完整性保留了用于挖掘频繁项集的所有信息紧凑性减少了与频繁项集挖掘无关的信息,F-list:高频项更多机会被不同交易共享永远小于原来的交易数据库TID Itemsbought 100 {f,a,c,d,g,i,m,p}

200 {a,b,c,f,l,m,o}300

{b,f,h,j,o,w}

400

{b,c,k,s,p}

500

{a,f,c,e,l,p,m,n}

算法:FP-growthHeaderTableItemfrequencyheadf 4c 4a 3b 3m 3p 3minsup=3/5扫描交易数据库,找出所有频繁单项按照支持度降序排列所有频繁单项,得到f-list扫描交易数据库,构建FP-treeT调用mineTree(T,}f-list=f-c-a-b-m-p{}f:4c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1FP-treeTID (ordered)frequentitems100

{f,c,a,m,p}200 {f,c,a,b,m}300

{f,b}400

{c,b,p}500

{f,c,a,m,p}频繁项集的分割频繁项集的集合可以分为若干个不相交的子集例如:F-list=f-c-a-b-m-p所有包含p的项集含有m不包含p的项集…含有c

不含a,b,m,p的项集项f生成条件模式库(conditionalpatternbase)从头表(headertable)开始

通过指针链遍历FP-tree找到所有包含某项如p的分支合并相同前缀路径,构成

p条件模式库Conditionalpatternbasesitem cond.patternbasec f:3a fc:3b fca:1,f:1,c:1m fca:2,fcab:1p fcam:2,cb:1{}f:4c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1HeaderTableItemfrequencyheadf 4c 4a 3b 3m 3p 3FP-tree:T100{f,c,a,m,p}200 {f,c,a,b,m}300

{f,b}400

{c,b,p}500

{f,c,a,m,p}mineTree(T,X){}c:3HeaderTableItemfrequencyheadc 3Tpfcam:2cb:1以p为例:X=

;生成并输出频繁项集X∪{p}=p,support=3生成p的条件模式库统计单项频率:c:3,f:2,a:2,m:2,

b:1为条件模式库构建FP-tree:

TpX={p},调用mineTree(Tp,X)优化对单支前缀路径特殊处理,减少处理时间设minsup=2(出现2次)图3.2频繁模式树T项集频数abc2abd2表3.3项e的条件模式库优化

图3.3项e的频繁模式树Te

图3.4频繁模式树Te的多分支部分Q单支前缀路径ab:5,生成与e的所有组合,即S={ae:4,be:4,abe:4}将此路径用一个空的根节点替换,生成树Q,分别对单项c和d处理,分别生成了1个项集,ce和de,构成集合M={ce:2,de:2}返回S∪M∪(S

M),S

M={ace:2,ade:2,bce:2,bde:2,abce:2,abde:2}挖掘高维度数据集中的频繁项集Carpenter(Pan,etal.@KDD’03)MinedatasetswithsmallrowsbutnumerouscolumnsConstructabottom-uprow-enumerationtreeforefficientminingTD-close(Liu,Han,etal.@ICDE06)MinedatasetswithsmallrowsbutnumerouscolumnsConstructaTop-downrow-enumerationtreeforefficientminingMiningFrequentPatternsfromVeryHighDimensional

Data:ATop-DownRowEnumerationApproach

HongyanLiuTsinghuaUniversityJiaweiHan,DongXin,ZhengShao

UniversityofIllinoisatUrbana-Champaign行枚举方法riABCD1a1b1c1d12a1b1c2d23a1b1c1d24a2b1c2d25a2b2c2d39/4/2024Minsup=2TableTTransposedTableitemsetrowseta11,2,3a24,5b11,2,3,4c11,3c22,4,5d22,3,49/4/2024自上而下的挖掘策略1a1b1c1d12a1b1c2d23a1b1c1d24a2b1c2d25a2b2c2d313a1b1c124b1c2d225c234b1d245a2c2351514b123a1b1d2245c2234b1d2134b1124b1123a1b113512514523534512a1b11245134523451234b11235Minsup=3123459/4/2024自上而下、分而治之的递归挖掘345134523451234545a2c2245c214512455a2b2c2d325c2351513512523512351a1b1c1d12a1b1c2d23a1b1c1d24a2b1c2d213a1b1c124b1c2d234b1d214b123a1b1d2234b1d2134b1124b1123a1b112a1b11234b1Without5With5w/o4With45w/o3With345w/o2With2345w/o1Divide-and-conquer3.3关联规则的生成方法生成关联规则为每个频繁项集l,生成非空子集s;若满足

则输出规则:(l-s)

se.g:l=ABCD,s=D,(l-s)=ABCconfidence(ABC

D)=support(ABCD)/support(ABC)生成关联规则minconf=80%For{BCE}:Confidence(BE

C)<80%,Confidence(BC

E)>80% Confidence(CE

B)>80%

Confidence(B

CE)<80%

Confidence(E

BC)<80%

Confidence(C

BE)<80%

L1L2L3生成关联规则minconf=80%For{BCE}:Confidence(BE

C)<80%,Confidence(BC

E)>80% Confidence(CE

B)>80%confidence(C

BE):<80%L1L2L3生成关联规则ForBCE,Confidence(BE

C)<80%,HowaboutB

ECandE

BC?生成关联规则对于频繁项集l=ABCD若BCDA和ACDB

都成立

则CDAB

有可能成立.若CDAB,BDAC,和ADBC都成立,

则DABC

有可能成立3.4关联规则的其他类型关联规则的类型多层次关联规则什么品牌的啤酒和尿片(diapers)有关联?多维关联规则

负关联规则、无关规则(dissociationrule)

playbasketballnoteatcereal[20%,33.3%]结构化数据中的关联分析多层次关联规则项有概念层次性低层的项通常具有较低的支持度将项抽象到一定高的层次产生的规则更有意义一个超市的库存中至少有10000个项FoodbreadmilkskimSunsetFraser2%whitewheat

milk→bread[20%,60%].2%milk→wheatbread[6%,50%].多层次关联规则两类单层 F→G BC→E多层 FC→ETidItems10A,C,D20B,C,E30A,B,C,E40B,EHGFAEBDC信息管理学院示例:给定某事务的任务相关数据集D,它是计算机部的销售数据,对每个事务TID给出了购买的商品多层关联规则信息管理学院商品的概念分层如:计算机类商品软件计算机计算机辅件打印机台式机笔记本应用系统彩色黑白鼠标键盘IBM…康柏财务操作系统佳能HP双飞燕康柏多层关联规则信息管理学院概念分层定义了由低层概念到更一般的高层概念的映射序列,可以通过将数据内的低层概念用概念分层的高层概念替换,对数据概化。例中概念分层为4层,记为0,1,2和3在最低的原始层很难找出有趣的购买模式,如{IBM台式机,HP激光打印机}不太可能满足最小支持度。而{计算机,打印机}更容易满足最小支持度多层关联规则信息管理学院问题:如何使用概念分层有效挖掘多层关联规则。考察一些基于支持度-置信度框架的方法对于所有层使用一致的最小支持度在较低层使用递减的最小支持度逐层独立层交叉单项过滤层交叉K-项集过滤挖掘多层关联规则的方法信息管理学院2.

挖掘多层关联规则的方法对于所有层使用一致的最小支持度:在每一层挖掘时,使用相同的最小支持度阈值。如整个使用最小支持度阈值5%计算机[support=10%]台式机[support=4%]笔记本[support=6%]层1min_sup=5%层2min_sup=5%信息管理学院2.

挖掘多层关联规则的方法在较低层使用递减的最小支持度:在每个抽象层有自己的最小支持度阈值。抽象层越低,对应的阈值越小。如层1和层2的最小支持度阈值分别为5%和3%计算机[support=10%]台式机[support=4%]笔记本[support=6%]层1min_sup=5%层2min_sup=3%信息管理学院逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。考察每个节点,不管它的父节点是否是频繁的。计算机[support=10%]台式机[support=4%]笔记本[support=6%]层1min_sup=12%层2min_sup=3%信息管理学院层交叉单项过滤:一个第i层的项被考察,当且仅当它在第(i-1)层的父节点是频繁的。根据递减支持度,如果父节点是频繁的,它的子女将被考察;否则,它的子孙将由搜索中剪枝。计算机[support=10%]台式机(未考察)笔记本(未考察)层1min_sup=12%层2min_sup=3%信息管理学院层交叉k-项集过滤:一个第i层的k-项集被考察,当且仅当它在第(i-1)层的对应父节点k-项集是频繁的。计算机,打印机[support=8%]台式机,彩色打印机[support=4%]笔记本,黑白打印机[support=2%]层1min_sup=5%层2min_sup=3%逐层独立策略的条件宽松,而层交叉k-项集过滤策略的限制太强,层交叉单项过滤策略是一个折衷。进一步改进为受控层交叉单项过滤策略。通过设置一个层传递阈值,用于向较低层“传递”相对频繁的项信息管理学院受控的层交叉单项过滤策略:如果满足层传递阈值,则允许考察不满足最小支持度阈值项的子女计算机[suppo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论