版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7课数据挖掘的高级主题徐从富,副教授浙江大学人工智能研究所浙江大学本科生《数据挖掘导论》课件第7课数据挖掘的高级主题徐从富,副教授浙江大学本科生内容提纲Web挖掘隐私保护数据挖掘内容提纲Web挖掘Web
挖掘KnowledgeWWWWeb挖掘KnowledgeWWWWeb挖掘简介Web日志挖掘Web挖掘简介WebMining简介产生原因应用分类过程WebMining简介产生原因产生原因网络信息搜集的需求与收集结果低效性的矛盾迫切需要对网络资源的整序与检索。传统数据挖掘和文本挖掘技术的不断完善和应用。产生原因网络信息搜集的需求与收集结果低效性的矛盾迫切需要对网应用查询相关信息从Web数据发现潜在的未知信息了解用户的兴趣爱好信息个性化应用查询相关信息Web挖掘分类WebMiningWebContentMiningWebUsageMiningWebStructureMiningWeb挖掘分类WebMiningWebContentWeb内容挖掘Web内容挖掘是从文档内容或其描述中抽取知识的过程。Web内容挖掘策略直接挖掘文档的内容在其它工具搜索的基础上进行改进Web内容挖掘Web内容挖掘是从文档内容或其描述中抽取知识的Web内容挖掘(续)提取文字、图片或者其他组成网页内容成分的信息,即通过有效的内容挖掘能告诉我们哪些页面是德文或者法文的?哪些站点卖我们喜欢的东西?哪些页面介绍了我们感兴趣的知识?搜索引擎、智能代理和一些推荐引擎都使用内容挖掘来帮助客户在浩瀚的网络空间中寻找所需的内容。Web内容挖掘(续)提取文字、图片或者其他组成网页内容成分的Web结构挖掘Web结构挖掘研究的是Web文档的链接结构,揭示蕴含在这些文档结构中的有用模式,处理的数据是Web结构数据。是从WWW的组织结构和链接关系中推导知识。由于文档之间的互连,WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的页面。Web结构挖掘Web结构挖掘研究的是Web文档的链接结构,揭Web结构挖掘(续)提取网络的拓扑信息――网页之间的链接信息,即通过有效的结构挖掘能告诉我们哪些页面被其他页面所链接?哪些页面指向了其他页面?哪些页面的集合构成了一个独立的整体?Web结构挖掘(续)提取网络的拓扑信息――网页之间的链接信息Web日志挖掘Web日志挖掘的主要目标则是从Web的访问记录中(Web服务器log日志)抽取感兴趣的模式。WWW中的每个服务器都保留了访问日志(Webaccesslog),记录了用户访问和交互的信息。分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。Web日志挖掘Web日志挖掘的主要目标则是从Web的访问记录Web日志挖掘(续)一般的访问模式跟踪通过分析日志数据来了解用户的访问模式和倾向,以改进站点的组织结构个性化的使用记录跟踪倾向于分析单个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供定制的站点。Web日志挖掘(续)一般的访问模式跟踪Web日志挖掘(续)提取关于客户如何运用浏览器浏览和使用这些链接的信息,即通过有效的日志挖掘能告诉我们那些客户访问了哪些页面?在每一页上待了多长时间?下一步单击了什么?在站点中是按照怎样的访问路线通向检查计数器,又是通过怎样的路线直接退出的?Web日志挖掘(续)提取关于客户如何运用浏览器浏览和使用这些Web内容挖掘Web结构挖掘Web日志挖掘处理数据类型IR方法:无结构数据、半结构数据数据库方法:半结构化数据Web结构数据用户访问Web数据主要数据自由化文本、HTML标记的超文本HTML标记的超文本Web文档内及文档间的超链Serverlog,Proxyserverlog,Clientlog表示方法词集、段落、概念、IR的三种经典模型对象关系模型图关系表、图处理方法统计、机器学习、自然语言理解数据库技术机器学习、专有算法统计、机器学习、关联规则主要应用分类、聚类、模式发现模式发现、数据向导、多层数据库、站点创建与维护页面权重分类聚类模式发现Web站点重建,商业决策Web内容挖掘Web结构挖掘Web日志挖掘处理数据IR方法:Web挖掘过程资源发现:在线或离线检索Web的过程,例如用爬虫(crawler)或(spider)在线收集Web页面信息选择与预处理:对检索到的Web资源的任何变换都属于此过程。词干提取高低频词的过滤汉语词的切分综合过程:自动发现Web站点的共有模式分析过程:对挖掘到的模式进行验证和可视化处理Web挖掘过程资源发现:在线或离线检索Web的过程,例如用爬Web日志挖掘Web日志挖掘数据类型Web日志挖掘应用Web日志挖掘过程Web日志挖掘Web日志挖掘数据类型服务器日志服务器日志数据类型ClientIP:0AuthenticatedUserID:--Time/Date:[10/Nov/1999:10:16:39-0600]Request:"GET/HTTP/1.0"Status:200Bytes:-Referrer:“-”Agent:"Mozilla/4.61[en](WinNT;I)"数据类型ClientIP:0Web日志挖掘应用Applications电子商务中发现潜在客户增强终端用户信息获取的质量提高Web服务器的性能合理放置广告提高站点设计欺诈和入侵检测预测用户行为Web日志挖掘应用ApplicationsWeb日志挖掘过程Web日志挖掘过程第7课-数据挖掘的高级主题汇总课件第7课-数据挖掘的高级主题汇总课件Web日志挖掘过程预处理数据挖掘模式分析Web日志挖掘过程预处理数据预处理数据清理用户对话识别页面视图识别路径完整数据预处理数据清理第7课-数据挖掘的高级主题汇总课件数据清理根据一组原始的日志项,完成一系列基本任务,如归并日志、解析日志等。对于一些网站,需要过滤掉图象文件,这可以通过检查文件后缀实现。一般地,我们需要对日志中的状态码(statuscode)进行检查。数据清理根据一组原始的日志项,完成一系列基本任务,如归并日志清理后的SampleLogIPAddressTime/DateMethod/URIReferrerAgent15:30:01/2-Jan-01GETIndex.htm/link.htmMozilla/4.0(IE5.0W98)15:30:01/2-Jan-01GET1.htm/index.htmMozilla/4.0(IE5.0W98)15:30:01/2-Jan-01GETA.htm/index.htmMozilla/4.0(IE5.0W98)15:37:09/2-Jan-01GETE.htm/C.htmMozilla/4.0(IE5.0W98)15:33:04/2-Jan-01GETIndex.htm/res.phpMozilla/4.0(IE4.0NT)15:33:04/2-Jan-01GET1.htm/index.htmMozilla/4.0(IE4.0NT)15:33:04/2-Jan-01GETA.htm/index.htmMozilla/4.0(IE4.0NT)15:35:11/2-Jan-01GETB.htm/A.htmMozilla/4.0(IE4.0NT)15:35:11/2-Jan-01GETC.htm/A.htmMozilla/4.0(IE5.0W98)清理后的SampleLogIPAddressTime/D用户对话识别1.IPAddress&Agent2.EmbeddedSessionID3.Registration(UserProfile)4.Cookie5.SoftwareAgent(Applet&Scrtipt)6.ModifiedBrowser用户对话识别1.IPAddress&Agent用户对话识别(续)方法说明隐私性保护优点缺点IP地址/代理服务器假定每个独立IP地址/代理服务器组是独立用户低通常可用,无需附加技术。无法保证唯一性,在随机或者轮换IP情况下失效嵌入式对话ID通过动态形成页面将ID加入每个链接低/中等通常可用,不需依赖于IP地址无法了解重复访问,需要完全动态站点。注册用户确切地登陆站点中等可以跟踪单个用户,而不仅仅是浏览器不是全部用户都愿意注册Cookie在客户端机器上保留标识符中等/高可以跟踪重复访问能被禁止。不为大众接收软件代理服务器程序载入浏览器从而将日志数据返回高可以得到单个Web站点的确切日志数据很可能被拒绝。不为大众接收改进型浏览器浏览器记录日志数据非常高可以得到关于整个Web的日志数据用户必须确切地得到软件用户对话识别(续)方法说明隐私性保护优点缺点IP地址/代理服用户对话识别15:33:04/2-Jan-01GETIndex.htm/res.php15:33:04/2-Jan-01GET1.htm/index.htm15:33:04/2-Jan-01GETA.htm/index.htm15:35:11/2-Jan-01GETB.htm/A.htm15:30:01/2-Jan-01GETIndex.htm/link.htm15:30:01/2-Jan-01GET1.htm/index.htm15:30:01/2-Jan-01GETA.htm/index.htm15:37:09/2-Jan-01GETE.htm/C.htm15:35:11/2-Jan-01GETC.htm/A.htmMozilla/4.0(IE5.0W98)User1:Mozilla/4.0(IE4.0NT)User2:用户对话识别15:33:04/2-Jan-01GETInd页面视图识别1-A/res.phpBA.htm1-A/link.htmEC.htm1-CA.htmMozilla/4.0(IE5.0W98)User1:Mozilla/4.0(IE4.0NT)User2:页面视图识别1-A/res.php路径补全解决由于Cache带来的问题路径不全的问题路径补全解决由于Cache带来的问题路径不全的问题数据挖掘统计分析频繁项集和关联规则聚类分析和分类序列模式数据挖掘统计分析统计分析主要用于改进系统的性能、设计等包括:
1)最频繁访问的页面
2)每个页面的平均访问时间
3)通过一个站点的平均时间统计分析主要用于改进系统的性能、设计等频繁项集和关联规则可以寻找出经常频繁访问的page组,可用于修改Web站点的设计或提前缓冲页面,改进系统的性能。频繁项集和关联规则可以寻找出经常频繁访问的page组,包括两方面的应用:*user用于Marketsegmentation(市场分割)和个人内容定制*page(content)后者主要用于IR和冲浪辅助聚类和分类包括两方面的应用:聚类和分类序列模式可用于用户的visitpattern.包括:1.趋势分析2.拐点检测序列模式可用于用户的visitpattern.包括:模式分析目的是根据实际应用,通过用户的选择和观察,把发现的规则、模式和统计规律转换为知识。Visualization模式分析目的是根据实际应用,通过用户的选择和观察,把发现的规隐私保护数据挖掘隐私保护数据挖掘简介隐私保护数据挖掘面向企业信用评估的分布式隐私保护数据挖掘研究隐私保护数据挖掘隐私保护数据挖掘简介一、隐私保护数据挖掘简介WhatWhyWhoGoalHowAnExample一、隐私保护数据挖掘简介What什么是数据挖掘数据挖掘是从大量数据中提取或“挖掘”知识的过程。数据挖掘以客观、有效的数据源为物质基础。数据挖掘得到的知识是一种数据归纳的结果,是一种统计的知识。什么是数据挖掘数据挖掘是从大量数据中提取或“挖掘”知识的过程什么是隐私针对不同的应用环境,隐私定义不同。在信息时代,隐私指用户隐藏个人信息的权利和控制自己的信息给其他人的能力。什么是隐私针对不同的应用环境,隐私定义不同。什么是隐私保护数据挖掘“gettingvaliddataminingresultswithoutlearningtheunderlyingdatavalues”噪声背景的数据挖掘受限制的数据挖掘什么是隐私保护数据挖掘“gettingvaliddata数据挖掘可能会违反用户的隐私数据挖掘以准确的数据为数据源,进行数据归纳分析。个体隐私记录级和属性级上的隐私组织隐私结果级上的隐私,统计分析后的结果数据挖掘可能会违反用户的隐私数据挖掘以准确的数据为数据源,进什么人需要隐私保护数据挖掘?政府和公用事业部门疾病控制中心保险公司工商业组织跨国公司每个国家的法律是不同的军事情报分析犯罪行为分析反恐分析什么人需要隐私保护数据挖掘?政府和公用事业部门隐私的限制不会阻止数据挖掘数据挖掘的目标是结果的总结关联规则分类聚类结果本身不会违反隐私不包含个人身份信息反映的是整个数据的归纳统计结果,而不是针对每个单位Theproblemiscomputingtheresultswithoutaccesstothedata!隐私的限制不会阻止数据挖掘数据挖掘的目标是结果的总结隐私保护数据挖掘的目标PPDMencompassesthedualgoalofmeetingprivacyrequirementsandprovidingvaliddataminingresults.保护隐私和满足安全性要求(安全性)产生正确的数据挖掘归纳结果(准确性)提供高效的数据挖掘算法(高效性)AccuracyEfficiencyPrivacy隐私保护数据挖掘的目标PPDMencompassesth如何进行隐私保护数据挖掘如何进行隐私保护数据挖掘计算频繁项集:ABC
≥5%?2ABC=9DBSize=2001ABC=18DBSize=3003ABC=5DBSize=100ABC:R+count-freq.*DBSizeR=17ABC:17+5-.05*100ABC:17ABC:17+9-.05*200ABC:12ABC:12+18-.05*300ABC:19ABC:19≥R?ABC:YES!计算频繁项集:ABC≥5%?213ABC:R+coun计算频繁项集:ABC
≥5%?2ABC=9DBSize=2001ABC=18DBSize=3003ABC=5DBSize=100ABC:R+count-freq.*DBSizeR=17ABC:17+9-.05*200ABC:12+18-.05*300ABC:19≥R?ABC:YES!计算频繁项集:ABC≥5%?213ABC:R+coun二、隐私保护数据挖掘隐私保护数据挖掘分类保护个体用户隐私保护组织用户隐私研究方法数据隐藏安全多方计算二、隐私保护数据挖掘隐私保护数据挖掘分类保护个体用户隐私这是一种记录和属性级上的隐私保护。在原始数据库中,类似于标识符、姓名、地址和喜好等用户数据作为用户的隐私应该被保护。保护敏感的原始数据的隐私保护数据挖掘方法应该能够使得用户的敏感的原始数据被修改,以便数据的使用者不能对用户的原始数据进行直接存储,不能查看用户的隐私,以此保护用户的私有数据。保护个体用户隐私这是一种记录和属性级上的隐私保护。在原始数据个体隐私:保护记录每个项都不允许泄漏记录的一部分是可以泄漏的个人身份信息个体隐私:保护记录每个项都不允许泄漏个人身份信息删除标识符但是我们无法保证身份不能被推断候选码一些个体特有的属性DataMiningenablessuchtracing!个人身份信息删除标识符保护组织用户隐私这是一种结果级上的隐私保护,这里的目标不仅是保护个体用户的不被泄漏,而且一些重要的策略模式和数据挖掘之后的结果同样不能泄漏,在商业领域,这些模式被认为是能够提供有竞争力好处的知识,隐私必须被很好地保护。在数据挖掘的统计模型中,有很多挖掘出的知识也会泄漏用户的隐私。保护敏感的挖掘知识的隐私保护数据挖掘方法能够保护用户的敏感知识,以便不会被泄漏用作其他的目的,造成用户重要信息的泄密。保护组织用户隐私这是一种结果级上的隐私保护,这里的目标不仅是组织隐私保护个体隐私是不够的保护从组织中获得的敏感知识策略模式数据挖掘的结果目标:身份信息不能泄漏数据挖掘之后的模式和知识同样不能泄漏组织隐私保护个体隐私是不够的Database用户数据挖掘挖掘得到的知识变换后数据库隐藏敏感的知识Database用户数据挖掘挖掘得到的知识变换后隐藏敏感的知P3P发布的隐私策略协同达成的一致策略P3P发布的隐私策略隐私保护数据挖掘架构B2B的架构中,具体的事务分布在几个不同的站点。每个站点拥有一个包含大量事务的私有数据库。这里用到的主要计算技术是安全多方计算(Securedmultipartycomputation)及其变种。B2C的架构中,一个系统包含一个数据挖掘站点和众多的数据提供者。在线调查表是这种B2C架构的一个典型的例子。其中包含一个调查表收集器和分析器以及众多的数据提供者。隐私保护数据挖掘架构B2B的架构中,具体的事务分布在几个不同解决方法分类数据隐藏(DataObfuscation)对数据进行挖掘时,不能看到真实的数据安全多方计算仅仅可信的结点可以看到数据解决方法分类数据隐藏(DataObfuscation)数据隐藏目标:隐藏被保护信息私有数据可用噪声较大真实值不能确定得到数据隐藏目标:隐藏被保护信息主要技术匿名技术随机的数据转换(randomdataperturbation)阻塞技术(blocking)聚集或融合技术(aggregationormerging)交换技术(swapping)采样技术(sampling)主要技术匿名技术基于阻塞的技术(blocking)ABCD11101011000111101011ABCD111010?1?00111101011BlockingAlgorithmInitialDatabaseNewDatabase主要用于组织隐私的保护基于阻塞的技术(blocking)ABCD111010110随机的数据转换(randomdataperturbation)ABCD11101011000111101011SampleDatabaseABCD11101001000111101001DistortedDatabaseDistortionAlgorithm随机的数据转换(randomdataperturbati随机的数据转换目标统计属性可以较精确得到个体数据不能得到离散型变量转换布尔型变量分类型(Category)变量连续型变量转换布尔型变量转换分类型变量转换连续型变量转换随机的数据转换目标布尔型变量分类型变量连续型变量布尔型变量转换购物篮问题数据位以概率p被翻转对经过变化的数据进行挖掘布尔型变量转换购物篮问题分类型变量转换Select-a-sizeRandomizationCutandPasteRandomization分类型变量转换Select-a-sizeRandomizaSelect-a-sizeRandomization给定大小为t的事务,构造t’:选择j
属于0到m
P[j被选择的概率]=pm[j]把事务加入t的j个项加入事务·t’;其它不在事务t的属性以概率pm加入事务t’参数pm[j]和pm的选择基于需要的隐私度Select-a-sizeRandomization给定大第7课-数据挖掘的高级主题汇总课件CutandPasteRandomization给定大小为t的事务,构造t’:在0到Km间选择j把事务t
的j个项加入t’;事务t的其它项以概率pm加入t’参数Km和pm的选择基于所需要的隐私度CutandPasteRandomization给定大连续型变量隐私保护挖掘方法AgrawalandSrikant,SIGMOD’00Bayes’rule改进byAgrawalandAggarwal,SIGMOD’01ExpectationMaximization(EM)连续型变量隐私保护挖掘方法AgrawalandSrikaBayes’ruleAgrawalandSrikant(2000)DecisionTreesPerturbDatawithValueDistortion用户提供xi+r
代替xir是一个随机变量,服从分布平均分布[-a,a]高斯分布(u,σ)Bayes’ruleAgrawalandSrikantBayes’rulex1,x2,…,xn
是n个独立同分布的随机变量y1,y2,…,yn
是n个独立同分布的随机变量W=X+Y给定FY和W,估计FXBayes’rulex1,x2,…,xn是n个独立同分布第7课-数据挖掘的高级主题汇总课件安全多方计算Motivation:
分布式隐私保护数据挖掘目标:结果公布每个用户只知道自己的数据安全多方计算Motivation:分布式隐私保护数据挖掘第7课-数据挖掘的高级主题汇总课件比较数据隐藏安全多方计算复杂性一般高计算、通信安全性较高高主要问题安全性和准确性的折衷效率适用领域较广Web,Corporate小规模分布式Corporate比较数据隐藏安全多方计算复杂性一般高安全性较高高主要问题安全第7课-数据挖掘的高级主题汇总课件分布式隐私保护数据挖掘的目标安全性分析知道自己的数据和最终的结果不清楚其它用户的数据避免相互勾结通信分析分布式隐私保护数据挖掘的目标安全性分析分布式隐私保护数据挖掘方法Semi-HonestModelMalicious分布式隐私保护数据挖掘方法Semi-HonestModel分类水平分布型数据(HorizontalPartitioning)垂直分布型数据(VerticalPartitioning)分类水平分布型数据(HorizontalPartition水平型分布数据水平型分布数据垂直分布型数据垂直分布型数据第7课数据挖掘的高级主题徐从富,副教授浙江大学人工智能研究所浙江大学本科生《数据挖掘导论》课件第7课数据挖掘的高级主题徐从富,副教授浙江大学本科生内容提纲Web挖掘隐私保护数据挖掘内容提纲Web挖掘Web
挖掘KnowledgeWWWWeb挖掘KnowledgeWWWWeb挖掘简介Web日志挖掘Web挖掘简介WebMining简介产生原因应用分类过程WebMining简介产生原因产生原因网络信息搜集的需求与收集结果低效性的矛盾迫切需要对网络资源的整序与检索。传统数据挖掘和文本挖掘技术的不断完善和应用。产生原因网络信息搜集的需求与收集结果低效性的矛盾迫切需要对网应用查询相关信息从Web数据发现潜在的未知信息了解用户的兴趣爱好信息个性化应用查询相关信息Web挖掘分类WebMiningWebContentMiningWebUsageMiningWebStructureMiningWeb挖掘分类WebMiningWebContentWeb内容挖掘Web内容挖掘是从文档内容或其描述中抽取知识的过程。Web内容挖掘策略直接挖掘文档的内容在其它工具搜索的基础上进行改进Web内容挖掘Web内容挖掘是从文档内容或其描述中抽取知识的Web内容挖掘(续)提取文字、图片或者其他组成网页内容成分的信息,即通过有效的内容挖掘能告诉我们哪些页面是德文或者法文的?哪些站点卖我们喜欢的东西?哪些页面介绍了我们感兴趣的知识?搜索引擎、智能代理和一些推荐引擎都使用内容挖掘来帮助客户在浩瀚的网络空间中寻找所需的内容。Web内容挖掘(续)提取文字、图片或者其他组成网页内容成分的Web结构挖掘Web结构挖掘研究的是Web文档的链接结构,揭示蕴含在这些文档结构中的有用模式,处理的数据是Web结构数据。是从WWW的组织结构和链接关系中推导知识。由于文档之间的互连,WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的页面。Web结构挖掘Web结构挖掘研究的是Web文档的链接结构,揭Web结构挖掘(续)提取网络的拓扑信息――网页之间的链接信息,即通过有效的结构挖掘能告诉我们哪些页面被其他页面所链接?哪些页面指向了其他页面?哪些页面的集合构成了一个独立的整体?Web结构挖掘(续)提取网络的拓扑信息――网页之间的链接信息Web日志挖掘Web日志挖掘的主要目标则是从Web的访问记录中(Web服务器log日志)抽取感兴趣的模式。WWW中的每个服务器都保留了访问日志(Webaccesslog),记录了用户访问和交互的信息。分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。Web日志挖掘Web日志挖掘的主要目标则是从Web的访问记录Web日志挖掘(续)一般的访问模式跟踪通过分析日志数据来了解用户的访问模式和倾向,以改进站点的组织结构个性化的使用记录跟踪倾向于分析单个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供定制的站点。Web日志挖掘(续)一般的访问模式跟踪Web日志挖掘(续)提取关于客户如何运用浏览器浏览和使用这些链接的信息,即通过有效的日志挖掘能告诉我们那些客户访问了哪些页面?在每一页上待了多长时间?下一步单击了什么?在站点中是按照怎样的访问路线通向检查计数器,又是通过怎样的路线直接退出的?Web日志挖掘(续)提取关于客户如何运用浏览器浏览和使用这些Web内容挖掘Web结构挖掘Web日志挖掘处理数据类型IR方法:无结构数据、半结构数据数据库方法:半结构化数据Web结构数据用户访问Web数据主要数据自由化文本、HTML标记的超文本HTML标记的超文本Web文档内及文档间的超链Serverlog,Proxyserverlog,Clientlog表示方法词集、段落、概念、IR的三种经典模型对象关系模型图关系表、图处理方法统计、机器学习、自然语言理解数据库技术机器学习、专有算法统计、机器学习、关联规则主要应用分类、聚类、模式发现模式发现、数据向导、多层数据库、站点创建与维护页面权重分类聚类模式发现Web站点重建,商业决策Web内容挖掘Web结构挖掘Web日志挖掘处理数据IR方法:Web挖掘过程资源发现:在线或离线检索Web的过程,例如用爬虫(crawler)或(spider)在线收集Web页面信息选择与预处理:对检索到的Web资源的任何变换都属于此过程。词干提取高低频词的过滤汉语词的切分综合过程:自动发现Web站点的共有模式分析过程:对挖掘到的模式进行验证和可视化处理Web挖掘过程资源发现:在线或离线检索Web的过程,例如用爬Web日志挖掘Web日志挖掘数据类型Web日志挖掘应用Web日志挖掘过程Web日志挖掘Web日志挖掘数据类型服务器日志服务器日志数据类型ClientIP:0AuthenticatedUserID:--Time/Date:[10/Nov/1999:10:16:39-0600]Request:"GET/HTTP/1.0"Status:200Bytes:-Referrer:“-”Agent:"Mozilla/4.61[en](WinNT;I)"数据类型ClientIP:0Web日志挖掘应用Applications电子商务中发现潜在客户增强终端用户信息获取的质量提高Web服务器的性能合理放置广告提高站点设计欺诈和入侵检测预测用户行为Web日志挖掘应用ApplicationsWeb日志挖掘过程Web日志挖掘过程第7课-数据挖掘的高级主题汇总课件第7课-数据挖掘的高级主题汇总课件Web日志挖掘过程预处理数据挖掘模式分析Web日志挖掘过程预处理数据预处理数据清理用户对话识别页面视图识别路径完整数据预处理数据清理第7课-数据挖掘的高级主题汇总课件数据清理根据一组原始的日志项,完成一系列基本任务,如归并日志、解析日志等。对于一些网站,需要过滤掉图象文件,这可以通过检查文件后缀实现。一般地,我们需要对日志中的状态码(statuscode)进行检查。数据清理根据一组原始的日志项,完成一系列基本任务,如归并日志清理后的SampleLogIPAddressTime/DateMethod/URIReferrerAgent15:30:01/2-Jan-01GETIndex.htm/link.htmMozilla/4.0(IE5.0W98)15:30:01/2-Jan-01GET1.htm/index.htmMozilla/4.0(IE5.0W98)15:30:01/2-Jan-01GETA.htm/index.htmMozilla/4.0(IE5.0W98)15:37:09/2-Jan-01GETE.htm/C.htmMozilla/4.0(IE5.0W98)15:33:04/2-Jan-01GETIndex.htm/res.phpMozilla/4.0(IE4.0NT)15:33:04/2-Jan-01GET1.htm/index.htmMozilla/4.0(IE4.0NT)15:33:04/2-Jan-01GETA.htm/index.htmMozilla/4.0(IE4.0NT)15:35:11/2-Jan-01GETB.htm/A.htmMozilla/4.0(IE4.0NT)15:35:11/2-Jan-01GETC.htm/A.htmMozilla/4.0(IE5.0W98)清理后的SampleLogIPAddressTime/D用户对话识别1.IPAddress&Agent2.EmbeddedSessionID3.Registration(UserProfile)4.Cookie5.SoftwareAgent(Applet&Scrtipt)6.ModifiedBrowser用户对话识别1.IPAddress&Agent用户对话识别(续)方法说明隐私性保护优点缺点IP地址/代理服务器假定每个独立IP地址/代理服务器组是独立用户低通常可用,无需附加技术。无法保证唯一性,在随机或者轮换IP情况下失效嵌入式对话ID通过动态形成页面将ID加入每个链接低/中等通常可用,不需依赖于IP地址无法了解重复访问,需要完全动态站点。注册用户确切地登陆站点中等可以跟踪单个用户,而不仅仅是浏览器不是全部用户都愿意注册Cookie在客户端机器上保留标识符中等/高可以跟踪重复访问能被禁止。不为大众接收软件代理服务器程序载入浏览器从而将日志数据返回高可以得到单个Web站点的确切日志数据很可能被拒绝。不为大众接收改进型浏览器浏览器记录日志数据非常高可以得到关于整个Web的日志数据用户必须确切地得到软件用户对话识别(续)方法说明隐私性保护优点缺点IP地址/代理服用户对话识别15:33:04/2-Jan-01GETIndex.htm/res.php15:33:04/2-Jan-01GET1.htm/index.htm15:33:04/2-Jan-01GETA.htm/index.htm15:35:11/2-Jan-01GETB.htm/A.htm15:30:01/2-Jan-01GETIndex.htm/link.htm15:30:01/2-Jan-01GET1.htm/index.htm15:30:01/2-Jan-01GETA.htm/index.htm15:37:09/2-Jan-01GETE.htm/C.htm15:35:11/2-Jan-01GETC.htm/A.htmMozilla/4.0(IE5.0W98)User1:Mozilla/4.0(IE4.0NT)User2:用户对话识别15:33:04/2-Jan-01GETInd页面视图识别1-A/res.phpBA.htm1-A/link.htmEC.htm1-CA.htmMozilla/4.0(IE5.0W98)User1:Mozilla/4.0(IE4.0NT)User2:页面视图识别1-A/res.php路径补全解决由于Cache带来的问题路径不全的问题路径补全解决由于Cache带来的问题路径不全的问题数据挖掘统计分析频繁项集和关联规则聚类分析和分类序列模式数据挖掘统计分析统计分析主要用于改进系统的性能、设计等包括:
1)最频繁访问的页面
2)每个页面的平均访问时间
3)通过一个站点的平均时间统计分析主要用于改进系统的性能、设计等频繁项集和关联规则可以寻找出经常频繁访问的page组,可用于修改Web站点的设计或提前缓冲页面,改进系统的性能。频繁项集和关联规则可以寻找出经常频繁访问的page组,包括两方面的应用:*user用于Marketsegmentation(市场分割)和个人内容定制*page(content)后者主要用于IR和冲浪辅助聚类和分类包括两方面的应用:聚类和分类序列模式可用于用户的visitpattern.包括:1.趋势分析2.拐点检测序列模式可用于用户的visitpattern.包括:模式分析目的是根据实际应用,通过用户的选择和观察,把发现的规则、模式和统计规律转换为知识。Visualization模式分析目的是根据实际应用,通过用户的选择和观察,把发现的规隐私保护数据挖掘隐私保护数据挖掘简介隐私保护数据挖掘面向企业信用评估的分布式隐私保护数据挖掘研究隐私保护数据挖掘隐私保护数据挖掘简介一、隐私保护数据挖掘简介WhatWhyWhoGoalHowAnExample一、隐私保护数据挖掘简介What什么是数据挖掘数据挖掘是从大量数据中提取或“挖掘”知识的过程。数据挖掘以客观、有效的数据源为物质基础。数据挖掘得到的知识是一种数据归纳的结果,是一种统计的知识。什么是数据挖掘数据挖掘是从大量数据中提取或“挖掘”知识的过程什么是隐私针对不同的应用环境,隐私定义不同。在信息时代,隐私指用户隐藏个人信息的权利和控制自己的信息给其他人的能力。什么是隐私针对不同的应用环境,隐私定义不同。什么是隐私保护数据挖掘“gettingvaliddataminingresultswithoutlearningtheunderlyingdatavalues”噪声背景的数据挖掘受限制的数据挖掘什么是隐私保护数据挖掘“gettingvaliddata数据挖掘可能会违反用户的隐私数据挖掘以准确的数据为数据源,进行数据归纳分析。个体隐私记录级和属性级上的隐私组织隐私结果级上的隐私,统计分析后的结果数据挖掘可能会违反用户的隐私数据挖掘以准确的数据为数据源,进什么人需要隐私保护数据挖掘?政府和公用事业部门疾病控制中心保险公司工商业组织跨国公司每个国家的法律是不同的军事情报分析犯罪行为分析反恐分析什么人需要隐私保护数据挖掘?政府和公用事业部门隐私的限制不会阻止数据挖掘数据挖掘的目标是结果的总结关联规则分类聚类结果本身不会违反隐私不包含个人身份信息反映的是整个数据的归纳统计结果,而不是针对每个单位Theproblemiscomputingtheresultswithoutaccesstothedata!隐私的限制不会阻止数据挖掘数据挖掘的目标是结果的总结隐私保护数据挖掘的目标PPDMencompassesthedualgoalofmeetingprivacyrequirementsandprovidingvaliddataminingresults.保护隐私和满足安全性要求(安全性)产生正确的数据挖掘归纳结果(准确性)提供高效的数据挖掘算法(高效性)AccuracyEfficiencyPrivacy隐私保护数据挖掘的目标PPDMencompassesth如何进行隐私保护数据挖掘如何进行隐私保护数据挖掘计算频繁项集:ABC
≥5%?2ABC=9DBSize=2001ABC=18DBSize=3003ABC=5DBSize=100ABC:R+count-freq.*DBSizeR=17ABC:17+5-.05*100ABC:17ABC:17+9-.05*200ABC:12ABC:12+18-.05*300ABC:19ABC:19≥R?ABC:YES!计算频繁项集:ABC≥5%?213ABC:R+coun计算频繁项集:ABC
≥5%?2ABC=9DBSize=2001ABC=18DBSize=3003ABC=5DBSize=100ABC:R+count-freq.*DBSizeR=17ABC:17+9-.05*200ABC:12+18-.05*300ABC:19≥R?ABC:YES!计算频繁项集:ABC≥5%?213ABC:R+coun二、隐私保护数据挖掘隐私保护数据挖掘分类保护个体用户隐私保护组织用户隐私研究方法数据隐藏安全多方计算二、隐私保护数据挖掘隐私保护数据挖掘分类保护个体用户隐私这是一种记录和属性级上的隐私保护。在原始数据库中,类似于标识符、姓名、地址和喜好等用户数据作为用户的隐私应该被保护。保护敏感的原始数据的隐私保护数据挖掘方法应该能够使得用户的敏感的原始数据被修改,以便数据的使用者不能对用户的原始数据进行直接存储,不能查看用户的隐私,以此保护用户的私有数据。保护个体用户隐私这是一种记录和属性级上的隐私保护。在原始数据个体隐私:保护记录每个项都不允许泄漏记录的一部分是可以泄漏的个人身份信息个体隐私:保护记录每个项都不允许泄漏个人身份信息删除标识符但是我们无法保证身份不能被推断候选码一些个体特有的属性DataMiningenablessuchtracing!个人身份信息删除标识符保护组织用户隐私这是一种结果级上的隐私保护,这里的目标不仅是保护个体用户的不被泄漏,而且一些重要的策略模式和数据挖掘之后的结果同样不能泄漏,在商业领域,这些模式被认为是能够提供有竞争力好处的知识,隐私必须被很好地保护。在数据挖掘的统计模型中,有很多挖掘出的知识也会泄漏用户的隐私。保护敏感的挖掘知识的隐私保护数据挖掘方法能够保护用户的敏感知识,以便不会被泄漏用作其他的目的,造成用户重要信息的泄密。保护组织用户隐私这是一种结果级上的隐私保护,这里的目标不仅是组织隐私保护个体隐私是不够的保护从组织中获得的敏感知识策略模式数据挖掘的结果目标:身份信息不能泄漏数据挖掘之后的模式和知识同样不能泄漏组织隐私保护个体隐私是不够的Database用户数据挖掘挖掘得到的知识变换后数据库隐藏敏感的知识Database用户数据挖掘挖掘得到的知识变换后隐藏敏感的知P3P发布的隐私策略协同达成的一致策略P3P发布的隐私策略隐私保护数据挖掘架构B2B的架构中,具体的事务分布在几个不同的站点。每个站点拥有一个包含大量事务的私有数据库。这里用到的主要计算技术是安全多方计算(Securedmultipartycomputation)及其变种。B2C的架构中,一个系统包含一个数据挖掘站点和众多的数据提供者。在线调查表是这种B2C架构的一个典型的例子。其中包含一个调查表收集器和分析器以及众多的数据提供者。隐私保护数据挖掘架构B2B的架构中,具体的事务分布在几个不同解决方法分类数据隐藏(DataObfuscation)对数据进行挖掘时,不能看到真实的数据安全多方计算仅仅可信的结点可以看到数据解决方法分类数据隐藏(DataObfuscation)数据隐藏目标:隐藏被保护信息私有数据可用噪声较大真实值不能确定得到数据隐藏目标:隐藏被保护信息主要技术匿名技术随机的数据转换(randomdataperturbation)阻塞技术(blocking)聚集或融合技术(aggregationormerging)交换技术(swapping)采样技术(sampling)主要技术匿名技术基于阻塞的技术(blocking)ABCD11101011000111101011ABCD111010
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024中国华录集团限公司下属子企业华录信产公开招聘2人易考易错模拟试题(共500题)试卷后附参考答案
- 2024上海市奉贤区第八批储备人才及定向选调生招募91人易考易错模拟试题(共500题)试卷后附参考答案
- 2024“才聚齐鲁成就未来”山东文化产权交易所夏季招聘2人易考易错模拟试题(共500题)试卷后附参考答案
- 2024年度企业级SaaS服务合同2篇
- 2024年度出租车行业工会福利改善合同
- 2024年度版权质押合同:某出版公司版权质押贷款合同
- 2024年度家具定制设计与制作合同2篇
- 2024年度楼板倒置工程项目融资合同
- 2024年度旅游服务合同:定制旅行服务与合作2篇
- 2024年度版权购买合同的版权转让方式和权益保障
- 签派员执照考试题库汇总-8签派和实践应用
- 混凝土用砂石质量及检验方法标准课件
- 某低密度住宅案例分析
- 销售人员十大军规课件
- (完整)高位水池施工方案改
- 创伤外科跟骨骨折诊疗指南
- 中班数学活动:认识数字8课件
- 人教版四年级上册数学 总复习 图形与几何 教案(教学设计)
- 金融工程学(第五版)第5章互换工具及其配置
- 新闻热点评报课件
- 学院学科建设工作会议发言稿
评论
0/150
提交评论