使用挖掘介绍及趋势_第1页
使用挖掘介绍及趋势_第2页
使用挖掘介绍及趋势_第3页
使用挖掘介绍及趋势_第4页
使用挖掘介绍及趋势_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023/9/1WebUsageMining1提纲1.简介1.1WUM的定义和应用1.2WUM基本的过程1.3原型系统和商用系统2.趋势2023/9/1WebUsageMining2WebMining的分类[1][2]:1.ContentMining2.StructureMining3.UsageMiningWebMining分类2023/9/1WebUsageMining31.1.1定义(JaideepSrivastava[1])“theprocessofapplyingdataminingtechniquestothediscoveryofusagepatternsfromWebdata”2023/9/1WebUsageMining41.1.2功能SystemImprovement1).SiteImprovement2).WebCachingandNetworkTransmission(E.Cohen[5])2023/9/1WebUsageMining51.1.2功能1).SiteImprovement根据实际用户的浏览情况,调整网站的网页的连接结构和内容,更好的服务用户A=>B=>C=>DA=>D极端:Adaptivewebsites(MikePerkowitz[7][8])2023/9/1WebUsageMining61.1.2功能2).Caching&NetworkTransmission(E.Cohen[5])例如:从proxy的访问信息中可以分析用户的访问模式,从而可以预测用户的Page访问,提高WebCaching的性能A=>B=>CA=>B=>DA=>BCached:C、D2023/9/1WebUsageMining71.1.2功能*与传统的销售途径不同的是:网上零售系统可捕捉到大量的采购过程的细节,提供了更加深入分析的可能2023/9/1WebUsageMining81.1.2功能Personalization定义:根据发现的用户喜好,动态地为用户定制观看的内容 或提供浏览建议。直接实现形式:Recommender系统([10]J.BenSchafer)。作用:1)方便用户查询和浏览2)增强广告的作用3)促进网上销售4)提高用户忠诚度2023/9/1WebUsageMining91.2基本的过程*1).DataGathering2).Preprocessing3).Patterndiscovery4).Patternsanalysis2023/9/1WebUsageMining101.2基本的过程SiteFiles,RawUsageData,UserProfileSiteContent&Structure,Server/Session/EpisodeDataUsageStatistics,UserClusters,AssociationRules,SequentialPatternsKnowledge1).DataGathering2).Preprocessing4).Patternsanalysis3).Patterndiscovery2023/9/1WebUsageMining111.2.1DataGathering可以利用的WebData包括:1).Content:页面的实际内容2).Structure:包括intra-structure和inter-structure3).Usage:例如:ClickStream4).UserProfile:例如:registrationdata和customerprofiles5.BusinessData?2023/9/1WebUsageMining121.2.1DataGathering数据来源:1)ServerLevelCollection2)ClientLevelCollection3)ProxyLevelCollection2023/9/1WebUsageMining131.2.1DataGatheringServerLevelCollection:WebLogFile2)PacketSniffing技术缺点是扩展性差(加密通道和用户跟踪)3)WebPageContent&structure4)ApplicationServer2023/9/1WebUsageMining141.2.1DataGatheringClientLevelCollection:优点是可以比较全面和准确收集到用户数据Applet&Script 缺点:不支持代理,功能会被用户关闭。Modifiedbrowser 优点是全面和准确收集到用户数据,缺点是需要吸引或强制用户使用2023/9/1WebUsageMining151.2.1DataGatheringProxyLevelCollection:这种数据收集方式适合有大量静态页面的网站2023/9/1WebUsageMining161.2.2Preprocessing1).Content&Structure2).UsageData2023/9/1WebUsageMining171.2.2PreprocessingContent&Structure:解决两个问题第一、page的独特性的表示方法?第二、page的内容和结构的量化形式(quantifiableform)2023/9/1WebUsageMining181.2.2Preprocessingstructure举例:ABCSiteMapEindex1AB1CFNavigationMixedMediaPageType2023/9/1WebUsageMining191.2.2PreprocessingABCSiteMap的结构可表示为:M=<F1,F2,F3,F4,F5,F6,F7>F1={index,(frame,1,left|frame,A,main)}F2={1,(get,A,main),(get,C,main)}F3={A,(get,B,top)}F4={C,(get,E,top),(get,F,top)}F5={B}F6={E}F7={F}2023/9/1WebUsageMining201.2.2PreprocessingIndex=>1-A=>1-C=>EIndex=>1-A=>BMap的结构表示了用户可能的click访问的路径2023/9/1WebUsageMining211.2.2PreprocessingContentClassification:1)UsageType2)ContentFeatures*具体种类的划分跟应用的环境相关2023/9/1WebUsageMining221.2.2PreprocessingUsageType1)HeadPage例如:Index2)MediaPage例如:B,E,F3)NavigationPage例如:1,C4)MixedPage例如:A2023/9/1WebUsageMining231.2.2PreprocessingContentFeatures([22]SoumenChakrabarti):1。可以使用vectorspacemodel来表示page的内容:把page的示成一个在此高维空间中的一个向量page出现的term作为向量的维,维对应的值是通过某种方式计算出来的权重(例如:TFIDF),它反映了term在此page区别其他page的时候的重要程度。2。Clustering&Classification2023/9/1WebUsageMining241.2.2PreprocessingUsageData:数据的抽象[4]1.User2.PageView(Click)

用户在某个时刻看到的浏览器中的内容3.ClickStream

一组连续的pageview请求4.UserSession(transaction)用户的阶段性的clickstream,可以跨多个服务器5.ServerSession

用户的,在一个服务器上的阶段性的clickstream6.Episode

用户session中的一段有意义的clickstream2023/9/1WebUsageMining251.2.2PreprocessingUsageData:数据的抽象[4]RawDataPageViewClickStreamUserSessionServerSessionEpisodes2023/9/1WebUsageMining261.2.2PreprocessingUsagePreprocessing的流程1.数据清理2.识别User/Session3.识别PageView4.识别Episode2023/9/1WebUsageMining271.Datacleaning:*把log条目分割成对应的数据项目*剔除图片或其它非page类的log条目*剔除spider/agent的访问条目*规格化URI*提取POST数据项1.2.2Preprocessing2023/9/1WebUsageMining281.2.2Preprocessing清理后的SampleLogIPAddressTime/DateMethod/URIReferrerAgent15:30:01/2-Jan-01GETIndex.htm/link.htmMozilla/4.0(IE5.0W98)15:30:01/2-Jan-01GET1.htm/index.htmMozilla/4.0(IE5.0W98)15:30:01/2-Jan-01GETA.htm/index.htmMozilla/4.0(IE5.0W98)15:37:09/2-Jan-01GETE.htm/C.htmMozilla/4.0(IE5.0W98)15:33:04/2-Jan-01GETIndex.htm/res.phpMozilla/4.0(IE4.0NT)15:33:04/2-Jan-01GET1.htm/index.htmMozilla/4.0(IE4.0NT)15:33:04/2-Jan-01GETA.htm/index.htmMozilla/4.0(IE4.0NT)15:35:11/2-Jan-01GETB.htm/A.htmMozilla/4.0(IE4.0NT)15:35:11/2-Jan-01GETC.htm/A.htmMozilla/4.0(IE5.0W98)2023/9/1WebUsageMining292.UserandSessionidentification:1.2.2Preprocessing1.IPAddress&Agent2.EmbeddedSessionID3.Registration(UserProfile)4.Cookie5.SoftwareAgent(Applet&Scrtipt)6.ModifiedBrowser2023/9/1WebUsageMining30在只有IP/Agent的情况下,我们假设User和Session是等同*的:1.2.2Preprocessing15:33:04/2-Jan-01GETIndex.htm/res.php15:33:04/2-Jan-01GET1.htm/index.htm15:33:04/2-Jan-01GETA.htm/index.htm15:35:11/2-Jan-01GETB.htm/A.htm15:30:01/2-Jan-01GETIndex.htm/link.htm15:30:01/2-Jan-01GET1.htm/index.htm15:30:01/2-Jan-01GETA.htm/index.htm15:37:09/2-Jan-01GETE.htm/C.htm15:35:11/2-Jan-01GETC.htm/A.htmMozilla/4.0(IE5.0W98)User1:Mozilla/4.0(IE4.0NT)User2:2023/9/1WebUsageMining313.PageViewIdentification:1.2.2Preprocessing1-A/res.phpBA.htm1-A/link.htmEC.htm1-CA.htmMozilla/4.0(IE5.0W98)User1:Mozilla/4.0(IE4.0NT)User2:2023/9/1WebUsageMining32PathCompletion解决由于Cache带来的问题路径不全的问题1.2.2Preprocessingtime1-A1-C1-E1-C1-FSession_1Session_22023/9/1WebUsageMining334.EpisodeIdentification:1.2.2Preprocessing定义:meaningfulsubsetofuser/serversessionAuxiliary-MediaEpisodes:timeAAMMAAAMAEpisode1Episode2Episode32023/9/1WebUsageMining34Auxiliary-MediaEpisodes:1.2.2Preprocessing可以使用的方法包括:1)Pagetype2)Referencelength3)MaximalForwardReference2023/9/1WebUsageMining351).PagetypeEpisode:根据pageview的类型来确定1.2.2PreprocessingtimeAAMMAAAMAEpisode1Episode2Episode3SessionX缺点是,必须要求每个pageview有固定的用途。2023/9/1WebUsageMining362).ReferenceLengthEpisode:pageview的类型是根据用户在此处停留的时间来确定。停留时间相对长的,就认为是MediaPage,停留时间短的则是一个AuxiliaryPage1.2.2Preprocessing2023/9/1WebUsageMining372).MaximalForwardReferenceEpisode[23,chen]它的假设是:一个episode是访问某个Mediapage的一个最大深度的pageview引用路径,即从用户session的第一个pageview开始,一直向前访问,直到有一个backwardpageview出现1.2.2PreprocessingIndex1-A1-CE1-CBTimeEpisode1Episode22023/9/1WebUsageMining381.2.3PatternDiscovery其中有:1)StatisticalAnalysis2)FrequentItemsetsandAssociationRules3)Clustering&Classification4)SequentialPatterns5)DependencyModeling2023/9/1WebUsageMining391.2.3PatternDiscovery1)StatisticalAnalysis主要用于改进系统的Performance,design等包括:1)mostfrequentlyaccessedpages 2)averageviewtimeofapage 3)averagelengthofapaththroughasite2023/9/1WebUsageMining401.2.3PatternDiscovery2)FrequentItem-setsandAssociationRules可以寻找出经常频繁访问的page组,可用于修改WebSite的设计或提前缓冲页面,改进系统的性能。2023/9/1WebUsageMining411.2.3PatternDiscovery3)Clustering&Classification包括两方面的应用:*user用于Marketsegmentation(市场分割)和个人内容定制*page(content)后者主要用于IR和SurfAssistance2023/9/1WebUsageMining421.2.3PatternDiscovery5)SequentialPatterns可用于用户的visitpattern.包括:1.trendanalysis2.changepointdetection3.similarityAnalysis.2023/9/1WebUsageMining431.2.3PatternDiscovery6)DependencyModeling不仅提供了理论化分析用户行为的框架,同时也可以用来,提高网上产品销量,提高用户的访问提供方便可以使用的方法有:1)MarkovModel2)BayesianBriefNetwork2023/9/1WebUsageMining441.2.4PatternAnalysis目的是根据实际应用,通过用户的选择和观察,把发现的rules,patterns和statistics转换为知识Knowledge。1)Informationfiltering(例如:SQL),2)Visualization3)OLAP4)KnowledgeQuery2023/9/1WebUsageMining451.3原型系统和商用系统2023/9/1WebUsageMining46IBM:SpeedTracer[17]从日志文件中重建usertraversalpath,然后识别出usersession;在此基础上,利用数据挖掘算法发现mostcommontraversalpath和frequentlyvisitedpagegroup;系统提供三种统计类型的报告:1)user-based例如:频繁访问本站的前N名的用户地址2)path-based例如:被频繁访问的前N名的路径3)group-based例如:被频繁访问的前N名的pagegroup2023/9/1WebUsageMining47WebLogMiner[14,15]经过清理的log数据以DataCube的形式存储在Database中提供OLAP提供包括序列模式和关联规则在内的多种数据挖掘的方法SimonFraserUniversity

2023/9/1WebUsageMining48WebUtilizationMiner完整的logpreparation,querying和visualization主要提供sequencepattern的发现提供MINT查询语言3)提供树结构的sequencepattern显示方式http://wum.wiwi.hu-berlin.de/德国柏林Humboldt大学商学院2023/9/1WebUsageMining492.Trends2023/9/1WebUsageMining50PAKDD20011.ServerLog提供的可用信息太少2.动态页面的大量使用使得分析log更为困难3.Session的分析一直是个难点[19]4.其他一些数据没有记录:例如:Searchkeywords5.Crawlers的过滤6.巨大的数据量及其自动转换7.MarketLevelinsightRonKohavi:

MiningE-CommerceData:TheGood,theBad,andtheUgly.*WUM在E-Commerce领域内的应用还刚起步2023/9/1WebUsageMining51WEBKDD’2000主题:WebMiningforE-Commerce--ChallengesandOpportunities2023/9/1WebUsageMining52[16]提出了Recommender系统的在E-Commerce领域内的发展机遇和挑战:1)结合多种用户数据的,建立subtlerecommender系统*DemographicInformation例如:registerdata*PurchaseData*ExplictRating例如:用户对产品的评价*OwnershipData2)Recommender系统和市场分析决策结合(*)3)用户数据的共享4)道德问题5)扩展性*Recommender/Personalization系统可能的切入点2023/9/1WebUsageMining53WUM技术与现有的E-Commerce系统集成可能的切入点2023/9/1WebUsageMining54改造和构造新的算法,把原有旧的数据源(例如WebLog)和新的数据(BusinessData)结合起来,用以发现新的UsagePattern可能的切入点2023/9/1WebUsageMining55在文[20][21]中把把用户的TranversalPattern和purchasingPattern结合起来考虑,并构建了一个算法用以挖掘用户的largetransactionpattern(使用规则来表示).可能的切入点2023/9/1WebUsageMining56可能的切入点:提供完整的应用功能1.数据收集,清理和转换2.数据存储3.数据挖掘4.个人定制5.市场分析和决策2023/9/1WebUsageMining57可能的切入点:提供完整的应用功能2023/9/1WebUsageMining58Conclusion[1]JaideepSrivastava,RobertCooley,MukundDeshpande,Pang-NingTan,WebUsageMining:DiscoveryandApplicationsofUsagePatternsfromWebData(2000).SIGKDDExplorations,Vol.1,Issue2,2000.[11]RobertCooley,BamshadMobasher,andJaideepSrivastava,DataPreparationforMiningWorldWideWebBrowsingPatterns(1999),KnowledgeandInformationSystemsV1(1).2023/9/1WebUsageMining59[1]JaideepSrivastava,RobertCooley,MukundDeshpande,Pang-NingTan,WebUsageMining:DiscoveryandApplicationsofUsagePatternsfromWebData(2000).SIGKDDExplorations,Vol.1,Issue2,2000.[2]RobertCooley,BamshadMobasher,andJaideepSrivastava,WebMining:InformationandPatternDiscoveryontheWorldWideWeb(ASurveyPaper)(1997),inProceedingsofthe9thIEEEInternationalConferenceonToolswithArtificialIntelligence(ICTAI'97),November1997.[3]WWW.W3C.ORG,W3CWorkingDraftWD-logfile-960323[4]WWW.W3C.ORG,WebCharacterizationTerminology&DefinitionsSheet,W3CWorkingDraft24-May-1999[5]E.Cohen,B.Krishnamurthy,andJ.Rexford.Improvingend-to-endperformanceofthewebusingservervolumesandproxyfilters.InProc.ACMSIGCOMM,pages241-253,1998.[6]T.FawcettandF.Provost.Activitymonitoring:Noticinginterestingchangesinbehavior.InFifthACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,pages53-62,SanDiego,CA,1999.ACM.[7]MikePerkowitz,OrenEtzioni:TowardsadaptiveWebsites:Conceptualframeworkandcasestudy.ArtificialIntelligence118(1-2):245-275(2000)[8]MikePerkowitz,OrenEtzioni:AdaptiveWebSites:anAIChallenge.IJCAI(1)1997:16-23[9]AlexBuchnerandMauriceDMulvenna.Discoveringinternetmarketingintelligencethroughonlineanalyticalwebusagemining.SIGMODRecord,27(4):54-61,1998.[10]J.BenSchafer,JosephA.Konstan,JohnRiedi,Recommendersystemsine-commerce,ProceedingsoftheFirstACMConferenceonElectronicCommerce(EC-99),November3-5,1999,Denver,CO,USA.ACM,1999158-166[11]RobertCooley,BamshadMobasher,andJaideepSrivastava,DataPreparationforMiningWorldWideWebBrowsingPatterns(1999),KnowledgeandInformationSystemsV1(1).2023/9/1WebUsageMining60[12]J.Han,O.R.Za?ane,andY.Fu,``ResourceandKnowledgeDiscoveryinGlobalInformationSystems:AScalableMultipleLayeredDatabaseApproach'',Proc.ofaForumonResearchandTechnologyAdvancesinDigitalLibraries(ADL'95),McLean,Virginia,May1995.[13]O.ZaianeandJ.Han,``WebML:QueryingtheWorld-WideWebforResourcesandKnowledge'',Proc.(CIKM'98)Int'lWorkshoponWebInformationandDataManagement(WIDM'98),Bethesda,Maryland,Nov.1998,pp.9-12.[14]J.Pei,J.Han,B.Mortazavi-Asl,andH.Zhu``MiningAccessPatternsEfficientlyfromWebLogs'',Proc.2000Pacific-AsiaConf.onKnowledgeDiscoveryandDataMining(PAKDD'00),Kyoto,Japan,April2000.[15]O.R.Zaiane,M.Xin,J.Han,``DiscoveringWebAccessPatternsandTrendsbyApplyingOLAPandDataMiningTechnologyonWebLogs'',Proc.AdvancesinDigitalLibrariesConf.(ADL'98),SantaBarbara,CA,April1998,pp.19-29.[16]J.BenSchafer,JosephA.Konstan,JohnRiedi,Recommendersystemsine-commerce,ProceedingsoftheFirstACMConferenceonElectronicCommerce(EC-99),November3-5,1999,Denver,CO,USA

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论