ch5-4非结构化数据挖掘web入门_第1页
ch5-4非结构化数据挖掘web入门_第2页
ch5-4非结构化数据挖掘web入门_第3页
ch5-4非结构化数据挖掘web入门_第4页
ch5-4非结构化数据挖掘web入门_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

TheWebisperhapsthesinglelargestopendatasourceintheWebmining利用数据挖掘技术自动从Web文档与服务中发现或抽取信息(Etzioni,1996).JaideepSrivastava借鉴数据挖掘的定义将Web挖掘定义为 和隐藏的信息”。 Web与数据挖掘、信Web挖掘与传统数据挖掘的对象的不同:结构化数据、(非/半)结Web从特定文档集中返回与检索需求相关的文包括文档建模、分类、索引、结果排序与可视化Web等流程挖掘技术一般用于分类、索引以及结果排信息检索的结果往往也是WebWeb挖掘与信息从给定的文档中抽取特定类别的信息,如元数据信抽取方法能够自动或半自动的方法建立利用信息抽取可以建Mininginterestingpatternsandknowledgeleadsbetterinformationandknowledgebusiness moreefficientorganizingWeb到一个站点的所有者都会留下浏览的踪迹,这些信息自动在Web服务器的日志文件中。Web分析工的信息。例多少人了该页面,他们从哪来,哪的商店到Internet上的电子交易,同时也改变了销售商上数据挖掘的潜力在于应用存在的和的数据挖掘算法,分析Innt服务器上的日志以及顾客、销售和产品的外部数据。 的信息因特网上蕴 索引擎得到的是孤立而凌乱的“表面信息”,Web挖掘将Web上的丰富信息转变成有用的知识:Web面向Web数据进行分析和知识提取的。因特网中页、页面间、页面、页面等都包含大量对用户可用的信息,而这些信息的次含义是很难被对用户进行信息个性化: 息个化将的发展趋势。通过掘可达用户 行、频度、内容等的分析以于用户 行为和方式的普遍知识用改服的计供个性化的服。就电子商务而言,Web数据挖掘有以下三个方面的益 理解顾客行为通过理 者的动态行为来优化电子商 的经电子销售商可以获 者的个 决 上 者 者的转化率决定顾客的回头率(顾客第二 同一品牌的概率发现顾客 模式 者的浏览模式发现什么样的顾客群 什么商品发现电子商 上顾客之间的联系判断Web站点的效率发现站点上的 率部分和 率部分 电子销售商可以根据不同的客户提供个性化服评估电子商务模式的成功与否容易将用户按模式分类容易评 的投资回报率容易得到可靠的市场回馈信息 数据自身的复杂性以及在获取方面的局限性,导致Web挖掘与传统的数据挖掘相比,着一些新的。Web数据的高度异构性:挖掘对象是异构的;信息组织方式是异构半结构化特动态存在噪音数据:页面中与挖掘应用无关的信息;质量低下的页面息 Web丰度问题(AbundanceProblem)。丰度问题是由 有限覆盖问题(LimitedCoverageProblem)。PIWvsDeep检索接口的局限性。搜擎都采用 是 的辑合为索件这检接很明地语具词义(Polysemy)与一义多词(Synonymy)特性。 &电脑 IntraInterInternetUsageClickSupplementalRegistrations

Web数据

Web容数Web结构数Web日志数据

页数据超系统级日志

HTML(非结构化文本图像音元数页面超页面超HTML、XMLWeb服器日服务器日志浏览器端日志应用级日Web挖掘依Web内容挖掘(WebContentWeb使用挖掘(WebUsageWeb结构挖掘(WebStructureMining)Web内容挖

使用挖

结构挖文本挖

文档结构挖

站点结构挖

系统改

站点修

商业智

页面推WebContentWebStructureWebUsage-接据、-User自动地从数以百万计的Web站点 数据库中搜索和获取信息资料尽管人们可以直接从网上通过抓取建立索引,实现检索服务来获资源,但是大量的“隐藏”信息只能通过内容挖掘来自动挖掘内容挖掘:We内容挖掘的目标是对大量文档的非结构化动查找和检索用户感的知识。由于上的数据是多种不同类型的数据的混合,如文本、图像、声音和等,以及数据的非结构化属性使得挖掘方法不同于一般数据挖掘的方法。当前大多数的信息描述仍以文本为主,因此,目前关于内容挖掘的讨论主要是针对文本。Web结构挖掘结构挖掘是对页面的 结挖在整个里的仅在的容之中,而且也包含在页面的 结构之中。定的页面集合,构挖掘可以现页面间的关信息,页面之间的包含、 属。结构挖掘的目标是生成关于某个b点结和面构的概括信息因挖重于 。结构挖掘的一个要内容b档身结示了b页面的组织方式。b文结信对浏以及其他一些操作如页架间对成特有用,在基于结构的b档类聚中很。Web

上 数,Pj∈Bi表示第j个页面指向Pi迭代法:Ik+1=问题 黑洞(只进不出T

解决:随 (RandomWalk)理T页面随机的。那么,当你发现T 接,其中一个指向Pi,那么你下一 PBl

走到Pi的几率就是1/lj 的整个过程中,假设你随

留在Pj上的时间是Tj,那么你停留在Pi要性模

的时间就

jTij一致 PjBi随机到页面2(一个黑洞)的时候,尽管没有,但我们可以假设下一步游走等概率到任意一个其它页面,即PageRankABC AABCAB00CA0B0C给定初始PageRank(5,0,

ABABC

(2.5,0,A1B112CA1B112C (2.5,1.25,

(1.25,1.25,

(2,1得到最终结果(0.4,0.2,0.4)AABC值:(0.4,0.2,0.4) 1.有 具有注释性,也有 是起导航 作用。有注释性的接才用 了多个指 网页的 结构Goodhub:pagethatpointstomanygoodGoodauthority:pagepointedtobymanygoodGivenKeywordQuery,assignahubandanauthoritativetoeachPageswithhighauthorityareresultsof1、得出根集页3、根据公式计算新一轮的H和A的值45、重复3、4,vAHIterativealgorithmonBaseSet:authorityweightsa(p),andhubweightsh(p).Setauthorityweightsa(p)=1,andhubweights=1forallRepeat o(andthenre-normalizeaandhtohaveunit

v1v

a(p) qpointsto

h(p)

ppointsto 网页中一些无关 影响A,H值的计算 (TKC,Tightly-KnitCommunity 1999–“SixDegreesofKevinBacon”Theory:“AnytworandomlychosenWgesare,oage,19clicksawayfromeachother.”Thiswastakenasameasureofthe“diameter”oftheWeb…2000–TheBowTieTheorysaysit’smuoreAlargescalestudy(Altavistacrawls)revealsinterestingpropertiesofwebStudyof200millionnodes&1.5billionSmall-worldpropertynotapplicabletoentireSomepartsOthershavelongAlargescalestudy(Altavistacrawls)revealsinterestingpropertiesofwebStudyof200millionnodes&1.5billionSmall-worldpropertynotapplicabletoentireSomepartsOthershavelong 连结,而少数节点则拥有大量连结与WebContentMining和WebStructureMining不同的是,WebUsageMining的挖掘对象是用户和网络交互日志信息包括日期、时间、用户IP地址、服务器IP地址、方法、所请求URL资源、服务器响应状态、用户、发送字WebUsageMining就是对系统日志信息,以及用户的数Web使用挖掘的特 数据容量大、分布广、内涵一个中等大小 每天可以记载几兆的用 信息信息形态多样信息具有丰富的内涵Web使用挖掘的特 数据包含决策可用的信息 同一类用户 ,代表同一类用户的个性一段时期 数据代表了群体用户的行为和群体用的共 信息数据 的设计者 桥梁 信息数据是开展数据挖掘研究的良好的对Web使用挖掘的特 信息挖掘的 群b用户的访问b哪些特点?如果掌握b问结,那么就可以找到一其些最相似一的相

问这,页,那么服务 就可这个新的访样的设提 典型面向群 者,能够 吸 保 者:如 具有更好的结构设计,就能留住用户避 防 复杂的页面结构不知所措,即遇到 的问题。改进页面群体推荐:针对群体用户 偏好,推荐他们 的东西针对性服务:如在合适路径上,就可以放置相应内容 面向群体每一 者,能够个性化推 个性化推销(DirectMarketing):识别出对某种 信息挖掘的数由于Web世界的分布性,用户行为被广泛地分布记录在Web服务器、用户客户端,和服务器中。在各个分布地点的不同的用户信息表征了不同类型的用户行为。挖掘工作必须针对数据的特点来决定相应的挖掘任务。用户信息的分务 服务器:代理务器记录了多个用户记录 用对单单

单个

站 行为,同 服务 点的用 为。客户 用户cheBooark也记 内容。单个站点 偏好服务器 信一个Web服务器日志(Serverlog)反映出多个用户 一个从实际Web服务器 的Log文件片段IPAddress--10/Dec/1998:12:34:32"GET/graduate.htm-----10/Dec/1998:12:34:58-服务器 信服务器端 信息包括用 日志和Cache中 的页面信息 8,HEAD\SWANG,Mozilla/4.0(compatible;MSIE4.0;Windows95),Y,99-3-15:57:44,W3Proxy,NTPROXY,-, ,,80,200,582,1376,,tcp,GET, /cjc/cjcw2.html,-,Inet,304,8,HEAD\SWANG,Mozilla/4.0(compatible;MSIE4.0;Windows95),Y,99-3-15:57:44,W3Proxy,NTPROXY,-, ,,80,270,2101,http,tcp,GET, /cjc/introc.html,-,VCache,304,8,HEAD\SWANGMozilla/4.0(compatible;MSIE4.0;Windows95),Y,99-3-15:57:44,W3Proxy,NTPROXY,-, ,,80,171,449,1110,,tcp,GET, /cjc/star.gif,-,Inet,304,8,HEAD\SWANG,Mozilla/4.0(compatible;MSIE4.0;Windows95),Y,99-3-15:57:44,W3Proxy,NTPROXY,-, ,,80,211,455,826,tcp,GET, Web使用挖Web信息挖掘的基础和最烦琐的工作是数据的预处理。预处理用户信息是整个数据准备的工作,也是开展下一阶段Web信息挖掘的基础。预处理阶段主要的工作是识别用户事务和片断。WebUsageMining在预处数据:由于数据表示、写入的对象差异以及用户的兴需要确定合理的数据策略识别用户事务:在对Web日志数据进行数据挖掘之前,需要把对Web页的序列组织成逻辑单元以表征事务或用户会话。数合并数据:在给定挖掘时间段后,数据需要合并Web服务 的处理:由于搜索引擎或其他一些自动日志中存在大量的由它们发出的请求。因此从日志中(Agent)或网络蠕虫(CrawlerorSpider)对站点 正规化URL:由于各种默认情况的存在为<名字,值>对的形式tip,tip,uid,{(l.ip,l.uid,l.url,l.time,l.timelength,l.lengthtttttttt111111,...,(lt.ip,lt.uid,lt.url,lt.time,lt.timelength,lt.length)}mmmmmmwhere,for1km,ltL,lt.ipip,lt.uiduid lt.timeltkk.timeC,ltk.timelengthlt.timeltkk.time在Web日志中,用户的事务并不是一个显然的结果,需定义设L为用 日志,其中的一个项lL包括用户的IP地l.ip,用户的标识符l.uid,被存取页的URL地址l.url,长度 事务被定义为这里C是一个固定的时间其他信息的预处理导航内容片在一些电子商 中,需要知道用户到达个内容页之前是经历哪些导航页的。例如,一个 事务为:N1,N2,N3,C1,N4,N5, 片断1:N1,N2,N3,C1片断2:N4,N5,N6,C2片断3:N7,N8,C3片断4:N9,N10,N11,N12,C4最大前 序 的事务。显然在用户拓扑结构。在Web使用挖掘中的常路径分 使用关联规则发现方法可以从 事务集中,找到 分聚可以从WebUsage数据中 Web使用挖数据数据的来源分为服务器 服务器,和客户端数据数据的类型主要分为结构,内容 信息,用户概貌文件用户的数成,或者数据由多个用户的信息构成。站点的数在数据集中的Web站点的个数表现为:或者在数据中只记录单个站点的信息,或者记录多个站点的信息服务b单个用户即意味着个性化。挖Web信息挖掘所采用的各种数据挖掘方法,例如利用Web使用挖掘实现用户建由于b的特性,对的经营者和设计者而言,无法直接了解用户的特性。然而对b的服务方而言显得尤为重要法得到用户的特性。“用户建模”(ModelingUsers)是指根据 推 者的人口统计特在不打扰用户的情况下,得到用户概貌根据用户 模式来聚类用利用Web使用挖掘发现导航模发现导航模式(DiscoveringNavigationPatterns)是 用户导航模式的主要应用在改进站点设计和个性化推等方面2.个性化行销(Direct4.利用模板发现导航模5.利用超文本概率文法发现导航模 改进Web站点效率方法的比方特优 改进Web站点效率方法的比方特优缺Web服务器送技Bin相关的文档会提前推送到Proxy存在冗余推问题自适Perkowit

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论