网络信息挖掘_第1页
网络信息挖掘_第2页
网络信息挖掘_第3页
网络信息挖掘_第4页
网络信息挖掘_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、名词简单论述知识发现数据库中的知识发现(konwledge discovery in database,KDD)是指从大量数据.中 提取出可信的、新颖的、有效的并能被人们理解的模式的处理过程。网络信息的知识发现:指在大型网络(主要是Internet)的信息和信息的使用记录的数据中挖 掘出潜在的、有意义的和有规律性的知识。目的:进一步开发网络信息资源,提高网络信息 的利用价值,满足有关用户的需求。查全率是衡量某一检索系统从文献集合中检出相关文献成功度的一项指标,即检出的相关文 献与全部相关文献的百分比。查准率:检出的相关文献与检出的全部文献的百分比支持度定义为数据库中同时包含产品A和B的事务占总

2、事务的最小百分比置信度定义为数据库中同时包含产品A和B的事务占只包含产品A的事务的百分比。知识发现系统是支持知识发现过程的软件或工具系统集成(integration)指将分散的部分形成一个有机整体虚拟数据库(Virtual DataBase, VDB)是使外界的数据表现为一个特定的关系数据库系统的 一个扩展。web结构挖掘 是对web页面超链关系、文档内部结构、文档URL中的目录路径结构等的 挖掘,即从web的组织结构和链接关系中推导知识。SEO搜索引擎优化SEO的主要工作是通过了解各类搜索引擎如何抓取互联网页面、如何进行索引、以及如何 确定搜索引擎对某些特定关键词的搜索结果排名等技术,来对网

3、站网页进行相关的优化,提 高在搜索引擎上的排名,最终提升网站的综合能力。文本挖掘(text mining)是指从非结构化的文本中发现潜在的知识。目的:是从不同格式的 文本中发现有用的知识,是一个分析文本并从中抽取特定信息的过程。反信息频率IDF(Inverse Document Frequence )。基于这样一个假设:稀有词比常用词包含更 新的信息。IDF因子的值随包含某个词的信息数量反向变化,在极端情况下,只在一篇文章 中出现的词有最高的IDF值、知识发现的过程模型SPSS 提出的 5A 模型,即 Assess, Access,Analyze,Act,AutomateSAS 提出的 SEM

4、MA 模型;Sample、Explore、Modify、Model、Assess知识发现和数据挖掘的联系和区别数据挖掘和知识发现有着密切的联系。数据挖掘(data mining)就是从大量的,不完全的,模糊的,随机的数据中提取人们感兴趣 的知识的过程。知识发现是指从数据中发现有用知识的整个过程。知识发现包括数据选择,数据预处理,数 据转换,数据挖掘,模式解释和知识评价等多个步骤,数据挖掘是这一过程的一个特定步骤。 数据挖掘是知发现过称中一个关键步骤,它利用特定的数据挖掘算法从数据中抽取模式数 据挖掘算法位于知识发现整个过程的核心知识发现与信息检索的联系和区别信息检索是从大量的数据中查找到特定的

5、信息通常不能够发现隐藏在数据中的联系和规 律。知识发现目的是在大量似乎无关的数据中发现规则和知识。区别具体表现(1)方法不同。信息检索是目标驱动的,用户需要明确提出查询要求;而知识发现是随机 的,其结果独立于用户的信息需求,也是用户所无法预知的。(2)着眼点不同。信息检索着重于文档中的字词和链接;而知识发现试图更多地理解其内 容和结构隐含的意义。(3)目的不同。信息检索的目的在于帮助用户发现资源;而知识发现是为了揭示文档信息 中隐含的知识。(4)评价方法不同。信息检索:查全率和查准率;知识发现:置信度、支持度、收益 率、简洁性(5)使用场合不同。用户希望在大量的信息中找到特定的信息时,需要利用

6、检索方法;用户希望发现信息集合中所具有的含义、结构、趋势等场合下,就需要使用到知识发现 技术。知识发现的实现过程1)确定目标 确定目标根据用户的要求,确定知识发现是发现何种类型的知识。2)数据准备数据选择数据集成数据降维和转换3数据挖掘数据挖掘是知识发现最关键的步骤。第一步是要确定挖掘的任务然后根据数据挖掘的目的确定适当的数据挖掘方法,4)模式的评估数据挖掘得到的模式模型,可能是没有实际意义或没有实用价值的,也可能是 不能准确反映数据的真实意义,甚至在某些情况下可能是与事实相反的,因此需要评估,确 定哪些是有效的、哪些是用的模式。5)知识的运用运用知识有两种方法:一种是只需看知识本身所描述的关

7、系或结果,便可以 对决策提供支持;另一种是要求对新的数据运用知识,由此可能产生新的问题,而需要对知 识做进一步的优化。网络信息知识发现方法的适用性分析神经网络法具有对非线性数据快速拟合的能力,对于复杂情况仍能得到精确的预测结果;缺 点是无法解释结果,对输入数据类型有要求,容易受过度训练的影响,计算量大。决策树产生直观、易理解的规则,分类不需太多计算时间,且计算容易,可处理类别、连续 变量,可清楚指明对预测和分类最重要的域;缺点是数据越复杂,决策树分支越多,越难管 理。遗传算法可处理许多数据类型,可并行处理,常用于优化神经元网络等技术;缺点是需要参 数(杂交率、突变率,初始群体个数,染色体长度等

8、)太多,对许多问题进行编码比较困难, 得到的是满意解而非最优解,计算量大。遗传算法常与其他技术集成,可用于分类、聚类、 关联及序列模式分析等挖掘。数据挖掘语言的设计原则(1)可说明相关的数据源。(2)在挖掘请求中可说明挖掘的类型,即用户希望发现的规则,包含关联规则、序列模式、 聚类、分类规则等。(3)结构和语法尽量靠近SQL,能与SQL保持自然的融合,便于用户使用。(4)可说明知识成立的阈值。根据要发现的规则包含有支持、信任度、噪声大小等域值。可 以灵活过滤那些不是很感兴趣的知识。挖掘的结果能够用比较概括的或多层次概念的术语来表述。更应该可视化。挖掘的过程中应能运用相关的背景知识。网页链接挖掘

9、分析所包含的内容较多,主要包括:链接和被链接量,是网页链接分析中最基本的测度链接网页的类型,包括域名、语种、学科、专业、载体等,对分析网络信息资源的分布及 其关系、确定各网页信息的参考价值有较大帮助链接的频次和变化,反映网页信息交流在时间上的变化规律链接网页之间的关系,如同被链接、链接耦合、自我链接等,可以了解相应学科的相互交 流情况、发展关系、学科研究的最新动态,掌握网页编制者之间的关系等;网络电子图书和期刊引证分析,可以科学准确地确定网络核心期刊,为用户提供有关的信 息或依据影响因子=被引次数总计:发文量总计迷路:上网用户通常会遇到两个问题:一是不知道当前所处节点的具体位置;二是不知道怎样

10、才能 到达想要去的节点。这就是所谓的“迷路”现象。原因1超文本系统的结构很灵活,任意跳转容易造成迷路2网络缺乏有效的导航机制,用户对所描述的内容不熟悉或者多所查找的目标不太确定,都 会造成迷路3由于背景知识的差异或同词多义等多方面原因对于某一问题或概念,不同的人可能有不 同的认识和理解4网络的数据模型,尤其是链往往缺乏语义人们难以从链中直接了解到连接的内容5超文本导航机制往往单纯考虑文本因素解决迷路问题的主要途径1)层次化方法2)语义聚类法 3)鱼眼图 4)路径法 5)导航图HTML优点:通用性强,HTML作为www中共同的信息描述方式,可以实现不同平台的文档共享创建灵活,HTML文档是纯文本

11、文件,它可以由各种文本编辑工具创建,在www浏览器 上都可以运行。HTML缺点:表现过于简单 HTML文件将数据和数据的表现集中在一起,形式较为单调。链路容易断 链宿地址改变后,链源不能自动纠正。检索时所花的时间较长,检索到的内容针对性较差,返回的结果太多扩展性差 HTML的标记集合是固定的,用户不能自定义有意义的标记。缺少语义性HTML是一种标记语言,它不能很好地揭示信息内容的本质。XML的主要特点自描述性XML通常包含一个文档类型声明,因而XML文档是自描述的。可扩展性XML的主要特性体现在可扩展性结构良好XML建立在基本嵌套结构的基础之上,文档组织良好,数据高度结构化,结 构性强,文件结

12、构嵌套可以比较复杂,能表示面向对象的等级层次;语义性强HTML文档只是包括格式和结构的标记,而XML可以自行设计有意义的标 记。内容和表现相分离XML提供了一种结构化的数据表示方式,使得用户界面与结构 化数据分离。理解类(似乎是)词汇切分在切分词条时,先根据标点进行粗切分,然后再分别使用正向和反向最大匹配法进行细切分. 如果切分结果相同,则认为切分正确关联规则的发现关联规则的发现可以用来找出某次服务器会话中最经常出现的相关网页。在网络信息服务中 关联规则的发现也就是要找到用户对网站上各种信息之间访问的相互联系,这些信息之间可 能存在或可能不存在直接的联系。序列模式的发现序列模式的发现就是在时间

13、有序的事务集中,找到那些“一些项跟随另一个项”的内部事务模 式。找出会话间的模式,利用会话间的时间排序,预测未来的访问模式:可以用来进行趋势 分析、转折点检测和相似分析等。web服务器日志(能看懂日志各部分的含义)包括访问者的IP地址、访问时间、访问方式(GET/POST)、被请求文件的URL、HTTP版 本号、返回码、传输字节数、协议和错误代码计算类遗传算法遗传算法是一种优化技术,它利用生物进化的一系列概念进行问题的搜索,最终达到优化的 目的。把问题编码染色体算出每条染色体的适应性对适应性强的进行重组和转换最终得到适应性最强的染色体(最优解)神经网络法神经网络是模拟人类的形象直觉思维,在生物

14、神经网络研究的基础上,根据生物神经元和神 经网络的特点,通过简化、归纳、提炼总结出来的一类并行处理网络。j=0激励值就是所有输入与它们对应权重的之乘积之总和a = wlxl + w2x2 + w3x3 + w4x4 + w5x5 +.+ wnxn可以有任意n个输入,n代表总数X为输入值 W为权值 wlxl + w2x2 + w3x3 +.+ wnxn + t *( - 1) = 0T为阈值分层次聚类法(最短距离法)思路:寻找“距离”最近的两个样本结合有N个样本的集合Zs=Z1, Z2, ., ZN若想要聚成K个类(事先给定K)1 k=N, Ci=Zi, i=1,2,.,N if k=K the

15、n END找到Ci与Cj之间的距离d(Ci, Cj)最小的一对Ci和Cj合成一个类Ci,并计算新的Ci的中心去除 Cj, k=k-1. goto 2PageRank 算法PageRank (A) = (1-d) + d(PageRank (T1)/C(T1) + . + PageRank (Tn)/C(Tn) 其中PageRank (A)表示给定页面A的PageRank得分;D为阻尼系数,取值在01之间,page将其设为0.85;PageRank (T1)表示指向A的页面的PageRank得分;C(T1)表示页面T1所拥有的导出链接数量;PageRank (Tn)/C(Tn)表示为每一个指向A

16、页的页面重复相同的操作步骤。相似性计算Cosine; Si辑(d=假设计算d1和d2的相似度,那么ai和bi分别表示d1和d2中各个词的词频,我们以Cosine 为例:I1*0+2*3+0*0+5*44-7*6-1-0*84-9*0+0*0+0*0Sim(d d Ei(ai*bi)11 2 bf J(12 + 22+O2 + 52 + o2+72 + o2+92 + 02+o2)*(o2 + 32+02+42+02 + 62+82+02 + 02+o2)面向时间的探索法使用全局和本地时间超时的估计去区分连续的会话,面向结构的方法则 使用静态站点结构或在服务器日志被调用域中隐藏的链接结构。H1:

17、所有的会话长度都不会超过一个界限。将t0作为会话S中的第1个请求的时间戳,如果t- t0 e,拥有时间戳t的请求将被分到会话s中。H2:在一个页面上停留的时间不会超过一个界限0。将t1作为会话中一个请示的时间戳,如果下一个请示的时间戳为t2,且t2-t1 6,则将此请求加入S中。H-ref:如果对请求q的调用来自当前会话S,则将q加入会话S中,否则,q作为一个新的 会话的开始。在使用这种探索法时需要注意的是,有可能请求q被多于一个的会话所调用, 因为q可能在之前多个会话中被访问到。在这种情况下,可以用其他住处来进行区分。比如, q可以被加到最近打开的符合上面要求的会话中。使用H1方法,e =3

18、0分钟TimeIPURLRef0:01123A0:091.2.3.BA0:191.2.3.CA0:251.2.3.EC1:151.2.3.A1:261.2.3.FC1:301.2.3.BA1:361.2.3.DB0:01A-0:09BA0:19CA0:25EC115A126FC130BA136DBFig. 12.5. Example of sessionization with a time-oriented heuiiitic使用H2和h-ref方法,且6 =10分钟User 1TimeIPURLRefSession 10:011.2.3. 4A0,011.2, 3.4A0;091. 2. 3. 4BA1.2. 3. 4BA0;191.2.3. 4CA1.2,3.4CAOs251.2. 3. 4EC0;251,2. 3.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论