


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、网络信息资源的数据挖掘类型与应用研究随着internet的飞速开展,网络信息资源急剧增长,网络信息过载问题日益突出,人们越来越多地关注如何开发和利用这些资源。然而,目前中英文搜索引擎均存在查准率、查全率不高的现象,这种现状无法适应用户对高质量的网络信息效劳的需求;同时,电子商务以及各种网络信息效劳迅速兴起,原有的网络信息处理与组织技术无法赶上这样的开展趋势。网络信息挖掘就是在这样的环境下应运而生,并迅速成为网络信息检索、信息效劳领域的热点之一。网络信息的数据挖掘不仅包括对网页内容本身的挖掘,也包括其链接形式,以及用户访问、存娶阅读、发布、操作等操作行为、访问行为所产生的信息的挖掘。有效地研究、
2、挖掘、利用网络信息可以增强网站的吸引力,有的放矢地吸引用户群,更有效地利用网络资源。一、网络信息资源及其特点网络信息资源是指放置在英特网上能满足人们信息需求的信息集合。网络信息资源极其丰富,包罗万象,其内容涉及农业、生物、化学、数学、天文学、航天、气象、地理、计算机、医疗和保险、历史、法律、音乐和电影等几乎所有专业领域,是知识、信息的宏大集合,是人类的资源宝库。网络信息资源是一种新型数字化资源,与传统文献相比有较大的差异。网络信息资源具有一下特点:1、数量大,类型多传播范围广。网络信息类型多样,有文本、数据、图像、图形、声频、视频信息、多媒体信息等;内容既有高质量的信息,也有有害信息和虚假信息
3、,有个人信息也有在政府信息。最为特殊的是各种非正式信息被广泛消费与传播。2、网络信息资源没有统一的管理机制,信息平安缺乏保障。黑客攻击、计算机病毒和色情泛滥成为网络的三大痼疾。为防止有害信息消耗了大量的社会资源。3、网络信息资源分布零乱无序,信息更新快,寿命短,管理相对困难。信息发布自由,来源广泛,内容混杂,质量不一,控制也比拟困难。4、以网站为信息活动的单位,以网页为信息发布和搜集的单元。5、信息利用程度取决于网站软硬件的技术程度和效劳才能,网络信息提供方式是以网站为基点并可在网站间灵敏链接的信息效劳网。6、网络创造了多层次的信息交流形式,全面反响了社会生活的各个领域,形成了百科全书式的知识
4、网络和传播功能。二、数据挖掘的语言数据挖掘语言有助于数据挖掘系统平台的标准化,推动数据挖掘应用的开展。数据挖掘语言根据功能和侧重点的不同,可分为三种类型:数据挖掘查询语言、数据挖掘建模语言、通用数据挖掘语言。一数据挖掘查询语言dql数据挖掘查询语言dql由数据挖掘原语组成。数据挖掘原语用来定义一个数据挖掘任务,通过查询的方式实现与数据挖掘系统通信,获得所需信息。数据挖掘查询语言dql主要有五种根本的数据挖掘原语定义:任务相关数据原语、被挖掘的知识的种类原语、背景知识原语、兴趣度测量原语、被发现形式的表示和可视化原语。dql是基于这五种数据挖掘原语设计的查询式语言,类似于sql语言的语法,因此很
5、容易与sql关系查询语言集成,很容易从关系数据库中挖掘知识信息。sql是另一个数据挖掘查询语言,由iielinski和virani提出。它使用了类似于sql的语法和sql原语,为了标准规那么产生和规那么选择,提出了被称作getrule和seltrule的原语。二数据挖掘建模语言pl数据挖掘建模语言pl全称预言模型标记语言preditivedelarkuplanguage,是对数据挖掘模型进展描绘和定义的语言,使数据挖掘系统在模型定义和描绘方面有法可依,各种数据挖掘系统可以共享模型,又可以在应用程序系统中间嵌套数据挖掘模型,不需要单独开发,就能使数据挖掘到达深度挖掘的目的。预言模型标记语言pl是
6、一种基于xl的数据挖掘建模语言,利用xl描绘和存储数据挖掘模型,使用标准的xl解析器对pl解析,可以得到预计的输入和输出数据类型。pl2.0主要由:标题header、数据字典dataditinary、数据流datafl、挖掘模型iningshea、数据转换derivedvalues、statistis、taxny、nralizatin、预言模型treedel、naivebayes、generalregressin、regressindel、sequenes、generalstruture、assatinrules、neuralnetrk、enteranddistributinbasedlust
7、ering、模型组合定义enseblesfdels、选择和结合模型和模型组合的规那么rulesfrseletingandbiningdelsandenseblesfdels、异常处理的规那么rulesfrexeptinhandling等九个局部组成。对于复杂的数据挖掘任务,由多个数据源和数据挖掘模块,需要在各个模块之间交换结果,预言模型标记语言pl的主要组成局部拥有这种灵敏的模型交换才能和数据格式转换才能,并实现模型与数据和工具局部别离。因pl是基于xl的数据挖掘建模语言,合适局部学习、元学习、分布式学习的数据挖掘应用程序。三通用数据挖掘语言ledbfrd通用数据挖掘语言ledbfrd是200
8、0年3月微软公司推出的一个数据挖掘语言,目的是为数据挖掘行业提供一个业界标准。ledbfrd综合了数据挖掘查询语言dql和数据挖掘建模语言pl的特点,既能定义模型,又能作为查询语言与数据挖掘系统通信,进展交互的和特殊的数据挖掘,实现了数据与模型真正别离。ledbfrd是一种基于sql预言的协议,扩大了sql语言语法,可以轻松地与关系型数据库集成,可以将不同的数据挖掘算法嵌入数据挖掘应用程序。ledbfrd为了更接近关系型数据库构造,定义了几个重要的概念。数据挖掘模型datainingdel,d:d像数据库中的关系表,但是它包含了一些特殊的列,这些列被数据挖掘中的数据训练和预言制定使用。d既可以用来创立预言模型,又可以产生预言。标准的关系表用来存储原始数据而d存储被数据挖掘算法发现的形式,对于从事eb挖掘的开发人员,d所有的构造和内容都可以用xl字符串表示。预言联接操作prediatinjinperatin:预言联接操作类似于sql语言中的连接操作,在一个训练好的数据挖掘模型和输入数据源之间映射一个连接查询,将能得到符合需求
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2017建设工程合同范本
- 新员工GMP基础知识培训课件
- 加工车间合同范例
- 医药试剂购销合同范例
- 2014施工合同范例
- 单位汽车购车合同范例
- 卫浴供货安装合同范本
- 包装授权合同范例
- 券商发债业务合同范例
- 上料合同范例
- 儿童节约用水你我同行3月22日世界水日主题班会PPT
- YC/T 478-2013烟草商业企业卷烟物流配送中心安全管理规范
- GB/T 24456-2009高密度聚乙烯硅芯管
- GB 6222-2005工业企业煤气安全规程
- 幼儿园惊蛰来了课件
- 转包违法分包等违法行为认定查处管理办法讲座课件
- PLM解决方案与NX培训教材课件
- 部编版六年级下册道德与法治全册优秀课件
- 【精选】方剂学解表剂练习题
- 法制宣传教育小报
- 上海西郊国际农产品展示直销中心贵州馆入驻方案
评论
0/150
提交评论