版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1/1数据挖掘读书笔记
导语:数据挖掘(DataMining)是一项较新的数据库技术,它基于由日常积累的大量数据所构成的数据库,从中发现潜在的、有价值的信息——称为知识,用于支持决策。以下xx为大家介绍文章,欢迎大家阅读参考!
1、数据挖掘要解决的问题
可伸缩(算法在处理各种规模的数据时都有很好的性能。随着数据的增大,效率不会下降很快。)
高维性(简单的说就是多维数据的意思。平时我们经常接触的是一维数据或者可以写成表形式的二维数据,高维数据也可以类推,不过维数较高的时候,直观表示很难。)
异种数据和复杂数据
数据的所有权与分布(分布式数据挖掘:应付分布式海量数据的现代方法)
非传统的分析(传统方法:基于一种假设-检验模式;数据挖掘分析-时机性样本,而不是随机样本)
2、数据挖掘任务
1)预测任务(目标变量/因变量:被预测的属性;说明变量/自变量:用来做预测的属性)
2)描述任务
A预测建模:分类-预测离散的目标变量和回归-预测连续的目标变量
B关联分析
C聚类分析
D异常检测(识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点)
3、属性的四种类型
1)标称
2)序数
3)区间
4)比率
(布尔变量:BooleanVariable(布尔型变量)是有两种逻辑状态的变量,它包含两个值:真和假。如果在表达式中使用了布尔型变量,那么将根据变量值的真假而赋予整型值1或0。)
2
1.确定业务对象
清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的.
2.数据准备
1)数据清理
消除噪声或不一致数据。
2)数据集成
多种数据源可以组合在一起
3)数据选择
搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据.
4)数据变换
将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键.
3.数据挖掘
对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成.
4.结果分析
解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术.
5.知识的同化
将分析所得到的知识集成到业务信息系统的组织结构中去.
3、数据挖掘热点
电子商务网站的.数据挖掘
在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流,此部分数据主要用于考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。
生物基因的数据挖掘
生物基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,更需要一些新的和好的算法。现在还远没有达到成熟的地步。
文本的数据挖掘
在现实世界中,可获取的大部分信息是存储在文本数据库中的,由来自各种数据源的大量文档组成。由于电子形式的信息量的飞速增长,文本数据库得到飞速的发展。文档数据库中存储最多的数据是所谓的半结构化数据(semistructuredata),它既不是完全无结构的,也不是完全结构化的。在最近数据库领域研究中已由大量有关半结构化数据的建模和实现方面的研究。而且,信息检索技术已经被用来处理费结构化文档。传统的信息检索已经不适应日益增长的大量文本数据处理的需要。因此,文档挖掘就成为数据挖掘中一个日益流行而重要的流行课题。
数据挖掘
Web上有海量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。显然,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。因为它面临如下诸多挑战:
1、对于有效的数据仓库和数据挖掘而言,Web的存储量实在是太庞大了。
2、Web页面的复杂性远比任何传统的文本文档复杂得多。
3、Web是一个动态性极强得信息源。
4、Web面对的是一个广泛形形色色的用户群体。
5、Web上的信息只有很小的一部分是相关的或有用的。
一般的,Web数据挖掘可分为三类:Web内容挖掘(Webcontentmining),Web结构挖掘(Webstructuremining),Web使用纪律挖掘(Webusagemining)。
面向Web的数据挖掘是一项复杂的技术,由于上述种种挑战的存在,因而面向Web的数据挖掘成了一个难以解决的问题。而XML的出现为解决Web数据挖掘的难题带来了机会。由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决Web数据挖掘难题带来了希望。XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据,从而能描述搜集的Web页中的数据记录。同时,由于基于XML的数据是自我描述的,数据不需要有内部描述就能被交换和处理。作为表示结构化数据的一个工业标准,XML为组织、软件开发者、Web站点和终端使用者提供了许多有利条件。相信在以后,随着XML作为在Web上交换数据的一种标准方式的出现,面向Web的数据挖掘将会变得非常轻松。
4、数据挖掘的未来
当前,DMKD研究方兴未艾,其研究与开发的总体水平相当于数据库技术在70年代所处的地位,迫切需要类似于关系模式、DBMS系统和SQL查询语言等理论和方法的指导,才能使DMKD的应用得以普遍推广。DMKD的研究还会形成更大的高潮,研究焦点可能会集中到以下几个方面:
发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化。
寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互。
研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现WebMining。
加强对各种非结构化数据的开采(DataMiningforAudio&Video),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采。
交互式发
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 郑州黄河护理职业学院《动画短片创作实践》2023-2024学年第一学期期末试卷
- 浙大宁波理工学院《生物药物化学》2023-2024学年第一学期期末试卷
- 全程种植玉米高产高效栽培技术
- 餐饮行业投资指南模板
- DB2201T 72-2024 公共数据授权运营评估规范
- 生物学开题答辩模板
- 七夕节文化讲座
- 申请外国人签证邀请函需提供的材料
- 读后感《小王子》
- 二零二五年度赡养协议及养老产业市场调研合同范本3篇
- 2024届北京市通州区英语高三上期末统考试题含解析
- 国家免疫规划疫苗儿童免疫程序说明-培训课件
- 能源管理体系记录表单
- 智慧城市建设课件
- 污水处理厂提标升级可研
- 湖南省建设工程施工阶段监理服务费计费规则【实用文档】doc
- GB/T 6913-2008锅炉用水和冷却水分析方法磷酸盐的测定
- GB/T 18717.2-2002用于机械安全的人类工效学设计第2部分:人体局部进入机械的开口尺寸确定原则
- 中国文化概论(第三版)全套课件
- 117-钢结构工程质量常见问题与管控措施
- SHS5230三星指纹锁中文说明书
评论
0/150
提交评论