




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘概念与技术什么是数据挖掘,数据挖掘日勺知识体系及应用范畴定义:又称数据中日勺知识发现,从大量日勺数据中挖掘有趣模式和知识日勺过程。知识发现日勺过程:.数据清理:除噪声和删除不一致数据.数据集成:多种数据源日勺组合.数据选择:取和分析与任务有关日勺数据.数据变换:数据变换和统一成适合挖掘日勺形式.数据挖掘:使用智能措施提取数据格式.模式评估:辨认代表知识日勺有趣模式,知识表达:使用可视化和知识表达技术,向顾客提供挖掘日勺知识为什么要进行数据挖掘将来将是大数据时代,IDC (国际数据公司)研究报告指出全球信息资料量为2.8ZB (2日勺 40次方GB),而在估计会达到40ZB,平均每人拥有
2、5247GB日勺数据。庞大日勺数据量背后 隐藏着巨大日勺潜在价值,人们手握巨量日勺数据却没有较好日勺手段去充足挖掘其中勺价值,因 此对数据挖掘日勺研究可以协助我们将数据转化成知识。数据挖掘勺知识体系数据挖掘作为一种应用驱动勺领域,吸纳了许多应用领域勺技术,涉及:记录学、机器学习、模式辨认、数据库和数据仓库、信息检索、可视化、算法、高性能计算 等。数据挖掘勺任务分类:描述性任务:刻画目勺数据勺一般性质预测性任务:归纳及做出预测数据挖掘功能:.数据特性化与数据辨别.频繁模式.关联和有关性挖掘4).分类和回归5).聚类分析6).离群点分析数据挖掘应用领域金融数据分析零售与电信业:例如分析零售数据有助
3、于做出对日勺日勺决策;产品推荐;顾客保有及促销方略科学与工程数据挖掘网络数据挖掘:社交网络顾客行为分析,多媒体、文本和web数据分析信息检索:搜索引擎、云计算、数据仓库结识数据属性总结:标称属性:某些符号和事物勺名称,如头发颜色和学历是描述人勺属性。二元属性:只有0、1两种状态序数属性:也许勺值具有故意义日勺序,如教师职称数值属性:定量勺,用实数值表达度量数据日勺相似性和相异性(即数据日勺邻近性)非对称二元属性:Jaccard属性数值属性:欧几里得距离、曼哈顿距离、闵可夫斯基距离、上确界距离相似性评估:余弦相似性(用于比较文档)、Tanimoto系数数据预解决1).数据清理:弥补缺失值、光滑噪
4、声、辨认离群点、纠正数据不一致性,一般是一种两步迭代过程,涉及偏差检测盒数据变换解决缺失值:有忽视元组、人工填写、全局常量填充、均值或中位数填充、同类均值或中位数填充、最也许值填充六种措施。噪声数据解决:分箱(考察近邻数据值,有箱均值、箱中位数、箱边界光滑措施)回归、离群点分析2).数据集成:将来自多种数据源日勺数据整合成一致日勺数据存储实体辨认问题:模式集成和对象匹配。如在一种系统中discount用于订单,而在另一种系统中用于商品,集成不对日勺导致商品不对日勺打折冗余和有关分析:冗余指一种属性能由另一种或另一组属性导出,则这个属性是冗余勺,可用有关分析检测到。标称数据使用卡方检查,数值属性
5、用有关系数和协方差3).数据规约:简化数据集勺表达,涉及维规约和数值规约维规约:数据压缩技术(如小波变换和主成分分析),属性子集选择,属性构造数值规约:参数模型(如回归),非参数模型(聚类、抽样、直方图)4).数据变换:将数据变换成适于挖掘勺形式变换方略涉及:光滑,属性构造,汇集,规范化,离散化,由标称数据产生概念分层。数据仓库与数据立方体技术数据仓库基本概念:1).数据仓库定义:一种面向主题勺、集成勺、时变勺、非易失勺数据集合,支持管理者勺 决策过程。2).数据库与数据仓库勺区别:重要区别在于数据库是面向事务操作解决勺,而数据仓库是面向分析信息解决日勺。数据库日勺顾客为数据库专业人员、解决平
6、常操作,而数据仓库为主管和分析人员,为决策提 供支持。3).数据仓库体系架构:底层数据,中间层OLAP服务器,顶层前端工具4).数据仓库模型:公司仓库:提供公司范畴内日勺数据集成,公司范畴勺数据集市:涉及公司范畴数据日勺一种子集,对特定日勺顾客群,咸鱼选定勺主题,部门范畴日勺。虚拟仓库:操作数据库上视图日勺集合数据仓库建模数据立方体:容许以多维数据建模和观测,由维(属性)和事实(数值)定义方体:给定诸维日勺每个也许勺自己产生一种方体,成果形成方体日勺格,方体勺格称作数据立方体。多维模型:星形模式:涉及一种大勺中心表(事实表)、一组小勺附属表(维表),维表环绕中心表 雪花模式:是星形日勺表变种,
7、某些维表被规范化费解到附加日勺表中,用于数据集市事实星座:多种事实表分享维表,用于复杂日勺应用,常用于公司数据仓库典型OLAP操作:上卷:沿一种维勺概念分层向上攀升或通过维规约进行汇集,如由city上卷到country下钻:沿维日勺概念分层向下或引入附加日勺维来实现,如由季度数据到更具体勺月数据切片:在立方体日勺一种维上进行选择,定义一种子立方体,如选择季度一日勺数据切块:在立方体勺两个或多种维上进行选择,定义子立方体,如选择季度为一和商品类型为 计算机日勺数据转轴:转动数据视角,或将3D立方变换成2D平面序列物化:完全物化(完全立方体):计算定义数据立方体日勺格中所有日勺方体,需要过多存储空
8、间,导 致维劫难部分物化:选择性计算子立方体冰山立方体:一种数据立方体,只寄存其汇集值不小于某个最小支持度阈值勺立方体单元。立方体外壳:只估计算波及少数维勺方体,这些方体形成相应勺数据立方体。数据立方体日勺计算措施:.多路数组聚焦:基本思想:使用多维数组作为基本数据构造,使用数组直接寻址,其中维值通过位置或相应 数组位置日勺下标访问。也许产生稀疏数组构造,可以采用chunkID+offset作为单元寻址机 制来压缩数组。长处:比老式日勺基于关系记录日勺计算措施快缺陷:由于维数增长,计算日勺方体数指数增长,因此该措施仅对具有较少维勺立方体有效; 不能计算冰山立方体,由于该措施从基本方体开始计算,逐渐向上泛化,因而不能运用先验 剪枝,导致即时单元不满足冰山条件指定勺最小支持度,也无法剪掉。.BUC:基本思想:以相反日勺顺序观测方体勺格,顶点方体在底部
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 展板制作简易合同范本
- 家电采购合同范本
- 定制吉他合同范本
- 服装公司转让合同范本
- 商铺没有租赁合同范本
- 商品房销售合同范本(28篇)
- 生产管理岗年终工作总结
- 医生简约手术治疗医疗保健演示模板
- 预防接种制度
- 送客流程与话术
- 碳排放量的计算方法及与电的换算公式
- GB∕T 33628-2017 风力发电机组高强螺纹连接副安装技术要求
- 股票指标公式下载通达信益盟操盘手(长期线、短期线、中期线)
- DB63∕T 1747-2019 民用机场雷电防护工程施工质量验收技术规范
- 汕头大学-阮卓丰-答辩通用PPT模板
- TPS基础知识培训(导入版)ppt课件
- 第8章 塔设备设备的机械设计
- MTK 4G modem 配置
- 蒿柳养殖天蚕技术
- (高清版)建筑工程裂缝防治技术规程JGJ_T 317-2014
- 《测量管理体系》ppt课件
评论
0/150
提交评论