


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合,在一个大型数据库中,自动的发现有用信息的过程,还具有预测未来观测结果的能力。数据挖掘的对象是数据,所以离开数据,挖掘无从谈起。现将我学习《数据挖掘导论》的笔记写出来,巩固一下知识。一、 数据类型。数据对象有其它的名字,如记录,点,向量,模式,事件,案例,样本,观测或实体1、 属性与度量属性是对象的性质或特性,因对象而异,或随时间而变化。测量标度是将数值或符号与对象的属性相关联的规则。属性有四种类型:标称、序数、区间、比率,其中标称和序数属性统称分类的或定性的。区间和比率是数值的或定量的。2、 数据集的类型数据集有三个重要的特性:维度、稀疏性、分辨率。数据集有以下的类型:*记录数据,包括:事务数据或购物篮数据、数据矩阵、稀疏数据矩阵。*基于图形的数据,包括:带有对象之间联系的数据、具有图形对象的数据。*有序数据,包括:时序数据、序列数据、时间序列数据、空间数据。二、 数据质量1。测量和数据收集问题测量误差和数据收集错误:噪声和伪像:其中伪像是确定性失真,如一组照片同一地方上的条纹。精度、偏倚和准确率:精度通常用值集合的标准差度量,而偏倚用值集合的均值与被测量的已知值之间的差度量。离群点:是某种意义上具有不同于数据集中其它大部分数据对象的特征的数据对象,或者相对于该属性的典型值不寻常的属性值,也称异常对象。遗漏值:是对一个对象中,其中一个或几个属性的信息未收集。有许多处理遗漏值的策略,如删除数据对象或属性、估计遗漏值、在分析时忽略遗漏值。重复数据:数据集中可能包含重复或者几乎重复的数据对象。2。关于应用的问题数据在应用时除了考虑质量问题之外,同时也要考虑如下几个性质:时效性、相关性。三、数据预处理1、 聚集聚集是将两个或多个对象合并成单个对象。2、 抽样抽样是一种选择数据子集进行分析的常用方法,主要基于这样的思想:如果样本是有代表性的,则使用样本与使用整个数据集的效果几乎一样。抽样有如下几个方法:无放回抽样、有放回抽样、分层抽样、渐进抽样。3、 维归约维归约不同于聚集,聚集是合并对象,维归约是减少属性的个数,即降低维度。维归约通过创建新属性,将一些旧属性合并在一起来降低数据集的维度。维灾难:是指这样一种现象,随着数据维度的增加,许多数据分析变得非常困难。用于维归约的线性代数技术:主成分分析(PCA)、奇异值分解(SVD)。4、 特征子集选择降低维度的另一种方法是仅使用特征的一个子集,用这个特征子集代替原来的属性集合,更能有效的捕获数据集中的重要信息。有三种标准的特征选择方法:嵌入、过滤、包装。特征加权:特征越大(属性),所赋予的权值越大,而不太重要的特征赋予较小的权值。5、 离散化和二元化在数据挖掘中,经常需要将连续属性变换成分类属性(离散化),并且连续和离散属性可能都需要变换成一个或多个二元属性(二元化)。6、变量变换变量变换是指用于变量的所有值的变换,也就是属性变换。有两种重要的变量变换类型:简单函数、规范化或标准化。四、相似性和相异性度量1、 相似性和相异性的高层定义是术语邻近性。而相似度是两个对像相似程度的数值度量。相异度(经常也称距离)是两个对象差异程度的数值度量。2、 数据对象之间的相异度比较经典的是欧几里德距离(欧式距离)。3、 数据对象之间的相似性二元数据的相似性度量也称相似系数。一般采用如下方法度量:简单匹配系数:SMC=值匹配个数/属性个数。Jaccard系数:J=匹配的属性的个数/不涉及0-0匹配的属性的个数。余弦相似度:比较常见用于比较两个向量。在Web挖掘中经常用于比较两个网面的相似性。广义Jaccard系数(Tanimoto系数):是对Jaccard系数的扩展,可以用于文档数据。4、 邻近度计算问题组合异种属性的相似度:可以分别计算出每个属性之间的相似度,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024广东佛山市三水区乐平镇镇属国有企业招聘企业管理人员2人笔试参考题库附带答案详解
- 2024年长江沿岸铁路集团股份有限公司招聘10人订阅+阅读模式笔试参考题库附带答案详解
- 2024年福建水投集团晋金供水有限公司招聘1人笔试参考题库附带答案详解
- Unit 1 Cultural Heritage Discovering Useful Structures 教学设计-2024-2025学年高中英语人教版(2019)必修第二册
- 2025年贵州职业技术学院单招职业适应性测试题库完整版
- 2024年安徽芜湖新华书店有限公司招聘4人(第二批)笔试参考题库附带答案详解
- 第五章 专题 类平抛 集体备课教学设计 -2023-2024学年高一下学期物理人教版(2019)必修第二册
- 2025年贵州省安顺地区单招职业适应性测试题库含答案
- 2024山西杏花村汾酒集团有限责任公司生产一线技术工人招聘245人笔试参考题库附带答案详解
- 2024中国铁建港航局集团有限公司招聘29人笔试参考题库附带答案详解
- 川教版小学信息技术四年级下册教案-全册
- 基于自然语言处理的法律知识图谱构建
- 高效倾听模型
- 新能源行业论文开题报告
- 动物防疫员考试题附答案
- 英语常用动词表500个
- 《税法》(第六版)全书教案电子讲义
- 2024年电工(高级技师)职业鉴定理论考试题库-下(多选、判断题)
- 20S515 钢筋混凝土及砖砌排水检查井
- 血液透析并发症头痛
- 《幼儿园保教质量评估指南》解读
评论
0/150
提交评论