版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一)概述为什么要数据挖掘(DataMining)?存在可以广泛使用的大量数据,并且迫切需要将数据转转换成有用的信息和知识什么是数据挖掘?数据挖掘(DataMining)是指从大量数据中提取或“挖掘”知识。对何种数据进行数据挖掘?关系数据库、数据仓库、事务数据库空间数据超文本和多媒体数据时间序列数据流数据数据预处理为什么要预处理数据?为数据挖掘过程提供干净、准确、简洁的数据,提高数据挖掘的效率和准确性是数据挖掘中非常重要的环节;数据库和数据仓库中的原始数据可能存在以下问题:定性数据需要数字化表示不完整含噪声度量单位不同维度高数据的描述度量数据的中心趋势:均值、加权均值、中位数、众数度量数据的离散
2、程度:全距、四分位数、方差、标准差基本描述数据汇总的图形显示:直方图、散点图度量数据的中心趋势集中趋势:一组数据向其中心值靠拢的倾向和程度。集中趋势测度:寻找数据水平的代表值或中心值。常用的集中趋势的测度指标:均值:缺点:易受极端值的影响中位数:对于不对称的数据,数据中心的一个较好度量是中位数特点:对一组数据是唯一的。不受极端值的影响。众数:一组数据中出现次数最多的变量值。特点:不受极端值的影响。有的数据无众数或有多个众数。度量数据的离散程度反映各变量值远离其中心值的程度(离散程度),从另一个侧面说明了集中趋势测度值的代表程度。常用指标:全距(极差):全距也称极差,是一组数据的最大值与最小值之
3、差。R二最大值-最小值组距分组数据可根据最高组上限-最低组下限计算。受极端值的影响。四分位距(Inter-Quartilenge,IQR):等于上四分位数与下四分位数之差(q3-q1)反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。不受极端值的影响。可以用于衡量中位数的代表性。四分位数:把顺序排列的一组数据分割为四(若干相等)部分的分割点的数值。分位数可以反映数据分布的相对位置(而不单单是中心位置)。在实际应用中四分位数的计算方法并不统一(数据量大时这些方法差别不大)。对原始数据:SPSS中四分位数的位置为(n+l)/4,2(n+l)/4,3(n+l)/4。Excel中四分位数的
4、位置分别为(n+3)/4,2(n+l)/4,(3n+l)/4。如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。方差和标准差:方差是一组数据中各数值与其均值离差平方的平均数,标准差是方差正的平方根。是反映定量数据离散程度的最常用的指标。基本描述数据汇总的图形显示直方图(Histogram):使人们能够看出这个数据的大体分布或“形状”散点图如何进行预处理定性数据的数字化表示:二值描述数据的数字化表示例如:性别的取值为“男”和“女”,男一1,女一0多值描述数据的数字化表示例如:信誉度为“优”、“良”、“中”、“差”第一种表示方法:优一1,良一2,中一3,差一4第二种表示方法:怡貧度为
5、杯良”7倍生匱为“屮”T肓賢度“差”*It*GSS良”natA冲10Q01DD011000数据清理填充空缺值(不完整的数据):忽略元组人工填写使用属性的均值使用与给定元组属同一类的所有样本的属性均值消除含噪声的数据:分箱:分箱前对记录集按目标属性值的大小进行排序等深分箱法等宽分箱法用户自定义分箱之后,按箱平均值平滑,按箱边界平滑数据变换最小-最大规范化z-score规范化小数定标数据压缩主成分分析(PCA)特征选择(三)数据分类分类的定义分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。分类问题使用的数据集格式:描述属性类
6、别属性43描述属性的取值可以定性的数据,也可以是定量的数据;而类别属性的取值必须是定性的数据。定量的数据是指在某一个区间或者无穷区间内取值是连续的,例如描述属性“Age”定性的数据是指该属性的取值是不连续的,例如属性“Salary”和“Class”分类的过程获取数据输入数据、对数据进行量化预处理去除噪声数据、对空缺值进行处理数据变换、数据压缩分类器设计划分数据集、分类器构造、分类器测试分类决策对未知类标号的数据样本进行分类决策树的基本概念适用于定性取值属性、定量取值属性采用自顶向下的递归方式产生一个类似于流程图的树结构在根节点和各内部节点上选择合适的描述属性,并且根据该属性的不同取值向下建立分
7、枝。决策树的优点:进行分类器设计时,决策树分类方法所需时间相对较少;决策树的分类模型是树状结构,简单直观,比较符合人类的理解方式;可以将决策树中到达每个叶节点的路径转换为IFTHEN形式的分类规则,这种形式更有利于理解。决策树算法ID3ID3只能处理定性取值属性;在选择根节点和各个内部节点上的分枝属性时,采用信息增益作为度量标准,选择具有最高信息增益的描述属性作为分枝属性决策树算法C4.5C4.5算法使用信息增益比来选择分枝属性,克服了ID3算法使用信息增益时偏向于取值较多的属性的不足;C4.5既可以处理定性取值属性,也可以处理定量取值属性。(四)数据聚类聚类分析的定义聚类分析是将物理的或者抽
8、象的数据集合划分为多个类别的过程,聚类之后的每个类别中任意两个数据样本之间具有较高的相似度,而不同类别的数据样本之间具有较低的相似度连续型属性的相似度计算方法欧氏距离(Euclideandistance)曼哈顿距离(Manhattandistance)dd(x,x)=Vx一x1jikjkk=1明考斯基距离(Minkowskidistance)d(X,X)=(VXXq)l/qijikjkk=1二值离散型属性(二元变量)的相似度计算方法对称的二值离散型属性是指属性取值为1或者0同等重要。例如:性别就是一个对称的二值离散型属性不对称的二值离散型属性是指属性取值为1或者0不是同等重要。例如:血液的检查
9、结果是不对称的二值离散型属性,阳性结果的重要程度高于阴性结果多值离散型属性的相似度计算方法分类变量的相似度d(x,x)=dU1Jdd为数据集中的属性个数,u为样本xi和xj取值相同的属性个数对于包含混合类型属性的数据集的相似度通常有两种计算方法:将属性按照类型分组,每个新的数据集中只包含一种类型的属性;之后对每个数据集进行单独的聚类分析把混合类型的属性放在一起处理,进行一次聚类分析k-means聚类算法的基本概念划分聚类方法对数据集进行聚类时包含三个要点:选定某种距离作为数据样本间的相似性度量选择评价聚类性能的准则函数选择某个初始分类,之后用迭代的方法得到聚类结果,使得评价聚类的准则函数取得最
10、优值k-means聚类算法的操作步骤输At数据卑恥氐|尸1爲,八otalh具中的数据祎怎只包含描述屁性.不包含类别風性t聚类个数社幕出主淒澳差平方和谁则最水的k个聚粪*门)从数据集X中施机地选择k个数擴样本作为聚奠的初抬代耒煖,每一个代奈点表示一个粪别.*2)对于x中的任一僉据存本工.(iitml)计茸它扁k个初始代喪点的距离,并且將它划分到距离最近的初姑代衰点所耒示的冀别中匸完成敌据样奉的划分之后.对于每一慶尧,HSH申所育数据样本的均值,笄且将具作沖该聚粪的新的代表魚由此簿到k吓均值代農点.a时于X中的任一数据样本氛(ltotal),计直它5k个均值代衮点的距禽.芥且梧它划分到距唐最近的均
11、值代表点新耒示的类别中.*重复歩礫(3)和(4h直到各个聚芙不再发主变化曲止,即误差平芳和進则函数的値达到最优层次聚类方法的基本概念层次聚类方法分为凝聚型层次聚类和分解型层次聚类。凝聚型层次聚类按照自底向上的方式对数据集进行聚类,初始时将每个数据样本单独看作一个类别,之后按照某种相似性度量标准逐步将数据样本进行合并,直到所有的数据样本都属于同一个类别或者满足终止条件为止;分解型层次聚类按照自顶向下的方式对数据集进行聚类,初始时将所有的数据样本归为一个类别,之后按照某种相似性度量标准逐步将数据样本分解为不同的类别,直到每个数据样本单独构成一个类别或者满足终止条件为止。凝聚型层次聚类方法的操作步骤
12、洽入;数馆集皓Mikls二讥泌,旦中的数堰样本只包舍诣述屋性不包舍真別属性:聚贡个数k(给出此芙件时,聚克朗戴目达到ft时程序结東:否则.所有敌据拌朮邯風于同一冀时程序结束人a转出乂得到备层聚粪的惜况.p(将藪据第咒中的垢一牛数据样本国独音作一驚类集會则切殆时x中鱼含total卒靈粪篥合耳.K,.i.S中X.=xt.aSI.1=IHt-1,在集合减应仁叮中找到一对聚粪障合X.和站,住耳満足a其中,皿“舉示聚类集仓臨和JC,之间的梱佩性度畳,可以选樺仝式6-10)至公式(5-13)中B5任何一种相似性度垦*将鑒类幕合险和和进行合并、花监从集會任注叮中去掉.并且把i颯乘合I中去獰.*亟复步骤12)
13、和(3).玄至,所有談据样本邯風于同一个粪别或者満足绘定的離并I聚粪牛数k)为止.五)关联规则概述关联规则(AssociationRuleMining)挖掘是数据挖掘中最活跃的研究方法之一最早是由R.Agrawal等人提出的其目的是为了发现超市交易数据库中不同商品之间的关联关系。一个典型的关联规则的例子是:70%购买了牛奶的顾客将倾向于同时购买面包。经典的关联规则挖掘算法:Apriori算法和FP-growth算法(六)统计分析某企业希望通过增加广告支出,调整产品价格等措施来增加销售量企业需要确定销售量与广告支出、销售价格之间的定量关系确定以上定量关系的过程称为回归分析我们感兴趣的属性(销售量)称为因变量影响因变量变动的属性(广告支出、销售价格)称为自变量表示因变量和自变量之间定量关系的函数称为回归模型回归模型中只包含一个自变量时,称为一元回归模型,否则,称为多元回归模型回归模型中的自变量只以一次方的形式出现时,称为线性回归模型,否则
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 粮食行业话务员工作总结
- 2024年河南省商丘市公开招聘警务辅助人员辅警笔试自考题1卷含答案
- 2024年四川省凉山自治州公开招聘警务辅助人员辅警笔试自考题1卷含答案
- 2022年山东省烟台市公开招聘警务辅助人员辅警笔试自考题1卷含答案
- 农村先进个人发言稿
- PEP小学生读书心得体会作文选
- 湖北省随州市(2024年-2025年小学六年级语文)统编版随堂测试((上下)学期)试卷及答案
- 2024年现场总线仪表通讯模板项目资金申请报告
- 进阶练17 书信写作(模考满分范文10篇)-新高考英语一轮总复习(上海专用)(解析版)
- 2025年激光测距仪、测向仪项目立项申请报告模板
- 火化证明格式
- 机械原理课程设计-自动盖章机
- e乙二醇精制车间设备布置图
- 行政强制法讲座-PPT课件
- 2022年新媒体编辑实战教程测试题及答案(题库)
- 岗位现场应急处置方案卡全套(全套20页)
- 凉席竹片铣槽机(课程设计)
- 高压线防护搭设方案
- 综合机械化固体充填采煤技术要求-编制说明
- 十人联名推荐表
- 七、分蛋糕博弈
评论
0/150
提交评论