01-数据挖掘基础知识培训_第1页
01-数据挖掘基础知识培训_第2页
01-数据挖掘基础知识培训_第3页
01-数据挖掘基础知识培训_第4页
01-数据挖掘基础知识培训_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘基础知识培训2024/12/2221.数据挖掘基本原理3.数据挖掘技术4.最优化技术5.文本挖掘技术2.数据预处理技术什么是数据挖掘2024/12/223随着信息技术的高速发展,全球新产生的数据年增40%,全球信息总量每两年就可以翻番!而对新增数据的处理,能力以及其利用率的增长则不足5%。全球数据总量增长趋势每两年翻一番什么是数据挖掘2024/12/224

数据挖掘(DataMining)

●数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据爆炸式增长激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析;目前的数据库系统仅能够实现数据的录入、查询和统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,显示出它的局限性;1995年数据挖掘应运而生联机事务处理(OLTP)数据管理,查询技术上世纪70年代以来,关系式数据库

联机分析处理(OLAP)对数据汇总、合并、聚集,验证假设上世纪80年代后期,数据仓库1995年后,数据挖掘数据挖掘(DM,DataMining)数据建模、算法(非常规方法)知识:趋势、规则、模式、结构数据挖掘是一门交叉学科,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。知识发现(KnowledgeDiscoveryinDatabase,KDD)从商业数据到商业信息化的进化2024/12/225进化阶段商业问题支持技术产品厂家产品特点数据搜集

(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBMCDC提供历史性的、静态的数据信息数据访问

(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS)结构化查询语言(SQL)ODBCOracleSybaseInformixIBMMicrosoft在记录级提供历史性的、动态数据信息数据仓库决策支持

(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)多维数据库数据仓库PilotComshareArborCognosMicrostrategy在各种层次上提供回溯的、动态的数据信息数据挖掘

(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法多处理器计算机海量数据库PilotLockheedIBMSGI其他初创公司提供预测性的信息数据挖掘的社会需求2024/12/226数据爆炸,知识贫乏

苦恼:淹没在数据中;不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期数据挖掘与统计分析的区别2024/12/227数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘得到的信息具有先未知,有效和可实用三个特征。一市场分析师在为超市规划货品架柜摆设时,可能会先假设婴儿尿布和婴儿奶粉会是常被一起购买的产品,接着便可利用OLAP的工具去验证此假设是否为真,又成立的证据有多明显;但DataMining则不然,执行DataMining的人将庞大的结帐数据整理后,并不需要假设或期待可能的结果,透过Mining技术可找出存在于数据中的潜在规则,于是我们可能得到例如尿布和啤酒常被同时购买的意料外之发现,这是OLAP所做不到的。做OLAP分析,我们找找哪些人总是不及时向电信运营商缴钱,一般会分析收入低的人往往会缴费不及时。通过分析,发现不及时缴钱的穷人占71%。而数据挖掘则不同,它自己去分析原因。原因可能是,家住在五环以外的人,不及时缴钱。这些结论对推进工作有很深的价值,比如在五环外作市场调研,发现需要建立更多的合作渠道以方便缴费。这是数据挖掘的价值。数据挖掘系统的结构2024/12/228数据仓库数据清洗和集成过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评价图形用户接口知识库数据挖掘标准流程60

业务理解、数据预处理(数据理解和数据准备)包含60%工作量;需要注意的是,以上6个步骤并非完全按照此顺序来执行。在实际应用中,需要针对不同的应用环境和实际情况作出必要的调整。此外,一个数据挖掘项目通常并不是一次性地执行了上述6个步骤就结束了,它往往是一个反复迭代、不断完善的过程。CRISP-DM1999年欧盟机构联合起草.通过近几年的发展,在各种KDD过程模型中成为标准流程。数据挖掘标准流程商业理解也叫业务理解,最初的阶段集中在理解项目的目标和从业务的角度理解需求,同时将这个知识转换为数据挖掘问题的定义和完成目标的初步计划。数据理解数据理解阶段是从初始的数据收集开始,通过一些活动的处理目的是熟悉数据,识别数据的质量问题,首次发现数据的内在属性,或是探索引起兴趣的子集去形成隐含信息的假设。比如“前一天对当天影响较大”数据准备数据准备阶段包括从未处理的数据集中构造最终数据集的所有活动。这些数据将是模型工具的输入值。这个阶段的任务有的需要执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及模型工具转换和清洗数据。建模模型这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。模型评估到这个阶段,已经从数据分析的角度建立了高质量的模型。在开始最后部署模型之前,需要彻底地评估模型,检查构造模型的步骤,确保模型可以完成业务目标。这个阶段的关键目的是检验是否有重要业务问题没有被充分考虑。结果部署模型的创建不是挖掘过程的结束。这个阶段可以产生数据分析报告,或实现一个比较复杂的、可重复的数据挖掘过程。目录2024/12/22111.数据挖掘基本原理3.数据挖掘技术4.最优化技术5.文本挖掘技术2.数据预处理技术为什么进行数据预处理2024/12/2212现实世界的数据是“肮脏的”——数据多了,什么问题都会出现不完整缺少数据值;缺乏某些重要属性;仅包含汇总数据;e.g.,occupation=""有噪声包含错误或者孤立点e.g.Salary=-10数据不一致e.g.,在编码或者命名上存在差异(studentId,stu_id)e.g.,过去的等级:“1,2,3”,现在的等级:“A,B,C”e.g.,Age=“42”Birthday=“03/07/1997”数据为什么会变“脏”2024/12/2213不完整数据的成因数据收集的时候就缺乏合适的值数据收集时和数据分析时的不同考虑因素人为/硬件/软件问题噪声数据(不正确的值)的成因数据收集工具的问题数据输入时的人为/计算机错误数据传输中产生的错误数据不一致性的成因不同的数据源违反了函数依赖性数据预处理的重要性2024/12/2214数据预处理现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。由于高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。数据预处理技术2024/12/2215数据清理-缺失值(missingvalue)忽略元组人工填写遗漏值使用一个全局常量填充遗漏值使用属性的平均值填充遗漏值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充遗漏值(利用决策树、回归、贝叶斯等算法)数据预处理技术2024/12/2216数据清理-噪声数据(noisedata)分箱(Binning)回归聚类基于统计的方法数据:4,8,9,15,21,21,24,25,26,28,29,34分箱并利用均值平滑:-Bin1:9,9,9,9-Bin2:23,23,23,23-Bin3:29,29,29,29xyy=x+1X1Y1Y1’则认为x为离群点数据预处理技术2024/12/2217数据变换属性构造:可以构造新的属性并添加到属性集中,以帮助挖掘过程。数据泛化:使用概念分层,用高层次概念替换低层次“原始”数据。规范化:将属性数据按比例缩放,使之落入一个小的特定区间。例:将人的年龄分为:少年,青年,中年,老年最小-最大规范化:z-score规范化(零-均值规范化):中心化:小数定标规范化:数据预处理技术2024/12/2218属性选择属性降维维数灾难(CurseofDimensionality)数据数量要求呈爆炸式增长常用相似性度量,距离度量失效模型参数剧增降维:将高维数据通过某种技术变换到低维,并极大保持原有数据信息降维假设:高维数据存在本质低维表示从大量的可能冗余的属性中选择出对于问题相关属性。属性1属性2属性3属性4属性5决策属性属性1属性2属性5决策属性目录2024/12/22191.数据挖掘基本原理3.数据挖掘技术4.最优化技术5.文本挖掘技术2.数据预处理技术数据挖掘技术2024/12/22204.关联规则5.时间序列1.聚类2.分类3.回归聚类2024/12/2221聚类分析Clustering

客户细分市场细分入侵检测盗电检测……

聚类:

对具有共同趋势或结构的数据进行分组(数据划分)。将数据项分组成多个类,类之间的数据差别应尽可能大,类内的数据差别应尽可能小。即“最小化类间的相似性,最大化类内的相似性”。聚类分析可以建立宏观的概念,发现数据的分布模式。是知识发现的基础。客户行为-价值细分模型海量客户行为数据/特征数据组内行为特点相似组间行为差异较大的客户分组KMeans聚类算法;层次聚类算法;EM聚类算法;视觉聚类算法;…….聚类2024/12/2222主要聚类算法的分类划分方法给定n个对象或数据元组的数据库,划分方法构建数据的k个划分,每个划分表示一簇,k<=n。常用的算法包括k-means,k-moid法。层次方法层次分析法创建给定数据对象集的层次分解。根据层次的分解的形成方式,层次的方法可以分类为聚集(自底向上)的和分裂的方法。基于密度方法主要思想是:只要“邻域”中的密度(对象或数据点的数目)超过某个阈值,就继续聚类。基于网格方法基于网格的方法把对象空间量化为有限数目的单元,形成一个网格结构。所有的聚类操作都在这个网格结构化进行。基于模型方法基于模型的方法为每簇假定一个模型,并寻找数据对给定模型的最佳拟合。常用算法:EM

(期望最大化)、SOM(自组织特征映射)。聚类2024/12/2223常用聚类算法——k-means(k均值),原理及软件实现。处理流程如下:首先,随机地选择k个对象,每个对象代表一个簇的初始均值或中心。其次,对剩余的每个对象,根据其与各个簇均值的距离,将它指派到最近似的簇。然后计算每个簇的新均值。这个过程不断重复,直到准则函数收敛。通常采用平方误差准则。算法:k均值。用于划分的k均值算法,每个簇的中心用簇中对象的均值表示。输入:k:簇的数目(聚类个数),D:包含那个对象的数据集。输出:k个簇的集合。方法:

(1)从D中任意选择k个对象作为初始簇中心;

(2)repeat

(3)

根据簇中对象的均值,将每个对象(再)指派到最相思的簇;

(4)

更新簇均值,即计算每个簇中对象的均值;

(5)until不再发生变化过程演示聚类2024/12/2224训练数据集数据挖掘算法建模KMeans视觉聚类……分类2024/12/2225

分类(模式识别):分类是研究己分类资料的特征,分析对象属性,据此建立一个分类函数或分类模型,然后运用该模型将其他未经分类或新的数据分派到不同的组中。

银行根据客户以往贷款记录情况,将客户分为低风险客户和高风险客户,学习得到分类器。对一个新来的申请者,根据分类器计算风险,决定接受或拒绝该申请分析影响变压器正常运行的因素,预测变压器是否有故障,若有故障,故障为放电故障、过热故障、短路故障等的哪一种。客户评价;垃圾邮件识别;根据核磁共振扫描的结果区分恶性肿瘤和良性肿瘤信息用卡客户信用度的划分;……C4.5决策树算法;SVM算法;神经网络算法;Logistic回归算法;朴素贝叶斯网络算法;…….分类2024/12/2226分类算法在解决实际问题时经常会把数据拆分为两个数据集:训练数据集、测试数据集。通过数据挖掘算法对训练数据集进行建模,寻找X和Y之间的数学模型,然后通过测试数据集来验证该数学模型的准确率,如果误差能够达控制到一定精度,则认为该模型很好的反映了X和Y的关系,可以用来进行预测和分析。数据挖掘算法建模决策树SVM……训练数据集测试数据集Y=f(x1,

x2,x3,

xn)通过数据挖掘找到函数f(x)通过测试数据集验证f(x)分类-决策树2024/12/2227决策树是一种用树来展现数据受各变量的影响情形的预测模型,根据对目标变量产生这效应的不同而构建的分类的规则。其最终表现形式是一种if-then(如果...,那么...)的推理规则。RefundMarStTaxIncYESNONONOYesNoMarried

Single,Divorced<80K>80K划分属性训练数据决策树模型分类-决策树2024/12/2228训练数据RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80KAssignCheatto“No”测试数据回归2024/12/2229

回归:确定因素与因素或原因与结果之间的函数关系。通常指连续要素之间的模型关系。主要用于连续量的预测;是因果关系分析的基础。神经网络;SVM算法;线性回归算法;L1/2稀疏迭代算法;…….回归2024/12/2230回归算法在解决实际问题时经常会把数据拆分为两个数据集:训练数据集、测试数据集。通过数据挖掘算法对训练数据集进行建模,寻找X和Y之间的数学模型,然后通过测试数据集来验证该数学模型的准确率,如果误差能够达控制到一定精度,则认为该模型很好的反映了X和Y的关系,可以用来进行预测和分析。数据挖掘算法建模线性回归神经网络……训练数据集测试数据集Y=f(x1,

x2,x3,

xn)通过数据挖掘找到函数f(x)通过测试数据集验证f(x)关联规则2024/12/2231关联分析Association

市场组合分析套装产品分析套餐推荐交叉销售……

关联:关联规则反映一个事物与其它事物之间的相互依存性和关联性;如果两个事物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其它事物预测到。关联是某种事物发生时其他事物会发生的这样一种联系。Apriori算法;FPGrowth算法;Partition算法;…….关联规则2024/12/2232顾客购买商品1面包,黄油,尿布,啤酒2咖啡,糖,小甜饼,鲑鱼,啤酒3面包,黄油,咖啡,尿布,啤酒,鸡蛋4面包,黄油,鲑鱼,鸡5鸡蛋,面包,黄油6鲑鱼,尿布,啤酒7面包,茶,糖鸡蛋8咖啡,糖,鸡,鸡蛋9面包,尿布,啤酒,盐10茶,鸡蛋,小甜饼,尿布,啤酒……………..规则:“买啤酒”“买尿布”。Support(支持度)=60%Confidence(置信度)=80%support(X

Y)=(包含X和Y的样本数/样本总数)×100%;confidence(X

Y)=(包含X和Y的样本数/包含X的样本数)×100%;时间序列2024/12/2233数据挖掘算法建模AprioriFPGrowth……训练数据集[X1=T]=>[X4=T]......名词型属性数值型属性时间序列2024/12/2234OpenAccn’tAddNewProductDecreaseUsage???Time

库存预测

电力负荷预测

销量预测

……OpenAccn’tAddNewProductDecreaseUsage???Time时间序列:变量随时间变化,按等时间间隔所取得的观测值序列,称时间序列。时间序列分析法主要通过与当前预测时间点相近的历史时刻的数据来预测当时时刻的值。SARIMA算法;稀疏时间序列算法;时间序列2024/12/2235常用时间序列算法——传统方法,原理及软件实现。简单平均法:根据已有的t期观察值通过简单平均来预测第t+1期的数值。数学表达式如下:

;适合于对较为平稳的时间序列进行预测。简单移动平均:把第t+1期之前之前最近的T期数据加以平均做第t+1期的数值。数学表达式如下:

;消除远期数据对当前的影响。平均误差平方和确定T。加权移动平均法:对近期的观察值和远期的观察值赋予不同的权值,再进行预测。数学表达式如下:

,其中,,实际中较少使用。时间序列2024/12/2236常用时间序列算法——指数平滑法,原理及软件实现。指数平滑法是对移动平均法进行了改进和发展,是生产预测常用的一种方法。包含多种类型模型:1)简单指数平滑模型:也称为一次指数平滑法。适用无明显趋势和季节性序列。数学表达式如下:实际运算采用倒序,首先计算L(1)=αY(1)+(1-α)L(0),其中L(0)=Y(1)或最远三期的均值。2)布朗单一参数指数平滑模型:属于二次指数平滑法。是对一次指数平滑值再次进行一次平滑。

,,适合于有线性趋势但没有季节性的序列。(不是直接利用一次平滑做预测,而是利用平滑值对时间序列的线性趋势做平滑)简单指数平滑适应序列数据特征布朗单一参数指数平滑适应序列数据特征时间序列2024/12/2237常用时间序列算法——指数平滑法,原理及软件实现。3)霍特(Holt)双参数指数平滑:与布朗单一参数指数平滑模型原理基本相似,但不直接用二次指数平滑值进行计算,而是分别对原序列和序列的趋势进行平滑。它使用两个参数,分别是α和γ,二者取值均在[0,1]区间。数学公式如下:,这里,L(t)称为数据平滑值,T(t)为趋势平滑值。(霍特方法是一种改进,在估计L(t)时,给L(t-1)加上一个趋势增量T(t-1),解决了估计值时间滞后的问题。其中,趋势增量也是一个指数平滑估计值。平滑参数的需要选择几组不同的值来进行分析和比较,以预测误差最小的一组来平滑常数。)适用于线性趋势但没有季节性的序列。比布朗更加常用,但在计算大型序列的估计值时会花费更多的时间。时间序列2024/12/2238常用时间序列算法——指数平滑法,原理及软件实现。4)阻尼趋势指数平滑:霍特模型在考查时间序列中可能存在的固有趋势时,它假设这个趋势在时间上是永久持续的。也就是说,无论时间发展多久,每一期与前一期相比都有一个相对稳定的趋势增量T(1-1)。然而,对现实中的许多时间序列来说,这个假设往往是不切实际的。比如一个百米运动员的训练成绩组成的时间序列,在刚开始进行训练时,成绩的增幅往往较大,但随着时间的推移成绩的增幅会越来越小。阻尼趋势指数平滑模型,是对霍特模型的调整,用于对具有逐渐衰退的线性趋势但没有季节性的序列进行预测。除了霍特模型中的两个参数外,还包括3个参数φ,介于[0,1],用来表示趋势的衰退比例。数学表达式如下:时间序列2024/12/2239常用时间序列算法——指数平滑法,原理及软件实现。季节性变动是客观事物常见的一种变化规则,例如瓜果、服装的销量,会随着季节的不同出现周期性的变动,铁路、航空客运量等会随着节假日出现周期性变动。季节性模型包括如下三种:5)简单季节指数平滑:6)温特加法指数平滑模型:适用于没有趋势且季节效应不随时间变化的时间序列。适用于没有趋势且季节效应不随时间变化的时间序列。7)温特乘法指数平滑模型:L(t)为数据平滑值,T(t)为趋势平滑值,S(t)为季节平滑值,s是周期长度(也就是一年中包含的样本数量),α、γ、δ为3个平滑参数。适用于具有线性趋势且季节效应随序列的大小变化的序列时间序列2024/12/2240常用时间序列算法——ARMA模型(自回归移动平均模型),原理及软件实现。ARMA是目前最常用的拟合平稳随机序列的模型。平稳随机序列,直观地说,其折线图没有明显的上升或下降的趋势,统计特性不随时间的推移而变化。并且平稳时间序列必须是0均值的。在应用ARMA模型前,需要先对时间序列进行0均值化和差分平稳化处理。细分为3个模型:1)AR(p)模型(自回归模型):模型公式如下:

其中,Yt是时间序列在第t期的观察值,P是AR模型的阶数,et是误随机差项。当φ0=0时,Yt

是一个零均值的时间序列。2)MA(q)模型(移动平均模型):基本思想是,时间序列模型可以根据平均前期预测误差来建立,在前期预测值之上加上预测误差便可得到现在的预测值。模型公式如下:

其中,Yt

是时间序列在第t期的观察值,q是MA模型的阶数,et是误随机差项。2)ARMA(p,q)模型(自回归移动平均模型):AR和MA的有效组合,模型公式如下:

,p=0时是MA模型,q=0时是AR模型。时间序列2024/12/2241常用时间序列算法——ARMA模型(自回归移动平均模型),原理及软件实现。ARMA模型类型判定,主要根据自相关、偏自相关的截尾和拖尾特征判定。判定方法如下:模型自相关函数偏自相关函数AR(p)拖尾p步截尾MA(q)q步截尾拖尾ARMA(p,q)拖尾拖尾1-1211-121自相关、偏自相关函数的截尾性1-11-11-1自相关、偏自相关函数的拖尾性时间序列2024/12/2242常用时间序列算法——ARIMA模型(自回归移动平均模型),原理及软件实现。ARIMA模型可以描述各种非平稳的时间序列,是时间序列最一般的表示形式,包括了AR(p)、MA(q)、ARMA(p,q)、ARIMA(p,d,q)以及各种组合模型。一般建模过程如下:注:在实际中不考虑数据特征的或数据特征不明显的情况下,优先选择采用ARIMA进行时间序列建模,但其建模过程较为复杂,需要对ARIMA的建模过程进行充分理解。采集数据平稳性检验确定模型参数参数估计模型检验预测差分运算否是是否时间序列2024/12/2243训练数据集测试集数据挖掘算法建模SARIMA稀疏时间序列……目录2024/12/22441.数据挖掘基本原理3.数据挖掘技术4.最优化技术5.文本挖掘技术2.数据预处理技术最优化技术介绍2024/12/2245最优化是一门应用十分广泛的学科,它研究在有限种或无限种可行方案中挑选最优方案,构造寻求最优解的计算方法。如生活中经常遇到求利润最高,产量最大,成本最低,时间最短等实际问题,这些问题都是优化问题。最优化问题的模型如下:最优化问题求解步骤如下:前期分析模型定义模型求解分析问题,找出要解决的目标,约束条件,并确立最优化的目标建立最优化问题的数学模型,列出目标函数和约束条件针对建立的模型,选择合适的求解方法决策变量、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论