数据挖掘基础技术及应用_第1页
数据挖掘基础技术及应用_第2页
数据挖掘基础技术及应用_第3页
数据挖掘基础技术及应用_第4页
数据挖掘基础技术及应用_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘技术及应用数据挖掘是什么数据挖掘(DataMining/Knowledge-DiscoveryinDatabases)是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的幷有潜在价值的信息的过程。数据挖掘主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。起源:70年代,信息化管理开始发展,数据开始呈现快速增长的趋势;发展:80、90年代,关系数据库技术的大量应用,数据仓库技术的发展;流行:千禧年前后,电子商务的驱动下需求越来越强烈;未来:随着SaaS以及“大数据”的潮流,平台化发展的可能。数据挖掘的任务种类?味道体积颜色质感重量?价钱?形状基本过程及数据流数据准备统计分析、数据清洗数据降维、特征提取应用分析挖掘方法业务分析提取结论、业务应用爬虫、日志、系统收集数据标准化人工筛选、基于统计分类、聚类、关联规则等可视化分析结果提取模型、应用业务系统知识结构用什么工具?如何挖掘?如何改进?为什么可行?Oracle、MySQL、SPSS、clementine、WEKA、mahout等工具……统计分析、特征提取、关联分析、分类与预测、聚类分析等方法……C++、JAVA等进行算法改写;相关理论进行推导及优化微积分基础、矩阵论、概率论、凸优化等相关理论相关工具WEKA:为完成数据挖掘任务而设计的机器学习算法集合,基于GNU许可进行开源,使用JAVA开发,内置的算法可以直接运用于其预定义的数据集中,也可以在自己的应用程序代码中调用。WEKA包括一系列数据预处理、分类、回归、聚类、关联规则及数据可视化的工具。用户可以根据需要对内置算法进行改写。最新版本的WEKA号称支持大数据处理。基本任务/目标及工具基础统计分析1特征提取2分类与预测3聚类分析4hypothesistesting、estimation、regression……关联分析5fisher、ANN、SVM、decisiontree、bayestheorem……PCA、FFT……k-means、em、DBSCAN、OPTICS……apriori输入输出输入:数据集(量化及非量化)输出:数据可视化、计算模型、分析结论等过程:统计、降维、分类、聚类、关联分析等185662900011884472301111570309612995215940基本任务/目标及工具基础统计分析1特征提取2分类与预测3聚类分析4假设检验、参数估计、回归分析……关联分析5fisher、ANN、SVM、decisiontree、bayestheorem……PCA、FFT……k-means、em、DBSCAN、OPTICS……apriori基础统计分析(回归分析)样本数据预测数据

线性回归非线性回归

基础统计分析(回归分析)回归分析输出找出一条最能够代表所有观测数据的函数(回归估计式)。用此函数代表因变量和自变量之间的关系。如果是用于数据维度选择的预处理中,回归分析的任务则是找出与目标变量“大致”相关的维度,可根据实际场景使用线性或非线性回归。回归分析方法动差法(MethodOfMoment,MOM)最小二乘法(OrdinaryLeastSquareEstimation,OLSE)极大似然法(MaximumLikelihoodEstimation,MLE)基础统计分析(回归分析)MYCT:machinecycletimeinnanosecondsMMIN:minimummainmemoryinkilobytesMMAX:maximummainmemoryinkilobytesCACH:cachememoryinkilobytesCHMIN:minimumchannelsinunitsCHMAX:maximumchannelsinunits

在WEKA中使用线性回归进行分析,使用CPU等级预测数据集基本任务/目标及工具基础统计分析1特征提取2分类与预测3聚类分析4hypothesistesting、estimation、regression……关联分析5fisher、ANN、SVM、decisiontree、bayestheorem……主成分分析、时频变换……k-means、em、DBSCAN、OPTICS……apriori特征没有万能和精确的定义,特征的精确定义往往由问题或者应用类型决定。特征提取最重要的一个特性是“可重复性”:同一场景的不同数据所提取的特征应该是相同的。特征提取(维度筛选)例如,“苹果”的特征是:红色、质感光滑、拳头大小、口感爽脆、味甜;“西瓜”的特征是:绿色、质感光滑、篮子大小、汁多、味甜;“柠檬”的特征是:黄色、质感粗糙、拳头大小、口感粗糙汁多、味酸。可见水果的特征包括颜色、质感、大小、味道等可以用于明显区分类别的属性。WEKA中数据属性浏览窗口特征提取(降维)Fisher判别法:假设数据能“投影”到某个“平面”上,问题可以转化为如何选择该平面参数,使数据集(降维后)不同类别之间的离散度最大、数据集(降维后)同类别中的离散度最小。用于降维的“平面”的数学表示:

Fisher判别法简单图示可见,所谓的平面也是一种线性运算。特征提取(降维)对于两种类别的数据(红色及蓝色点,二维数据),如左图,把两类数据投影到红色实线上(注意到投影后变为一维数据),很明显投影后的数据在直线上不能很好的被区分,数据“混合”到一起了,而在右图的情况下,投影后的数据能很好的被区分,因此右图的直线可以在保留类别信息的情况下对数据进行降维。特征提取(降维)可用于降维的直线幷不是唯一的,如上图,可以看到两直线都能成功使投影后的数据被区分开来,最优方案需要使用数值方法寻找。特征提取(降维的数学小知识)

特征提取(维度变换)

在数字信号处理领域,信号的特征主要表示为“频率域”,但是信号的采样通常只能表示为“时间域”。通过“傅里叶变换”可以把“时间域”的表示转换为“频率域”的表示,这就是一种常见的特征提取方法。而该类方法的输出通常与输入不在同一个层面,也就是维度发生了变换。

特征提取(PCA)主成分分析(PrincipleComponentAnalysis)是一种维度变换的分析方法,其输出维度是原数据维度的线性组合,幷按重要程度排序。得到变换后的维度后,往往需要结合具体业务分析出新维度背后的意义。

特征提取(PCA的数学小知识)固定资产的产值率净产值的劳动生产率百元产值的流动资金占用率百元产值的利润率百元资金的利润率数据分析经营能力盈利水平业务分析计算协方差矩阵求矩阵特征向量基本任务/目标及工具基础统计分析1特征提取2分类与预测3聚类分析4hypothesistesting、estimation、regression……关联分析5线性判别、神经网络、SVM、决策树……PCA、FFT……k-means、em、DBSCAN、OPTICS……apriori分类与预测问题一般是“监督学习”问题,也即训练数据集中带有用于训练模型输出的指示变量。无论是分类还是预测模型,数据的变现形式基本一致,区别在于分类模型的指示变量为离散数值,而预测模型的指示变量一般为连续数值。61487235033.60.6275011856629026.60.3513108183640023.30.67232118966239428.10.1672100118844723045.80.551311111570309634.60.5293213126884123539.30.704270899840035.40.3885007196900039.80.451411911980350290.26329129952159424.60.6372101109562113525.20.833230288741953290.22922041519038029.70.29436021006423029.70.3682100131880031.60.7433216104741815629.90.722411

怀孕次数口服葡萄糖耐量试验血浆葡萄糖浓度(2小时内)血压(mmHg)三头肌皮肤厚度(mm)胰岛素浓度(muU/ml)(2小时内)体重指数(kg/m^2)糖尿病家系指数(?)年龄分类与预测(基本概念)分类与预测(基本概念)决策树Fisher判别准则贝叶斯分类人工神经网络Logistic分类支持向量机……数据集计算模型分类与预测(回归分析)样本数据预测数据

线性回归非线性回归曲线拟合,是一种把现有数据透过数学方法来代入一条数式的表示方式。科学和工程问题可以通过诸如采样、实验等方法获得若干离散的数据,根据这些数据,我们往往希望得到一个连续的函数(也就是曲线)或者更加密集的离散方程与已知数据相吻合,这过程就叫做拟合(fitting),也能一定程度的成为“预测”。目标:输出树形数据结构,叶子节点为决策结果,其他节点为决策准则,自根节点向下则是决策的过程。如下例子所示的鸢尾花分类(3个类别)问题,输入数据有2个自变量(维度),分别是花瓣宽度及长度。当新数据来临时,从根节点开始向下执行决策,如发现花瓣宽度为1.3、花瓣长度为5.2,则决策过程如图中高亮路径所示,可知该数据的分类结果为“virginica”类型的鸢尾花。分类与预测(决策树)1、如花瓣宽度小于等于0.6,则得到结果为“setosa”,否则继续执行下个决策;2、如花瓣宽度大于1.7,则得到结果为“virginica”,否则继续执行下个决策;3、如花瓣长度小于等于4.9,则得到结果为“versicolor”,否则继续执行下个决策;4、如花瓣宽度小于等于1.5,则得到结果为“virginica”,否则结果为“versicolor”。

分类与预测(决策树的计算示意)信息熵:信息增益:

当计算完所有属性的信息增益后,选择信息增益最大的属性进行数据集的划分(子节点),然后进行下一层的属性选择,直到所有子节点的数据都为同一分类。基础知识分类与预测(线性判别)

分类与预测(线性判别)数据分类问题可从几何角度出发,分类的过程其实就是求点到直线距离的过程,结果可以通过与0比较而得到。

人工神经网络(ArtificialNeuralNetwork,缩写ANN),是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式。分类与预测(ANN)外界刺激作出反应回馈输入调整强度单层感知机:加权和→传递函数分类与预测(ANN)

可见,单层感知机本质就是线性判别法,与Fisher判别法的区别在于,Fisher判别法寻找的是用于投影的直线,而感知机寻找的是用于划分的直线,而参数优化的手段也有所区别,而且感知机幷没有确定的公式求出最终结果。

单层感知机:加权和→传递函数→反馈输入分类与预测(ANN)

单层网络:线性分类,可使用一条直线把数据进行分类。分类与预测(ANN)属性x属性y分类-12+-21+2-1-1-2-

分类平面:属性x属性y分类过程分类结果-12+-21+2-1-1-2-线性不可分:无法使用一条直线对数据进行分类,使用多层网络。分类与预测(ANN)x1x2y110101011000如图所示,该分类问题无法通过构造一条直线解决,神经网络技术也曾因此停滞发展,直到解决该问题的方法——多层网络结构的出现。可构造一个2-2-1网络解决该问题,该网络有第1层有2个输入、2个输出,第2层有2个输入、1个输出。第1层第2层该网络的输入数据集,包括2个维度及1个期望输出。线性不可分:无法使用一条直线对数据进行分类,使用多层网络。分类与预测(ANN的计算示意)

多层网络本质上是非线性映射,理论上可用于拟合任意复杂的函数。分类与预测(ANN)JAVA实现BP网络的数据拟合实验图示,图中红色实线为原始数据,原点为采样数据,蓝色实线为拟合数据多层网络也可拟合多个输出。分类与预测(ANN)BP网络同时拟合多个输出数值实验示意图SVM的输出是一个“超平面”,这个超平面可能是高维的,甚至可能是无限维的。在分类任务中,SVM的基本理念是将决策面(超平面)放置在一个位置,使两类中所有点距离这个位置最远。考虑两类线性可分问题,如果要在两个类之间画一条线,有多种方法,但按照SVM的理念,会先找两类之间最大的空白间隔,然后在空白间隔的中点画一条线,这条线平行于空白间隔。通过核函数,可以使SVM能对非线性可分的任务进行分类。分类与预测(SVM)算法输出超平面,使两类样本数据之间的“空白区域”最“宽”核函数:对样本数据的维度进行扩展,如1维数据可以扩展到2维甚至更高,使样本数据在更高维度的空间中线性可分分类与预测(SVM)原始数据为1维,分布在x轴上,且线性不可分,进行平方运算后,数据分布在2维空间中,原本无法用超平面分离的数据在2维平面中变得线性可分。分类与预测(SVM)打开WEKA数据集文件,切换到classifier面板可选择不同的分类算法,每种算法均有不同的配置。分类与预测(SVM)SVM的输出类似回归分析,预测数据需要与输出模型中每个“支撑向量”作内积然后加权求和,“支撑向量”的数目直接决定了输出模型的计算规模。从图中可见,虽然SVM可解决非线性问题,但其输出模型的运算仍是以线性为主。WEKA运行SVM的SMO算法计算结果SVM可视化实验。分类与预测(SVM)JAVA实现SVM,左图为输入二维数据,红色点为正样本,蓝色点为负样本,右图为分类结果

分类与预测(SVM的数学小知识)原问题:拉格朗日函数:对偶函数:对偶问题转化:基本任务/目标及工具基础统计分析1特征提取2分类与预测3聚类分析4hypothesistesting、estimation、regression……关联分析5fisher、ANN、SVM、decisiontree、bayestheorem……PCA、FFT……k-means、期望最大化、基于密

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论