大数据数据挖掘传统统计的选择_第1页
大数据数据挖掘传统统计的选择_第2页
大数据数据挖掘传统统计的选择_第3页
大数据数据挖掘传统统计的选择_第4页
大数据数据挖掘传统统计的选择_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘——中国检验检疫科学研究院-杨美红数据处理技术的演进什么是数据挖掘数据挖掘的流程数据挖掘的常用方法数据挖掘的功能技术的演进传统数据分析(在20世纪70年代后)数据仓库(20世纪90年代)-数据挖掘(与数据仓库紧密相连)-智能分析系统(BI)--包含数据挖掘-大数据分析(BI升级版)什么是数据挖掘数据挖掘(DataMining,DM)又称数据库中的知识发现(KnowledgeDiscoverinDatabase,KDD),是人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。1.技术上的定义及含义数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。2.商业角度的定义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘常用技术与算法1、人工神经网络

2、决策树

3、遗传算法

4、近邻算法

5、规则推导6、算法:分类、回归、分割、关联、顺序分析数据挖掘的常用方法利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。①分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。②回归分析。回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。③聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。

④关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。⑤特征。特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。⑥变化和偏差分析。偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。⑦Web页挖掘。数据挖掘的功能数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。

1、自动预测趋势和行为数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。

2、关联分析数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

3、聚鹿类数据必库中剥的记寄录可辣被化既分为私一系荐列有浴意义列的子速集,抱即聚花类。目聚类愉增强通了人光们对候客观拜现实最的认妨识,坝是概俘念描湾述和拘偏差颤分析况的先决细条件。聚店类技况术主里要包剩括传附统的尽模式浓识别勇方法互和数亡学分锤类学摆。80年代恼初,Mc范ha价ls裳ki提出糟了概疏念聚雷类技变术牞舟其要悟点是穿,在依划分说对象帜时不贯仅考属虑对痛象之烛间的惩距离璃,还败要求狮划分德出的姐类具赴有某林种内伪涵描固述,寒从而字避免节了传共统技男术的梨某些天片面仇性。4、概威念描前述概念稿描述投就是哥对某追类对桨象的轿内涵舱进行粉描述骄,并横概括骨这类秤对象须的有若关特淘征。歪概念职描述口分为些特征康性描胁述和巷区别溪性描站述,畏前者凤描述厅某类锡对象肥的共笔同特浩征,控后者箱描述竖不同艺类对再象之集间的百区别厌。生息成一闷个类央的特像征性泳描述炮只涉监及该暴类对阴象中非所有断对象发的共省性。暑生成旁区别洋性描贸述的拔方法撕很多区,如决策辉树方赔法、遗传蛙算法等。5、偏箩差检茂测数据茶库中抖的数青据常黑有一沸些异甘常记俗录,迷从数央据库红中检刻测这杨些偏筝差很猪有意俩义。邻偏差呼包括桥很多免潜在台的知肺识,绒如分驴类中畅的反游常实睬例、折不满慌足规拆则的驾特例登、观醉测结却果与袄模型栗预测廊值的渔偏差脉、量榨值随当时间士的变削化等盖。偏宝差检建测的感基本辽方法鸭是,特寻找霸观测午结果械与参蚂照值坊之间队有意腾义的缝差别踩。数据万挖掘棍的流挤程(1优).确定码业务射对象(2忆).数据茄准备1)、数巩据的潜选择2)、数晨据的悄预处谋理3)、数膏据的根转换(3帽).数据何挖掘(4晒).结果头分析(5际).知识撇的同铁化数据兽挖掘疯需要讯的人且员数据羞挖掘抽过程匪的分泡步实启现,不同伞的步崇会需森要是庄有不撒同专降长的幅人员,他们耻大体轰可以势分为袄三类.业务狐分析筑人员:要求坡精通未业务,能够托解释猫业务关对象,并根胆据各姿业务补对象阻确定钱出用眨于数辉据定蒸义和替挖掘墓算法闷的业劝务需服求.数据袋分析茅人员:精通陶数据趴分析昼技术,并对连统计省学有慈较熟搭练的赌掌握,有能榨力把居业务港需求续转化营为数期据挖如掘的泄各步浊操作,并为间每步免操作图选择起合适逐的技蹄术.数据还管理慨人员:精通仇数据继管理妙技术,并从烫数据兴库或数据嘉仓库中收担集数番据.数据夺挖掘船过程斜工作砖量分筛配在数宣据挖睛掘中犬被研淹究的飘业务靠对象孕是整布个过骄程的烦基础,它驱罚动了糕整个膊数据级挖掘推过程,也是宵检验李最后怒结果雷和指巾引分我析人岗员完驼成数恒据挖誉掘的郊依据那和顾配问.各步限骤是书按一阴定顺练序完你成的,当然翠整个就过程椒中还幸会存让在步验骤间遇的反障馈.数据著挖掘箭的过示程并绕不是筛自动进的,绝大短多数倡的工绳作需单要人酬工完宅成.整个谊过程笛中工问作量60做%的时狱间用惑在数饰据准厉备上,这说坑明了违数据左挖掘纺对数薪据的亡严格秃要求,而后私挖掘辽工作徐仅占籍总工楚作量喊的10解%.数据倍挖掘典与传死统分昼析方展法的些区别数据灭挖掘嫌与传毁统的数据必分析(如查系询、洲报表辫、联农机应吐用分霉析)的本费质区炎别是冶数据仗挖掘陡是在筹没有嗓明确键假设睁的前吉提下夹去挖斑掘信租息、敏发现坏知识.数据捧挖掘倍所得肺到的闷信息刚应具笑有先张未知,有效碍和可往实用许三个列特征.先前添未知跑的信皆息是寄指该叫信息杆是预骗先未南曾预帝料到尺的,既数换据挖洒掘是巴要发越现那闭些不雷能靠妨直觉发发现启的信稻息或汪知识,甚至架是违蚀背直哗觉的无信息访或知四识,挖掘物出的丙信息藏越是朴出乎辆意料,就可铜能越丧有价犬值.在商牛业应正用中肤最典陡型的泰例子找就是叹一家警连锁鲜店通侧过数诞据挖触掘发奴现了潜小孩你尿布删和啤喘酒之踢间有行着惊车人的反联系.分析贸数据丝式的准牧备与存规划1、明期确分夕析数窑据的郑目的2、合挥理安事排时胆间3、重营收集壁也要尾重分武析4、收颤集数仇据太饼多,掠导致鞠无法初整理四及分骄析时压适度普简化邮信息5、分跌析数迁据的邪目的岁明确循,用视数据眠来支疏撑目请的6、表胃格美棋观简夜练,毕一般左采用ex瓣ce昆l图表大数甚据与舰工作础相关“大洪数据雾”多热个定灭义,毙百度祖知道虽,互罢联网搂周刊桑,研患究机沫构Ga虚rt沫ne堵r均发潜布了王各自傅定义颂。个爆人更姻倾向蒸于互编联网康周刊严定义煮:大注数据早让我比们以添一种洒前所产未有算的方课式,俱通过全对海陵量数捏据进石行分卵析,巨获得皂有巨浇大价被值的该产品疮和服阴务,准或深董刻的首洞见月,最并终形示成变海革之缘瑞力。大数材据更晒多的封是一跃种思据维,给关联椒性思欧维,谋代替册以往昆追求声的因负果式贿思考剂。研究私数据您的目良的从最乐开始津的“蔑情报温”到脑现在贡的“弦大数腿据”在信专息越舌来越唇多,隙

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论