第章 数据挖掘_第1页
第章 数据挖掘_第2页
第章 数据挖掘_第3页
第章 数据挖掘_第4页
第章 数据挖掘_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第13章数据挖掘13.1数据挖掘概述13.2数据挖掘的基本类型和算法13.3智能决策与物联网本章内容13.1数据挖掘概述数据挖掘从大量数据中获取潜在有用的并且可以被人们理解的模式的过程反复迭代的人机交互和处理过程,历经多个步骤,并且在一些步骤中需要由用户提供决策13.1数据挖掘概述数据挖掘过程数据预处理阶段数据准备:了解领域特点,确定用户需求数据选取:从原始数据库中选取相关数据或样本数据预处理:检查数据的完整性及一致性,消除噪声等数据变换:通过投影或利用其他操作减少数据量数据挖掘阶段确定挖掘目标:确定要发现的知识类型选择算法:根据确定的目标选择合适的数据挖掘算法数据挖掘:运用所选算法,提取相关知识并以一定的方式表示知识评估与表示阶段模式评估:对在数据挖掘步骤中发现的模式(知识)进行评估知识表示:使用可视化和知识表示相关技术,呈现所挖掘的知识13.1数据挖掘概述13.1数据挖掘概述13.2数据挖掘的基本类型和算法13.3智能决策与物联网本章内容13.2数据挖掘的基本类型和算法数据挖掘的基本类型关联分析聚类分析离群点分析分类与预测演化分析描述性挖掘任务:刻划数据库中数据的一般特性预测性挖掘任务:在当前数据上进行推断和预测关联分析关联分析是从给定的数据中发现频繁出现的模式,即关联规则关联规则通常的表述形式是XY,表示“数据库中满足条件X的记录(元组)可能也满足条件Y”以某电器商场销售记录为例:含义:4%(支持度)的顾客的年龄在20至29岁且月收入在3000至5000元,且这样的顾客中,65%(置信度)的人购买了笔记本电脑关联分析挖掘关联规则,需要置信度和支持度越高越好基本概念项集:满足若干条件的数据项的集合,如果条件数为k,则称k项集满足年龄(顾客,“20~29”)的项集是1项集满足年龄(顾客,“20~29”)收入(顾客,“3000~5000”)的项集是2项集计算步骤首先找到具备足够支持度的项集,即频繁项集然后由频繁项集构成关联规则,并计算置信度关联甘分析如何冰寻找纤频繁扎项集Ap党ri凉or佛i算法基本奶思想偏:利狠用已从求出笨的k项集续来计震算(k洒+1金)项集首先币计算碗频繁1项集然后斧根据序两个删频繁k项集{p1,街p2,弯..块.,pk},{q1,沿q2,很..荣.,qk}计算帽频繁(k榜+1陡)项集翼,其找中pi=qi,1<妹=i核<=皂k-寇1,且旅该(k煮+1伴)项集撑为{p1,砖p2,我..那.,pk,qk}最后堡判定他该(k锻+1胡)项集乏是否敢频繁缺点走:可扯能产沉生大类量候威选项慰集,箭并需务要重姜复地选扫描烈数据渠库FP捕-G旱ro围wt疤h算法利用膝树状捞结构压保存拌项集暖,从驳而减贴小了吨计算玻频繁却项集充所需妹的存镰储空授间关联霸分析如何遭由频累繁项婆集构桥造关清联规跨则,绘并计旱算置字信度关联伯规则A沿B的置贝信度其中co盛un厕t(谁AAN惧D言B)为满群足条从件A以及B的数莲据项晶数目茂,co润un期t(吩A)为满苦足条羽件A的数爬据项神数目计算翅步骤对于而每一俭个频奇繁项泻集S,计劈燕算S的所沉有非稼空子垂集对于妙每个S的非泉空子族集F,若捞大社于给幻玉定置驼信度凭阈值光,则耐得到建一个垂关联通规则聚类链分析聚类飞分析是将冲数据毙对象掘划分源为多泻个类环或簇家,在粪同一能个簇突中的恼对象告之间难具有盈较高违的相羽似度骄,而舱不同抱簇中绕的对质象差绝别较泼大聚类秩与分汗类的贺区别疾:要捐划分惨的类战是事舞先未乓知的聚类念分析厅的应跃用聚类服分析聚类柿分析般的方顿法划分非方法龙:事梯先给胀定聚摔类的含数目k,创橡建一悬个初锈始划负分,崇然后鞋通过梅对划演分中沟心点状的反季复迭缎代来我改进守划分贸。典揪型算爪法包湾括k-黄me辩an总s算法营和k-澡me赢do秤id斤s算法辛等层次扛方法捉:对谱给定粗数据秆集合碧进行弦逐层惜递归激的合加并或损者分另裂,蕉分为兼合并贸或分泻裂方蜜法。忽合并嫂方法碑首先椅将每格个对骡象都膏作为茅独立耕的类箱,然居后持附续合佣并相础近的远类,篇直到焰达到蝇终止意条件冲为止那。分渠裂方阳法首阅先将揪所有找的数安据对啦象置状于一摆个类爱中,绸然后总反复饲迭代烦并判锹定当件前的瓣类是活否可爱以被勺继续泡分裂铸,直撞到达土到终挤止条偏件为音止基于却密度演的方凡法:碰只要塌某区杜域数净据密贫度超奏过阈窜值,浆就将即该区烫域的席数据白进行估聚类溉。其柱优势埋在于喝噪音芳数据理下的诉抗干碰扰能易力,君并能床够发椅现任意意形巷状的朴聚类聚类服分析基于惑网格谷的方肢法:笔把对垃象空机间量敲化为叹具有警规则馒形状漆的单碗元格回,从析而形阵成一袄个网刚格状坦结构堡。在结聚类呈的时扁候,挖将每难个单虽元格鱼当作塌一条唯数据夜进行扯处理介。优毒点是沉处理弊速度馋很快护,因晓处理饥时间臣与数松据对浓象数磁目无栏关,别而只巷与量后化空顶间中庭的单软元格峰数目忘相关基于般模型响的方循法:酬如果精事先墓已知滔数据缎是根徐据潜拘在的土概率句分布蜡生成都的,订基于失模型蹲的方建法便距可为仪每个泡聚类道构建这相关猜的数赠据模拨型,辫然后西寻找袭数据弱对给泄定模遥型的宾最佳始匹配揉。主泻要分尖两类苦:统芒计学药方法取和神蛮经网率络方舱法离群厨点分距析离群雪点分说析是找酬出数好据集朱合中傅存在傲的一垮些数意据对芳象,董它们谊与其约余绝溪大多妙数数趟据的陷特性怜或模浙型不守一致寻找谷离群剂点的晃意义发现葡信用辉卡诈辅骗。留通过堤检测腿购物傲地点饰、商讨品种券类或工者购跟物金丈额和分频率斗,能挡够发崖现与再绝大听多数呆正常矮消费队不一善样的犬记录驾,这沾种行狸为就隙有可并能属糊于信但用卡嗽诈骗轻性使烘用预防蝴网络烂诈骗速。在蔽网络嚼销售扇的时酱候,铸诈骗侧者往掉往冒炊充商耀家,井出售误报价抬比正拾常价嗽格低伶出许响多的量商品咐,这够样的该行为驾也是灰可以若通过疲离群嫂点分饥析被仍找到蚀的离群畏点分爆析寻找巩离群乏点的墨方法基于路统计灰的方刷法:枯需要鼻事先敞已知挣数据盼的分存布或哭概率亦模型(例如闻一个遇正态室分布),然宰后根颠据数触据点稼与该育模型克的不头一致睁性检晒验来蚀确定掘离群朝点基于消距离团的方姐法:川不需呜要数寸据模启型,械而是渡将那仍些没记有足俭够邻历居的住数据化对象待看作毙是离梦群点工,这随里的悦邻居哀是基尿于距劈燕给定梳对象砌的距鹊离来梯定义怒的。咐现有帆的基斧于距姓离的恶离群揪点探秒测算羞法又声分为尘基于援索引药的算较法,贩嵌套抵循环触算法票和基盼于单应元的适算法父,其惧目的谎都是厌为了待减小宣计算成和I/翁O开销基于嘉偏移供的方熟法:雅不采伴用统幸计检克验或讽基于轮距离盒的度珠量值递来确欺定异鹅常对虑象。绒相反巧,它皆通过装检查卫数据鼻对象职的一品组主俱要特豪征来仆确定哀离群榜点。土偏离陆事先窑给出碍的特袋征描拆述的轻数据嫩对象童被认煮为是过离群陈点分类呆和预方测分类弯和预坏测是找湖出描栽述和压区分纱不同朱数据何类或童概念疗的模阵型或积函数面,以宿便能闪够使晕用模串型预爬测数驻据类牙或标凶记未追知的趴对象所获严得的阔分类顺模型守可以芦采用裹多种能形式巧加以凡描述宗输出分类象规则判定必树数学芹公式神经旋网络…分类眼与预树测的游区别川:分相类通狐常指险预测予数据叠对象裳属于鄙哪一加类,乔而当占被预掌测的乌值是胃数值拔数据踏时,允通常绕称为焰预测分类匆和预喝测以判定阿树为例剑,简娃要介董绍分委类的顽基本跟步骤梅和结耀果表连示问题恼实例:假载定商倦场需雪要向步潜在誓的客魔户邮通寄新翠产品庸资料绪和促支销信诊息。剧客户辰数据妙库描阁述的伐客户佩属性汤包括锅姓名寺、年声龄、宾收入肠、职啄业和捡信用次记录休。我们脸可以号按是血否会玻在商算场购蚕买计际算机汗将客精户分浸为两号类,难只将浇促销棉材料雨邮寄秃给那笨些会裳购买嫌计算桂机的替客户母,从棍而降灾低成南本。分类勉和预仇测用于秘预测讽客户高是否野可能睡购买丸计算伏机的椅判定糟树,蛾其中夸每个超非树招叶节午点表赴示一拆个属狗性上团的测赢试,沙每个今树叶景节点娘代表额预测彩结果分类死和预低测如何油构造睁上述捏判定强树?基本全概念夹:n个客捞户中且有a个购把买了级计算炸机的裹期望透信息建立善树节衬点时属,选鹊取合兵适的眯判定箩属性邀,以胸最大夸化期哈望信咬息增元益应某种视属性征上的欧信息删增益芳大小控反映伐了该伸属性亭区分百给定拨数据棋的的迁能力秘强弱10条客券户记范录,亭其中6人购探买了约计算披机,4人没危有购嚷买。鸟这10位客枯户中舞有3人的栽职业山是学设生,蚂其中默有2人购幻玉买计萄算机猪,而坛非学逗生客的户购溪买计省算机徒的有4人。茫在选碰择区椒分属昂性以碧前,商数据标的期照望信况息为懒,用遥职业鸭区分戴之后齿的期顶望信捞息为百,挣则选香择职剩业作侮为区逗分属法性的信息披增益为演化碰分析演化阅分析是挖奴掘随透时间石变化阔的数乔据对证象的遇变化井规律娘和趋忧势,本并对浸其建垄模,爹进而嗽为相壳关决励策提报供参舱考演化钳分析停的应烘用对股泪票的共演化屑分析逆可以指得出炕整个尽股票寸市场贸和特如定的乏公司旺的股屿票变匀化规堡律,隶为投划资者集决策浸提供射帮助对生兵态和不气候泛的演璃化分赵析可挖以知赵道人鸦类活秘动对偏自然幕的影猴响程疾度,婶为环膛境保余护提玻供重曲要依值据…演化协分析与时尖间相搅关的拼数据俱分析鹿方法趋势呈分析晴:确艘定趋驱势的忽常见第方法模是计洲算数两据n阶的量变化批平均霉值,稼或者晌采用对最小哀二乘博法等庄方法背平滑户数据溪变化傍曲线相似专搜索迅:相帜似搜绑索用让于找苦出与乖给定查序列符最接谅近的福数据施序列序列汁模式言挖掘混:挖已掘相狼对时风间或框其它弊维属妻性出章现频佛率高脾的模贼式周期敢分析营:挖挂掘具盆有周屋期的域模式团或者烘关联无规则随,例沾如“碎若每钞周六脖公司征的下咐班时烘间比舍平时目晚半琴小时明以上丸,则捐选择矮打车诱回家痕的人勤数大嫁约增膜加20饶%”13定.1数据禁挖掘删概述13期.2数据猛挖掘兔的基宫本类谱型和余算法13者.3智能抢决策匙与物附联网本章绪内容13正.3智能招决策绵与物沙联网数据泉挖掘遭技术断在物焰联网毫中的执需求精准洽农业市场芽营销智能臭家居金融从安全产品盘制造谁和质喝量监狠控互联爸网用小户行乓为分喝析…精准侨农业通过挺植入特土壤不或暴却露在堂空气侧中的嫌传感内器监爬控土伸壤性养状和她环境君状况数据渐通过些物联元网传若输到牵远程耳控制岂中心骨,可吴及时编查清弹当前测农作较物的生长泥环境耕现状且和变隙化趋舒势,茫确定例农作视物的禁生产挖目标通过区数据剧挖掘既,得到环境群温度靠湿度军和土计壤各喘项参悬数等搏因素称是如庆何影匆响农覆作物踪蝶产量河的,价如何崭调节喂它们和才能省够最渴大限搅度地型提高饺农作嫂物产份量市场巨营销利用爬数据络挖掘奔技术居通过拌对用蚀户数瞎据的侵分析娱,得笼到关被于顾虑客购俱物取覆向和俊兴趣过的信碗息,贪从而堤为商腊业决段策提鱼供依什据数据赢库分施析通过腐交互合式查护询、中数据愤分割迫和模亩型预拿测等剧方法畜来选甘择潜体在的显顾客隆以便波向它轿们推哨销产尊品预测咏采用摄何种患销售羊渠道进和优沃惠条殊件,摊使得内用户谊最有酬可能味被打苍动货篮物分析通过悄分析枝市场下销售做数据(例如PO别S数据厅库)来发保现顾执客的桂购买墙行为攻模式智能庆家居以获神取天耐气信愤息为接例:获一方慌面,调智能抬设备柜随时析关注辱气象阻信息绘,并边针对辰雨天险发出闭报警尝提醒添;另柄一方彻面,哪另外夕一些主智能鲁终端不会随泼时跟在踪主浊人的魂行踪暮,并翼通过堡数据膛挖掘垂方法皱由主测人的披历史露行动洋特征央数据网预测抱他的馋去向一旦寒预测泡到主穗人要刑出门拢,那缓么就租在合锄适的择时候逃由相堪应的轮智能言终端滨提醒肚他不劫要忘疲记带城雨伞称。例健如,他如果稀主人品在门真口,股就将刃由安拾装在屈门上芽的智兔能设不备向市他发然出提随醒,抽如果斯在车类内,穴则由景车载僵计算阻机发煎出提厕醒金融孕安全由于购金融遍投资贿的风术险很绑大,锤所以北在进乐行投档资决钓策时预,需算要通凭过对要各种允投资倘方向扎的数启据进粉行分莫析,仰以选尘择最印佳的约投资蛾方向巧。数斥据挖渔掘可油以通疑过对芽已有匆数据棵的处条理,浪找到维数据诉对象孤之间馆的关德系,介然后疗利用模学习论得到挂的模胁式进互行合复理的送预测金融代欺诈谋识别男主要蠢是通谦过分席析正聋常行咸为和那诈骗司行为腹的数咽据和持模式私,得烘到诈蝴骗行侍为的间一些线特性制,这势样当胞某项循业务良记录踪蝶符合魂这样碧的特吨征时汉,识殿别系覆统可脉以向久决策盖人员辰提出率警告产品纷制造兼和质百量监样控随着卸科技表进步规,制聚造业晋已不职是简缠单的贫手工焰劳动控,而僻是集印成了忆多种符先进鸣科技碰的流窑水作定业。锄在产报品的雪生产左制造毫过程兵中常虑常伴购随有头大量扣的数窃据,歉如产疲品的惯各种巩加工湖条件脱或控这制参塘数(如时奖间、闻温度骂等)。通中过各金种监立控仪盾器收弯集的鞭这些驶数据屈反映阶了每复个生绕产环稍节的方状态脖,对荡生产捏的顺钉利进禽行起舍着这类关重猛要的欠作用所。通过擦数据亏挖掘屈对数考据进际行分匪析,何可以趟得到脆产品易质量乡丰与这踢些参叼数之杂间的古关系悟,从投而能拥获得携针对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论