版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第13章物联网中的智能决策内容提要智能决策是物联网“智慧”的来源。本章将介绍数据挖掘的基本流程,基本类型和典型算法。第12章介绍了搜索引擎的相关知识搜索引擎的基本组成搜索引擎的体系结构(信息采集,索引技术,搜索服务)物联网中搜索引擎的挑战本章介绍数据挖掘的基本流程(预处理,数据挖掘,知识评估与表示),重点介绍几种典型的数据挖掘算法,最后讨论物联网中智能决策的新特点。内容回顾13.1数据挖掘概述13.2数据挖掘的基本类型和算法*13.3智能决策与物联网什么是数据挖掘?数据挖掘有哪三个步骤?本章内容13.1数据挖掘概述数据挖掘(DataMining)从大量数据中获取潜在有用的并且可以被人们理解的模式的过程是一个反复迭代的人机交互和处理的过程,历经多个步骤,并且在一些步骤中需要由用户提供决策数据挖掘的过程:数据预处理、数据挖掘和对挖掘结果的评估与表示每一个阶段的输出结果成为下一个阶段的输入13.1数据挖掘概述数据挖掘的过程数据预处理阶段数据准备:了解领域特点,确定用户需求数据选取:从原始数据库中选取相关数据或样本数据预处理:检查数据的完整性及一致性,消除噪声等数据变换:通过投影或利用其他操作减少数据量数据挖掘阶段确定挖掘目标:确定要发现的知识类型选择算法:根据确定的目标选择合适的数据挖掘算法数据挖掘:运用所选算法,提取相关知识并以一定的方式表示知识评估与表示阶段模式评估:对在数据挖掘步骤中发现的模式(知识)进行评估知识表示:使用可视化和知识表示相关技术,呈现所挖掘的知识13.1数据挖掘概述数据挖掘的过程13.1数据挖掘概述13.2数据挖掘的基本类型和算法*13.3智能决策与物联网数据挖掘的基本类型和算法有那些?本章内容13.2数据挖掘的基本类型和算法数据挖掘的基本类型关联分析(AssociationAnalysis)聚类分析(ClusteringAnalysis)离群点分析(OutlierAnalysis)分类与预测(ClassificationandPrediction)演化分析(EvolutionAnalysis)描述性挖掘任务:刻划数据库中数据的一般特性预测性挖掘任务:在当前数据上进行推断和预测关联分析关联分析的目标是从给定的数据中发现频繁出现的模式,即关联规则关联规则通常的表述形式是XY,表示“数据库中满足条件X的记录(元组)可能也满足条件Y”以某电器商场销售记录为例:含义:4%(支持度)的顾客的年龄在20至29岁且月收入在3000至5000元,且这样的顾客中,65%(置信度)的人购买了笔记本电脑关联联分分析析挖掘掘关关联联规规则则,,需需要要置信信度度和支持持度度越高高越越好好基本本概概念念项集集:满满足足若若干干条条件件的的数数据据项项的的集集合合,,如如果果条条件件数数为为k,则则称称k-项集集满足足年年龄龄(顾客客,““20~29””)的项项集集是是1-项集集满足足年年龄龄(顾客客,““20~29””)收入入(顾客客,““3000~5000””)的项项集集是是2-项集集计算算步步骤骤首先先找找到到具具备备足足够够支支持持度度的的项项集集,,即即频繁繁项项集集然后后由由频频繁繁项项集集构构成成关关联联规规则则,,并并计计算算置置信信度度关联联分分析析如何何寻寻找找频频繁繁项项集集Apriori算法法基本本思思想想::利用用已已求求出出的的k-项集集来来计计算算(k+1)-项集集首先先计计算算频频繁繁1-项集然后根据据两个频频繁k-项集{p1,p2,...,pk},{q1,q2,...,qk}计算频繁繁(k+1)-项集,其其中pi=qi,1<=i<=k-1,且该(k+1)-项集为{p1,p2,...,pk,qk}最后判定定该(k+1)-项集是否否频繁即即可缺点:可能产生生大量候候选项集集,并需需要重复复地扫描描数据库库FP-Growth算法利用树状状结构保保存项集集,从而而减小了了计算频频繁项集集所需的的存储空空间关联分析析如何由频频繁项集集构造关关联规则则,并计计算置信信度关联规AB的置信度度其中count(AANDB)为满足条条件A以及B的数据项项数目,,count(A)为满足条条件A的数据项项数目计算步骤骤对于每一一个频繁繁项集S,计算S的所有非非空子集集对于每个个S的非空子子集F,若大大于给定定置信度度阈值,,则得到到一个关关联规则则分类和预预测分类和预预测的目标是是找出描述述和区分分不同数数据类或或概念的的模型或或函数,以便能能够使用用模型预预测数据据类或标标记未知知的对象象所获得的的分类模型型可以采用用多种形形式加以以描述输输出分类规则则判定树数学公公式神经网网络…分类与与预测测的区区别::分类通通常指指预测测数据据对象象属于于哪一一类,,而当当被预预测的的值是是数值值数据据时,,通常常称为为预测测分类和和预测测以判定树树方法为为例,,简要要介绍绍分类类的基基本步步骤和和结果果表示示问题实实例:假定定商场场需要要向潜潜在的的客户户邮寄寄新产产品资资料和和促销销信息息。客客户数数据库库描述述的客客户属属性包包括姓姓名、、年龄龄、收收入、、职业业和信信用记记录。。我们可以按按是否会在在商场购买买计算机将将客户分为为两类,只只将促销材材料邮寄给给那些会购购买计算机机的客户,,从而降低低成本。分类和预测测用于预测客客户是否可可能购买计计算机的判定树,其中每个非树叶叶节点表示一个属性上的测测试,每个树叶节节点代表预测结果分类和预测测如何构造上上述判定树树?基本概念::n个客户中有有a个购买了计计算机的期望信息建立树节点点时,选取取合适的判判定属性,,以最大化期望望信息增益益应某种属性上上的信息增增益大小反反映了该属属性区分给给定数据的的的能力强强弱10条客户记录录,其中6人购买了计计算机,4人没有购买买。这10位客户中有有3人的职业是是学生,其其中有2人购买计算算机,而非非学生客户户购买计算算机的有4人。在选择择区分属性性以前,数数据的期望望信息为,,用职业区区分之后的的期望信息息为,,则选择择职业作为为区分属性性的信息增益为聚类分析聚类的目的的是将数据对象象划分为多多个类或簇簇,在同一个个簇中的对对象之间具具有较高的的相似度,,而不同簇簇中的对象象差别较大大聚类与分类类的区别::要划分的类类是事先未未知的聚类分析的的应用聚类分析聚类分析的的方法划分方法:要求事先先给定聚类类的数目k。首先创建建一个初始始划分,然然后通过对对划分中心心点的反复复迭代来改改进划分。。典型算法法包括k-means算法和k-medoids算法等层次方法:对给定数数据集合进进行逐层递递归的合并并或者分裂裂,因此可可以被分为为合并或分分裂方法。。合并方法法首先将每每个对象都都作为独立立的类,然然后持续合合并相近的的类,直到到达到终止止条件为止止。分裂方方法首先将将所有的数数据对象置置于一个类类中,然后后反复迭代代并判定当当前的类是是否可以被被继续分裂裂,直到达达到终止条条件为止基于密度的的方法:只要某区区域数据密密度超过阈阈值,就将将该区域的的数据进行行聚类。其其优势在于于噪音数据据下的抗干干扰能力,,并能够发发现任意形形状的聚类类聚类分析聚类分析的的方法(续续)基于网格的的方法:把对象空空间量化为为具有规则则形状的单单元格,从从而形成一一个网格状状结构。在在聚类的时时候,将每每个单元格格当作一条条数据进行行处理。优优点是处理理速度很快快,因处理理时间与数数据对象数数目无关,,而只与量量化空间中中的单元格格数目相关关基于模型的的方法:如果事先先已知数据据是根据潜潜在的概率率分布生成成的,基于于模型的方方法便可为为每个聚类类构建相关关的数据模模型,然后后寻找数据据对给定模模型的最佳佳匹配。主主要分两类类:统计学学方法和神神经网络方方法离群点分析析离群点(Outlier):数据集合合中存在的的一些数据据对象,它它们与其余余绝大多数数数据的特特性或模型型不一致寻找离群点点的意义发现信用卡卡诈骗。通过检测测购物地点点、商品种种类或者购购物金额和和频率,能能够发现与与绝大多数数正常消费费不一样的的记录,这这种行为就就有可能属属于信用卡卡诈骗性使使用预防网络诈诈骗。在网络销销售的时候候,诈骗者者往往冒充充商家,出出售报价比比正常价格格低出许多多的商品,,这样的行行为也是可可以通过离离群点分析析被找到的的离群点分析析寻找离群点点的方法基于统计的的方法:需要事先已已知数据的的分布或概概率模型(例如一个正正态分布),然后根据据数据点与与该模型的的不一致性性检验来确确定离群点点基于距离的的方法:不需要数据据模型,而而是将那些些没有足够够邻居的数数据对象看看作是离群群点,这里里的邻居是是基于距给给定对象的的距离来定定义的。现现有的基于于距离的离离群点探测测算法又分分为基于索索引的算法法,嵌套循循环算法和和基于单元元的算法,,其目的都都是为了减减小计算和和I/O开销基于偏移的方方法:不采用统计检检验或基于距距离的度量值值来确定异常常对象。相反反,它通过检检查数据对象象的一组主要要特征来确定定离群点。偏偏离事先给出出的特征描述述的数据对象象被认为是离离群点演化分析演化分析的目的是挖掘掘随时间变化的数据对象的的变化规律和和趋势,并对对其建模,进进而为相关决决策提供参考考演化分析的应应用对股票的演化化分析可以得得出整个股票票市场和特定定的公司的股股票变化规律律,为投资者者决策提供帮帮助对生态和气候候的演化分析析可以知道人人类活动对自自然的影响程程度,为环境境保护提供重重要依据…建模方法:除了关联分析析和分类分析析,还包括与与时间相关的的数据分析方方法,主要包包括趋势分析析、相似搜索索、序列模式式挖掘和与周周期分析演化分析与时间相关的的数据分析方方法趋势分析:确定趋势的常常见方法是计计算数据n阶的变化平均均值,或者采采用最小二乘乘法等方法平平滑数据变化化曲线相似搜索:相似搜索用于于找出与给定定序列最接近近的数据序列列序列模式挖掘掘:挖掘相对时间间或其它维属属性出现频率率高的模式周期分析:挖掘具有周期期的模式或者者关联规则,,例如”若每每周六公司的的下班时间比比平时晚半小小时以上,则则选择打车回回家的人数大大约增加20%”13.1数据挖掘概述述13.2数据挖掘的基基本类型和算算法*13.3智能能决决策策与与物物联联网网数据据挖挖掘掘在在物物联联网网背背景景下下有有着着广广泛泛的的需需求求本章章内内容容13.3智能能决决策策与与物物联联网网数据据挖挖掘掘技技术术在在物物联联网网中中的的需需求求精准准农农业业市场场行行销销智能能家家居居金融融安安全全产品品制制造造和和质质量量监监控控互联联网网用用户户行行为为分分析析…精准准农农业业精准准农农业业市场场行行销销智能能家家居居金融融安安全全产品品制制造造和和质质量量监监控控互联联网网用用户户行行为为分分析析通过过植植入入土土壤壤或或暴暴露露在在空空气气中中的的传传感感器器监监控控土土壤壤性性状状和和环环境境状状况况。数据据通通过过物物联联网网传传输输到到远远程程控控制制中中心心,,可可及及时时查查清清当当前前农农作作物物的生长长环环境境现现状状和和变变化化趋趋势势,,确确定定农农作作物物的的生生产产目目标标。通过过数数据据挖挖掘掘的的方方法法,,可可以以知知道道::环环境境温温度度湿湿度度和和土土壤壤各各项项参参数数等等因因素素是是如如何何影影响响农农作作物物产产量量的的,,如如何何调调节节它它们们才才能能够够最最大大限限度度地地提提高高农农作作物物产产量量市场场行行销销精准准农农业业市场场行行销销智能能家家居居金融融安安全全产品品制制造造和和质质量量监监控控互联联网网用用户户行行为为分分析析利用用数数据据挖挖掘掘技技术术通通过过对对用用户户数数据据的的分分析析,,可可以以得得到到关关于于顾顾客客购购物物取取向向和和兴兴趣趣的的信信息息,,从从而而为为商商业业决决策策提提供供依依据据数据库库行销销(DatabaseMarketing)通过交交互式式查询询、数数据分分割和和模型型预测测等方方法来来选择择潜在在的顾顾客以以便向向它们们推销销产品品预测采采用何何种销销售渠渠道和和优惠惠条件件,使使得用用户最最有可可能被被打动动货篮分分析(BasketAnalysis)通过分析市市场销售数数据(例如POS数据库)来发现顾客客的购买行行为模式智能家居精准农业市场行销智能家居金融安全产品制造和和质量监控控互联网用户户行为分析析以获取天气气信息为例例:一方面面,智能设设备随时关关注气象信信息,并针针对雨天发发出报警提提醒;另一一方面,另另外一些智智能终端会会随时跟踪踪主人的行行踪,并通通过数据挖挖掘方法由由主人的历历史行动特特征数据预预测他的去去向一旦预测到到主人要出出门,那么么就在合适适的时候由由相应的智智能终端提提醒他不要要忘记带雨雨伞。例如如,如果主主人在门口口,就将由由安装在门门上的智能能设备向他他发出提醒醒,如果在在车内,则则由车载计计算机发出出提醒金融安全精准农业市场行销智能家居金融安全产品制造和和质量监控控互联网用户户行为分析析由于金融投投资的风险险很大,所所以在进行行投资决策策时,需要要通过对各各种投资方方向的数据据进行分析析,以选择择最佳的投投资方向。。数据挖掘掘可以通过过对已有数数据的处理理,找到数数据对象之之间的关系系,然后利利用学习得得到的模式式进行合理理的预测金融欺诈识识别主要是是通过分析析正常行为为和诈骗行行为的数据据和模式,,得到诈骗骗行为的一一些特性,,这样当某某项业务记记录符合这这样的特征征时,识别别系统可以以向决策人人员提出警警告产品制造和和质量监控控精准农业市场行销智能家居金融安全产品制造和和质量监控控互联网用户户行为分析析随着科技进进步,制造造业已不是是简单的手手工劳动,,而是集成成了多种先先进科技的的流水作业业。在产品品的生产制制造过程中中常常伴随随有大量的的数据,如如产品的各各种加工条条件或控制制参数(如时间、温温度等)。通过各种种监控仪器器收集的这这些数据反反映了每个个生产环节节的状态,,对生产的的顺利进行行起着这关关重要的作作用。通过数据挖挖掘对数据据进行分析析,可以得得到产品质质量与这些些参数之间间的关系,,从而能获获得针对性性很强的建建议
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度技术服务合同:云计算平台的建设与运维2篇
- 石碣工地食堂承包合同模板
- 私人施工劳务合同范例
- 2024年财务会计年度工作计划(2篇)
- 完小教育教学管理考评细则(2篇)
- 能源计量器具管理制度(3篇)
- 2024培训班老师合同
- 二零二四年度版北京车牌租赁合同
- 独立撰写合同范例
- 2024货物买卖合同范本书
- 高中数学专题讲座数列
- 关注师生的倾听与表达
- 常见职业危害相应职业禁忌症(简表)
- Spelling-Bee活动方案(中)
- 老挝10大经济特区
- 0、ST-L6561-应用笔记--中文版
- _电梯维保完工确认单
- 周围血管和淋巴管疾病(PPT)
- 房地产客户信息登记表
- 安全生产标准化责任制考核记录模板
- 小学音乐祖国祖国我们爱你课件ppt课件
评论
0/150
提交评论