




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘算法介绍
--综述
2004年12月17日数据挖掘数据挖掘是从大量数据中提取出有效的、新颖的、有潜在作用的、可信的、并能最终被人理解的模式(pattern)的非平凡的处理过程。
KDDDMKDDKDD:knowledgediscoveryindatabase数据建模验证应用DMDM:dataming——KDD的一个阶段KDD与DM等同DMislikesettinguparestaurantkitchen...StartingarestaurantkitchenDataMiningFood/InfoCooks/TeamKitchen/DWH数据挖掘与其他学科的关系DataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearning(AI)Visualization数据挖掘与OLAPOLAP(on-lineanalyticalprocessing):只能限制于少量的维度和数据类型用户控制的流程假设——验证——结论DM:没有明确假设的前提下去挖掘信息、发现知识——具有未知、有效、可实用三个特征能自动的发现隐藏在数据中的规律可以发现比OLAP更复杂而细致的信息未知——归纳——结论联系:OLAP——DMOLAM数据挖掘与统计学数据挖掘:数据挖掘利用了统计、人工智能、数据库等技术,把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题;不仅仅是统计分析;统计分析:统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高
联系统计分析方法学的延伸和扩展
很多的挖掘算法来源于统计学前景预言:著名的咨询公司GartnerGroup在(2000年)一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位国外现状:成熟、产品:SAS、CLEMENTINE、UNICA、各大数据库国内现状:起步产品:大部分是实验室产品数据挖掘分类挖掘对象基于数据库的挖掘基于web的挖掘基于文本的挖掘其他:音频、视频等多媒体数据库数据挖掘分类应用响应模型交叉销售价值评估客户分群数据挖掘分类挖掘模式预测型(Predictive)描述型(Descriptive)实际作用可分为以下几种模式:分类:对没有分类的数据进行分类;预测:用历史来预测未来;关联分析:关联规则;聚类:物以类聚;序列模式:在多个数据序列中发现共同的行为模式;描述和可视化:数据挖掘的结果的表示形式;偏差分析:从数据分析中发现异常情况。数据挖掘分类我的理解-挖掘的算法分为三个层次:模式:比如分类、聚类-》模型:决策树、神经网络-》算法:ID3、CHAID、BP举例:分类-决策树-ID3、CHAID等;聚类-聚类分析-k-means、EM等。数据挖掘分类挖掘模型决策树(decisiontree)关联规则(associationrules)聚类(clustering)神经网络(ArtificialNeuralNetworks,简记作ANN)粗糙集(roughset)概念格(conceptlattice)遗传算法(geneticalgorithms)序列模式(sequencepattern)贝叶斯(Bayes)支持向量机(supportvectormachine,简记作SVM)模糊集(fuzzyset)基于案例的推理(case-basedreasoning,简记作CBR)决策树决策树学习是以实例为基础的归纳学习算法,着眼于从一组无次序/无规则的事例中推理出决策树表示形式的分类规则;决策树基本算法是:贪心算法,它以自顶向下递归、各个击破方式构造决策树.关联桑规则关联狐规则老是形记式如观下的耻一种尿规则蹈,“栏在购违买面市包和牵黄油龙的顾侦客中绍,有蔬90俱%的亮人同食时也云买了文牛奶毯”(虚面包觉+黄骑油塔→嘱牛奶设);关联哀规则察的“修三度锄”:峰支持街度、静可信套度、鬼兴趣代度。聚类聚类焰是根费据数氏据的魂不同触特征,将其矿划分机为不密同的粱簇(cl卧us锐te货r),目的兽是使继得属叶于同弊一个薄簇中张的对眯象之量间具曲有较蒙高的预相似瓣度,逼而不蜓同簇嗽中的而对象殖差别肥(相盛异度能)较侵大;聚类狐技术客大致势分为充五种猎:划分水方法株(pa脱rt蚂it锁io旗ni侧ng奖m艇et参ho冶d)层次背方法罩(hi奥er阴ar陕ch筛ic猴al冻m司et包ho支d)基于剃密度便的方岂法(de啦ns墙it啄y-领ba良se摊d计me肾th孙od脂)基于暴网格宴的方羡法(gr猎id甚-b件as榨ed命m所et程ho辩d)基于押模型若的方稍法(mo纺de智l-防ba把se末d扎me扩th植od顶)神经销网络人工具神经阔网络,是对仅人类纤大脑术系统饱的中蓝模拟达;神经物网络幅是一披组连于接的肿输入/输出完单元,其中氏每个膊连接娱都与闸一个添权相饰关联,在学灰习阶京段,通过叛调整级神经孕网络毕的权,使得捏能够雷预测晴输入冶样本闭的正亩确类碌标号侧来学答习。激励返函数清的选撇择和亿权值仍的调园整粗糙劳集粗糙机集理闯论是忆一种胁研究胞不精脆确、狼不确夹定性绍知识补的数迎学工偶具;粗糙胁集对爱不精毅确概旱念的塔描述车方法梢是:临通过挠上近某似概才念和瞒下近坦似概努念这樱两个捕精确习概念冒来表晶示;一个协概念答(或田集合胀)的桨下近扎似指知的是假其中层的元角素肯解定属赏于该派概念归;一啊个概志念(兄或集砖合)仅的上揪近似反指的惑是其散中的畜元素折可能匹属于俗该概嚷念。粗糙户集方沃法则惠有几炼个优怜点:赴不需委要预降先知禽道的苍额外嫌信息汽,如地统计牙中要寄求的恰先验货概率区和模央糊集庙中要帅求的狭隶属侮度;芝算法抬简单汉,易稼于操彩作。粗糙刃集理闸论在孟知识寨发现举研究垒中有价着许初多具沉体应槐用,亿特别常适合息于数浊据之杜间(竿精确圈的或漂近似状的)轨依赖购关系撑发现思、评惧价某欺一分未类(那属性刃)的稳重要中性、精数据谦相似蹲或差投异发冰现、粮数据值模式郊发现汇、从邀数据详中产别生一俗般决量策规农则、贿削减搬冗余奶对象课与属紫性、面寻求朋属性阶的最岔小子密集以丙确保需产生陵满意后的近胃似分贩类等劣等粗糙也集举例概念须格概念得格描狠述的暴是对握象和已属性你之间征的联堪系和锄统一纠,表趋明概躬念之汇间的强泛化缎和例国化关瞒系,恶相应离的Ha夜ss鹿e图实落现数宁据的泰可视购化。遗传进算法遗传档算法冶(Ge剂ne京ti度cAl璃go罩ri赵tm煎s,简称GA蜜)是以林自然财选择娘和遗幅传理霸论为虚基础愉,将纳生物昏进化内过程行中“那适者熔生存组”规胶则与慌群体遵内部洞染色赶体的罢随机裹信息登交换雀机制节相结夹合的羞搜索棚算法俭;遗传缝算法观主要费组成雨部分幼包括蝴编码块方案袭、适肉应度马计算夺、父巧代选娇择、筐交换原算子担和变老异算忙子。序列询模式是指宾在多锯个数章据序竹列中教发现早共同壳的行烧为模握式。通过泄时间汉序列掩搜索触出重样复发仆生概苗率较询高的终模式确。这涨里强云调时没间序敬列的招影响猾。例如插,在厨所有项购买茧了激丑光打塑印机字的人迁中,次半年趣后80榜%的人扶再购佣买新达硒鼓舞,20祸%的人亦用旧犯硒鼓高装碳牲粉;在所斑有购怨买了支彩色妻电视爸机的蓝人中业,有60舰%的人联再购蒜买VC续D产品;在时逆序模卷式中断,需恋要找由出在均某个辛最短叫时间驳内出充现比梁率一忆直高俘于某舞一最泥小百目分比程(阈歇值)正的规趴则。贝叶猎斯贝叶想斯分杰类是任统计拘学的惊分类跑方法脏,其老分析菜方法刻的特缺点是涛使用偷概率斜来表根示所助有形码式的弃不确珠定性足,学窃习或惹推理每都用导概率骂规则梳来实牵现;朴素镜贝叶姑斯分朵类:海假定否一个困属性内值对创给定魔类的横影响坟独立涉于其遇他属腾性的遵值;贝叶贸斯网乌络:仗是用亦来表销示变男量间余连接英概率那的图加形模腰式,孝它提佳供了翁一种址自然般的表毒示因扯果信奸息的逝方法键,用摆来发泰现数示据间顺的潜难在关违系。支持坛向量上机支持涌向量形机(Su柿pp例or掌t叉Ve津ct过or很M域ac状hi接ne峡,螺SV穗M)建立腥在计称算学戚习理诱论的府结构亏风险赴最小数化(SR派M)原则恢之上登。其坡核心址问题榜是寻哑找一逐种归侧纳原忧则,黑以实文现最钥小化下风险凤,从驼而实守现最万佳的武推广选能力根。而乓且SV鲁M一个曾重要运的优孤点是说可以点处理简线性夹不可两分的郑情况。以往戚的机脱器学俱习理岂论的孙核心第是经崖验风斜险最庄小化带原则务(ER镇M)模糊借集模糊瘦集:欣不同糊于经臂典集阵合,匹没有迎精确沟边界拾的集微合;定义倾:设X是对郑象x的集快合,x是X的任猛一个虎元素熄。X上的银模糊壳集合A定义凡为一享组有姥序对帝:A=神{(猪x,袋uA(X春))裳|xX},其中uA(X)称为押模糊紫集合A的隶殖属度著函数齿(me古mb绪er句sh励ipfu俭nc秋ti日on复,M丘F)垦MF将集腹合中喝的元敞素映够射为印0到筐1之肤间的振隶属渡度;隶属太度为仓0,裙或者稀1,击则A就退低化为行经典筹集合炮。案例缺的推凡理案例规是一辣段带责有上告下文忙信息蒙的知仰识,表该知辫识表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- JJF 2212-2025汽油车燃油蒸发排放控制系统检测仪校准规范
- 2025年湖北省初中学业水平考试化学模拟试卷(五) (学生版)
- 仲恺农业工程学院《语言服务与创新创业》2023-2024学年第二学期期末试卷
- 濮阳石油化工职业技术学院《劳动实践与人生价值》2023-2024学年第二学期期末试卷
- 浙江工商职业技术学院《测绘数据处理课程设计》2023-2024学年第二学期期末试卷
- 莆田学院《社会学与生活》2023-2024学年第一学期期末试卷
- 昆明卫生职业学院《阿拉伯语语法》2023-2024学年第二学期期末试卷
- 无锡职业技术学院《钢琴教学法》2023-2024学年第一学期期末试卷
- 山西财经大学《企业资源计划(ERP)》2023-2024学年第二学期期末试卷
- 宁夏职业技术学院《西医外科》2023-2024学年第一学期期末试卷
- 视神经脊髓炎护理课件
- 中国卒中急救地图申报流程
- 2024年机载电子设备行业分析报告及未来发展趋势
- 泥瓦工培训课件
- 物资与设备管理培训
- JT-T 1485.1-2023 自动化集装箱起重机远程操控安全作业规程 第1部分:岸边集装箱起重机
- 城乡饮用水水质监测工作
- 心理团体辅导的保密协议
- 江苏开放大学2023年秋《马克思主义基本原理 060111》形成性考核作业2-实践性环节(占过程性考核成绩的30%)参考答案
- 流行性感冒诊疗方案(2020版)课件
- 井控安全培训-课件
评论
0/150
提交评论