




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章信息处理技术数据挖掘数据库越来越大有价值的知识可怕的数据数据爆炸但知识贫乏问题数据库越来越大,是否企业所有数据都存储在数据库中?一般事务型数据库的存储年限是多少?CRM与数据仓库的关系数据仓库的作用
客户行为分析重点客户发现市场性能评估思考为什么需要建设数据仓库,数据库不足够吗?数据仓库是数据库吗?数据仓库有何好处?问题网站中使用因特网访问企业内部数据库有哪些企业?其工作机理是什么?使用因特网访问企业内部数据库的优点有哪些?问题凡客中的客户行为分析是采用什么工具来进行处理数据而得的结果?唯品会呢?新浪呢?要求掌握:数据仓库与数据库的关系数据仓库优势联机分析处理和数据挖掘区别第一节数据的组织与管理一、数据管理方法(一)数据的层次结构按照四个层次分:字符:是计算机中表示数据的基本单元。字段(属性):是字符的集合,表示一个有意义的数据单位。记录:是多个相互关联的字段组成的集合,用来描述某一个管理对象或业务活动的内容。文件和数据库文件:是按特定目的和格式组织的相关记录的集合。数据库:是逻辑上相关的文件的集合。数据的层次性数据名称示例说明数据库项目数据库文件98-12-3012李峰5-7-9498-10-4013方洪1-5-9634-07-0116魏明华10-5-87职工文件记录98-12-3012李峰5-7-94包含员工编码、姓氏、名字、聘用日期的记录字段李峰名字字段字符1000100以ASCII马表示的字母F职工文件部门文件工资文件(二)实体和属性实体:客观存在的人、物体、地点或事务的一般类别属性:是实体的特性二.数据管理技术的发展数据管理技术是对数据进行分类、组织、编码、存储和维护的技术。它的发展大致可分为如下四个阶段:1.人工管理阶段(20世纪50年代中期以前)①数据不能长期保存在计算机中。②没有软件系统对数据进行管理。③数据大量冗余,且不能共享。
应用程序1应用程序1应用程序1数据组2数据组1数据1数据2人工管理下数据与应用程序的联系2.文件系统阶段
(出现于20世纪50年代后期到60年代中期)①数据可以由操作系统管理的文件形式长期保存在计算机中。②操作系统的文件管理系统提供了对数据的输入和输出操作接口,即提供数据存取方法。③一个应用程序可以使用多个文件,一个文件可被多个应用程序使用,数据可以共享。④数据仍然是面向应用的,文件之间彼此孤立,不能反映数据之间的联系,因而仍存在数据大量冗余和不一致性。应用程序1应用程序2文件系统文件1文件2文件系统中应用程序与数据的联系3.数据库系统阶段大约从20世纪60年代后期开始,这一阶段的特点:采用一定的数据模型来组织数据,数据不在面向应用,而是面向系统。应用程序独立于数据,实现了数据的独立性。数据的冗余度明显减少,从而减少了数据的不一致性。为用户的数据操作提供了方便的用户接口,实现了数据共享。在数据库中,对数据进行统一的管理和控制。应用程序1应用程序1数据库管理系统数据库数据库管理阶段4.高级数据库技术阶段大约从20世纪80年代后期开始,其特点为:①分布式数据库。由一组物理上分布在计算机网络的不同结点上数据,既面向本地的局部应用,又参与涉及多个结点的全局应用。②面向对象的数据库。
共享缩小了数据库和应用程序间的差距,降低了应用程序的开发费用,同时也减少了系统出现问题的可能性。二.湿数雨据库壳的定杠义和栗特点定义数据德库(Da吩ta寨Ba武se区,简称DB爹)是存拣放在浮计算帝机存并储设纳备中编的以登一种聪合理帖的方抹法组俱织起吵来的娱,与纺公司取或组岸织的纽奉业务张活动最和组杯织结乖构相虚对应蜘的各表种相墨关数芽据的骆集合驼,该斗集合蕉中的效数据月可以肆为公孔司或椅组织颈的各填级经雁过授老权的掩人员格或应际用程供序以盲不同巨的权冲限所泽共享侵。1.银数权据库缴的特欣点①伐以一呼定的津数据墓模型踢来组尘织数停据,恶数据悔尽可供能不铸重复然。②出以最座优方称式为访某个帖特定逮组织瞧的多位种应最用程跨序或截用户净服务用。③爸其数眨据结坏构独粗立于呆使用折它的晨应用院程序今。④睁对数饥据的斗定义帽、操潜纵和它控制语,由雷数据剥库管课理系彩统统胡一进舞行管蕉理和趋控制许。2.烦数肯据库丧的分剖类按照伶数据搁库的即数据赵结构舅模型述来分演类:采用都层次由模型搜的数救据库送称为植层次济数据窗库采用采网状逮模型棵的数娃据库糖称为以网状逼型数装据库采用壮关系樱模型贫的数相据库塞称为证关系迫型数绪据库采用皇面向仰对象终模型红的数雹据库吹称为门面向看对象讯数据铸库三.跌数据帽模型数据妄模型凶能比歇较真羽实地跃模拟街现实龙世界岸,比究较容再易理圈解,套同时前也便纯计算解机实尖现。按照唇应用胞的不陷同,秀数据掌模型姥可分匆为两还类或喘两个柔层次口。1.罩概油念数缺据模播型只描至述信齐息的球特性筋和强扭调语坐义,饰而不谷涉及么信息伸在计愿算机逐中的透表示跌。最顽常用占的是垒实体共联系捕模型胸(E-脆R模型港)。2.密结孩构数穗据模语型直接结描述史数据折库中鼻数据挨的逻耳辑结饥构,类通常缴用来丘定义互和操坑作数苹据中母的数座据,洲最常泉用的冈有:亮层次器模型叫、网晋状模气型、隶关系再模型妖和面圣向对浅象模出型。①程层次夸模型抓(Hi径er顶ar伶ch绿ic秧al束Mo炒de宣l)曾在逝20赔世纪厕70昏年代仆商业痛领域关中广霉泛应给用。层次厚模型枯的数克据结贺构是最一种区树型垦结构气,如练图a点。特征鹊:有排且只鞠有一桶个结反点没惭有父迷结点铅,该廉结点古为根柱结点由;根不结点同以腊外幻玉的其很他结棒点有什且只哄有一康个父岔结点浊。客户辱代号公司测名称城市电话订单垫代号订购持日期运货费单产品衬代号产品框名称单价订单拥代号产品萄日期数量客户订单产品贵订单订单申明细ab②驼网状授模型劲(Ne有tw发or去k丝式Mo忠de和l)曾在敏20折世纪技70凶年代剩和8殿0年乞代得竟到广孟泛的持应用仆。用网甲状结时构表盲示实怪体类塑型及塘实体右之间诱联系厘的数刊据模痒型称美为网卧状模脊型。粉网状念模型塔许可详一个响以上个的结漂点可谢以没搅有父川结点棉,一衣个子柄结点贡可以姿有多帽个父莲结点地。如雷上图煎中的b点。网状抱模型社和层欲次模俭型称裤为非殿关系箩模型食。在偶非关刊系模钞型中向,实晒体是寇用记利录来赴实现须的,屠记录头之间两的联柔系是边用指惯针来染实现刺的。用表钉结构浪来表萝示实括体类腿型以烘及实识体间帐联系糕的模隶型为议关系牲模型抱。特点谅:1.观关炉系模样型概撕念单熊一,锋数据挨结构雹简单落,实禁体与牙实体域间的言联系夏是用代关系竖(二娱维表喇)表尾示的律。2.甚关系水模型居是数滩学化笑的模陷型,滥可把小表格虹看成崖一个甲集合芬,数惊据操战作是皮集合萝的操铃作。3.酿关系件数据四库语饮言是肃非过臣程化俗的。4.睬关系器模型饶以关响系代察数为仪基础亮,形姐式化究基础棵强。5.畅有功些能强密大的额关系顿数据扯库语尾言SQ瘦L的支体持。③迁关幅系模探型(Re取la鞠ti裁on肃M桃od羽el登)订单代号客户代号订购日期运货费0001C0011999-12-03200002C0021999-12-1050订单圈关系宴模型其表④誉面衣向对者象模种型(Ob仓je有ct内-O涌ri细en趟te予d隐Mo私de伞l)面向毙对象皮的数叙据模传型不怀仅能云处理御简单挽的数织据类怒型,谦还可千处理跨包括烦图形勺、图罗像、捷声音肆、动怕画等群多种蹦音频碍、视酷频信欠息。面向柄对象房诚的数俊据模施型中评,最柏重要悲的概絮念是注对象贼(Ob裹je泰ct阿)和类烂(Cl扫as忌s)叠。问题目前仔关系撇数据硬库有宏哪些寄可用既?Or吐ac务le、Sy毫sb姿as颈e、In很fo蚂rm泰ax、DB裤2、Fo借xP参ro、Ac酷ce清ss第二黎节徒数骑据仓诉库CR列M与数估据仓堤库的崭关系数据森仓库榴的作按用客户升行为输分析重点灿客户各发现市场禾性能左评估问题什么无是数长据仓丝式库?数据筋仓库因有何军特点怪?构建掠数据泻仓库欠有何塌好处泡?是不建是所狗有企房诚业都钥需要寨建立聚数据滩仓库设?一、通定义科及其湾特点数据须仓库岔是面仓向主冈题的肤、集蚕成的执、不覆可更障新的言、随黎时间钻变化我的数拦据集骡合,哈用以课支持丛企业第或组返织的录决策甘的分笋析过浓程。数据独仓库叮的结椅构如喷图所租示:ER毕P数据棵库CR泊M数据枪库OL捧TP交易继数据谜库数据炎精简清洗铺添加格式尽转换数据记整合数据双导入数据朵仓库数据瓶库管予理系秒统OL妈TP分析数据盒库数据集市数据集市数据曲仓库扑元数社据(Me寨ta烘da纹ta院)数据铜仓库瓦管理解平台查询报告引擎OL刮AP数据访问数据挖掘工具ET都L(保Ex高tr些at乎T蛾ra尤ns凶fo杰rm备at掏io漫n,抓L游oa苹d)企业滔处理眯数据纷方式以联秩机事岭务处涉理形肌式处嫩理信挺息以联周机分紫析处顺理形狂式处糊理信捕息,剥并利介用信饼息进羡行决饿策以联揪机事谈务处择理形却式处起理信传息增加请更改拼产品柜单价更改耻顾客叹收入涛水平扩大贿顾客端的信沫誉范驼围以联侄机分打析处果理形基式处饼理信泼息上个怜月有斜多少义产品课的销劳售额什超过10他00叛00美元榨?如果夫库存汽以10惑%速度哗下降察,那泉么新龙的库勤存担劲负的临成本执是多舅少?顾客融能变瞧相接循受高鞋价位邮产品采吗?设计目的实体关系特征信息冗余表格数量记录历史用户数量表格体积(字段数量)分析型数据仓库查询、分析、统计、报告,以主题为导向,以一组记录处理单位简单的星型关系链,较少连接多处冗余较少长少大交易型数据库快速插入、更新、删除,以事务处理为导向,以单个记录为处理单元关系复杂,很多连接很少多短很多小分析粥型数查据仓叶库与猎交易不型数典据库箱的区柳别问题用户共在使烂用数兽据仓抗库时坑,发艺现某移一衬赏衣3月份秆销售巴额15万元忍是不蚊对的撤,应咱该为12街.5万元流,该涨用户钓可以晚直接厕在数护据仓但库上机修改鞋吗?特点葵:数据做仓库序是面复向主陶题的主题弃是一长个抽界象的宇概念黑,从覆逻辑胜意义裂来说豪,主似题对助应了掌企业累或组御织中岸某一筝个宏紫观分懒析领繁域所渣涉及坐的分急析对昂象(肆如销缩慧售)雹。DBDB零售爆系统批发疯系统销售母主题龄系统OL佣TP系统2.每数股据仓帆库是伙集成效的各种战数据榴源中释的数顶据经剩过提排取、许转换愿集成掉,最销后被霸转载昌到数浩据仓棉库中丙。3.品数革据仓精库是洽不可柄更新倘的4.馋数厉据仓杯库是选随时巴间变芝化的用户用户读OL箩TP系统读数据禾仓库写OL既TP系统煮与数蜘据仓脚库的枪区别建立诊数据乞仓库战的好袭处Ow构en顶/M耻in召or公司法,是树一个稀有着30亿美河元资塔产的老外科澡供应妨公司秤,他超把关演键的捆生产碍数据遗存储沈在其像大型抖计算掉机的尿各种调层次乱数据转库上乖和比凳较老荐的非害数据艳库文谊件上活。“所有角这些辫数据坝库都晨是相虚互独刑立的献。”为了范把数咏据放能在一炒起,鸟创建惰一个谦多维犬视图猛,公蹄司决鸭定使则用Or旧ac吹le数据爬库建未立一袖个数驾据仓番库。雀公司哄安装优了一送个易谊于使箭用的来查询冶工具固,是叔商业依目标刊系统老分析稍员的涂商业谋目标贵系统公,它俘提供田给用涂户一盒个访肢问数筹据库歇的界偏面。宵另外吊,他里们购猪买了旅从老掩式生疼产系朋统取属出数屋据,缸并且匆转换老数据乳,把野转换最后的腰数据概载入Or任ac孙le数据风库的薯软件纸。在Aq惯ua见-C绩he闪m的管洲理层残想要顶使用辟老式盘数据意来执漏行多烧纬财械务分缠析,置而不每想替厚换他号们的女老式鸦财务于系统鸦,该仍财务鱼系统哥是在丧计算义机联坛合公扶司的CA阴-D茫at出ac救om数据举库管附理系浪统上忽运行瓜的。译该公序司信陆息主辛管解舅释说苦:“我们糠喜欢迈老系率统的蚂安全百性、绝功能山性和柜可靠艰性。”他开助始转座向联芒机分饰析处扑理和肚商业侨智能披工具汤。公扯司使候用微凡软的侮结构斥查询身语言呼系统姓(SQ狠L蝴Se易rv恐er)数手据库源管理披系统槽开发搭了一阻个财主务数斤据仓唉库。诵生产命、销部售和散其它拾数据稳被取咐出、霸转换削和传节送到SQ波L默Se遮rv植er数据序库。当管理还人员柏使用扮来自夜于Co央gn蚁os公司凶的联葱机分允析处顺理软转件工静具查漏看、狭分析滨,甚谅至处粱理这捕些数提据,巨同时匠老式袜大型殖计算野机系功统仍印然继蹈续进慕行根府本的垫事务鞠处理域。雇肥员通法过公协司的左内部瘦网可柳以容膀易地录存取到数据宣。问题为何传构建素数据敌仓库每?数据恩仓库叫优势不用盛替换邪和废鹿弃旧厚系统决策落制定撒者获煌取信移息更劣加容学易,耀不影血响基完础的赴业务违系统问题是不率是所即有企因业都蚁需要谦构建振数据腊仓库宽?并非通所有书企业挠都有将使用那数据屋仓库针的需吩求。如果倦轻而申易举书就能奇从企伯业业荷务数地据库欧中获充取所创需信胜息,念可以曲选择钉用OL蛋AP工具锡,帮叹助企揪业管堆理者边从各偿个维团度审成视和扒查询朗关系父数据刮库中币的信描息。问题当数社据仓折库过搁大、饼太集鹿中且止难以弱使用巨时,冬可以产优先逐考虑酿构建姑什么嫩?二.杀数骂据集书市定义数据道集市劈燕是企歌业或湖组织沉为了虏特定移的应古用目箱的或吃应用怀范围刮,而胞从数继据仓谢库中较独立滤出来戒的一享部分焰数据施,亦描称为暂部门下数据愧库或培主题纵数据体。数据委集市姨的数出据来向源通常烦数据衫集市贞可由睛两种击途径辩来创乱建。1.捧直接楚从OL不TP系统都中将搬数据蛛捕获哄到需嚷要使稼用该羽数据店的数串据集汤市中竿。2.颗将OL较TP系统霉中的她数据冰捕获带到中爆央数戏据仓膨库中钱,再芒将数壳据仓矛库中露的数宁据填简充到暴数据闲集市支中。芬如下警图所终示。市场玻部财务份部销售尿部数据唇集市数据遣仓库数据涨集市三、喂联机优分析结处理扔(OL仓AP拿)问题统:1月巾份,球头盔裹在什尿么地饮区销孟售最挠好?1月轻份,淡哪个灭国家育的头哄盔销博售在钻该畅育销地踢区处谜于领截先地畜位?荣在领坦先的欢国家穗中,脉哪个舱城市构的头爱盔收悬入最龟高?能否巧从报凶表中阵发现俊商机切?按地瘦区划待分的定头盔呆销售侮数据风镜金额头盔金额山地车亚洲3603344899429998欧洲8593579954415407北美46061360401388818按地快区和妥国家鸭划分续的头菠盔销太售数妨据风镜金额头盔金额山地车亚洲日本2599632233136196新加坡1003712666293802欧洲比利时877010872181299法国878145181德国171004387146142意大利103011277259907瑞士409831243989878北美墨西哥172041086381美国2885736040302437按地鄙区、谈国家类和城田市划旅分的框头盔晃销售倒数据风镜金额头盔金额山地车亚洲日本东京2599632233136196新加坡新加坡1003713666293802欧洲比利时布鲁塞尔877010872181299法国格林诺特尔巴黎8781德国法兰克福6000汉诺威171003339240142莫尼黑10479意大利米兰103011277259907罗马瑞士日内瓦409831243989878北美墨西哥墨西哥城市173041086381美国亚特兰大961911928150962西雅图1923824112151475山地稀车和亿头盔丹销售除的比谊较头盔数量山地车数量风镜数量亚洲日本东京519300613新加坡新加坡182892212欧洲比利时布鲁塞尔169583200法国格林诺特尔巴黎190德国法兰克福汉诺威445436333莫尼黑139216意大利米兰195672231罗马瑞士日内瓦195940北美墨西哥墨西哥368美国亚特兰大178634211西雅图3601804422可选衔的OL茶AP工具In筝fo铁rm烛at姻io犹n浇Ad狗va翅nt挨ag秆e公司染的Ax快sy味s软件Pr泻od兵ea公司章中的Be笔ac漂on软件斯坦懂福技搜术公券司的Me版ta最cn逝be软件四、吧数拆据库慎与因克特网互联尖网与剩超媒满体数旱据库将企糊业内凤部数腰据库妻连接牺至因容特网将企含业内伯部数已据库虎连接硬至因胖特网工作伟机理使用暗者在蹲其客循户端竹的个济人计扯算机缩慧上使单用浏贪览器笔,通列过因滔特网职访问纲企业战的网揉站在企团业网束站上驻,启株动在墓线应篇用服投务,衡并向叉数据返库查败询数头据。在客滨户机/服务签器环析境中薯,数孝据库份管理影系统哥通常凉会放灭在一聋台特书定的劈燕计算丛机中封,成罩为数垃据库贼服务帖器。数据讽库管葬理系乏统接小受来腰自于陕应用匆服务垄器的SQ络L查询裙指令愤并提摄供所烈需要咱的数上据。应用隶服务魂将来珍自于换企业架内部严数据胶库的奶信息雷通过趁因特丽网以坝网页安的形泉式传何送给角使用燃者。问题数据窑库系铜统可等以回题应用灵户所忙使用漏的超槐文本昏语言乳请求深吗?数据杯库系确统如屈何回菊应用上户所凝使用战的超据文本杆语言旧请求书吗?工作漂原理应用舰服务毁器相闯当于怀语言次翻译守官,轨属于校中间千件。一般服应用地服务协器接妖受来樱自用吹户HT贪ML编写碧的指错令,戴把HT砖ML指令阶翻译某成SQ率L,数夜据库可系统返才可税解读欢用户垫的请杰求,育然后藏又通滑过应震用服挡务器甘再把SQ源L翻译泪成HT摸ML语言勉,这幻玉样用躁户就傍可读省数据纤。应用逗服务梳器有劫软件花程序乔,介用于浏励览器宿端的呢计算咏机与师公司娃后端少商业忽数据剃库之杜间,犬可以刊处理抵所有娘的应抖用操泛作,丛提供艘与组钞织后蚀端系境统或大数据屈库的流链接铜。处理经这些深操作址的软安件可确能是问定制玻软件部或通冰用网笑关接吼口脚授本。使用刚因特俊网访毒问企较业内努部数芳据库吉优点因特龙网浏灿览软精件容探易使棒用因特酱网接宋口不烦需要蠢对内睁部数桃据库性做修遥改,芦企业滥可以圈利用卖在旧寄系统买的投嗽资。第三汁节季数据济挖掘定义数据睡挖掘呆(Da死ta封Mi糊ni弄ng针,简称DM伏)就是仪从超欲大型童数据纹库(VL旱DB劈燕)或数呈据仓洽库中垒搜索扁有用波的商组业信怕息的由过程堡。数据渣挖掘光技术素具有活如下巴的性俘能:自动萝预测川趋势蜂和行筐为数据建挖掘寒可以掌在大斤型数讲据库慈中自织动发秩现预粉言性右信息葛。自动抹发现乐以前田未知赶模式数据催挖掘兔工具乳可以玻识别铸以前班隐藏利的模仅式。数据艺挖掘来的产亲生数据馋爆炸逆但知喂识贫些乏支持元数据掌挖掘辜技术披的基痒础数据挖掘数据库越来越大有价延值的急知识可怕骨的数鲁据数据晕爆炸锐但知轻识贫字乏数据传挖掘泉的出驳现数据缎爆炸龄,知抽识贫乳乏苦恼月:至淹没揪在数炮据中骨;汪不供能制台定合迈适的帽决策债!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期数据猫挖掘辉的定桑义技术聚上的览定义妙及含览义数据栗挖掘袄(Da赶ta追M略in责in再g)就是名从大唤量的谣、不始完全败的、洞有噪乌声的蒜、模钞糊的勒、随坡机的蝇实际烟应用分数据似中,脱提取染隐含辆在其杠中的驳、人党们事港先不程知道效的但傲又是由潜在雪有用级的信诊息和始知识刮的过影程。商业哪角度沉的定楼义数据血挖掘阿是一经种新为的商坛业信图息处颈理技纤术,谎其主开要特霸点是黑对商申业数猜据库唉中的秆大量厌业务毛数据究进行凯抽取卵、转迅换、观分析筛和其来他模凉型化鼠处理祝,从叹中提菌取辅中助商法业决丝式策的督关键挥性数矮据。数据聋挖掘锐与传双统分界析方植法的椅区别数据速挖掘课是在倍没有稠明确魔假设呼的前答提下湖去挖趋掘信虹息、斧发现易知识数据脚挖掘奴的功师能自动陪预测昼趋势白和行网为关联匹分析对象适分类聚类步分析概念欢描述偏差睁检测关联路分析人们疯购买漠爆米甲花后烈,有65岔%的人前同时商也会雹购买验可乐功。对象简分类如信折用卡倍或电榆话公爪司为神例,朝担心匹失去券固定前客户久。通贷过分友类,临可以春总结照退卡悔或退直出电葬话网奶客户疾的共烈同特齿征,包然后旅预测巧哪些楚人有转这样牛的迹胞象并鸽找出促对策嗓挽留强这些惑客户聚类故分析对购鞭买了抬汽车虽保险躺的客爆户,炎标识察那些贸有较鱼高平捆均赔夸偿成搁本的除客户饶特征数据狡挖掘罗功能—预测数据周挖掘源自动党在大秋型数钥据库仅中寻莲找预韵测性释信息蛙,以控往需送要进忧行大冬量手管工分珠析的耕问题钟如今悼可以钟迅速雷直接墓由数图据本模身得端出结井论。队一个种典型担的例关子是趴市场鞠预测蚀问题之,数漠据挖触掘使云用过驾去有蔽关促冻销的滤数据锦来寻英找未跨来投驳资中奏回报斯最大瘦的用搁户,搂其它谱可预横测的宽问题独包括蚂预报炸破产济以及掩认定勇对指皆定事避件最生可能耻作出效反应拌的群辆体。数据纹挖掘妥功能—关联瓦分析数据眨关联股是数衔据库颜中存浸在的否一类鼻重要桶的可相被发制现的馒知识挪。若两淡个或黎多个办变量说的取拦值之用间存翻在某骨种规末律性故,就检称为市关联册。关联逼可分希为简楚单关坑联、乎时序斯关联交、因酿果关艺联。关联罚分析柴的目纤的是浇找出岩数据拜库中戒隐藏战的关结联网恢。有盲时并善不知剃道数而据库捡中数劈燕据的足关联希函数沃,即歼使知扭道也满是不脊确定宵的,筹因此缘瑞关联目分析煤生成惩的规娘则带婚有可餐信度塔。关联剩是某明种事轰物发尝生时封其他科事物推会发护生的鲁这样苹一种嗽联系之。例球如:赤每天讯购买贩啤酒库的人从也有劲可能腾购买亡香烟绿,比悄重有怨多大款,可肺以通崇过关题联的陕支持谦度和殖可信肥度来镜描述杂。时序它关联是一醒种纵这向的呀联系稠。例邻如:鹅今天洪银行董调整知利率伟,明束天股籍市的牢变化富。数据朱挖掘坚功能—分类按照啦分析熔对象蚊的属也性、宁特征康,建解立不切同的温组类惨来描车述事坑物。高例如差:银头行部血门根腔据以翼前的最数据屠将客奔户分才成了皇不同愉的类垂别,赚现在沈就可馒以根摊据这票些来涂区分煎新申访请贷增款的寒客户沸,以佳采取番相应壶的贷者款方迎案。数据铃挖掘负功能—聚类数据磁库中队的记焰录可牛被化掀分为祖一系偶列有州意义痛的子已集,蚊即聚杂类。青聚类贼增强遭了人固们对碗客观狸现实顾的认钩识,冲是概痒念描滋述和庆偏差狂分析喷的先众决条梯件。彼聚类亚技术浴主要支包括抄传统睬的模抚式识并别方卖法和票数学扛分类咸学。流聚类伯技术涉在划江分对音象时诵不仅腰考虑罗对象典之间督的距齐离,加还要告求划牺分出往的类汤具有壳某种润内涵替描述舅,从质而避专免了铸传统雀技术岸的某挽些片踢面性赴。数据狗挖掘掠功能—概念养描述概念够描述熟就是畜对某筛类对跨象的丢内涵首进行誓描述柄,并贪概括阅这类垄对象瓦的有津关特帐征。努概念精描述御分为捏特征新性描蕉述和吩区别输性描再述,兆前者徐描述真某类听对象少的共骡同特烤征,净后者澡描述停不同椅类对澡象之贸间的金区别臣。生瞧成一唱个类破的特列征性砍描述蜂只涉限及该汽类对洞象中幸所有菠对象见的共弊性。笛生成义区别壶性描咽述的句方法弯很多料,如财决策捏树方疗法、置遗传独算法庸等。数据线挖掘贷功能—偏差做检测数据捎库中蜂的数个据常兼有一芽些异孩常记帐录,钥从数兰据库旬中检饶测这子些偏秀差很呈有意饺义。汤偏差末包括攀很多摸潜在亩的知绢识,界如分砍类中黎的反昼常实广例、姻不满寨足规收则的析特例煮、观田测结哥果与打模型味预测心值的守偏差另、量唤值随波时间唐的变栗化等古。偏魂差检驰测的凤基本泼方法盏是,筛寻找峡观测片结果宰与参给照值教之间废有意甩义的宜差别月。偏差蒜检测对分延析对澡象的照少数斧的、劲极端提的特芳例的李描述游,揭单示内填在的咐原因损。例湾如:隙在银昏行的葛10沫0万吃笔交售易中羡有5伙00槐例的犯欺诈梳行为忆,银室行为爹了稳厉健经删营,仪就要清发现庭这5获00瓶例的纷内在假因素杠,减堂小以学后经肯营的连风险荣。数挖眨掘技遮术人工首神经饰网络决策想树覆盖帜正例练排斥速反例饱方法粗集弱(Ro凳ug纱h塑Se愤t)方法遗传赶算法公式犯发现统计术分析坏方法模糊依论方储法可视注化技锹术决策降树图聚类锁分析聚类君如同帆通常锄所说升的“物以采类聚”,是折把一婆组个棒体按懒照相朱似性何归成石若干臂类别慢。它的法目的粮是使煌属于己同一慈类别佣的个坡体之岩间的水距离炊尽可教能的知小,横而不其同类本别上宾的个闷体间垃的距裤离尽偷可能祥的大径。它患反映菠同类献事物乐共同饮性质般的特椅征型杏知识拆和不睁同事恳物之蚊间的祥差异用性质仍的特兄征型棒知识以。通过站聚类嫌,数滋据库膀中的辨记录灭可被本划分筹为一米系列撑有意辰义的断子集衣。聚放类增已强了则人们日对客毙观现烟实的剩认识棵,是恋进行很概念脱描述脖和偏医差分揭析的功先决艳条件赌。簇(Cl膀us轻te姑r)揭:一个掏数据障对象么的集请合在同科一个妈类中姻,对捧象之企间具罗有相晋似性皱;不同火类的省对象党之间生是相揉异的拢。聚类拘分析把一丧个给吃定的对数据腹对象激集合祝分成裙不同裕的簇赢;聚类侮是一蒙种无俩监督挤分类饲法:泳没成有预宗先指身定的炒类别浩;典型践的应谊用作为枪一个钥独立揭的分织析工毫具,易用于私了解灯数据朽的分鼻布;作为德其它借算法爬的一骨个数到据预由处理粉步骤咏;聚类柜分析哈应用市场程销售蹲:帮助闯市场牛人员跳发现搭客户但中的五不同谎群体仆,然贡后用忘这些多知识抹来开义展一鸭个目歉标明陵确的优市场抽计划搅;土地店使用脸:在一钳个陆贴地观驻察数听据库唤中标奔识那街些土燥地使沾用相烤似的拨地区便;保险拿:对购价买了踏汽车徒保险翻的客寺户,际标识令那些厘有较购高平及均赔折偿成王本的输客户赴;城市逮规划趁:根据舞类型项、价奖格、塘地理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国等离子体空气消毒净化机数据监测研究报告
- 2025年高考英语如何上140+
- Unit 5 Whats the highest mountain in the world?Section A (1a-2d) 学案 (含答案)2025年英语鲁教版八年级上册
- 工程垫资建设协议
- 电力电缆散热性能评估
- 工程质量控制流程作业指导书
- 下穿游泳池隧道施工方案
- 铁艺楼梯栏杆拆除施工方案
- 产品设计委托合同协议书
- 工程维修劳务合同
- 书法教案(高级)
- 《10万级净化车间标准》(2015版)
- 公路工程试验常规检测项目、检测标准、检测频率、取样方法(标准版)
- 2022春苏教版五年级下册科学全册单元课件全套
- M10砂浆配合比计算书(共3页)
- 服装测量方法及图示
- 液压挖掘机反铲工作装置设计论文
- 大连理工大学机械制图习题集答案
- 化工工艺1概论
- 24种积极心理品质精编版
- 学生特异体质调查表
评论
0/150
提交评论