数据仓库与数据挖掘技术-试题答案_第1页
数据仓库与数据挖掘技术-试题答案_第2页
免费预览已结束,剩余5页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、可编辑范本数据仓库与数据挖掘技术答案一、简答1.为什么需要对数据进行预处理?数据预处理主要包括哪些工作(需要对数据进行哪些方面预处理) ?( 1)现实世界的数据是杂乱的,数据多了什么问题会出现。数据库极易受到噪音数据(包含错误或孤立点) 、遗漏数据(有些感兴趣的属性缺少属性值或仅包含聚集数据)和不一致 数据(在编码或者命名上存在差异)的侵扰,因为数据库太大,常常多达几 G 或更多。进 行数据预处理,提高数据质量,从而提高挖掘结果质量。( 2)数据预处理主要包括:数据清理:去除数据中的噪音、纠正不一致;数据集成:将 数据由多个源合并成一致的数据存储, 如数据仓库或数据方; 数据交换: 规范化或聚

2、集可以 改进涉及距离度量的挖掘算法精度和有效性; 数据归约: 通过聚集、 删除冗余特征或聚类等 方法来压缩数据。 数据离散化: 属于数据归约的一部分, 通过概念分层和数据的离散化来规 约数据,对数字型数据特别重要。2.什么叫有监督学习?什么叫无监督学习?监督学习( Supervised learning) 是通过发现数据属性和类别属性之间的关联模式,并通 过利用这些模式来预测未知数据实例的类别属性。监督学习又称为分类 Classification 或归纳 学习 InductiveLearning 。无监督学习(Un supervised learni ng)即聚类技术。在一些应用中,数据的类别

3、属性是缺 失的,用户希望通过浏览数据来发现其的某些内在结构。 聚类就是发现这种内在结构的技术。3.什么是数据仓库的星形模式?它与雪花模式有何不同?雪花模式与星形模式不同在于:雪花模式的维表可能是规范化形式,以便减少冗余。这种 表易于维护,并节省存储空间, 因为当维结构作为列包含在内时, 大维表可能非常大。 然而, 与巨大的事实表相比,这种空间的节省可以忽略。 此外, 由于执行查询更多的连接操作,雪 花结构可能降低浏览的性能。这样系统的性能可能受影响。因此,在数据仓库设计中, 雪花模式不如星形模式流行。可编辑范本、写出伪代码Inputs:I =J* (tnstances to be cluste

4、red)n Number of clusters)Outputs:C = ci,Jq fclilstet cetitioids m I C (cluster membership)procedure KMeansSet C to iiiLti.al vaLue e.g. rauidom selection of I)For each匚E f了= ajgmLti distance(ij, ) fcl nEndWhile m has changed Foreach j 1. .nRecompute as the centroid of= jEndR?r each i】P mi i.) distan

5、ced7ckiel.nEndEndreturn CEnd3,(15分)一个数据库由F?J 5个事务(transaction)纽成*假设用户指走的最小支持度为60%最小置信度为叽TILh tT10OT2M)T3K)I4X)T5GGM, O, N. K,巳 Y PttN. KE, Y MsA, K, E M. U G K Y 4 GOFO, KJ i(1)基于Apriori算法产生所有的频繁项集;(2)构進所冇的强关联规则。答:(1 所有频繁项集为:E,K,O K,M K,Y关联规则:可编辑范本O-E,K1.0E,0 - K1.0K,0 - E1.0 M - K 1.0 Y - K 1.04.口n

6、g data taLJe dtsmbing peoplt, litre亡b站(0 or 1) is tilt clasiof the exainpki icr tranimg ii lasuikri) Which at iribiKe u til be selected by decision tree mdimion站the root 01 tiie wee/Awhich artribT.attnburfs can be reiiMved, and %hy*bailkcaiiouchildifiiSINchssbiounotiawa3bif6507S62Sf0blondtoicntoJ*ma

7、ll56S326546-IbiouuOttilia3应*748402101btawTiTOre mo3btf*3121409660biortuOttawa3b罡3674329280biouiiTOinnfo3imalli789032M3,1 blondOttawa3umall124780945*1blOWTktore mo3bg6432643770bhnd3maiknd| Ottawa(3small439TS216711答:a)决策树表示一种树型结构,它由它的分来对该类型对象依靠属性进行分类。每个决策树 可以依靠对源数据库的分割进行数据测试。这个过程以递归的方式对树进

8、行修剪。当不 能再分割时,递归完成。因此决策树不会无限循环。b)0c)sized)Childre n,SIN,class5.(20分個定有册下的训练数据(类别碍性为Class).保存在一个Train.txt的文件中,每一条训练样洌列在一行上,不同属性之间用空格隔开匚hatrlocanonthildrm$lZf泗tla弭brownorrawaJbis6507S628r0bkxllorontoSIIULD$683265461Ottawa-big7432$40210brownlofonto14匕big342140W6-0brtAvaorrawaJbig174329280brownloronioJsm

9、nll789O32MJ1blondOttawa3small1247809451可编辑范本brownloronro%3bigW38264J70bk) )ndoctawa%3small54S93109S1blondOttawa3SUHD4397S216711请用G O+或Java设计程序.利用上述训练数据训练Naive Bayes分类器然后 利用训练好的分类器对任意一个人(如cbrowrv toranto, 3tbig;r455859595J)进 行分类。public classBayesClassifierprivate TrainingDataManager tdm; 训练集管理器privat

10、e String trainnigDataPath;/ 训练集路径private static double zoomFactor = 10.0f;/*默认的构造器,初始化训练集*/public BayesClassifier()tdm = new Trainin gDataMa nager();*计算给定的文本属性向量X 在给定的分类 Cj 中的类条件概率* ClassConditionalProbability 连乘值* param X 给定的文本属性向量* param Cj 给定的类别* return 分类条件概率连乘值,即*/float calcProd(Stri ng X, Stri

11、 ng Cj)float ret = 1.0F;/类条件概率连乘for (int i = 0; i X.len gth; i+)Stri ng Xi = Xi; ret *=ClassConditionalProbability.calculatePxc(Xi, Cj)*zoomFactor;/ 再乘以先验概率ret *= PriorProbability.calculatePc(Cj); return ret;/* 去掉停用词* param text 给定的文本* return 去停用词后结果*/public String DropStopWords(String oldWords)可编辑范

12、本Vector v1 = new Vector();for (int i=0;ioldWords.length;+i) if(StopWordsHandler.IsStopWord(oldWordsi)= false)/ 不是停用词v1.add(oldWordsi);String newWords = new Stringv1.size();v1.toArray(newWords);return newWords;/* 对给定的文本进行分类* param text 给定的文本* return 分类结果*/SuppressWarnings(unchecked)public String clas

13、sify(String text)String terms = null;terms= ChineseSpliter.split(text, ).split( ); / 中文分词处理 ( 分词后结果可能还包含有停 用词)terms = DropStopWords(terms); / 去掉停用词,以免影响分类String Classes = tdm.getTraningClassifications()/;/ 分类 float probility = 0.0F;List crs = new ArrayList(); / 分类结果 for (int i = 0; iClasses.length;

14、i+)String Ci = Classesi;/ 第 i 个分类probility = calcProd(terms, Ci);/计算给定的文本属性向量terms 在给定的分类 Ci 中的分类条件概率/保存分类结果ClassifyResult cr = new ClassifyResult();cr.classification = Ci;/ 分类bility = probility; /关键字在分类的条件概率System.out.pri ntl n(l n process .);System.out.pri ntln (Ci + : + probility);crs.add(c

15、r);/对最后概率结果进行排序java.util.Collect ion s.sort(crsnew Comparator()可编辑范本public int comparefinal Object o1,final Object o2)final ClassifyResult m1 = (ClassifyResult) o1;final ClassifyResult m2 = (ClassifyResult) o2;final double ret = bility - bility;if (ret 0)return 1;elsereturn -1;);/返回概率最大的

16、分类return crs.get(O).classification;6.GO分为什么说KNN算法届于”懒脅”的机器学刀算法?请蛤山KNN算 法的伪代码.(1)最临近分类是基于要求的或懒散的学习法。因为它存放所有训练样本,并且直至新的 样本需要分类时才建立分类。beg in初始化 n x n 距离矩阵 D,初始化混淆矩阵 C,设置 t=0 , TotAcc = 0 , Numlterations为要迭代次数。计算所有输入样本和存储在D 矩阵中的距离For t=1 to Numlterati ons doSet c = 0 , Ntotal=0将输入样本划分为 k 个同等大小的分组For fold=1 to k do可编辑范本指定第 fold 个样本进行测试,并且使用原来训练样本。设置Ntest 为要测试样本数量。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论