参考答案of数据挖掘_第1页
参考答案of数据挖掘_第2页
参考答案of数据挖掘_第3页
参考答案of数据挖掘_第4页
参考答案of数据挖掘_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

笫一章卜列15于数据挖掘任务的是< )根据性别划分公司的顾客计薨公司的总销傅额预测一对股子的结果利用历史记录预测公司的未来股价口寸以在不同维度合并数据.从而形成数据立方体的足( )数据库数据磔数据仓库数据库系统目的足缩小数据的取值范用•使其更适合于数据挖掘以浓的需要.井且能够得到和原始数据相同的分析结果的足( )数据清洗数据集成数据变换数据归的卜谜四种方法嘛一种不足雷见的分类方法(〉决第树支持向fitK-Xeans(聚类)朴素贝叶斯分类卜列任务中.朋于数据挖掘技术在商务智能方面应用的足( )欺诈检测垃圾邮件识别根据因特网的搜索引擎伍找特定的Web页面定向营销舁常检测的应用包括()网络攻击预测某股票的未来价格计算公司的总带曾额根据性别划分公司顾客将原始数据进行集成.变换.维度规约、数值规约足哪个步骤的任务(猿繁模式挖掘分类和预测数据预处理数据流挖掘KDD是(数据挖掘9知识发现卜列有关离群点的分析错谦的足(〉-^宿况卜离群点会被肖作唤声而去弃离群点即足噪声数据在荣些待殊应用中离群点有特殊的总义信用卡在不常消费地区突然消费人增金额的现盘属于离群点分析范畸卜列关于模式识别的相关说法中错谓的足( 〉模式识别的本质足抽象出不同事物中的模式并由此对事物进行分类医疗诊断属干模式讲别的研宛内容之一F机的描纹解镇技术不属r模式识别的应用门然语育理解也包含模式识别何题()不属干数据挖抿的应用领域。商务智能信息识别I搜童引鼻医疗诊断目前数据分析和数据挖掘而临的挑战性何题不包括(〉数据类型的多样化高维度数据离群点数据分析与挖掘结果对视化常见的机器学习方法有监悴学习.无监怦学r监悴学习数据挖掘足从人规模的数据中抽1R或挖掘出感兴趣的知识或模式的过程或方法&施紫模式足描数据集中频繁出现的蟆式X肉群点足描全局或者局部范用内偏离一履水平的观测对盘联机分析处理足数据仓库的主要应用分类是措通过建立模型预测离散标签.I叩JI足通过建立连续值模型推断新的数据的某个数值型属性。数据库足面向%务.数据仓库足面向匚题数据挖掘主要侧审解决的四类何题:分类、聚类、关联、找测数据分析足折采用适当的统计分析方法对收集到的数据12行分析、概括和总结&特征化足一个目标类数据的-・,^特性或特性的汇总。无监俗学习町以在没有标记的数据集上进行学习.对聚类就是把一些对盘划分为多个组或者聚族.从而使同组内对仪何比较相似而不同组对异较儿对出务数据库的每个记录代茨一个事务.时数据仓库和数据库其实足相同的.都足数据或信总的存储系统。辂区分是将目标类数据对象的一般特性与一个或多个对比类对◎的--履特性进行比较.对离群点因偏离一股水平而不需要考老和研究。错聚类过程的输入对猱有与之关联的目标信总。椿数据挖掘的主要任务足从数据中发现潜在的规则.从而能更好的完成描述数据、预测数据等任务。对数据挖掘的目标不在干数据采集策略.而在于对干已经存在的数据进行校式的发掘.对数据仓库一般存储在线交易数据.数据库存储的一般足历史数据。错数据分析足摇采用适当的统计分析方法对收集到的数据进行分析、概括和总结.对数据进行恰当的描述.井提取出有用的信息的过程。对数据分析的定义:数据分析就足对数据进行分析。S业的说法.数据分析是播根据分析目的•用适当的统计分析方法及工具.对收集来的数据进行处理与分析.搓取有价值的信恩.发挥数据的作用。对数据阵是一个面向主题的.集成的.相对臆宦的、反映历史变化的数据集合.用于支持管理决策。馆(说的足数据仓库)■第二章卜面嘛个不属于数据的属性类型( >标称序数区何相舁属干定fit的属性类型足( 〉标称烬数Kfn]相舁-所人学内的各年纪人数分别为:一年级200人.二年级160人.三年级130人.四年级1102期年级属性的众数足()一年级二年级三年级四年级假设朋性incoine的最人说小值分别足12000元和9SOOO元。利用欣J嵌小规范化的加人将属性的值映文寸到0至1的范用内。对属性income的73600尤将被转化为( )考虑数据集{12243324556826}•其四分位数极签是(3124553光年所属的属性类型为(〉标称属性用数属性区何标度属性>比率标度属性某班数学期末考成绩分组数据如下・则数据的中口数区仙足(分戢

0至刃分38至时分108至R分眇全的分II90至100分S60至69分70至79分S0至S9分90至100分军衔所届的属性类型为(标称届性序数属性二元属性数值IS性计CTP1(2・"4.10)和p2(3.0.3.8)两个对象之阊的曼哈顿跖呀(4用AM和PM表示的时何的属性类型足<标称序数二元区何属性可分为标称疔数.尤和故值四类中心趋势度St包才舌众数、均小中位数和中列数假设给定的数据集的值已经分组为区间.间和对应的频率如K则数据的近似分组中仆敌足一,«♦2W>1515-2>1515-2W

2O-55G-M2O-55G-MTW

44某部门的月薪宿况如卜(单位,千元)-30,33,4S,50,53,53,57,60,6l,6S,70,70,90,则该部门员工的月薪的均值为数据Hi{5,10,11,13,15,15,35,50,55,72,92.204,215}的中位数为.众数为,3513假设小明某一学期的考试成绩及每门课的学分如F表所示•则小明本学期的ftl权平均成绩为。给定两个对象的元组x=(4,3.5,1}与y=(1,6,7,3》,它们之间的余弦用似度为一。小明参加数学竞赛选拔赛・他十次测试成绩为】76,84»90,86,S1,87,86,82,85,S3*则小明同学十次测试成绩的方厂足、7己知点A的空坐标为(6.30,9),点B的空间坐标为(10,35,2).则A与B之间的切比肾夫、7只有非零值才里要的二元属性被称作一・II对称•元城件某组同学的成绩评定结果如卜)则A与B・A与C・b与C之间的相足一、一和一・E学凿文不及格(D)S(B)»«(C)-A-B优(A)S(B)熨(B>»«(J)ft(B)-C- R«(C) 优(A)—优⑷)给定两个词向址元祖A(6,2,5,8)和B(4,5,2,6),则这两个对象之间的闵町夫斯基即离(其中h=l)是_.假定川于分析的数据包a2e.数据元组中乜e的值如卜(按递增序):13,15,16,16.19,20,20,21,22,22.25,25,25,25,30,33,33,35.35,35,35,36,40,45,45.52.70•则该组数据的中列数足。人的曲型属干标称属性。对酒店的星级属于数值属性。催(序列)幕品种玉米苗中捕取10株测得它们的株高为:21>42.39,14,19,22,37,41,40,25(单位:加)・则玉米苗株高的标准菱为。离散届性总足具有有限个值。错标称属性的值提供了足够的信息川于区分对余己对数值IS性的值提供足够的信息确定对盘的顺用.铅欧几里那跆离、曼哈顿距离、闵可夫斯基距离和切比国夫跖离均满足非负性、同一性和三角不等式。对余弦相似性利用向扯空间中两个向fit夹介的余弦值来衡fit两个个体间的羞异.余弦值越接近0・夹角越人•向启攵之河匹配越人(小)。余弦值越接近1,夹角越小,向扯之何匹配越小.tfi二元属性的相异性有两种.一种足对称的二元相异性.另一种足非对称的二元相异性.文寸己知点X的空河坐标为(3,4,2).点Y的空阊坐标为(1,6,1).则X与Y的欧几里俱U跖肉为3.对计算由不对称的二元变址描述的对做何的相异麽町以使用J&ccard系数:计同用分类变城描述的对荻何的相异度町以采用属性值匹配的方法(属性值匹配•相似度为1・否即为0八时第三章卜面属于维归的常用的线件代数技术的有<)主成分分析特征提取特征加权离敲化将原始数据进fj绿成・殳换.攀度规约.数伉规约足在以卜哪个步棘的任务()步真繁模式挖掘分类和预测数据预处理数据流挖掘假设12个销售价格记录组已经排序如卜、5.10.11,13,15,35,50,55,72,92,204,215使用如卜每种方法将它们划分成四个ffh等频(等深)划分时.15在第几个箱子内()第一个第二个第三个笫四个数据清理不包括以卜哪业处理()缺失值的处理噪声的处理重复数据的处理不一致数据的处理>数据规范化方法包括( )数据归约数据泛化数据集成最小垠大规范化给定一组二堆样本S,S=aS2,S3,St 55}={(1.2),(3,0),(4,3),(5,7),(1,6)},在距离阈值d大于等于4、非邻点样本的阈值部分D人于等干3时的噪声数据为( )欧几里得距离S351,S1S5SI,S5两组向fitx={6,1,7,10,8},y=(5,6,1,4,12}的协方差为(cov(x,y)=Exy"ExEy=E[(x*Ex)(y"Ey)]假定用于分析的数据包含属件a2e,数据元祖中age的值如卜(按递增序):15,16,16,19,20,20,21,22,22,25,25.25,25,30,33,33,33,35,35,35,35,36,10.15,46,52,70,Mage(|*(35进行小数定标规范化转换・转换后的俺为(已知某工厂车间工人的年终奖.其均值为34349元.标准差为16928元对于观测值为57000元•使用z-score方法对其进TOC\o"1-5"\h\z行规范化为( )假定川于分析的数据包含属件a2e,数据元祖中aze的值如M按递增序):16,16.19,20,20,21,22,22.25,25,25,25,30,33,33,33,35,35,35,35,36,10.15.16,52,70.使用nunpix规范化.将age血35转换d到[,]区仙的值为( )卜•列数据变换类型及方法正确的足( >数据平滑:去嗓.将连续数据离散化.增加粒度数据聚集:对数值属性进行监特或无监特离散化持秫)构适:构楚出新的属性数据规范化:使数据按照比例缩放.落入特定区域进据变换的类型包括())数据预处理数据泛华符征构适数据规约的技术包括维规约、数址规约、数据压缩卜面哪些属干数据预处理的方法(变址代换离散化估计遗湎值在现实世界的数据中•元组在荣些属性上缺少值足常有的,描述处理该问题的齐方法正确的有( )忽略元组从数据中挑选一个数据填写使用属杵的平均值填写空缺徒使用与给定元组属同一类的所右样本的平均值数据清理的原则包括()相异性原则连续性原则唯一性原则空值膜则I高质扯数据的要求有准确件、完滋件、•致件数据预处理的技术F段包括数据清理、数据变换.数据集成.数据规约假定用于分析的数据包含属件age,数据元祖中age的值如卜・(按递增序):13,15,16,16.19,20,20,21,22,22.25,25,25,25,30,33,33,33,35,35,35,35,36,10,15,16,52,70.已知a"的标准偏筮为年.使用z-score规范化对age(ft35进行转换・转换后须到的值为一‘在现实世界的数据中.元组在某些属性上的缺失值足密有的。处理该问题的常川方浓有删险数据对象或凰件、仿计遗泅伍、忽略遗制值对数据进行偏差检测的3个原期分别足唯•件原即、连埃性原则、空值原则数据归约技术包括维归约.数址田约、数据斥缩在使用分箱法实现转征离散化时.可以用每个箱中的中值一“、_『韵一咎换箱中所有的值.某工厂车间工人的年终奖金结果如下(已按照递增排序):15750.20000.25000.36000.1SOOO.50000.52000.56000.57000.6S000.10000.135000(元)•使用最小-弓最人值规范化将奖金57000转换到[,]区何为 :使用小数定标规范化将奖金57000转换到卜1,订区何为数据清理一般需要对_块失伉_和-噪兀进行处理。我们要进行数据预处理.足因为原始数据人多都足m肌数据”-四种处理缺失数据的加人足一、一、一、一」、「;•使用全局常量” •宜按剧除缺烟性的吐总使用属性的中心超养度fit值填充缺失值数据平滑的方法包括一•一和一。分箱■回0仁聚类噪声足描彼测度的变址产生的培谋或误菱。锚数据规约技术M以得到数据集的规约茨示.虽然小.但仍人致保持原数据的完整性。对数据变换足通过平淆聚集.数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。对数据预处理的任务包括数据清理.数据集成、数据规约和数据泛化.锚唯一性原则足捋一个属性的每个值都是唯一的.不能和这个JK性的其他值相同&对数据变换策略主耍包括光滑、聚集.数据泛化、规范化、属性沟适和离敬化,对S衬个届性的/ftAtfi和说小值之何没有缺失值既满足连续性原则。错数据挖掘所处理的数据必须具有准确性、完整性、一致性、时效性、可信性和可解释性。锚数据规约就足播对数据集进行简化茨示.对数据集成有助于减少结果数据集的冗余和不一致・可以捉高集成之后的挖掘过程的准确性和速度。对在确定数据中的离群点时.一般不必捡查整个数据集。对笫四隼捕捉到的新数据会覆盖原来的怏照数据仓库随时河的变化不断增加新的数据内容数据仓库lit!7?八件变化不斯删云川的数据内容数据仓库足喷茜时何变化的・卜面的描述不正确的是(■数据仓库中的综合数据会随若时徇的变化不断地进行虫新综合关干基木数据的元数据足抬< )基本元数据包括与企业相关的诗理方面的数据和信总基本元数据包播日志文件和简历执行处理的时序调度倍息基本元数据包括数据浙.数据仓库和应用程序等结构相关的信总基本元数据包括关于裟我和更新处理.分析处理以及管理方面的信息卜・面关于数据粒度的描述不止确的是(〉数据越详细.女屯度就越小.级别也就越高粒度足描数据仓库小数据单元的详细程度和级别数据综合度越高粒度也就理人.级别也就越岛a粒度的人体划分将宜接影响数据仓库中的数据fit以及查询质城有关数据仓库的开发特点.不正确的描述足( )数据仓库开发要从数据出发数据仓库使用的需求在开发时就要明确数据仓库的开发足一个不断循环的过程.足启发式的开发在数据仓库环境中.井不存在操作型环境中所固定的和较确切的处理流.数据仓库中数据分析和处理更灵活.且没有固宦的桧式在有关数据仓阵测试・卜列说法不正确的是()在完成数据仓阵的实施过程中•盂翌对数据仓库进fj•备种测试在数据仓库进行测试之曲一股不必要制定非常详细的测试计划系统测试缶要对数据仓.库的组件进行人扯的功能测试和回归测试[当数据仓库的每个单独组件完成后.就需要对他们进行单元测试OLAP技术的核心足( )笋维分析关于OLAP和OLTP的说法.卜列不正确的足( )OLAP设理人fit历史数据.OLTP仅管理当制数据OLAP左塑用于事务和戏询处理•而OLTP用于数据分析OLAP中综合提炼的数据主要来门OLTP所依覆的底层数据库OLAP数据较之OLTP数据要进行更多的数据维护或预处理的操作数据仓库设计的三级数据模型不包含(〉概念模型逻辑模型关系模熨物理模型改变数据立方体维次廉的操作足( )族转在绐定的数据立方体的一个维度上进行的选择操作为( )切片卜列选项中关于粒度描述锚误的是:粒度是播数据仓库的数据单位中保存数据细化或综台程度的级别:粒随同3不响存放在数据仓库中的数据歆的人小粒度黄占响数据仓库所能回答查询问题的细节程度;粒度组织数据的方式有:①简单堆枳结构:②轮转综合结构:③简单宜按结构:④连续结构.简述数据仓库设汁的二级枳型及其施本内客,不正确的足概念模型设计:对何题域内泵务进行描述.足在较高的抽仗层次上的设汁.其主耍内容包括:界定系统边界和确定主耍的主题域:逻懈模型设计:对概念模型细化.定义实体属性及其关系・主要内容包插:分析主题域.确定粒度层次划分•确定数据分割策略、定义关系模式、定义记录系统:

物理数据模空设讣:在数据库中建立表及索弓I.主要内容包才舌确定数据存储结构、确定数据存放位龟、确定存储分配以及确定索引策略等.三种模型设计时主耍考虑的因育有I/O存取时何.空间利用率和维护代价等.关干OLAP的待性・卜面正确的足(集成性快递性多攀性可分析性数据模型足数据仓库建设的基础.一个完整、灵活.稳定的数据模型对数据仓库项目的成功起到的鱼要作用有(数据模型足数据仓库建设的基础.一个完整、利干数据的整合消除数据仓库的冗余数据排除数据描述的不一致性为侈个系统建设提供导航图根据使用伤况的不同・元数据町以分为(〉根据使用伤况的不同・元数据町以分为(〉技术元数据:业务兀数据关干数据仓库的逻位模型.正确的说法有(是数据仓库设计中的核心基础对概念数据模型的分斛和细化对物理模型设计和实现具有抬导作用为全局眼务.集成全方位数据形成统一蓝图fl关干OLAP和OLTP的区别描述.正确的足(OLAP足信总处理.OLTP足操作处理OLAP面向底层管理人员.OLTP而向高层决策人员OLAP谡理人fit历史数据.OLTP主要关注当前数据OLAP数据足细节性数据.OLTP数据即是综合性数据OLAP按照数据存储恪式划分・实现方式有_MOLAP_、_ROLAP_和HOLAP三种根据使用情况的不同.元数据町以分为—技术元数据_和业务元数据:根据数据状态的区别又町分为_静态元数据_和动态元数据。数据仓库按照设汁顺斥.依次分为-概念模型设计_、■逻辑模型设计-和—物理核型设计_三个设计步骤OLAP技术侧电干把数据库中的数据进行分析、转换成辅助决策信息.足继数据库技术发展之后迅症发展起来的一种新技术,数据仓库中间层OLAP眼务器只能采用关系厘OLAP。数据仓库系统的组成部分包括数据仓库.仓库管理.数据抽耿・分析工人等四个部分,错数据仓库测试工作中主要包括单元测试和系统测试。对改变数据立方体维度的操作称为卜•钻.错数据仓库实际的三级模型中的稳念模型不足对软件实际的描述。对数据仓库就足一个面向什么的数据腹合主体.集成.非易失时变数据仓库体系结构通常采用一种三层体系结构•底层■中河层、顶层分别通常为什么OLAPI阪务器、数据仓库服务器、食官端工人第五章回归分析中使用的距离足点到直线的垂宜坐标距离.展小二柬准则足播( 〉•使备(Yt-Yt平均值〉之和城小回归分析的步骤为( )・③确定变址②建立预测模型①进行相关分析⑤计并狈测谓④确定硕测值卜列变fit之间的关系足函数关系的足< )已知二次曲数y=2bx+c・其中金口c足已知常数•取b为自变flb因变接足这个函数的判别式A=b2-4ac>光照时间和果树商产泄降晋扯和交通事故发生率每亩施用肥料扯和粮食产fit对干回归分析・卜列说法锚谋的足( )在回归分析中变址何的关系若足非确定性关系.那么因变址不能由门变惟唯一确定线性相关系数可以足正的.也町以是负的回归分析中.如果3.说明x与y之仙完全相关样本相关系ftre(-1,1)99某地区调查了2、9岁儿虫的身高由此建立的身高八沁与年龄x(岁)的回归模型为yh.卜列叙述正确的足(儿该地区一个儿堂的身奇为该地区2′9岁的儿亚每年的身高约增加该地区9岁儿良的平均身岛足利用这个模型可以准确地预测该地区旬个2、9岁儿觅的身高已知对一组观蔡值做出敢点图后确定具有线性相关关系.若对于y=bx*a.求得b=・-x=*・■》•二•则线性回归方程为

)•卜茨是x和y之间的一组数据.则y关干m的回归方程必过()•X1234yI3 5 7点,4)平均值反映由模型中解f*变赋所解释的那滦分离雄川口的是(总离差平方和回归平方和残差平方和可决系数总离差平方和155、残差平方和RSS与回归平方和ESS三者的关系足( ).TSS-RSS+ESS决定系数R2的取值范用足( )。0<R2<l回归分析中定义的( )・解释变1»和被解俘变捷都是随机变增解释变At为非髓机变笊.被解释变按为随机变就解释变lit和被解释变婕都为非随机变fit解邨变fit为Hi机变fib菽解释变蚩为非随机变fit过人或然准即是按从模型中得到既得的n组样本观测值的什么直人的准则确定样本回归方程< ).概率卜表为日本的汇率与汽车出口数瞰数据.其中X为平均汇率(日元/美元)-Y为汽车出口数扯(万辆),那么.X与Y的相关系则早稻收获笊对春季降雨址和祥季温度的二元线性数为()。则早稻收获笊对春季降雨址和祥季温度的二元线性196«1987193319W19901W11992199319M1956X16814&32«13014、13D12711120224Y661631•10W85855755675024463T9L1知某农场通过试验取那早稻收获附卅季降雨肚和探季温度的数据如卜;回归方程为(m$MV站141CCI45106!S0145l>72K»11014*«•IISlbK:9OIMIT7='10个家庭・得数据如下,则回归宜线方程为()・10个家庭・得数据如下,则回归宜线方程为()・12345678910X,(枚入〉干元0.81.11.3).51.51.82.0Z22.42.8y(支出)T•元0.71.01.21.01.31.51.31.72.02.5为研宪某市家庭收入与月平均生活支出的关系.该市统计部门随机调查了y—y=*在回归分析中・检脸线性相关显茗性谢用的三种检验方浓・包含()•相关系数显著性检脸法:t在回归分析中・检脸线性相关显茗性谢用的三种检验方浓・包含()•相关系数显著性检脸法:t检验法:F检验法回归方程泻,则卜・列说法不正确的有( )y=-1515足回归系数a足回归系数Rx=10时・y=0卜列关系中具有相关关系的足()。卜列关系中具有相关关系的足()。人的年器,j他拥灯的财富之何的关系曲线上的点与该点的坐标之何的关系苹果的产笊与气候之何的关系森林中的同种树木•其断面宜径与高度ZMJ的关系卞列变fit中属于正相关的是( )。收入增加.储冶额增加产量增加,生产费用增加收入增加.支出增加价格卜•降•汹费增加回归分析按照涉及变敞的多少.分为:一元回归分析•多元回归分析若线性回归方程中的回归系数b二0,则相关系数r为:0某化工厂为预测产品的回收率y・缶要研宛它和原料有效成分含处x之何的相关关系•现取S对观测值.计并得舄石・52,陶y「22&Ei】xH78温鸭・1849,则其线性何归力丹为(系数保留两位小数》一7=*已匆关于某设备的使用年限x与所支出的雉修费用y(万元〉,有如下统计资料。若y对x呈线性相关关系.则回归直线方程妇6"合茨示的宜线一定过定点:_平均值使用F检脸对多元线性回归方程进行线性关系的显苦性检脸•所求F值越从说明线性关系越:一履特在使用决定系数R2对回归方程进行拟合优度检龄时.R2越人表示回归方程的拟合程度越一・R2越小茨示回归方程的拟合程度越—。好差回归分析—是确定两种或两种以上变数何相互依赖的定址关系的一种统计分析方法.F检验运用服从F分布的统计扯或方纽匕作为统计检蚣通过一度扯回归方程的线性关系是否显著3焉杵水平检验准确率—足播分类器/回归器正确地预测新的或先前未见过的数据的属性值/类标号的能力当一些变fit的值确定以后.另一些变fit的值也随之完全确定的关系•这些变城河的关系完全足已知的.变壅间的关系对以用函数关系茨示.我们称之为—确定竹关系变fit之河有一定的依赖关系.变蚩之河虽然互相影响和制约.但由干受到无法估汁和控制的因素的影响.使变fit仙的关系呈现不确定性.当一些变址的值确定以后.另一些变就值虽然随之变化.却不能完全确定.这时.变扯何的关系就口寸以柿确地用函数衣示.即不能由一个或若干变度的值苗确地确定另一个变址的值.我们称这样的关系为一II:确定件决系在回归分析中:被解弼变fity足一因变fit解释变fitxM—自变fit。回归分析通常用于挖掘关联规划错某块农田粮存的产8t与施肥fit之河的关系为不确定性关系对多元线性回归足研尤处理两个变蚩之何关系的说徇单核型锚回归分析足确定两种或两种以上变fit何相互依趣的定fit关系的一种统il•分析方法对时序预测与回归预测一样.也足用已知的数据预测未来的值.但这些数据的区别足变址所处的时间不同错回归分析按照门变fit和因变fit之沏的关系类型.町分为线性回归分析和非线性回归分析对一元线性回归模型包含一个解禅变fit和两个被解释变fit错用总平方和农示因变址的n个观察值与其均值的误差的总和对一元k次多项式回归方程沟y=al*blx+b2x2*..*bkxk对应用回归预测法时.即使变fitZfuJ不存在相关关系.也町以对这些变瑕应用回归预测法错多元线性回归模型茨示的是多个自变伉与一个因变ftZf«J的关系对SW通过什么实现线性不口寸分割问题核闻敌第六章卜列几种数据挖掘功能中被广泛的用于购物篮分析的是<>关联分析某超市研允带何纪录数据后发现.买啤酒的人很大概率也会购买尿布・这种属于数据挖堀的哪类问题<)戾联规则发现设X={1,2.3}是频繁项集.即可由X产生多少个关联规则()6败信(confidence)足衡撤哪种兴趣度度址的描标()确定随关联规则的支持度公式为(〉support(A=/B)=P(BA)卜列芥彳标中.能够度址一个规则的强度•同时ftjffilW个集合之间的独立性的足(〉确定段规划的置信度足(〉100勺令Cl»C2和C3分别足规则{p}-{q},{p}-k.r},(p,r}-{Q)的置信度。如果假;ECl,C2和C3有不同的值,置信度最低的规则足()C2购买HDTV和购买健身器的情况如卜茨所示.设最小支持度阀值为・弓最小理信度阈值为.即{买HDTV}-(买他身器}的支持度为<)炙HOW伽M弁99ICO5481K6OO上一JS所给的数据中•{买HDTV}-(买健身器}的置信度为()如果xey,且Y中至少有一项不在X中.那么Y足X的()真超项集卜•列关于Apriori»法的分析中.错谋的是(〉Apriori处法基「支持度的剪枝技术•用来控溜候选项集的描数增长Apriori处法包插候选集主成和向卜封闭检测两个谕段Apriori lift数据库2次:Apriori并法使用逐层搜索的迭代方法卜表所示的购物篮泉务数据集中能够捉取的3-项集的最人数址是()0诃门6申"・ 1 2 IME*S3?in ) “:弘卅吊・《|> )4Mil.IMHK帆VI爆街4rm tiu此出f ~{IkkK〃 j 9 衬仇两 9 10 n«%«emu•天约#tti>卜列不属干AprioriW法的缺点的足(>

Apriori处法分为商个阶锲挖掘频繁项集AprioriW法产生候选项目集时没有排除无用的候选项集Apriori咒法在每一步产生候选项目集时循坏产生的组合过多在打描人型数据库时.Apriori弧浓会人人增加汁口机系统I/O开销:Apriori以法利川考虑如下的频繁3■项熟{1,2,3}.{1,2,4},(1,2,5}.{1,3,4)・{1,3,5),{2.3,4).{2,3,5}•{3,4.5}。选出根fr;Apriori以法利川上述频繁3-项集生成的候选卜项集(){1,2,3.4){1,2,3,5)(1>2,4.5){2,3,4,5)卜茨足一个购物篮.假定支持度倒值为烟・其中哪几个足频繁闭项集(>de一个数据库有5个事务•如卜表所示。设min_sup=60%.min.conf=SO%,从卜列选项中选出频繁2-项集()•K*IOru» ra»TnnICWAKX.V]ra r»>(UIQUI)(M,K}{0,K}{K,E}以下关于非频繁栓式说法,正确的足()其支持度小干例值都足不让人感兴趣的其支持度人干闽值对异希数据项敏感卜列关于FP-growthW法优缺点的茨述中.正确的有。相比于Apriori以法.FP-grgth并法运行速度要快一个数壤级FP-growth算法在建立FP-tree时占用空间较小F?-5rowth并法无须多次打描数据库.节省了运行时间FP飞“毗法处理产生的条件树时会占用很多资源Aprior算法包播一连按_和一剪枝一两个基本步骤关联规则的经典以浓包才舌_Apriori/LFP-groWh.其中_FP-growth_的效率更高.如果L2={{a,bh(a,c),(a,d}»(b,c},{b,d})・则连接产生的C3=({a,b,c},{a,b,d},{a,c,d},{b.c,d})关联规则的置信度公式为confidenee(A=>B)=P(BA:同时满足.说小支持度闽值.和.立立小置信度阈值一的规划称之为强关联规划如果一个项集的宜接超集都不具有和它相同的支持度汁数・则称其为:闭项集在挖掘闭模式笄法中•宜按搜索闭频繁项集.并对结果进行剪枝足员常用的方法.其中剪枝的策略包括—项合并.和—子项集不包含任何考禁项班的事务称为:>U务频集出现在数据集中的模式称为:频除枳代关联规则挖掘任务主要分为_频紧项集的产生_和_关联规则的产生一两个子任务.人型数据库中的关联规则挖掘包含找出所有.频繁项集.和由一频繁项集.产生一强关联规则一两个过程.FP-growth»法的基本思想足用FP-growth—递归增长—形成频繁集,某个优品连锁店每周的事务记录如卜•茨所示.每个事务茨示在一项收启攵机业务中宴出的商品项如K/£niin_Sup=10%・Ein_conf=10S・使用AprioriW法生成的腰关联规则有和—两项。■ fi(i. 花'1•尺 川包.化先窑肌匕.牛花主杆斗•横,断fclIS{面包}・>{花生酱}{花生包}I;日勺t=「:利・|丽包.啤酒}是_3一项集FP-growth法在一次运行中打描_2_次数据库.计算关联规划{牛奶}二“咖啡}的支持度和贾信度:(答案保国小数点后两位)牛痈乂1WK1.» AXO SOOJ.SCO ■■■■t«xo »co1W> J»XO 从上题的数据中汁并牛奶与咖啡之间的提升度和杠杆度:(答案保国小数点后一位)一个数据库有5个事务.如下表所示。设nin_sup=60A・min.conf=80%*用Apriori算法找出所有3频繁^集(答案中不要有空格.标点符号用半角),-(0,K.E}从上题的数据中汁算规则{面包(A〉)二〉{»«(B〉}的置信度:一(答案保留小数点后两位)关联规则挖掘过程足发现满足强小支持度的所有项集代表的规则.培利用先骏原理可以帮助减少频繁项集产生时需要探查的候选项个数•对先脸原理口寸以表述为:如果一个项集足频繁的.那包含它的所有项集也是步真繁的。错先脸原理町以表述为:如果一个项集足频繁的那包含它的所有非空子集也足频繁的.对具有较寓的支持度的项集具有牧高的置信度。错如果两个项集的握升度的值小干1・则说明两个项集正相关。辂两个项集的全浬信度越人.说明两个项集的关系越累密.反之则关系越疏远.对极大频繁项集的宜接超集都不足频繁的.对

口寸信度是对关联规则的准确度的衡fit对Apriori»法足一种典型的关联规则挖掘以法•对关联规则足形如X=》Y的雄含式・乂和Y满足:X和Y是I的真子并且X和Y的交集为空第•对设说小支持度倒值为30%・说小置信度阈值为70%・如果一个项集的支持度为50%则该项集足频繁项集。对第七章某苹果数据集如卜•所示.K近邻分类法(K取3》对(色度=・高度=・宽度=)的苹果进行分类的结果为()•:“)I “&1 wi>:Kt•:“)I “&1 wi>:Kt»:Z,,l.a…q•<4ni11-XL-/•・•>,/,•—11—Atl«B•»n«布瑞本卜列足有关干足否投保的数据集.第二列至第四列为待征.浪中说后一列类别代茨是否投保.按照•年矜”进行划分的信息增益率为(〉IIff4■■indi,三1HT考虑卜•茨中的数据集.使用贝叶斯分类于史测记录X=(有房二否・婚姻状况二己婚・年收入=120k〉的类标号()

Xo考电卜茨中的一维数据集.报据「弓最近邻、3-层近邻.〃覆近邻.才弓最近邻.对数据点x二分类.使用多数表决()XY0$-5.0454■494S.2-S3-S.S■-^o—卜农给出了一个关干动物类别的训练数据。数据集包含5个屈性:・ara_blocdGd、feathers,fur、svimsAlaysAeggs,.若样本按wara_blooded划分.对应的斓为(〉rmfem111©01Je0D11J110014I100I910010■9O90D卜面的例子被分为3类:(Short.Tall.Medium}.HeightK性被划分为(0根据卜•茨•对于t=<Adam・*>用贝叶斯分类方法进行分类,则谥终结果为()*1Li-«urIAn工JwfefAllilr1-MH.rtjSiKJlLgMrLV■gNIFFSWribnM1X方、1GIfbApaAhTUirtIht崛tilIIrlltoiIIZeMJHi1-Lid■心VI.MaHZ"!J靠1*・-1*1FIN8MN-Tall卜列足有关千足否购买电脑的数据集.其中学历.足否结婚.收入为特征.农中鼠后一列类别代浪是否购买电脑.则数据集的信息焙为《》或Bit♦串.小e■it.■.■A■et■■ia,♦料ag9军.■制**■wa■■■KI.fl!..■卜面的数据集包含两个属性X和Y.两个类标号〃/和每个属性取三个不同的俺:0,1或2。类的概念足丫=l・”J类的抵念足口或X=2,则由表构建的决策树的F1值(对〃/类定义}是(决策树分类的主要包括()对数据演ifi行OLAP,得到训练集和测试集对训练集进行训练;对初始决策树进行树剪枝由所得到的决策树提取分类规划使用测试数据集进行预测.评估决策树模型卜列隰些足分类与预测的不同之处(〉分类的作用足构型--系列能描述和区分数据类型或概念的模型:分类启攵用作滇测目标数据的类的标签预测是建立一个怏型去预测缺失的或无效的并H通常足数7的数据值预测典型的应用是预测缺失的数字型数据的值卜列口燕些足朴索贝叶斯分类的优缺点(〉)朴素贝叶斯分类做了类条件独立假设.人幅降低了计孟要人堰训练数据以覆盖类条件概率空间・引入了很人开带:容易实现并在人多数情况卜刖以取得较好的结果类条件独立在实际应用中缺乏准确件.因为变fitZfuj经常存在依赖关系.这种依赣关系影啊了朴索贝叶斯分类器的准确杵支持向fit机模型包括()线性町支持向fit机:线性支持向fit机贝叶斯信念网络(B3N){]哪些待点()构造网络费时费力对模型的过分问题IF常鲁棒有效地就免过拟合:最小化计并开带:、当一个数据对◎同时属于多个类时.很难评估分类的准确率。通谢在这种悄况卜J我们选择的分类器一般趋向干含有这样的特征:战小化计乳开销.即使给予噪曲数据或不完整数据也能准确预测•在人规模数据卜仍然有效工作.捉供简明易懂的结果。对KNX的主要思想足计算每个训练数据(每个训练数据都有一个唯一的类别标识)到待分类元祖的距离•取和待分类元祖距离说近的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论