




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录1什么是数据挖掘〔DataMining〕?请举例。 22简述知识发现〔KDD〕过程。 23简述数据挖掘的功能。〔PPT引言1.4〕 24为什么要进行数据预处理?〔PPT2,1〕 35怎样平滑噪声数据〔〕 36在数据清理中,对缺失值有哪些处理方法? 47描述数据有哪几种根本图形形式? 48简述盒图的作用。 49标准化有哪些形式,举例。 410按照分箱法对数据进行离散化。 511什么是数据仓库?或数据仓库的4特性? 612简述数据仓库建模的根本模式。〔3种,可图示〕PPT数据仓库P40~49 613频繁模式与关联规那么根本概念,最大频繁项,闭合频繁项。PPT8.1 814Apriori算法根本步骤。能够根据所给数据写出算法具体执行过程。 915何为Apriori性质、反单调性? 9分析算法效率。PPT8P25~27 916简述FP-Growth算法根本步骤。 917比拟Apriori与FP-Growth算法。〔优缺点、适用范围?〕 1118阐述决策树分类的主要步骤,有哪些算法? 1119阐述神经网络分类的主要原理。〔三层结构,后向传播〕 1420简述最近邻分类的原理。 1421什么是急迫学习法、惰性学习法? 1422什么是聚类分析? 1523什么是层次聚类?有哪几种类型? 1524简述K-均值方法根本步骤,优缺点。 1525写出几种典型层次聚类算法的名称、各自特点。 1626简述基于密度的聚类方法,例如DBSCAN。 16
1什么是数据挖掘〔DataMining〕?请举例。数据挖掘:是从大量数据中提取或"挖掘"知识,也就是从存放在数据库,数据仓库或其他信息库中的数据挖掘有趣知识的过程.数据挖掘是可以从数据库中提取有趣的知识规律或高层信息发现的知识,可以用于决策,过程控制,信息管理,查询处理.它不是一种从数据库,统计学和机器学习开展的技术的简单转化,它涉及多学科技术的集成,包括数据库技术,统计学,机器学习,高性能计算模式识别,神经网络,数据可视化,信息检索,图象与信号处理和空间数据分析.随着数据库技术开展,数据的丰富带来了对强有力的数据分析工具的需求,大量的数据被描述为"数据丰富,但信息贫乏",所以数据挖掘出来了.意义:需求:数据丰富,但知识贫乏。技术:数据库技术的演化
随着全球信息化的开展,自动数据采集工具和成熟的数据库技术导致海洋数据存储在数据库中,从海量数据中提取可信的、新颖的、有效的并能被人们理解的知识是非常重要的,所以数据挖掘引起了信息产业的极大关注。涉及领域广〔企业管理、产品控制、市场分析、工程设计和科学研究等〕。Where.How.What.意义2简述知识发现〔KDD〕过程。当把数据挖掘看作知识发现过程时,它涉及的步骤为:数据清理:消除噪声或不一致数据数据集成:多种数据源可以组合在一起数据选择:从数据库中检索与分析任务相关的数据数据变换:数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作数据挖掘:根本步骤,使用智能方法提取数据模式模式评估:根据某种兴趣度度量,识别表示知识的真正有趣的模式知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识3简述数据挖掘的功能。〔PPT引言1.4〕〔网上〕数据挖掘功能用于指定数据挖掘任务中要找的模式类型。一般地,数据挖掘任务可以分两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。
5.1自动预测趋势和行为
数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反响的群体。
5.2关联分析
数据关联是数据库中存在的一类重要的可被发现的知识。假设两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规那么带有可信度。
5.3聚类
数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术牞其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而防止了传统技术的某些片面性。
5.4概念描述
概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。
5.5偏差检测
数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规那么的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的根本方法是,寻找观测结果与参照值之间有意义的差异。4为什么要进行数据预处理?〔PPT2,1〕1〕不完整的缺少属性值或某些感兴趣的属性,或仅包含聚集数据。
2〕含噪声的包含错误或存在偏离期望的离群值。
3〕不一致的采用的编码或表示不同,如属性名称不同
4〕冗余的如属性之间可以相互导出
5〕数据错误的不可防止性与危害
6〕数据预处理的形式〔1〕数据清理补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致〔2〕数据集成集成多个数据库、数据立方或文件〔3〕数据变换标准化和聚集〔4〕数据归约简化数据、但产生同样或相似的结果5怎样平滑噪声数据〔〕分箱:
通过考察数据的“近邻”〔周围的值〕来光滑有序数据的值。局部光滑。
划分:等频、等宽
光滑:用箱均值、用箱中位数、用箱边界〔去替换箱中的每个数据〕回归:
用一个函数〔回归函数〕拟合数据来光滑数据。可分为:线性回归、多元线性回归聚类:将类似的值聚集为簇。检测离群点其他:如数据归约、离散化和概念分层。6在数据清理中,对缺失值有哪些处理方法?〔1〕忽略元组:当缺少类标号时通常这样做〔假定挖掘任务涉及分类〕。除非元组有多个属性缺少值,否那么该方法不是很有效。当每个属性缺少值的百分比变化很大时,它的性能特别差。〔2〕人工填写缺失值:一般,该方法很费时,并且当数据集很大,缺少很多值时,该方法可能行不通。〔3〕使用一个全局常量填充缺失值:将缺失的属性值用同一个常数〔如“Unknown”或-∞〕替换。如果缺失值都用“Unknown”替换,那么挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值“Unknown”。因此,尽管该方法简单,但是它并不十分可靠。
〔4〕使用属性的均值填充缺失值:例如,假定AllElectronics顾客的平均收入为56000美元,那么使用该值替换income中的缺失值。
〔5〕使用与给定元组属同一类的所有样本的属性均值:例如,将顾客按credit_risk分类,那么用具有相同信用度给定元组的顾客的平均收入替换income中的缺失值。
〔6〕使用最可能的值填充缺失值:可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。例如,利用数据集中其他顾客的属性,可以构造一棵决策树来预测income的缺失值。7描述数据有哪几种根本图形形式?直方图〔概括给定属性分布的图形方法、每个矩形等宽〕分位数图、分位数-分位数图〔q-q图〕观察单变量数据分布的简单有效方法散布图、散布图矩阵〔直接观察是否存在簇(cluster),离群点等、每个点对应一个坐标对〕局部回归〔Loess〕曲线〔添加一条光滑曲线到散布图〕8简述盒图的作用。直观明了地识别数据集中的离群点判断数据集的偏态和尾重比拟几批数据的形状9标准化有哪些形式,举例。1〕最小-最大标准化:将原始数据v经线性变换,映射到区间[new_minA,new_maxA]例如:income的最大,最小值分别为9000,2000,那么将它的值映射到[0,1]时,假设income的值6800标准后为:〔6800-2000〕/〔9000-2000〕*〔1-0〕+0=0.686缺点:1假设存在离群点,可能影响标准化。2在标准化后添加新的数据,当新数据落在原数据的区间[minA,maxA]之外,将导致“越界”错误。2〕z-score标准化〔零均值标准化〕:属性A的值基于A的平均值和标准差标准化。缺点:对离群点不敏感10按照分箱法对数据进行离散化。price的排序后数据(美元):4,8,9,15,21,21,24,25,26,28,29,34划分为〔等深的〕箱:-箱1:4,8,9,15-箱2:21,21,24,25-箱3:26,28,29,34用箱平均值平滑:-箱1:9,9,9,9-箱2:23,23,23,23-箱3:29,29,29,29用箱边界值平滑:-箱1:4,4,4,15-箱2:21,21,25,25-箱3:26,26,26,34〔以下内容来的百度〕用边界值平滑时,先确定两个边界,然后依次计算除边界值外的其它值与两个边界的距离,与之距离最小的边界确定为平滑边界值。具体如下计算:-箱1:|8-4|=4;|15-8|=7;应选4做为平滑边界值。|9-4|=5;|15-9|=6;应选4做为平滑边界值。-箱2:|21-21|=0;|25-21|=4;应选21做为平滑边界值。|24-21|=3;|25-24|=1;应选25做为平滑边界值。-箱3:|28-26|=2;|34-28|=6;应选26做为平滑边界值。|29-26|=3;|34-29|=5;应选26做为平滑边界值。11什么是数据仓库?或数据仓库的4特性?“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程”数据仓库的4特性:面向主题的、集成的、时变的、非易失的〔具体PPT数据仓库2.1.1P16~20〕12简述数据仓库建模的根本模式。〔3种,可图示〕PPT数据仓库P40~49星型模型:模式图很像星星爆发,维表围绕事实表显示在射线上
雪花模型:雪花模式是星型模式的变种,其中某些维表是标准化的,把数据进一步分解到附加的表中,形成类似于雪花的形状
星网模型:多个事实表共享维表,这种模式可以看作星型模式集,因此也可以称为星系模式,或者事实星座
13频繁模式与关联规那么根本概念,最大频繁项,闭合频繁项。PPT8.1闭〔频繁〕项集:假设不存在真超项集Y〔YכX〕,使得Y与X在数据集S中有相同的支持度计数,那么称项集X在S中是闭的。极大〔频繁〕项集:如果X是频繁的,并且不存在频繁的超项集Y使得YכX,称X是极大项集。14Apriori算法根本步骤。能够根据所给数据写出算法具体执行过程。扫描数据库,累积每个项的支持度计数,生成频繁1项集集合L1;扫描数据库,由L1构造、搜索频繁2项集L2;同理,生成L3,…,直到不能生成频繁k项集。15何为Apriori性质、反单调性?分析算法效率。PPT8P25~27Apriori性质:频繁项集的所有非空子集也必须是频繁的。i.e.,如果{AB}是频繁项集,{A}和{B}都应该是频繁项集反单调性:如果一个集合不能通过测试,那么它的所有超集也都不能通过相同的测试。16简述FP-Growth算法根本步骤。扫描数据库一次,找到频繁1项集对频繁项集降序排序再次扫描数据库,构造FP-树(这个网上找的??)步骤〔一〕:
挖掘频繁模式前首先要构造FP-Tree,算法为码如下:
输入:一个交易数据库DB和一个最小支持度threshold.
输出:它的FP-tree.
步骤:
1.扫描数据库DB一遍.得到频繁项的集合F和每个频繁项的支持度.把F按支持度递降排序,结果记为L.2.创立FP-tree的根节点,记为T,并且标记为’null’.然后对DB中的每个事务Trans做如下的步骤.
根据L中的顺序,选出并排序Trans中的事务项.把Trans中排好序的事务项列表记为[p|P],其中p是第一个元素,P是列表的剩余局部.调用insert_tree([p|P],T).
函数insert_tree([p|P],T)的运行如下.
如果T有一个子结点N,其中N.item-name=p.item-name,那么将N的count域值增加1;否那么,创立一个新节点N,使它的count为1,使它的父节点为T,并且使它的node_link和那些具有相同item_name域串起来.如果P非空,那么递归调用insert_tree(P,N).注:构造FP-Tree的算法理解上相对简单,所以不过多描述
步骤〔二〕:
对FP-Tree进行挖掘,算法如下:
输入:一棵用算法一建立的树Tree
输出:所有的频繁集
步骤:
调用FP-growth(Tree,null).
procedureFP-Growth(Tree,x)
{
(1)if(Tree只包含单路径P)then
(2)
对路径P中节点的每个组合〔记为B〕
(3)
生成模式B并x,支持数=B中所有节点的最小支持度
(4)else对Tree头上的每个ai,do
{
(5)
生成模式B=ai并x,支持度=ai.support;
(6)
构造B的条件模式库和B的条件FP树TreeB;
(7)
ifTreeB!=空集
(8)
thencallFP-Growth(TreeB,B)17比拟Apriori与FP-Growth算法。〔优缺点、适用范围?〕FP优点:完全:1不会破坏任何事务的长模式;2为频繁模式挖掘保持完整的信息简洁,紧密:1减少不相关的信息,去掉非频繁项;2频繁项的降序排序:越频繁越可能被共享;3永远不会比初始数据库大性能说明:FP-Growth比Apriori算法快一个数量级,也比树-投影算法快原因:1没有候选集产生,没有候选测试;2使用压缩的数据结构;3没有过多的数据库的扫描;4根本操作是计算和FP-tree的构造Apriori算法时间消耗的主要症结反映在两个方面,一是由于对海量数据库的多趟电子扫描,另外一个是用JOIN孕育发生潜在频仍项集。可能产生大量的候选集,以及可能需要重复扫描数据库,是Apriori算法的两大缺点
FP-Tree布局在完整性方面,它不会打破生意业务中的任何标准样式,而且包罗了开采序列标准样式所需的全部信息;在精密性方面,它不剔掉不相关信息,不包罗非频仍项,按支撑度降序排列,支撑度高的项在FP-Tree中同享的时机也高。
机能研究显示FP-growth比Apriori快一个数目级,这是由于FP-growth不生成候选集,不用候选集实验,而且施用收缩的数据布局,防止反复数据库电子扫描FP-growth算法的应用范围最广,它把事务数据库压缩.到一个FP-树进行处理,相对Apriori算法来说,最大的优点是不需要产生候选频繁项集且只需要两次扫描数据库。但是它仍然存在一些问题,比方需要产生大量的条件FP-树、不能有效的挖掘大型数据库等。18阐述决策树分类的主要步骤,有哪些算法?决策树分类的步骤:以代表训练样本的单个节点开始建树〔创立N节点〕。如果样本都在同一个类,那么该节点成为树叶,并用该类标记。否那么,算法使用称为信息增益的基于熵的度量为启发信息,选择能够最好的将样本分类的属性,该属性成为该节点的测试或判定属性。〔注意:在这类算法中,所有的属性都是分类的,即取离散值的。连续值的属性必须离散化。〕对测试属性的每个的值,创立一个分支,并据此划分样本。算法使用同样的过程,递归地形成每个划分上的样本决策树。一旦一个属性出现在一个节点上,就不必考虑该节点的任何后代。递归划分步骤,当以下条件之一成立时停止:给定节点的所有样本属于同一类。没有剩余属性可以用来进一步划分样本。在此情况下,采用多数表决。这涉及将给定的节点转换成树叶,并用样本中的多数所在的类别标记它。分支〔测试属性的分枝〕没有样本。在这种情况下,以样本中的多数创立一个树叶。决策树是以实例为根底的归纳学习算法。它从一组无次序、无规那么的元组中推理出决策树表示形式的分类规那么。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比拟,并根据不同的属性值从该结点向下分支,叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条合取规那么,整个决策树就对应着一组析取表达式规那么。1986年Quinlan提出了著名的ID3算法。在ID3算法的根底上,1993年Quinlan又提出了C4.5算法。为了适应处理大规模数据集的需要,后来又提出了假设干改良的算法,其中SLIQ(super-visedlearninginquest)和SPRINT(scalableparallelizableinductionofdecisiontrees)是比拟有代表性的两个算法。
(1)ID3算法ID3算法的核心是:在决策树各级结点上选择属性时,用信息增益〔informationgain〕作为属性的选择标准,以使得在每一个非叶结点进行测试时,能获得关于被测试记录最大的类别信息。其具体方法是:检测所有的属性,选择信息增益最大的属性产生决策树结点,由该属性的不同取值建立分支,再对各分支的子集递归调用该方法建立决策树结点的分支,直到所有子集仅包含同一类别的数据为止。最后得到一棵决策树,它可以用来对新的样本进行分类。某属性的信息增益按以下方法计算。通过计算每个属性的信息增益,并比拟它们的大小,就不难获得具有最大信息增益的属性。设S是s个数据样本的集合。假定类标号属性具有m个不同值,定义m个不同类Ci(i=1,…,m)。设si是类Ci中的样本数。对一个给定的样本分类所需的期望信息由下式给出:其中pi=si/s是任意样本属于Ci的概率。注意,对数函数以2为底,其原因是信息用二进制编码。
设属性A具有v个不同值{a1,a2,……,av}。可以用属性A将S划分为v个子集{S1,S2,……,Sv},其中Sj中的样本在属性A上具有相同的值aj〔j=1,2,……,v〕。设sij是子集Sj中类Ci的样本数。由A划分成子集的熵或信息期望由下式给出:
熵值越小,子集划分的纯度越高。对于给定的子集Sj,其信息期望为其中pij=sij/sj是Sj中样本属于Ci的概率。在属性A上分枝将获得的信息增益是Gain(A)=I(s1,s2,…,sm)-E(A)ID3算法的优点是:算法的理论清晰,方法简单,学习能力较强。其缺点是:只比照拟小的数据集有效,且对噪声比拟敏感,当训练数据集加大时,决策树可能会随之改变。(2)C4.5算法C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改良:1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的缺乏;2)在树构造过程中进行剪枝;3)能够完成对连续属性的离散化处理;4)能够对不完整数据进行处理。C4.5算法与其它分类算法如统计方法、神经网络等比拟起来有如下优点:产生的分类规那么易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行屡次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。(3)SLIQ算法SLIQ算法对C4.5决策树分类算法的实现方法进行了改良,在决策树的构造过程中采用了“预排序”和“广度优先策略”两种技术。1)预排序。对于连续属性在每个内部结点寻找其最优分裂标准时,都需要对训练集按照该属性的取值进行排序,而排序是很浪费时间的操作。为此,SLIQ算法采用了预排序技术。所谓预排序,就是针对每个属性的取值,把所有的记录按照从小到大的顺序进行排序,以消除在决策树的每个结点对数据集进行的排序。具体实现时,需要为训练数据集的每个属性创立一个属性列表,为类别属性创立一个类别列表。2)广度优先策略。在C4.5算法中,树的构造是按照深度优先策略完成的,需要对每个属性列表在每个结点处都进行一遍扫描,费时很多,为此,SLIQ采用广度优先策略构造决策树,即在决策树的每一层只需对每个属性列表扫描一次,就可以为当前决策树中每个叶子结点找到最优分裂标准。SLIQ算法由于采用了上述两种技术,使得该算法能够处理比C4.5大得多的训练集,在一定范围内具有良好的随记录个数和属性个数增长的可伸缩性。然而它仍然存在如下缺点:1)由于需要将类别列表存放于内存,而类别列表的元组数与训练集的元组数是相同的,这就一定程度上限制了可以处理的数据集的大小。2)由于采用了预排序技术,而排序算法的复杂度本身并不是与记录个数成线性关系,因此,使得SLIQ算法不可能到达随记录数目增长的线性可伸缩性。(4)SPRINT算法为了减少驻留于内存的数据量,SPRINT算法进一步改良了决策树算法的数据结构,去掉了在SLIQ中需要驻留于内存的类别列表,将它的类别列合并到每个属性列表中。这样,在遍历每个属性列表寻找当前结点的最优分裂标准时,不必参照其他信息,将对结点的分裂表现在对属性列表的分裂,即将每个属性列表分成两个,分别存放属于各个结点的记录。SPRINT算法的优点是在寻找每个结点的最优分裂标准时变得更简单。其缺点是对非分裂属性的属性列表进行分裂变得很困难。解决的方法是对分裂属性进行分裂时用哈希表记录下每个记录属于哪个孩子结点,假设内存能够容纳下整个哈希表,其他属性列表的分裂只需参照该哈希表即可。由于哈希表的大小与训练集的大小成正比,当训练集很大时,哈希表可能无法在内存容纳,此时分裂只能分批执行,这使得SPRINT算法的可伸缩性仍然不是很好。根本算法(贪心算法)1〕如何划分训练集自顶向下递归的分治法构造决策树开始,所有的训练样本在根部属性分类(假设是连续值,属性首先离散化)基于选定的属性递归的形成每个划分选择属性基于启发式或统计式策略(比方,信息增益)2〕如何停止〔停止条件〕给定节点的所有样本属于同一类没有剩余属性可以用来进一步划分样本–使用majorityvoting没有样本剩余算法:ID3,C4.5〔书p144-150〕19阐述神经网络分类的主要原理。〔三层结构,后向传播〕神经元是神经网络中根本的信息处理单元,他由以下局部组成:1一组突触和联结,联结具有权值W1,W2,…,Wm通过加法器功能,将计算输入的权值之和3鼓励函数限制神经元输出的幅度BP网络模型处理信息的根本原理是:输入信号Xi通过中间节点〔隐层点〕作用于输出节点,经过非线形变换,产生输出信号Yk,网络训练的每个样本包括输入向量X和期望输出量t,网络输出值Y与期望输出值t之间的偏差,通过调整输入节点与隐层节点的联接强度取值Wij和隐层节点与输出节点之间的联接强度Tjk以及阈值,使误差沿梯度方向下降,经过反复学习训练,确定与最小误差相对应的网络参数〔权值和阈值〕,训练即告停止。此时经过训练的神经网络即能对类似样本的输入信息,自行处理输出误差最小的经过非线形转换的信息。〔此题不确定〕20简述最近邻分类的原理。〔百度百科〕如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,那么该样本也属于这个类别。21什么是急迫学习法、惰性学习法?急性子〔急迫学习法〕决策树、贝叶斯、神经网络给定训练元组,立刻建立模型,学习分类慢性子〔惰性学习法〕给定训练元组,知道看到检验元组时才分类,比方k-最近邻分类,基于案例的推理22什么是聚类分析?聚类分析:将数据对象的集合分成由相似对象组成的多个类聚类分析中要划分的类是未知的典型的应用:1作为独立的工具来获得数据分布的情况;2也可以作为其他算法的预处理步骤聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的根底上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了开展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。23什么是层次聚类?有哪几种类型?层次聚类:按某种标准将给定数据对象集合进行层次的分解。将嵌套定义的簇集组成一棵层次形式的树按照分裂方式可分为:凝聚的把每个点都作为一个簇,开始聚类每一步合并两个最近的簇,直到只剩下一个簇分裂的所有的点看做一个簇每一步,分裂一个簇,直到每个点都是一个簇24简述K-均值方法根本步骤,优缺点。步骤给定k:任意选择k个点作为初始的质心repeat将每个点指派到最近〔相似〕的簇集重新计算每个簇的均值,即更新质心until不再发生变化.优点:简单、有效可用于各种数据类型〔但并非适合所有数据类型〕缺点:不能处理:1不同尺寸的簇;2不同密度的簇;3非球形的簇对含离群点的数据聚类时也有问题25写出几种典型层次聚类算法的名称、各自特点。AGNES(凝聚的层次聚类)
KaufmannandRousseeuw(1990)
将具有最少相异性的点合并
将这些簇合并成越来越
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿园教师仪容仪表培训
- 2025年便携式振动分析仪项目合作计划书
- 甘肃省天水市甘谷第一中学2025年高三最后一模化学试题含解析
- 复苏室的气道管理
- 天津市六校2025届高考冲刺化学模拟试题含解析
- 2025年止血用医用生物蛋白胶项目建议书
- 兴义市第八中学2025届高三第二次诊断性检测化学试卷含解析
- 2025届安徽省马鞍山含山高三下第一次测试化学试题含解析
- 武汉市武昌区2025届高考冲刺模拟化学试题含解析
- 陕西航空职业技术学院《风景园林研究进展》2023-2024学年第二学期期末试卷
- DB22-T5131-2022预拌盾构砂浆应用技术标准
- 中国邮政四川省分公司暑期招聘笔试真题2022
- 山东省济宁市2022-2023学年高一7月期末生物试题(原卷版)
- 鸡毛信的故事-红色故事课件
- 川教版信息技术六年级下册全册教案【新教材】
- 国家开放大学《合同法》章节测试参考答案
- 中学生学习动机量表(MSMT)
- 初中英语七选五经典5篇(附带答案)
- 2024高三一模宝山作文题解析及范文(用怎样的目光看待事物)
- (正式版)YST 1693-2024 铜冶炼企业节能诊断技术规范
- 《纸质文物修复与保护》课件-31古籍书册结构
评论
0/150
提交评论