版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1、线性判别函数的正负和数值大小的几何意义正(负)表示样本点位于判别界面法向量指向的正(负)半空间中;绝对值正比于样本点到判别界面的距离。2、感知器算法特点收敛性:经过算法的有限次迭代运算后,求出了一个使所有样本都能正确分类的W,则称算法是收敛的。感知器算法是在模式类别线性可分条件下才是收敛的。感知器算法只对线性可分样本有收敛的解,对非线性可分样本集会造成训练过程的震荡,这也 是它的缺点。3、聂曼-皮尔逊判决准则、最小最大判决准则等区别聂曼-皮尔逊判决准则主要用于某一种判决错误较另一种判决错误更为重要情况;最小最大判别准则主要用于先验概率未知的情况。4、马式距离较之于欧式距离的优点优点:马氏距
2、离不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。由标准 化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还 可以排除变量之间的相关性的干扰。缺点:夸大了变化微小的变量的作用。受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。尺度不变性;考虑了模式的分布5、关联规则的经典算法有哪些Apriori算法;FP-tree;基于划分的算法Apriori 算法、GRI 算法、Carma6、分类的过程或步骤答案一:ppt上的1、模型构建(归纳)通过对训练集合的归纳,建立分类模型。2、预测应用(推论)根据建立的分类模型,对测试集合进行测试。答案二:老师版本
3、的训练样本的收集 训练集的预处理、模型的选择、模型的训练(问老师后理解整理)7、分类评价标准1) 正确率(accuracy 就是被分对的样本数除以所有的样本数,通常来说,正确率越高,分类器 越好;2) 错误率(error rate)错误率则与正确率相反,描述被分类器错分的比例,error rate = (FP+FN)/(P+N),对某一个实例来说,分对与分错是互斥事件,所以accuracy =1 - error rate;3) 灵敏度(sensitivsensitive = TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力;4) 特效度(specificity)speci
4、ficity = TN/N ,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力;5) 精度(precision)精度是精确性的度量,表示被分为正例的示例中实际为正例的比例,precision=TP/ (TP+FP );6) 召回率(recal)召回率是覆盖面的度量,度量有多个正例被分为正例,recall=TP/(TP+FN)=TP/P= sen sitive ,可以看到召回率与灵敏度是一样的。正确率:它表示的预测结果正确比例。包括正例和负例。精确度:它表示的是预测是正例的结果中,实际为正例的比例。召回率:它表示的是实际为正例样本中,预测也为正例的比例。综合指标:F仁2*精确率*召回
5、率/精确率+召回率,它实际上精确度和召回率的一个综合指标。8、支持向量机及常见的核函数选择SVM的目的是寻找泛化能力好的决策函数,即由有限样本量的训练样本所得的决策函数,在对独立的测试样本做预测分类时,任然保证较小的误差本质:求解凸二次优化问题,能够保证所找到的极值解就是全局最优解。支持向量机的标准:使两类样本到分类面的最短距离之和尽可能大支持向量机基本思想:通过训练误差和类间宽度之间的权衡,得到一个最优超平面支持向量机是利用分类间隔的思想进行训练的,它依赖于对数据的预处理,即在更高维的空间表达原始模式。通过适当的到一个足够高维的非线性映射,分别属于两类的原始数据就能够被一个超平面来分隔。支持
6、向量机的基本思想可以概括为:首先通过非线性变换将输入空间变换到一个高维空间,然 后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的内积函数来实现的。支持向量机求得的分类函数形式上类似于一个神经网络,其输出是若干中间层节点的线性组合,而每一个中间层节点对应于输入样本与一个支持向量的内积,因此也被叫做支持向量网络。常用的核函数:h兀,)=(i+兀込y.多项式栓函裁k(xtix.) = exp(-|xf -x/ /2a)一 高斯檯函数k x .x.) - tanh(Z? +0).亠v 1 丿 一 sigmoid 函数9、什么是数据样本、什么是机器学习样本:研究中实际观测或调查的一个
7、个体叫样本机器学习:机器学习通过从数据里提取规则或模式来把数据转换成信息。经典定义:利用经验改善系统自身的性能,随着该领域的发展,主要做智能数据分析。机器学习:利用经验改善系统自身的性能随着该领域的发展,主要做智能数据分析10、机器学习的一般步骤1、问题识别、数据理解:明确系统与组织之间的关键问题,分析数据的价值和质量2、数据准备、数据预处理:将数据汇集在一起,形成数据挖掘库或数据集市3、模型选择:通过分析,选择几个合适的模型4、训练模型:使用机器学习算法或统计方法对大量的数据进行建模分析,从而获得对系统最适合的模型5、模型测试:将真实数据带入模型,进行运算6、模型验证:模型评价包含两个方面:
8、功能性评价,和服务性评价11、样本属性的主要类型属性有四种类型:1、连续性属性2、二值离散型3、多值离散型4、混合类型12. 信息增益信息增益是特征选择中的一个重要指标,来衡量一个属性区分以上数据样本的能力,它定义为个特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。信息增益量越大,这个属 性作为一棵树的根节点就能使这棵树更简洁信息增益就是前后信息的差值,在决策树分类问题中,即就是决策树在进行属性选择划分前和划分后的信息差值。信息增益先验熵(信息熵)-条件熵(表示信息消除随机不确定性的程度)整理版本14. Adaboost的判别函数Tsig n(H(x)th(x)t 116聚类分析
9、有哪些主要距离度量方法欧氏距离(Euclidean distanc :曼哈顿距离(Manhattan distanee):闵可夫斯基距离( Min kowski dista nee:dd(Xi,Xj)、(XikXjQ2V k 1d(Xi,Xj)dXikXjkk 1dd(Xi, Xj)(Xikk 1Xjk1/q13.核函数SVM的判别方程f (X)sgn(*:yiXi, Xb*)支持向量*1 *b2 w,xw ,X or*bmaXi:y(i)1T (i).xmi ni:y(i)1*T x(i)217、频繁项集频繁项集:有一系列集合,这些集合有些相同的元素,集合中同时出现频率高的元素形成一个子 集
10、,满足一定阈值条件,就是频繁项集。频繁项集:在所有 训练元组中同时出现的次数超过人工定 义的阈值的项集称为频繁项集。18、支持度项目集X的支持度support (X)是D中事务包含X的百分比,它是概率 P (X):support (X) = P (X)=(包含 X 的事务数 / D 的事务总数)X 100%若support(X)不小于指定的最小支持度,则称X为频繁项目集(简称频集),否则称 X为非频繁项目集(简称非频集)。支持度:项集同时出现的次数19. 可信度X Y对事务集D的置信度(con fide nee)定义为D中包含有 X的事务数与同时包含 Y的百分比。这是条件概率 RY | X)即
11、:con fide nee (X Y) = P(Y | X)=(包含 X和Y的事务数/包含X的事务数)x 100%20关联规则关联规则是形如“ XTY”的蕴涵式,其中X? I, Y? I,并且Xn Y = ? , X称为规则的条件,Y称为规则的结果。在不知道关联函数或关联函数不确定的情况下,为了反映所发现规则的有用性 和确定性,关联分析生成的规则都要满足最小支持度阀值和最小置信度阀值。21什么是贝叶斯网络及作用贝叶斯网络是描述随机变量(事件)之间依赖关系的一种图形模式,是一种可用来进行推理的模型。贝叶斯网络通过有向图的形式来表示随机变量间的因果关系,并通过条件概率将这种因果关系量化。一个贝叶斯
12、网络由网络结构和条件概率表两部分组成。作用:贝叶斯网络的预测、诊断和训练、因果预测、原因诊断、解释远离22、决策树算法及步骤1生成一颗空决策树和一张训练样本属性集;2若训练样本集T中所有的样本都属于同一类 ,则生成结点T ,并终止学习算法;否则3根据某种策略从训练样本属性表中选择属性A作为测试属性,生成测试结点A4若A的取值为v1,v2,vm,则根据A的取值的不同,将 T戈U分成m个子集T1,T2,Tm;5从训练样本属性表中删除属性A;6转步骤2,对每个子集递归调用 CLS;23、ID3算法及步骤1决定分类属性;2对目前的数据表,建立一个节点N3如果数据库中的数据都属于同一个类,N就是树叶,在
13、树叶上标出所属的类4如果数据表中没有其他属性可以考虑,则N也是树叶,按照少数服从多数的原则在树叶上标出所属类别5否则,根据平均信息期望值 E或GAIN值选出一个最佳属性作为节点N的测试属性6节点属性选定后,对于该属性中的每个值:从 N 生成一个分支,并将数据表中与该分支有关的数据收集形成分支节点的数据表,在表中 删除节点属性那一栏如果分支数据表非空,则运用以上算法从该节点建立子树。24、bp 网络的优缺点BP 神经网络具有以下优点:1) 非线性映射能力 : BP 神经网络实质上实现了一个从输入到输出的映射功能,数学理论证明三层 的神经网络就能够以任意精度逼近任何非线性连续函数。这使得其特别适合
14、于求解内部机制复杂的 问题,即 BP 神经网络具有较强的非线性映射能力。2) 自学习和自适应能力 :BP 神经网络在训练时,能够通过学习自动提取输出、输出数据间的“合 理规则”, 并自适应的将学习内容记忆于网络的权值中。即 BP 神经网络具有高度自学习和自适应的能力。3) 泛化能力: 所谓泛化能力是指在设计模式分类器时,即要考虑网络在保证对所需分类对象进行正 确分类,还要关心网络在经过训练后,能否对未见过的模式或有噪声污染的模式,进行正确的分类。 也即 BP 神经网络具有将学习成果应用于新知识的能力。4) 容错能力 :BP 神经网络在其局部的或者部分的神经元受到破坏后对全局的训练结果不会造成很
15、 大的影响, 也就是说即使系统在受到局部损伤时还是可以正常工作的。 即 BP 神经网络具有一定的容 错能力。BP 神经网络也暴露出了越来越多的缺点和不足,比如:1) 局部极小化问题 :从数学角度看,传统的 BP 神经网络为一种局部搜索的优化方法,它要解决的 是一个复杂非线性化问题,网络的权值是通过沿局部改善的方向逐渐进行调整的,这样会使算法陷 入局部极值, 权值收敛到局部极小点, 从而导致网络训练失败。 加上 BP 神经网络对初始网络权重非 常敏感,以不同的权重初始化网络,其往往会收敛于不同的局部极小,这也是很多学者每次训练得 到不同结果的根本原因。2) BP 神经网络算法的收敛速度慢 :由于
16、 BP 神经网络算法本质上为梯度下降法,它所要优化的目标 函数是非常复杂的, 因此, 必然会出现“锯齿形现象”, 这使得 BP 算法低效; 又由于优化的目标函 数很复杂,它必然会在神经元输出接近 0 或 1 的情况下,出现一些平坦区,在这些区域内,权值误 差改变很小,使训练过程几乎停顿;BP神经网络模型中,为了使网络执行BP算法,不能使用传统的一维搜索法求每次迭代的步长,而必须把步长的更新规则预先赋予网络,这种方法也会引起算法 低效。以上种种,导致了 BP 神经网络算法收敛速度慢的现象。3) BP 神经网络结构选择不一 :BP 神经网络结构的选择至今尚无一种统一而完整的理论指导,一般 只能由经
17、验选定。网络结构选择过大,训练中效率不高,可能出现过拟合现象,造成网络性能低, 容错性下降,若选择过小,则又会造成网络可能不收敛。而网络的结构直接影响网络的逼近能力及推广性质。因此,应用中如何选择合适的网络结构是一个重要的问题。4)应用实例与网络规模的矛盾问题:BP神经网络难以解决应用问题的实例规模和网络规模间的矛盾问题,其涉及到网络容量的可能性与可行性的关系问题,即学习复杂性问题。5)BP神经网络预测能力和训练能力的矛盾问题:预测能力也称泛化能力或者推广能力,而训练能力也称逼近能力或者学习能力。一般情况下,训练能力差时,预测能力也差,并且定程度上,随着 训练能力地提高,预测能力会得到提高。但
18、这种趋势不是固定的,其有一个极限,当达到此极限时, 随着训练能力的提高,预测能力反而会下降,也即出现所谓“过拟合”现象。出现该现象的原因是 网络学习了过多的样本细节导致,学习出的模型已不能反映样本内含的规律,所以如何把握好学习 的度,解决网络预测能力和训练能力间矛盾问题也是BP神经网络的重要研究内容。6)BP神经网络样本依赖性问题 :网络模型的逼近和推广能力与学习样本的典型性密切相关,而从 问题中选取典型样本实例组成训练集是一个很困难的问题。25、什么是过拟合,怎么解决过拟合过拟合问题是指过于完美拟合了训练集数据,而对新的样本失去了一般性,不能有效预测新样本,训练误差特别小,实际误差特别大。泛
19、化能力极差。造成过拟合的原因可能是特征量太多或者模型 函数过于复杂。解决方法:主要通过 1、模型简化2减少特征数量.3、衰减,4、交叉验证5、减少特征6、正则化26、衡量模式识别与机器学习算法优劣的标准时间复杂性、空间复杂性、可读性、一致性、泛化能力、健壮性、精度、 时间复杂度:同样输入规模(问题规模)花费多少时间 空间复杂度:同样输入规模花费多少空间(主要内存)上两点越小越好 稳定性:会因输入同而导致稳定情况发生 算法思路否简单:越简单越容易实现越好空间复杂度:指执行这个算法所需要的内存空间时间复杂度:指执行算法所需要的计算工作量可读性:指一个算法可供人们阅读的容易程度。泛化能力:指机器学习
20、算法对新鲜样本的适应能力。健壮性:指一个算法对不合理数据输入的反应能力和处理能力,也成为容错性。27、什么是有监督学习、什么无监督学习监督学习方法用来对数据实现分类,分类规则通过训练获得。该训练集由带分类号的数据集组 成,因此监督学习方法的训练过程是离线的。非监督学习方法不需要单独的离线训练过程,也没有带分类号(标号)的训练数据集,一般用 来对数据集进行分析,如聚类,确定其分布的主分量等。有监督学习就是分类,通过已有的训练样本去训练得到一个最优模型,然后利用这个最优模型 将所有输入映射为相应的输出,对于输出进行判断实现分类,这就对未知数据进行了分类。监督学 习中的典型例子是 KNN和SVM。无
21、监督学习与监督学习的不同之处,主要是它没有训练样本,而是直接对数据进行建模。典型 案例就是聚类了,其目的是把相似的东西聚在一起,而不关心这一类是什么。聚类算法通常只需要 知道如何计算相似度就可以了,它可能不具有实际意义。28、什么是Fisher判别准则、感知准则、支持向量机感知准则的异同相同点:都是用来进行线性判别的,感知器和向量机要求样本线性可分,支持向量机解决非线 性问题也是将非线性转化为线性,本质上还是线性判别。不同点:Fisher是将样本投射到一维 使类间样本尽量分开感知器和支持向量机是将低维转化为高维再将高维还原到低维,但感知器只找到一个分类面即可,支持向量机要求找最优分类面。Fis
22、her准则:根据两类样本一般类内密集 ,类间分离的特点,寻找线性分类器最佳的法线向 量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。该种度量通过类内离散矩阵Sw和类间离散矩阵Sb实现。感知准则函数:准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元网络多层感知器的基础。支持向量机:基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔 为最大,它的基本出发点是使期望泛化风险尽可能小。Fisher线性判别:可以考虑把d维空间的样本投影到一条直线上,形成一维空间,即把维数压缩到一维,这在数
23、学上容易办到,然而,即使样本在d维空间里形成若干紧凑的互相分得开的集群,如果把它们投影到一条任意的直线上,也可能使得几类样本混在一起而变得无法识别。但是在一般情况下,总可以 找到某个方向,使得在这个方向的直线上,样本的投影能分开得最好。问题是如何根据实际情况找到这条最好的、最易于分类的投影线,这就是Fisher算法所要解决的基本问题。支持向量机(SVM )SVM可以分类线性与非线性数据。SVM的原理是将训练数据转化进入更高的维度,再检查这个维度中的最优间隔距离,或者不同分类中的边界。在SVM中,这些边界被称为“超平面”,通过定位支持向量来划分,或者通过最能够定义类型的个例及其边界。边界是与超平
24、面平行的线条,定义 为超平面及其支持向量之间的最短距离。SVM的宏伟概念概括起来就是:如果有足够多的维度,就一定能发现将两个类别分开的超平面,从而将数据库成员的类别进行非线性化。当重复足够多的次数,就可以生成足够多的超平面,在N个空间维度中,分离所有的类别。29、基于最小错误率的贝叶斯决策及基于最小风险的贝叶斯决策解决实际问题。假设在某个地区细胞识别中正常(wi)和异常(W2)两类先验概率分别为P(wi)=0.9, P(W2)=0.1,现有一待识别的细胞,其观察值为x,从类条件概率密度分布曲线上查得P(x wj 0.2,P(XW2)0.4,并且已知 110,126,211,220试对该细胞X用
25、一下两种方法进行分类:1. 基于最小错误率的贝叶斯决策;2. 基于最小风险的贝叶斯决策; 请分析两种结果的异同及原因。解:利用贝叶斯公式分購计算出的及些的后验舐率.pCr0二9. O1Q乂_Ot2xO,9 + OUXO. 1一5心答:1.尸伽“二*Y机匸1卩)户3丿1F(气 jx)=1=Q, 1B2 抿据贝叶斯决策規则式(.2-2),有尸如i|E = IX册8円叫|刘=0182 所以合理的决资是把”归类于正常狀叙解知条件为p(jf |他)=0, 4心 i=Q 182島K X根揺1倉讣算结果可知后验概率为P(i|x)-0.818,再计茸出条件14险Rq |x) = U&iP(妙 jt) =2卫尸3:|巧一LO92 j1尺 5: | hfg |x) 0 SIR由于R1 Lk ;L中每个频繁项集的支持频度;最小可信度 min_conf ;输出:关联规则;处理流程: 对于所有频繁k-项集集合 Lk ( k1)对于Lk中的每个频繁 k-项集I对于I的每个非空子集s :女口果 support_count(l)/support_count(s) min_conf;则输出关联规则“s =(l-s) ”。7.FP-treeStep 1:遍历一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024个人珠宝买卖合同范本
- 2024年度版权质押合同:含版权内容、质押价值、质权实现
- 旅游推广合作合同实例
- 摄影棚居间服务合同样本
- 房屋销售合同模板手册
- 乐团合作合同范本大全
- 电子邮件服务租用协议
- 2024家教公司与兼职教师合作合同范本
- 企业房屋租赁合同范本
- 2024保密合同样书范文
- 期末测试卷(试题)-2024-2025学年人教PEP版(2024)英语三年级上册
- 2024至2030年中国手机配件产业需求预测及发展趋势前瞻报告
- 2024年小学闽教版全册英语词汇表
- 课题开题汇报(省级课题)
- 清真食品安全管理制度
- 学校心理健康教育合作协议书
- 2024江苏省沿海开发集团限公司招聘23人(高频重点提升专题训练)共500题附带答案详解
- 2024年初级社会体育指导员(游泳)技能鉴定考试题库(含答案)
- 湖北省危险废物监管物联网系统管理计划填报说明
- Unit6ADayintheLife教学设计2024-2025学年人教版(2024)英语七年级上册
- 2024年个人劳务承包合同书
评论
0/150
提交评论