版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机器学习基础kNN和Bayes主要分类方法逻辑回归线性判别分析决策树归纳最近的邻居贝叶斯分类方法反向传播分类支持向量机集合方法…最近邻分类器最近邻分类器需要三件事存储记录的集合用于计算记录之间距离的距离度量k的值,即要检索的最近邻数对未知记录进行分类:计算到其他培训记录的距离确定k个最近邻使用最近邻的类标签来确定未知记录的类标签(例如,通过采取多数票)最近邻的定义1个最近邻Voronoi,Dirichlet,。n,;。最近邻分类器计算两点之间的距离:欧几里得距离从最近邻列表中确定类取K个最近邻中类标签的多数票根据距离给选票加权权重因子,w=1/D2最近邻分类器计算两点之间的距离:欧几里得距离闵可夫斯基距离曼哈顿标称属性的距离二进制属性的距离序数变量距离混合类型的距离最近邻分类器类sklearn.neighbors.distancemetric这个类为快速距离度量函数提供了统一的接口。可以通过get_metric类方法和度量字符串标识符访问各种度量>>>从sklearn.neighbors导入DistanceMetric>>>dist=distanceMetric.get_metric(“euclidean”)>>>X=[[0,1,2],[3,4,5]]>>>Dist.pairwise(X)数组([[0,5.19615242],[5.19615242,0.]])最近邻分类器类sklearn.neighbors.distancemetric用于实值向量空间的度量:最近邻分类器选择K:的值如果k太小,对噪声点敏感如果k太大,则邻域可能包括来自其他类的点最近邻分类器缩放问题可能必须对属性进行缩放,以防止距离度量被其中一个属性所支配例:一个人的身高可由1.5米至1.8米不等一个人的体重可以从90磅到300磅不等一个人的收入可能从1万美元到100万美元不等最近邻分类器k-NN分类器是懒学习者(,)它不显式地构建模型不同于急切的学习者()如决策树归纳对未知记录进行分类比较昂贵sklearn.neighborssklearn.neighbors
提供无监督和基于监督邻居的学习方法的功能。无监督最近邻居是许多其他学习方法的基础,特别是流形学习(StandStand)和谱聚类(Posiple)。基于监督邻域的学习有两种类型:对具有离散标签的数据进行分类,对具有连续标签的数据进行回归。NearestNeighbors
近邻实现了无监督的最近邻学习。它充当三种不同的最近邻算法的统一接口:BallTree、KDTree和基于中例程的暴力算法sklearn.metrics.pairwise.邻域搜索算法的选择通过关键字“algorithm”来控制,该关键字必须是['auto'、'ball\utree'、'kd_tree'、'brute']之一。当传递默认值“auto”时,算法尝试从训练数据中确定最佳方法。
FindingtheNearestNeighbors>>>from
sklearn.neighbors
importNearestNeighbors
>>>import
numpy
as
np
>>>X=np.array([[-1,-1],[-2,-1],[-3,-2],[1,1],[2,1],[3,2]])>>>nbrs=NearestNeighbors(n_neighbors=2,algorithm='ball_tree').fit(X)
>>>distances,indices=nbrs.kneighbors(X)
>>>indicesarray([[0,1],[1,0],[2,1],[3,4],[4,3],[5,4]]...)
>>>distancesarray([[0.,1.],[0.,1.],[0.,1.41421356],[0.,1.],[0.,1.],[0.,1.41421356]])
NearestNeighborsClassificationscikit-learnimplementstwodifferentnearestneighborsclassifiers:KNeighborsClassifier基于每个查询点的k个最近邻来实现学习,其中k是用户指定的整数值RadiusNeighborsClassifier基于每个训练点固定半径r内的邻域数来实现学习,其中r是用户指定的浮点值。sklearn.neighbors.KNeighborsClassifier>>>X=[[0],[1],[2],[3]]>>>y=[0,0,1,1]
>>>from
sklearn.neighbors
importKNeighborsClassifier>>>neigh=KNeighborsClassifier(n_neighbors=3)>>>neigh.fit(X,y)KNeighborsClassifier(...)>>>print(neigh.predict([[1.1]]))[0]>>>print(neigh.predict_proba([[0.9]]))[[0.666666670.33333333]]sklearn.neighbors.RadiusNeighborsClassifier>>>X=[[0],[1],[2],[3]]>>>y=[0,0,1,1]>>>from
sklearn.neighbors
importRadiusNeighborsClassifier
>>>neigh=RadiusNeighborsClassifier(radius=1.0)
>>>neigh.fit(X,y)RadiusNeighborsClassifier(...)>>>print(neigh.predict([[1.5]]))[0]NearestCentroidClassifierThe
NearestCentroid
(最近质心分类)classifierisasimplealgorithmthatrepresentseachclassbythecentroidofitsmembers.Ineffect,thismakesitsimilartothelabelupdatingphaseofthe
sklearn.KMeans
algorithm.Italsohasnoparameterstochoose,makingitagoodbaselineclassifier.Itdoes,however,sufferonnon-convexclasses,aswellaswhenclasseshavedrasticallydifferentvariances,asequalvarianceinalldimensionsisassumed.分类器的每个成员的质心都是由一个简单的质心表示的。实际上,这使其类似于sklearn.KMeans公司算法。它也没有参数可供选择,这使得它成为一个很好的基线分类器。然而,在非凸类上,以及当类具有完全不同的方差时,它确实受到影响,因为假设所有维度的方差相等。>>>from
sklearn.neighbors.nearest_centroid
importNearestCentroid
>>>import
numpy
as
np
>>>X=np.array([[-1,-1],[-2,-1],[-3,-2],[1,1],[2,1],[3,2]])
>>>y=np.array([1,1,1,2,2,2])>>>clf=NearestCentroid()
>>>clf.fit(X,y)NearestCentroid(metric='euclidean',shrink_threshold=None)>>>print(clf.predict([[-0.8,-1]]))[1]NearestNeighborsRegressionscikitlearn实现了两个不同的邻居回归函数:KneighborsRegregator基于每个查询点的最近邻来实现学习,其中是用户指定的整数值radiusNeighborsRegressor基于查询点固定半径内的邻居进行学习,其中是用户指定的浮点值。sklearn.neighbors.KNeighborsRegressor>>>y=[0,0,1,1]>>>from
sklearn.neighbors
importKNeighborsRegressor>>>neigh=KNeighborsRegressor(n_neighbors=2)>>>neigh.fit(X,y)KNeighborsRegressor(...)>>>print(neigh.predict([[1.5]]))[0.5]sklearn.neighbors.RadiusNeighborsRegressor>>>X=[[0],[1],[2],[3]]>>>y=[0,0,1,1]
>>>from
sklearn.neighbors
importRadiusNeighborsRegressor>>>neigh=RadiusNeighborsRegressor(radius=1.0)>>>neigh.fit(X,y)RadiusNeighborsRegressor(...)>>>print(neigh.predict([[1.5]]))[0.5]BayesianClassification贝叶斯分类器与决策树决策树:预测类标签贝叶斯分类器:统计分类器;预测类成员概率基于Bayes定理的后验概率估计天真的贝叶斯分类器:假设属性独立的简单分类器适用于大型数据库时效率高在性能上可与决策树相媲美PosteriorProbability设X是一个类标签未知的数据样本假设X属于一个特殊的类CiP(Hi|X)是以X为条件的Hi的后验概率给定X的属性值,数据示例X属于类Ci的概率e、g.,给定X=(年龄:31岁…40,收入:中等,学生:是,学分:一般),X购买电脑的概率是多少?BayesTheorem分类意味着确定所有C1,…Cm类中P(Hi|X)的最高值 如果P(H1|X)>P(H0|X),则X购买计算机 如果P(H0|X)>P(H1|X),则X不购买计算机 用Bayes定理计算P(Hi|X)ClassPriorProbabilityP(Hi)是X属于特定类Ci的类先验概率可以从训练数据样本中用ni/n估计n是训练数据样本的总数ni是类Ci的训练数据样本数ClassPriorProbabilityP(Hi)isclasspriorprobabilitythatXbelongstoaparticularclassCiCanbeestimatedbyni/nfromtrainingdatasamplesnisthetotalnumberoftrainingdatasamplesni
isthenumberoftrainingdatasamplesofclassCiDescriptorPriorProbabilityP(X)是X的先验概率观察X属性值的概率假设X=(x1,x2,…,xd),它们是独立的,那么P(X)=P(x1)P(x2)…P(xd)P(xj)=nj/n,其中nj是属性Aj的值为xj的训练示例数n是训练样本的总数所有类的常数DescriptorPriorProbabilityDescriptorPosteriorProbabilityP(X|Hi)是给定Hi的X的后验概率在Ci类中观察X的概率假设X=(x1,x2,…,xd),它们是独立的,那么P(X|Hi)=P(x1|Hi)P(x2|Hi)…P(xd|Hi)P(xj|Hi)=ni,j/ni,其中ni,j是类Ci中属性Aj的值为xj的训练示例数ni是Ci中训练实例的个数DescriptorPosteriorProbabilityP(X|Hi)isposteriorprobabilityofXgivenHiProbabilitythatobserveXinclassCiAssumeX=(x1,x2,…,xd)andtheyareindependent,thenP(X|Hi)=P(x1|Hi)P(x2|Hi)…P(xd|Hi)P(xj|Hi)=ni,j/ni,where
ni,j
isnumberoftrainingexamplesinclassCihavingvaluexjforattributeAjni
isnumberoftrainingexamplesinCiDescriptorPosteriorProbabilityP(X|Hi)isposteriorprobabilityofXgivenHiProbabilitythatobserveXinclassCiAssumeX=(x1,x2,…,xd)andtheyareindependent,thenP(X|Hi)=P(x1|Hi)P(x2|Hi)…P(xd|Hi)P(xj|Hi)=ni,j/ni,where
ni,j
isnumberoftrainingexamplesinclassCihavingvaluexjforattributeAjni
isnumberoftrainingexamplesinCiBayesianClassifier–BasicEquationWeatherDatasetExampleWeatherDatasetExample:ClassifyingXAnunseensampleX=<rain,hot,high,false>P(p)P(X|p)=P(p)P(rain|p)P(hot|p)P(high|p)P(false|p)
P(n)P(X|n)=P(n)P(rain|n)P(hot|n)P(high|n)P(false|n)
WeatherDatasetExample:ClassifyingXGivenatrainingset,wecancomputeprobabilities:AnunseensampleX=<rain,hot,high,false>P(p)P(X|p)=P(p)P(rain|p)P(hot|p)P(high|p)P(false|p)
=9/14·3/9·2/9·3/9·6/9·=0.010582WeatherDatasetExample:ClassifyingXGivenatrainingset,wecancomputeprobabilities:AnunseensampleX=<rain,hot,high,false>P(p)P(X|p)=0.010582P(n)P(X|n)=P(n)P(rain|n)P(hot|n)P(high|n)P(false|n)
=5/14·2/5·2/5·4/5·2/5=0.018286WeatherDatasetExample:ClassifyingXGivenatrainingset,wecancomputeprobabilities:AnunseensampleX=<rain,hot,high,false>P(p)P(X|p)=0.010582P(n)P(X|n)=0.018286SampleXisclassifiedinclassn(don’tplay)AvoidingtheZero-ProbabilityProblemDescriptorposteriorprobabilitygoesto0ifanyofprobabilityis0:
Ex.Supposeadatasetwith1000tuplesforaclassC,income=low(0),income=medium(990),andincome=high(10)UseLaplaciancorrection(orLaplacianestimator)Adding1toeachcaseProb(income=low|H)=1/1003Prob(income=medium|H)=991/1003Prob(income=high|H)=11/1003IndependenceHypothesismakescomputationpossibleyieldsoptimalclassifierswhensatisfiedbutisseldomsatisfiedinpractice,asattributes(variables)areoftencorrelatedAttemptstoovercomethislimitation:Bayesiannetworks,thatcombineBayesianreasoningwi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版家属区整体改造装修服务合同3篇
- 江苏省南通市如皋市 2024-2025学年九年级上学期1月期末道德与法治试题(含答案)
- 二零二五年度企业并购合同法操作指南3篇
- 保健品批发商的社区健康宣传效果评估考核试卷
- 家居布艺的智能化窗帘控制系统设计与实现考核试卷
- 二零二五年度造纸机械租赁施工合同2篇
- 2025年新能源车位租赁与维护保养一体化服务合同2篇
- 2025年新能源产品销售业绩达标合同范本2篇
- 2025年信息安全技术协议
- 2025年度智能设备维修个人劳务合同模板3篇
- 我的家乡琼海
- (2025)专业技术人员继续教育公需课题库(附含答案)
- 《互联网现状和发展》课件
- 【MOOC】计算机组成原理-电子科技大学 中国大学慕课MOOC答案
- 2024年上海健康医学院单招职业适应性测试题库及答案解析
- 2024年湖北省武汉市中考语文适应性试卷
- 非新生儿破伤风诊疗规范(2024年版)解读
- EDIFIER漫步者S880使用说明书
- 皮肤恶性黑色素瘤-疾病研究白皮书
- 从心理学看现代家庭教育课件
- C语言程序设计PPT(第7版)高职完整全套教学课件
评论
0/150
提交评论