机器学习基础复习提纲(信息填充)_第1页
机器学习基础复习提纲(信息填充)_第2页
机器学习基础复习提纲(信息填充)_第3页
机器学习基础复习提纲(信息填充)_第4页
机器学习基础复习提纲(信息填充)_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习基础复习提纲目录翻译 3Python语法: 3Numpy语法: 3matplotlib画图: 3机器学习模型 3分) 4Python语言的特点:动态类型,交互式,解释型,面向对象,多继承,函数返回值,函数作为参数,变长参数,缺省参数,命名参数 4三种for,for和while中的break,continue,else 5List,Tuple,Dictionary,set 5range()函数产生List 7numpy.min,max,sort,argmin,argmax,argsort,flipud,[::-1] 7plotNum)8机器学习的一般慨念,比如:有监督的机器学习、无监督的机器学习、强化学习等 9sklearn10属性的类型,数据预处理技术(如sklearn.preprocessing.StandardScaler,preprocessing.scale,preprocessing.MinMaxScaler(),preprocessing.normalize,procssing.Nrmlier()3各个机器学习算法的基本性质 15、题8题0录音82-) 8学过的机器学习算法相关类的作用及其构造函数主要参数的意义;18与超参数调整相关类的使用 19数据预处理的方法,如独热编码preprocessing.OneHotEncoder(),sklearn.feature_extraction.DictVectorizer,线性回归特征扩展方法preprocessing.PolynomialFeatures ,文本处理sklearn.feature_extraction.text.CountVectorizer 19各种性能指标的计算,如二类分类问题的混淆矩阵、accuracy、precision、recall、f1、P-R曲线和ROC曲线,回归问题的R-squared,聚类问题的关联矩阵、Randindex和JaccardIndex 20(PPT05-2P17)22(ulti-lbelclssfiainPT0-2P2)22学习过的主要集成机器学习算法的基本原理 22主要机器学习算法的具体实现,如决策树如何选择属性,朴素贝叶斯方法如何预测,k-means算法的2个主要步骤,层次聚类如何选择合并的簇 23Python语言lambda表达式、filter、map和reduce的具体设计 244、算法设计题 26用伪代码描述学习过的机器学习算法,如决策树、k-means、层次聚类、DBCA(如K-贪心法和Sofax-lernig、集成学习算法等 26实现上述算法 29用给定的机器学习方法解决问题通常会要求根据性能指标重复多次寻找最优的超参数,将结果用曲线、柱状或者箱线图表示出来(主要类会给出) 30翻译Python语法:List(列表),Tuple(元组),Dictionary(字典),set(集合)Numpy语法:argflipud(上下翻转)matplotlib画图:scatter(散点图),plot(二维线画图),bar(直方图)box(箱线图),subplot(绘制多轴图)label(标签)机器学习模型评价方法(EvaluationMethods)HoldoutMethod(留出法)K-foldCross-validation(K)Bootstrapping(自助法)性能指标(MetricsforBinaryClassification)二类分类问题Accuracy(准确率)Precision(查准率)Recall(查全率,召回率)聚类分类算法LinearRegression(线性回归)DecisionTree(决策树)SVM(SupportVectorMachine)KNN(K-NearestNeighborK)MLP(multilayerperceptron)SOM(Self-OrganizingMap)K-means(K)DBSACN(基于密度的聚类算法)LogisticRegression(逻辑回归)1、选择题(16)2、是非题(14)函数返回值,函数作为参数,变长参数,缺省参数,命名参数动态类型同一个对象名可以赋值不同的类型。交互式解释型面向对象多继承classa(b,c),a继承了b,c。函数返回值java,Python函数作为参数defrun(func),func()调用原来的函数。变长参数deffunc(a,*args),在形参前加*可以把多个参数当成元组的形式传入,也就是传入的多个参数值可以在函数内部进行元祖遍历。缺省参数deffunc(a=1),在参数后使用赋值语句可以指定参数的缺省值(默认值)。命名参数在调用函数时按照形参的名称传递参数,可以不受位置影响deffunc(a,b,c) passfunc(b=2,c=3,a=1)三种for,for和while中的break,continue,else1.2三种forforiteminarray:print(item)forindexinrange(len(array)):print(str(index)+".."+array[index])inenumerate(array):print(str(index)+"--"+val);打印结果→→→

abc0..a1..b2..c0--a1--b2--cfor和whilebreak,continue,elsebreak:中断循环continue:跳过其下语句继续循环else:退出循环时执行其中语句List,Tuple,Dictionary,setList(列表):可变的序列,可以增加或删除项,拥有迭代器L=[1,2,3],L1=[]#列表的定义len(L)#列表的长度item=L[index]index0seq=L[start:stop]list,包括从start到stop,start/stop/到结尾,为负数时表示从头/n(1)M=L#指向对象 M=L[:]克隆L.append(obj)#在末尾添加单个元素L.extend(sequence)#在末尾连接另一个序列(sequence)L.insert(index,obj)#indexobj,原先的内1,indexLendelL[i]idelL[i:j]iJ移动item=L.pop()#弹出最后一个元素item=L.pop(0)#弹出第一个元素item=L.pop(index)indexL.remove(item)#LitemL.reverse()#将列表反向L.sort()#将列表排序Tuple(元组):与列表类似,但不可变(无法修改) T1=(1,2,3),T2=(),T3=(1,)#元组的定义,当元组仅含有单个元素时,必须在第一个项目后跟一个逗号元组没有方法元组可用于打印语句print('%sis%dyearsold'%(name,age))print('Whyis%splayingwiththatpython?'%name)Dictionary(字典):键(key)与值(value)一一对应的列表D={key1:value1,key2:value2}#字典的定义,键/值对用冒号分割,而各个对用逗号分割字典的键大小写敏感字典中键、值的类型可以不同D[key]#字典的访问,例如d={"server":"mpilgrim","database":"master"}>>>d["server"]‘mpilgrim’D[key]=new_value#字典的添加/修改delD[key]#删除某个项d.clear()#清空字典set(集合):无序集合a.issuperset(b)#ersection(b,c,d…)#返回多个集合都包含的元素集合的使用案例>>>bri=set(['brazil','russia','india'])>>>'india'inbriTrue>>>'usa'inbriFalse>>>bric=bri.copy()>>>bric.add('china')>>>bric.issuperset(bri)#判断True>>>bri.remove('russia')>>>bri&bric#ORersection(bric){'brazil','india'}range()函数产生Listrangerange(start,stop[,step])函数可创建一个整数列表,一般用在for循环中。参数:start:计数从start开始。默认是从0开始。例如range(5)range(0,5);stop:计数到stop结束,但不包括stop。例如:range(0,5)是[0,1,2,3,4]5step:1。例如:range(0,5)等价于range(0,5,1)numpy.min,max,sort,argmin,argmax,argsort,flipud,[::-1]numpy.min返回最小值。numpy.max返回最大值。numpy.sort返回排序过的数组。numpy.argmin返回最小值所在下标。numpy.argmax返回最大值所在下标。numpy.argsort返回数组值从小到大的索引值。numpy.flipud返回上下翻转的矩阵。1.5.8[::-1]数组倒序scatter,plot,bar,box,绘制多轴图,subplot(numRows,numCols,plotNum)scatter(散点图)plt.scatter(x,y,s=area,c=colors1,alpha=0.4,label='A')#例子参数:x,y——设置点的位置s——点的大小c——点的颜色marker——点的形状alpha——点的透明度plot(二维线画图)plt.plot(x,y,ls="-",lw=2,label=“plotfigure”)#例子参数:x:xy:yls:折线图的线条风格lw:折线图的线条宽度label:标记图内容的标签文本bar(直方图)bar(x,height,width=0.8,bottom=None,***,align='center',data=None,**kwargs)#标准函数ax.bar(ind-width/2,men_means,width,color='SkyBlue',label='Men')#例子参数:xxheight条形的高度width宽度box(箱线图)plt.boxplot(x)优点:可以直观明了地识别数据中的异常值。利用箱体图可以判断数据的偏态和尾重。利用箱体图可以比较不同批次的数据形状。绘制多轴图函数:subplot(numRows,numCols,plotNum)subplotnumRows*numCols列个子区域,然后按照从左到右,从上到下的顺序对每个子1。numRows,numColsplotNum10subplot(323)和subplot(3,2,3)是相同的。机器学习的一般慨念,比如:有监督的机器学习、无监督的机器学习、强化学习等有监督的机器学习通过有标签的数据进行训练核心:分类同维分类同时定性独立分布数据更适合有监督不透明无监督的机器学习通过无标签的数据进行训练核心:聚类降维先聚类后定性非独立数据更适合无监督可解释性强化学习没有数据,通过奖励和惩罚进行训练基本内涵是将问题用代理(Agent,有的地方也将其翻译为智能体)和环境进行建模。机器学习模型评价方法和评价性能指标及其在sklearn中相关的函数评价方法(EvaluationMethods)(Lab04-LR)HoldoutMethod(留出法)将数据集分为两个不相交的部分:训练集和测试集。2/3〜4/5sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4,random_state=0,stratify=y_train)参数:train_data:所要划分的样本特征集。train_target:所要划分的样本结果。test_size:样本占比,如果是整数的话就是样本的数量。random_state:是随机数的种子。.4.5 stratify是为了保持split前类的分布。100,80A,20BK-foldCross-validation(K)可能是最常见但计算量更大的方法。kK折交叉验证是交叉验证的一种特殊情况,其中我们遍历数据集k次。在每一轮中,一个部分用于验证k-1估。k5、1020。cross_val_score(estimator,X,y=None,groups=None,scoring=None,cv=’warn’,n_jobs=None,verbose=0,fit_params=None,pre_dispatch=‘2*n_jobs’,error_score=’raise-deprecating’)Bootstrapping(自助法)参数:estimator:需要使用交叉验证的算法。X:输入样本数据。y:样本标签。scoring:交叉验证最重要的就是他的验证方式,选择不同的评价方法,会产生不同的评价结果。cv:交叉验证折数或可迭代的次数。Bootstrapping(自助法)通过对原始数据集进行重复采样并替换来从总体中生成新数据0.632×n0.368×n性能指标(MetricsforBinaryClassification)Accuracy(准确率)含义:正确分类的样本的分数。实际上,仅当每个类别中的观察数相等时才是合适的(这种情况很少发生),并且所有预测和预测误差都同等重要,而通常情况并非如此。并非总是有用的指标,可能会产生误导。准确率计算公式

TPTNFPFNTPTN。Precision(查准率)含义:预测为正确,并且实际为正确的样本占所有预测为正确的比率。当目标是限制误报的数量时,将查准率用作性能指标。通过提高阈值来提高查准率。阈值:可以理解为样本被判断为正类的严厉度,当阈值较高时,负类被识别正类的机会降低,同时一些正类会被误认为是负类;当阈值取较小值时,很多正类就不会被误分为负类,同样,较小的阈值使得负类被误分为正类的概率增加。P

TPTPFP。Recall(查全率,召回率)含义:预测为正确,并且实际为正确的样本占所有实际正确的比率。当需要识别所有阳性样本时,将精度用作性能指标。通过降低阈值来提高召回率。RF-score

TPTPFN。含义:具有精度和召回率的调和平均数。可以综合查准率与查全率的评估指标,用于综合反映整体的指标。F1F12PR。PR特殊比率.4.1 计算公式:F

(12)P2PR

(12)TP(12)TP2FNFP.4.2 β=1,F1,β>1β< pr(PPT05-1,P28)以查准率为纵轴、查全率为横轴。P-R全“包”住,则可断言后者的性能优于前者,例如,AC,BC。完整介绍:在很多情形下,我们可根据学习器的预测结果对样例进行排序,排在前面的是学习器认为"最可能"是正例的样本?排在最后的则是学习器认为"最不可能"是正例的样本.按此顺序逐个把样本作为正例进行预测,则每次可以计算出当前的查全率、查准率以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称"P-R曲线"显示该曲线的图称为"P-R ROC-AUC(PPT05-1P31-32)ROC(受试者工作特征)AUC(ROC)ROCm+个正例和m-个负例,根据学习器预测结果对样例进行排序,将分类阈值设为每个样例的预测值,当前标记点坐标为(x,y),当前若为真正例,则对应标记点的坐标为(x,y+1/(m+));当前若为假正例,则对应标记点的坐标为(x+1/(m-),y),然后用线段连接相邻点.gini尽量让分出来的子节点拥有尽量低的不纯度(越纯则类标越明确)。DA上分为两个子集D1D2,则gini(D)定义为杂质减少。属性的类型数据预处理技(如sklearn.preprocessing.StandardScaler,preprocessing.scale , preprocessing.MinMaxScaler() ,preroessin.ormalzeprcesnNoralize()过拟合和欠拟合,过拟合处理技术,参数和超参数属性的类型离散型连续型Binary数据预处理技术(Preprocessing)sklearn.preprocessing.StandardScaler标准化(去除均值和方差缩放)。使用该类的好处在于可以保存训练集中的参数(均值、方差)直接使用其对象转换测试集数据。preprocessing.scale()标准化(去除均值和方差缩放)。可以直接将给定数据进行标准化。preprocessing.MinMaxScaler()将属性缩放到一个指定范围。将属性缩放到一个指定的最大和最小值(通常是1-0)之间。min_max_scaler.fit(训练集)进行训练min_max_scaler.fit_transform(训练集)进行训练并转换t=min_max_scaler.fit(数据集)进行转换preprocessing.normalize()正则化。将每个样本缩放到单位范数(每个样本的范数为1),Normalization主要思想是对每个样本计算其p-范数,然后对该样本中每个元素除以该范数,这样处p-范数(l1-norm,l2-norm)1。processing.Normalizer()正则化。实现对训练集和测试集的拟合和转换。过拟合和欠拟合过拟合(over-fitting)过度符合训练集导致在测试集上表现不佳。欠拟合(underfitting)指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。过拟合处理技术正则化是可以用来防止过度拟合的技术的集合。正则化通常以对复杂性的惩罚的形式将信息添加到问题中。L1L2参数和超参数参数模型内部的配置变量,可以用数据估计它的值。一般不由实践者手动设置。例子:人造神经网络中的权重。支持向量机中的支持向量。线性回归或逻辑回归中的系数。超参数模型外部的配置,其值不能从数据估计得到。由实践者直接指定。例子:训练神经网络的学习速率。Csigmakk。各个机器学习算法的基本性质LinearRegression(线性回归)模拟因变量和自变量之间的线性关系预测的是连续值DecisionTree(决策树)优点:易于理解和实现。在相对短的时间内能够对大型数据源做出可行且效果良好的结果。易于通过静态测试来对模型进行评测,可以测定模型可信度;如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。缺点:对连续性的字段比较难预测。对有时间顺序的数据,需要很多预处理的工作。当类别太多时,错误可能就会增加的比较快。一般的算法分类的时候,只是根据一个字段来分类。SVM(SupportVectorMachine)(PPT08-1)是一种二分类模型。定义在特征空间上的间隔最大的线性分类器。学习策略:间隔最大化。KNN(K-NearestNeighborK)(PPT07-1P2-)对每个距离进行排序,然后选择出距离最小的K个点KK优点:方法思路简单,易于理解,易于实现,无需估计参数,无需训练。它没有明确建立模型(懒惰的分类器)。缺点:当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本K计算量较大,因为对每一个待分类的文本都要计算K点。MLP(multilayerperceptron)(PPT10-2P15-)要解决非线性可分问题,需考虑使用多层功能神经元,比如对异或问题。学习的目标是均方误差。输入层神经元仅是接受输入,不进行函数处理,隐层与输出层包含功能神经元。SOM(Self-OrganizingMap)(PPT10-2P25-)SOM网络是一种竞争学习型的无监督神经网络,将高维空间中相似的样本点映射到网络输出层中的邻近神经元。SOM的视网膜,输出层模拟做出响应的大脑皮层。K-means(K)(PPT09-2P3-)每个点都分配给具有最接近质心的聚类。优化目标:误差平方和。优点:高效。易于实施。缺点:K,集群数局部最小值可能出现空簇无法处理不规则形状DBSACN(基于密度的聚类算法)(PPT09-2P26-)密度聚类算法。它基于一组“邻域”(neighborhood)参数(ε,MinPts)来刻画样本分布的紧密程度。MinPts。3、简答题(8题40分(录音0825-)学过的机器学习算法相关类的作用及其构造函数主要参数的意义;LinearRegression(PPT03-2P5-)作用:进行简单线性回归。LinearRegressionfit_intercept、normalize、copy_X和n_jobsfit_interceptnormalizecopy_Xn_jobsfit、predictscorefitpredictscorePolynomialFeatures作用:进行特征的构造。2ab,用例子说明构造函degree、interaction_only和include_bias义degreeinteraction_onlyinclude_biasfit、fit_transformtransform意他们之间的区别。fitfit_transformtransformlinear_model作用:进行线性回归。linear_model中有哪些Classicallinearregressors;linear_model(Regressorswithvariableselection)。LogisticRegression作用:进行逻辑回归。LogisticRegressionpenaltysolver的意义及他们之间的关系penaltysolver关系GridSearchCV作用:超参数自动搜索。estimatorparam_gridestimatorparam_grid与超参数调整相关类的使用GridSearchCV(PPT05-2P12)穷举法,对指定的所有参数找最优的组合。RandomizedSearchCV(PPT05-2P12)(Lab07-1Part4)采样法,对指定的所有参数采样n次找最优的组合。参数可以不是离散的而是某种分布。数据预处理的方法,如独热编码preprocessing.OneHotEncoder(),sklearn.feature_extraction.DictVectorizer,线性回归特征扩展方法preprocessing.PolynomialFeatures,文本处理sklearn.feature_extraction.text.CountVectorizer独热编码preprocessing.OneHotEncoder()作用结果将特征值映射列表转换为矢量。sklearn.feature_extraction.DictVectorizer(PPT04-1P11)作用结果将特征值映射列表转换为矢量。Lab04-FEPart1线性回归特征扩展方法preprocessing.PolynomialFeatures作用结果构造多项式的特征。Lab03-LRPart1文本处理sklearn.feature_extraction.text.CountVectorizer(PPT04-1P18)作用结果将文本文档集合转换为令牌计数矩阵。Lab04-FE中段about_CountVectorizer()accuracyprecision、recall、f1、P-R曲线和ROC曲线,回归问题的R-squared,聚类问题的关联矩阵、RandindexJaccardIndex二类分类问题混淆矩阵Accuracy(准确率)准确率计算公式

TPTNFPFNTPTN。Precision(查准率)P

TPTPFP。Recall(查全率,召回率)查全率计算公式R f1

TPTPFN。.1F1F12PRPRP-R根据学习器的预测结果对样例进行排序,排在前面的是学习器认为"最可能"是正例的样本,排在最后的则是学习器认为"最不可能"是正例的样本。按此顺序逐个把样本作为正例进行预测,则每次可以计算出当前的查全率、查准率以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称"P-R曲线"显示该曲线的图称为"P-RROCm+m-个负例,根据学习器预测结果对样例进行排序,将分类阈值设为每个样例的预测值,当前标记点坐标为(x,y),当前若为真正例,则对应标记点的坐标为(x,y+1/(m+));当前若为假正例,则对应标记点的坐标为(x+1/(m-),y),然后用线段连接相邻点。回归问题R-squared(PPT03-2P15).1 .2 .3 聚类问题关联矩阵(incidencematrix)(PPT09-1P31)RandindexJaccardIndex(Muli-clssclssfcation(PPT05-2P1)转换为二类分类问题,转换方式有:“一对一”(Onevs.One,OvO)NN(N1)/2个三分类任务。在测试阶段,新样本将同时提交给所有分类器,于N(N-1)/2个分类结果,最终结果可通过投票产生:即把被预测得最多的类别作为最终分类结果。“一对其余"(Onevs.RestOvR)每次将一个类的样例作为正例、所有其他类的样例N个分类器。在测试时若仅有一个分类器预测为正类,则对应的类别标记作为最终分类结果。若有多个分类器预测为正类,则通常考虑各分类器的预测置信度,选择置信度最大的类别标记作为分类结果。"多对多"(Manyvs.Many,MvM)每次将若干个类作为正类,若干个其他类作为反类。OvOOvRMvM的特例。MvM技术是“纠错输出码”(ErrorCorrectingOutputCodes,ECOC)。ECOC是将编码的思想引入类别拆分,并尽可能在解码过程中具有容错性。多标签分类(Multi-labelclassification)问题的各种处理策略(PPT05-2P32)把每一个标签都作为一个二类分类问题。基于集合的方式把每一种类别的集合作为一种新的类别。将原始的多标签问题转换为一组单标签分类问题的技术。将训练数据中遇到的每组标签转换为单个标签针对训练集中的每个标签训练一个二进制分类器学习过的主要集成机器学习算法的基本原理Bagging(PPT08-2P23)基于样本采样,在不同的数据集上设置弱分类器。Randomforest(PPT08-2P29)不仅基于样本采样,还在特征上采样,生成树。Boosting(PPT08-2P37)通过重新采样数据来创建分类器的集合,然后通过多数表决将其合并。法如何预测,k-means算法的2个主要步骤,层次聚类如何选择合并的簇决策树如何选择属性(PPT06-1P24-)ID3C4.5先从候选划分属性中找出信息增益高于平均水平的,再从中选取信息增益率最高的。CART选择基尼指数最小的属性。朴素贝叶斯方法如何预测(PPT07-1P25-)通过先验概率和调整因子来获得后验概率。其中调整因子是根据事件已经发生的概率推断事件可能发生的概率(通过硬币正面出现的次数来推断硬币均匀的可能性),并与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论