




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第12章Sklearn
《Python数据分析与应用》SklearnScikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,具有分类、回归、聚类、降维、模型选择、预处理六大模块
Sklearn(1)分类:识别某个对象属于哪个类别,常用的算法有:SVM(支持向量机)、KNN(最近邻)、randomforest(随机森林)。(2)回归:预测与对象相关联的连续值属性,常见的算法有:SVR(支持向量机)、ridgeregression(岭回归(3)聚类:将相似对象自动分组,常用的算法有:spectralclustering、K-means。Sklearn(4)降维:减少要考虑的随机变量的数量,常见的算法有:PCA(主成分分析)、featureselection(特征选择)。(5)模型选择:用于比较、验证、选择参数和模型,常用的模块有:gridsearch(网格搜索)、crossvalidation(交叉验证)、metrics(度量)。(6)预处理:包括数据清洗和特征提取,常用的模块有preprocessing(数据预处理)和featureextraction(特征提取)。无监督学习算法算
法
说
明cluster 聚类Decomposition因子分解Mixture高斯混合模型neural_network无监督的神经网络Covariance协方差估计有监督学习算
法
说
明tree决策树svm支持向量机neighbors近邻算法linear_model广义线性模型neural_network神经网络kernel_ridge岭回归naive_bayes
朴素贝叶斯数据转换模
块
说
明feature_extraction特征提取feature_selection特征选择preprocessing预处理评价指标术
语Sklearn函数混淆矩阵confusion_matrix准确率accuracy_score召回率recall_scoref1_scoref1_scoreROC曲线roc_curveAUC面积roc_auc_score分类评估报告classification_report安装SklearnSklearn数据集
机器学习领域有句话:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。”
数据作为机器学习的最关键要素,决定着模型选择、参数的设定和调优。Sklearn的数据集是datasets模块,导入数据集代码如下所示: fromsklearnimportdatasets sklearn提供三种数据集,分别是小数据集、大数据集和生成数据集。Sklearn小数据集Sklearn大数据集Sklearn生成数据集划分数据集根据数据集的特点,有留出法、交叉验证法和自助法等,具体如下所示:数据集较小且可以有效划分训练集/测试集的时候,采用留出法。数据集较小且难以有效划分训练集/测试集的时候,采用自助法。数据集数量充足时,通常采用留出法或者k折交叉验证法。K近邻算法KNN具有如下个步骤:步骤1:
算距离。计算待分类样本Xu与已分类样本点的距离,计算距离有等方法。步骤2:
找邻居。圈定与待分类样本距离最近的3个已分类样本,作为待分类样本的近邻。步骤3:
做分类。根据3个近邻中的多数样本所属的类别来决定待分类样本,将Xu的类别预测为ω1。K近邻算法Sklearn提供了KneighborsClassifier解决分类问题
KNeighborsClassifier(n_neighbors,weights,algorithm,leaf_size,p)
决策树通过一系列规则对数据进行分类,将在不同条件下得到不同的结果的决策过程绘制成图形,很像一棵倒立的树。这种从数据产生决策树的机器学习技术叫做决策树(DecisionTrees,缩写DT)。决策树类似于流程图的树结构,采用IF……THEN的思路,每个叶结点对应一个分类,非叶结点对应着某个属性上的划分,根据样本在该属性上的不同取值将其划分为若干子集。决策树Sklearn提供DecisionTreeClassifier用于分类变量,具体语法如下所示DecisionTreeClassifier(criterio,splitter,max_depth,min_samples_split)参数解释如下所示:criterion:内置标准为gini(基尼系数)或者entropy(信息熵)。splitter:切割方法,如splitter=’best’max_depth:决策树最大深度min_samples_split:最少切割样本的数量线性模型线性模型是用直线最大可能地拟合所有数据特征,利用数理统计中回归分析确定变量间相互依赖的定量关系。根据自变量数目分为一元线性回归和多元线性回归,一元线性回归是指自变量为单一特征,数学表达形式如下所示。参数w是指直线的斜率,b是指截距。线性模型
sklearn的linear_model模块的LinearRegression函数实现,具体语法如下所示:sklearn.linear_model.LinearRegression(fit_intercept=True)参数:fit_intercept:是否计算截距,默认为计算。属性:coef_:回归系数(斜率)。intercept_:截距朴素贝叶斯
朴素贝叶斯模型或朴素贝叶斯分类器(NaiveBayesClassifier,简称NBC)发源于古典数学理论,是基于贝叶斯理论与特征条件独立假设的分类方法
,通过单独考量每一特征被分类的条件概率,做出分类预测。贝叶斯算法具有如下优点:(1)有着坚实的数学基础,以及稳定的分类效率。(2)所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。朴素贝叶斯
Sklearn提供GaussianNB用于高斯分布,具体语法如下所示:GaussianNB(priors=True)GaussianNB类的主要参数仅有一个,即先验概率priorsSklearn提供MultinomialNB用于多项式分布,具体语法如下所示:MultinomialNB(alpha=1.0,fit_prior=True,class_prior=None)MultinomialNB参数比GaussianNB多,3个参数含义如下所示:alpha:先验平滑因子,默认等于1,当等于1时表示拉普拉斯平滑fit_prior:是否去学习类的先验概率,默认是True。class_prior:各个类别的先验概率。支持向量机
支持向量机(SupportVectorMachine,缩写SVM)的基本思想是在N维数据找到N-1维的超平面(hyperplane)作为分类的决策边界。确定超平面的规则是找到离超平面最近的那些点,使这些点离超平面的距离尽可能远。离超平面最近的实心圆和空心圆称为支持向量,超平面的距离之和称为“间隔距离”,“间隔距离”越大,分类的准确率越高。
支持向量机
kernel参数取值为linear,如下所示:SVC(kernel='linear',C)参数解释如下:C:
惩罚系数,用来控制损失函数的惩罚系数,类似于LR中的正则化系数。C越大,相当于惩罚松弛变量,希望松弛变量接近0,即对误分类的惩罚增大,趋向于对训练集全分对的情况,这样会出现训练集测试时准确率很高,但泛化能力弱,容易导致过拟合。C值小,对误分类的惩罚减小,容错能力增强,泛化能力较强,但也可能欠拟合。Kmeans聚类
k均值聚类算法思路如下所示:首先在样本数据集D中随机选定K个值作为初始聚类中心(又称为质心,是指簇中所有数据的均值),然后计算各个数据到质心的距离,将其归属到离它最近的质心所在的类;如此迭代,计算质心,如果相邻两次质心没有变化,说明聚类收敛。Kmeans聚类
sklearn的sklearn.cluster模块提供了KMeans()函数用于实现kMeans算法。sklearn.cluster.KMeans(n_clusters,random_state)参数:n_clusters:生成的聚类数,即产生的质心数。random_state:表示随机数生成器的种子。DBSCAN聚类
基于密度的聚类则可以解决非球形簇的问题,“密度”可以理解为样本点的紧密程度,如果在指定的半径领域内,实际样本量超过给定的最小样本量阈值,则认为是密度高的对象,聚成一个簇。DBSCAN聚类
sklearn的sklearn.cluster模块提供了cluster.DBSCAN函数用于实现DBSCAN算法。cluster.DBSCAN(eps=0.5,m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- (一模)2025届安徽省“江南十校”高三联考数学试卷(含官方答案)
- 公司劳务协议年
- 灯具代理销售合同协议
- 九年级英语介词常见用法和实例分析课堂讲解计划
- 会展策划公司项目管理与实施流程预案
- 工作任务分配表格-工作任务安排表
- 《原子的结构与核反应:高中化学核化学教案》
- 传媒广告发布协议
- 精细化办公制度与流程指南
- 格林童话作文赏析童话中的真善美
- 烹饪营养与卫生知识考核试题题库与答案
- 走近人工智能
- 制造业信息化管理系统架构规划
- 蓝色卡通风好书推荐教育PPT模板
- 《纳米复合材料》第2章 纳米复合材料概论
- 宫颈癌HPV疫苗知识培训(课堂PPT)
- 2019版外研社高中英语必选择性必修一单词表
- 常用电工仪器仪表使用方法
- 建设工程绿色施工围蔽指导图集
- 2022新教科版六年级科学下册全一册全部教案(共28节)
- 中级Java软件开发工程师笔试题(附答案)
评论
0/150
提交评论