![Python机器学习与项目实践- 课件 chap3-线性模型_第1页](http://file4.renrendoc.com/view11/M01/34/21/wKhkGWeFAvWAdW9WAADnDDBqdmQ995.jpg)
![Python机器学习与项目实践- 课件 chap3-线性模型_第2页](http://file4.renrendoc.com/view11/M01/34/21/wKhkGWeFAvWAdW9WAADnDDBqdmQ9952.jpg)
![Python机器学习与项目实践- 课件 chap3-线性模型_第3页](http://file4.renrendoc.com/view11/M01/34/21/wKhkGWeFAvWAdW9WAADnDDBqdmQ9953.jpg)
![Python机器学习与项目实践- 课件 chap3-线性模型_第4页](http://file4.renrendoc.com/view11/M01/34/21/wKhkGWeFAvWAdW9WAADnDDBqdmQ9954.jpg)
![Python机器学习与项目实践- 课件 chap3-线性模型_第5页](http://file4.renrendoc.com/view11/M01/34/21/wKhkGWeFAvWAdW9WAADnDDBqdmQ9955.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
线性模型《Python机器学习与项目实践》XXX大学教学内容线性回归模型、逻辑回归模型、朴素贝叶斯模型、决策树模型、支持向量机模型、KNN模型随机森林模型。矩阵微积分标量关于向量的偏导数向量关于向量的偏导数向量函数及其导数关于概率的一些基本概念概率(Probability)一个随机事件发生的可能性大小,为0到1之间的实数。随机变量(RandomVariable)比如随机掷一个骰子,得到的点数就可以看成一个随机变量X,其取值为{1,2,3,4,5,6}。概率分布(ProbabilityDistribution)一个随机变量X取每种可能值的概率并满足概率的一些基本概念伯努利分布(BernoulliDistribution)在一次试验中,事件A出现的概率为µ,不出现的概率为1−µ。若用变量X表示事件A出现的次数,则X的取值为0和1,其相应的分布为二项分布(BinomialDistribution)在n次伯努利分布中,若以变量X表示事件A出现的次数,则X的取值为{0,…,n},其相应的分布二项式系数,表示从n个元素中取出k个元素而不考虑其顺序的组合的总数。概率的一些基本概念
概率的一些基本概念条件概率(ConditionalProbability)对于离散随机向量(X,Y),已知X=x的条件下,随机变量Y=y的条件概率为:贝叶斯公式两个条件概率p(y|x)和p(x|y)之间的关系线性回归模型模型:增广权重向量和增广特征向量线性回归(LinearRegression)第1步,我们需要导入所需的包。增广权重向量和增广特征向量1.from
sklearn
import
datasets
#导入sklearn
中的数据集
2.from
sklearn.model_selection
import
train_test_split
#导入数据集划分模块
3.from
sklearn.linear_model
import
LinearRegression
#导入线性回归模型
4.from
sklearn.metrics
import
mean_squared_error
#导入均方差评价指标
线性回归(LinearRegression)第2步,首先加载数据集增广权重向量和增广特征向量1.#加载波士顿房价数据集
2.boston_data=datasets.load_boston()
3.#获取波士顿房价数据集的特征集
4.bonston_x=boston_data.data
5.#获取波士顿房价数据集的目标值
6.bonston_y=boston_data.target
7.#查看数据集键值对
8.print(boston_data.keys())
9.#查看数据集描述
10.print(boston_data.DESCR)
11.#查看数据集特征值形状,可以看出有506个样本,每个样本有13个特征
12.print(bonston_x.shape)
13.#查看数据集目标值形状,有506个目标值。可以发现没有缺失值
14.print(bonston_y.shape)
线性回归(LinearRegression)通过结果可以知道共有506个样本,特征向量维度为13,也就是说房价有13个影响因素。增广权重向量和增广特征向量
线性回归(LinearRegression)第3步,划分训练集和测试集,其中测试集占数据集的20%。1.#对数据集进行划分,其中测试集占数据集的20%
2.features_train,features_test,target_train,target_test
=train_test_split(bonston_x,bonston_y,test_size=0.2)
线性回归(LinearRegression)第4步,实例化模型并进行训练。1.#实例化模型
2.model
=LinearRegression()
3.#进行模型训练
4.model.fit(features_train,target_train)
线性回归(LinearRegression)第5步,对测试集进行预测,并输出预测目标值和真实目标值,从而直观地感受预测目标值与真实值目标的差距。1.#进行预测
2.target_test_predict=model.predict(features_test)
3.#查看预测目标值4.print(target_test_predict)
5.#查看真实目标值
6.print(target_test)
线性回归(LinearRegression)第6步,对模型进行评价,采用的是均方差评价函数:1.#
对模型效果进行评价
2.error=mean_squared_error(target_test,target_test_predict)
3.print('测试数据的误差:',error)
线性回归(LinearRegression)逻辑回归模型
逻辑回归(LogisticRegression)
逻辑回归(LogisticRegression)导入需要使用的包。1.#导入需要使用的包
2.#导入划分训练集、测试集需要使用的包
3.from
sklearn.model_selection
import
train_test_split
4.#导入鸢尾花数据集
5.from
sklearn.datasets
import
load_iris
6.#导入sklearn中的逻辑回归模型
7.from
sklearn.linear_model
import
LogisticRegression
逻辑回归模型的代码实现然后加载鸢尾花数据集,查看数据集键值对,查看数据集描述,查看特征集形状。1.#加载鸢尾花数据集
2.iris_data=load_iris()
3.#查看鸢尾花数据集的键值对
4.print(iris_data.keys())
5.#查看鸢尾花数据集的描述
6.print(iris_data.DESCR)
7.#查看鸢尾花特征集的形状
8.print(iris_data.data.shape)
逻辑回归模型的代码实现接下来划分数据集。1.#将数据集划分为测试集和训练集,使用默认划分比例,测试集占数据集的25%,查看划分后训练集的形状
2.features_train,features_test,target_train,target_test=train_test_split(iris_data.data,iris_data.target)
3.print(features_train.shape)
逻辑回归模型的代码实现实例化模型,训练模型,对测试集进行预测,并输出预测结果和真实结果,简单直观地观察模型性能。1.#实例化模型,默认迭代次数为1000,这里我们设置为2500,迭代次数就是寻找损失函数最小值所迭代的次数
2.logstic_model=LogisticRegression(max_iter=2500)
3.#训练模型
4.logstic_model.fit(features_train,target_train)
5.#对测试集进行预测,打印预测结果,打印真实结果,直观感受模型性能
6.target_pre=logstic_model.predict(features_test)
7.print(target_pre)
8.print(target_test)
逻辑回归模型的代码实现最后对模型进行评价,并输出其结果。1.#对模型进行评价,使用自带的性能评价器评价其准确率
2.score=logstic_model.score(features_test,target_test)
3.print(score)
逻辑回归模型的代码实现经验风险最小化朴素贝叶斯是一种有监督学习的分类算法。
朴素贝叶斯(NaiveBayesianAlgorithm)面
貌举
止声
音穿
着是否有好感好看优雅好听得体有好看粗鲁不好听得体没有不好看优雅好听得体有不好看优雅不好听不得体没有好看优雅好听不得体有不好看粗鲁不好听不得体没有好看粗鲁好听得体有不好看粗鲁好听不得体没有
首先导入需要使用的包1.#导入需要使用的包
2.#导入划分训练集、测试集需要使用的包
3.from
sklearn.model_selection
import
train_test_split
4.#导入鸢尾花数据集
5.from
sklearn.datasets
import
load_iris
6.#导入sklearn中的朴素贝叶斯模型,使用的是高斯分类器
7.from
sklearn.naive_bayes
import
GaussianNB
朴素贝叶斯模型的代码实现然后加载鸢尾花数据集。1.#加载鸢尾花数据集
2.iris_data=load_iris()
朴素贝叶斯模型的代码实现划分数据集为测试集和训练集。1.#将数据集划分为测试集和训练集,使用默认划分比例,测试集占数据集的25%
2.features_train,features_test,target_train,target_test=train_test_split(iris_data.data,iris_data.target)
朴素贝叶斯模型的代码实现接下来实例化一个朴素贝叶斯模型并进行训练。1.#实例化一个朴素贝叶斯模型
2.naive_bayes_model=GaussianNB()
3.#训练模型
4.naive_bayes_model.fit(features_train,target_train)
朴素贝叶斯模型的代码实现对测试集进行预测,并查看预测结果和真实结果。1.#对测试集进行预测,打印预测结果,打印真实结果,直观感受模型效果
2.target_pre=naive_bayes_model.predict(features_test)3.#打印预测结果
4.print(target_pre)5.#打印真实结果6.print(target_test)
朴素贝叶斯模型的代码实现最后评价模型,打印模型分数(准确率)。1.#对模型进行评估
2.score=naive_bayes_model.score(features_test,target_test)
3.#打印模型分数
4.print(score)
朴素贝叶斯模型的代码实现决策树模型决策树算法是指一类算法,它以树形结构呈现逻辑模型。决策树模型导入需要的库1.#导入需要使用的包
2.from
sklearn.datasets
import
load_wine
#导入红酒数据集需要使用的包
3.from
sklearn.model_selection
import
train_test_split
#导入数据集划分工具
4.from
sklearn.tree
import
DecisionTreeClassifier
#导入决策树模型
5.import
numpy
as
np
#导入NumPy
决策树模型的代码实现加载红酒数据集,并查看数据集形状、描述和键值对1.#加载红酒数据集
2.RedWine_data=load_wine()
3.#查看数据集形状
4.print(RedWine_data.data.shape)
5.#查看数据集键值对
6.print(RedWine_data.keys())
7.#查看数据集描述
8.print(RedWine_data.DESCR)
决策树模型的代码实现将数据集划分为训练集和测试集1.#将数据集划分为测试集和训练集
2.features_train,features_test,target_train,target_test=train_test_split(RedWine_data.data,RedWine_data.target
决策树模型的代码实现实例化决策树模型,并进行训练。1.#实例化一个ID3决策树模型
2.DecisionTree_Model=DecisionTreeClassifier(criterion='entropy')
3.#进行模型训练
4.DecisionTree_Model.fit(features_train,target_train)
决策树模型的代码实现评价指标为准确率,输出评价分数。1.#对模型进行评价
2.print(DecisionTree_Model.score(features_test,target_test))
决策树模型的代码实现支持向量机模型支持向量机是有监督学习算法中最有影响力的机器学习算法之一。支持向量机的概念导入需要使用的包。1.from
sklearn
import
svm
#导入支持向量机模型
2.from
sklearn.datasets
import
load_iris
#导入鸢尾花数据集
3.from
sklearn.model_selection
import
train_test_split
#导入数据集划分需要使用的包
4.from
sklearn.metrics
import
confusion_matrix
#导入混淆矩阵评价指标
5.from
sklearn.metrics
import
accuracy_score
#导入准确率评
支持向量机模型的代码实现加载鸢尾花数据集,并查看其形状。1.#加载鸢尾花数据集,其结果是个字典
2.iris=load_iris()
3.#查看数据集的形状,有多少个样本,每个样本有多少个特征
4.print(iris.data.shape)
输出结果如下,总共有150个样本,每个样本有4个特征。(150,4)
支持向量机模型的代码实现划分数据集。1.#划分训练集和测试集,将随机数种子设置为1,便于复现模型,训练集占数据集的70%,剩下的为测试集
2.train_data,test_data=train_test_split(iris.data,random_state=1,train_size=0.7,test_size=0.3)
3.train_label,test_label=train_test_split(iris.target,random_state=1,train_size=0.7,test_size=0.3)
支持向量机模型的代码实现实例化模型并进行训练。1.#实例化模型,C是正则化程度,C的数值越大,惩罚力度越小,默认为1,使用rbf核函数
2.model=svm.SVC(C=2.0,kernel='rbf',gamma=10,decision_function_shape='ovr')3.#训练模型,ravel将维度变为一维
4.model.fit(train_data,train_label.ravel())
支持向量机模型的代码实现进行预测,并评价,采用混淆矩阵和准确率进行评价。1.#模型预测
2.pre_test=model.predict(test_data)
3.#准确率评价
4.score=accuracy_score(test_label,pre_test)
5.print(score)
6.#混淆矩阵评价
7.cm=confusion_matrix(test_label,pre_test)
8.print(cm)
支持向量机模型的代码实现KNN模型机器学习分类算法——K最近邻算法,简称KNN(K-Nearest-Neighbor)算法。它是有监督学习分类算法的一种。在学习KNN算法的过程中,只需要把握两个原则就好了。第1个原则是“少数服从多数”;第2个原则是“资格”,就是是否有资格进行投票。
KNN(K-Nearest-Neighbor)机器学习分类算法——K最近邻算法,简称KNN(K-Nearest-Neighbor)算法。它是有监督学习分类算法的一种。在学习KNN算法的过程中,只需要把握两个原则就好了。第1个原则是“少数服从多数”;第2个原则是“资格”,就是是否有资格进行投票。
KNN(K-Nearest-Neighbor)KNN算法主要包括4个步骤,(1)准备数据,对数据进行预处理。(2)计算测试样本点(也就是待分类点)到其他每个样本点的距离(选定度量距离的方法)。(3)对每个距离进行排序,选出距离最小的K个点。(4)对K个点所属的类进行比较,按照“少数服从多数”的原则(多数表决思想),将测试样本点归入K个点中占比最高的一类中。
KNN(K-Nearest-Neighbor)导入需要使用的包,这里以红酒数据集为例。1.#导入需要使用的包
2.#导入NumPy
3.import
numpy
as
np
4.#导入红酒数据集需要使用的包
5.from
sklearn.datasets
import
load_wine
6.#导入划分数据集需要使用的包
7.from
sklearn.model_selection
import
train_test_split
8.#导入KNN算法需要使用的包
9.from
sklearn.neighbors
import
KNeighborsClassifier
KNN的代码实现加载数据集并查看数据集形状、数据集键值对、数据集描述。1.#加载数据集
2.RedWine_data=load_wine()
3.#查看数据集形状
4.print(RedWine_data.data.shape)
5.#查看数据集键值对
6.print(RedWine_data.keys())
7.#查看数据集描述
8.print(RedWine_data.DESCR)
KNN的代码实现划分数据集为测试集和训练集,使用默认的划分比例,也就是数据集的25%为测试集。1.#将数据集划分为测试集和训练集
2.features_train,features_test,target_train,target_test=train_test_split(RedWine_data.data,RedWine_data.target)
KNN的代码实现实例化KNN模型,并进行训练。这里使用的K值为5,读者可以试试其他不同的K值对模型的影响。1.#实例化一个KNN模型,n_neighbors为超参数,就是K值
2.KNN_Classifier_Model=KNeighborsClassifier(n_neighbors=5)
3.#进行训练
4.KNN_Classifier_Model.fit(features_train,target_train)
KNN的代码实现对测试集进行预测,并打印预测结果和真实结果。1.#对测试集进行预测
2.target_pre=KNN_Classifier_Model.predict(features_test)
3.#打印预测结果
4.print(target_pre)
5.#打印真实结果
6.print(target_test)
KNN的代码实现最后对模型进行评价。1.#对模型进行评价
2.KNN_Classifier_Model_score=KNN_Classifier_Model.score(features_test,target_test)
3.print(KNN_Classifier_Model_score)
输出结果如下。0.7777777777777778
KNN的代码实现随机森林模型随机森林,顾名思义,即使用随机的方式建立一个森林,这个森林由很多的决策树组成,并且每一棵决策树之间是相互独立的。如果训练集有M个样本,则对于每棵决策树而言,以随机且有放回的方式从训练集中抽取N个训练样本(N<M),作为该决策树的训练集。除采用样本随机外,随机森林还采用了特征随机。假设每个样本有K个特征,从所有特征中随机选取k个特征(k≤K),选择最佳分割特征作为节点建立CART决策树,重复该步骤,建立m棵CART决策树。这些树就组成了森林,这便是随机森林名字的由来。
随机森林算法(RandomForestAlgorithm)导入需要使用的库。1.#导入需要使用的库
2.#导入随机森林算法
3.from
sklearn.ensemble
import
RandomForestClassifier
4.#导入鸢尾花数据集需要使用的包
5.from
sklearn.datasets
import
load_iri
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 绿色能源技术研发合作合同
- 医疗器械代理注册合同书
- 正式借款合同
- 城市绿化项目实施与验收合同
- 节电小贴士(教学设计)-2023-2024学年四年级下册综合实践活动沪科黔科版
- 第21课《庄子二则-北冥有鱼》教学设计 2023-2024学年统编版语文八年级下册
- 社区团购仓储租赁协议
- 第5课计算机的资源管理 教学设计
- 律师事务所劳动仲裁合同8篇
- 无产权房屋买卖合同范本5篇
- 工程结构质量特色介绍
- 超全六年级阴影部分的面积(详细答案)
- 提高护士对抢救药品知晓率PDCA案例精编版
- 八字万能速查表(有图)
- 清华大学MBA课程——运筹学
- 架桥机安全教育培训试卷及答案(共3页)
- 湿法冶金浸出净化和沉积PPT课件
- 通信杆路工程施工
- 初中物理光学经典题(共23页)
- 化学反应工程流固相非催化反应PPT课件
- 二次回路和电缆编号原则
评论
0/150
提交评论