![机器学习 教案全套 庞俊彪 第1-11章 机器学习引论-深度神经网络_第1页](http://file4.renrendoc.com/view3/M03/2D/1E/wKhkFmZQfV2AFxrzAABc_FcPZLU904.jpg)
![机器学习 教案全套 庞俊彪 第1-11章 机器学习引论-深度神经网络_第2页](http://file4.renrendoc.com/view3/M03/2D/1E/wKhkFmZQfV2AFxrzAABc_FcPZLU9042.jpg)
![机器学习 教案全套 庞俊彪 第1-11章 机器学习引论-深度神经网络_第3页](http://file4.renrendoc.com/view3/M03/2D/1E/wKhkFmZQfV2AFxrzAABc_FcPZLU9043.jpg)
![机器学习 教案全套 庞俊彪 第1-11章 机器学习引论-深度神经网络_第4页](http://file4.renrendoc.com/view3/M03/2D/1E/wKhkFmZQfV2AFxrzAABc_FcPZLU9044.jpg)
![机器学习 教案全套 庞俊彪 第1-11章 机器学习引论-深度神经网络_第5页](http://file4.renrendoc.com/view3/M03/2D/1E/wKhkFmZQfV2AFxrzAABc_FcPZLU9045.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《机器学习》教案《机器学习》教案适用专业:机器人、人工智能教学年度:教学班级:授课教师课程名称授课地点授课时间第1次章节题目机器学习与模式识别引论教学目的让学生了解什么是人工智能教学重点什么是机器学习什么是模式识别什么是人工智能教学难点机器学习的数学基础从记忆转化为理解概念的由来模式识别的分类教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计一个典型的模式识别过程包括教学内容人工智能(artificialintelligence,AI)定义为:任何感知环境并采取行动以类似人的方式实现其目标的设备,即一种能够像人类一样进行思考、判断、行动等,能够使用类似人类的方式对外界刺激做出反应的智能机器。模式识别:利用统计规律来发现数据中的规律,并利用该规律来进行预测,尤其将数据预测分类到不同的类别中。一个典型的模式识别过程包括:数据抽取过程中的规范化,数据的预处理,数据的规范化,根据问题建立模型,训练模型,利用模型进行预测,系统地部署,根据预测结果对上述过程进行改进。上述过程中,各个阶段需要注重的典型问题及动机。机器学习:对于某类任务T和性能指标P,若一个计算机程序在任务T中以指标P的性能随着经验E而自我改善,则我们称该程序在从经验E中学习。传统机器学习关注模式识别中“根据问题建立模型”,并对模型的理论特点进行分析,包括模型精度的上下解,模型的收敛性,模型的等效性。教学过程由手写字符问题引出人工智能从人工智能的发展引入关于沿着正确方法坚持的思政教育重点介绍数学概念的理解应该从物理概念出发以beyes公式的理解,从计算转换为对证据的累积的过程教学总结授课教师庞俊彪课程名称授课地点授课时间第2次章节题目模式识别数学基础教学目的让学生了解模式识别数学公式教学重点贝叶斯公式函数的凹凸性导数的含义教学难点机器学习的数学基础增强学生的对数学和物理的理解能力教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计不知道概率分布情况下对数据进行最大释然估计,最大后验估计教学内容贝叶斯公式理解证据,先验,消元的含义;理解贝叶斯公式证据的增加会带来新的先验。函数的凹凸性凹凸函数的判断方法;凸函数与Jessian不等式。导数的含义:函数变化速度最快的方向-〉一阶梯度下降优化方法;函数的形状在局部的近似-〉函数在局部区域内的逼近方法。泰勒展开:函数在局部点任意阶的近似-〉函数在局部区域内的逼近方法和不等式证明。基于梯度下降的优化基于梯度下降的优化公式;对于凹函数而言,理解学习率与梯度下降迭代次数的关系;理解梯度下降过程,并能画出梯度下降中,梯度,学习率和优化点的几何关系;一阶梯度下降与函数一阶泰勒展开的关系;理解学习率大小与目标函数优化速度之间的关系;对于用一个向量组成的变量而言,理解学习率对于向量不同分量最有解的影响;会用程序实现基于梯度下降的目标优化算法;贝叶斯决策理与代价矩阵贝叶斯决策是考虑预测错误下引发代价所带来的期望损失最小化;代价矩阵本质上体现问题决策错误的损失函数;贝叶斯决策引入了样本点所在空间位置的概率,而不在简单归约为每个样本的概率一样。后者是带来样本不平衡问题中损失函数设计所考虑的重要问题。基本编程能力会使用OPENCV,PYTORCH,Sci-Py,scikit-learn,NumPy,scikit-image,Matplotlib利用贝叶斯公式作为推理依据,实现MNIST手写字符识别理解模式识别基本过程中的步骤,数据的预处理,数据的规范化,根据问题建立模型,训练模型,利用模型进行预测,系统地部署,根据预测结果对上述过程进行改进;理解先验概率,似然概率的计算过程;理解朴素贝叶斯在MNIST中能成功地条件并能找到实验证据;理解拉普拉斯平滑的动机,原理和计算过程;能通过实验观测,学生意识到直方图建立概率的编程过程和局限性;能尝试利用已学的知识(如图象处理)实现“数据的预处理”的优化而提高性能;教学过程1.讲解数的凹凸性,导数的含义:2.留梯度下降和taylor展开之间的关系作为作业?并留梯度下降的作业?3.对手写数字识别过程的讨论教学总结授课教师庞俊彪课程名称授课地点授课时间第3次章节题目参数化的概率密度估计教学目的让学生了解频率学派、贝叶斯学派的基本观点教学重点频率学派的观点贝叶斯学派的观点和优点最大似然估计教学难点机器学习的数学基础从记忆转化为理解概念的由来增强学生的对数学和物理的理解能力教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计不知道概率分布情况下对数据进行最大释然估计,最大后验估计教学内容频率学派的基本观点概率是一个固定的值;概率会随着样本数量的增加而逐渐逼近一个真实的固定值;频率学派认为事实的规律完全来源于对于似然函数的估计;贝叶斯学派的基本观点概率不是一个固定值,而是一个随机变量;先验分布代表我们对过去知识的理解,而似然函数代表目前收集到数据中获得到的证据,概率分布应该由先验和事实共同决定;最大似然估计最大似然估计的本质是让样本出现的概率最大化,即对数据规律的掌握等价于数据的最大化出现;对数据规律用参数θ进行最大似然估计(记忆)后,我们可以利用贝叶斯公式进行预测;样本的独立同分布假设让最大似然估计的联合概率密度变为连乘的形式:P理解最大似然估计中,我们必须对概率密度的形式进行提前约定中存在的问题,这等价于频率学派认为概率是固定值的问题。高斯分布(正态分布)掌握基本的数学公式;理解高斯分布中均值、方差的含义;通过高斯分布对参数的估计,理解无偏估计是理论上好的估计方法,而有偏估计理论上是坏的方法;理解大数定律关于某个变量说明是最终收敛与正态分布;理解置信度是对估计不确定性的一种建模;理解高斯分布为short-tailed分布;理解好的估计方法不仅是无偏估计,而且估计的方差还小。掌握多维高斯分布(多元正态分布)理解多维高斯分布中协方差矩阵是半正定、对称矩阵的含义(半正定:);由于协方差矩阵的大小与特征向量的平方关系,我们需要对协方差矩阵进行不同程度的约简,包括:保留协方差矩阵的所有元素,只保留对角线上的元素,和只保留对角线上的元素并且对角线上的元素都相同。教学过程由手写字符问题的识别引出概率密度估计的重要性用例子说明频率派的特点从物理概念出发以beyes公式的理解,从计算转换为对证据的累积的过程讲解高斯分布,多元高斯分布的区别,符号中的具体含义,并对手写字符进行识别的利用教学总结授课教师庞俊彪课程名称授课地点授课时间第4次章节题目参数化的概率密度估计教学目的让学生了解频率学派、贝叶斯学派的基本观点教学重点最大后验估计贝叶斯估计教学难点机器学习的数学基础从记忆转化为理解概念的由来增强学生的对数学和物理的理解能力教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计不知道概率分布情况下对数据进行最大释然估计,最大后验估计教学内容最大后验估计最大后验估计是融合先验知识的最大似然估计;最大后验估计也是将参数θ无关的消元项进行省略的最大似然估计;理解高斯分布先验下的参数估计等价于Tikhonovregularization吉洪诺夫正则化(L2正则化)。理解先验选择是靠经验选择的过程,不同的先验代表我们对模型参数的不同理解和约束;贝叶斯估计贝叶斯估计和贝叶斯公式是两回事;贝叶斯估计是对参数θ出现概率的完全估计;贝叶斯估计中,参数θ的最优值是参数θ的期望;贝叶斯估计难以计算,所以引入共轭先验;教学过程1.引出最大后验估计2.从物理概念出发以beyes公式的理解,从计算转换为对证据的累积的过程3.最大释然估计与贝叶斯估计的比较4.给出两者在比较上的差别5.讲解最大后验估计和正则化之间的区别,注意讲解不同正则化的先验不一样,造成的结果也不一样教学总结授课教师庞俊彪课程名称授课地点授课时间第5次章节题目感知机教学目的感知机的由来感知机中替代函数的想法感知机的加速问题教学重点替代函数的观点教学难点机器学习模型设计原理教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计课堂上对高斯生成的两类可分数据进行分类演示教学内容感知机对单个神经元进行模拟进行分类感知机将模式在欧式空间中(向量空间)通过内积的方式进行分类证据的积累;偏置b是与符号函数sign(x)向量空间意味着同一向量中不同的维度应具有可比性,例如,a表示身高(米),而b表示体重(KG)直接组成向量[a,b]T感知机的损失函数感知的损失函数是最小化错分样本的函数间隔和;函数间隔表示样本点在分类函数在特征空间中对样本的可分性;替代函数的思想是模式识别和机器学习的重要策略。感知机的学习算法梯度下降算法对感知机目标函数的具体应用;一次优化迭代中,用所有样本的为梯度下降,用小部分样本的为最小批梯度下降,用一个样本的为随机梯度下降;感知机的实现过程中应建立对损失函数,前后参数范数变化、训练集和验证集上的性能指标随着训练迭代次数的变化曲线。学会观测算法的运行特点,从而发现算法的调试错误和改进。理解按照“观察”(发现问题)-〉“假设”(解决思路)-〉“实验”(实现思路)-〉“评估”(评价思路的合理性)的思路来分析算法模型。教学过程1、感知机对生物的模拟2、感知机的损失函数的设计与替换3、感知机的学习算法,对梯度下降,随机梯度下降,小批量梯度下降的比较4、讲解欧式空间中语义点和单位一致性5、讲解机器学习算法一般流程教学总结授课教师庞俊彪课程名称授课地点授课时间第6次章节题目感知机教学目的感知机的训练问题机器学习算法的一半流程教学重点模型分析的从原始问题的数学描述,梯度分析,对偶角度分析教学难点模型分析的角度教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计课堂上对高斯生成的两类可分数据进行分类演示教学内容数据归一化最小最大线性归一化只能将特征线性变换到0-1的区间,解决特征取值范围的问题;零均值归一化将特征的中心进行对齐,并变换到均值为0、标准差为1的分布上,能解决特征的对齐问题;特征的对齐本质是解决将多个不同类型的特征强扭到同一个向量空间带来的原点不对齐和不可比问题;不同的数据和问题会利用到不同的归一化;归一化会影响模型是否能快速收敛到理想的局部最小点;归一化也会影响模型预测的稳定性。感知机的改进从决策面对于随机变量随机性进行约束引入margin的概念;观测margin的有无会极大提高决策面稳定性。感知机的对偶问题感知机解的对偶问题是从随机梯度下降的迭代公式展开获得;感知机解的对偶形式将梯度下降的向量空间转换为样本之间的内乘积空间;Gram矩阵计算量是样本数量的平方;感知机解的对偶形式是对解的另在解的迭代过程的理解;损失函数,损失函数的梯度和解的最终形式是我们理解模型的三个层次和方法。教学过程1、讲解归一化的本质是语义对齐和量冈对齐2、讲解机器学习算法改进是靠对数据和问题的理解3、讲解对偶问题本质上是算法求解过程的直接表示,并对其意义进行讲解教学总结授课教师庞俊彪课程名称授课地点授课时间第7次章节题目Logistic回归教学目的让学生对Logistic回归的模型形式、目标函数的定义、目标函数的优化求解有深入的理解。教学重点Sigmoid函数的物理意义Sigmoid最大释然估计的等价于交叉熵交叉熵与KL散度关系机器学习算法的一般流程Logistic回归模型Logistic回归模型的参数估计教学难点机器学习模型设计原理模型分析的角度教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计细菌数量增长规律;对sigmoid函数的近似和特征的变换演示教学内容逻辑斯回归的由来如何建立了变量总结与事件发生概率之间的关系;如何利用最大似然估计等手段进行建模。Sigmoid函数的物理意义Sigmoid函数的导数计算过程;Sigmoid函数能将证据转换为概率的过程;Sigmoid最大释然估计的等价于交叉熵;交叉熵与KL散度关系。逻辑斯回归的最大似然估计与感知机相比,逻辑斯回归将符号函数转换为Sigmoid函数;逻辑斯回归将证据转换为事件出现的概率后,对2分类问题用0-1概率密度进行建模,用最大似然估计进行参数的密度估计;逻辑斯回归的损失函数等价于交叉熵;逻辑斯回归解仍然是关注难分的样本点。教学过程由案例引入如何建立对输入变量的“总结”与事件发生概率之间的关系的问题。探讨如何利用最大似然估计等手段进行建模。介绍机器学习算法的一般流程最大斯然估计与概率密度之间的关系Sigmoid含义的讲解Sigmoid与交叉熵的讲解逻辑回归的建模过程,梯度下降的求解过程,逻辑回归的学习方法教学总结授课教师庞俊彪课程名称授课地点授课时间第8次章节题目Logistic回归教学目的将二分类的Logistic回归扩展到多分类问题;探讨多类分类与数据不平衡问题;让学生了解机器学习的基本流程,基本评价方式。教学重点多类分类与数据不平衡问题;数据不均衡处理原则分类器性能评价准则教学难点如何实现多类分类而避免样本数量的不均衡问题;如何设计评价指标;教学方法启发式教具多媒体,程序运行结果,黑板板书案例设计经典评价指标(精度,召回率)教学内容多类分类问题多类分类问题用1对多会带来类别的不平衡问题;归一化指数函数(softmax函数)将证据转换为多类预测的概率密度;Softmax函数特点是将证据响应大的类继续拔高,而将响应低的类进行压抑。数据不均衡分类问题数据不均衡是普遍存在的现实问题,是现实long-tailed现象的描述;处理数据不均衡的手段有过采样和欠采样两种手段。分类性能评价在数据均衡的情况下,准确率就能反映系统的性能,但在数据不均衡的情况下,我们需要引入二分类的混淆矩阵;理解利用二元分类的混淆矩阵正对少量样本类的评估方法,查准率和召回率;理解ROC曲线的计算过程。教学过程由Logistic回归引入多分类问题;讲解多分类问题中的数据不均衡问题;数据不均衡问题的处理准则;讲解分类性能的评价标准及设计准则;教学总结授课教师庞俊彪课程名称授课地点授课时间第9次章节题目线性可分支持向量机教学目的让学生了解什么是线性可分支持向量机教学重点线性可分支持向量机的对偶问题教学难点理解支持向量的定义教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计线性支持向量机对分类的理解是找一些分类“最坏”的向量,然后再让这些“最坏”情况下的向量具有最坏的分类性能教学内容线性可分支持向量机样本点到分类超平面的距离是点到面的垂直距离;理解向量空间中一个向量的方向和长度的定义;线性支持向量机对分类的理解是找一些分类“最坏”的向量,然后再让这些“最坏”情况下的向量具有最坏的分类性能;样本函数间隔之间的序会改变模型的分类性能,但样本的函数间隔整体变化不会;合页损失是0-1损失的上界,是一种margin约束下函数间隔最大化的方法;支持向量机是一种带L2正则化的合页损失。线性可分支持向量机的对偶问题支持向量机的对偶问题是将复杂的不等式约束转化为简单而易于求解的不等式约束;KKT条件是对一般不等式约束的标准求解思路,KKT条件能转换问题,但不能保证转换后的问题一定易于求解;理解支持向量的定义;能从支持向量机的对偶形式中推断出支持向量机只含有稀疏的支持向量;能从支持向量机对偶问题解的形式分析权重w是多个支持向量的线性叠加;能用公开的优化工具包对支持向量机的对偶问题进行优化。教学过程线性支持向量机对分类的理解是找一些分类“最坏”的向量,然后再让这些“最坏”情况下的向量具有最坏的分类性能理解支持向量的定义;能从支持向量机的对偶形式中推断出支持向量机只含有稀疏的支持向量;能用公开的优化工具包对支持向量机的对偶问题进行优化。教学总结授课教师庞俊彪课程名称授课地点授课时间第10次章节题目线性不可分支持向量机教学目的让学生了解线性不可分支持向量机教学重点掌握线性不可分支持向量机的对偶求解过程梅林理论判断那些函数是核函数;教学难点线性不可分支持向量机的对偶求解过程教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计多项式核函数和高斯核函数案例教学内容线性不可分支持向量机理解利用软间隔的方法对不可分支持向量机转换为可分的支持向量机;掌握线性不可分支持向量机的对偶求解过程;线性不可分支持向量机可分为:间隔内支持向量,位于决策面的支持向量,和被误分的支持向量。线性可分支持向量机的非线性化线性模型转换为非线性模型依靠对特征的非线性变换;核技巧是一类特殊的非线性核函数,该函数能将低维的特征变换到高维空间后再进行内积计算所需的计算量;针对某类数据(问题)的非线性分类能力,我们需要不同的非线性变换;梅林理论判断那些函数是核函数;掌握多项式核函数和高斯核函数。教学过程首先讲解线性不可分支持向量机;讲解线性不可分支持向量机的对偶求解过程;讲解线性可分支持向量机的非线性化;讲解核函数,多项式核函数和高斯核函数。教学总结授课教师庞俊彪课程名称授课地点授课时间第11次章节题目支持向量机的最优化求解方法教学目的原始估计次梯度算法是利用随机梯度下降对线性可分支持向量机的应用;教学重点支持向量回归教学难点理解支持向量回归教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计用例子讲解计算过程教学内容支持向量机的最优化求解方法序列最小化优化算法的是利用优化策略中的活动集方法;原始估计次梯度算法是利用随机梯度下降对线性可分支持向量机的应用;序列最小化优化算法能成功地关键是有些关键样本点优化到的函数参数会对最终的模型起作用,如支持向量对目标函数更重要。支持向量回归利用间隔的思路,让回归样本点都尽量拟合在以回归超为中心的间隔内;教学过程1.讲解支持向量机与随机梯度下降的关系2.讲解支持向量回归的原理教学总结授课教师庞俊彪课程名称授课地点授课时间第12次章节题目决策树教学目的掌握信息论的基本概念和知识教学重点信息论基础讲解教学难点信息熵本质的理解教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计用例子讲解计算过程教学内容决策树的决策过程是一种贪心的判断过程决策树一旦判断出错,错误将会传递到下一个阶段;决策树每次用一个属性,让分类过程可解释性;此外,优先使用的特征可以认为对于分类的有效性更高;决策树分类过程就是对样本进行不断划分“纯”化的过程;决策树是选择某个属性,产生一个合理的阈值对样本进行分类。这种过程无法避免感知机的问题,在当前的阈值空间中无法难以获得最优的阈值;信息熵和信息论基础信息熵表示随机变量的混乱程度;联合熵,条件熵的含义;联合熵,条件熵表达式是信息熵的直接推导和套用;理解信息熵公式数学形式的定义过程;信息增益和决策树的分裂信息增益是信息熵在注入分类属性后信息熵的减少程度;会对离散的样本进行信息熵的计算;理解信息熵用于决策树分裂的原因(例如,不用平均错误率的原因);教学过程决策树的从上到下的分类过程决策树体现可解释的决策过程信息熵和信息论的理解和解释,并解释用熵进行分裂的原因教学总结授课教师庞俊彪课程名称授课地点授课时间第13次章节题目决策树教学目的掌握不同的归一化适应不同的场景教学重点对于缺失,连续数据的处理技巧和思路教学难点ID3到,C4.5到CART的转变教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计用例子讲解计算过程教学内容ID3算法贪心利用信息增益对属性进行利用对决策树进行划分;C4.5算法考虑到属性的分布,我们用信息熵对信息增益进行归一化;属性缺失问题,我们采用了打折因子,将缺失属性的样本送入到子节点进行进一步分类;连续属性离散化,我们对属性值进行排序后,用排序后的中值对该属性空间进行离散化;排序-中值离散化会带来大量而相近的离散值,而这些离散值点会构成该属性划分时候的阈值。这种处理方式对属性阈值处理时带来大量的计算。CART算法基尼系数的计算过程;基尼系数是信息熵的一阶taylor近似;CART采用二叉树能获得更高的信息增益比;给定一系列样本,掌握基尼系数的计算过程;CART中将分类和回归统一的原因是:不论分类还是回归本质上都是对样本点进行递归的划分,当样本点的“纯度”(分类而言)或“均方误差一致性”(回归而言,也可用别的误差)后,我们可以对落入该样本子区域的点进行分类或回归。教学过程1.ID3的与C4.5在改进过程中受到的推动力2.Cart损失函数与taylor展开的关系教学总结授课教师庞俊彪课程名称授课地点授课时间第14次章节题目决策树教学目的模型加速能力是重要的手段也是推向模型进化的主要原因教学重点剪枝的可能性和本质教学难点理解剪枝的可能性和本质教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计用例子讲解计算过程教学内容决策树预剪枝决策树的参数包括:树的深度,叶节点内的最小样本数、和信息增益阈值;预剪枝观点是等到决策树完全生长完成再剪枝不如预先完成;预剪枝能减少计算量;决策树悲观剪枝悲观剪枝的条件是我们没有验证集的情况下,我们可利用置信区间的概念进行剪枝;剪枝前后,决策树的期望错误率不超过预定义的一个阈值;期望错误率的建模过程用二项式分布,即用二项式分布来描述落入一个节点内样本点数量;二项式分布难以计算可以用高斯分布进行近似;能用悲观剪枝进行决策树剪枝代码实现;决策树代价复杂度剪枝复杂度剪枝是既能描述分类准确性又能描述决策树复杂度的指标;准确性的描述用分类错误率而决策树复杂度用叶结点数量;利用最优子决策树序列的嵌套性贪心的计算复杂度剪枝的指标;教学过程1.讲解剪枝与过拟合的关系2.讲解剪枝的两种范式教学总结授课教师庞俊彪课程名称授课地点授课时间第15次章节题目集成学习教学目的集成学习的分类,学习器的优劣和泛化误差教学重点集成学习的动机,什么是泛化误差教学难点如何将多个弱学习器层次的累叠在一起,掌握偏差-方差分解过程中的假设和推导过程;教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计深度神经网络和集成学习的实验分析教学内容集成学习的分类集成学习的动机是将能力弱的学习器进行组合后获得能力更强的强分学习器;将多个弱学习器加法叠加在一起->bagging和boosting;成法集成学习-〉无法将弱能力的学习器组合后变强;将多个弱学习器层次的累叠在一起-〉深度神经网络;集成学习对弱学习器必须有一定的限制条件,包括,易于训练和并行化,弱学习器之间应该有某种互补性,必须在一定原则下进行集成。学习器的优劣和泛化误差泛化误差是指利用不同的训练集合(可能是独立同分布)对模型进行多次训练后,对同一测试集合误差的期望;掌握偏差-方差分解过程中的假设和推导过程;弱学习器用偏差和方差进行刻画;教学过程分析集成的动机提出集成学习的学习器叠加讲解神经网络讲解弱学习器分析泛化误差的影响理解偏差-方差分解过程教学总结授课教师庞俊彪课程名称授课地点授课时间第16次章节题目集成学习教学目的掌握偏差和方差是看待模型的重要手段教学重点模型选择与交叉验证教学难点掌握模型选择的依据教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计Boosting讲解和randomforst的实验分析教学内容模型选择与交叉验证训练集、验证集都属于训练集,而测试集和训练集构成全部数据;这三个集合之间互相没有交集;因为对数据集的一次固定(随机)划分,验证集或测试集里面仍然存在偏好(例如,某些特殊的数据出现在测试集里面,而训练集少甚至没有);K折交叉验证是加强版本的交叉验证,是一种让样本都有一次机会成为验证集,是样本某个指标平均意义下对模型的选择;理解高偏差,高方差,低偏差,低方差及其组合在:1)随着样本数增加;2)随着模型复杂度变化,这两个因素下的性能(误差)的表现;我们通常认为模型参数变化后,具体的模型也会变化。狭义的理解,模型选择是对具体模型参数的选择。广义的理解,模型选择是对任意模型的选择。教学过程分析集成的可能性提出集成学习的几种范式Bagging的偏差和方差的推导和假设讲解交叉验证的方法教学总结授课教师庞俊彪课程名称授课地点授课时间第17次章节题目集成学习教学目的偏差和方差是看待模型的重要手段平均集成,可加性集成和叠加性集成的关系教学重点泛化性的分析和理解拟合,过拟合,欠拟合之间的关系模型选择与交叉教学难点Bagging的偏差和方差的推导过程教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计Boosting讲解和randomforst的实验分析教学内容BaggingBagging就是对具有低偏差但高方差学习器进行集成;低偏差是指每个学习器分类能力强,容易会存在过拟合现象,高方差是指每个学习器预测当训练集变化时候,学习器的预测变化也很大。决策树是典型的低偏差但高方差的学习器;Bagging的方差和偏差的推导过程所用的数学技巧;Bagging为了让强分类器的方差减少,让弱学习器权重变小,相关性也变小;Bagging为了让强学习器的偏差减少,我们需要所有弱学习的偏差都小,并且希望偏差差异越小越好。Bagging的包外数据及其比例的推导过程;证明有放回的采样方法获得的样本子集与全样本集合属于同一分布。理解SVM作为弱学习器无法获得有效的bagging结果,而决策树的bagging能获得有效的bagging结果。教学过程分析集成的可能性提出集成学习的几种范式Bagging的偏差和方差的推导和假设随机森林是bagging下的一个特殊例子教学总结授课教师庞俊彪课程名称授课地点授课时间第18次章节题目集成学习教学目的什么是随机森林随机森林的动机和特性教学重点如何进行随机的特征抽取和样本抽取袋外数据产生过程教学难点随机森林决策树之间的相关性教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计随机化过程和袋外数据产生过程教学内容随机森林在特征层面和样本层面进行随机的特征抽取和样本抽取;随机化能降低随机森林中决策树的相关性;从袋外数据产生过程理解随机森林中决策树之间仍然有相关性。教学过程理解随机森林是bagging下的一个特殊例子理解随机森林决策树如何产生相关性和如何降低教学总结授课教师庞俊彪课程名称授课地点授课时间第19次章节题目无监督学习教学目的无监督学习的目的K-mean等聚类算法的假设教学重点K均值聚类算法非凹非凸函数的计算过程怎么保证解的稳定性模型选择的常用方法和思考维度教学难点期望最大化算法K均值聚类算法的目标函数K均值聚类算法是基于聚类是等方差的高斯分布模型选择方法教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计非凹非凸如何被优化到局部最小教学内容无监督学习的动机1、从大量无标记的样本里面挖掘出可能性的数据内含的规律;2、数据生成应该受到潜在因素的控制,这些潜在因素中最重要的因素之一是聚集性;3、聚集性是规律重现的直观认识。K均值聚类算法1、K均值聚类算法是依靠计算样本点的距离判断样本之间的聚集性;2、K均值聚类算法的目标函数是非凹非凸,只有固定一个变量优化另一个变量的情况下目标函数才能被优化到局部最小;3、K均值聚类算法的优化是基于梯度下降算法进行优化;4、K均值聚类算法是基于聚类是等方差的高斯分布;5、K均值聚类算法目标函数的只能得到局部最优,基于初始化能影响解这一假设,K均值++是基于聚类中心相互远离这样观测设计的顺序初始化方法;6、BIC和AIC是模型选择中常用的两种方法,AIC是拟合精度和模型参数量来选择模型,而BIC是考虑样本数量和拟合精度之间的均衡。7、拟合精度,数据量,模型参数是模型选择的思考维度。教学过程1、理解无监督学习的动机的由来2、理解K均值聚类算法的依据3、理解K均值聚类算法目标函数的优化4.了解模型选择的思考维度教学总结授课教师庞俊彪课程名称授课地点授课时间第20次章节题目无监督学习教学目的从概率的角度理解模型高斯混合模型的期望最大化算法教学重点基于混合高斯模型的聚类期望最大化算法非凹非凸函数的计算过程教学难点期望最大化算法的本质目标函数数学求解教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计高斯混合模型在不同参数下的性能教学内容基于混合高斯模型的聚类1.对K均值聚类的等方差高斯分布转化为任意的多元高斯分布;2.高斯混合模型是有限参数的概率模型,与之对应的是非参数的Parzen窗;3.高斯混合模型优化中的混合系数是隐含变量,期望是对隐含变量的积4.形成隐含变量分布下的目标函数的期望;最大化是对目标函数的期望的优化,获得变量的解;5.期望最大化算法本质是对复杂分布在KL散度度量下的逐步逼近;6.数学上,如果我们能判断函数的凹凸性,我们还可以利用Jessian不等式对目标函数转换为目标函数的上下界进行求解。教学过程1.理解K均值聚类的等方差的高斯分布转化2.理解高斯混合模型优化的参数期望等细节3.理解理解期望最大化算法的本质教学总结授课教师庞俊彪课程名称授课地点授课时间第21次章节题目无监督学习教学目的理解期望最大化算法的动机和应用和难点DBSCAN对噪声的处理本质教学重点高斯混合模型的期望最大化算法噪声下基于密度的空间聚类算法教学难点期望最大化算法KL散度的由来教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计高斯混合模型在不同参数下的性能教学内容期望最大化算法1、KL散度的由来?2、期望最大化算法主要解决具有隐变量的模型;3、期望最大化算法的难度在于期望的求解。噪声下基于密度的空间聚类算法1、DBSCAN是利用Parzen窗的思想,让每个样本作为概率密度估计的计算点,通过定义连通性将两个样本点进行合并,再确定阈值区分不同的聚类;2、DBSCAN对噪声的处理本质上是一个概率上基于人工定义的分类问题;教学过程理解期望最大化算法的动机目标理解DBSCAN的基本思想理解DBSCAN处理噪声的本质教学总结授课教师庞俊彪课程名称授课地点授课时间第22次章节题目降维分析教学目的让学生了解降维分析的动机,掌握主成分分析方法,理解主成分分析中对数据进行归一化的作用。教学重点主成分分析方法教学难点主成分分析如何保留高维数据的“本质”信息;主成分分析的算法流程;教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计用主成分分析将高维矩阵变为低维教学内容降维的动机高维向量维度间可能存在相关性,因此可以用一个变量来代替向量中的多个变量;降维是多个变量整合为一个变量,而特征选择是找符合特性(如,判别力);降维的变量的可解释性是根据数据建模的特性所赋予。主成分分析理解主成分分析中投影矩阵是正交基是约束解空间性质的手段,让低维特征互相不相关,获得紧致的特征;主成分分析解的特性是让投影空间中的解尽量不相关;主成分分析剪掉均值预先处理的动机本质来源于投影空间中的解尽量不相关的多解性;主成分分析解体现了压缩-扩张矛盾的过程保证解的稳定性;主成分分析解的求解过程利用投影向量的正交性等价于特征值和特征向量的求解过程;教学过程理解高维度数据如何用低维空间表示理解降维分析的动机讲解主成分分析目标函数即其简化形式讲解主成分分析目标函数的优化主成分分析中对数据进行归一化的作用教学总结授课教师庞俊彪课程名称授课地点授课时间第23次章节题目降维分析教学目的让学生掌握语义表示模型。教学重点词的表示方法;隐语义模型;概率隐语义模型教学难点如何处理自然语言中一义多词或一词多义的问题;对隐语义模型、概率隐语义模型的理解教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计利用隐语义模型和概率隐语义模型对矩阵进行降维教学内容语义表示模型一词一义假设是利用词频向量对文档进行特征抽取;逆词频向量是考虑“平凡词”对语义的“抹平”效果,逆词频向量可以看作归一化;特征归一化是重要避免特征语义漂移的策略,在信息增益比,SIFT等都利用该思想;一词多义是通过共生性来观测一词多义;共生性可以用文档-单词矩阵来表示。因此,文档可以由单词来表示,单词也可以用文档来表示,对文档和单词维度的压缩表示就是隐语义模型;隐语义模型可以看作为lowrank表示;矩阵奇异值分解的特征值与弗罗贝尼乌斯范数的值存在平方和关系;概率隐语义模型是典型的生成式模型;概率隐语义模型中的主题是隐变量,因此对概率隐语义模型的求解用期望最大化算法;教学过程讲解生活中的词汇如何用向量进行表示一词多义与一义多词的处理方式讲解隐语义模型讲解概率隐语义模型教学总结授课教师庞俊彪课程名称授课地点授课时间第24次章节题目降维分析教学目的让学生掌握非负矩阵分解。教学重点非负矩阵分解的原理和动机;非负矩阵分解的实现教学难点非负矩阵分解的实现;非负矩阵分解算法的收敛速度教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计用KL散度作为目标函数对非负矩阵进行分解教学内容非负矩阵分解非负矩阵分解是让分解的向量不仅是lowrank还是非负。非负性会导致分解出的矩阵具有一定可解释性;矩阵分解为两个lowrank=k子矩阵的乘积意味着原矩阵所蕴含的聚类或成组的规律等于k;非负矩阵分解的乘法更新法则等价于调整学习率强制分解后的矩阵为正;非负矩阵分解的梯度投影更新法则利用投影算子强制将解投影到非负约束上;梯度投影是带约束问题近似化的快速求解算法;Lowrank约束意味着用极少的等式求解比等式数多的变量。教学过程讲解非负矩阵分解中的不同的更新法则讲解非负矩阵分解的梯度投影比较梯度投影算法和非负矩阵分解算法的运行时间和重构误差教学总结授课教师庞俊彪课程名称授课地点授课时间第25次章节题目神经网络基础教学目的掌握神经网络的基本组成理解多层神经网络的基本组成和本质教学重点神经元的特征神经元如何组成神经网络激活函数如何作用教学难点多层前馈神经网络的结构和本质教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计不同激活函数的图像和异同分析教学内容神经元基本模型单神经元模型可抽象为感知机、逻辑斯回归等模型;单神经元模型是欧式空间中线性证据的累积和非线性变换的叠加;典型的非线性变换包括sigmoid函数,Tanh函数,ReLU函数;多层前馈神经网络单神经元的堆叠组成多层前馈神经网络;从特征的非线性变换角度看,多层前馈神经网络的底层神经元对特征进行激活函数为基础的非线性变换,而次层的神经元对非线性变换进行变换的组合和二次非线性变换。这种变换和组合迭代的进行多次复合运算最终获得非线性能力;对隐藏层网络结构(神经元的数量,神经元之间的连接方式)的设计体现了神经网络对不同任务的理解。例如,降维分析要求神经网络呈现出漏斗形状(隐藏层的神经元数量会比输入和输出少),分类问题需要神经元呈现纺锤形(隐藏层神经元的数量比输入更多而获得更多)等;前馈神经网络本质就是复合函数的多次嵌套过程。教学过程理解单个神经元的结构神经元之间如何实现信息传递3、从神经元到多层前馈神经网络的构造原理教学总结授课教师庞俊彪课程名称授课地点授课时间第26次章节题目神经网络基础教学目的理解神经网络的反向传播算法并会编程实现理解梯度下降法在反向传播中的作用教学重点神经网络的反向传播的原理神经网络中梯度的作用教学难点学习率大小和随机梯度下降的高方差性是反向传播算法仍然在非凹非凸函数上有效的关键原因教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计简单反向传播神经网络的实现教学内容反向传播算法对于第i层网络参数梯度的求解与第i+1层网络的加权误差呈现出:i+1层的权重乘i+1层的梯度模式。最低层神经网络层的梯度与前面所有层的梯度呈现出乘积关系,这意味着数值上的向上或向下溢出问题,该数值问题用log似然中遇到过;梯度消失和梯度爆炸是3.知识点中如果梯度的数值不等于1,会造成梯度的数值不稳定而梯度学习无法进行;梯度消失和梯度爆炸的根源是前馈神经网络的嵌套复合过程带来的深度复合函数;梯度消失和梯度爆炸要求激活函数的梯度能控制在1附近的有效激活区间,具体区间大小应该由神经网络层数的决定;学习率大小和随机梯度下降(SGD)天然具有的高方差性是反向传播算法仍然在非凹非凸函数上有效的关键原因;大型神经网络仍然利用基于梯度下降的算法,梯度下降算法属于误差修正学习(error-correctionlearning),目前还有Hebbianlearning,competitivelearning两种策略,但是后两者策略在深度神经网络上目前还没有成功的进展。教学过程通过对多层前馈神经网络的变换引出反向传播神经网络2.实现基于梯度反向传播的神经网络的训练3.通过梯度消失和梯度爆炸现象的来解释梯度的影响教学总结授课教师庞俊彪课程名称授课地点授课时间第27次章节题目神经网络基础教学目的神经网络中的初始化和不同激活函数教学重点权重参数的初始化不同激活函数的选择教学难点不同初始化和激活函数的选择教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计不同初始化之间的作用效果和异同分析教学内容权重参数的初始化根据:神经网络每一层的输入值都应落入激活函数的最大梯度范围内来分别对不同的激活函数进行分别讨论获得结论;Sigmoid激活函数的初始化为0均值方差与前一层网络的输入维度的导数;不同的激活函数应该用不同的初始化方法,典型的初始化方法如,Xavier,He初始化。教学过程1.理解初始化的意义和种类2.了解不同激活函数的特点和异同3.能根据不同的激活函数应该用不同的初始化方法教学总结授课教师庞俊彪课程名称授课地点授课时间第28次章节题目神经网络基础教学目的掌握批归一化的动机本质教学重点批归一化的本质作用教学难点深度神经网络训练过程中采用批归一化的原因教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计未使用和使用批归一化的对比分析教学内容批归一化多层神经网络中,前一层是学习得到的特征需要经过归一化才能保证数据对齐;此外,归一化能保证激活函数的梯度在最优的激活区间;批归一化作用于输入特征的每一维度,也仍然遵循第2章归一化的基本准则,但是将归一化为了应对SGD梯度下降中数据不全的问题,利用参数化进行数据适应的动态调整;批归一化本质解决了特征在语义尺度上的原点(conceptdrift)和语义强度单位的归一;理解深度神经网络训练过程中采用批归一化的原因;批归一化不能过大也不能过小,过大1)无法获得梯度的高方差,2)容易将有价值的样本淹没;过小都会:1)迭代收敛速度慢;2)?教学过程1.引出批归一化的必要性2.理解批归一化如何作用3.理解批归一化的本质教学总结授课教师庞俊彪课程名称授课地点授课时间第29次章节题目神经网络基础教学目的掌握神经网络的优化理解Sqrt函数应用于自适应调整过程教学重点基于梯度的神经网络优化教学难点凹凸函数的复杂组合会影响神经网络算法设计的学习率和梯度更新方法如何理解鞍点教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计不同凹凸函数的优化分析教学内容基于梯度的神经网络优化神经网络是凹凸函数的复杂组合,神经网络局部最优解的损失函数“地形地貌”会影响神经网络算法设计的学习率和梯度更新方法;理解“鞍点”是一种部分维度的局部最小值;理解“峡谷”类型的最小值、“扁平”类型的最小值典型的损失函数“地形地貌”;动量法假设鞍点可以利用梯度的“惯性”去避免陷入“部分”局部最小值,也可以将局部最小值理解为“噪声”,动量法数学上是EMA的应用对这些噪声进行平滑后进入局部更优解,需要指出动量法不能逃脱所有的局部最小点;自适应学习率是对各个维度学习率不一致情况的求解;理解Sqrt函数巧妙应用于自适应调整过程;教学过程1.直观展示凹凸函数的“地形地貌”2.展示鞍点,理解“峡谷”类型的最小值3.理解动量法的数学应用4.掌握各个维度学习率不一致情况的求解教学总结授课教师庞俊彪课程名称授课地点授课时间第30次章节题目深度神经网络基础教学目的掌握卷积神经网络的基本组成理解卷积神经网络算法并会编程实现教学重点卷积神经网络的工作原理教学难点卷积神经网络的优化过程教学方法启发式,案例教具多媒体,程序运行结果,黑板板书案例设计CNN卷积函数的设计分析教学内容卷积神经网络人脑处理信号呈现出阶段性,由简单到复杂的过程,而神经元之间也存在由简单细胞复合成复杂细胞的过程;卷积运算就是利用线性变换对输入进行互相关性的进特征抽取;卷积核是待优化的参数;卷积核在数学上等价于权重共享、局部连接的神经网络;池化层作用模拟了复杂细胞的功能;教学过程1.卷积神经网络的构造原理2.卷积神经网络的训练过程3.卷积神经网络优化过程中参数归一化原则和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 班级文化墙与校园文化的融合策略
- 遗失补办申请书
- 外研版高中英语选择性必修第四册UNIT4 Period3课件
- Module 2 Unit 4 I live in a big house综合练习 教科版(含答案)
- Module2练习(单元测试)英语四年级下册-外研版(一起)(含答案)
- Module6练习(单元测试)-英语三年级下册-外研版(一起)(含答案)
- 写给学校申请书格式
- 电影在科技产业传播中的应用与效果分析
- 未来十年网络信息安全技术的发展趋势预测
- 2025年山东东营市广利河生态旅游开发有限公司招聘笔试参考题库附带答案详解
- 2025劳动合同法重点法条导读附案例详解
- 2025年全国科技活动周科普知识竞赛试题库及答案
- 2024年全国中学生生物学联赛试题及答案详解
- 工厂生产区清洁流程及安全规范
- 化学丨百师联盟2025届高三1月一轮复习联考(五)化学试卷及答案
- 2024年全国职业院校技能大赛中职(酒店服务赛项)备赛试题库(500题)
- 工程建设项目培训
- 2025年1月浙江省高考英语试卷真题(含答案)
- 青海省西宁市市级名校2025届中考生物全真模拟试题含解析
- 铁路路基工程施工组织设计方案
- 小学班会-交通安全伴我行(共25张课件)
评论
0/150
提交评论