版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能数学基础
主讲教师:课时安排与考核方式★课程类别
专业支撑课程★课时安排
54学时★考核方式平时成绩(60%)+考试成绩(40%)课程目录第一部分:微积分基础
一、函数与极限1.1函数1.2函数的极限二、导数2.1导数定义2.2常用求导法则2.3复合函数求导2.4高阶导数课程目录第一部分:微积分基础
三、多元函数求导3.1多元函数概念3.2偏导数3.3方向导数3.4梯度四、梯度下降4.1泰勒展开4.2梯度下降4.3随机梯度下降课程目录第二部分:概率论与数理统计
五、随机事件与概率5.1随机事件及其运算5.2概率定义与条件概率5.3全概率公式与贝叶斯公式六、随机变量及其分布6.1随机变量定义及分布函数6.2常用离散型随机变量6.3常用连续型随机变量6.4随机变量函数的分布课程目录第二部分:概率论与数理统计
七、随机变量数字特征7.1期望和方差7.2协方差7.3相关系数八、数理统计与参数估计8.1总体和样本8.2均值、中位数、众数8.3极大似然估计课程目录第三部分:线性代数基础知识
九、标量、向量、矩阵、张量9.1基本概念9.2向量9.3矩阵十、向量空间10.1向量空间与子空间10.2线性相关与线性无关10.3向量与向量组的线性表示10.4矩阵的秩课程目录第三部分:线性代数基础知识
十一、特征分解与奇异值分解11.1特征值与特征向量11.2行列式11.3特征分解11.4奇异值分解十二、两个简单的机器学习算法12.1最小二乘法12.2主成分分析法一、函数与极限一、函数与极限1.1函数1.2函数的极限1.1函数定义:如果当变量x在其变化范围内任意取定一个数值时,变量y按照一定的法则f总有确定的数值与它对应,则称y是x的函数。变量x的变化范围叫做这个函数的定义域。通常x叫做自变量,y叫做函数值(或因变量),变量y的变化范围叫做这个函数的值域。为了表明y是x的函数,我们用记号y=f(x)来表示1.1函数例子:y=x2,也可以写为f(x)=x2,其定义域为(-∞,+∞),值域为[0,+∞)1.1函数复合函数定义:若y是u的函数:,而u又是x的函数:,且的函数值的全部或部分在的定义域内,那末,y通过u的联系也是x的函数,我们称后一个函数是由函数及复合而成的函数,简称复合函数,记作,其中u叫做中间变量。1.1函数并不是任意两个函数就能复合;复合函数还可以由更多函数构成。例题:函数与函数是不能复合成一个函数的。因为对于的定义域(-∞,+∞)中的任何x值所对应的u值(都大于或等于2),使都没有定义。1.2函数的极限设函数在点x0的某领域内有定义(点x0可除外),对任意给定的正数ϵ,总存在一个正数δ,使当0<|x−x0|<δ时,不等式|f(x)−A|<ϵ恒成立,称A为函数y=f(x)当x→x0时的极限,记作1.2函数的极限运算法则:若已知x→x0(或x→∞)时1.2函数的极限例题:求:1.2函数的极限例题:求:1.2函数的极限两个重要极限1.2函数的极限二、导数二、导数2.1导数定义2.2常用求导法则2.3复合函数求导2.4高阶导数2.1导数定义2.2常用求导法则
2.2常用求导法则
两个可导函数的和(差)的导数等于这两个函数的导数的和(差).用公式可写为:。其中u、v为可导函数。已知,求2.2常用求导法则
在求一个常数与一个可导函数的乘积的导数时,常数因子可以提到求导记号外面去。用公式可写成:两个可导函数乘积的导数等于第一个因子的导数乘第二个因子,加上第一个因子乘第二个因子的导数。用公式可写成:两个可导函数之商的导数等于分子的导数与分母导数乘积减去分母导数与分子导数的乘积,在除以分母导数的平方。用公式可写成:2.3复合函数求导
规则:两个可导函数复合而成的复合函数的导数等于函数对中间变量的导数乘上中间变量对自变量的导数。用公式表示为:其中u为中间变量2.3复合函数求导
求的导数2.3复合函数求导Sigmod函数导数2.4高阶导数2.4高阶导数2.4高阶导数三、多元函数求导三、多元函数求导3.1多元函数概念3.2偏导数3.3方向导数3.4梯度3.1多元函数概念3.2偏导数定义3.2偏导数3.2偏导数所以3.3方向导数3.3方向导数当沿着趋于时,是否存在?3.3方向导数记为3.3方向导数3.3方向导数解3.3方向导数解由方向导数的计算公式知3.3方向导数故3.3方向导数三元函数的方向导数:3.3方向导数同理:当函数在此点可微时,函数在该点沿任意方向l的方向导数都存在,且有
3.3方向导数
3.4梯度结论:沿梯度方向函数f(x,y)增加最快,沿梯度相反方向(负梯度方向)减小最快课堂练习题课堂练习题答案四、梯度下降4.1泰勒展开4.2梯度下降4.3随机梯度下降四、梯度下降大多数机器学习算法是先建立模型,然后通过优化算法对损失函数进行优化,一个模型只有损失函数收敛到了一定的值,才有可能会有好的结果,降低损失方式的工作就是优化方法需要做的事。一些常用的优化方法:梯度下降法家族、牛顿法、拟牛顿法、共轭梯度法、Momentum、NesterovMomentum、Adagrad、RMSprop、Adam等4.1泰勒展开泰勒公式是将一个在x=x0处具有n阶导数的函数f(x)利用关于(x-x0)的n次多项式来逼近函数的方法。若函数f(x)在包含x0的某个闭区间[a,b]上具有n阶导数,且在开区间(a,b)上具有(n+1)阶导数,则对闭区间[a,b]上任意一点x,成立下式:f(n)(x)表示f(x)的n阶导数,等号后的多项式称为函数f(x)在x0处的泰勒展开式,剩余的Rn(x)是泰勒公式的余项,是(x-x0)n的高阶无穷小。4.1泰勒展开4.2梯度下降例子其中x1和x2为机器学习中样本参数4.2梯度下降4.2梯度下降4.3随机梯度下降梯度下降缺陷:当样本量比较大时,梯度下降算法计算量会比较大。随机梯度下降:每次随机使用一组样本进行计算,这样虽然会揍很多弯路,但整体会趋向于最优,这样可以节省很多时间。五、随机事件与概率
五、随机事件与概率5.1随机事件及其运算5.2概率定义与条件概率5.3全概率公式与贝叶斯公式5.1随机事件及其运算概率论是一门研究随机现象及其统计规律性的学科。所谓随机现象是指在个别试验中呈现不确定的结果,而在大量重复试验中结果具有某种规律性的现象。这种规律性称为统计规律性.以下现象就是随机现象:抛一枚均匀硬币100次,出现正面向上的次数恰为55次.5.1随机事件及其运算为了研究随机现象的统计规律性,就要对客观事物进行观察,观察的过程叫做试验。概率论中具有下述三个特点的试验称为随机试验。(1)试验可以在相同条件下重复地进行;(2)试验的所有可能结果在试验前已经明确,并且不止一个;(3)试验前不能确定试验后会出现哪一个结果。一个随机试验的每一个可能出现的结果称为一个样本点,记为ω,全体样本点组成的集合称为样本空间,记为Ω
5.1随机事件及其运算在随机试验中,对于一次试验可能发生也可能不发生,而在大量重复试验中具有某种规律性的事情称为随机事件,简称事件。用大写字母A、B、C等来表示随机事件。随机事件实际上为样本空间Ω的一个子集。每次试验中一定发生的事件称为必然事件,记为;每次试验中一定不发生的事件称为不可能事件,记为。5.1随机事件及其运算例1抛一枚均匀硬币三次,观察正面向上的次数,则样本空间Ω={正正正、正正反、正反正、正反反、反正正、反正反、反反正、反反反}记A={出现一次正面}={正反反、反正反、反反正}5.1随机事件及其运算例2掷一粒骰子,观察其出现的点数,记D={出现的点数小于7}E={出现的点数大于7}D是必然事件E是不可能事件5.1随机事件及其运算随机事件之间的关系5.1随机事件及其运算随机事件之间的关系5.1随机事件及其运算随机事件之间的运算5.1随机事件及其运算随机事件之间的运算5.1随机事件及其运算5.2概率定义与条件概率概率定义5.2概率定义与条件概率概率性质5.2概率定义与条件概率概率性质5.2概率定义与条件概率5.2概率定义与条件概率5.2概率定义与条件概率条件概率5.2概率定义与条件概率条件概率5.2概率定义与条件概率5.2概率定义与条件概率5.2概率定义与条件概率独立事件5.2概率定义与条件概率独立事件5.3全概率公式与贝叶斯公式完备事件组5.3全概率公式与贝叶斯公式全概率公式5.3全概率公式与贝叶斯公式一个例子5.3全概率公式与贝叶斯公式贝叶斯公式5.3全概率公式与贝叶斯公式解答5.3全概率公式与贝叶斯公式例子5.3全概率公式与贝叶斯公式例子5.3全概率公式与贝叶斯公式5.3全概率公式与贝叶斯公式现在给我们的问题是,如果一个男的追求一个女的,男的四个特点分别是不帅,性格不好,身高矮,不上进,现在判断一下女生是答应还是不答应?这是一个典型的分类问题,转为数学问题就是比较p(答应|(不帅、性格不好、身高矮、不上进))与p(不答应|(不帅、性格不好、身高矮、不上进))的概率,谁的概率大,我就能给出答应或不答应的答案!六、随机变量及其分布六、随机变量及其分布6.1随机变量定义及分布函数6.2常用离散型随机变量6.3常用连续型随机变量6.4随机变量函数的分布6.1随机变量定义及分布函数通俗解释:在随机试验的样本空间中的任一样本点都有唯一实数与其对应,这个实数就叫随机变量,通常用大写字母X,Y,Z表示6.1随机变量定义及分布函数6.1随机变量定义及分布函数6.1随机变量定义及分布函数6.2常用离散型随机变量伯努利分布:随机事件的结果有两个,例如投硬币(正面和反面)、考试(通过和挂科)。其分布函数为(p为成功时的概率):6.2常用离散型随机变量二项分布:假设某个试验是伯努利试验,其成功概率用p表示,那么失败的概率为q=1-p。进行n次这样的试验,成功了x次,则失败次数为n-x,发生这种情况的概率可用下面公式来计算:6.2常用离散型随机变量6.2常用离散型随机变量6.2常用离散型随机变量泊松分布:泊松分布描述的是一定时间段或空间区域或其它单位内某个事件发生的次数。这个事件满足两点要求:①我们知道它在单位时间或单位空间内发生的平均次数(期望值);②事件在任何时间或空间节点的发生是等可能的。6.2常用离散型随机变量6.3常用连续型随机变量6.3常用连续型随机变量七、随机变量数字特征
七、随机变量数字特征7.1期望和方差7.2协方差7.3相关系数7.1期望和方差7.1期望和方差7.1期望和方差7.1期望和方差7.1期望和方差7.1期望和方差7.2协方差前面我们介绍了随机变量的数学期望和方差,对于二维随机变量(X,Y),我们除了讨论X与Y的数学期望和方差以外,还要讨论描述X和Y之间关系的数字特征,这就是本讲要讨论的7.2协方差7.2协方差定义7.2协方差性质(1)Cov(X,X)=D(X)(4)Cov(X,C)=0,C为常数;
协方差的大小在一定程度上反映了X和Y相互间的关系,但它还受X与Y本身度量单位的影响.例如:Cov(kX,kY)=k2Cov(X,Y)为了克服这一缺点,对协方差进行标准化,这就引入了相关系数.7.2相关系数定义性质与意义八、数理统计与参数估计八、数理统计与参数估计8.1总体和样本8.2均值、中位数、众数8.3极大似然估计8.1总体和样本数理统计的基本内容:如何收集、整理所研究随机变量的数据如何对这些数据进行分析如何对所研究的随机变量做出种种推断8.1总体和样本在数理统计中,我们把研究对象的全体称为总体,组成总体的每个成员称为个体。特指:研究对象的某项数量指标的全体称为总体,组成总体的每个成员的该项数量指标称为个体。8.1总体和样本在数理统计中总体分布往往是未知的,有时虽然知道总体分布的类型,但分布中的参数却未知。所以我们希望从客观存在的总体中选取一些个体(即抽样),通过对这些个体作观察或测试来推断关于总体分布中的某些量如总体的均值或方差等。这些抽取的个体便称为是取自总体的一个样本,这些个体的观测值则称为样本观测值。8.2均值、中位数、众数机器学习算法开发人员的一组薪资数据:8K,10K,15K,20K,25K,30K,32K他们的薪资平均水平怎么样?我可以使用均值来度量。均值:度量样本的平均水平8.2均值、中位数、众数机器学习算法开发人员的一组薪资数据:8K,10K,15K,20K,25K,30K,32K如果来了一个特殊的人,例如马云,月收入10000K。这时平均值是1268K。中位数:一组数按升序排列,排序位于中间的数就叫中位数,如果中间数为偶数,则为中间俩数的平均值。8.2均值、中位数、众数如果来了一批特殊的人,例如李彦宏、马云、雷军、王健林、小扎、盖茨都来了,月收入分别是9000K、10000K、10000K、10000K、11000K、12000K、12000K。这时均值和中位数都有较大的偏差了。众数:选择频次最大的(或者划定区间选择频次最大的区间均值)峰值。8.3极大似然估计似然(likelihood),其实就是可能性的意思。体重为5kg的猫是橘猫的可能性是多少?在这里我们称为体重为5kg是橘猫的似然是多少?极大似然估计是一种统计学的方法,我们用已知的样本数据分布去推测具体的分布情况。8.3极大似然估计当我们使用机器学习解决具体现实问题时,我们是无法确切知道具体的数据分布情况的。例如我们现在想知道橘猫的体重分布,显然,我们是无法一只只去测的。这种情况在机器学习中非常普遍,那我们可不可以用部分已知数据去预测整体的分布呢?极大似然估计就是一个解决这类问题的方法。但是,这并不是绝对准确的,只能说实际情况最有可能接近这种猜测的分布。8.3极大似然估计8.3极大似然估计8.3极大似然估计8.3极大似然估计8.3极大似然估计九、标量、向量、矩阵、张量
九、标量、向量、矩阵、张量9.1基本概念9.2向量9.3矩阵9.1基本概念标量一个标量就是一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。我们用斜体表示标量。标量通常被赋予小写的变量名称。当我们介绍标量时,会明确它们是哪种类型的数9.1基本概念向量一个向量就是一列数,这些数是有序排列的。用过次序中的索引,我们可以确定每个单独的数。通常会赋予向量粗体的小写名称。当我们需要明确表示向量中的元素时,我们会将元素排列成一个方括号包围的纵柱:9.1基本概念矩阵矩阵是二维数组,其中的每一个元素被两个索引而非一个所确定。我们通常会赋予矩阵粗体的大写变量名称,比如A。如果一个实数矩阵高度为m,宽度为n,那么我们说:9.1基本概念张量某些情况下,我们会讨论坐标超过两维的数组。一般地,一个数组中的元素分布在若干维坐标的规则网格中,我们将其称之为张量。使用粗体A来表示张量“A”。张量A中坐标为(i,j,k)的元素记作Ai,j,k。9.2向量向量的概念9.2向量向量的概念9.2向量向量的运算9.2向量向量的运算9.3矩阵由m×n个数称为m行n列矩阵.简称
矩阵.通常记作A,定义也简记为或或排成的m行n列的数表叫作矩阵A的第i行第j列元素,或简称为A的(i,j)元素.当m=n时,矩阵A称为n阶方阵.只有一行的矩阵称为行矩阵.只有一列的矩阵称为列矩阵.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年汽车灯项目立项申请报告模式
- 小学学生检讨书范文锦集9篇
- 2024年太阳能热发电系统项目立项申请报告范稿
- 三年级数学(上)计算题专项练习附答案集锦
- 二年级数学计算题专项练习
- 四年级数学(四则混合运算带括号)计算题专项练习与答案
- 数控机床的实习报告4篇
- 无损检测施工方案
- 安全工作总结合集15篇
- 特色课程解剖课程设计
- 跟单员工作总结汇报
- 医美项目水光培训课件
- 网络运维与安全管理培训内容
- 国开电大可编程控制器应用课程实验参考答案
- 广东省深圳市宝安区和平中英文实验学校2023-2024学年九年级上学期期末物理测试卷
- 2023年人教版九年级数学全册期末试题试题(含答案)
- 水站运维服务投标方案
- 廉政知识竞赛大题库及答案(共500道)
- 德勤-2023年印度尼西亚投资之窗 (IWI) 中文版
- 电力建设工程现行主要质量标准、规范清单
- 2023年高校辅导员基础知识复习题(附答案)
评论
0/150
提交评论