




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
思考与练习题答案第1章什么是人工智能?试从学科和能力两方面加以考虑。答:人工智能是研究用计算机对人类的智能进行模拟和扩展的一门技术科学,其目的是让机器能用与人类相似的智能对信息进行处理和加工。在人工智能的发展过程中,有哪些思想起了重要作用?答:(1)模拟人的逻辑思维能力,(2)模拟人的大脑结构,(3)模拟人的行为能力。人工智能研究包括哪些内容?这些内容的重要性如何?答:(1)人工神经网络,简单模拟生物神经网络,构造人工智能模型的基础;(2)知识图谱,用图模型表示知识、实现知识推理的技术,是构建逻辑思维的基础结构;(3)图神经网络,图和神经网络相结合的产物,融合形象思维和逻辑思维的桥梁;(4)机器学习方法,确定模型参数的方法,实现模型优化的核心技术。第2章什么是神经网络?请写出神经网络的基本结构。答:人工神经网络是由大量人工神经元按一定规则连接构建成的网络结构,是一种模仿生物神经网络行为特征具有分布式并行信息处理能力的数学模型。人工神经网络有三种基本结构:(1)前馈型网络:单向多层网络结构,其中每一层包含若干个人工神经元,同一层的人工神经元之间没有互相连接,层间信息的传送只沿一个方向进行。(2)反馈型网络:网络中的人工神经元不仅可以接受其它人工神经元的信号,同时也将自身的输出信号作为输入信号。(3)自组织神经网络:通过自动寻找输入信息中的内在规律和本质属性,自组织、自适应地改变网络参数与结构的人工神经网络。自组织网络中的节点与其邻域内其他节点广泛相连,并互相激励,具备自主学习能力。计算ReLU函数的导数,说明ReLU函数的死亡问题。答:ReLU函数在x取值为负的情况下,函数输出值为0,在其它情况下为线性函数,因此,其导数仅在X为正时存在等于1。但由于ReLU函数使得所有小于0的输入信号都等于0,这使得更新参数之后,会出现参数无法继续更新的情况,即存在ReLU函数死亡问题。编写计算机程序,分别使用梯度下降法,随机梯度下降法比较试验结果。答:可以自己选择任意可微函数,使用任何计算机语言,例如Mtalab,Python,编程实现两种梯度下降法,对比实验结果。为什么使用反向传播算法进行参数更新时,不直接初始化为0?答:由于反向传播算法是基于梯度下降的递推优化算法,梯度与参数直接相关,如果将参数初始化为零,那么将导致梯度为零,进而使参数无法更新,因此参数不能直接初始化为0。试述反向传播的基本学习算法。答:反向传播算法包含两个过程,输入信息沿着神经网络从前向后正向传播,计算损失函数;然后利用损失函数计算广义误差并从神经网络从后向前反向传播,进而利用广义误差进行神经网络参数更新。编写计算机程序,用动量法实现两层神经网络对MNIST手写数据集的识别。答:可以使用任何计算机语言,例如Mtalab,Python,编程实现。注意这里的两层神经网络指的是含有一个隐层的前向神经网络。第3章什么是卷积操作?说明步长、填充分别指的是什么。答:利用卷积核对输入图像做卷积运算,以检测输入图片的局部特征。步长即卷积核在原始图片上做卷积时每次滑动的像素点。填充指对输入特征图进行边界填充,保证卷积运算后得到需要大小的特征图。什么是池化操作?说明池化操作的种类和作用有哪些。答:池化操作用于改变的是图像的尺寸,最大值池化提取池化区域的最有效特征,平均池化提取池化区域的平均特征。步长指池化操作的特征图上的滑动距离。填充用于上采样(反向池化)在相应区域填零。试述LeNet-5、Alex-Net、VGG-Net的网络结构。答:参照书中给出的网络结构图进行描述。试述Inception、ResNet、SE-Net相对于VGG-Net的异同点。答:参照书中给出的网络结构图进行描述。试用编程实现Inception、ResNet、SE-ResNet等网络模型,并对比分析实验结果。答:可以使用任何计算机语言,例如Mtalab,Python,在相应的环境下编程实现。第4章什么是循环神经网络?为什么要使用循环神经网络?简要说明其原理。答:循环神经网络(RecurrentNeuralNetwork,RNN)是一类处理序列数据的人工神经网络。相较于卷积神经网络关注的是数据中的局部特征,循环神经网络关注的是序列数据中按照序列顺序的前后依赖关系。它将先前数据的计算结果与之后的数据一同计算产生新的结果,如此循环往复。正是因为循环网络对于不同时间步的数据不是同时计算的,因而可以处理可变长度的序列数据,大大扩大了应用范围。2.对于一个单层且时间步为3的循环神经网络,请写出进行第一次前向传播的过程。答:单层RNN的网络方程如下,对于t时刻:h(t)其中φ为激活函数,一般来说会选择tanh函数,b为偏置;x(t)输出层输出为:y(t)其中φ为激活函数,通常RNN用于分类任务,故这里一般用Softmax函数。第一次前向传播过程如下:由于初始时刻,h(故第一次前向传播隐层输出为:h输出层输出为:y3.请思考对于诗歌等文本生成任务可以采用哪种网络结构,并简述训练流程。答:由于诗歌等文本生成问题均需对输入的作诗的要求进行理解,而这些要求是有前后顺序的序列数据,因此必须采用有处理序列数据能力的RNN或Transformer为基础的网络结构。这类网络结构的训练同样采用有教师的误差方向传播算法进行,其训练流程包括正向传播输入数据,反向传播广义误差,进而实现网络权值的更新三个过程。4.简述循环神经网络前向传播和反向传播的过程。答:由于循环神经网络可以按时间展开成前向神经网络,因此它也可以使用误差反向传播算法进行训练,也包含前向传播和反向传播两个过程,需要注意的是RNN中的权仅包含输入权、反馈权和输出权三种,且在层之间是不变的。前向传播的过程是从输入层开始,通过网络的每一层,直到输出层(这里的层是按时间展开的RNN的层)。在前向传播过程中,输入数据通过网络的每一层进行计算,最终得到输出结果。这个过程是计算网络对输入数据的预测结果。反向传播的过程是在前向传播的基础上进行的。在反向传播过程中,首先计算损失函数对输出结果的梯度,然后将这个梯度通过网络的每一层反向传播回输入层。这个过程是计算网络参数的更新量,以使得网络的预测结果更加接近于真实结果。在前向传播和反向传播的过程中,需要注意权重的更新和梯度的计算。权重的更新是根据梯度的方向和大小进行的,而梯度的计算是根据损失函数对输出结果的偏导数进行的。因此,在进行反向传播时,需要计算损失函数对输出结果的偏导数,然后通过链式法则计算每一层神经元的梯度,最后根据梯度更新每一层的权重。通过前向传播和反向传播的反复迭代,网络的权重会不断更新,使得网络的预测结果更加接近于真实结果。最终,当网络的损失函数达到一个较小的值或者不再明显下降时,可以认为网络已经训练好了。5.简述什么是“梯度消失”和“梯度爆炸”,如何处理循环神经网络中出现的“梯度消失”和“梯度爆炸”问题?答:在神经网络的训练过程中广义误差趋于零的现象称“梯度消失”,趋于无穷则称为“梯度爆炸”。在循环神经网络中可以采用ReLU函数作为神经元的的激活函数解决“梯度消失”问题,但ReLU函数的导数在其输入大于零时恒为1这又会导致“梯度爆炸”现象出现,这可以设置广义误差的最大值或采用逐层正则化(按时间步展开的虚拟层)来解决。简述LSTM网络的结构原理。答:LSTM是RNN的改进,通过增加隐层细胞状态变量和门控机制提高网络隐层的存储容量,精妙的门控制将隐层的状态信息(可以看做长期记忆)和当前时刻的输入信息(可以看作短期记忆)结合起来,有效地提高了网络解决复杂问题的能力。LSTM网络结构中,遗忘门控制隐层状态的遗忘程度,输入门控制网络输入对隐层状态影响,输出门控制隐层状态对隐层输出的影响。细胞状态和三个门使网络增加了6个权值矩阵,大大扩展了RNN的存储能力。简述LSTM网络与GRU网络的区别。答:LSTM网络的隐层有细胞状态变量和隐层输出,需要6个方程描述其工作过程。GRU将LSTM的细胞状态与隐层输出合并,仅需4个方程描述其工作过程。由于GRU没有细胞状态,其记忆能力比LSTM有所下降(权矩阵少了2个)。第5章什么是注意力机制?简要说明其原理和工作过程。答:注意力机制(AttentionMechanism)是人类所特有的大脑信号处理机制。例如,人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,获取更多所需要关注目标的细节信息,抑制其他无用信息,人类的听觉也具有同样的功能。深度神经网络中采用的注意力机制从本质上讲和人类的选择性视觉、听觉注意力机制类似,其核心目的也是从众多信息中选择出对当前任务更关键的信息,降低对其它信息的关注度,提高任务处理的效率和准确性。深度神经网络中使用的注意力机制有两类:硬注意力(HardAttention)软注意力(SoftAttention)。硬注意力机制的原理和工作过程是通过技术手段(例如,检测和分割)选择输入中特定位置上的信息(例如,人的身体,人脸等),屏蔽掉其它信息,进利用选定的信息完成特定的任务。通常硬注意力的操作是不可微的,很难在深度神经网络中通过训练来得到,因此实际应用并不多。软注意力机制不同于硬注意力它不是从N个信息中只选择某几个,而是计算N个信息的加权平均。其原理和工作过程是首先对输入信息做非线性变换作为相似度或计算询问信息(来自于输出或输入)与输入的相似度,然后将相似度做归一化处理作为加权值,最后对输入信息做加权处理作为注意力输出。软注意力是可微的,可以通过神经网络算出梯度并且利用前向传播和反向传播来学习得到注意力的权重。软注意力是确定性的注意力,训练完成后直接可以通过网络生成。软注意力还可以细分为通道注意力、空间注意力、时间注意力;自注意力和互注意力等。请说明为什么在卷积神经网络中要应用通道注意力和空间注意力。答:在卷积神经网络中,特征图代表了原始图像数据的特征,在同一层中,不同的特征图代表了不同的属性。显然,不同属性对于卷积神经网络要完成的工作贡献程度不同,应该给予不同的重视程度。因此要在卷积神经网络中应用通道注意力以反映对通道重视程度。卷积神经网络处理图像数据中的每个像素对于所要完成的任务重要性不完全相同,同样,隐层中特征图中每个像素对所完成任务的重要性也不相同。因此给特征图的每一个像素加权有利于提高卷积神经网络的性能,而这种加权是由空间注意力完成的,因此在卷积网络中也要应用空间注意力。自注意力的查询量来自何处?能够解决什么问题?答:来自输入自身,能够建立输入序列的长程关系,解决输入序列的信息相关性难以建立的问题。在深度神经网络中应用自注意力机制能够有效提高深度神经网络的性能。说明自注意力模块不易独立使用的原因。答:自注意力机制仅是通过寻找输入量或输入序列内部相关性给输入加权的一种方法,不能实现神经网络的非线性变换功能,因此不能将自注意力机制作为深度神经网络使用。自注意力机制与RNN有什么区别?答:(1)自注意力是前向线性单层网络,不能表示非线性映射关系,但能够建立任何长度输入长程关系,将它与某种前向神经网络结合,对于处理长程依赖关系的问题会有更好效果;RNN是反馈网络,由于激活函数的特性,训练时会出现梯度消失和梯度爆炸问题,难以建立输入数据的长程关系,所以RNN在处理涉及长程依赖关系的问题时效果不佳。(2)自注意力机制可以并行实现,且可以采用二阶矩阵相乘提高处理速度;RNN只能按数据的输入顺序串行计算,无法并行实现,计算效率相对低下;双向RNN由于存在正反两个方向的串行计算,效率更低。(3)实现自注意力模型和RNN时,自注意力模型和双向RNN比普通RNN需要更大内存空间,存储中间结果,且输入数据的长度越长,需求越大。互注意力的查询量来自何处?常用在什么类型的深度神经网络中?解决什么类型的问题?答:来自输出信息,常用在具有编码译码能力的深度神经网络中,解决具有内容理解、语言翻译等问题。请举例说明各种注意力机制的使用方法。答:在使用卷积神经网络的图像恢复、去噪,图像分类、目标检测等应用中通道注意力、空间注意力和自注意力解决通道重要性、空间信息重要性和输入信息间的关联性问题。在解决自然语言处理问题的RNN中常使用互注意力解决输出与重要输入的关联,在Transformer中使用自注意力建立输入序列的长程关联,使用互注意力建立输出与输入的关联。第6章说明Transformer的来源,简要说明其原理和工作过程。答:Transformer来源于VaswaniA等人在2017年发表的文章《Attentionisallyouneed》,由具有残差连接的注意力机制和具有残差连接的全连接前向网络搭建而成。原始的Transformer是一个Encoder-Decoder的结构,由6个编码模块和6个译码模块组成。编码器最后一个模块的输出作为译码器每一个模块的输入。作为编码译码结构的Transformer其原理就是输出复现输入。工作过程包含三个步骤:(1)获取输入序列中的每个输入的表示向量;将得到输入向量矩阵送入编码器中;(3)将编码器输出的编码信息矩阵传递到译码器中,译码器依次会根据当前输出的前面所有输出来产生下一个输出。请说明多头注意力有什么作用。答:多头注意力将多个注意力集成到一起,学习输入特征空间的多个子集,使Transformer的特征提取能力进一步提升。给出Transformer编码器的结构,说明各部分的功能。答:编码器结构如右图所示:它是由Multi-HeadSelf-Attention,Add&Norm,FeedForward,Add&Norm组成的。Multi-HeadSelf-Attention:学习输入特征空间的多个子集,多角度提取输入特征;Add&Norm:残差连接提升训练效果,层正则化加快网络训练收敛速度;FeedForward:实现非线性特征提取。给出Transformer译码器的结构,说明各部分的功能。答:译码器结构如右图所示:包含两个Multi-HeadAttention层。第一个Multi-HeadAttention层采用了Masked操作,是掩膜输入的多头自注意力。第二个Multi-HeadAttention层的K,V矩阵使用Encoder的编码信息矩阵C进行计算,而Q使用上一个Decoderblock的输出计算,是多头互注意力。Decoderblock的最后有一个Softmax层计算下一个输出(翻译的单词)的概率。Add&Norm:残差连接提升训练效果,层正则化加快网络训练收敛速度。FeedForward:实现非线性特
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 社工服务项目合同
- 工程承包和项目咨询合同
- 工业厂房买卖合同协议书
- 民间借贷担保人合同
- 0 的认识与加减法(教学设计)2024-2025学年一年级上册数学人教版
- 《12 昼与夜》作业设计方案-2024-2025学年二年级上册科学教学设计 粤教粤科版
- 绥化学院《外科学总论》2023-2024学年第二学期期末试卷
- 大连海洋大学《工程力学及机械设计基础》2023-2024学年第二学期期末试卷
- 铜陵学院《国际贸易综合实训》2023-2024学年第二学期期末试卷
- 宁夏工业职业学院《计算机网络基础》2023-2024学年第二学期期末试卷
- 2025年二级建造师聘用合同范文(三篇)
- 湖北省2025届高三T8联盟模拟考数学试卷(解析版)
- 2025年北京电子科技职业学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 2025年包头轻工职业技术学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 工业统计知识培训
- 2025年苏州高铁新城国有资产控股(集团)有限公司招聘笔试参考题库附带答案详解
- 郑州市2025年高中毕业年级第一次质量预测(一模) 化学试卷(含标准答案)
- 2025年临床医师定期考核必考复习题库及答案(1080题)
- 电梯维保知识培训课件
- 山东省海洋知识竞赛(初中组)考试题及答案
- 幼儿园艺术领域活动设计
评论
0/150
提交评论