AIGC基础与应用第1章-认识AIGC_第1页
AIGC基础与应用第1章-认识AIGC_第2页
AIGC基础与应用第1章-认识AIGC_第3页
AIGC基础与应用第1章-认识AIGC_第4页
AIGC基础与应用第1章-认识AIGC_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章认识AIGCAIGC基础与应用AIGC工业和信息化精品系列教材——人工智能技术科技改变未来认识人工智能0201030405认识大模型AIGC概述AIGC的应用场景常见的AIGC大模型工具1.1.1AI的定义人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能研究如何使计算机模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等),是一个以计算机科学为基础,由计算机、心理学、哲学等多学科交叉融合的交叉学科、新兴学科。1.1.2AI的起源人工智能的概念在20世纪50年代被正式提出。1950年,一位名叫马尔温·明斯基(MarvinMinsky)的学生与他的同学合作建造了世界上第一台神经网络计算机,这被视为人工智能发展的一个重要起点。被誉为“计算机之父”的艾伦·图灵(AlanTuring)提出了一个举世瞩目的想法——图灵测试。按照图灵的设想:如果一台机器能够与人类开展对话而且不能被辨别出机器身份,那么这台机器就具有智能。1966年,麻省理工学院(MassachusettsInstituteofTechnology,MIT)的教授约瑟夫·魏岑鲍姆(JosephWeizenbaum)开发了一个可以和人对话的程序,并取名为Eliza011.1.2AI的起源图灵测试的方法很简单,就是让测试者与被测试者(一个人与一台机器)隔开,测试者通过一些装置(如键盘)向被测试者随意提问,被测试者自由回答。进行多次测试后,如果有超过30%的测试者不能确定被测试者是人还是机器,那么这台机器就通过了测试图灵测试1.1.2AI的起源从20世纪60年代到80年代,人工智能经历了快速发展的阶段。在这个时期,人们开始探索研究机器学习、神经网络等技术,人工智能的应用范围也因此不断扩大AI的发展AI的低谷AI的崛起20世纪90年代初期,人工智能经历了一段低谷期。当时,由于计算机的运算能力较弱,加之数据集方面的限制,人工智能的应用受到了很大的制约21世纪初,随着大数据和云计算等技术的出现,人工智能再次进入了快速发展的阶段。人们开始研究深度学习、自然语言处理、计算机视觉等技术,人工智能的应用范围进一步扩大0203041.1.3AI的分类弱人工智能是指利用现有智能化技术来改善经济社会发展所需要的技术条件和发展功能,可以理解为只能执行单一任务的人工智能。强人工智能也称通用人工智能,在思考、解决问题、抽象思维、理解复杂理念、快速学习等方面都能与人类相媲美。超人工智能超人工智能(ArtificialSuperIntelligence,ASI)是在几乎所有领域都大大超过人类认知表现的任何智力的人工智能。1.1.4AI的三大核心要素1.1.4AI的三大核心要素数据是一切智慧体的学习资源,没有了数据,任何智慧体都很难学习到知识。数据算力是指计算机或其他计算设备在一定时间内可以处理的数据量或完成的计算任务的数量。算力通常被用来描述计算机或其他计算设备的性能,它是衡量一台计算设备处理能力的重要指标。算力算法是一组解决问题的规则,是计算机科学中的基础概念。算法1.1.5我国的AI发展现状我国高度重视发展人工智能,在《新一代人工智能发展规划》中提出,到2030年人工智能理论、技术与应用总体达到世界领先水平,成为世界主要人工智能创新中心。2017年8月3日,腾讯正式发布了人工智能医学影像产品——腾讯觅影。同时,还宣布成立人工智能医学影像联合实验室。2017年7月5日,百度首次发布人工智能开放平台的整体战略、技术和解决方案。这也是百度AI技术首次整体亮相。2022年,全国一体化大数据中心体系总体完成布局设计,“东数西算”工程正式全面启动,人工智能基础设施加快建设。认识人工智能0201030405认识大模型AIGC概述AIGC的应用场景常见的AIGC大模型工具011.2.1大模型基础上下文理解能力强语言生成能力强学习能力强010203大模型是大规模语言模型(Large-scaleLanguageModel,LLM)的简称。语言模型是一种人工智能模型,它被训练成可以理解和生成人类语言。大模型本质上就是大的深度神经网络,它通过学习大量的文本数据,理解和生成人类语言,大模型的特点是层数深、参数量大、训练数据量大。大模型主要用于处理和生成类似于人类产出的文本。这些模型可以理解语言结构、语法、上下文和语义联系,因为它们已经在大量的文本数据上进行了训练。大模型常常是在大量文本语料库,如书籍、文章、网页上进行预训练的。预训练是指将大量低成本收集的训练数据放在一起,经过某种方法去学习数据中的共性,然后将其中的共性“移植”到特定任务的模型中。1.2.1大模型基础以BERT为例讲解大模型的预训练过程掩码语言模型掩码(Mask)语言模型是一种基于神经网络的语言模型,它可以在预训练阶段使用海量的未标注语料库进行训练,然后在有监督的任务中进行微调,如文本分类、序列标注等Token与大模型Token是指文本中一个有意义的单位,可以是单词、数字或者标点符号。在自然语言处理领域中,机器学习模型通常以Token作为其输入单位,Token可以被理解为文本中的最小单位下一个句子预测下一个句子预测(NextSentencePrediction,NSP)是一个常见的自然语言处理任务,这个任务是指给定两个句子A和B,让模型判断B是否是A的下一个句子。这个任务可以让模型学习到语言中的句子关系和连贯性Token的概念在自然语言处理中非常重要,因为它能够帮助机器理解自然语言。在传统的计算机编程中,我们通常会对输入的数据进行格式化处理,以便让计算机能够更好地处理它们BERT是一种基于Transformer架构的大模型,它在2018年由谷歌提出1.2.2深度学习深度学习受到仿生学的启发,通过模仿神经元、神经网络的结构以及传输和接收信号的方式,达到学习人类思维方式的目的前馈神经网络是一种简单的深度学习模型,各神经元分层排列,每个神经元只与前一层的神经元相连,接收前一层的输出,并输出给下一层目前,深度学习技术在学术界和工业界取得了大量的成果,并受到高度重视,掀起了新一轮的人工智能热潮神经网络的学习也被称为训练,指的是通过神经网络所在环境的刺激作用调整神经网络的自由参数,使神经网络以一种新的方式对外部环境做出反应的一个过程1.2.2深度学习1.2.2深度学习深度学习中的常见模型卷积神经网络是目前深度学习技术领域中非常具有代表性的神经网络之一,在图像分析和处理领域取得了众多突破性的进展循环神经网络在语音识别、自然语言处理等领域有着重要的应用生成对抗网络主要解决的问题是如何从训练样本中学习新样本,其中判别模型用于判断输入样本是真实数据还是训练生成的假数据注意力机制(AttentionMechanism)是一种深度学习中常用的技术,它允许模型在处理输入数据时集中“注意力”于相关的部分。这种机制通过模仿人类视觉和认知系统的关注方式,帮助神经网络选择性地关注并自动学习输入的重要信息,以提高模型的性能和泛化能力1.2.2深度学习深度学习中的常见模型卷积神经网络循环神经网络生成对抗网络1.2.2深度学习深度学习的应用图像识别是深度学习应用最早的领域之一,其本质是图像分类问题基于深度学习的机器翻译模型翻译出来的结果更加接近于人类的表达逻辑,翻译正确率得到了大大的提高借助深度学习的力量,机器人可以在真实、复杂的环境中代替人类执行一些特殊任务,如人员跟踪、排爆等,这在过去是完全不可能的事自动驾驶技术的开发过程应用了大量的深度学习技术,如马路线与路标的检测、周边行驶车辆的三维信息的获取等1.2.3自然语言处理自然语言处理是指利用计算机对人类特有的语言信息(包括形、音、义等)进行处理自然语言可以被定义为一组规则或符号的集合,通过输出组合集合中的符号就可以传递各种信息自然语言处理技术通过建立计算机的算法框架来实现某个语言模型,并对模型进行完善、评估,最终用于设计各种实用的自然语言应用系统1.2.3自然语言处理词法分析是理解单词的基础,其目的是从句子中切分出单词,找出词汇的各个词素,再从中获得单词的语言学信息和词义词法分析完成句法分析不等于已经理解了该语句,还需要对语句的语义进行分析。语义分析的任务是把句法分析得到的句法成分与应用领域中的目标表示相关联,从而确定语言所表达的真正含义语义分析句法分析是自然语言处理的核心,是对语言进行深层次理解的基础。在自然语言处理领域中,机器翻译是其中一个重要的研究方向,也是自然语言处理应用的主要领域之一句法分析1.2.3自然语言处理自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。近些年,自然语言处理研究已经取得了巨大的进步,并逐渐发展成为一门独立的学科。第一阶段:基于规则的语言系统。第二阶段:机器学习和神经网络。第三阶段:基于注意力机制构建的Transformer模型开启了大语言模型的时代。1.2.4大语言模型发展现状目前,大语言模型的生态已初具规模。大语言模型通常在大规模无标记数据上进行训练,以学习某种特征和规则。1.2.4大语言模型发展现状ChatGPT的背后就是大语言模型生成领域的新训练范式:RLHF(ReinforcementLearningfromHumanFeedback),即基于人类反馈的强化学习来优化语言模型。RLHF是一个涉及多个模型和不同训练阶段的复杂概念,有以下3个训练步骤。(1)预训练一个语言模型(LanguageModel,LM);(2)聚合问答数据并训练一个奖励模型(RewardModel,RM);(3)用强化学习(ReinforcementLearning,RL)方式微调LM。认识人工智能0201030405认识大模型AIGC概述AIGC的应用场景常见的AIGC大模型工具011.3.1认识AIGC随着自然语言生成技术和AI模型的不断发展,AIGC逐渐受到大家的关注,目前已经可以自动生成图片、文字、音频、视频、3D模型和代码等。AIGC可以根据用户输入的关键词或要求自动地生成内容,无须人工编辑AIGC可以利用深度学习和强化学习等技术,不断地学习和优化内容生成策略AIGC可以自动生成各种类型的内容,例如文章、视频、图片、音乐、代码等,这样可以满足不同用户的不同需求AIGC可以利用机器学习和深度学习等技术,不断地更新和改进内容生成的模型和算法从商业层面看,AIGC本质上是一种AI赋能技术,由于其具有高质量、低门槛、高自由度的生成能力,被广泛应用于各类内容的相关场景,服务于生产者1.3.2AIGC的发展历程20世纪50年代—90年代中期,受限于科技水平,AIGC的实验仅限于小范围实验。20世纪90年代中期—21世纪10年代中期,AIGC从实验向实用转变,但受限于算法,无法直接进行内容生成。21世纪10年代中期至今,深度学习算法不断迭代,AIGC生成内容种类丰富且效果越来越好。2017年微软人工智能少年“小冰”推出世界上首部由人工智能写作的诗集《阳光失了玻璃窗》,2018年NVIDIA(英伟达)发布的StyleGAN模型可自动生成图片,2019年DeepMind发布的DVD-GAN模型可生成连续视频。2021年OpenAI推出DALL-E模型并更新迭代版本DALL-E-2模型,该模型主要用于文本、图像的交互生成。早期萌芽阶段沉淀积累阶段快速发展阶段1.3.3AIGC的算法体系变分自编码器模型传统的自编码器模型主要由两部分构成:编码器(encoder)和解码器(decoder)编码器-解码器结构作为语言模型的经典结构,模拟的是人脑理解与表达自然语言的过程,其中编码器将语言转换成大脑所能理解和记忆的内容,而解码器则将人脑中所想的内容表达出来Transformer模型Transformer模型由编码器和解码器两个部分组成Transformer模型编码层由6个结构相同的编码器串联而成,解码层由6个结构相同的解码器串联而成。在以Transformer模型为代表的语言模型中,编码器的功能就是把自然语言序列映射为某种数学表达,而解码器则是把这个数学表达映射为自然语言序列扩散模型扩散模型是一种基于去噪技术的图像生成模型。在生成图像的过程中,它实际上是在不断地去除噪声和随机性的影响,逐渐得到一个越来越真实、越来越精细的图像多模态深度学习多模态数据是指记录在不同类型的媒体(如文本、图像、视频、声音)中的描述同一对象的数据。在表征学习领域,“模态”一词指编码信息的特定方式或机制。多模态深度学习是指将来自不同感知模态的信息(如图像、文本、语音等)融合到一个深度学习模型中,以实现更丰富的信息表达和更准确的预测1.3.3AIGC的算法体系自编码器模型结构1.3.3AIGC的算法体系Transformer模型是一种采用自注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。我们判断其广泛应用于大语言模型中(LLM),例如ChatGPT系列中。Transformer模型旨在处理自然语言等顺序输入数据,可应用于翻译、文本摘要等任务。注意力机制可以为输入序列中的任意位置提供上下文。Transformer架构是AI向生成式跨越的重要一步:1.3.3AIGC的算法体系使用Transformer模型处理输入数据使用Transformer模型处理输入数据(以文本为主)有以下四个主要步骤。(1)词嵌入(2)位置编码(3)自注意力机制(4)文本生成1.3.3AIGC的算法体系扩散模型扩散模型生成图像Imagen是2022年5月谷歌发布的图像生成扩散模型。用户向其中输入描述性文本,模型会生成与文本匹配的图像。Imagen生成图像1.3.3AIGC的算法体系多模态深度学习模态联合学习模态联合学习是一种联合训练的方法,将来自不同模态的数据输入一个模型中,模型可以同时学习到多个模态的特征表示,并将这些特征表示融合在一起。跨模态学习跨模态学习是一种将一个模态的特征转换为另一个模态的特征表示的方法。这种方法的目的是通过特征转换,以及多个模态之间的映射关系,并将不同模态的信息融合在一起。多模态自监督学习多模态自监督学习是一种无须标注数据,通过模型自身学习来提取多个模态的特征表示的方法。这种方法的优点是可以利用大量未标注的数据进行训练,但是需要设计一些自监督任务来引导模型学习多模态的特征表示。1.3.4AIGC的流程首先是收集数据(用于训练AI模型),包括收集现有数据集,通过调查、爬取公开数据等方法生成新数据.数据在收集后需要进行预处理,预处理涉及清理数据、删除重复数据或不相关数据,以及规范化数据预处理后,使用特定算法训练AI模型,比如有监督或无监督学习。训练过程中需要调整参数,以降低模型错误率最后,对生成的内容进行评估和细化,以确保其满足某些质量标准1.3.4AIGC的流程语言模型是AIGC技术的基础,其主要作用是根据已有的语言数据来学习语言的规律和模式N-gram模型是一种基于统计的模型,主要根据已有的文本数据来学习不同单词之间的关系,从而生成新的语句神经网络语言模型则是基于神经网络的模型,它使用神经网络来预测下一个词或字符的概率分布。AIGC包含的技术1.3.4AIGC的流程问:在一座孤岛上,一条龙和一只凤凰会怎么相处?AIGC应用实例例如,用户提问:在一座孤岛上,一条龙和一只凤凰会怎么相处?这是一个极具想象力的问题,因为龙和凤凰都是神话中的生物。但由于AIGC接受了大量文本输入作为训练数据,它能从中了解到关于龙和凤凰的信息,并在回答中融入这些信息。生成文本对话如下。答:在传统文化中,龙和凤凰都是具有神话色彩的生物,它们代表着不同的象征意义。龙通常被视为强大、威严和神秘的象征,而凤凰则代表着幸福、荣耀和重生。在孤岛上,一条龙和一只凤凰可能会相互敬畏和尊重,因为它们都是非常强大的生物。它们可能会建立一种和平共处的关系,分享资源和领地,同时也会保护对方免受外来威胁。1.3.4AIGC的流程需要注意的是,AIGC的创造性受其训练数据和模型的限制。它只能根据已有的知识和模式进行推理和生成回答,并无法超越这些限制进行真正的创新和创造。因此,虽然AIGC可以在某些情况下表现出一定的创造性,但它仍然是一种工具,需要人类对其进行指导和监督。认识人工智能0201030405认识大模型AIGC概述AIGC的应用场景常见的AIGC大模型工具011.4.1文本生成目前,AIGC文本生成主要被应用于新闻的撰写、给定格式的短文撰写以及风格改写。1.4.1文本生成目前,AIGC文本生成主要被应用于新闻的撰写、给定格式的短文撰写以及风格改写。1.4.2代码生成AIGC可以作为自动化代码生成和重构的工具,能够通过对现有代码库进行学习和分析,生成符合特定需求的代码,并对现有代码进行重构及优化。1.4.3图像生成图像生成是指运用人工智能技术,根据给定的数据进行单模态或跨模态图像生成。AIGC在图像生成领域有广泛的应用。AIGC通过计算机算法和模型生成新的图像,这些图像可能是完全虚构的,或者是在现有图像上进行修改得来的。AIGC的图像生成功能是基于深度学习和生成对抗网络实现的。AIG

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论