版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章
自然语言处理与AIGC本章目标了解自然语言处理的基本概念和典型应用
了解AIGC的定义和关键技术熟悉AIGC的典型应用熟悉国内外主流AI大模型了解AIGC伦理与安全问题能使用提示词工程技巧进行创作5.1自然语言处理简介自然语言处理被誉为“人工智能技术皇冠上的明珠”,一方面表明了它的重要性,另一方面也显现出了它的技术难度。自然语言处理就是让计算机理解人类语言,并进行相应的分析。我们所熟知的苹果Siri、微软小冰,就是自然语言处理的典型的应用,他们不仅能够理解我们所说的话,还能够针对性地做出反馈。5.1.1自然语言处理定义
自然语言处理(NaturalLanguageProcessing,NLP)研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,让计算机能够理解、处理和生成自然语言,使计算机具有类似人类的语言交互和文本理解能力。它是计算机科学、人工智能和语言学等学科交叉的前沿领域。NLP与前面章节学习的语音识别、语音合成都是人工智能中与语音相关的重要领域,目标都是让计算机能够理解并以与人类几乎无异的方式生成语言。5.1.2自然语言处理发展
自然语言处理发展到现在,主要经历了三个阶段:
第一阶段是基于规则的方法,由于其过度依赖人力,发展缓慢。第二阶段是基于统计的方法,放弃让机器模仿人类智能的思路,这一阶段在自然语言处理领域的很多任务上都有不小的突破。第三个阶段则是基于深度学习的方法,受益于越来越强大的图形处理器(GPU)的应用以及互联网数据的爆炸式增长,深度学习方法迅速席卷了自然语言处理领域,并持续高速发展。5.1.3自然语言处理基本任务
自然语言处理要解决的是人类和机器的沟通障碍,那它就需要达成两个目标:其一,让计算机听得懂“人话”——即NLU自然语言理解,让计算机具备人类的语言理解能力;其二,让计算机能够“讲人话”——即NLG自然语言生成,让计算机能够生成人类理解的语言和文本,比如文章、报告、图表等等。5.1.3自然语言处理基本任务把人类的文本拆解来看,可以理解为词、句、关系的组合,要让机器理解人类语言和文本,首先要让机器对文本进行拆解分析。自然语言处理基本任务包括:1.词法分析2.自动分词3.文本组块分析4.句法及语义结构分析5.语义分析5.1.4自然语言处理流程逻辑与实现方法自然语言处理的流程逻辑通常包括以下几个步骤:1.数据收集和预处理:获取和清洗原始语言数据,包括文本、语料库或语音数据;2.分词和词法分析:将原始文本数据转换为适合模型输入的格式,如分词、去除停用词、词干提取等。3.特征提取:将文本转换为计算机可以处理的向量形式,如词向量表示、句子向量表示等。常用的特征提取方法包括词袋模型、TF-IDF、词嵌入等。4.模型训练:利用训练数据集,采用机器学习或深度学习方法训练自然语言处理模型。5.模型评估:使用验证数据集评估模型的性能,如准确率、召回率、F1值等指标。6.模型应用:将训练好的模型应用于实际问题,如文本分类、情感分析、机器翻译等任务。5.1.4自然语言处理流程逻辑与实现方法
在实现自然语言处理时,首先需要考虑数据集的选择和预处理。数据集的选择和质量对于自然语言处理的效果有着很大的影响,因此需要选择合适的数据集,并进行数据清洗和预处理。其次还需要采用一些自然语言处理工具和技术。常用的自然语言处理工具包括NLTK、spaCy、StanfordCoreNLP等。这些工具包提供了很多自然语言处理的功能,如分词、词性标注、命名实体识别、句法分析等。最后,还需要选择合适的算法和模型。常用的算法包括朴素贝叶斯、支持向量机、决策树、随机森林等。同时,深度学习也成为自然语言处理中的主流技术,常用的模型包括卷积神经网络(ConvolutionalNeuralNetwork,CNN)、循环神经网络(RecurrentNeuralNetwork,RNN)和Transformer等。5.1.5自然语言处理应用领域
当NLP技术对文本的处理应用综合在一起,就能帮助解决人们在工作和生活场景中的实际问题,现阶段主要的应用领域包括:机器翻译文本摘要问答系统文本分类等。5.2AIGC简介2022年11月,OpenAI推出大语言模型ChatGPT,掀起了生成式人工智能的热潮。短短4天时间,其用户量到达百万级,注册用户之多导致服务器一度爆满。ChatGPT的功能是如此强大,以此连马斯克都认为“我们离强大到危险的AI不远了”。生成式人工智能AIGC(ArtificialIntelligenceGeneratedContent)是人工智能1.0时代进入2.0时代的重要标志。奥尔特曼做客盖茨节目奥尔特曼被誉为“ChatGPT之父”。5.2.1AIGC的定义
生成式人工智能(AIGC),全称ArtificialIntelligenceGeneratedContent,是一种人工智能技术,用于自动生成内容,该内容在很大程度上类似于通过训练数据学到的内容分布。与传统的人工智能主要关注数据模式的识别和预测不同,AIGC专注于创造新的、富有创意的数据。其核心原理在于通过学习和理解数据分布,进而生成具有相似特征的新数据。5.2.2AIGC的奥秘AIGC的关键技术生成算法的不断创新使得AI能够生成多种类型的内容,如文本、代码、图像、语音、视频等。预训练模型,即大型模型,极大地提高了AIGC技术的通用性和工业化水平。多模态技术使AIGC模型能够融合处理多种数据类型,将文本转化为图像、视频等,从而进一步增强了AIGC模型的通用性。AIGC的迅速发展得益于三个关键领域的人工智能技术:5.2.2AIGC的奥秘
大语言模型大型语言模型(LargeLanguageModels,LLMs),是一种基于机器学习和自然语言处理技术的模型,它通过对大量的文本数据进行训练,来学习服务人类语言理解和生成的能力。LLM的核心思想是通过大规模的无监督训练来学习自然语言的模式和语言结构,这在一定程度上能够模拟人类的语言认知和生成过程。与传统的自然语言处理模型(NLP模型)相比,LLM能够更好地理解和生成自然文本,同时还能够表现出一定的逻辑思维和推理能力。5.2.2AIGC的奥秘
提示词工程提示词(prompt)是指在人工智能场景下给模型的一个初始输入或提示,用于引导模型生成特定的输出。提示词工程(PromptEngineering,PE)是一种人工智能技术,它通过设计和改进AI的prompt来提高AI的表现。PE的目标是创建高度有效和可控的AI系统,使其能够准确、可靠地执行特定任务。5.2.3AIGC产业生态体系5.2.4AIGC典型应用现阶段国内AIGC多以单模型应用的形式出现,主要分为文本生成、图像生成、视频生成、音频生成,其中文本生成成为其他内容生成的基础。5.2.4AIGC典型应用文本生成人工智能文本生成是使用人工智能(AI)算法和模型文本生成(AITextGeneration)来生成模仿人类书写内容的文本。它涉及在现有文本的大型数据集上训练机器学习模型,以生成在风格、语气和内容上与输入数据相似的新文本。
文本生成5.2.4AIGC典型应用图像生成(AlImageGeneration),人工智能(Al)可用于生成非人类艺术家作品的图像。这种类型的图像被称为“人工智能生成的图像”。人工智能图像可以是现实的或抽象的,也可以传达特定的主题或信息。
图像生成这里区别于搜索(搜索是别人传上来,检索图片,这里是咒语生成,即使相同咒语生成的也不一样,是独一无二的)文生图图生图5.2.4AIGC典型应用语音生成(AIAudioGeneration),AIGC的音频生成技术可以分为两类,分别是文本到语音合成和语音克隆。
语音生成5.2.4AIGC典型应用视频生成(AIVideoGeneration),AIGC已被用于视频剪辑处理以生成预告片和宣传视频。工作流程类似于图像生成,视频的每一帧都在帧级别进行处理,然后利用AI算法检测视频片段。AIGC生成引人入胜且高效的宣传视频的能力是通过结合不同的AI算法实现的。凭借其先进的功能和日益普及,AIGC可能会继续革新视频内容的创建和营销方式。
视频生成Meta公司在2022年9月推出的Make-A-Video,网页地址:https://makeavideo.studio一只穿着红色斗篷超级英雄服装的狗,在天空中飞翔。5.2.4AIGC典型应用行业及应用场景5.2.4AIGC典型应用行业及应用场景5.3国内外主流AI大模型5.3.1OpenAI的GPT大模型ChatGPT(全名:ChatGenerativePre-trainedTransformer),美国OpenAI研发的聊天机器人程序,于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。GPT大模型主要产品包括GPT-1、GPT-2、GPT-3和GPT-4。这些产品都是OpenAI公司研发的大型预训练语言模型,被广泛应用于自然语言处理领域。GPT-1和GPT-2主要用于文本生成和对话系统,而GPT-3和GPT-4则可以应用于更加广泛的领域,包括医疗、金融、法律等。5.3.2百度的文心大模型百度文心大模型源于产业、服务于产业,是产业级知识增强大模型。文心大模型的一大特色是“知识增强”,即引入知识图谱,将数据与知识融合,提升了学习效率及可解释性。文心ERNIE自2019年诞生至今,在语言理解、文本生成、跨模态语义理解等领域取得多项技术突破文心一言(英文名:ERNIEBot)是百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动、回答问题、协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言从数万亿数据和数千亿知识中融合学习,得到预训练大模型,在此基础上采用有监督精调、人类反馈强化学习、提示等技术,具备知识增强、检索增强和对话增强的技术优势。5.3.3科大讯飞的讯飞星⽕认知大模型科⼤讯⻜的星⽕是新一代认知智能大模型,拥有跨领域知识和语言理解能力,能够基于自然对话方式理解与执行任务。5.3.4阿⾥云的通义大模型阿里通义大模型是阿里云推出的一个超大规模的语言模型,功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持。能够跟人类进行多轮的交互,也融入了多模态的知识理解,且有文案创作能力,能够续写小说,编写邮件等。5.4AIGC伦理与安全AIGC是人工智能1.0时代进入2.0时代的重要标志。AIGC对于人类社会、人工智能的意义是里程碑式的。短期来看AIGC改变了基础的生产力工具,中期来看会改变社会的生产关系,长期来看促使整个社会生产力发生质的突破,在这样的生产力工具、生产关系、生产力变革中,生产要素——数据价值被极度放大。5.4.1AIGC社会影响近年来在创新发展驱动下,AIGC开始在新闻、影视、娱乐等多个领域展现出强大的潜力,并逐渐成为内容生产的新范式。
1、内容生产去中心化2、内容消费升级3、商业模式创新总之,AIGC技术的出现,对于内容生产和消费、商业模式等方面都产生了深远的影响。未来随着技术的不断发展,AIGC将会在更多领域发挥出更大的潜力,推动整个社会的进步和发展。5.4.2AIGC伦理与安全问题日益复杂的生成式人工智能技术的应用将引发更多的伦理与安全问题。
1、法律法规完善程度低
2、数据要素问题突出
3、技术保密性问题
4、教育问题5.4.2AIGC伦理与安全问题思政小课堂:国内AI文生图著作权侵权第一案2023年2月24日,原告李某使用AI图片生成软件“StableDiffusion”通过输入提示词的方式生成古装少女的图片,后将该图片以“春风送来了温柔”为名发布在小红书平台,并标注为“AI插画”。但在3月2日,原告发现被告刘某通过百家号账号发布名为《三月的爱情,在桃花里》的文章,文章里使用了自己先前生成的图片作为插图,并且去除了该图片原有的水印。随后,李某以侵害作品署名权和信息网络传播权为由将刘某起诉到北京互联网法院,要求被告赔偿其经济损失5000元,并赔礼道歉。该案主要涉及三大争议点:一是“春风送来了温柔”图片是否构成作品,构成何种类型作品;二是原告是否享有涉案图片的著作权;三是被诉行为是否构成侵权行为,被告是否应当承担法律责任。在经过了三个多月的等待后,11月27日北京互联网法院对上述案件做出一审判决。法院在判决中认定案涉图片是原告在AI生成图片初稿基础上,通过增加提示词、调整参数等方式,经过智力投入后,产出的“智力成果”,该创作过程本质为人利用工具进行创作。同时,案件中涉及的图片是原告通过增加提示词设计出人物和画面元素,并通过参数设置方式对画面不断调整、优化,此过程可以体现出原告的审美选择与个性判断,具备“独创性”。此外,涉案图片显然属于艺术领域且具有一定表现形式。因此,法院认定案件中涉及的满足“作品”构成的四要件,是著作权法意义上的“作品”。考虑到案件具体情况和侵权情节,法院最终判决被告向原告赔礼道歉,并向原告赔偿经济损失500元。5.4.2AIGC伦理与安全问题5.5AIGC体验1、推文的编写:本案例使用文心一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二四年度智能仓储物流系统建设项目合同
- 二零二四年广告投放与媒体合作合同2篇
- 店铺法人更换合同(2篇)
- 医院股份协议书
- 商事公司合同(2篇)
- 古玩购销合同(2篇)
- 二零二四年度建筑消防设施定期检查与维护合同
- 专业婚姻介绍所服务合同
- 广告代理服务计划
- 计算机设备维护服务合同
- 2024茶山茶叶种植基地合作协议
- 北京市朝阳区农村集体资产租赁合同书
- 浙江省初中名校发展共同体期中联考2024-2025学年七年级上学期11月期中数学试题(含答案)
- 【初中道法】增强安全意识 课件-2024-2025学年统编版道德与法治七年级上册
- 2023年广州市白云区在珠海招聘中小学事业编制教师笔试真题
- 2024-2030年全球及中国松香药芯焊锡丝行业产销状况及投资前景预测报告
- 2024-2030年中国非物质文化遗产保护行业开发模式分析规划研究报告
- 【初中化学】二氧化碳的实验室制取课件-2024-2025学年九年级化学人教版上册
- 绿化设计合作协议
- 新修订《中华人民共和国保守国家秘密法》竞赛题库
- 学校提高《规范书写水平、传承汉字文化》活动方案3篇
评论
0/150
提交评论