




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能大模型与内容生成人工智能技术应用导论010203AI大模型的崛起典型大模型GPT-4的功能概述基于开放AI模型的应用开发入门目录04多模态大模型与AIGC应用01AI大模型的崛起PARTONE7.1AI大模型的崛起在AI的发展历程中,大语言模型(LargeLanguageModel,LLM),简称大模型,它的出现标志着一个新的里程碑。在机器学习领域,模型是一种数学结构,它能够从输入数据中学习规律,并利用这些规律进行预测或决策。一个模型的大小通常由其参数的数量来衡量。所谓的大模型,就是参数数量特别大的模型。据报道,GPT-4是由8个2200亿参数的模型“堆叠”而成的,参数量达到17600亿个。大模型具有极高的复杂性,可以从大量的训练数据中提取出精细的知识和规律。大模型,如OpenAI的GPT系列、Google的BERT和T5、Facebook的LLaMa等7.1AI大模型的崛起序号模型名称开发公司应用场景主要功能训练数据集参数规模1GPT-2OpenAI语言理解,文本生成问答系统,文章写作,代码生成,聊天机器人CommonCrawl,Wikipedia等1.5亿2GPT-3OpenAI语言理解,文本生成问答系统,文章写作,代码生成,聊天机器人CommonCrawl,Wikipedia等1750亿3GPT-4OpenAI语言理解,文本生成问答系统,文章写作,代码生成,聊天机器人CommonCrawl,Wikipedia等17600亿4BERTGoogle语言理解文本分类,实体识别,问答系统Wikipedia,BookCorpus3.4亿5T5(Text-to-TextTransferTransformer)Google语言理解,文本生成问答系统,文章摘要,文本翻译C4(CommonCrawl)1.1亿到36亿6RoBERTaFacebookAI语言理解文本分类,实体识别,问答系统Wikipedia,BookCorpus,CC-News,OpenWebText,Stories1.25亿到35.6亿7DALL-EOpenAI图像生成生成与给定文本描述相符的图像不公开不公开8BigGANDeepMind图像生成生成逼真的图像ImageNet1.43亿9CLIPOpenAI图像理解,语言理解从文本描述生成图像,从图像生成文本描述不公开2.8亿7.1AI大模型的崛起序号模型名称开发公司应用场景主要功能训练数据集参数规模10ERNIE2.0百度语言理解文本分类,实体识别,问答系统BaiduInternalDatasets,Wikipedia1.1亿11WuDao2.0北京智源AI研究院语言理解,图像理解,文本生成,图像生成问答系统,文章写作,代码生成,聊天机器人,生成逼真的图像不公开1.75万亿12JinaJinaAI云原生搜索框架构建神经搜索应用不适用不适用13NeZha华为语言理解文本分类,实体识别,问答系统
14SimCSE清华大学语义理解文本相似性比较Wikipedia,BookCorpus不适用15PaddlePaddle百度广泛的深度学习任务训练和部署深度学习模型不适用不适用16Megatron-LMNVIDIA语言理解,文本生成问答系统,文章写作,代码生成,聊天机器人不公开1750亿17Turing-NLGMicrosoft语言理解,文本生成问答系统,文章写作,代码生成,聊天机器人不公开1700亿7.1AI大模型的崛起18DeBERTaMicrosoft语言理解文本分类,实体识别,问答系统不公开1.5亿到9亿19M6腾讯语言理解,文本生成问答系统,文章写作,代码生成,聊天机器人不公开600亿20WuDao北京智源AI研究院语言理解,图像理解,文本生成,图像生成问答系统,文章写作,代码生成,聊天机器人,生成逼真的图像不公开1.75万亿21XLNetGoogle/CMU语言理解文本分类,实体识别,问答系统Wikipedia,BookCorpus,ClueWeb,CommonCrawl3.4亿到7.7亿22ALBERTGoogle语言理解文本分类,实体识别,问答系统Wikipedia,BookCorpus1.1亿到2.36亿23ELECTRAGoogle/Stanford语言理解文本分类,实体识别,问答系统Wikipedia,BookCorpus1.1亿到3.35亿24SogouWMT搜狗机器翻译文本翻译搜狗自有数据不公开25UniLMMicrosoft语言理解,文本生成问答系统,文章写作,代码生成,聊天机器人不公开3.4亿到7.7亿7.1AI大模型的崛起26HanLP华为诺亚方舟实验室语言理解文本分类,实体识别,问答系统27Face++商汤科技人脸识别人脸检测,人脸识别,情感分析28SenseFace商汤科技人脸识别人脸检测,人脸识别,情绪分析29SenseAR商汤科技增强现实面部跟踪,手势识别,人体姿态估计30DeepSpeech2百度语音识别将语音转化为文本31PaddleOCR百度文本识别识别图片中的文本32iFLYTEK'sIFLYOS科大讯飞语音识别,语音合成将语音转化为文本,将文本转化为语音7.1AI大模型的崛起序号模型名称开发公司应用场景主要功能训练数据集参数规模33Tencent'sFineGPT腾讯语言理解,文本生成问答系统,文章写作,代码生成,聊天机器人不公开1000亿34Tencent'sNeuraTalk腾讯图像理解,语言理解从文本描述生成图像,从图像生成文本描述不公开不公开02典型大模型GPT-4的功能概述PARTTWO7.2典型大模型GPT-4的功能概述作为大模型的代表,GPT(GenerativePre-trainedTransformer,预训练生成式转换器)引领了一场革命。它是OpenAI从2017年开始开发的一种大语言模型。它使用了Transformer架构,并经过大量文本数据的预训练,使得其能够生成连贯、有趣、富有创造性的文本。GPT的最新版本GPT-4已经达到了令人惊叹的规模和性能。其模型参数高达17600亿,比前一代GPT-3的1750亿参数增加了很多。在各种自然语言处理任务上,如文本生成、阅读理解、机器翻译等,GPT-4都能够展现出超强的性能。表7-2概括了GPT-4的主要功能。此外,GPT还具有强大的迁移学习能力。只需要少量的微调,就可以将它应用到各种特定的任务中。这使得GPT不仅在研究领域,也在实际应用中受到了广泛的好评。7.2典型大模型GPT-4的功能概述序号功能名称应用场景主要技术发展前景同类产品比较1文本生成/TextGeneration新闻、故事、博客文章生成Transformer架构,自监督学习随着算法的优化,生成内容质量和多样性将不断提高GPT-3生成效果较差,BERT效果一般,与微软的Turing-NLG性能接近2问答系统/QuestionAnswering客户支持、知识库、在线问答平台大规模预训练,迁移学习更精确地根据上下文进行回答,提高用户满意度GPT-3回答质量稍低,BERT表现一般,阿里云天池-ERNIE回答质量较高3语义理解/SemanticUnderstanding情感分析、文本分类、实体识别Transformer架构,微调技术预计将进一步提高准确率,拓展更多应用场景GPT-3准确率较低,BERT表现较好,与谷歌的ELECTRA性能接近4机器翻译/MachineTranslation文档翻译、跨语言信息检索序列到序列模型,注意力机制预计将进一步提高翻译质量,支持更多语种GPT-3翻译效果较差,BERT不直接支持,谷歌的Transformer模型性能优秀5代码生成/CodeGeneration自动编程、代码补全、代码修复大规模源代码预训练,迁移学习预计将进一步提高代码生成质量和范围,支持更多编程语言GPT-3代码生成能力有限,微软的CodeBERT和GitHub的Copilot性能较好6对话生成/DialogueGeneration聊天机器人、智能助手、客户支持多轮对话建模,上下文理解预计将实现更自然、更智能的人机对话,拓展更多场景GPT-3对话生成较差,DialoGPT较好,与腾讯的ChatGPT和微软的Turing-NLG性能接近7文本摘要/TextSummarization文档摘要、新闻摘要、会议纪要生成序列到序列模型,注意力机制,摘要生成策略预计将进一步提高摘要质量和多样性,拓展更多应用场景GPT-3摘要生成效果一般,BERT等模型需要额外处理,谷歌的PEGASUS和Facebook的BART性能优秀7.2典型大模型GPT-4的功能概述序号功能名称应用场景主要技术发展前景同类产品比较8推荐系统/RecommendationSystems商品推荐、个性化新闻、音乐推荐等协同过滤、深度学习、知识图谱预计将实现更精确、更个性化的推荐效果,拓展更多场景GPT-3推荐效果一般,BERT等模型需结合其他技术,谷歌的DeepMind推荐系统性能优秀9自然语言推理/NaturalLanguageInference文本逻辑关系判断、事实一致性检验等Transformer架构,预训练和微调技术预计将进一步提高推理准确率,拓展更多应用场景GPT-3准确率较低,BERT表现较好,与Facebook的RoBERTa性能接近10语音识别与合成/SpeechRecognitionandSynthesis语音助手、语音转文本、语音翻译等端到端深度学习,波形建模技术预计将实现更自然、更快速的语音识别与合成,拓展更多场景GPT-4暂不涉及语音领域,谷歌的WaveNet和百度的DeepSpeech性能优秀11图像描述与生成/ImageCaptioningandGeneration图像描述生成、图像编辑、创意设计等生成对抗网络(GAN)、条件变分自编码器预计将实现更精确、更多样的图像描述与生成,拓展更多场景GPT-4暂不涉及图像领域,谷歌的DALL-E和OpenAI的CLIP性能优秀12无监督知识蒸馏/UnsupervisedKnowledgeDistillation模型压缩、在线学习、知识迁移等无监督学习、自监督学习、模型蒸馏技术预计将实现更高效、更轻量级的模型压缩和知识迁移GPT-4在此方面有一定优势,谷歌的DistilBERT和腾讯的TinyBERT性能较好7.2典型大模型GPT-4的功能概述13多模态学习/MultimodalLearning跨模态信息检索、视觉问答、图文生成等多模态融合、预训练和微调技术预计将实现更高效、更准确的跨模态信息处理,拓展更多场景GPT-3多模态能力有限,GPT-4在此领域有显著优势,2024年2月OpenAI发布的Sora号称“世界模拟器”,具备强大的文字生成视频能力14语言风格迁移/StyleTransfer语言风格转换、创意写作、内容匿名化循环神经网络(RNN)、生成对抗网络(GAN)预计将实现更多样的风格转换,提高生成内容自然度GPT-3在风格迁移方面有限,谷歌的StyleGAN和Facebook的CycleGAN性能较好15零样本学习/Zero-shotLearning无标签数据学习、新任务迁移学习自监督学习、元学习、知识图谱预计将实现更高效、更广泛的无标签学习和任务迁移GPT-4在零样本学习方面表现优异,谷歌的BERT和Facebook的BART性能较好16视频生成/VideoGeneration视频创意设计、动画制作、虚拟现实等生成对抗网络(GAN)、视频建模技术预计将实现更高质量、更多样的视频生成,拓展更多场景GPT-4在视频生成方面具有初步能力,谷歌的DeepMind和NVIDIA的StyleGAN2性能较好17程序编码/ProgramSynthesis代码补全、代码生成、编程辅助工具大规模源代码预训练、迁移学习预计将进一步提高代码生成质量和范围,支持更多编程语言GPT-4在程序编码方面表现优异,微软的CodeBERT和GitHub的Copilot性能较好7.2典型大模型GPT-4的功能概述19文本审核/TextModeration社交媒体、评论过滤、论坛监管自然语言理解、分类技术预计将进一步提高文本审核效率和准确度,降低人工成本GPT-4在文本审核方面具有潜力,谷歌的PerspectiveAPI和腾讯的文本审核服务性能较好20语音助手/ConversationalAI聊天机器人、智能家居、客服系统对话建模、多模态信息融合预计将实现更自然、更智能的人机对话,拓展更多场景GPT-4在语音助手方面表现优异,谷歌的Assistant和苹果的Siri性能较好21知识图谱构建/KnowledgeGraphConstruction智能搜索、推荐系统、知识管理等实体识别、关系抽取、图谱建模技术预计将进一步提高知识图谱构建质量和效率,拓展更多应用场景GPT-4在知识图谱构建方面具有潜力,谷歌的KnowledgeGraph和微软的Satori性能较好序号功能名称应用场景主要技术发展前景同类产品比较18生成式对抗样本/AdversarialExamples安全性测试、对抗样本防御、模型强化生成对抗网络(GAN)、对抗训练预计将进一步提高模型安全性和鲁棒性,拓展更多场景GPT-4在生成式对抗样本方面具有潜力,谷歌的CleverHans和IBM的AdversarialRobustnessToolbox性能较好03基于开放AI模型的应用开发入门PARTTHREE7.3基于开放AI模型的应用开发入门搭建应用开发环境为了开始我们的开发之旅,首先需要搭建适合的开发环境。在大模型的开发中,Python是一种常用的编程语言,其简洁易懂的语法和丰富的库支持使其成为首选。同时,JupyterNotebook作为一种交互式的编程环境,能够让我们更方便地进行代码编写和测试。深度学习框架则是另一个重要的组成部分,PyTorch和TensorFlow是最常用的两种。在这里,我们选择PyTorch作为示例,它的易用性和灵活性受到许多开发者的喜爱。此外,我们还需要安装一些专门用于处理和分析数据的库,如NumPy和Pandas等。7.3基于开放AI模型的应用开发入门典型AI模型应用开发实例在搭建完开发环境后,我们可以开始进行应用开发了。基于GPT等大模型,我们可以在各种场景中打造出强大的应用。例如,可以开发一个能够自动生成新闻文章的系统,或是一个能够回答用户问题的智能助手。这些应用的开发并不困难,因为大模型已经完成了大部分的工作。我们只需要直接调用相关的API接口或对模型进行微调,让它适应特定的任务需求,然后将模型嵌入到我们的应用中即可。7.3基于开放AI模型的应用开发入门典型AI模型应用开发实例1.调用开源预训练大语言模型GPT-2进行文本生成【程序说明】功能:本程序利用预训练的GPT-2模型,对给定的输入文本进行延续,生成一段连贯的文本。输入:一个字符串,作为生成文本的起始内容。处理:程序首先加载预训练的GPT-2模型及其tokenizer,然后使用tokenizer将输入的字符串转化为模型可以理解的格式(即一个数字序列),之后将这个数字序列输入模型进行推理,得到一个新的数字序列,最后使用tokenizer将这个新的数字序列转化为文本。输出:一个字符串,是模型生成的与输入内容连贯的文本。7.3基于开放AI模型的应用开发入门【示例7-1.ipynb】代码:7-1.ipynb#导入必要的库fromtransformersimportGPT2LMHeadModel,GPT2Tokenizer
defgenerate_text(input_str,model_name='gpt2'):#加载预训练的GPT-2模型和对应的tokenizertokenizer=GPT2Tokenizer.from_pretrained(model_name)model=GPT2LMHeadModel.from_pretrained(model_name)
#使用tokenizer将输入文本转化为模型可以理解的格式,返回的是一个PyTorch的Tensorinputs=tokenizer.encode(input_str,return_tensors='pt')
#将处理后的输入数据送入模型进行推理#max_length定义了生成文本的最大长度#num_return_sequences定义了要生成的文本数量#no_repeat_ngram_size定义了模型生成文本时不重复的n-gram的大小#do_sample和temperature定义了生成文本的随机性outputs=model.generate(inputs,max_length=150,num_return_sequences=1,7.3基于开放AI模型的应用开发入门no_repeat_ngram_size=2,do_sample=True,temperature=0.7)
#将模型生成的输出(一个数字序列)转化为文本generated_text=tokenizer.decode(outputs[0],skip_special_tokens=True)
returngenerated_text
#输入的起始文本input_str="Artificialintelligenceis"print(generate_text(input_str))7.3基于开放AI模型的应用开发入门【运行结果】Artificialintelligenceisakeytoacceleratingthedevelopmentofnewtechnologiesandtosupportingtheemergenceofinnovativetechnology,saidSrinivasan."Inaddition,wehopetocontributetothefieldofartificialintelligencewiththeuseofthenewartificialneuralnetworks,whichwillenablerapidandeffectiveresearchanddevelopment.WealsoneedtoworkontheapplicationofAItootherfields,suchasmedicineandagriculture.ThefutureofscienceandengineeringmaydependonwhetherAIisusedinthefuturetoadvanceourunderstandingofbasicbiologicalphenomena.Andartificial-intelligenceresearchneedstobecomemoreinclusiveandinnovative."7.3基于开放AI模型的应用开发入门典型AI模型应用开发实例2.调用开源预训练模型AlexNet进行图像识别【程序说明】本程序实现了利用预训练的AlexNet模型对输入图像进行分类:程序从本地读取ImageNet的标签文件以便对预测结果进行解释。定义的classify_image函数主要负责图像的加载、预处理和预测。输入图像的路径,调用函数进行分类,并将预测结果和图像一起显示出来。7.3基于开放AI模型的应用开发入门【示例7-2.ipynb】代码:7-2.ipynbimportjsonimportrequestsimporttorchfromtorchvisionimportmodels,transformsfromPILimportImageimportmatplotlib.pyplotasplt
#网上下载或本地读取ImageNet的标签文件#LABELS_URL='/anishathalye/imagenet-simple-labels/master/imagenet-simple-labels.json'#labels=requests.get(LABELS_URL).json()withopen('imagenet_labels.json','r')asf:labels=json.load(f)
7.3基于开放AI模型的应用开发入门defclassify_image(image_path,model_name='alexnet'):
#加载预训练的AlexNet模型model=models.__dict__[model_name](pretrained=True)
#模型设置为评估模式model.eval()
#定义图像预处理步骤preprocess=transforms.Compose([transforms.Resize(256),#调整图像大小transforms.CenterCrop(224),#中心裁剪transforms.ToTensor(),#转化为PyTorch的Tensortransforms.Normalize(mean=[0.485,0.456,0.406],std=[0.229,0.224,0.225]),#归一化])7.3基于开放AI模型的应用开发入门
#加载图像image=Image.open(image_path).convert("RGB")
#对图像进行预处理input_tensor=preprocess(image)
#创建一个新维度,模拟批处理input_batch=input_tensor.unsqueeze(0)
#确保模型在CPU上运行iftorch.cuda.is_available():input_batch=input_batch.to('cuda')model.to('cuda')
#进行推理withtorch.no_grad():output=model(input_batch)
7.3基于开放AI模型的应用开发入门
#返回预测的类别索引_,predicted_idx=torch.max(output,1)
returnpredicted_idx.item()
#输入的图像路径image_path="./data/dog.jpg"class_idx=classify_image(image_path)
#显示图像和预测结果image=Image.open(image_path)plt.imshow(image)plt.title("Predictedclass:"+labels[class_idx])plt.show()7.3基于开放AI模型的应用开发入门【运行结果】AlexNet模型对样板输入图像的分类结果如下图所示。7.3基于开放AI模型的应用开发入门主流开放预训练模型能力汇总除了近几年产生的AI预训练大模型外,AI技术经过几十年的发展,已经积累了一系列的、种类繁多的、可以实现特定单一任务的预训练小模型,免费或收费地开放给应用开发者,赋能各种各样的应用。为了让读者更好地理解和使用预训练模型,我们在表7-1所示预训练大模型汇总的基础上,进一步汇总经典开放预训练小模型的能力和API,给出模型的基本介绍,如模型的架构、训练数据、参数数量等,以及模型的使用方法,例如,如何加载模型、如何进行预测、如何进行微调等,如表7-3所示。7.3基于开放AI模型的应用开发入门主流开放预训练模型能力汇总序号模型名称训练数据集功能与算法主要API1ResNetImageNet图像分类,特征提取,使用残差网络torchvision.models.resnet2VGGImageNet图像分类,特征提取,使用深度卷积网络torchvision.models.vgg3AlexNetImageNet图像分类,使用深度卷积网络torchvision.models.alexnet4DenseNetImageNet图像分类,特征提取,使用密集连接网络torchvision.models.densenet5Inception_v3ImageNet图像分类,特征提取,使用Inception网络(带有辅助分类器)torchvision.models.inception_v36GoogLeNetImageNet图像分类,特征提取,使用Inception网络(无辅助分类器)torchvision.models.googlenet7MobileNet_v2ImageNet图像分类,特征提取,使用深度可分离卷积网络torchvision.models.mobilenet_v28ShuffleNet_v2ImageNet图像分类,特征提取,使用分组卷积和通道重洗torchvision.models.shufflenet_v29MNASNetImageNet图像分类,特征提取,使用MNASNet搜索空间torchvision.models.mnasnet7.3基于开放AI模型的应用开发入门主流开放预训练模型能力汇总序号模型名称训练数据集功能与算法主要API10SqueezeNetImageNet图像分类,特征提取,使用Fire模块(Squeeze和Expand层)torchvision.models.squeezenet11TransformerWMT'14English-German文本分类,序列生成,使用自注意力,位置编码torch.nn.Transformer12LSTMVarious文本分类,序列生成,使用长短期记忆网络torch.nn.LSTM13GRUVarious文本分类,序列生成,使用门控循环单元torch.nn.GRU14RNNVarious文本分类,序列生成,使用循环神经网络torch.nn.RNN15BertModelWikipedia,BookCorpus文本分类,特征提取,使用双向Transformer编码器transformers.BertModel04多模态大模型与AIGC应用PARTFOUR7.4多模态大模型与AIGC应用多模态大模型与AIGC的简介1.多模态大模型简介多模态大模型是预训练大模型的发展方向,是预训练大语言模型的晋级,是当前世界各大AI厂商竞争的关键领域。多模态大模型是指可接收文字、图像、语音等多种不同类型数据的输入、处理、分析,并将结果以不同的模态形式对外输出,实现异构模态数据协同推理的预训练大模型。在ChatGPT推出之后,谷歌、微软、百度、科大讯飞等海内外科技公司纷纷加速了对多模态大模型的研发进度,也陆续推出了一系列产品,如表7-4所示。7.4多模态大模型与AIGC应用多模态大模型与AIGC的简介序
号模型名称开发公司功能特点发布时间1GPT-4OpenAI开放了API接口,不仅在对话的准确性、语言丰富性以及长文本生成能力上较GPT-3.5有较大提升,还可识别、理解图像类的数据,并根据图像内容与用户进行互动问答。与人类可交互的信息类型更多、信息量更大、通用性更强、应用场景更加广阔2023年3月2DALL∙E2OpenAI可根据自然语言的描述创作高质量的图像。2022年11月,OpenAI将DALL∙E2的API开放供第三方调用2021年1月3WhisperOpenAI可将语音信息转换为文字信息,实现多语言、多方言以及嘈杂背景音环境下的语音转换,识别和转换的准确率较高。2023年3月1日,OpenAI宣布开放Whisper大模型的API供第三方调用2021年9月4Palm-E谷歌在语言类模型PaLM(5400亿参数)和视觉类模型ViT(220亿参数)的基础上开发的。通过在预训练的语言类大模型中嵌入图像、状态、感知等多类型数据,具备通用化语言能力,还能执行视觉问答、感知推理、机器操作等复杂的任务2023年3月7.4多模态大模型与AIGC应用多模态大模型与AIGC的简介序
号模型名称开发公司功能特点发布时间5PaLM2谷歌融入AI能力的搜索引擎、升级版聊天机器人Bard和Workspace中的AI工具包DuetAI等。基于Pathways架构,使用TPUv4和JAX框架训练,在高级推理任务,包括代码和数学,分类和问答,翻译和多语言能力,以及自然语言生成方面都比前一代PaLM-E大模型表现得更好2023年5月6ImageBindMeta融合了文本、图像/视频、音频、热量、空间深度、三维惯性(位置和运动)数据。以某一物体的视觉类数据为核心,设置了多种传感器搜集对应的声音、3维形状、热量以及运动数据。ImageBind通过将各种类型的数据在多维向量空间中建立一一映射关系,使其具备跨模态的能力,实现多模态信息转换、组合信息转换2023年5月7百度文心ERNIE-ViLG2.0百度通过引入基于时间步的混合降噪专家网络,让模型在不同的生成阶段选择不同的“降噪专家”,从而提升生成图像的精细度。在提升图文一致性方面,该模型通过视觉、语言等多源知识指引扩散模型学习,强化文图生成扩散模型对于语义的精确理解,以提升生成图像的可控性和语义一致性2023年3月8讯飞星火认知大模型iFLYTEKSparkV1.5科大讯飞具备七大维度能力,包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力2023年6月7.4多模态大模型与AIGC应用多模态大模型与AIGC的简介2.AIGC简介AIGC是“AI生成内容”(ArtificialIntelligenceGeneratedContent)的缩写,是指借助AI技术,利用机器学习、深度学习和自然语言处理等算法,使计算机系统能够生成各种形式的内容,如文本、图像、音频和视频等,如图7-2所示。目前,AIGC技术已经广泛应用于多个领域,包括文本生成、策略生成、图像生成、虚拟人生成、音频生成和视频生成等。7.4多模态大模型与AIGC应用多模态大模型与AIGC的简介7.4多模态大模型与AIGC应用多模态大模型与AIGC的简介序号能力名称应用场景功能描述内容类型1文本生成内容创作、文档生成、自动摘要等根据输入提示生成连贯、有逻辑的文本文本2问答帮助用户解答问题、提供信息根据提问生成准确、详细的回答文本3对话生成虚拟助手、聊天机器人、客服系统进行自然、连贯的对话交流文本4文本摘要文章摘要、信息提取提取输入文本的主要信息,生成简洁的摘要文本5文本分类文本分类、情感分析将输入的文本进行分类,如情感分类、主题分类等文本6语言翻译文本翻译将输入的文本从一种语言翻译为另一种语言文本7情感生成情感表达、情感化交互根据输入生成具有情感色彩的文本文本8多模态理解图文理解、文本图像关联理解和处理文本与其他内容类型之间的关联关系文本、图像9多模态生成图文生成、文本配图结合文本与其他内容类型生成多模态内容文本、图像10代码生成代码编写、自动化开发根据输入描述生成代码片段或完成特定任务的代码文本、代码7.4多模态大模型与AIGC应用多模态大模型与AIGC的简介11音频生成语音合成、声音效果生成将输入的文本转化为自然流畅的语音或生成特定声音效果文本、音频12视频生成视频剪辑、视频合成根据输入生成新的视频内容,包括剪辑、合成和效果添加等文本、视频13图像生成图像合成、图像编辑根据输入生成新的图像内容,包括合成、编辑和图像效果添加等图像14视频理解视频内容分析、场景识别理解和处理视频内容,识别场景、对象和动作等视频15音频理解语音识别、音频内容分析识别和理解输入音频内容,如转换为文本、分析音频特征等音频16异常检测异常事件识别、异常数据检测识别输入数据中的异常模式或异常事件文本、图像、音频、视频等17信息抽取结构化数据提取、实体关系抽取从非结构化数据中提取关键信息或特定实体关系文本18情景感知智能家居、自动驾驶感知和理解周围环境和情景,做出相应决策或交互多模态7.4多模态大模型与AIGC应用多模态大模型与AIGC的简介19推荐系统个性化推荐、内容推荐根据用户的兴趣和需求推荐相关的内容或产品文本、图像、音频、视频等20资讯搜集与过滤新闻资讯搜集、关键信息过滤从海量信息中自动搜集、筛选和整理相关的新闻和资讯文本21虚拟现实增强AR/VR应用、虚拟导游结合虚拟现实技术提供增强现实体验,如导览、交互和游戏等多模态22人机交互语音助手、手势识别实现人与机器之间的自然交互方式,如语音、手势等多模态23自动驾驶自动驾驶汽车、智能交通系统实现车辆的自主导航、环境感知和智能决策多模态、提示或控制指令24医疗诊断与辅助疾病诊断、医学影像分析提供医疗诊断和辅助决策文本、图像等诊断结果7.4多模态大模型与AIGC应用AIGC文本生成AIGC文本生成是指利用AI技术生成各种类型的文本内容。例如,可以使用AIGC技术自动生成新闻报道、科技文章、故事情节、推广文案等。一个实际的案例是,GPT-4模型可以通过输入几个关键词,生成与这些关键词相关的完整文章,提供自动化的写作支持。图7-3是GPT-4(ChatGPTPlus)生成的一篇科普文章(部分),可以看出其概念准确、层次清晰,已经达到了一般专业人员的写作水准。7.4多模态大模型与AIGC应用AIGC文本生成7.4多模态大模型与AIGC应用AIGC文本生成同样的要求通过讯飞星火认知大模型(iFLYTEKSpark)生成的文章。通过阅读比较,也是概念准确、层次清晰,达到了一般专业人员的写作水准。7.4多模态大模型与AIGC应用AIGC文本生成7.4多模态大模型与AIGC应用AIGC图像生成1.AIGC图像生成的含义AIGC图像生成是指利用AI技术生成各种类型的图像内容,如人物肖像、风景画、卡通图像等。AIGC图像生成颠覆了传统的图像创作领域,通过AI工具可以在几秒内将设计者的想法或概念快速转化为可视化的图像。AI图像生成工具可用于各种目的,例如为创意项目产生灵感,将想法可视化,探索不同的场景或概念,或者仅仅是为了享受AI的乐趣。顶级的AI图像生成工具具有强大的拼接能力、渲染速度。图7-5是一个AIGC图像生成样例。7.4多模态大模型与AIGC应用AIGC图像生成7.4多模态大模型与AIGC应用AIGC图像生成2.典型图像生成工具序号工具名称工具简介主要特点1FotorFotor是一个在全球拥有数百万用户的在线照片编辑器,最近发布了一个AI图片生成器。它使用非常简单,只需要输入你的文字提示,然后Fotor的AI文字-图像生成器在几秒内就把它变成现实。可以用它来创建逼真的脸部图像、3D和动漫人物、绘画,以及任何类型的数字艺术。Fotor的AI图像生成器最好的部分是它可以免费使用,并让你以全分辨率导出你生成的图像。这对初学者和高级用户来说都是一个很好的选择每天有10个免费的图像生成、2种图像转换模式:文本到图像和图像到图像、快速图像生成模式、能够从文本中生成优秀的图像、9种不同的转换风格可供选择7.4多模态大模型与AIGC应用AIGC图像生成2.典型图像生成工具序号工具名称工具简介主要特点2NightCafeNightCafe是市场上最受欢迎的AI文本转图像生成器之一。据说它比其他生成器有更多的算法和选项。它有2种转换模式—文本到图像和风格转换。文本到图像:只需输入一个描述文本,NightCafe就会根据描述自动生成相应场景的图像。风格转换:将图片上传到NightCafe,它可以将图片变成名画的风格。NightCafe是基于信用系统的。拥有的学分越多,能生成的图片就越多。可以通过参与社区活动或购买来获得学分易于使用、快速的图像生成过程、每天有5个免费的图像生成、多种艺术风格可供选择、能够生成用于印刷的高分辨率图像3DreambyWOMBODreambyWOMBO是由加拿大AI初创公司WOMBO创建的。它被许多人认为是最好的来自文本的全能AI图像生成器。使用DreambyWOMBO的过程与NightCafe非常相似。写一个句子,选择一种艺术风格,然后让DreambyWOMBO为你生成图像。它最好的方面之一是允许使用者上传一张图片作为参考,并依此生成更符合使用者设想的图片易于使用、有各种艺术风格可供选择、免费生成无限的图像、将生成的图像作为NFT出售4DALL-E2DALL-E2是由OpenAI开发的尖端AI图像生成器,该团队创建了GPT-3,即顶级自然语言机器学习算法。因此,DALL-E2成为市场上最先进的AI图像生成器,可以从文本中生成各种数字艺术和插图。只要输入文字,DALL-E2就会根据文字创造出一系列的图片。你可以用它来创作插图,设计产品,并产生新的商业创意。DALL-E2提供的最好的功能之一是它的画笔,它允许你为你的图片添加细节,如阴影、高光、颜色、纹理等每次在几分钟内制作多个图像、图像质量和准确性高、能够编辑生成的图像7.4多模态大模型与AIGC应用AIGC图像生成2.典型图像生成工具5MidjourneyMidjourney也是最好的AI图像生成器之一,功能全面,图像生成速度极快。输入一个文本提示,让Midjourney完成剩下的工作。许多艺术家使用Midjourney来生成他们想要的图像,作为他们作品的灵感来源。使用Midjourney制作的AI绘画“Théâtred’OpéraSpatial”在科罗拉多州博览会的美术比赛中获得了一等奖,击败了其他20位艺术家。然而,目前,Midjourney被托管在一个Discord服务器上。为了用Midjourney生成图像,你必须加入其服务器,并采用Discord机器人命令来创建图像。但这很容易,你可以在几分钟内轻松上手容易上手、图像生成速度快、生成的图像质量高,每次有4张输出图像6DreamStudioDreamStudio,也被称为稳定扩散,是最受欢迎的文本到图像AI生成器之一。它是一个开源的模型,可以在短短几秒内将文字提示转换为图像。此外,它可以通过结合上传的照片和书面描述来产生逼真的艺术作品。DreamStudio可以用来创建摄影图片、插图、3D模型、标志,以及基本上任何你能想象到的图像快速的AI图像生成、每次可生成多个图像、图像具有很高的质量、自定义选项可以编辑生成的AI图像、API访问7.4多模态大模型与AIGC应用AIGC图像生成2.典型图像生成工具7CraiyonCraiyon的前身是DALL-Emini。它是由谷歌和HuggingFace的研究人员开发的。只需输入文字描述,它就会生成由你输入的文字组成的9种不同的图像。Craiyon是一个伟大的免费AI图片生成器,不需要注册页面。你可以输入任何你喜欢的关键词,并在几分钟内看到你的AI生成的图像易于使用、不需要注册或登记、免费生成无限的AI图片、每次生成9张创意图片8DeepDreamGeneratorDeepDreamGenerator是一个流行的在线AI艺术生成工具。它非常容易使用,并配有一套创建视觉内容的AI工具。DeepDreamGenerator可以从文本提示中生成逼真的图像,将基础图像与著名的绘画风格合并,或者使用在数百万张图像上训练过的深度神经网络,在原始图像的基础上生成新图像易于使用、能够创建现实的和抽象的图像、有3种AI模型可供选择9StarryAIStarryAI是一个自动AI图像生成器,可以将图像变成NFT。它可以用机器学习算法处理图像,不需要用户的任何输入。StarryAI最好的一点是,它为你提供了所创建图像的完全所有权,可以用于个人或商业目的快速和易于使用、适用于安卓和iOS设备的AI图像生成器应用程序、可作为NFT生成器使用、能够创建现实的图像、抽象的图像和产品效果图7.4多模态大模型与AIGC应用AIGC图像生成2.典型图像生成工具序号工具名称工具简介主要特点10Artbreeder利用机器学习,Artbreeder通过重新混合图像来生成具有创造性的和独特的图像。你可以用它来创造风景、动画人物、肖像和其他各种图像。然而,生成的图像的质量不如其他AI图像生成器好。Artbreeder的一个先进功能是,它提供了成千上万的插图,并允许用户在文件夹中管理它们,并以JPG或PNG格式下载它们创建不同的图像变体;生成风景画、动漫人物、肖像画,以及更多。在文件夹中管理插图,可下载JPG和PNG格式的插图11PhotosonicPhotosonic是一个基于网络的AI图像生成工具,它可以让你通过最先进的文本到图像的AI模型,从任何文本描述中创建逼真或艺术的图像。它可以让你通过调整描述和重新运行模型来控制AI生成图像的质量、类型和风格使用方便、快捷;10个免费的图像生成;有充分的权利将生成的图像用于任何个人或商业目的12DeepAI这是一个AI文本到图像生成器。它的AI模型是基于稳定的DIFFusion,可以从文本描述中从头开始创建图像。DeepAI是免费使用的,允许你创建无限数量的图像,而且每张都是独一无二的。它还有一个免费的文本到图像的API,开发者可以用它来连接到另一个软件项目。然而,其质量并不像本文列出的其他AI图像生成器那样逼真易于使用;免费生成无限的图像;文本到图像的API访问;创建独特和有创意的AI图像7.4多模态大模型与AIGC应用AIGC图像生成2.典型图像生成工具13BigSleepBigSleep是一个来自文本的AI图像生成器,它基于Python,使用神经网络来创建图像。它在GitHub上,是开源的免费使用、能够从文本中产生一些优秀的图像、可以选择以高达1024×1024像素的分辨率导出图像14PixRayPixRay也很容易使用,是一个很好的入门工具。AI图像生成器使用感知引擎。这些引擎的工作原理是将图像划分为被称为瓦片的小方块。然后,用户可以操纵这些瓦片来改变任何给定图片的外观。该应用程序还允许用户添加运动模糊和光影效果。这个应用程序最好的一点是,它允许用户创建高质量的图像,而不需要学习代码。它还支持许多文件格式,因此用户可以在PixRay中制作图片后转换它们。PixRay的一个缺点是,它缺乏一些竞争对手的额外功能,如纹理生成或编辑工具使用简单、每次处理不同的图像、高质量的图像和精确度7.4多模态大模型与AIGC应用AIGC图像生成3.图像生成的应用场景AIGC图像生成是计算机视觉领域的重要组成部分,其典型应用场景包括图像分类、图像分割、图像生成、图像风格转换、图像修复、图像超分辨率等。随着近年来AI技术所取得的一系列突破性发展,再结合数字信号处理技术、传感技术、虚拟现实技术的快速发展,AIGC图像生成目前已经广泛应用在各行各业的场景中。7.4多模态大模型与AIGC应用AIGC图像生成3.图像生成的应用场景图像分类、图像分割:图像生成和图像风格转换图像修复:图像超分辨率:7.4多模态大模型与AIGC应用AIGC音频生成1.AIGC音频生成的含义AIGC音频生成是指利用AI技术根据所输入的文本、语音、图像、视频等初始信息合成相应的音频的过程,主要包括根据文本合成语音(TTS,Text-To-Speech)、不同语言之间的语音转换、根据视觉内容(图像或视频)进行语音描述,以及生成特定声音、音效、音乐等,如表7-7所示。7.4多模态大模型与AIGC应用AIGC音频生成1.AIGC音频生成的含义序
号输入类型音频生成方式语音场景1文字信息提取文字信息并合成语音信息信息播报、人机交互2音频信息根据给定的语音片段进行识别和理解,进一步按要求进行语音合成或者将一种语言转换成另一种语言的语音信息语音编辑、语音理解、语音合成、语言转换、音乐制作3肌肉震动对喉部、面部等肌肉运动情况进行感知并合成语音智能可穿戴设备、元宇宙4视觉内容对图像、视频等视觉内容进行识别和理解,并生成与口型对应的语音信息虚拟主播、智能数字人、平行数字替身7.4多模态大模型与AIGC应用AIGC音频生成2.音频生成技术与模型组成语言声音的结构包括音色、音量、音素、音节、音位、语素等,组成音乐声音的结构包括响度、音调、音色、噪声与和声等。音频生成能够对这些基本单位进行预测和组合,通过频谱逼近或波形逼近的合成策略来实现音频的生成。按照输入数据类型的不同,音频生成可以分为根据文字信息、音频信息、肌肉震动、视觉内容等输入信息进行的声音合成。7.4多模态大模型与AIGC应用AIGC音频生成按照场景的不同,音频生成又可以分为非流式语音生成和流式语音生成。其中,非流式语音生成可进行一次性输入和输出,强调对整体语音合成速度的把握,适合应用在语音输出为主的相关场景;流式语音生成则可以对输入数据进行分段合成,响应时间短,应用在语音交互相关场景中,能够带来更好的体验。决定音频生成效果的关键因素主要包括生成速度、分词的准确程度、合成语音的自然度,以及语音是否具有多样化的韵律和表现力等。音频生成在智能客服、语音导航、同声传译、音乐和影视制作、有声书阅读、数字人等场景均有广阔的应用空间。另外,近年来音频生成设备在医疗领域也显现出了巨大的应用潜力,例如帮助语言障碍者与他人进行交流,方便视觉障碍者有效获取文本和图片信息等。表7-8给出了音频生成的主要代表模型。7.4多模态大模型与AIGC应用AIGC音频生成序
号模型名称开发机构功能特色是否开源1Tacotron2Google最早提出端到端语音合成模型,作为多个语音合成系统解决方案框架开源2Transformer-TTSGoogle基于Tacotron2和Transformer的结合,是目前主流的端到端语音合成框架开源3AudioLMG
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水泥柱模具施工方案
- 楼盘楼面花架施工方案
- 石材外墙施工方案
- TSHLX 005-2024 太阳能电池边框用铝合金型材
- 二零二五年度美甲店营销推广合作框架协议
- 二零二五年度人力资源服务销售提成与职业规划合同
- 二零二五年度石油开采施工安全协议
- 二零二五年度重庆市文化创意产业园区租赁协议
- 二零二五年度农机作业与农业风险管理合作合同
- 2025年度旅游代理代签合同授权委托书模板
- 山东省专升本综合一(机械设计制造及其自动化)模拟试卷1(共264题)
- 某港口码头工程施工组织设计
- 资产运营总经理岗位职责
- 2024-2025学年新教材高中英语 Unit 6 Earth first理解 课文精研读教案 外研版必修第二册
- 2024中华人民共和国农村集体经济组织法详细解读课件
- T-CPQS C010-2024 鉴赏收藏用潮流玩偶及类似用途产品
- 110kV变电站专项电气试验及调试方案
- 2024时事政治必考试题库(预热题)
- DZ∕T 0215-2020 矿产地质勘查规范 煤(正式版)
- 威图电柜空调SK3304500使用说书
- 多图中华民族共同体概论课件第十一讲 中华一家与中华民族格局底定(清前中期)根据高等教育出版社教材制作
评论
0/150
提交评论