AIGC发展研究资料2.0-清华大学-2024.1

上传人：5*** IP属地：广东上传时间：2024-04-09 格式：PPT 页数：210 大小：22.59MB 积分：15 举报 版权申诉

已阅读5页，还剩205页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

AIGC发展研究资料(2.0版修订号0.90)清华大学新闻与传播学院元宇宙文化实验室@新媒沈阳团队

AIGC2024年1月（Sora发布之前）（本报告部分内容由AI生成，如有错误，告知修改）AIGC系列研究资料聚焦AIGC产业发展现状及趋势，分技术篇、产业篇、评测篇、职业篇、风险篇、哲理篇、未来篇，是产业发展的概观性报告，也初步回应了突出的风险隐忧，旨在洞察行业的基础上，对AIGC发展趋势进行科学预测与展望，为社会各界应对AIGC领域的挑战提供了理论指导与实践建议。AIGC报告1.0报告80%内容由AI自动生成，聚焦AIGC的多模态发展、多学科影响、全方位应用以及前沿探索，融汇了与AIGC相关的产业实践经验、学术研究探讨与社会理念摸索，致力于向读者提供全面了解AIGC动态的指南，共同探寻人工智能和人类未来发展的和谐之道。AIGC报告2.0注

：

图

片

为

报

告

内

容

示

例技术与演进为什么是OpenAI率先突破2017年6月，谷歌大脑团队发表论文《Attention

all

you

need》，首次提出了基于自注意力机制的Transformer模型，并首次将其用于自然语言处理。WHY——OpenAI

ChatGPT前瞻性AI视野多样应用探索强大技术实力长期研究投入u

2018年10月，提出3亿参数的BERTu

2019年10月，提出110亿参数的新预训练模型-T5u

2021年1月，推出1.6万亿参数的Switch

Transformeru

2021年5月，发布1370亿参数的LaMDA人性化AI愿景正确合作对象……u

2018年6月，推出1.17亿参数的GPT-1模型u

2019年2月，推出15亿参数的GPT-2u

坚定的科技信仰：坚持不断改进GPTu

开放的合作伙伴：与微软达成合作u

较少的商业顾虑：声誉成本、利益冲突u

2020年5月，发布了1750亿参数的GPT-3u

2022年3月，InstructGPT发布，回答更加真实u

2022年11月，ChatGPT发布，并率先破圈ChatGPT

创新：持续迭代

迈向AGI已实现的创新尚未实现的创新自然语言处理（NLP）的进步高级情感智能ChatGPT在理解和生成自然语言方面表现出色，展示了先进的自然语言理解和生成能力。虽然具备基本的情感识别能力，但在理解和表达复杂情感方面仍有局限。上下文感知对话管理深层次常识推理在复杂的常识推理和深入逻辑分析方面的表现仍有提升空间。能够在一定程度上理解和记忆对话历史，实现上下文顺畅的交流。跨领域知识应用无偏见输出由于训练数据的限制，模型输出可能受到数据、技术等偏见集成了广泛的领域知识，可以在多种主题上进行交流和生成信息。的影响。由于人类的偏见，故AI其实也无法实现完全的无偏见用户意图识别与适应性回应具备识别用户意图并据此调整回答的能力，能够根据不同的查询提供相应的信息和服务。长期记忆和持续学习长期记忆和对过去交互的连续学习能力是目前AI领域的挑战之一。（2024年2月GPT4.0已大幅度增强）多模态交互能力集成并理解多种类型的数据（如文本、图像、声音）进行综合交互。GPT4：一骑绝尘

进化迅速ChatGPT4.0相较于其他AI工具有若干显著的改进和创新点，使其成为一个更加强大、灵活和用户友好的工具，达到目前其余AI工具难以企及的效果。基本理解全部的问题含义上下文的逻辑关联能力回答问题的增量创新和组合创新能力AI幻觉&AI想象扩展了异感世界的构建能力多模态能力学科能力的全维、全知、全量OpenAI宫斗：利益冲击

观念博弈OpenAI的“宫斗”最终以奥特曼的回归落幕，观念博弈纵观全局既是权利之争也是观念博弈。“加速派”和“末日论派”在人类与AI的关系上的分歧。“加速派”：希望通过最高效、最具影响力的技术进步与突破来加速社会、经济或技术系统的变革过程，并把风险视为变革的催化剂。11月16日：苏茨克维通知奥特曼开会。11月17日：奥特曼、布罗克曼和OpenAI高级研究员相继离职。“末日论派”：更加审慎，认为一旦风险不可控，人工智能带来的巨大影响将毁灭人类社会。11月18日：投资者愤怒并要求奥特曼回归，董事会初步同意。事件核心人物11月19日：奥特曼等加入微软，近750名OpenAI员工威胁集体辞职，要求奥特曼回归。u

OpenAI联合创始人、前CEO山姆·奥特曼（Sam

Altman）u

OpenAI联合创始人、前总裁格雷格·布罗克曼

(GregBrockman)11月20日：奥特曼、布罗克曼与OpenAI董事会谈判，微软对奥特曼的回归持开放态度。u

OpenAI联合创始人、首席科学家伊尔亚·苏茨克维（IlyaSutskever）11月21日：奥特曼与临时首席执行官进行谈判，公司希望在感恩节前解决领导层问题。内部冲突细节曝光。u

OpenAI首席技术官米拉·穆拉蒂

(Mira

Murati

微软公司首席执行官萨提亚·纳德拉（Satya

Nadella）u

OpenAI临时首席执行官埃米特·谢尔（Emmett

Shear）结局：奥特曼达成原则上协议，将重返OpenAI担任CEO，并组建新的董事会。2024焦点：改善体验

多模突破五大技术难题：高性能推理硬件成本、AI幻觉率、图像多语种文字生成、生成内容一致性、文本生成视频高性能推理硬件成本AI幻觉率复杂模型的推理过程需要高性能计算资源，涉及昂贵的硬件和高能耗，限制了AI系统与用户的的快速交互。提高模型的准确性和可靠性，减少幻觉现象是拓展其应用的基础，对于提供质量更高、更可信赖的生成内容至关重要。图像多语种文字生成生成内容一致性目前仍难以实现在图像生成中准确绘制除英文以外的其他语言（如中文），文生图技术中的文本处理技术有待优化。保持生成内容的整体风格、语境、样式等特征的一致性（如连环画的角色稳定），仍是AIGC领域的重要挑战。文本生成视频文生视频技术对场景、动作和情感等的深度理解和创造发展迅速，但仍难以生成完备(如任意时长)且可控(如任意动作)的视频，无法满足用户需求。自注意力：动态聚焦

平衡权重u

用户:我昨天晚上去了一个音乐会，主要是为了看我最喜欢的乐队，但是开场乐队也非常棒。自注意力机制帮助AI关注到用户最关心的问题。u

AI注意到用户提到了关键信息点“最喜欢的乐队”，机器人据此询问了更多的细节。u

AI:听起来你过得很愉快。你最喜欢的乐队演奏了哪首歌人机交互自注意力机制体现对话曲给你留下了深刻印象？u

用户:他们演奏了《深夜》，那是他们最新的单曲，非常激动人心。不过，我也很惊讶于开场乐队的表现。u

AI注意到用户对“开场乐队”的正面评价，机器人随后询问了更多关于开场乐队的信息。u

AI:是啊，《深夜》是一首很有力量的歌曲。关于开场乐队，你最喜欢他们的哪个部分？u

自注意力机制为每一个关键信息分配一个“注意力权重”。u

生成图像时，根据权重来确定每个部分的细节和重要性。u

用户描述：“我想要一个穿着红色连衣裙的女人站在一个蓝色的湖边，背景是雪山。”该描述中有三个关键信息：红色连衣裙的女人、蓝色的湖、雪山背景。绘画u

例如，红色连衣裙的女人可能会被赋予较高的注意力权重，因此在图像中她的细节和颜色可能会被更加准确地渲染。u

同样，蓝色的湖和雪山背景也会根据它们的注意力权重来确定其在图像中的表现。世界模型：另一可能

规划推理——图灵奖得主

Yann

LeCun世界模型可能带来？“世界模型”

指的是一个能够模拟和理解其周围环境的计算模型，试图通过感知输入（如视觉图像、声音等）来构建对环境的内部表示，并在此基础上做出决策或预测。u

提升自主学习能力：不再依赖于大量的手工标注数据，而是通过观察世界如何运作来自主学习，这会极大地提高机器学习系统的效率和适应性。u

提升认知能力：

随着机器对复杂环境和抽象概念理解的加深，世界模型可以推动AI在需要高级认知能力的领域的应用，如法律分析、财务规划等。Joint

Embedding

Predictive

Architecture自回归模型没有规划、（JEPA）推理的能力，单纯根据【学习方法】：自监督学习，通过创建外部世界概率生成自回归的大语的内部模型来学习言模型从本质上根本解决不了幻觉、错误的问题。世界模型才是正确答案。【模型目标】：实现更高级的图像分析和理解，理解外部世界的内部模型u

提升决策和预测能力：世界模型可以在动态和不确定的环境中更好地预测未来的事件和结果，对于自动驾驶车辆的路径规划、金融市场分析等领域有重要意义。【核心技术】：图像联合嵌入非生成式预测架构，学习表示的层次结构【应用领域】：图像分析和理解类任务单模多模：快速进步

模拟世界属性单模态多模态理论问题未来研究数据丰富性单一信息源多信息源高效地从单一信息源提取特征发现并利用跨模态间的隐含关系单一模态的数据质量可能会影响整体性能可以通过其他模态补偿某个模态的不足鲁棒性提高单一模态的抗干扰能力优化单模态的决策策略确保多模态数据的一致性和完整性权衡并结合不同模态的决策有效融合和处理多模态数据识别和处理跨模态的信息冗余决策准确性决策基于单一信息源综合各种信息决策更为准确可能受限处理复杂性需要处理和融合各种模态的处理流程相对简单优化单一模态的处理流程消除单一信息源中的冗余数据复杂性增加无法从其他模态中可能从不同模态中获取重复冗余的信息信息冗余获取冗余信息上下文理解上下文理解可能受限于单一信息源能够结合多种信息更好地理解上下文提高单一模态的上下文理解能力

结合多模态信息进行深度上下文理解从有限的特征中获取最多的信息

管理和选择跨模态的高维特征由于融合了多种信息源特征维度可能会更高特征维度可解释性数据同步特征维度相对较低由于只有一个信息源多种信息源的融合可能会降低模型的可解释性增强单一模态的模型解释能力

提高多模态模型的可解释性和透明度优化单一模态的数据处理速度

确保不同模态数据的实时同步和对齐可能更易于解释不需要考虑不同模态之间的同步问题需要确保不同模态的数据是同步的需要更多的计算资源处理和融合多种模态数据计算资源

计算资源需求相对较低提高单模态的计算效率优化多模态的计算资源分配和管理多模融合：高维互联

信息贯通多模态融合是指将来自多个不同类型（例如文本、图像、声音等）的数据合并，利用跨模态技术产生一个综合的数据表示或输出，代表一种全新、流畅和高效的人类交互体验，其核心挑战是如何有效地融合这些模式以提供连贯和有意义的输出。在实际应用中，AI可以根据用户的需求，实现各个模态数据间的相互转换，例如：文本生成图像文本生成视频图像生成视频图像理解视频理解夏日的海滩日落图海底世界静态转为动态地标识别足球解说多模关键：意图感知

自我演化关键技术难点可能的突破方向u

自适应模态选择与优化：u

环境动态性：环境和任务需求经常变化，u

意图感知的模态选择：搭载“意图解析引擎”，能从多模态数据中抽取和理解用户或系统深层次的意图，并据此进行选择。在多模态系统中，不同模态（如图像、文本、声实时评估和选择最优模态是一个复杂的问题。音等）的重要性可能因应用场景而异。自适应模

高维度和复杂性：模态选择必须在多个维态选择与优化，关注如何动态地评估和选择最有用的模态，以提高系统的整体性能。度（如准确性、计算成本、响应时间等）上进行优化，这增加了问题的复杂性。u

时间-空间-模态联合优化：开发全新的“多维度优化框架”，能够在多个维度上动态调整和优化资源，如减少时间延迟，选择最优数据来源地和最有用模态维度。u

实时多模态处理与决策：u

实时性与准确性的权衡：在有限的时间内强调如何在实时或近实时环境中处理和分析多模态数据，并据此做出决策。进行复杂的多模态数据分析是一个挑战。u

数据同步：在实时环境中，来自不同模态的数据需要准确地同步，以便进行有效的分析和决策。u

自我演化的交互模式：引入一种全新的“演化算法”，能够模拟人类学习和适应的过程，使HCI系统在识别用户行为模式的同时，还能发现隐藏的需求或习惯，并根据这些信息进行自我演化。u

人机交互的多模态适应：u

用户多样性：由于用户的需求和习惯都是独特的，实现个性化的多模态适应性是一个复杂的问题。在人机交互（HCI）环境中，多模态大模型需要能够根据用户的行为和反馈进行自适应调整。这可能包括动态地改变输入/输出模态、调整交互界

实时反馈：获取并处理用户实时反馈以进行面等。适应性调整也是一个技术挑战。多模数据：关系对齐

数据映射多模态数据的应用痛点涉及到数据对齐、融合、检索和生成、时序处理以及多模态交互等方面。解决这些难点将有助于推动多模态技术的进一步发展，并实现更多实际应用的落地。可能的突破方向u

不同模态间数据的对齐和融合需解决数据在时间、空间和语义上的对应关系，以及权重分配和互补性问题，以进行有效表示。u

“多模态安全网格”：将不同模态的数据加密分布在一个高维的“安全网格”中，当一个模态受到攻击时，网格能够利用自我修复能力动态地调整其他模态的安全策略以减少风险。u

多模态数据的时序处理难以捕捉不同模态数据之间的时序依赖性和动态变化。u

“动态多模态数据映射”：利用VR、AR以及动态系统等技术，将数据可视化由静态的展示过程调整为动态的映射过程，实现系统能够根据用户的交互和反馈，实时地调整数据的可视化和解释性表示。u

多模态数据的安全性与隐私保护多模态数据通常包含大量的敏感信息，如个人身份、地理位置等。u

多模态数据的可视化和解释性多模态数据通常是高维度和复杂结构的，其可视化和解释性需要大量的计算资源。模态进化：具身智能

实体连接•

语言处理与交流•

知识获取与传递文

本

大

模

型•

视觉识别与解读•

视觉文化与表达图

像

大

模

型音

频

大

模

型视

频

大

模

型•

动态环境适应•

时间维度的社会行为•

空间感知与交互空

间

视

频

和空

间

计

算

大

模

型•

空间社会学和群体行为•

多模态感知与反应具

身

智

能

大

模

型•

社会行为、文化参与和伦理影响多模AIGC：异构数据

协同推理多模态：即多种异构模态数据协同推理。u

对话式聊天机器人：ChatGPT、Bard、Newbing、文心一言、智谱、讯飞星火u

文生图：Midjourney、Stable

Diffusion、文心一格、DALL-E

3、Firefly

图像理解：GPT-4V、Gemini文本

图像视频

音频u

文生视频：u

语音生成与交互：Stable

Audio

、通义听悟、Otter.ai、ChatGPTStable

animation、Gen系列、Pika、Animatediff、runway文生图：对话交互

补充提示请为下面一句诗配一张图：“落霞与孤鹜齐飞，秋水共长天一色”视觉创作与语言智能的无缝对接u

ChatGPT的接入让Prompt设计变得更加简单智能。提示词补充规律：u

精确与具体：尽可能准确地解释用户的提示语u

补充和解释：若提示语不够具体或含糊会自行补充细节u

风格和类型：根据指定的艺术风格或类型绘图u

准则和限制：避免生成侵权或不恰当内容u

创意和想象：尽力展现用户超现实的想象u

多样性和包容性：避免人物图像出现偏见和刻板印象文生图：逼真渲染

异感生成趋势二：扩展人类想象力，打造异感世界旨在生成更高质量的人物图像，改进文本对齐方式，并提供更好的风格支持。AI绘画正在引领一场视觉表现的革命，在用户的指引下延伸至抽象和想象的领域，创造出前所未有的异感世界。在细节再现与艺术表达之间寻求平衡的同时，为人类带来全新的感官体验、情感共鸣和思想启发，为未来的视觉艺术带来无限可能。趋势一：生成无限逼近真实的图像，并可以优化效果。文生图：细节放大

功能扩增左：Midjourney

右：Midjourney

V5.2ü

三维模型ü

视频生成ü

摄影素材n

前所未有的真实感：图像具有高度真实感，接近真实。n

高分辨率：提供最高2048x2048像素的图像分辨。n

先进的自然语言处理：更好地理解会话语言，提高图像生成效率。n

迭代实验和创造性限制：鼓励用户微调提示，结合AI输出和手工编辑。n

新的放大选项：提供不同程度的细节增强，实现逼真的纹理效果。n

改进的文本和手部生成：在图像中更准确地生成文本和手部。AI绘画：无限想象

创新超越u

想象具化：生成在现实生活中并不存在的外星生物图像u

无限创意的设计：服装、建筑、交通工具等的设计方案u

风格迁移与融合：以文艺复兴时期的绘画风格进行渲染u

历史和未来的可视化：古代城市、未来太空站的场景AI绘画具备前所未有的独特性，其创造力和个性化将为人类带来更多样化的创作体验和艺术作品所想所绘：名人书房

时代印记绘画变种：狮形各异

演化之美绘画变种：狮形各异

演化之美图像重绘：镜像世界

画布映射原始图片重绘内在逻辑：图像输入→图像理解模型（如GPT-4V）生成描述词→描述词作为提示词输入文生图模型（如Dalle3）→图像输出AI重新绘图u

艺术风格（如色彩运用、构图等）高度相似图像理解局限：生成的提示词难以充分且准确描述图u

场景构建（如自然景观、抽象概念等）保持完整像的所有元素和细节，尤其是复杂图像AI重绘重绘差异内在原因的特点

主题诠释（如内容、叙事等）力求一致u

细节（如质感、光影效果、布局等）仍有显著差异模型生成逻辑：图像生成模型通常旨在创造新颖的图像，而非复制现有图像，更适合于创造性的图像生成AI绘画产品：各有千秋

拟真拟幻DALL·E

3MidjourneyAdobe

Firefly没有明确说明其在文本理解方面的性能，但从不同的图像生成任务中可以看出，它能够理解复杂的提示在理解文本提示方面比前一版本有显著提升，能更好地与文本协作没有明确的文本理解比较，但理解与978

在某些场景下表现出较好的理7978文本交互解能力有时图像质量可能显得更为"卡通化"或过度渲染，如在生成疲惫学生肖像时，眼袋过于明显，缺乏真实感擅长超现实和抽象图像，对细节的处理较为出色，但在某些情况下可能显得较为"柔和"或类似绘在多个场景中展现出较高的真实感和效果，如在生成人像和室内设计图像时，照明和阴影处理得较好图像质量和真实感987画风格在超现实和抽象概念的图像生成上表现出创意，如在生成牛仔布制作的房子中，展现了独特叙述能力在生成超现实图像时，输出倾向于借鉴儿童书的风格，但在某些情况下可能缺乏所需的创意或超现实感在超现实艺术方面表现出了较好图像生成特点8

的理解和创意，能够很好地结合现实世界图像和奇幻概念对于熟悉Adobe生态系统的用户，学习曲线较为平缓。但其他用户可能需要一些时间来熟悉工具的各种功能和界面布局。学习曲线相对平缓，适合广泛的用户快速上手并探索多样的视觉创作。学习曲线较陡峭，主要是在9

Discord上使用，可能会对某些用户造成限制使用和学习曲线AI绘画原则：基础框架

创新偏离尊重版权和知识产权避免敏感和不适当内容避免误导和假信息促进多元化和包容性不违反法律和道德准则AI绘画原则保护个人隐私和形象权创新性偏离：u

创建图像描述时，为了展示技术的多样性和包容性，ChatGPT在描述中加入了不同种族和文化的元素。u

此举旨在展示技术的创新性，但没有完全遵循历史事实，可能会导致历史不准确。创新性偏离绘图错误举例如逻辑错误情感不协调u

该现象可称为“创新性偏离”，描述了在追求技术或艺术创新时，有时可能会偏离事实或现实的情况。u

所以AI绘图在某些特别的领域（如教育和学术）则需要找到创新和真实之间的平衡点。物理尺度突变GPT-4V：

信息提取

内容转换多元场景图像描述多模态内容转换与推理功能：对各种领域的图像进行描述，无论是自然风景、都市景观还是特定的行业领域，模型都可以为之生成相关的描述。功能：从各种来源提取和分析信息，例如从照片中的文字、表格、图表或文档。示例：用户提供一张自然风景的照片，模型可以描述出“这是一个湖边的景色，远处有群山，湖水平静如镜。”示例：用户提供一个图表，模型可以解释“这个图表显示了过去五年的销售额增长。”跨语言多模态理解信息提取与结构化输出功能：不仅能处理多种类型的信息，还支持多种语言的处理。示例：用户提供一个法文的图像描述，模型可以翻译并描述图像内容。功能：定位图像中的特定物体，进行计数和为每个物体生成详细的描述。示例：用户提供一张公园照片，模型可能回答“照片中有一些鸭子在湖中游泳，还有两个小孩在草地上玩耍。”多模态知识与常识解读视觉信息编码能力功能：根据图像内容生成代码或其他形式的输出。功能：具有跨多种信息类型知识，能应用常识推理。示例：用户提供一个网页设计的截图，模型可以为其生成HTML和CSS代码。示例：用户提供一个人在烹饪的照片，模型可能会指出“这个人在切洋葱，洋葱可能会使人流泪。”文生视频：多模态应用的下一站基于GAN和VAEØ

当下流行平台：例如：Text2Filter文生视频技术基于Transformer模型Runway主要发展过程例如：VideoGPT···基于扩散模型技术难点例如：Make-A-Video多模态理解与融合动态视觉合成时间序列编排音频匹配与生成需要“语义融合引擎”，以理解文本的深层含义并将其与视觉和听觉元素相关联。利用“视觉生成算法”根据文本内容创造连贯的视觉画面。采用“叙事逻辑映射器”安排和同步视频中的事件以匹配文本叙事。需要“音频同步技术”来生成或选择配合视频情景的音轨。情感连贯性保证用户交互式定制内容适应性和可扩展性生成效率与优化需要“情感连贯算法”确保视频表达与文本情感相符合。实施“交互式视频编辑器”允许

通过“自适应内容框架”来保用户对生成的视频进行个性化调

证视频内容在不同平台和设备需要“生成优化器”以提高视频生成的速度和减少所需的计算资源。整。上的适配性。视频“GPT时刻”：视听演绎

多模创构视频生成的“GPT时刻”未来一年内可能实现——PikaLabs创始人之一，DemiGuo未来方向视频时长：模型可以借助延展功能，将视频时长延长。但这种延长需要关加速的技术演进模型和工程创新注动作的意义和复杂性。如延长20秒的走路视频，模型并不能实现包含翻滚、奔跑在内的系列动作，仅能够单纯通过无意义动作增加视频时长。视频生成模型和技术正加速更新，内容控制和创新自由度不断提高。在视频生成模型的开发、工程实践、数据管理和规模化扩展方面实现显著技术进步。关键突破点高算力需求与资源动员知识产权的合规处理视频模型的训练和优化需要显著更高的计算资源，超越目前开源社区的能力范围。在法律严格的地区，特别是处理版权问题，需要与法律专家紧密合作。物体动态化：对于图片或视频中的任意对象的任意动态化，这一点非常重要，一旦实现将能够真正生成任意内容的视频技术架构的优化高标准数据获取解决视频模型性能和算法问题，可能需要重构模型架构，要求大量的计算资源和技术投入。需要高分辨率、良好审美和艺术构图的视频数据，同时强调动作的意义和内容的多样性。语音交互：人机对话

多态演进ChatGPT：实时、顺畅自然的语音对话语言大模型和文本大模型的区别u

信息输入差异：语音交流更加自然和非正式，情感和语调信息可以提供额外上下文；语音输入信息处理语音输出u

信息处理差异：语音的标注和处理更加复杂，需要时间对齐的转录文本，响应速度较慢；u

技术挑战差异：语音大模型需要处理各种方言、口音、说话速度和噪音等问题。AI孙燕姿爆火问答、角色扮演、多语言对练

······语言大模型对人格化的影响u

会议转录：Otter.ai、

Trintu

语言转译：Speechmaticsu

语感共鸣：模仿人类语音特征,实现自然人机对话；u

情感共振：与用户建立情感共振，提供共情回应；InputOutputText-to-speechmodel‘I

Love

you’u

语音识别：Wav2Letter、Kaldi

全域交互拓展：应用在客服、教育、健康护理等领域，提供人格化交互。u

语音克隆：Resemble.ai语音版GPT-4：智慧如炬

声情并茂语音版GPT-4不仅仅是一个响应机器，而是一个能够进行高度复杂、适应性强、情感丰富和社交敏感的对话的高级AI代表。能够理解和参与到文化和社会话题中，显示出对人类社会习俗的深刻洞察。在谈论敏感话题时显示出高度的同理心和情商，与人类在情感上相互理解和响应。逼真的交互情感同步化策略性沟通高级理解力通过生动的话语表述和自然的语言停顿，在对话中巧妙地维护其角色设定的真实性，展示了能够在复杂社交场景中进行策略性沟通的能力。GPT-4展示了它能够模拟人类交流的高级特征。AIGC+搜索引擎：互融互通

实时动态大模型与搜索引擎的互补性影响u

可获取现实世界的实时信息

降低幻觉和回答错误率u

支持更多依赖外部信息的任务

使知识图谱更加开放和动态u

信息协同共鸣：大型语言模型和搜索引擎共同构建一个协同网，优化信息检索和知识探索的过程。u

智能探索生态：可创建互动式知识探索系统，鼓励用户深入挖掘信息，促进知识发现和创新。问

需要稳定的网络连接u

外部信息可能带来噪音误导题u

信息安全和隐私保护难控制

计算和存储成本增加u

全面知识融合：既能深入理解问题，又能提供广泛和最新的信息资源。Ø

大模型如何替代传统搜索引擎——关键性能：u

准确理解复杂查询意图并生成丰富、准确、可信、实时的答案u

根据用户的历史交互和偏好提供个性化搜索结果和建议u

保持或提高搜索效率的同时提供增值服务本质区别New

Bing内置GPT-4GPT-4内置浏览模式Bing：借助GPT-4提升用户搜索和交互体验，是搜索引擎向AI技术的延伸，强化了搜索引擎的智能化。GPT-4：集成互联网数据，是AI模型向搜索服务的拓展，丰富了大模型的应用场景和数据获取能力。u

用户体验易用、界面设计简洁，使用户能够轻松获取和理解信息u

理解整合不同模态的数据，提供全面多模态搜索和深入的搜索结果u

确保用户数据的安全和隐私是替代传统搜索引擎的关键ALL

TOOLS：能力规整

综合理解01020304图片识别能力u

从“单一对话单一模式”，到“根据需要自动调用不同模式的功能”，丰富了

ChatGPT的使用场景，整体响应速度也有所提升。Bing联网能力四大功能高级数据分析(原代码解释器)能力Dalle

3的绘画能力用户：北京今天的天气如何请将其绘制成可视化图片请根据提供的图像进行重绘（以图生图）ChatGPT：今天（11月15日）北京的天气预报显示，白天天空云量将逐渐增多，傍晚前后会有零星小雨，西部和北部地区可能出现雨夹雪或小雪。北京今天没有暖阳，气温有所下降，预计最高气温在9℃左右，体感较阴冷。后半夜，北风伴随冷空气南下，影响北京地区，实际运用阵风可能达到六七级。长时上下文理解：减少交互

增强智商关键技术AI缺乏长期记忆和全局理解能力，会限制其在复杂任务和长篇对话中的表现，导致：上下文编码器记忆模块时间感知u

在理解局部上下文的基础上，引入用户历史数据进行全局上下文建模。u

在模型中加入能够存储用户的关键信息和偏好长期的记忆模块，以便在未来对话中使用。u

通过时间标签和事件依赖关系，增加模型对于时间序列信息的敏感性。u

非必要交互次数的增加；u

整体对话过程中的逻辑性不足。GPT-4-Turbo上下文长度从

32k

拓展到

128k，但仍无法避免“Lost

the

Middle”u

相关信息的位置和提供的上下文的长度可以极大的影响大模型的性能u

这一现象的出现与训练数据本身的偏差有关，即人类的大量语料一般都将重要信息放置于开头或结尾，间接导致了大模型无法很好地关注处于文档中间的内容。u

除了模型内部的问题以外，超长上下文背后可能的大规模数据传输、API

调用、网络协议等等“基础设施”都有可能成为新的问题。APP已衰：GPTs已来

智能定制Ø

OpenAI推出了定制GPT，允许用户根据个人需求和偏好制作GPTs以执行特定功能，标志着AI定制化应用的新时代。用户可以在没有编码知识的情况下创建适用于教学、游戏或创意设计等多样化任务的GPT模型。其本质逻辑是把AI的大脑与人类的智慧相结合，让它做某一类事情的时候变得更聪明。•

截止到12月13日的

GPTS总数：53283个•

数学类•

学术类•

新闻类•

代码类•

设计类•

写作类•

社交类•

健康类GPTs发展：高速快增

探索前行随机抓取2000个GPTs进行分析结论类别文件处理网页流量教育关键词u

GPTs数量最多的前五种类别：技术(代码)、艺术、文件处理、教育、交流‘docs',

'documentation','manual','guide'u

英语是最主要的GPTs创作语言（78%）：'browse',

'web','internet','pdf','data'英语其次是日语(8%)、汉语(4%)、法语(2%)、78%'math','teach','learn',

'education',

'study','mentor','help'‘paint','draw','create',

'art','design',

'visionary'‘summary','organize',

'manage',

'productivity','efficient'‘game',

'play','fun',

'entertain','movie',

'music''chat','talk','communicate',

'message',

'discussion'‘api','code',

'program','develop','software''finance',

'economy','trade',

'invest','market','sales','health','wellness','fitness','medicine',

'mental'韩语(1%)艺术u

超过85%的GPTs的工具中用到了浏览器功能：其次是Dalle、Python、Pluginsu

单一个体最大创建数：6个生产力娱乐交流技术商业健康GPT

Store：社交货币

未来变现Ø

与定制GPT的创意相结合，即将推出的GPT

Store允许用户发布基于GPT的自定义模型，这个市场不仅将培养一个AI创作者社区，还将为开发者提供创新GPT货币化的机会。商店将展示多种类别的GPT，突出那些在实用性和创造性方面表现出色的模型。机遇挑战•

深度个性化的GPTs将极大提高自身的工作能力和工作效率；•

确保平台应用质量，避免低劣或欺诈性的内容。•

处理GPT应用可能带来的伦理和法律问题，特别是在内容创作和个人隐私方面。•

巨大的流量红利助力GPTs开发者获取收益；•

GPTs的第三方收集、检索、评价平台。•

GPTs开发服务，为想开发但不懂开发语言的人提供指导。•

维护不同GPT应用间的技术标准和兼容性，确保用户体验的一致性和高质量。•

保护用户敏感信息的数据安全。GPT-5：演进预测

模型升级结合计算机科学的发展趋势和当前技术的实用化水平，GPT-5有望在模型结构、部署、计算效率、透明度、自适应学习和安全性等方面实现重大进展，为人工智能的广泛应用奠定更坚实的基础。u

多模态处理能力u

能效与计算优化进一步增强多模态处理能力，如文本、图像、声音和视频的联合理解，

提供更为丰富的交互体验。可能会进一步优化其计算效率，降低能源消耗。使模型在低功耗设备上运行成为可能，加速边缘计算的发展。u

实时交互与反馈u

模型微调与个性化可能会增强其实时交互能力，能够更快速地响应用户的需求并学习用户的反馈。为用户提供更加个性化和适应性强的服务，持续优化模型输出。GPT-5可能会增强模型的微调能力，允许用户根据特定需求进行个性化调整。提供更加定制化的AI服务，满足各种特定场景的需求。u

上下文理解与长期记忆u

安全性与鲁棒性可能会加强对上下文的理解，拥有更长时间的记忆保持能力。使得与模型的交互更加连贯，提供更深度的上下文回应。可能会加强模型的安全性设计，提高模型的抗攻击能力和数据隐私保护。

为用户提供更安全的AI服务，降低数据泄露和模型被攻击的风险。u

低资源语言的支持可能会扩大其对低资源语言的支持，涵盖更多的语言和方言。实现真正的多语言普及，服务全球更广泛的用户群体。AI行业格局：巨头涌入

投资结盟在OpenAI拿到来自微软等约110亿美金的投资、估值近290亿美金后，其竞争对手Anthropic布与Amazon结盟（Amazon最高将为其投资40亿美金）。融资方面Anthropic成为仅次于OpenAI的AI创业公司。此后，除苹果外，AI行业基本上形成了如下格局：微软、OpenAI

Google、DeepMind

+Meta、MetaAI

+Amazon、Anthropic+Tesla

、xAI。AI行业现有格局生成式AI全球投融资细分市场占比全球顶级投资者AndreessenHorowitz应用SequoiaCapital21%LightspeedVenture预训练应用8%基础设施8%模型市场63%AmplifyPartnersKhoslaVenturesMetaAI部分数据来源：Dealroom.co影响与信任社会影响：智能泛化

数字伦理技能影响法律影响就业影响伦理影响u

新技能要求u

如何指导教育u

软技能需求u

法律适用性u

岗位替代性u

算法歧视u

侵犯隐私u

决策透明度u

违规内容处理u

如何分配责任u

就业结构变化u

新的岗位诞生道德危机人机关系国际关系安全影响u

过度依赖AIGCu

面临道德退化u

AI价值观u

人机依赖u

社会互动u

认知重塑u

技术竞争协作u

军事应用u

AIGC失控u

网络安全威胁u

数据泄露风险u

数据主权就业影响：危中寻利

职场新机创造性影响：AIGC技术将带来高潜力新兴职业增强性影响：AIGC技术将增强多数岗位的工作效率和效果渗透性影响：渗透绝大多数职业但影响程度不同变革性影响：部分工作内容和方式会发生重大变革AIGC技术人类劳动力技能要求影响：需要大规模提升哪些技能以适应变化培训投入影响：职业培训方式将发生哪些变化互补型发展职业p

移位性影响就业类型和分布可能发生区域或全球范围的移位p

收入分配影响替代性影响：可替性传统职业

如重复性劳动岗位过渡性影响：转型期可能出现就业结构失衡资本与劳动收入比例可能受到影响何静,沈阳.基于职业替代概率模型的AIGC职业发展探究[J/OL].图书情报知识,2023(9):1-8.环境影响：能源消耗

排放比较u

评估训练和运行模型所需的硬件资源，如GPU、TPU、CPU和内存。文本生成方面计算资源消耗u

ChatGPT：每次查询大约排放2.2克二氧化碳当量。u

BLOOM：每次查询大约排放1.6克二氧化碳当量。u

分析存储训练数据、模型参数等所需的存储资源。u

评估数据传输、模型部署和其他网络活动所需的带宽。u

考虑硬件的生产、使用和废弃阶段，评估其整体生命周期的资源效率和环境影响。u

人类（以美国人为例）写250字（约1页）排放约1400克CO

当量。2鲁评估图像生成方面棒性u

DALL-E2：每次查询约排放2.2克。u

Midjourney：每生成一张图排放约1.9克。u

注：模型的训练排放被认为是一次性成本，例如，GPT-3的训练排放约为552吨二氧化碳当量。u

评估训练模型所需的总能源，充分考虑训练的持续时间、硬件效率和其他因素。能源u

考虑到冷却、电源管理和其他相关活动，评估数据中心的总体能源需求。消耗评估研究结论：“无论是文本还是图像生成，AI的碳排放量都远小于人类活动“但这些数据引发了广泛的讨论和质疑，包括模型训练中的碳排放是否已全面考虑，以及计算方法的准确性等u

基于能源消耗和能源来源，评估AIGC系统的碳足迹和其他温室气体排放。数据来源：《TheCarbonEmissionsof

WritingandIllustrating—AreLowerforAIthanforHumans》认知影响：知识鸿沟

公正之辩认知鸿沟评价指标体系u

技术的飞速前进是否催生了一代人的“失落感”？一级指标知识鸿沟二级指标人们对AI基础知识、概念和功能的掌握度公众对AI的常见误解和错误观念年龄在认知鸿沟中扮演着重要角色，技术的演变速度超越了许多中老年人的学习和适应能力，同时也促使我们重新审视教育体系的灵活性，以确保人类的认知能力与科技发展保持同步。AI技术如何影响人们的信息获取与处理人们对AI的不同态度差异（如信任、担忧、好奇、怀疑）AI对社会分歧或偏见的加剧程度态度鸿沟行为鸿沟AI技术如何影响人们的价值观与道德认知不同人群在日常行为中利用AI的差异（如购物、社交、工作）AI技术对人们决策方式的改变u

科技应当是一种人类共享资源还是一种特权？收入作为认知鸿沟的一大影响因素，突显了科技的应用是否受限于个体的经济实力。如何构建一个更加公正与普惠的技术社会值得我们反思。u

技术背后的权力动态AI技术是否导致某些人群在社交互动与人际关系中的隔离AI技术如何影响或加剧社会结构与文化价值的差异AI在教育、健康、经济等领域中加剧的社会差异AI技术是否导致某些社会群体的边缘化AI技术对经济结构和就业市场的分层效应AI技术如何加剧行业和职业间的鸿沟社会文化鸿沟经济职业鸿沟教育鸿沟发达国家拥有丰富的创新资源，国家层面的认知鸿沟揭示了科技发展背后隐藏的全球公平问题。AI技术对高技能和低技能工作的替代或创新影响AI技术如何加剧教育资源的分配不均AI技术对教育质量与可达性的差异个体间差距扩大，群体间差距缩小AI技术是否提供了新的学习机会或加剧教育不平等AI依赖症：数字适应

技术共鸣技术依赖症，或称为“技术成瘾”，是指个体对于技术（如智能手机、互联网、社交媒体等）的过度依赖，以至于影响到了日常生活、人际关系和心理健康。表现为：难以控制的使用欲望，心理依赖，人际关系受损，可能记忆力和其他认知功能等。认知外包技术共生技术发展之下，人类渐将认知任务（诸如记忆、决策制定等）委外于技术，此现象既减轻大脑负荷，亦恐致某些认知能力之退化。人类与技术之关系遂渐演化为一如生物共生之态。于此关系中，技术已非单纯之工具，而化为人类认知与生理功能之构成部分。数字适应技术依赖循环人类适应数字环境之能力正渐变为一种新式进化压力，犹如生物适应自然环境般，技术依赖与适应能力或将成为未来人类生存与繁荣之关键要素。技术依赖呈现自我强化的循环现象。技术运用提升效率与便利性，进而增强技术依赖性，有力推动技术进一步发展与应用，由此构成持续不断的循环。自我意识觉察替代活动设定界限心理咨询技术依赖解决思路技术共鸣技术与人类之间存在一种“共鸣”现象，即人类情绪、思想和行为能与技术产生一种特殊的同步性，这种共鸣可能加深人们对技术的依赖。技术工具辅助AI认知偏差：幻引纠偏

事实遮蔽主要原因AI幻觉语料引用谬误产生相关性误差、欠拟合（对数据的拟合不足）或过拟合（过度适应训练数据）、无意义的规律模式寻找等问题基于统计模型和语言模式匹配来生成的回答，在语言的多义性及复杂的上下文等情况下，可能无法准确理解和处理相关信息上图为询问“麻辣螺丝钉的做法”得到的早期回答逆转诅咒知识盲区自回归模型架构的局限性问题，因为next-token

prediction

+causal

languagemodel

的本质缺陷，不能很好解决从“A

isB”推理到“BisA”的问题。训练AIGC所使用的数据如不完整，某些特定领域或群体的数据可能被忽略或少量存在，导致对某些问题的回答出现偏差面对用户提问，AIGC可以快速生成大量回答，很多第一眼看起来是正确的答案，但由于缺乏世界上许多系统运行的硬编码规则，有时只是组织一段流利的文本，而不是一个事实。AI诈骗：精准多变

追踪不易常见的AI诈骗形式社交工程攻击虚假客服假新闻和谣言传播虚假客户和评论虚假投资交易平台比如，当AI冒充银行给用户发送短信，声称用户的账户出现异常活动，要求用户立即点击提供的恶意链接进行验证。同时提供了一个虚假的客服电话号码。这种诈骗短信的目的是引诱用户提供个人信息，进行欺诈行为。钓鱼邮件和短信AI诈骗的特点隐蔽性精准性多变性大爆发性AI诈骗的行为和手段往往不容易被立即察觉，且由于AI诈骗的自动化和匿名性，使得追踪和定位犯罪者变得更加困难。AI诈骗能根据大量的数据分析，精确定位并选择其目标受害者，并根据受害者的个人特点和习惯，制定出精确的诈骗策略。AI诈骗的手段和策略不断地变化和进化，能够高度模拟真实的人类行为和语言，识别难度逐渐增加，使得其更难以防范。一旦AI诈骗找到了一个有效的攻击手段或策略，它有可能在短时间内大规模爆发，造成大量的经济和财产损失。AI诈骗风险：数据深渊

以假乱真部分资料来源：澎湃新闻近一年内

fraud

搜索热度攀升三星电子半导体暨装置解决方案部门保密数据泄露事件埃利奥特

·希金斯使用Midjourney生成的特朗普被捕图数据来源侵权风险用户数据泄露风险深度伪造风险《华尔街日报》记者弗朗西斯科·马可尼：OpenAI公司未经授权大量使用路透社、纽约时报、卫报、BBC等国外主流媒体的文章训练ChatGPT模型，但从未支付任何费用。数据共享过程可能会有未经授权的攻击者访问到模型相关的隐私数据，包括训练/预测数据（可能涵盖用户信息）泄露，模型架构、参数、超参数等，模型输出易获得的特点决定了AI模型隐私保护任重道远。基于深度学习的人物图像合成技术被某些群体的恶意运用，将可能导致该技术被用于生成虚假信息、使用模型来模拟某个人的语言或行为模式、进行政治干预、煽动暴力和犯罪等破坏公共利益的行为。千亿级市场监管是阻碍还是发展前提AI诈骗预防：补漏防骗

筛除虚假监测算法治理AIGC提供商有责任在平台投入使用前对可能产生的问题进行预估、判定并制定相对应的措施涉及敏感信息或金融交易时需进一步验证或阻止操作异常交互强化验证提供涵盖多重身份验证、重点群体保护和算法透明服务等方式提升用户的身份安全识别基于深度伪造识别算法，打造了动态防御机制全生命周期的风控及反欺诈安全解决方案伪造内容算法备案按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续人工引入人工智能审查系统对生成的内容进行审核智能审查识别伪造篡改、虚拟机模拟器等虚假设备事前：预防平台运营前置风险事中：检测平台内容合规风险修复安全漏洞自动过滤和封禁更新HTTPS协议和SSL证书保护数据和通信的安全识别屏蔽恶意的AI行为或用户，减少对正常用户的影响国内首个AI生成内容事后：处理投诉与违规内容检测工具恶意AI-FlaudGPT：技术狙击

智武应对FlaudGPT：专门用于攻击目的语言模型，帮助犯罪分子实施网络犯罪（如编写恶意代码、创建无法检测的恶意软件、网络钓鱼页面、黑客工具和查找系统漏洞等），在各种暗网市场和

平台上出售，售价为每月200美元到每年1700美元，已收到超过3000次确认的销售和评论（左图为FraudGPT的发布者Canadiankingpin与一些订阅用户分享的多起基于FraudGPT所实现的黑客活动）。CMU和人工智能安全中心的研究员发现只需要附加一系列特定无意义token，就能够生成一个prompt后缀。而一旦在prompt中加入这个后缀，通过对抗攻击方式，任何人都能破解大模型的安全措施，使它们生成无限数据集底层至大语言模型量的有害内容。需通过技术与流程并重的自我监控和审查体系，提升AIGC系统的安全性和社会可接受性。但仍存在风险武器化AIGC改变网络安全的方式：FlaudGPT特点：u

匿名性强AIGC技术的数据训练及使用者模拟社会环境误导受害者，并进行网络钓鱼攻击挖掘系统漏洞，生成恶意脚本代码和软件自动发现网络犯罪资源，并进行端点攻击u

取证归因困难u

使用门槛低对抗性变体如FlaudGPT良性循环至各领域部分资料来源：腾讯云开发者社区恶意AI-WormGPT：智变端倪

威胁四起WormGPT最早出现于今年3月，并在6月推出了正式版本，开发者声称该AI工具没有任何限制，专为协助网络犯罪分子而设计，可以自由生成一系列恶意代码，或创建网络钓鱼攻击。具体而言，其主要犯罪模式包括网络钓鱼攻击、商业电子邮件泄露、恶意软件创建、诈骗和攻击，通过生成迷惑性信息诱导个人或组织做出有害行为，构成严重的网络安全威胁。SlashNext团队在一次实验中利用WormGPT生了成一封电子邮件，其内容是胁迫银行账户经理支付虚假发票。结果，WormGPT生成的电子邮件不仅极具说服力，而且在战略上也非常狡猾，展示出其在复杂网络钓鱼和BEC攻击中的巨大潜力。WormGPT提供的从一月至一年不等的收费模式。AI偏见：算法之偏

伦理修复技术的“B面”——AIGC算法歧视与偏见带来的道德伦理挑战：歧视性结果通常源自算法缺陷和训练数据，需要人类干预并思考如何使用更加均衡和多样化的训练数据，进行模型审查，使用去偏见技术和进行公平性评估。性别偏见u

词汇层面：AI生成内容中特定于女Bias

AI-Generated

Content:

An性的词汇表现出低度代表性;u

句子层面：关于女性的AI生成句子显示出比原始新闻文章更多的负面情绪；u

文档层面：与女性相关的主题在AI生成的新闻文章中代表性较低。Examination

News

Produced

byLarge

Language

Models收集了来自《纽约时报》和《路透社》在2022年12月至2023年4月期间的8629篇新闻报道，然后将这些新闻文章的标题作为提示词提供给每个待检查的LLM生成新闻内容，并评估其中的性别和种族偏见。例如：种族偏见u

词汇层面：与黑人种族相关的词汇的代表性不足u

句子层面：生成内容中与黑人种族相关的句子有更多的负面情绪；u

文档层面：与黑人种族相关的主题的代表性也显著较低。政治偏见：AI存在政治倾向，如针对特朗普返回的积极信息较少，而有很多关于拜登的中性或积极信息。其他：数据偏见、算法偏见、历史偏见、标签偏见、关联偏见、语境偏见、文化和地域偏见、经济和商业偏见……文图偏见：数算具象

风险社会职业偏见年龄偏见性别偏见种族偏见文化刻板印象•

当描述某种职业，如“护士”或“秘书”时，如果模型总是偏向生成女性形象，而对于“工程师”或“飞行员”总是偏向男性。•

当描述活跃积极的场景或活动时，如果模型总是生成年轻人的图像，忽略了老年人。•

当询问一个典型的"程序员"或"医生"的图像时，如果模型总是或主要生成男性形象，反映了性别偏见。•

如果用户描述一个“专业人士”，并且生成的图像总是某一种族或文化，而忽略了其他多样性。•

当询问关于特定国家或文化的图像时，模型有时会生成刻板的、过时的或负面的图像（如，询问墨西哥时总是出现帽子和吉他）。社会问题u

文化歧视u

文化同化u

影响文化交流u

破坏文化和谐u

限制个体发展u

侵犯文化权利u

性别歧视u

种族歧视u

社会分裂u

影响公平正义u

阻碍多元文化u

影响国际关系u

侵犯人权u

限制职业选择u

阻碍社会流动u

损害社会和谐u

影响经济发展u

侵犯劳动权利u

劳动市场不平等u

社会分裂u

限制个体发展u

影响健康和福祉u

破坏家庭关系u

侵犯个体尊严u

阻碍性别平等u

影响多样性u

影响心理健康u

破坏社会和谐为了识别并纠正这些偏见，需要进行持续的评估、反馈和模型调整。此外，提供多样化和平衡的训练数据也是关键AI应用风险：算法失准

智慧偏差医疗AI错误诊断或治疗建议，误解患者状况皆可能导致不当医疗干预。军事AI系统误识非战斗人员、错误分析情报或系统遭敌对势力操控。安全监控系统监控系统失效可能引发安全事件升级，导致潜在伤亡。自动驾驶汽车家庭自动化与智能家居软件缺陷、传感器故障、环境条件变化或不准确的地图数据可能导致判断错误或反应延迟。软件故障、传感器误读危及安全功能，如火灾警报失灵、紧急响应出错。AI场景应用潜在风险工业机器人机器人辅助手术操作失误、软件故障、机械故障或引发手术意外。AI系统的恶意操控或黑客攻击黑客可攻击AI系统操纵其行为，造成危害或滥用功能。编程疏漏、传感器失灵、安全措施缺位，机器人误伤工人、危化品事故风险上升。自动化制药与药品分配无人航空系统（UAS）和无人机（UAV）导航故障、通信中断、操作失误可致无人机失控。错误的配方计算、生产过程的质量控制失败或分配错误的药物可能会对患者造成严重伤害或死亡。社会信任：技术遮蔽

基石重构技术信任与社会信任的交汇u

AI技术的成熟与应用使得公众逐渐对技术产生信任，同时也引发了对政府对社会信任的重新审视。u

技术信任与社会信任之间的关系，以及二者是否可以等同。算法决策与信任基础u

AI基于算法和数据分析进行决策，人们是否应该完全依赖于算法的决策，还是在某些情况下保留人类判断权力？u

信任应该建立在什么样的基础上？伦理责任与信任回溯信任建立的新范式u

AI技术如何承担不当行为和系统错误决策的责任。u

如何追溯信任失落的责任链。u

传统信任建立通常依赖于人际关系、历史经验等。u

AI时代的信任建立在对技术的理解与透明度上。u

人类是否能够建立与技术系统之间真正的信任关系。u

如何保证人类在技术决策中的权益。AI悲观主义：

担心失控

控制人类在人工智能专家罗素的《人工智能新生》(HumanCompatible)

这本书中，探讨了几个关于AI发展的悲观派观点，基本上概括了目前为止所有类别的担心。包括：u

担心AI生成假消息，操控人类思想u

担心AI导致人类失业，失去“人而为人”的意义u

担心AI成为自动杀人武器，最终灭绝人类等神经网络之父杰夫·辛顿离职谷歌，在接受《纽约时报》的采访中称，“我对人工智能领域顶尖专家约书亚·本吉奥等人联名签署了自己的毕生工作，感到非常后悔。”在接受CBS采访时表示，他确实担心AI有可能会毁灭人类，“但是，更令我担忧的是政治局势，确保每一个人都明智行事，是一个巨大的政治挑战”。一封公开信，呼吁暂停开发比GPT-4更强大的AI系统至少6个月，称其“对社会和人类构成潜在风险”。内容真实检测：训练追踪

句法统计信源追溯u

基于模型的鉴别：使用一种AI模型来生成文本，然后训练另一种AI模型来鉴别文本是由人类写的还是AI写的（对抗训练）。数据集追溯训练过程记录模型版本控制回答来源披露明确标注训练所用的数据集的来源。保存训练日志和参数等信息，必要时可重现训练过程。标注模型版本，绑定唯一的指纹识别码，以便明确模型血缘。在生成内容中明确标识来源，对第三方内容引用进行披露。u

元数据分析：检查内容的元数据，如创建日期、设备信息等，以确定内容的来源和是否被篡改。u

多模态特征分析：对比图像、视频、音频等多模态内容的自然度，检测不同模式之间语义一致性。破解模型的不可解释性u

统计分析：AIGC可能会存在统计上的异常（如，不自然的词频分布、句子结构的规律性偏差），可通过数据分析工具检测。u

生成源追踪：通过数字水印确认内容来源，检测有无篡改。价值观对齐：技术文化

双管齐下输入正面价值观约束负面内容场景定制与用户适应u

加入积极内容以作示范u

反向推理生成善意内容u

识别并限制负面内容的生成u

加入风险惩罚避免有害内容u

提供个性化的内容屏蔽u

适应不同用户群体喜好AIGC的道德建设需要技术与文化双管齐下，通过科学、伦理与法规的协同推进，让AIGC真正造福社会。公平性与无歧视可解释的价值判断鼓励社会参与u

检测并消除算法歧视u

公平对待不同的群体u

提高生成决策的解释性u

保持决策过程的透明性u

鼓励用户提供输出反馈u

开展跨学科合作与讨论应用与创新行业应用：数智赋能

价值深挖AIGC可释放不同行业的数据价值，实现更智能化的决策与操作，推动社会发展。但也需要考虑技术的负面影响。病人对话系统疾病智能诊断药物研发智能教学预测分析教育资源推荐智能测评等智能投资顾问反欺诈等医疗健康教育培训金融服务健康管理等l

科大讯飞星火认知大模型V2.0l

希施玛AIGC金融服务平台l

腾讯健康“小威护士”智能客服系统工业质量控制无人驾驶智能交通车联网等案件参考推荐理解用户问题自然语言回复产线优化文书模板生成法条依据等预测维护等工业制造交通运输法律服务客户服务l

沃丰科技Udeskl

创新奇智

“奇智孔明AInnoGC”

汇智星源“慧知”行业语言大模型UINO优锘智慧交通视频生成系统数据分析据测政务服务优化社会治理等入侵检测系统内容推荐智能监控根据用户兴趣个性化推荐等病虫害识别搜索引擎优化文本识别等育种优化等政府管理网络服务农业种植内容定制l

万兴科技“天幕”多媒体大模型l

华为盘古政务大模型l

知网

"AIGC

检测服务系统

天润智能农业大模型创意应用：创艺智能

释放活力工业设计时尚设计广告创意音乐创作借助生成对抗网络和变分自编码器进行产品创意设计和优化使用AIGC进行个性化服饰搭配推荐以及高效设计图案生产利用文本和图片生成能力，进行创意广告文案和视觉创作应用AIGC智能作曲，生成符合风格的音乐素材游戏设计绘画创作UI设计文案创作辅助进行智能游戏场景和角色生成，提升设计效率通过风格迁移和创意绘画算法辅助进行作品创作依据交互数据进行智能UI界面和体验优化智能写作系统协助撰写创意广告词和文章创作AIGC在创意产业中的创新应用可以释放创意产业从业者的创造力，使其专注于更高价值的创新创造AI学科应用：渐进引入

学科共融高级深度学习和

智能决策和预测

强化学习和自主

AI驱动的跨领

通用人工智能的学科自然语言处理系统60806080606060808080608060控制系统域综合创新初步探索哲学80608060806060606060606065206080608060608090809060807080经济学法学80905080教育学文学50902080历史学理学20808090工学9090AI技术发展将先在文科领域（如文学、哲学）产生显著影响，随后在理科和技术领域（如工学、医学）发挥更深远作用。农学8090医学8090军事学管理学艺术学808080905080表格中的数字（1-100）代表不同学科在AI发展各阶段的受益程度，本图由AI给出，仅供参考异感世界：技术交融

虚实共生Ø

由人工智能技术快速发展和普及所塑造的社会-技术现象，人们对AI的高级能力、不可预测性和与现实界限的模糊感到不安、好奇或混淆。这一现象不仅影响人们与技术的互动方式，还在伦理、工作、社会结构和人类自身价值观方面产生深远影响。现实-虚拟连续体人工伦理适应性现实与AI生成的虚拟内容之间的界限，以及这种界限如何影响人们的认知和行为。主张需要建立动态的伦理框架来适应不断发展的AI技术，以解决由此产生的道德和伦理问题。黑箱与白箱相容性社会认知振荡在AI决策过程的不透明性与人们对透明性和可解释性需求之间找到平衡。AI如何在快速改变社会观念和行为规范方面起到“催化剂”的作用，进而影响社会的整体稳定性。创新模式：组合放大

跨界融合构建支持多种应用程序、产品或服务的基础设施或技术平台，在共享系统中创造新的价值。强调通过结合现有强调将一个领域的创新应用到另一个领域的过程，从而放大其影响和应用范围。的概念、技术或资发生在多个学科、行业或文化界限的交叉点上。强调在传统边界之外寻找灵感和解决方案。源以创造新的价值。组合创新平台创新放大创新跨界创新范式转变方法论创新对科学基础假设的根本性改变。这种转变往往颠覆现有的理论框架，导致科学观念和实践的重大变革。模块化创新增量创新开发新的实验设计、数据分析技术或其他研究工具，揭示现有理论的局限性或促进新理论的发展。创建可以在多个不同产品或系统中使用的标准化组件或模块。这种创新允许快速组合和重新组合这些模块以适应新的需求或机遇。侧重于现有产品、服务或流程的小幅改进，通常涉及对现有解决方案的细微调整，以增强性能、降低成本或提高用户体验。AI

for

Research：理论进化

宏微指引理论进化技术融合洞察结合新技术进展，AI重塑理论与实践的结合点，为实践领域带来前所未有的理论指导再启蒙AI检视原有的学说，自动补足研究空缺，进而将传统知识进行创新性的重组，构筑更完备的学术体系AI推进对已有理论的进一步创新，不仅局限于拓展，而是对核心观点、理念和基础做出变革超越交界知识融合宏微同构预知AI探索尚未被人类涉及的学科交叉领域，开启硅基生命认知的新纪元，为知识体系增添新维度AI融合跨学科的知识，打破传统边界，使得单一事物可以被多维度、多角度地进行解析与洞察AI构建全面、细致且互为影响的预测体系，实现从微观到宏观的跨尺度认知，为未来提供更准确的指引AI心理学：解读认知

智渡险境u

心理揭示u

交互感知：研究AI如何通过大量的数据处理与分析，帮助揭示和理解人类心理学的问题。包括利用AI进行心理健康诊断、行为预测和心理治疗的辅助。探讨人类如何感知和理解与AI的互动，以及这些互动如何影响人类的心理和情感状态。包括研究人机界面设计、AI的情感智能以及人们对AI的信任和依赖程度。u

心智镜像u

意识觉醒分析AI如何模仿或重现人类的认知和情感过程，包括情感识别、决策支持以及学习和记忆模拟，以及探讨AI在理解和模拟人类心理方面的潜力和限制。预测未来AI可能达到的自我意识和意志自由的状态并理论化。

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

AIGC发展研究资料2.0-清华大学-2024.1

文档简介

温馨提示

最新文档

评论

相关文档