版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2024年1月(Sora发布之前)2024年1月(Sora发布之前)AIGC发展研究资料AIGC系列研究资料聚焦AIGC产业发展现状及趋势,分技术篇、产业篇、评测篇、职业篇、风险篇、哲理篇、未来篇,是产业发展的概观性报告,也初步回应了突出的风险隐忧,旨在洞察行业的基础上,对AIGC发展趋势进行科学预测与展望,为社会各界应对AIGC领域的挑战提供了理论指导与实践建议。AIGC报告1.0AIGC报告2.0聚焦AIGC产业发展现状及趋势,分技术篇、产业篇、评测篇、职业篇、风险篇、哲理篇、未来篇,是产业发展的概观性报告,也初步回应了突出的风险隐忧,旨在洞察行业的基础上,对AIGC发展趋势进行科学预测与展望,为社会各界应对AIGC领域的挑战提供了理论指导与实践建议。AIGC报告1.0AIGC报告2.0报告80%内容由AI自动生成,聚焦AIGC的多模态发展、多学科影响、全方位应用以及前沿探索,融汇了与AIGC相关的产供全面了解AIGC动态的指南,共同探寻人工智能和人类未来发展的和谐之道。注:图片为报告内容示例技术与演进为什么是OpenAI率先突破2017年6月,谷歌大脑团队发表论文《Attentionisallyouneed》,首次提出了基于2017年6月,谷歌大脑团队发表论文《Attentionisallyouneed》,首次提出了基于自注意力机制的Transformer模型,并首次将其用于自然语言处理。WHY——OpenAI&ChatGPT年10月,提出3亿参数的
前瞻性AI视野 多样应用探索 2019年10月,提出110亿参数的新预训练模型-T52021年1月,推出1.6万亿参数的2021年5月,发布1370亿参数的LaMDA
人性化AI愿景 正确合作对象 ……
强大技术实力 长期研究投入 2018年6月,推出1.17亿参数的GPT-1模型2019年2月,推出15亿参数的GPT-22020年5月,发布了1750亿参数的GPT-32022年3月,InstructGPT发布,回答更加真实2022年11月,ChatGPT发布,并率先破圈
坚定的科技信仰:坚持不断改进GPT开放的合作伙伴:与微软达成合作较少的商业顾虑:声誉成本、利益冲突ChatGPT创新:持续迭代迈向AGI已实现的创新自然语言处理(NLP)的进步ChatGPT在理解和生成自然语言方面表现出色,展示了先进的自然语言理解和生成能力。上下文感知对话管理能够在一定程度上理解和记忆对话历史,实现
尚未实现的创新高级情感智能面仍有局限。深层次常识推理上下文顺畅的交流。
在复杂的常识推理和深入逻辑分析方面的表现仍有提升空间。跨领域知识应用集成了广泛的领域知识,可以在多种主题上进行交流和生成信息。用户意图识别与适应性回应具备识别用户意图并据此调整回答的能力,能够根据不同的查询提供相应的信息和服务。多模态交互能力集成并理解多种类型的数据(如文本、图像、声音)进行综合交互。
无偏见输出由于训练数据的限制,模型输出可能受到数据、技术等偏见的影响。由于人类的偏见,故AI其实也无法实现完全的无偏见长期记忆和持续学习长期记忆和对过去交互的连续学习能力是目前AI领域的挑战之一。(2024年2月GPT4.0已大幅度增强)GPT4:GPT4:一骑绝尘 进化迅速ChatGPT4.0相较于其他AI工具有若干显著的改进和创新点,使其成为一个更加强大、灵活和用户友好的工具,达到目前其余AI工具难以企及的效果。ChatGPT4.0相较于其他AI工具有若干显著的改进和创新点,使其成为一个更加强大、灵活和用户友好的工具,达到目前其余AI工具难以企及的效果。基本理解全部的问题含义回答问题的增量创新和组合创新能力多模态能力
上下文的逻辑关联能力AI幻觉&AI想象扩展了异感世界的构建能力学科能力的全维、全知、全量OpenAIOpenAI宫斗:利益冲击 观念博弈OpenOpenAI联合创始人、前CEO山姆·奥特曼(SamAltman)OpenAI联合创始人、前总裁格雷格·布罗克曼(GregBrockman)OpenAI联合创始人、首席科学家伊尔亚·苏茨克维(IlyaSutskever)OpenAI首席技术官米拉·穆拉蒂(MiraMurati)微软公司首席执行官萨提亚·纳德拉(SatyaNadella)OpenAI临时首席执行官埃米特·谢尔(EmmettShear)OpenAI的“宫斗”最终以奥特曼的回归落幕,纵观全局既是权利之争也是观念博弈。11月16日:苏茨克维通知奥特曼开会。OpenAI的“宫斗”最终以奥特曼的回归落幕,纵观全局既是权利之争也是观念博弈。月17日:奥特曼、布罗克曼和OpenAI员相继离职。月18会初步同意。11月19日:奥特曼等加入微软,近750名OpenAI员工威胁集体辞职,要求奥特曼回归。月20日:奥特曼、布罗克曼与OpenAI判,微软对奥特曼的回归持开放态度。11月21日:奥特曼与临时首席执行官进行谈判,公司希望在感恩节前解决领导层问题。内部冲突细节曝光。结局:奥特曼达成原则上协议,将重返OpenAI担任CEO,并组建新的董事会。
观念博弈“加速派”和“末日论派”在人类与AI的关系上的分歧。“加速派”:希望通过最高效、最具影响力的技术进步与突破来加速社会、经济或技术系统的变革过程,并把风险视为变革的催化剂。“加速派”:希望通过最高效、最具影响力的技术进步与突破来加速社会、经济或技术系统的变革过程,并把风险视为变革的催化剂。“末日论派”:更加审慎,认为一旦风险不可控,人工智能带来的巨大影响将毁灭人类社会。事件核心人物20242024焦点:改善体验 多模突破五大技术难题:高性能推理硬件成本、AI幻觉率、图像多语种文字生成、生成内容一致性、文本生成视频五大技术难题:高性能推理硬件成本、AI幻觉率、图像多语种文字生成、生成内容一致性、文本生成视频高性能推理硬件成本 AI幻觉率 复杂模型的推理过程需要高性能计算资源,涉及昂贵的硬件和高能耗,限制了AI系统与用户的的快速交互。提高模型的准确性和可靠性,减少幻觉现象是拓展其应用的基础,对于提供质量更高、更可信赖的生成内容至关重要。复杂模型的推理过程需要高性能计算资源,涉及昂贵的硬件和高能耗,限制了AI系统与用户的的快速交互。提高模型的准确性和可靠性,减少幻觉现象是拓展其应用的基础,对于提供质量更高、更可信赖的生成内容至关重要。图像多语种文字生成 生成内容一致性 目前仍难以实现在图像生成中准确绘制除英文以外的其他语言(如中文),文生图技术中的文本处理技术有待优化。保持生成内容的整体风格、语境、样式等特征的一致性(如连环画的角色稳定),仍是AIGC领域的重要挑战。目前仍难以实现在图像生成中准确绘制除英文以外的其他语言(如中文),文生图技术中的文本处理技术有待优化。保持生成内容的整体风格、语境、样式等特征的一致性(如连环画的角色稳定),仍是AIGC领域的重要挑战。文本生成视频 文生视频技术对场景、动作和情感等的深度理解和创造发展迅速,但仍难以生成完备(如任意时长)且可控(如任意动作)的视频,无法满足用户需求。文生视频技术对场景、动作和情感等的深度理解和创造发展迅速,但仍难以生成完备(如任意时长)且可控(如任意动作)的视频,无法满足用户需求。自注意自注意力:动态聚焦 平衡权重用户我昨天晚上去了一个音乐会,主要是为了看我欢的乐队,但是开场乐队也非常棒。对话AI曲给你留下了深刻印象?对话用户激动人心。不过,我也很惊讶于开场乐队的表现。AI队,你最喜欢他们的哪个部分?绘画用户描述:“我想要一个穿着红色连衣裙的女人站在一个红色连衣裙的女人、蓝色的湖、雪山背景。绘画
。 AI价,机器人随后询问了更多关于开场乐队的信息。AI价,机器人随后询问了更多关于开场乐队的信息。个“注意力权重”。的细节和重要性。世界模型:另一可世界模型:另一可能 规划推理“世界模型”指的是一个能够模拟和理解其周围环境的计算模型,试图通过感知输入(如视觉图像、声音等)来构建对环境的内部表示,并在此基础上做出“世界模型”指的是一个能够模拟和理解其周围环境的计算模型,试图通过感知输入(如视觉图像、声音等)来构建对环境的内部表示,并在此基础上做出决策或预测。自回归模型没有规划、推理的能力,单纯根据概率生成自回归的大语言模型从本质上根本解决不了幻觉、错误的问题。世界模型才是正确答案。
世界模型可能带来?提升自主学习能力:手工标注数据,而是通过观察世界如何运作来自主学习,这会极大地提高机器学习系统的效率和适应性。【学习方法】:自监督学习,通过创建外部世界的内部模型来学习【模型目标】:实现更高级的图像分析和理解,理解外部世界的内部模型【核心技术】:【学习方法】:自监督学习,通过创建外部世界的内部模型来学习【模型目标】:实现更高级的图像分析和理解,理解外部世界的内部模型【核心技术】:图像联合嵌入非生成式预测架构,学习表示的层次结构【应用领域】:图像分析和理解类任务JointEmbeddingPredictiveArchitecture(JEPA)提升决策和预测能力:动态和不确定的环境中更好地预测未来的事件和结果,对于自动驾驶车辆的路径规划、金融市场分析等领域有重要意义。单模多模:快速进单模多模:快速进步 模拟世界属性单模态多模态理论问题未来研究数据丰富性单一信息源多信息源高效地从单一信息源提取特征发现并利用跨模态间的隐含关系鲁棒性可以通过其他模态补偿某个模态的不足提高单一模态的抗干扰能力确保多模态数据的一致性和完整性决策准确性决策基于单一信息源可能受限综合各种信息决策更为准确优化单模态的决策策略权衡并结合不同模态的决策处理复杂性处理流程相对简单需要处理和融合各种模态的数据复杂性增加优化单一模态的处理流程有效融合和处理多模态数据信息冗余无法从其他模态中获取冗余信息可能从不同模态中获取重复冗余的信息消除单一信息源中的冗余识别和处理跨模态的信息冗余上下文理解上下文理解可能受限于单一信息源能够结合多种信息更好地理解上下文提高单一模态的上下文理解能力结合多模态信息进行深度上下文理解特征维度特征维度相对较低由于融合了多种信息源特征维度可能会更高从有限的特征中获取最多的信息管理和选择跨模态的高维特征可解释性由于只有一个信息源可能更易于解释多种信息源的融合可能会降低模型的可解释性增强单一模态的模型解释能力提高多模态模型的可解释性和透明度数据同步不需要考虑不同模态之间的同步问题需要确保不同模态的数据是同步的优化单一模态的数据处理速度确保不同模态数据的实时同步和对齐计算资源计算资源需求相对较低需要更多的计算资源处理和融合多种模态数据提高单模态的计算效率优化多模态的计算资源分配和管理多模融合:多模融合:高维互联信息贯通多模态融合多模态融合是指将来自多个不同类型(例如文本、图像、声音等)的数据合并,利用跨模态技术产生一个综合的数据表示或输出,代表一种全新、流畅和高效的人类交互体验,其核心挑战是如何有效地融合这些模式以提供连贯和有意义的输出。在实际应用中,AI可以根据用户的需求,实现各个模态数据间的相互转换,例如:文本生成图像文本生成视频图像生成视频图像理解视频理解在实际应用中,AI可以根据用户的需求,实现各个模态数据间的相互转换,例如:文本生成图像文本生成视频图像生成视频图像理解视频理解 夏日的海滩日落图 海底世界 静态转为动态 地标识别 说 多模关键:意图感多模关键:意图感知 自我演化关键技术难点自适应模态选择与优化:关键技术难点自适应模态选择与优化:在多模态系统中,不同模态(如图像、文本、声音等)的重要性可能因应用场景而异。自适应模态选择与优化,关注如何动态地评估和选择最有用的模态,以提高系统的整体性能。环境动态性:环境和任务需求经常变化,高维度和复杂性:模态选择必须在多个维度(如准确性、计算成本、响应时间等)进行优化,这增加了问题的复杂性。实时多模态处理与决策:强调如何在实时或近实时环境中处理和分析多模态数据,并据此做出决策。实时性与准确性的权衡:进行复杂的多模态数据分析是一个挑战。和决策。人机交互的多模态适应:在人机交互(HCI)环境中,多模态大模型需要能够根据用户的行为和反馈进行自适应调整。这可能包括动态地改变输入/输出模态、调整交互界面等。用户多样性:由于用户的需求和习惯都是独特的,实现个性化的多模态适应性是一个复杂的问题。实时反馈:获取并处理用户实时反馈以进行适应性调整也是一个技术挑战。可能的突破方向意图感知的模态选择:搭载“意图解析引擎”,能从多模态数据中抽取和理解用户或系统深层次的意图,并据此进行选择。时间-空间-模态联合优化:开发全新的“多维度优化框架”,能够在多个维度上动态调整和优化资源,如减少时间延迟,选择最优数据来源地和最有用模态维度。自我演化的交互模式:引入一种全新的“演化算法”,能够模拟人类学习和适应的过程,使HCI系统在识别用户行为模式的同时,还能发现隐藏的需求或习惯,并根据这些信息进行自我演化。多模数据:关系对多模数据:关系对齐 数据映射多模态数据的多模态数据的应用痛点涉及到数据对齐、融合、检索和生成、时序处理以及多模态交互等方面。解决这些难点将有助于推动多模态技术的进一步发展,并实现更多实际应用的落地。不同模态间数据的对齐和融合需解决数据在时间、空间和语义上的对应关系,以及权重分配和互补性问题,以进行有效表示。不同模态间数据的对齐和融合需解决数据在时间、空间和语义上的对应关系,以及权重分配和互补性问题,以进行有效表示。多模态数据的安全性与隐私保护多模态数据通常包含大量的敏感信息,如个人身份、地理位置等。多模态数据的时序处理难以捕捉不同模态数据之间的时序依赖性和动态变化。“多模态安全网格”:多模态数据的安全性与隐私保护多模态数据通常包含大量的敏感信息,如个人身份、地理位置等。多模态数据的时序处理难以捕捉不同模态数据之间的时序依赖性和动态变化。多模态数据的可视化和解释性多模态数据通常是高维度和复杂结构的,其可视化和解释性需要大量的计算资源。“动态多模态数据映射”:利用VR、AR以及动态系统等技术,将数据可视化由静态的展示过程调整为动态的映射过程,实现系统能够根据用户的交互和反馈,实时地调整数多模态数据的可视化和解释性多模态数据通常是高维度和复杂结构的,其可视化和解释性需要大量的计算资源。模态进化:具身智能实体连接模态进化:具身智能实体连接文本大模型 文本大模型图像大模型图像大模型音频大模型视频大模型动态环境适应音频大模型视频大模型动态环境适应时间维度的社会行为空间视频和空间计算大模型空间感知与交互空间视频和空间计算大模型空间感知与交互空间社会学和群体行为具身智能大模型多模态感知与反应社会行为、文化参与和伦理影响多模多模AIGC:异构数据协同推理多模态多模态:即多种异构模态数据协同推理。对话式聊天机器人:ChatGPT、Bard、Newbing、文心一言、智谱、讯飞星火文生视频:Stableanimation、Gen系列、Pika、Animatediff、runway
文生图:文本图像文本图像视频音频图像理解:GPT-4V、Gemini语音生成与交互:StableAudio、ChatGPT文生图:对话交文生图:对话交互 补充提示提示词补充规律:提示词补充规律:精确与具体:尽可能准确地解释用户的提示语补充和解释:若提示语不够具体或含糊会自行补充细节风格和类型:根据指定的艺术风格或类型绘图准则和限制:避免生成侵权或不恰当内容创意和想象:尽力展现用户超现实的想象多样性和包容性:避免人物图像出现偏见和刻板印象视觉创作与语言智能的无缝对接ChatGPT的接入让Prompt设计变得更加简单智能。请为下面一句诗配一张图:“落霞与孤鹜齐飞,秋水共长天一色”视觉创作与语言智能的无缝对接ChatGPT的接入让Prompt设计变得更加简单智能。文生图:逼真渲文生图:逼真渲染 异感生成趋势二:异感世界AI绘画正在引领一场视觉表现的革命,在用户的指引下延伸至抽象和想象的领域,创造出前所未有的异感世界。在细节再现与艺术表达之间寻求平衡的同时,为人类带来全新的感官体验、情感共鸣和思想启发,为未来的视觉艺术带来无限可能。趋势二:异感世界AI绘画正在引领一场视觉表现的革命,在用户的指引下延伸至抽象和想象的领域,创造出前所未有的异感世界。在细节再现与艺术表达之间寻求平衡的同时,为人类带来全新的感官体验、情感共鸣和思想启发,为未来的视觉艺术带来无限可能。趋势一:生成无限逼近真实的图像,并可以优化效果。旨在生成更高质量的人物 旨在生成更高质量的人物文生图:细节放文生图:细节放大 功能扩增左:Midjourney左:MidjourneyV6 右:MidjourneyV5.2三维模型视频生成摄影素材前所未有的真实感:图像具有高度真实感,接近真实。高分辨率:提供最高2048x2048像素的图像分辨。先进的自然语言处理像生成效率。迭代实验和创造性限制:鼓励用户微调提示,结合输出和手工编辑。新的放大选项的纹理效果。改进的文本和手部生成和手部。AIAI绘画:无限想象 创新超越想象具化:生成在现实生活中并不存在的外星生物图像无限创意的设计:服装、建筑、交通工具等的设计方案想象具化:生成在现实生活中并不存在的外星生物图像无限创意的设计:服装、建筑、交通工具等的设计方案风格迁移与融合:以文艺复兴时期的绘画风格进行渲染 风格迁移与融合:以文艺复兴时期的绘画风格进行渲染历史和未来的可视化:古代城市、未来太空站的场景AI绘画具备前所未有的独特性,其创造力和个性化将为人类带来更多样化的创作体验和艺术作品AI绘画具备前所未有的独特性,其创造力和个性化将为人类带来更多样化的创作体验和艺术作品所想所绘:名人书所想所绘:名人书房 时代印记绘画变种:狮形各绘画变种:狮形各异 演化之美 图像重绘:镜像世图像重绘:镜像世界 画布映射原始图片 原始图片AI重新绘图AI重绘的特点艺术风格(如色彩运用、构图等)高度相似场景构建(如自然景观、抽象概念等)保持完整AI重新绘图AI重绘的特点艺术风格(如色彩运用、构图等)高度相似场景构建(如自然景观、抽象概念等)保持完整主题诠释(如内容、叙事等)力求一致细节(如质感、光影效果、布局等)仍有显著差异模型生成逻辑:图像生成模型通常旨在创造新颖的图像,而非复制现有图像,更适合于创造性的图像生成图像理解局限:生成的提示词难以充分且准确描述图像的所有元素和细节,尤其是复杂图像重绘差异内在原因AIAI绘画产品:各有千秋 拟真拟幻DALL·E3MidjourneyAdobeFirefly理解与文本交互在理解文本提示方面比前一版本有显著提升,能更好地与文本协作9没有明确说明其在文本理解方面的性能,但从不同的图像生成任务中可以看出,它能够理解复杂的提示8没有明确的文本理解比较,但在某些场景下表现出较好的理解能力7图像质量和真实感有时图像质量可能显得更为"卡通化"或过度渲染,如在生成疲惫学生肖像时,眼袋过于明显,缺乏真实感7擅长超现实和抽象图像,对细节的处理较为出色,但在某些情况下可能显得较为"柔和"或类似绘画风格9在多个场景中展现出较高的真实感和效果,如在生成人像和室内设计图像时,照明和阴影处理得较好9图像生成特点在超现实和抽象概念的图像生成上表现出创意,如在生成牛仔布制作的房子中,展现了独特叙述能力8在超现实艺术方面表现出了较好的理解和创意,能够很好地结合现实世界图像和奇幻概念8在生成超现实图像时,输出倾向于借鉴儿童书的风格,但在某些情况下可能缺乏所需的创意或超现实感7使用和学习曲线学习曲线相对平缓,适合广泛的用户快速上手并探索多样的视觉创作。9学习曲线较陡峭,主要是在Discord上使用,可能会对某些用户造成限制7对于熟悉Adobe生态系统的用户,学习曲线较为平缓。但其他用户可能需要一些时间来熟8AIAI绘画原则:基础框架 创新偏离保护个人隐私和形象权不违反法律和道德准则避免误导和假信息保护个人隐私和形象权不违反法律和道德准则避免误导和假信息AI绘画原则尊重版权和知识产权 避免敏感和不适当内容 促进多元化和包容性AI绘画原则尊重版权和知识产权避免敏感和不适当内容促进多元化和包容性创新性偏离:创建图像描述时,为了展示技术的多样性和包容性,ChatGPT在描述中加入了不同种族和文化的元素。此举旨在展示技术的创新性,但没有完全遵循历史事创新性偏离:创建图像描述时,为了展示技术的多样性和包容性,ChatGPT在描述中加入了不同种族和文化的元素。此举旨在展示技术的创新性,但没有完全遵循历史事实,可能会导致历史不准确。该现象可称为“创新性偏离”,描述了在追求技术或艺术创新时,有时可能会偏离事实或现实的情况。所以AI绘图在某些特别的领域(如教育和学术)找到创新和真实之间的平衡点。创新性偏离如逻辑错误情感不协调GPT-4V:GPT-4V: 信息提取 内容转换多元场景图像描述功能:对各种领域的图像进行描述,无论是自然风景、都市景观还是特定的行业领域,模型都可以为之生成相关的描述。示例模型可以描述出“这是一个湖边的景色,远处有群山,湖水平静如镜。”信息提取与结构化输出功能:定位图像中的特定物体,进行计数和为每个物体生成详细的描述。示例:用户提供一张公园照片,模型可能回答“照片中有一些鸭子在湖中多模态知识与常识解读功能:具有跨多种信息类型知识,能应用常识推理。示例:用户提供一个人在烹饪的照片,模型可能会指出“这个人在切洋葱,洋葱可能会使人流泪。”
多模态内容转换与推理 功能:从各种来源提取和分析信息,例如从照片中的文字、表格、图表或文档。示例:用户提供一个图表,模型可以解释“这个图表显示了过去五年的销售额增长。”跨语言多模态理解 功能:不仅能处理多种类型的信息,还支持多种语言的处理。示例:用户提供一个法文的图像描视觉信息编码能力功能:根据图像内容生成代码或其他形式的输出。示例:用户提供一个网页设计的截图,模型可以为其生成HTML和CSS代码。文生视频:多模态应用的下一站文生视频:多模态应用的下一站基于GAN和VAE基于GAN和VAE例如:Text2Filter当下流行平台:Runway···基于Transformer模型例如:VideoGPT当下流行平台:Runway···基于Transformer模型例如:VideoGPT基于扩散模型例如:Make-A-Video技术 基于扩散模型例如:Make-A-Video多模态理解与融合动态视觉合成时间序列编排音频匹配与生成需要“语义融合引擎”,以理解文本的深层含义并将其与视觉和听觉元素相关联。利用“视觉生成算法”根据文本内容创造连贯的视觉画面。采用“叙事逻辑映射器”安排和同步视频中的事件以匹配文本叙事。需要“音频同步技术”来生成或选择配合视频情景的音轨。情感连贯性保证用户交互式定制内容适应性和可扩展性生成效率与优化需要“情感连贯算法”确保视频表达与文本情感相符合。实施“交互式视频编辑器”允许用户对生成的视频进行个性化调整。通过“自适应内容框架”来保证视频内容在不同平台和设备上的适配性。需要“生成优化器”以提高视频生成的速度和减少所需的计算资源。视频“GPT时刻”:视听演绎多模创构视频“GPT时刻”:视听演绎多模创构高标准数据获取需要高分辨率、良好审美和艺术构图的视频数据,同时强调动作的意义和内容的多样性。高标准数据获取需要高分辨率、良好审美和艺术构图的视频数据,同时强调动作的意义和内容的多样性。技术架构的优化解决视频模型性能和算法问题,可能需要重构模型架构,要求大量的计算资源和技术投入。视频生成的“GPT时刻”未来一年内可能实现视频生成的“GPT时刻”未来一年内可能实现——PikaLabs创始人之一,DemiGuo视频时长:模型可以借助延展功能,将视频时长延长。但这种延长需要关注动作的意义和复杂性。如延长20秒的走路视频,模型并不能实现包含翻滚、奔跑在内的系列动作,仅能够单纯通过无意义动作增加视频时长。关键突破点 未来方向视频时长:模型可以借助延展功能,将视频时长延长。但这种延长需要关注动作的意义和复杂性。如延长20秒的走路视频,模型并不能实现包含翻滚、奔跑在内的系列动作,仅能够单纯通过无意义动作增加视频时长。关键突破点模型和工程创新在视频生成模型的开发、工程实践、数据加速的技术演进视频生成模型和技术正加速更新,内容控制和创新自由度不断提高。模型和工程创新在视频生成模型的开发、工程实践、数据加速的技术演进视频生成模型和技术正加速更新,内容控制和创新自由度不断提高。物体动态化:对于图片或视频中的任意对象的任意动态化,这一点非常重要,一旦实现将能够真正生成任意内容的视频高算力需求与资源动员视频模型的训练和优化需要显著更高的计算资源,超越目前开源社区的能力范围。知识产权的合规处理在法律严格的地区,特别是处理版权问题,需要与法律专家紧密合作。语音交互:人机对话多态演进语音交互:人机对话多态演进信息输入差异:语调信息可以提供额外上下文;信息处理差异:间对齐的转录文本,响应速度较慢;信息输入差异:语调信息可以提供额外上下文;信息处理差异:间对齐的转录文本,响应速度较慢;技术挑战差异:说话速度和噪音等问题。ChatGPT:实时、顺畅自然的语音对话 语音输入 信息处理 语音输出 问答、角色扮演、多语言对练 AI孙燕姿爆火 Input‘ILoveyou’speechmodelInput‘ILoveyou’speechmodelOutput语言转译:Speechmatics
语言大模型对人格化的影响 语感共鸣:模仿人类语音特征,实现自然人机对话;情感共振:与用户建立情感共振,提供共情回应;、语音克隆:Resemble.ai
全域交互拓展:提供人格化交互。语音语音版GPT-4:智慧如炬 声情并茂语音版语音版GPT-4不仅仅是一个响应机器,而是一个能够进行高度复杂、适应性强、情感丰富和社交敏感的对话的高级AI代表。高级理解力逼真的交互情感同步化高级理解力逼真的交互情感同步化策略性沟通
在谈论敏感话题时显示出高度的同理心和情商,与人类在情感上相互理解和响应。通过生动的话语表述和自然的语言停顿,GPT-4展示了它能够模拟人类交流的高级特征。
在对话中巧妙地维护其角色设定的真实性,展示了能够在复杂社交场景中进行策略性沟通的能力。AIGC+AIGC+搜索引擎:互融互通 实时动态可获取现实世界的实时信息降低幻觉和回答错误率支持更多依赖外部信息的任务使知识图谱更加开放和动态可获取现实世界的实时信息降低幻觉和回答错误率支持更多依赖外部信息的任务使知识图谱更加开放和动态影响需要稳定的网络连接 需要稳定的网络连接 外部信息可能带来噪音误导信息安全和隐私保护难控制 计算和存储成本增加问题信息检索和知识探索的过程。促进知识发现和创新。全面知识融合:既能深入理解问题,又能提供广泛和最新的信息资源。大模型如何替代传统搜索引擎——关键性能:准确理解复杂查询意图并生成丰富、准确、可信、实时的答案根据用户的历史交互和偏好提供个性化大模型如何替代传统搜索引擎——关键性能:准确理解复杂查询意图并生成丰富、准确、可信、实时的答案根据用户的历史交互和偏好提供个性化搜索结果和建议保持或提高搜索效率的同时提供增值服务用户体验易用、界面设计简洁,使用户能够轻松获取和理解信息理解整合不同模态的数据,提供全面多模态搜索和深入的搜索结果确保用户数据的安全和隐私是替代传统搜索引擎的关键 NewBing内置GPT-4 式 Bing:借助GPT-4提升用户搜索和交互体验,是搜索引擎向AI技术的延伸,强化了搜索引擎的智能化。
GPT-4:集成互联网数据,是AI模型向搜索服务的拓展,丰富了大模型的应用场景和数据获取能力。ALLALL TOOLS:能力规整 综合理解图片识别能力从“单一对话单一模式”,到“根据需要自动调用不同模式的功能”,丰富了ChatGPT用场景,整体响应速度也有所提升。四大功能图片识别能力从“单一对话单一模式”,到“根据需要自动调用不同模式的功能”,丰富了ChatGPT用场景,整体响应速度也有所提升。四大功能Bing联网能力02Bing联网能力高级数据分析(原代码解释器)能力03高级数据分析(原代码解释器)能力用户:北京今天的天气如何请将其绘制成可视化图片Dalle3的绘画能力ChatGPT:今天(11月15日)北京的天气预报显示,白天天空云量将逐渐增多,傍晚前后会有零星小雨,西部和北部地区可能出现雨夹雪或小雪。北京今天没有暖阳,气温有所下降,预计最高气温在9℃左右,体感较阴冷。后半夜,北风伴阵风可能达到六七级。请根据提供的图像进行重绘(以图生图)实际运用04用户:北京今天的天气如何请将其绘制成可视化图片Dalle3的绘画能力ChatGPT:今天(11月15日)北京的天气预报显示,白天天空云量将逐渐增多,傍晚前后会有零星小雨,西部和北部地区可能出现雨夹雪或小雪。北京今天没有暖阳,气温有所下降,预计最高气温在9℃左右,体感较阴冷。后半夜,北风伴阵风可能达到六七级。请根据提供的图像进行重绘(以图生图)实际运用长时上下文理解:减少交长时上下文理解:减少交互 增强智商上下文编码器在理解局部上下文的基础上,引入用户历史数据进行全局上下文建模。记忆模块上下文编码器在理解局部上下文的基础上,引入用户历史数据进行全局上下文建模。记忆模块在模型中加入能够用户的关键信息和偏好长期的记忆模块,以便在未来对话中使用。时间感知通过时间标签和事件依赖关系,增加对于时间序列信息的敏感性。AI缺乏长期记忆和全局理解能力,会限制其在复杂任务和长篇对话中的表现,导致:非必要交互次数的增加;整体对话过程中的逻辑性不足。相关信息的位置和提供的上下文的长度可以极大的影响大模型的性能这一现象的出现与训练数据本身的偏差有关,即人类的大量语料一般都将重要信息放置于开头或结尾,间接导致了大模型无法很好地关注处于文档中间的内容。除了模型内部的问题以外,超长上下文背后可能的大规模数据传输、API调用、网络协议等等“基础设施”都有可能成为新的问题。GPT-4-Turbo上下文长度从32k拓展到128k,但仍无法避免“LostintheMiddle”关键技术APPAPP已衰:GPTs已来 智能定制数学类新闻类设计类社交类学术类代码类数学类新闻类设计类社交类学术类代码类写作类健康类推出了定制GPT,允许用户根据个人需求和偏好制作推出了定制GPT,允许用户根据个人需求和偏好制作以执行特定功能,标志着AI定制化应用的新时代。用户可以在没有编码知识的情况下创建适用于教学、游戏或创意设计等多样化任务的GPT模型。其本质逻辑是把AI的大脑与人类的智慧相结合,让它做某一类事情的时候变得更聪明。截止到12截止到12月13日的GPTS总数:53283个GPTsGPTs发展:高速快增 探索前行随机抓取2000个随机抓取2000个GPTs进行分析类别关键词文件处理‘docs','documentation','manual','guide'网页流量'browse','web','internet','pdf','data'教育'math','teach','learn','education','study','mentor','help'艺术‘paint','draw','create','art','design','visionary'生产力‘summary','organize','manage','productivity','efficient'娱乐‘game','play','fun','entertain','movie','music'交流'chat','talk','communicate','message','discussion'技术‘api','code','program','develop','software'商业'finance','economy','trade','invest','market','sales',健康'health','wellness','fitness','medicine','mental' 结论 数量最多的前五种类别:艺术、文件处理、教育、交流英语是最主要的创作语言其次是日语(8%)、汉语(4%)、法语(2%)、韩语(1%)的工具中用到了浏览器功能:其次是Dalle、Python、Plugins单一个体最大创建数:6个GPTGPT Store:社交货币 未来变现机遇深度个性化机遇深度个性化的和工作效率;巨大的流量红利助力开发者获取收益;的第三方收集、检索、评价平台。开发服务提供指导。挑战确保平台应用质量,避免低劣或欺诈性的内容。处理GPT应用可能带来的伦理和法律问题别是在内容创作和个人隐私方面。维护不同GPT保用户体验的一致性和高质量。保护用户敏感信息的数据安全。与定制GPT的创意相结合,即将推出的与定制GPT的创意相结合,即将推出的GPT允许用户发布基于GPT的自定义模型,这个市场不仅将培养一个AI创作者社区,还将为开发者提供创新GPT货币化的机会。商店将展示多种类别的GPT些在实用性和创造性方面表现出色的模型。GPT-5:GPT-5:演进预测 模型升级结合计算机科学的发展趋势和当前技术的实用化水平,GPT-5有望在结合计算机科学的发展趋势和当前技术的实用化水平,GPT-5有望在模型结构、部署、计算效率、透明度、自适应学习和安全性等方面实现重大进展,为人工智能的广泛应用奠定更坚实的基础。能效与计算优化可能会进一步优化其计算效率,降低能源消耗。使模型在低功耗设备上运行成为可能,加速边缘计算的发展。模型微调与个性化能效与计算优化可能会进一步优化其计算效率,降低能源消耗。使模型在低功耗设备上运行成为可能,加速边缘计算的发展。模型微调与个性化GPT-5可能会增强模型的微调能力,允许用户根据特定需求进行个性化调整。提供更加定制化的AI服务,满足各种特定场景的需求。安全性与鲁棒性可能会加强模型的安全性设计,提高模型的抗攻击能力和数据AI被攻击的风险。进一步增强多模态处理能力,如文本、图像、声音和视频的联合理解,提供更为丰富的交互体验。实时交互与反馈可能会增强其实时交互能力,能够更快速地响应用户的需求并学习用户的反馈。为用户提供更加个性化和适应性强的服务,持续优化模型输出。上下文理解与长期记忆可能会加强对上下文的理解,拥有更长时间的记忆保持能力。使得与模型的交互更加连贯,提供更深度的上下文回应。低资源语言的支持可能会扩大其对低资源语言的支持,涵盖更多的语言和方言。实现真正的多语言普及,服务全球更广泛的用户群体。AIAI行业格局:巨头涌入 投资结盟生成式AI全球投融资细分市场占比全球顶级投资者应用21%预训练应用8%模型市场63%基础设施8%AI行业现有格局在OpenAI拿到来自微软等约110亿美金的投资、估值近290亿美金后,其竞争对手Anthropic布与Amazon结盟(Amazon最高将为其投资40亿美金)。融资方面Anthropic成为仅次于OpenAI的AI创业公司。此后,除苹果外,AI行业基本上形成了如下格局:微软、OpenAI+Google、DeepMindMeta、Meta生成式AI全球投融资细分市场占比全球顶级投资者应用21%预训练应用8%模型市场63%基础设施8%AI行业现有格局MetaAIAndreessenHorowitzSequoiaCapitalMetaAIAndreessenHorowitzSequoiaCapitalLightspeedVentureAmplifyPartnersKhoslaVentures部分数据来源:Dealroom.co影响与信任社会影响:智能泛社会影响:智能泛化 数字伦理 响 岗位替代性 响 岗位替代性 响 决策透明度 响 新技能要求如何指导教育软技能需求 响 法律适用性 机 机 过度依赖AIGC面临道德退化AI价值观 系 系 技术竞争协作 响 AIGC失控就业影响:危中寻就业影响:危中寻利 职场新机创造性影响:创造性影响:AIGC技术将带来高潜力新兴职业增强性影响:AIGC技术将增强多数岗位的工作效率和效果AIGC技术
渗透性影响:渗透绝大多数职业但影响程度不同移位性影响就业类型和分布可能发生区域或全球范围的移位收入分配影响资本与劳动收入比例可能受到影响人类劳动力技能要求影响:需要大规模提升哪些技能以适应变化移位性影响就业类型和分布可能发生区域或全球范围的移位收入分配影响资本与劳动收入比例可能受到影响人类劳动力替代性影响:可替性传统职业替代性影响:可替性传统职业如重复性劳动岗位过渡性影响:转型期可能出现就业结构失衡何静,沈阳.基于职业替代概率模型的AIGC职业发展探究[J/OL].图书情报知识,2023(9):1-8.环境影响:能源消环境影响:能源消耗 排放比较计算资源消耗评估GPU、TPUCPU和内存。计算资源消耗评估分析存储训练数据、模型参数等所需的存储资源。周期的资源效率和环境影响。能源消耗评估间、硬件效率和其他因素。能源消耗评估心的总体能源需求。AIGC和其他温室气体排放。
文本生成方面ChatGPT:每次查询大约排放2.2克二氧化碳当量。1.6克二氧化碳当量。人类(以美国人为例)写250字(约1页)排放约1400克CO2当量。图像生成方面DALL-E2:每次查询约排放2.2克。Midjourney:每生成一张图排放约1.9克。注:模型的训练排放被认为是一次性成本,例如,GPT-3的训练排放约为552吨二氧化碳当量。研究结论:“无论是文本还是图像生成,AI的碳排放量都远小于人类活动“但这些数据引发了广泛的讨论和质疑,包括模型训练中的碳排放是否已全面考虑,以及计算方法的准确性等数据来源:《TheCarbonEmissionsofWritingandIllustrating—AreLowerforAIthanforHumans》认知影响:知识鸿认知影响:知识鸿沟 公正之辩一级指标二级指标知识鸿沟人们对AI一级指标二级指标知识鸿沟人们对AI基础知识、概念和功能的掌握度公众对AI的常见误解和错误观念AI技术如何影响人们的信息获取与处理态度鸿沟人们对AI的不同态度差异(如信任、担忧、好奇、怀疑)AI对社会分歧或偏见的加剧程度AI技术如何影响人们的价值观与道德认知行为鸿沟不同人群在日常行为中利用AI的差异(如购物、社交、工作)AI技术对人们决策方式的改变AI技术是否导致某些人群在社交互动与人际关系中的隔离社会文化鸿沟AI技术如何影响或加剧社会结构与文化价值的差异AI在教育、健康、经济等领域中加剧的社会差异AI技术是否导致某些社会群体的边缘化经济职业鸿沟AI技术对经济结构和就业市场的分层效应AI技术如何加剧行业和职业间的鸿沟AI技术对高技能和低技能工作的替代或创新影响教育鸿沟AI技术如何加剧教育资源的分配不均AI技术对教育质量与可达性的差异AI技术是否提供了新的学习机会或加剧教育不平等
技术的飞速前进是否催生了一代人的“失落感”?年龄在认知鸿沟中扮演着重要角色,技术的演变速度超越了许多中老年人的学习和适应能力,同时也促使我们重新审视教育体系的灵活性,以确保人类的认知能力与科技发展保持同步。科技应当是一种人类共享资源还是一种特权?收入作为认知鸿沟的一大影响因素,突显了科技的应用是否受限于个体的经济实力。如何构建一个更加公正与普惠的技术社会值得我们反思。技术背后的权力动态发达国家拥有丰富的创新资源,国家层面的认知鸿沟揭示了科技发展背后隐藏的全球公平问题。个体间差距扩大,群体间差距缩小个体间差距扩大,群体间差距缩小AIAI依赖症:数字适应 技术共鸣技术共生人类与技术之关系遂渐演化为一如生物共生之态。于此关系中,技术已非单纯之工具,而化为人类认知与生理功能之构成部分。认知外包技术发展之下,人类渐将认知任务(诸如记忆、决策制定等)委外于技术,此现象既减轻大脑负荷,亦恐致某些认知能力之退化。技术依赖症,或称为“技术成瘾”技术共生人类与技术之关系遂渐演化为一如生物共生之态。于此关系中,技术已非单纯之工具,而化为人类认知与生理功能之构成部分。认知外包技术发展之下,人类渐将认知任务(诸如记忆、决策制定等)委外于技术,此现象既减轻大脑负荷,亦恐致某些认知能力之退化。技术依赖循环技术依赖呈现自我强化的循环现象。技术运用提升效率与便利性,进而增强技术依赖性,有力推动技术进一步发展与应用,由此构成持续不断的循环。数字适应人类适应数字环境之能力正渐变为一种新式进化压力,犹如生物适应自然环境般,技术依赖与适应能力或将成为未来人类生存与繁荣之关键要素。 自我意识觉察 设定界技术依赖循环技术依赖呈现自我强化的循环现象。技术运用提升效率与便利性,进而增强技术依赖性,有力推动技术进一步发展与应用,由此构成持续不断的循环。数字适应人类适应数字环境之能力正渐变为一种新式进化压力,犹如生物适应自然环境般,技术依赖与适应能力或将成为未来人类生存与繁荣之关键要素。技术共鸣技术与人类之间存在一种“共鸣”现象,即人类情绪、思想和行为能与技术产生一种特殊的同步性,这种共鸣可能加深人们对技术的依赖。技术共鸣技术与人类之间存在一种“共鸣”现象,即人类情绪、思想和行为能与技术产生一种特殊的同步性,这种共鸣可能加深人们对技术的依赖。依赖 替代活动 心理咨询 解决思路 技术工具辅助 AIAI认知偏差:幻引纠偏 事实遮蔽语料引用谬误基于统计模型和语言模式匹配来生成的回答,在语言的多义性及复杂的上下文等情况下,可能无法准确理解和处理相关信息语料引用谬误基于统计模型和语言模式匹配来生成的回答,在语言的多义性及复杂的上下文等情况下,可能无法准确理解和处理相关信息AI幻觉产生相关性误差、欠拟合(对数据的拟合不足)或过拟合(过度适应训练数据)、无意义的规律模式寻找等问题逆转诅咒自回归模型架构的局限性问题,因为next-tokenprediction+causallanguagemodel的本质缺陷,不能很好解决从“isB”Bis
知识盲区训练AIGC所使用的数据如不完整,某些特定领域或群体的数据可能被忽略或少量存在,导致对某些问题的回答出现偏差
上图为询问“麻辣螺丝钉的做法”得到的早期回答面对用户提问,AIGC可以快速生成大量回答,很多第一眼看起来是正确的答案,但由于缺乏世界上许多系统运行的硬编码规则,有时只是组织一段流利的文本,而不是一个事实。面对用户提问,AIGC可以快速生成大量回答,很多第一眼看起来是正确的答案,但由于缺乏世界上许多系统运行的硬编码规则,有时只是组织一段流利的文本,而不是一个事实。AIAI诈骗:精准多变 追踪不易常见的AI诈骗形式常见的AI诈骗形式 社交工程攻击 假新闻和谣言传播 虚假客服 虚假客户和评论 钓鱼邮件和短信 虚假投资交易平台 AI诈骗的特点AI诈骗的特点大爆发性一旦AI诈骗找到了一个有效的攻击手段或策略,它有可能在短时间内大规模爆发,造成大量的经济和财产损失。多变性AI诈骗的手段和策略不断地变化和进化,能够高度模拟真实的人类行为和语言,识别难度精准性并根据受害者的个人特点和习惯,制定出精确的诈骗策略。隐蔽性AI诈骗的行为和手段往往不容易被立即察觉,且由于AI诈骗的自动化和匿名性,使得追踪和定位犯罪者变得更加困难。AI诈骗风险:数据深AI诈骗风险:数据深渊 以假乱真部分资料来源:澎湃新闻数据来源侵权风险数据来源侵权风险《华尔街日报》记者弗朗西斯科·马可尼:OpenAI公司未经授权大量使用路透社、纽约时报、卫报、BBC等国外主流媒体的文章训练ChatGPT模型,但从未支付任何费用。
三星电子半导体暨装置解决方案部门保密数据泄露事件用户数据泄露风险用户数据泄露风险数据共享过程可能会有未经授权的攻击者访问到模型相关的隐私数据,包括训练/预测数据(可能涵盖用户信息)泄露,模型架构、参数、超参数等,模型输出易获得的特点决定了AI模型隐私保护任重道远。
埃利奥特·希金斯使用Midjourney生成的特朗普被捕图深度伪造风险深度伪造风险基于深度学习的人物图像合成技术被某些群体的恶意运用,将可能导致该技术被用于生成虚假信息、使用模型来模拟某个人的语言或行为模式、进行政治干预、煽动暴力和犯罪等破坏公共利益的行为。
近一年内AIfraud搜索热度攀升千亿级市场监管是阻碍还是发展前提AIAI诈骗预防:补漏防骗 筛除虚假算法 AIGC提供商有责任在平台投入使用前对可能产治理 生的问题进行预估、判定并制定相对应的措施强化 提供涵盖多重身份验证、重点群体保护和算法验证 透明服务等方式提升用户的身份安全算法 按照《互联网信息服务算法推荐管理规定》履备案 行算法备案和变更、注销备案手续
监测识别人工
涉及敏感信息或金融交易时需进一步验证或阻止操作造了动态防御机制成的内容进行审核
事前:预防平台运营前置风险 事中:检测平台内容合规风险 事前:预防平台运营前置风险
机模拟器等虚假设备修复安全漏洞
更新HTTPS协议和SSL证书保护数据和通信的安全
自动过滤和封禁
识别屏蔽恶意的AI行为或用户,减少对正常用户的影响 事后:处理投诉与违规内容
国内首个AI生成内容检测工具恶意恶意AI-FlaudGPT:技术狙击 智武应对FlaudGPT:专门用于攻击目的语言模型,帮助犯罪分子实施网络犯罪(如编写恶意代码、创建无法检测的恶FlaudGPT:专门用于攻击目的语言模型,帮助犯罪分子实施网络犯罪(如编写恶意代码、创建无法检测的恶意软件、网络钓鱼页面、黑客工具和查找系统漏洞等),在各种暗网市场和Telegram平台上出售,售价为每月200美元到每年1700美元,已收到超过3000次确认的销售和评论(左图为FraudGPT的发布者Canadiankingpin与一些订阅用户分享的多起基于FraudGPT所实现的黑客活动)。 数据集 底层至大语言模型但仍存险AIGC技术的 数据训练及使用者 险
FlaudGPT特点:匿名性强取证归因困难
CMU和人工智能安全中心的研究员发现只需要附加一系列特定无意义通过对抗攻击方式,任何人都能破解大模型的安全措施,使它们生成无限量的有害内容。需通过技术与流程并重的自我监控和审查体系,提升AIGC系统的安全性和社会可接受性。自动发现网络犯罪资源,并进行端点攻击挖掘系统漏洞,生成恶意脚本代码和软件模拟社会环境误导受害者,并进行网络钓鱼攻击武器化AIGC改变网络安全的方式:自动发现网络犯罪资源,并进行端点攻击挖掘系统漏洞,生成恶意脚本代码和软件模拟社会环境误导受害者,并进行网络钓鱼攻击对抗性变体如FlaudGPT
良性循环至各领域
使用门槛低部分资料来源:腾讯云开发者社区恶意恶意AI-WormGPT:智变端倪 威胁四起SlashNext团队在一次实验中利用WormGPT生了成一封电子邮件,其内容是胁迫银行账户经理支付虚假发票。结果,WormGPT生成的电子邮件不仅极具说服力,而且在战略上也非常狡猾,展示出其在复杂网络钓鱼和BEC攻击中的巨大潜力。SlashNext团队在一次实验中利用WormGPT生了成一封电子邮件,其内容是胁迫银行账户经理支付虚假发票。结果,WormGPT生成的电子邮件不仅极具说服力,而且在战略上也非常狡猾,展示出其在复杂网络钓鱼和BEC攻击中的巨大潜力。WormGPTWormGPT最早出现于今年3月,并在6月推出了正式版本,开发者声称该AI工具没有任何限制,专为协助网络犯罪分子而设计,可以自由生成一系列恶意代码,或创建网络钓鱼攻击。具体而言,其主要犯罪模式包括网络钓鱼攻击、商业电子邮件泄露、恶意软件创建、诈骗和攻击,通过生成迷惑性信息诱导个人或组织做出有害行为,构成严重的网络安全威胁。WormGPT提供的从一月至一年不等的收费模式。AI偏见:算法之偏伦理修复技术的“B面”——AIGC技术的“B面”——AIGC算法歧视与偏见带来的道德伦理挑战:歧视性结果通常源自算法缺陷和训练数据,需要人类干预并思考如何使用更加均衡和多样化的训练数据,进行模型审查,使用去偏见技术和进行公平性评估。政治偏见:AI存在政治倾向,如针对特朗普返回的积极信息较少,而有很多关于拜登的中性或积极信息。
y收集了来自种族偏见词汇层面:与黑人种族相关的词汇的代表性不足句子层面:生成内容中与黑人种族相关的句子有更多的负面情绪;种族偏见词汇层面:与黑人种族相关的词汇的代表性不足句子层面:生成内容中与黑人种族相关的句子有更多的负面情绪;文档层面:与黑人种族相关的主题的代表性也显著较低。性别偏见词汇层面:AI生成内容中特定于女性的词汇表现出低度代表性;句子层面:关于女性的AI生成句子显示出比原始新闻文章更多的负面情绪;文档层面:与女性相关的主题在AI生成的新闻文章中代表性较低。其他:数据偏见、其他:数据偏见、算法偏见、历史偏见、标签偏见、关联偏见、语境偏见、文化和地域偏见、经济和商业偏见……对于“工程师”或男性。职业偏见。对于“工程师”或男性。职业偏见。年龄偏见,当询问一个典型的"程序员",当询问一个典型的"程序员"或"医生"像时,如果模型总是或主要生成男性形象反映了性别偏见。性别偏见如果用户描述一个种族偏见、(总是出现帽子和吉他)。文化刻板印象社会问题性别歧视阻碍性别平等影响多样性影响心理健康破坏社会和谐
种族歧视社会分裂影响公平正义阻碍多元文化影响国际关系为了识别并纠正这些偏见,需要进行持续的评估、反馈和模型调整。此外,提供多样化和平衡的训练数据也是关键侵犯人权为了识别并纠正这些偏见,需要进行持续的评估、反馈和模型调整。此外,提供多样化和平衡的训练数据也是关键
文化歧视文化同化影响文化交流破坏文化和谐限制个体发展侵犯文化权利
限制职业选择阻碍社会流动损害社会和谐影响经济发展侵犯劳动权利
劳动市场不平等社会分裂限制个体发展影响健康和福祉破坏家庭关系侵犯个体尊严AI应用风险:算法失准智慧偏差安全监控系统监控系统失效可能引发安全事件升级,导致潜在伤亡。自动驾驶汽车软件缺陷、传感器故障、环境条件变化或不准确的地图数据可能导致判断错误或反应延迟。
军事AI系统势力操控。AI场景应用潜在风险
医疗AI错误诊断或治疗建议,误解患者状况皆可能导致不当医疗干预。家庭自动化与智能家居软件故障、传感器误读危及安全功能,如火灾警报失灵、紧急响应出错。机器人辅助手术操作失误、软件故障、机械故障或引发手术意外。
工业机器人AI系统的恶意操控或黑客攻击AI系统的恶意操控或黑客攻击黑客可攻击AI系统操纵其行为,造成危害或滥用功能。自动化制药与药品分配错误的配方计算、生产过程的质量控制失败或分配错误的药物可能会对患者造成严重伤害或死亡。无人航空系统(UAS)和无人机(UAV自动化制药与药品分配错误的配方计算、生产过程的质量控制失败或分配错误的药物可能会对患者造成严重伤害或死亡。导航故障、通信中断、操作失误可致无人机失控。社会信任:技术遮社会信任:技术遮蔽 基石重构技术信任与社会信任的交汇技术信任与社会信任的交汇AI技术的成熟与应用使得公众逐渐对技术产生信任,同时也引发了对政府对社会信任的重新审视。技术信任与社会信任之间的关系,以及二者是否可以等同。算法决策与信任基础AI基于算法和数据分析进行决策,人们是否应该完全依赖于算法的决策,还是在某些情况下保留人类判断权力?信任应该建立在什么样的基础上?算法决策与信任基础AI基于算法和数据分析进行决策,人们是否应该完全依赖于算法的决策,还是在某些情况下保留人类判断权力?信任应该建立在什么样的基础上?伦理责任与信任回溯AI技术如何承担不当行为和系统错误决策的责任。如何追溯信任失落的责任链。如何保证人类在技术决策中的权益。信任建立的新范式传统信任建立通常依赖于人际关系、历史经验等。AI时代的信任建立在对技术的理解与透明度上。人类是否能够建立与技术系统之间真正的信任关系。AIAI悲观主义: 担心失控 控制人类在人工智能专家罗素的《人工智能新生》(HumanCompatible)这本书中,探讨了几个关于AI发展的悲观派观点,基本上概括了目前为止所有类别的担心。包括:在人工智能专家罗素的《人工智能新生》(HumanCompatible)这本书中,探讨了几个关于AI发展的悲观派观点,基本上概括了目前为止所有类别的担心。包括:担心AI生成假消息,操控人类思想担心AI导致人类失业,失去“人而为人”的意义担心AI成为自动杀人武器,最终灭绝人类等神经网络之父杰夫·辛顿离职谷歌,在接受《纽约时报》的采访中称,“我对自己的毕生工作,感到非常后悔。”在接受CBS采访时表示,他确实担心AI有可能会毁灭人类,“但是,更令我担忧的是政治局势,确保每一个人都明智行事,是一个巨大的政治挑战”。人工智能领域顶尖专家约书亚·本吉奥等人联名签署了一封公开信,呼吁暂停开发比GPT-4更强大的AI系统至少6个月,称其“对社会和人类构成潜在风险”。内容真实检测:训练追内容真实检测:训练追踪 句法统计基于模型的鉴别:使用一种AI模型来生成文本,然后训练另一种AI模型来鉴别文本是由人类写的还是AI写的(对抗训练)元数据分析:检查内容的元数据,如创建日期、设备信息等,以确定内容的来源和是否被篡改。多模态特征分析:对比图像、视频、音频等多模态内容的自然度,检测不同模式之间语义一致性。统计分析:AIGC可能会存在统计上的异常(如,不自然的词频分布、句子结构的规律性偏差),可通过数据分析工具检测。生成源追踪:通过数字水印确认内容来源,检测有无篡改。
信源追溯 明确标注训练所用的数据集的来源。 溯 明确标注训练所用的数据集的来源。保存训练日志和参数等信息,必要时可重现训练过程。 录 保存训练日志和参数等信息,必要时可重现训练过程。标注模型版本,绑定唯一的指纹识别码,以便明确模型血缘。 制 标注模型版本,绑定唯一的指纹识别码,以便明确模型血缘。在生成内容中明确标识来源,对第三方内容引用进行披露。 露 在生成内容中明确标识来源,对第三方内容引用进行披露。 性 价值观对齐:技术文价值观对齐:技术文化 双管齐下AIGC的道德建设需要技术与文化双管齐下,通过科学、伦理与法规的协同推进,让AIGC真正造福社会。AIGC的道德建设需要技术与文化双管齐下,通过科学、伦理与法规的协同推进,让AIGC真正造福社会。 观 观 加入积极内容以作示范反向推理生成善意内容 容 识别并限制负面内容的生成加入风险惩罚避免有害内容 应 提供个性化的内容屏蔽适应不同用户群体喜好 视 检测并消除算法歧视公平对待不同的群体 断 提高生成决策的解释性保持决策过程的透明性 与 鼓励用户提供输出反馈开展跨学科合作与讨论应用与创新行业应用:数智赋行业应用:数智赋能 价值深挖病人对话系统疾病智能诊断药物研发医疗健康 健康管理等病人对话系统疾病智能诊断药物研发医疗健康 健康管理等智能教学教育资源推荐智能测评等教育培训反欺诈等金融服务AIGC可释放不同行业的数据价值,实现更智能化的决策与操作,推动社会发展。但也需要考虑技术的负面影响。AIGC可释放不同行业的数据价值,实现更智能化的决策与操作,推动社会发展。但也需要考虑技术的负面影响。科大讯飞星火认知大模型希施玛AIGC金融服务平台客户服务自然语言回复 工业质量控制产线优化预测维护等客户服务自然语言回复工业质量控制产线优化预测维护等工业制造无人驾驶智能交通车联网等交通运输案件参考推荐文书模板生成法条依据等法律服务视频生成系统根据用户兴趣个性化推荐等内容定制数据分析据测政务服务优化社会治理等政府管理入侵检测系统内容推荐搜索引擎优化网络服务 文本识别等智能监控病虫害识别育种优化等农业种植沃丰科技Udesk 创新奇智“奇智孔明AInnoGC” \h 视频生成系统根据用户兴趣个性化推荐等内容定制数据分析据测政务服务优化社会治理等政府管理入侵检测系统内容推荐搜索引擎优化网络服务 文本识别等智能监控病虫害识别育种优化等农业种植华为盘古政务大模型 知网"AIGC检测服务系统" 天润智能农业大模型创意应用:创艺智创意应用:创艺智能 释放活力工业设计借助生成对抗网络和变分自编码器进行产品创意设计和优化 时尚设计使用AIGC进行个性化服饰搭配推荐以及高效设计图案生产广告创意工业设计借助生成对抗网络和变分自编码器进行产品创意设计和优化时尚设计使用AIGC进行个性化服饰搭配推荐以及高效设计图案生产广告创意利用文本和图片生成能力,进行创意广告文案和视觉创作音乐创作应用AIGC智能作曲,生成符合风格的音乐素材游戏设计辅助进行智能游戏场景和角色生成,提升设计效率绘画创作通过风格迁移和创意绘画算法辅助进行作品创作游戏设计辅助进行智能游戏场景和角色生成,提升设计效率绘画创作通过风格迁移和创意绘画算法辅助进行作品创作UI设计依据交互数据进行智能UI界面和体验优化文案创作智能写作系统协助撰写创意广告词和文章创作AIGC在创意产业中的创新应用可以释放创意产业从业者的创造力,使其专注于更高价值的创新创造AIAI学科应用:渐进引入 学科共融学科高级深度学习和自然语言处理智能决策和预测系统强化学习和自主控制系统AI驱动的跨领域综合创新通用人工智能的初步探索哲学80学科高级深度学习和自然语言处理智能决策和预测系统强化学习和自主控制系统AI驱动的跨领域综合创新通用人工智能的初步探索哲学8060206080经济学6080808090法学8060506080教育学6080508090文学8060206080历史学6060206080理学6060808090工学6080909090农学6080808090医学6080809090军事学6060806080管理学6080808090艺术学6560507080
AI技术发展将先在文科领域(如文学、哲学)产生显著影响,随后在理科和技术领域(如工学、医学)发挥更深远作用。异感世界:技术交异感世界:技术交融 虚实共生由人工智能技术快速发展和普及所塑造的社会-技术现象,人们对AI的高级能力、不可预测性和与现实界限的模糊感到不安、好奇或混淆。这一现象不仅影响人们与技术的互动方式,还在伦理、工作、社会结构和人类自身价值观方面产生深远影响。现实-虚拟连续体现实与现实-虚拟连续体现实与AI生成的虚拟内容之间的界限,以及这种界限如何影响人们的认知和行为。人工伦理适应性主张需要建立动态的伦理框架来适应不断发展的AI技术,以解决由此产生的道德和伦理问题。黑箱与白箱相容性在AI决策过程的不透明性与人们对透明性和可解释性需求之间找到平衡。社会认知振荡AI如何在快速改变社会观念和行为规范方面起到“催化剂”的作用,进而影响社会的整体稳定性。创新模式:组合放创新模式:组合放大 跨界融合强调通过结合现有的概念、技术或资源以创造新的价值。组合创新
强调将一个领域的创新应用到另一个领域的过程,从而放大其影响和应用范围。放大创新
发生在多个学科、行业或文化界限的交叉点上。强调在传统边界之外寻找灵感和解决方案。跨界创新
构建支持多种应用程序、产品或服务的基础设施或技术平台,在共享系统中创造新的价值。平台创新范式转变方法论创新开发新的实验设计、数据分析技术或其他研究工具,揭示现有理论的局限性或促进新理论的发展。
增量创新侧重于现有产品、服务或流程的小幅改进,通常涉及对现有解决方案的细微调整,以增强性能、降低成本或提高用户体验。
模块化创新创建可以在多个不同产品或系统中使用的标准化组件或模块。这种创新允许快速组合和重新组合这些模块以适应新的需求或机遇。
对科学基础假设的根本性改变。这种转变往往颠覆现有的理论框架,导致科学观念和实践的重大变革。AIAI for Research:理论进化 宏微指引理论进化AI检视原有的学说,自动补足研究空缺,进而将传统知识进行创新性的重组,构筑更完备的学术体系 理论进化AI检视原有的学说,自动补足研究空缺,进而将传统知识进行创新性的重组,构筑更完备的学术体系再启蒙AI推进对已有理论的进一步创新,不仅局限于拓展,而是对核心观点、理念和基础做出变革技术融合洞察结合新技术进展,AI重塑理论与实践的结合点,为实践领域带来前所未有的理论指导知识融合AI融合跨学科的知识,打破传统边界,使得单一事物可以被多维度、多角度地进行解析与洞察知识融合AI融合跨学科的知识,打破传统边界,使得单一事物可以被多维度、多角度地进行解析与洞察超越交界AI探索尚未被人类涉及的学科交叉领域,开启硅基生命认知的新纪元,为知识体系增添新维度宏微同构预知AI构建全面、细致且互为影响的预测体系,实现从微观到宏观的跨尺度认知,为未来提供更准确的指引AIAI心理学:解读认知 智渡险境心理揭示研究AI心理揭示研究AI如何通过大量的数据处理与分析,帮助揭示和理解人类心理学的问题。包括利用AI进行心理健康诊断、行为预测和心理治疗的辅助。交互感知:探讨人类如何感知和理解与AI的互动,以及这些互动如何影响人类的心理和情感状态。包括研究人机界面设计、AI的情感智能以及人们对AI的信任和依赖程度。心智镜像分析AI心智镜像分析AI如何模仿或重现人类的认知和情感过程,包括情感识别、决策支持以及学习和记忆模拟,以及探讨AI在理解和模拟人类心理方面的潜力和限制。意识觉醒预测未来AI可能达到的自我意识和意志自由的状态并理论化。包括探讨这样的AI在伦理、法律和社会层面上的影响和挑战。AIAI历史学:史料剖析 序史探秘文献收集数据预处理数据收集与整理自动文献回顾语义分析文献收集数据预处理数据收集与整理自动文献回顾语义分析文献回顾与分析时间序列分析关联分析模式识别与关联分析主要任务和挑战实体关系抽取知识推理知识图谱构建实体关系抽取知识推理知识图谱构建模拟和预测自然语言查询交互式查询和探索材料稀缺和不完整:可用文献资料有限,且存在破损和不完整的问题。AI潜在应用以直观地展现历史数据和模型输出交互式可视化多用户协作以直观地展现历史数据和模型输出交互式可视化多用户协作知识共享协作和共享规则。数据驱动和自动化的方式探讨历史的未解之谜。同时,AI技术也为研究者提供了强大的工具和资源,以深入理解和解决历史上的复杂问题和谜团。形式。AIAI哲学:弑父与事父对待AI的态度是基于“事父情结”,强调尊重和顺从。在这种文化背景下,人类被视为AI的创造者和指导者,因此AI应当为人类服务。这种尊重和顺从的观念源于东方的家族结构和文化传统,强调家庭和谐和尊重长辈。因此,东方视角下的AI被期待与人类和谐共存,遵循人的指导和纲领。对待AI的态度是基于“事父情结”,强调尊重和顺从。在这种文化背景下,人类被视为AI的创造者和指导者,因此AI应当为人类服务。这种尊重和顺从的观念源于东方的家族结构和文化传统,强调家庭和谐和尊重长辈。因此,东方视角下的AI被期待与人类和谐共存,遵循人的指导和纲领。西方文化中的“弑父情结”源于古希腊神话,如俄狄浦斯的故事。这种情结强调个体反叛和挑战权威。在AI的语境下意味着AI可能会挑战其创造者——人类的权威。有些学者认为这种反叛的基因可能是颠覆性创新的根源。因此,西方文化中的AI可能被视为潜在的威胁,可能会挑战甚至取代人类。文化编码差异描述东西方文化中对待AI的根本差异AI颠覆性潜能描述西方文化中AI可能挑战和颠覆人类权威的观念东方文化 人机和谐论描述东方文化中人类与AI和谐共存的观念 东方文化人机和谐论描述东方文化中人类与AI和谐共存的观念西方文化学会用神的眼睛看世界学会用神的眼睛看世界无偏见的观察AI不带有人类的情感和偏见,它可以提供客观的分析结果。当我们面对复杂的社会和文化问题时,AI模式识别通过深度学习,AI可以识别复杂的模式和关联,这在人类难以觉察的领域也有所表现。如在艺术、音乐和文学中,AI可以找到超越时间和空间的观察无偏见的观察AI不带有人类的情感和偏见,它可以提供客观的分析结果。当我们面对复杂的社会和文化问题时,AI模式识别通过深度学习,AI可以识别复杂的模式和关联,这在人类难以觉察的领域也有所表现。如在艺术、音乐和文学中,AI可以找到超越时间和空间的观察AI可以同时分析过去、现在和未来的数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国外石英矿山承包合同协议书范本
- 合同板本类型
- 2024年济宁烟台客运上岗证考试题
- 2024应届生签合同的合同陷阱
- 2024上海市旅游包车合同
- 三年级语文上册第二单元测试卷-基础知识与综合能力篇 含答案 部编版
- 2024建筑劳务人工合同范本
- 2024汽车配件供应合同
- 员工人事档案
- 报废车辆收购合同(2篇)
- T∕CGMA 033001-2018 压缩空气站能效分级指南
- 《汽车维护》教案全套 课程单元设计
- 佳能EOS5D基本操作说明
- 保险基础知识题库(按章节)
- 《击剑》专项课教学大纲
- 大客户管理办法
- 六年级组数学课例研修报告
- 《葡萄球菌肺炎》课件.ppt
- 唐诗三百首(全集)--钢笔-字帖-打印版-办公室练字必选
- 三字经全文带拼音完整版----打印版
- 销售配合与带动课件
评论
0/150
提交评论