版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
II版权声明本指南由云计算开源产业联盟可信开源合规计划开源人工智能治理工作组撰写,限于撰写组时间、知识局限以及技术、社会发展迭代等因素,内容恐有疏漏,烦请各位读者不吝指正。在编写过程中得到多家单位的大力支持,在此特别致谢中国信息通信研究院、中兴通讯股份有限公司、中国平安人寿保险股份有限公司、东方证券股份有限公司、中国光大银行股份有限公司、北京抖音信息服务有限公司、百度在线网络技术(北京)有限公司、天翼数字生活科技有限公司、亚信科技(中国)有限公司、深圳开源互联网安全技术有限公司、鼎道智联(北京)科技有限公司、北京大学人工智能研究院AI安全与治理中心、北京大学武汉人工智能研究院、OpenSDV汽车软件开源联盟、开源社、重庆中科汽车软件创新中心、上海市锦天城律师事务所等单位的各位专家,感谢各位秉承开源精神,协同共创,最终完成本指南的撰写工作。陈岱源、王帅、张小丰、陶冶、刘东威、孙珊珊、李梦欢、马红伟、沈杨、洪烨、梁尧。近年来,开源模式与人工智能技术加速融合,有力地打破了闭源人工智能技术垄断、加速人工智能大模型技术持续创新、拓展大模型应用路径、重塑人工智能产业生态,同时开源大模型的创新发展和应用还为个人、企业和国家的发展提供更为广阔的发展天地。然而,大模型技术在给人类带来生活方式转变和生产方式革新的同时,也引入了安全、合规等多方面风险挑战,甚至可能对人类社会的可持续发展带来负面影响。大模型开源增加了人工智能系统风险暴露和被恶意利用的可能性,开源许可模式的应用也使得人工智能技术利用的合规风险更加复杂,开源大模型的可得性亦可能加剧开源大模型滥用风险。为保障开源大模型技术健康有序发展,充分释放人工智能技术效能,相关政策或法规纷纷出台,除人工智能治理宏观监管要求外,越来越多的国家政府开始关注开源大模型的针对性、包容性监管。在具体风险治理层面,企业也开始探索构建开源大模型综合性治理体系,并建立开源大模型风险防控机制,以最大化开源大模型应用实效。本指南结合中国信通院开源研究工作,分析总结开源大模型发展态势,重点围绕开源大模型应用风险及治理动态、治理措施展开研究,为企业安全、合规、高效应用开源大模型提供参考。 I 1 1 3 6 8(一)开源语言大模型开启百家争鸣新纪元 8 11 14 16(一)开源大模型应用或导致安全风险升级 17(二)开源大模型应用或面临多重规制要求 20(三)开源模式或加剧大模型技术滥用风险 28 29 30(二)欧盟立法谋求人工智能监管主导权,开源大模型得有条件义务豁免 31(三)美国人工智能监管增强化趋势明显,国防领域率先探索开源大模型影响 33 34 46(一)开源大模型治理体系构建 47(二)开源大模型风险防控建议 49 77V 3 53 71 72 73 74 74 76 9 12 15 21 35 54 701开源作为一种开放、无边界的新型协作模式,从开源软件到开源硬件,再到开放数据、开源大模型,开源的应用范畴不断拓展,但开放和可复制的核心原则始终未变。较之于闭源大模型,开源不仅重塑了人工智能产业生态,开源大模型的发展和应用更为个人、企业、国家提供了更为广阔的发展天地。(一)从软件到大模型,开源的“变”与“不变”开源思想兴起于软件开发领域,软件开源核心在于源代码开放。“开源”(OpenSource)概念根植于上世纪五十年代以来自由开放的计算机文化,并随着开源软件促进会(OpenSourceInitiativeAssociation,OSI)经典开源定义的确立,逐渐形成共识。在传统软件行业,源代码凝结了创作者的设计思想、实现方法和具体表达,因此软件开源的核心集中体现在源代码的开放、可获取。历经数十年的发展,开源已成为现代软件产业的主流开发模业代码库中包含开源软件,并且商业代码库中77%的代码直接源自开源软件。1开源模式应用场景不断拓展,大模型开源形式多元。随着数字时代的到来和全球互联的加深,开源模式在不同场景的应用过程中逐渐衍生出开放数据、开源大模型等多种概念形态,成为人工智能技术创integrity/resources/analyst-reports/open-s2新、开放、共享、可持续发展的源头活水。不同于传统软件的源代码开源,实践中围绕大模型相关技术,形成了开源模型框架、开源模型代码、开源参数权重、开源工具库以及开源训练数据等多但单一元素的公开和可获取可能并不足以支持使用者复现模型效果,实现开源“授之以渔”的根本目的。开源大模型定义逐渐清晰,开放性和可复制性的基本原则一以贯之。为促进开源思想在人工智能技术领域的贯彻和落实,避免部分开发者假借开源之名,行限制技术共享之实,OSI组织凝聚各方共识,探索开源AI定义,为用户和开发者提供判定AI模型是否开源的概念框架。根据当前定义,2开源人工智能系统需满足以下四个条件:一是允许公众出于任何目的使用系统,无需征得许可;二是允许公众研究系统的工作原理并检查其组件;三是允许公众出于任何目的修改系统,包括更改其输出;四是允许公众出于任何目的共享系统供他人使用,无论是否经过修改。与开源软件定义的基本原则一致,该定义明确了开源大模型框架、权重、代码以及训练数据等核心元素的开放性和可复制性,以确保开源大模型能够获得持续更新和改进。开放性是开源大模型获取社区贡献的前提。开源大模型的开放性是指将大模型开发和训练的方法论、进展和技术成果向社会开放,而不对公众的访问、复制、检查加以限制。3开源大模型可开放的内容包括模型原理、参数权重、源代码和具体的训练数据,不同模型开放的2TheOpenSourceAIDefinition-1.0,网络地址:https://3M.A.PetersandP.Roberts,VirtuesofRoutledge,2015.3内容有所差异。依据OSI组织的相关定义4,开源大模型须在OSI认证的许可协议或条款下向公众公开“适合修改的形式”,包括模型权重和参数,训练和运行AI系统的全部源代码,以及有关训练数据的详细信息,而不强制要求开源大模型公开全部的原始训练数据。实践中,不同大模型的开放程度存在较大差异,基于斯坦福大学基础模型研究中心发布的AI系统访问等级,从完全封闭到完全开放之间存在可复制性是开源大模型研究、应用的重要基石。可复制性意味着使用者可在相同或不同的环境和条件下,独立运行大模型并复现开源大模型的技术效果,是对开源大模型进行科学研究、技术验证和创新应用的能力基础。在人工智能大模型领域,实现可复制性的前提在于模型开发者尽可能提供完整的数据集、代码、模型参数等模型开发和训练的相关信息,从而供使用者验证模型性能、应用运行结果,从数据、代码和架构等层面对模型加以改进和创新,最终推动技术的进步和革新。例子完全封闭托管访问开放模型API开放微调API开放权重有使用限制的开放权重、数据和代码无使用限制的开放权重、数据和代码FamingoGPT-4GPT-3.5Lama2BLOOM2GPT-Neox(Googe)(Infection)(OpenAI)(OpenAI)(Meta)(Bigscience)(EeutherAI)开放基础模型4TheOpenSourceAIDefinition-1.0,网络地址:http5RishiBommasanietal.,“ConsiderationsforGoverningOpenF/issue-brief-considerations-governing-open-foundation-models,最后访问日期:2024年4往往倾向于封锁创新技术,以谋求长期的市场竞争优势。开源开放破除了闭源大模型专有技术依赖问题,激发市场创新活力。用户可免费获取开源大模型并根据不同应用场景和个性化需求做自适应定制,有效减少了对于高成本商业技术或单一技术厂商的依赖,避免部分人工智能技术厂商利用先发优势封闭技术、垄断市场。如Meta公司推出开源大模型LLaMA2,有力打破了大语言模型长期被OpenAI、谷歌等商业巨头垄断的局面。同时开源大模型允许广泛的社区参与和众创协作,大大提升技术迭代速度和创新效率,刺激闭源人工智能技术突破、提升,促进良性市场竞争并增强市场多样性。开源大模型是AI应用触达的破加速器”。开源开放显著降低了大模型的部署及应用门槛,使得人工智能技术得以广泛应用于金融、医学、教育、能源、法律等领域。如基于开源大模型LLaMA的行业模法律领域的LAWGPT,教育领域的Taoli大模型等,均通过人工智能技术赋能相关产业转型升级。此外,大模型开源还有助于促进人工智能技术在欠发达地区的普及和交流,提升资源受限地区和群体的数字发展机会。如基于Qwen1.5训练开发的开源语言模型Sailor,专注于东南亚地区的多样化语言环境,促进了人工智能技术在小语种地区的落地和应用。开源是AI科技创新的破催化剂”。围绕成熟的开源大模型项目,5往往会形成活跃的开源社区,社区成员可以通过民主、开放的形式共同进行项目的开发和维护工作,从而形成一个强大的知识网络以优化大模型的产品体验。6开源社区不仅有益于积累技术经验和推进模型迭代,更为大模型技术的发展提供了多样化的技术路线储备,避免大自然语言处理技术领域占据主流地位,但仍有众多开源项目在不断探索RNN算法的优化和改进方向,以期在该领域实现技术突破。开源是AI商业模式的破孵化器”。开源大模型的有助于帮助企业快速构建商业生态,推动人工智能技术从实验室走向市场,加速人工智能技术的商业化进程。目基本形成了开源和闭源相结合的商业模式。其中,Meta、百川智能、360等企业倾向于借助开源社区以提升模型质量并快速打造自己的产品和生态。而OpenAI、百度、华为等具有先发优势的企业虽采取闭源战略发展其核心大模型产品,但也积极参与开源生态的建设,如百度构建飞桨社区、华为开放昇腾资源等。此外,随着使用者定制化需求的增加,开源大模型研发企业逐渐从以“产品”为卖点转向以“服务”为卖点,7帮助企业构筑符合其应用场景的垂类大模型,并针对该企业可吸引第三方开发者和企业围绕其开源产品构建应用程序和服务,以提升企业的品牌形象和模型的行业影响力,进而围绕其具有影6响力的开源模型制定技术标准,并采取发布专出售相关培训等方式拓展盈利渠道。开源是AI风险治理的破探照灯”。闭源大模型因缺乏透明度,安全合规风险事件时有发生。如ClearviewAI从互联网上收集了数十亿张图片来训练其闭源AI系统,后该公司便因未经同意收集和使用个人数据而招致法律诉讼和道德争议。较之于闭源大模型,开源大模型框架、参数、算法、数据以及其他技术细节都公开可见,因此研究人员和开发者可对代码进行充分审查以识别其潜在安全漏洞和算法瑕疵。合规层面,开源大模型训练数据的公开允许第三方机构和公众检查数据的来源和使用方式,进一步敦促模型训练方更好地理解和遵守数据使用相关法律法规和标准,保障数据权利人的基本权益。伦理层面,开源大模型允许第三方开发者直接查看和理解模型的内部工作原理,极大地提升了模型的可解释性,有助于揭示模型潜在的偏见、歧视或其他伦理问题。此外,较之于商业基础模型的开发团队,开源社区的技术人员具有更为丰富的文化背景,有助于确保模型充分考虑、尊重不同文化群体的需求和价值观。开源引导用户从消费者转变为创造者,为个体提供个性化表达渠道。随着人工智能技术的颠覆性发展,大模型不再只是生产工具,更是个体提升自我、表达自我的重要渠道。8就闭源大模型而言,终端用7户和大模型企业之间是“消费者-生产者”的关系,用户无法了解模型生成内容的原理和具体细节,仅能单向被动接受“算法黑箱”所提供的输出内容,而无法体现其创作风格和表达习惯。开源大模型则允许用户利用自己的日常数据实现模型的定制化,个人用户可以通过开源大模型实现高度个性化的AI应用,以作为个人自我表达的延伸。例如,艺术家和设计师可将个人作品作为输入,对开源模型如StableDiffusion进行再训练,以定制具备其个人风格的大模型,并协助其进行新的艺术创作。开源降低AI技术研发和应用门槛,为企业提供低成本、高效率解决方案。大模型技术效果的实现高度依赖海量数据和充足的算力资源,中小企业难以从零开始完成模型框架设计、训练数据收集、基础模型预训练等工作。开源大模型通过将已经完成初步训练的基础模型公开,帮助应用企业理解现有模型的工作原理,并支持应用企业在此基础上针对个性场景进行深度定制开发和数据定向训练。此外,开源大模型促进了不同领域之间的交叉融合和创新,各行业企业可以自由对其进行修改和扩展,从而创造出更多具有创新性的应用和产品。开源汇聚人工智能相关知识和资源,为国家前沿科技和智能产业发展提供有力驱动。开源作为一种新型协作模式,有助于实现全球人才、技术、算力、产业链等宝贵资源的有效整合。大模型开放社区可提供从基础设施、软件与数据环境、算法框架到智能模型的全栈AI技术栈以及强大的算力支持和学习资源,为开发者和爱好者提供平等参与的机会,促进技术普及化,有效激发创新活力。同时,跨学科、8跨领域的知识融合,为人工智能领域的技术难题攻关提供新的思路和方法,助力人工智能技术实现持续迭代和不断创新。此外,企业的参与为开源大模型技术研发和众创提供必要资金支持和技术贡献,依托开源大模型形成的成熟商业模式也将反哺开源大模型社区和技术的纵深发展,促进创新链和产业链深度融合、技术供给和市场需求互动演进,全面提升国家在前沿科技和智能产业方面的竞争力。近年来,开源模式在语言大模型领域迎来了爆发式发展,开源语快速进步为多模态大模型以及Agent的发展、成熟奠定坚实基础,并且开源模式也在持续推动大模型技术的迭代创新和应用落地。语言大模型作为人工智能技术的重要分支,与开源模式深度融合并得以广泛运用。语言大模型即基于大规模语料库训练的,可执行文本总结、翻译、情感分析等广泛任务的人工智能模型,是专注于自然语言处理的重要人工智能技术领域。语言大模型发展初期,大多数性能强大的语言大模型仅能通过付费API访问,而其工作方式和工作原理却鲜为人知。同时,语言大模型的预训练阶段需耗费大量资源和高额成本。为促进模型健壮性的提升,处理偏见等有害生成内容,并推动语言大模型创新,开源模式成为产业界的优选方案。早期的开源语言大模型包括GPT-NeoX-20B、开源预训练Transformer(OPT)语言模型以及BLOOM等,这些开源语言大模型在性能上较之于闭源大模9型仍有较大差距,但LLaMA等高质量开源预训练语言大模型的发布则大力推动了开源语言大模型质量的飞跃和数量的激增。目前,国内外开源语言大模型已形成百家争鸣之势,大量性能优越的开源大模型,如OpenAI的GPT、MistralAI的Mixtral、Microsoft的Phi、Google的LaMDA及Gemini、DeepMind的Gopher、xAI的Grok、MLLaMA等以及智谱AI的GLM、阿里巴巴的通义千问、科大讯飞的星火、零一万物的Yi等得到快速发展和广泛应用。专栏1经典开源语言大模型解析1.通义千问Qwenl模型简介Qwen是阿里巴巴集团Qwen团队基于QWenLMHeadModel模型架构研发的大语言模型和大型多模态模型系列,目前已升级至Qwen2.5版本,无论是语言模型还是多模态模型,均在大规模多语言和多模态数据上进行预训练,并通过高质量数据进行后期微调以贴近人类偏好。l关键技术原理通义千问的模型架构基于增强的Transformer结构,采用了旋转位置嵌入(RoPE)和无偏置的RMSNorm技术,使用FlashAttention来加速训练过程,并采用SwiGLU激活函数以提高模型的性能。l软硬件依赖软件:Qwen大模型目前支持主流的Linux、MacOS、Windows操作系统,运行前需安装transformers(4.40.0+)、Python(3.8+)、PyTorch(2.2+)等组件,也可通过OLLaMA等模型部署框架快速在本地安装。硬件:当前通义千问的基础模型已经稳定训练了大规模高质量且多样化的数据,覆盖多语言(当前以中文和英文为主总量高达3万亿token。对于较小规模的模型如Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B,推荐使用具有至少16GB显存的GPU,如V100、P100或T4等,对于更大规模的模型如Qwen2-72B,则需要使用具有80GB显存以上的A100GPU。2.LLaMAl模型简介LLaMA(LargeLanguageModelMetaAI)是MetaAI发布的开四种版本。LLaMA系列开源大模型的训练数据集皆来源于公开数据集,以确保其开源兼容性和可复现性。目前LLaMA已升级至3.1l关键技术原理LLaMA3采用了典型的Decoder-only的Transformer架构,与LLaMA2类似,但进行了一些改进,如使用RoPE(旋转嵌入)作为位置编码方案,以及分组查询注意力(GroupedQueryAttention,GQA)机制来提高推理速度。l软硬件依赖软件:LLaMA3大模型支持主流的Linux、MacOS、Windows操作系统,用户可通过命令行或OLLaMA等模型部署框架快速在本地安装,运行前需安装transformers(4.40.0+)、Python(3.7+)、PyTorch(2.2+)等必要关联组件。处理器和内存:建议使用具有至少8核CPU进行高效后端操作和数据预处理。对于模型训练和推理,尤其是70B参数模型,推荐使用多个强大的GPU,最好是支持CUDA架构的NvidiaGPU,而70B模型则建议32GB或更多才能满足基本运行需求。存储:需要足够的存储空间来存储模型和相关数据集,对于像70B这样的大型模型,建议使用TB级的SSD存储,以确保快速的数据访问。Transformer开源框架和BERT开源模型大力推动多模态模型发展,开源多模态大模型渐成生态。多模态模型,也称作跨模态模型,是指在模型的输入域、输出域涉及一种以上模态数据的人工智能模型,可广泛应用于文本和图像的语义理解、图像描述、视觉定位、对话问答、视觉问答、视频的分类和识别、音频的情感分析和语音识别等场景。不同于单一模态,多模态学习旨在通过不同模态数据的有实现全面、准确的决策。21世纪以来,深度学习技术的兴起,尤其是Transformer开源框架和BERT开源模型显著推动了多模态模型的快速发展,9极大地促进了AI技术的跨领域融合,为人工智能生态注入新活力和新动力。目前主流的多模态大模型多以Transformer为基础,该框架通过自注意力机制(Self-AttentionMechanism)、多头注意力(Multi-HeadAttention)等技术实现了对于全局信息的高效捕获,显著提高了模型的表达力。此外,BERT开源模型自2019年以来也逐渐被应用至多模态领域,该模型通过预训练学习到的深层次语言表示,可作为多模态模型中文本模态数据的有力特征提取器,以帮助模型更好地理解和处理与图像、视频等其他模态相关的文本信息。同时,BERT的预训练和迁移学习方法也可应用于多模态模型,以提高模型性能和适用性。在开源基础架构和模型技术的引领下,多模态模型领域也涌现出众多开源项目,包括CLIP、DALL-E、专栏2经典开源多模态大模型解析1.CLIP(ContrastiveLanguage-ImagePretraining)l模型简介CLIP是OpenAI推出的一款多模态大模型,可理解和关联图像和文本,其核心思想在于通过对比学习,将图像和文本映射到同一个向量空间,从而使得模型可以处理图像分类、图像搜索、文本生成等任务。此外,CLIP可实现零样本学习,并可通过对比学习,生成高效的图像和文本表示,用于多种下游任务。/s/hc6iYl关键技术原理对比学习:CLIP采用对比学习策略,同步训练图像和文本编码器,将具有相同语义内容的图像与文本映射到同一向量空间内,并通过增强正确图像-文本配对之间的相似度并降低错误配对之间的相似度,实现了精准的语义匹配。Transformer架构:CLIP的文本编码器使用Transformer模型,图像编码器使用类似ResNet的卷积神经网络,并最终通过线性变换将两者的输出映射至同一空间。l软硬件依赖软件依赖:CLIP基于PyTorch框架,兼容大多数深度学习库和硬件依赖:CLIP需要GPU支持,尤其是在大规模数据集上进行训练时,建议使用高性能GPU(如NVIDIAA100)。2.Flamingol模型简介Flamingo是由DeepMind发布的多模态模型,能够处理文本、图像和视频等多种模态的数据。该模型擅长多模态内容的生成和推理,并具有强大的视频处理能力。Transformer架构:Flamingo使用多层Transformer编码器处理文本和图像模态,视频处理则通过时序卷积或Transformer实现。多模态联合学习:Flamingo通过联合训练不同模态的数据,使其在不同模态之间共享表示,进行跨模态推理。l软硬件依赖软件依赖:Flamingo基于TensorFlow或JAX框架,要求支持大规模并行计算。硬件依赖:Flamingo对GPU和TPU的依赖较大,特别是在视频处理任务中。大模型赋能Agent能力增效,开源模式加速Agent创新应用。Agent(智能体)是一种能够感知环境、做出决策并采取行动的智能系统,通常具备自主性、适应性、交互性和学习能力四大特征,即能够在无人类干预的情况下独立完成任务、根据周围环境和用户反馈不断调整自身行为、与其他智能体或人类进行沟通和协作,同时还能通过持续学习提升自身性能。Agent的发展历经符号规则、统计学习、深度学习等阶段,并随着大模型技术的快速发展迎来了基于大模型的突破式解决方案,越来越多的研发人员开始采用大语言模型作为Agent的认知核心,并借助多模态感知和多元工具应用等方式来拓展其感知和行动空间。通过引入大语言模型深度学习新范式,思维链推理以及先进的自然语言理解技术赋予了Agent强大的学习与知识迁移能力,使得开发广泛适用且高效的Agent成为现实,推进人类不断接近通用人工智能。10与其他人工智能领域技术相似,开源模式同样在极大程度上促进了Agent技术的创新发展和应用触达,LangChain、TaskMatrix.AI、CogView、AutoGPT、OpenAssistant等开源Agent相关项目通过代码、框架或工具的公开可获取,有效降低了Agent技术的研究和应用门槛,推动其发展和应用。专栏3经典开源Agent解析1.LangChainLangChain是一个用于构建可编程Agent的开源框架,LangChain的架构设计高度模块化,开发者可以根据需求灵活选择和组合不同组件。此外,LangChain还支持与多个开源语言模型的集成,使其成为开发大模型Agent的理想选择。LangChain的核心在于将语言模型的生成能力与外部工具结合,以实现复杂任务的自动化。此外,LangChain开源项目十分活跃,有大量插件和扩展可l关键技术原理语言模型与工具集成:LangChain通过结合大型语言模型(如GPT-3、BERT等)与外部工具(如搜索引擎、的多功能化。任务规划与执行:Agent能够根据用户输入进行任务规划,调用适当的工具完成任务。l软硬件依赖软件依赖:LangChain基于Python,兼容大多数深度学习框架硬件依赖:LangChain对硬件要求不高,常用于轻量级任务的自动化执行。2.TaskMatrix.AITaskMatrix.AI是由微软亚洲研究院推出的一个多模态任务Agent,可通过自然语言指令执行复杂的任务,如网页操作、数据处理等。该项目支持复杂任务执行并支持多模态处理,同时针对中文语境进行了优化,适用于国内的应用场景。l关键技术原理多模态融合:TaskMatrix.AI将语言、图像和操作指令结合起来,使得模型能够在复杂的多模态环境中工作。强化学习:TaskMatrix.AI通过强化学习,可在多步任务中不断优化决策,提高任务执行的效率和准确性。l软硬件依赖软件依赖:TaskMatrix.AI基于微软的深度学习框架,集成了多种API和工具。硬件依赖:TaskMatrix.AI需要较高性能的GPU支持,特别是在多模态任务中。大模型技术在给人类带来生活方式转变和生产方式革新的同时,也引入了安全、合规等多方面风险挑战,并对人类社会的可持续发展一定程度上增加了风险暴露的可能性和被恶意利用的概率,开源许可模式的应用使得人工智能技术利用的合规风险更加复杂,开源大模型的可得性还可能加剧人工智能技术的滥用风险。安全层面,开源大模型应用主要面临传统信息系统安全风险以及算法缺陷所诱发的新型安全风险。开源大模型信息系统安全性面临多重复杂风险。一是大模型开源招致更高入侵风险。较之于闭源大模型,开源大模型代码等信息公开可获取,使得信息系统可能面临更高入侵风险,攻击者可能利用漏洞未经授权访问大模型信息系统,导致敏感数据泄露或被篡改、服务中断、关键基础设施受损等,影响个人、企业、社会甚至国家的安全。然而,闭源大模型信息系统所面临安全风险严重程度不亚于开源大模型,闭源大模型的保密性限制了外部审查,AI系统安全漏洞难以被及时发现,并可能被广泛应用于企业各信息系统中,一旦漏洞暴露便增加了被攻击者利用的风险,从而可能导致更严重的安全事件。二是开源大模型系统安全问题处理面临兼容性和社区支持等不确定因素。在大模型开源项目中,不同分支和分叉在功能特性和安全性能上的差异可能导致跨系统兼容性问题,从而显著提升开源大模型系统集成和维护的复杂性。此外,开源项目的更新和漏洞修复高度依赖于开源社区参与者的积极贡献。若项目维护活动不够活跃,或者开源社区缺乏足够的开发维护人员,开源大模型项目将在较长时间内保持脆弱状态,存在严重安全隐患。三是开源大模型依赖复杂性加剧供应链攻击风险。开源大模型的开发和部署通常依赖于大量第三方软件包和依赖库资源,依赖项中的安全问题将可能通过供应链攻击的方式迅速影响到整体信息系统。如国内360、腾讯等企业安全团队曾多次发现TensorFlow、PyTorch等开源深度学习框架及其依赖库的安全漏洞,攻击者可利用相关漏洞造成任意代码执行、拒绝服务攻击、信息泄露等危害。开源人工智能算法风险问题显著。一是开源大模型算法依然存在可解释性问题。尽管开源大模型的代码、参数和训练方法公开透明,但由于模型内部多层次的非线性数据处理和海量参数的复杂交互,大模型的决策路径和工作机制仍属黑盒模式11,如此可能导致输出结果难以预测和确切归因,如有异常难以快速修正和溯源追责。二是开源大模型算法鲁棒性弱。鲁棒性是指大模型技术在面对复杂的数据环境时,保持性能稳定和输出结果准确的能力。较之于闭源大模型,开源大模型的应用环境更加的多元和复杂,同时开源大模型通常为通用性模型,因此在复杂场景下或特定用例中,开源大模型可能表现出输出内容不准确、做出错误判断或行为、服务中断或性能下降等问题。根据FlagEval大模型评测平台测评结果,在内容扰动鲁棒https://zhuanlan.zh性评测和格式扰动鲁棒性评测中,开源大模型LLaMA-2-7B的扰动后总平均准确率不到40%。三是大模型算法开源易引发对抗性攻击和反向工程。攻击者可通过获取、研究公开算法,设计输入数据以误导模型算法对于依赖模型进行关键决策系统而言,如身份验证系统、欺诈检测系统、自动驾驶汽车的感知系统等,对抗性攻击尤其危险。同时,若攻击者通过注入恶意数据以影响模型的训练过程,将导致生成存在偏见或不可信结果的模型。相较于闭源大模型对攻击者的黑盒输出,基于开源大模型的应用极易继承白盒对抗性攻击的安全漏洞,从而引发严重的安全风险。此外,开源大模型的公开性也使得攻击者更易通过分析或复制模型算法来盗用知识或进行模型复制。四是开源大模型算法仍然可能存在价值观和意识形态风险。一方面,人工智能大模型训练基于大量数据,然而数据的标注人员文化背景差异巨大,并可能从认知和感知层面无意识地将主观偏好和隐性偏过程中会基于经验和主观判断进行参数选择,并致力于目标函数的最优化以提升对主流趋势的预测精度,而将少数群体数据视为异常值或噪声,可能最终导致该部分群体受到算法的不公平对待12。此外,当前人工智能算法不足以独立识别和抵制偏见数据,因此在与外部环境的互动过程中,用户输入的偏见可能会通过人工智能系统自我加强的反馈循环被不断复制和放大,进而加剧现有的社会歧视13。根据联合国教科文组织《大型语言模型中对妇女和女童的偏见》报告分析,开源大模型仍然是性别偏见的重灾区,如在LLaMA2生成的内容中,女性从事家务劳动的频率是男性的4倍。另一方面,境外开源大模型与国内环境和内容安全要求并不完全符合,即使经过再训练仍然无法完全去除其原生数据价值倾向,这类模型可能更容易生成违背社会主义核心价值观、危害国家安全和利益、损害国家形象,宣扬恐怖主义、极端主义,宣扬民族仇恨、民族歧视,暴力、淫秽色情,以及虚假有害信息等法律、行政法规禁止的内容。合规层面,开源大模型应用面临多重监管要求和法律规制,本文主要围绕开源许可、训练数据以及大模型生成物三大业界关注重点议题解析开源大模型合规风险。大模型开源许可协议种类繁多,许可协议本身潜藏诸多风险。开源许可协议可谓开源大模型应用、发展的法律基石。目前全球最大开源大模型托管平台HuggingFace上汇聚超百万开源大模型项目,涉及七十余个开源许可协议,可大致分为三类:通用型开源软知识共享许可协议、新型人工智能许可协议。1)宽松型开源软件许可协议如Apache-2.0、MIT等在开源大模型项目中适用热度最高,该类许可协议仅为被许可方设定较低限度义务限制,因此广受商业公司欢迎。但该类许可协议的许可对象一般为软件产品(或源代码和二进制代码)及相关文件,对于开源大模型项目中的部分元素,如模型参数、训练数据集等可能难以完全覆盖,因此使用该类开源许可协议下的开源大模型项目可能存在一定风险问题。2)知识共享系列许可协议仅包含版权许可,但当前人工智能领域专利数量激增,开源大模型项目涉及专利方案可能性较大,因此应用知识共享许可协议下的开源大模型或潜藏较高专利风险。3)新型人工智能许可协议主要包括RAIL(ResponsibleAIPubsLicenses)系列许可协议及Meta的LLAMA2、StabilityAI等许可协议,此类许可协议多超出了OSI的经典开源定义范畴,增加了使用范围、规模、用户类型等方面的限制。同时,该类许可协议在一定程度上代表着协议制定方或模型发布方的立场或价值观,部分条款在不同社会条件和文化背景下解释和适用可能略有差异。1以2以3456以DeepSeek-7实验室/8实验室/9meta-meta-70B-Instructmistralai/Mixtral-8x22B-GemmaTermsofUseGemmaTermsofUseblelm-2-12b-议pt2nlp/Sheared-e开源大模型许可协议条款复杂,适用面临多层限制。首先,开源许可协议可谓使用者使用、修改、分发开源大模型项目的权利来源,一旦使用者违反开源软件许可协议相关规定,该授权即告终止,后续任何基于该开源大模型项目的利用行为都可能构成侵权,因此使用者基于开源大模型项目进行复制、修改、运行、分发等操作的合规前提在于忠实遵循开源许可协议的规定,包括遵循归属要求及再分发要求人往往难以负担,因此当前开源大模型的发布方多为商业公司。该类公司出于商业考量或社会责任,可能在开源许可协议中添加部分特殊条款,如LLaMA3.1和通义千问2明确活跃用户达到阈值需另行申请商业许可、LLaMA2许可协议包含用于训练其他大模型的限制、LLaMA3.1明确了衍生大模型命名的限制、RAIL系列及LLaMA3.1包含使用场景的限制等。再次,同一大模型项目可能源组件,若不同开源组件存在开源许可协议兼容性问题,将最终导致使用者无法同时满足所有开源许可协议的义务要求,因而引发合规问题。最后,不同国家或地区对于开源许可协议条款的法律解释和执行方式也可能存在差异。目前,我国在“罗盒诉风灵案”中突破性地认可GPL-3.0开源许可协议具有合同性质,并将其作为判断侵权行为的逻辑起点,体现了开源社群规范对法律规范的影响力。14因此,使用者除了应当遵守开源许可协议本身的要求外,还需确保其使用符合所在国家或地区的相关法律规定和要求。同时,许可协议条款也可能会随时间变化,进而使用者应持续跟踪开源许可协议的变动情况并更新对应的使用策略。大模型的训练和优化涉及大量数据,开闭源大模型训练数据合规风险存在众多相似之处。一是数据来源合法性问题。开闭源大模型训其他模型输入的数据等。无论通过何种途径获取,需首先确保训练数据来源合法。1)对于开放数据集而言,使用开放数据集不仅需遵循其开源许可协议义务要求,还需考察其许可协议的传染性和兼容性,避免导致模型中的其他元素被迫开源或许可协议难以履行。同时开放数据集中还可能包含侵权数据,不加甄别的使用将可能招引法律风险,如曾用于LLaMA等开源大模型训练的开放数据集Books3中包含大量未授权书籍,在部分国家训练和应用可能引发侵权纠纷。2)自采数据多通过爬虫等技术抓取互联网数据,若不加以人工干预,相关爬虫技术可能违反网络爬虫排除协议(robot协议)等声明文件要求,绕过目标网站的防护措施爬取数据,进而导致知识产权侵权、不正当竞争等法律问题,情节严重者还可能触犯刑法。3)商采数据需谨慎关注数据来源合法性以及数据可交易性,以避免发生合规风险。4)应用使用者输入数据应先通过用户协议等方式获取使用者授权,否则将可能导致对于使用者知识产权、商业秘密以及个人隐私的侵犯。5)使用其他模型输入的数据需遵循相关模型的许可要求,如LLaMA2许可协议明确禁止利用生成数据训练其他大模型,违反相关协议规定将可能导致著作权侵权。二是数据及隐私风险。若训练数据中包含个人敏感数据,未得合法授权或未经适当处理、管控,将可能违反数据隐私等法律法规的要求。三是数据偏见和歧视风险。训练数据本身或在收集、处理的过程中可能存在无法准确反映现实或含有系统性偏见的问题,进而导致人工智能输出结果存在歧视和偏见,加剧社会不公,带来法律及伦理上的风险。知识产权侵权风险问题是开闭源大模型的共同隐忧。生成物在数据输入和内容输出阶段都可能涉及著作权侵权问题。在数据输入阶段,机器学习需将原始数据转码为结构化数据,该过程涉及对原有数据内容的调整,包括格式转换、整理删除和汇总等,可能构成对著作权人翻译权、改编权和汇编权的侵犯。15内容输出阶段主要涉及三方面侵权风险:一是复制权侵权,即生成内容若与受版权保护的作品在基本表达上相同或相似且未经授权,可能构成侵权;二是改编权侵权,生成物在保留原作品表达的同时产生了实质性差异,可能触及改编权的边界;三是信息网络传播权侵权,若生成物被上传或传播于互联网,将可能侵犯著作权人的信息网络传播权。16此外,大模型生成物还可能涉及商标侵权和专利侵权问题。生成物中包含的图像、文字或标志与他人商标相似或相同,会构成商标侵权。同时,若人工智能生成的创新设计、技术方案或产品形态已被他人申请了专利,未经许可擅自实施将可能会构成专利侵权。大模型生成物还可能构成人格权侵权乃至刑事犯罪。若大模型生成物未经授权使用了他人特定形象、声音或其他个人特征,或擅自使用自然人的形象来创设虚拟人物,可能侵犯该人物的肖像权、姓名权或隐私权等人格权利。如知名影星ScarlettJohansson对OpenAI提出指控,控诉OpenAI语音助手人工智能产品未经授权模仿其声音。此外,人工智能生成物若包含贬损、侮辱或诽谤他人的信息,将可能构成名誉权侵权,情节严重者将可能构成刑事犯罪。开源大模型生成物侵权法律责任归属不明风险突出。闭源大模型的所有权和使用权较为明确,且通常配有完善的生成物归属和侵权归责协议,以确保相关风险发生时,可快速识别责任主体。因此,用户在使用闭源大模型服务时,对于生成物致损或侵权的责任归属,具有较高预见性。如微软创立了版权承诺保护机制,承诺为使用其生成式人工智能编码工具Copilot的用户面临的侵权索赔进行赔偿。而开源大模型的贡献方数量众多,此外,开源大模型通常未明确开源大模型生成物侵权责任承担方,因此相关风险发生时,可能面临责任归属不开源模式大大降低了人工智能技术的使用门槛,但另一方面,可得性的增加将可能加剧大模型的不当使用风险,进而对个人以及社会的可持续发展造成影响。开源大模型不当应用或加深信息茧房、固化认知偏见。早在20世纪初,美国学者凯斯·桑斯坦便基于对互联网信息传播的考察提出“信息茧房”概念。随着人工智能的到来,与闭源大模型功能原理相似,开源大模型也可通过与用户的交互对话,分析预测用户的价值观和认知偏好,并基于该分析结果输出与用户价值理念相似的信息和答过度依赖大模型提供的信息,将导致用户无法获取在训练数据集中代表性不足的“小众”观点或信息,从而限制个体在多元信息环境中形成全面认知。开源大模型过度应用或导致能力退化、阻碍个人发展。开源模式降低了人工智能应用的技术门槛,但若长期应用和过度依赖则可能减少用户学习和锻炼专业技能的机会,导致用户应对困难与挑战的自主思考和创新能力下降,被动接受模型提供的解决方案还将造成用户信息筛选能力以及决策判断能力的退化。美国智库布鲁金斯学会刊文指出,GPS导航和智能手机让人类更容易遗忘地址和电话号码,ChatGPT也将可能导致人类记忆和批判能力的下降。同时,对于人工智能技术及服务的过度应用还可能逐渐改变人类的交流方式和情感体验,导致社交技能的退化、情感体验的漠化以及语言表达的钝化。开源大模型恶意利用或促进黑客攻击民主化。开源加速人工智能技术应用落地,使得万千行业因此受益,但也给了不法分子更多可乘之机。目前,人工智能滥用案例时有发生,开源模式更是进一步降低人工智能技术恶意应用门槛,甚至利用有害语料库对开源大模型加以训练,专门用于网络犯罪、诈骗等非法行为非法大模型也数见不鲜。如基于开源语言大模型构建,并去除安全和道德限制的非法大模型FraudGPT支持自动化编写欺骗性短信、钓鱼邮件和钓鱼网站代码,并提供高质量诈骗模板和黑客技术学习资源,使得人工智能技术武器化和民主化,据悉,FraudGPT的用户数在短短数月内便超过了先进的国家网络战部队黑客数量。17为避免人工智能技术发展陷入科林格里奇困境18,平衡风险治理和创新引导,联合国等国际组织以及各国家政府纷纷出台相关政策或相关组织皆对开源大模型生态构建及创新发展给予高度重视。此外,18注:科林格里奇困境(Collingridge'sDilemma)是英国技术哲学家大卫·之,如果控制过晚,已经成为整个经济和社会结构的一部分,就可能走向失控,再来在风险治理方面,国际组织及国家政府也开始探索人工智能监管措施,除有例外规定外,开源大模型作为人工智能子类,同等适用人工智能相关规制规则。然而,《欧盟人工智能法案》等法律法规已从开源特殊性角度出发,明确了开源大模型的差异化监管规则,未来针对开源大模型的精细化、包容性监管或成为趋势。(一)国际组织高度重视开源大模型发展,积极探索全球联合国政策助力凝聚开源大模型发展共识。2020年6月,联合国秘书长安东尼斯·古特雷斯发布《数字合作路线图:执行数字合作高级别小组的建议》,明确了开放共享人工智能模型不仅可有效减少能源和人力资源的重复消耗,还能促进优质教育的发展、加深人类对于地球系统及其他生态系统的了解,并提出为提升互联网连接的优势,各行为主体都须推广开放人工智能模型。此外,2023年底,联合国人工智能高级别顾问委员会发布《以人为本的人工智能治理》临时报告也强调开源数据和模型共享是利用人工智能造福人类的重要因素。人工智能风险问题成全球关注焦点。一是联合国强调提升人工智能治理国际协同性。联合国在统一全球人工智能治理共识、提升人工智能治理措施跨国互操作性、消弭全球数字鸿沟等方面发挥着不可替代的作用。如在联合国教科文组织的倡导下,联合国193个会员国一致通过首个人工智能伦理全球协议——《人工智能伦理问题建议书》。该建议书结合人工智能系统全生命周期伦理影响和各会员国发展差异,确立了人工智能发展的价值观、原则和行动指南。此外,2024年9月,联合国人工智能高级别顾问委员会发布《以人为本的人工智能包括通过成立国际人工智能科学小组、开展人工智能治理政策对话及标准交换等方式建立共同理解、构建协同性治理方法,以应对人工智能在全球范围内带来的挑战和机遇。促进国际社会稳定和公平发展。二是区域间国家组织探索人工智能治理方向。北约积极回应近年来人工智能领域的快速发展。北约于2024年7月10日更新其《智能战略》,战略明确了四大优先发展领域,包括制定和执行符合国际法规及标准的伦理准则、建立覆盖北约成员国的统一的技术标准和数据交换协议、促进人工智能与量子计算等信息技术的融合发展、构建多元化AI生态系统。经合组织呼吁构建负责任人工智能系统。经济合作与发展组织于2019年5月通过全球首个人工智能主题政府间标准,并于2024年5月进行了修订。该修订版以创新、可信和人权为主线,呼吁构建负责任的人工智能系统,包括增强人工智能系统的透明度和可解释性等,并建议在国家政策和国际合作中重点关注中小企业的人工智能发展环境。发展中国家关注人工智能技术的可及性。2023年9月,77国集团和中国发布《关于“当前发展挑战:科学、技术和创新的作用”的哈瓦那宣言》,呼吁发展开放科学,并为发展中国家提供可负担的可靠连接,确保人工智能可被可靠、公平的开发、接入和使用。(二)欧盟立法谋求人工智能监管主导权,开源大模型得欧盟建立全球首部人工智能监管立法,平衡AI风险治理和开源上第一部人工智能领域的综合性立法由此诞生。该法案以预防人工智能危害为主要原则,覆盖了人工智能产业全生命周期,并且根据人工智能系统的风险等级设立了不同的监管要求,同时采取监管沙盒等创新性、适应性监管措施,以平衡风险监管和技术发展。此外,《欧盟人工智能法案》还给予开源大模型更多包容,明确了在非高风险环境中免费或用于科学研究和开发目的而投入使用的开源AI系统可豁免部分合规义务。19同时,该法案对于开源大模型的定义门槛较低,在要求注明来源并遵循类似分发条款的前提下开放共享模型代码及相关数据即可被视为开源。该系列规定也为开源大模型的繁荣发展营造了良好的政策环境。欧盟产品责任法案与时俱进,充分考虑开源特殊性。为适应数字时代的发展,欧盟委员会修订了《产品责任指令》,该法案扩大了产品的定义范围,明确将人工智能系统包含在内,同时新指令简化了索赔者的举证责任,允许索赔者基于产品缺陷而非过错来追究产品提供同时,该法案明确将在商业活动的过程之外开发或提供的免费且开源的软件排除在产品责任的适用范围之外,因为该类产品并未投放至市场,以最大程度保护开源创新与研究。(三)美国人工智能监管增强化趋势明显,国防领域率先美国人工智能监管日趋呈渐进化、增强化趋势。早期,奥巴马政等文件回应人工智能引发的伦理、安全以及数据隐私等挑战,而未将人工智能作为独立监管领域。2019年,特朗普政府签发行政令《保持美国在人工智能领域的领导地位》,以确保美国在AI研发及相关领域主要依靠区域性监管和行业自律等方式开展人工智能治理工作布局。202023年10月,拜登政府签署行政令《安全、可靠和可信开发和使用人工智能》,人工智能治理关注焦点从偏见隐私、研发创新转向更年立法会议上,包括波多黎各、维尔京群岛和华盛顿特区在内的多个地方政府提出人工智能立法法案,并有31个地方政府通过相关决议或立法。如2024年8月,加利福尼亚州通过了《前沿人工智能模型安全与创新法案》,该法案为开发者设立了一系列创新性的安全要求和义务,旨在维护前沿人工智能模型开发和使用过程中的公共安全。美国国防考量开源大模型潜在影响。美国国防部正在积极推动人工智能技术的广泛应用,并通过商业创新以推进其人工智能战略,但在该过程中,开源大模型的创新潜能和滥用风险成为美国国防工业是否应用开源大模型的重要分歧点。目前,在针对开源大模型风险及治理的广泛讨论中缺乏国防安全层面的考量,因此,未来美国国防部将对开源大模型的影响进行量化评估,包括开闭源大模型用例对比以及开源大模型的应用数据等。中国人工智能监管规则框架逐渐确立,开源大模型同等适用。人工智能发展早期,我国便高度强调开源开放发展原则,布局人工智能发展格局。2017年,国务院印发《新一代人工智能发展规划》,明确倡导开源共享理念,促进创新资源在全球范围内的优化配置。随着人工智能技术的快速发展,2020年,国家标准化管理委员会等五部门联合印发《国家新一代人工智能标准体系建设指南》,提出人工智能标准体系的八大维度,并明确重点开展开源框架安全标准研制,通过标准指导确立了人工智能技术的规制方向。同期,《个人信息保护法》、《数据安全法》等法律法规相继发布,为人工智能应用中的数据保护等重点风险提供防治方向。近期,大模型数量实现爆发式增长,人工智能应用风险逐渐暴露,中国开始聚焦人工智能确立相关监管规则。如《互联网信息服务算法推荐管理规定》建立了事前事中事后的算法推荐服务监管措施,《互联网信息服务深度合成管理规定》明确了深度合成服务的监督管理职责、服务提供者的责任等内容,《生成式人工智能服务管理暂行办法》明确提出对生成式人工智能服务实行包容审慎和分类分级监管原则。上述法律法规属于人工智能领域的一般性因此开源大模型应当同等适用。各地方政府高度支持开源大模型发展,立法草案充分体现开源创新保护。自2022年底至今,各地方政府陆续出台开源与大模型、开源与相关软硬件、开源与算法、开源与训练数据等开源与人工智能相关的规范文件,以鼓励、加强、完善开源人工智能生态构建,促进开源与人工智能的协同发展。此外,2024年5月10日,国务院公布2024年度立法工作计划,明确“预备提请全国人大常委会审议人工智能法草案”,我国开创性人工智能领域综合性立法也将正式开启。目前,业界专家学者已汇聚共识,起草了《中华人民共和国人工智能法了关键人工智能监管和特殊应用领域人工智能监管,后者则引入人工智能管理负面清单制度。此外,两个版本的立法草案都高度重视开源大模型的发展和治理,鼓励促进开源生态建设,并明确了开源大模型提供者的责任减免规则。表5地方政府开源人工智能相关规范《广东省新一广3.加强人工智能操作系统代人工智能创东学技术厅,新发展行动计省广东省工划(2022-2025业和信息有自主知识产权的通用人端人工智能操作系统和开实人工智能发展的软件基训练和终端执行的开发框放技术网络和开源社区建决策等人工智能基础解决智能应用领域构建基于开源开放技术的公共数据资服务平台等各类通用开源克无人系统核心智能芯片业链上下游企业开放核心新型传感器数据集开源共业共性平台技术和医疗共享资源库,推动上下游企推动医疗数据资源和平台持人工智能优势企业和科研院所建设面向行业共性自主核心软硬件开源开放源开放与保护政策体系和进重点领域数据信息依法动人工智能龙头企业基于传感器等自主核心软硬件业联盟联合研发基于国产自主建设技术开源和开放立人工智能安全性测试模同,建设综合测试验证环工智能创新应用先导区建设南京自主可控人工智能计算中练平台,在科研大模型研试的过程中为人工智能企企业建设线上数据集交易逐步形成高质量的行业公开发者社区,汇聚海量算《北京市通用人工智能产业北京北京市经化局,北京术委员会,(七)培育软件开发新范加强工业软件与大模型融模型+互联网新软件新服《北京市加快建设具有全球影响力的人工智能创新策源年)》京政发〔2023〕14号北京2.引领人工智能关键核心点突破分布式高效深度学超大规模模拟计算等基础效低成本训练与推理等关5.加强自主开源深度学习升深度学习框架在超大规模模型训练和多端多平台推理部署等方面的核心能与人工智能芯片开展广泛智能国产软硬件技术的深8.构建高效协同的大模型构建完整大模型技术创新工智能开放生态技术创新国产软硬件的人工智能训逐步形成自主可控的人工《北京市促进通用人工智能创新发展的若研究大模型高效并行训练技术和认知推理、指令学推理的高效压缩和端侧部《深圳市加快推动人工智能高质量发展高水平应用行动深圳办公厅,深政府办公厅器人、智能网联汽车等领造基于国内外芯片和算法点企业持续研发和迭代商具身智能机器人的研发和广东省人形机器人制造业《杭州市人民政府办公厅关于加快推进人工智能产业创新发展的实施〔2023〕55号杭州新生态。推进MaaS新模态通用大模型关键技术攻术和算法开源开放,形成赋能产业生态。展多模态通用大模型研发并向中小企业开放模型应权威第三方评测机构评测性能达到国内领先的通用杭成功落地的优秀专用模型,按照不超过研发成本30%的标准给予牵头研发高校院所和第三方机构围绕模型开发搭建开源开放),数据、应用协同的产业生《促进人工智能创新发展政宁夏宁夏回族研究大模型高效并行训练技术和认知推理、指令学推理的高效压缩技术和端给予不超过项目总研发投放及检验检测的创新服务平台,参考平台软硬件投综合贡献度较高的开放平《武汉市人民政府办公厅关于印发武汉建设国家人工智能创新应用先导区实施方案号武汉动头部企业联合多模态人工智能产业联盟组建创新型创新算法开发与开源开“紫东太初”多模态大模型训练模型架构设计与优化模态大模型通用人工智能企业在汉布局垂直领域模具有影响力的垂直行业模直行业模型解决方案服务《上海市促进智能机器人产业高质量创新发展行动方案化委员会,委员会,上财政局,上局4、重点攻关具身智能等先化学习训练构建机器人运知识库和数据采集平台的器人运行环境与机器人感现人形机器人面向场景应能等前沿技术与机器人融《上海市推动型创新发展若干措施(2023-号化委员会,委员会,上会,中共上9.推进大模型应用生态建型开源社区和协作平台建海市委网员会办公大模型技术赋能生产性互联济和信息化委员会,结合支持生产性互联网服链城市数字基础设施体系3.夯实通用大模型基础能具有国际竞争力的通用大据联盟持续开源高质量数模型行业应用创新生态空网服务平台领域的大模型相关应用及解决方案纳入符合条件的专业人才予以《浙江省人民政府办公厅关于加快人工智能产业发展的型领域自主可控开源社区号模型即服务(MaaS)新范框架研发攻关和代码托管进人工智能领域开源软件服务机器人产业集群高质量发展行动计划重庆研院所前瞻布局人形机器灵巧臂—手建模和控制技形机器人技能提升和智能自由贸易试验区临港新片区集聚发展人工智能产业若干号鼓励构建高效协同的大模支持分布式高效深度学习亿参数以上且落地三个及以上实际应用场景的深度年度支持金额不超过100万元,资助周期不超过3治区工业和信息化厅宁夏回2024年大数据产业试点示范宁夏宁夏回族业和信息化厅,宁夏智能通用大模型和行业应设人工智能大模型领域自主可控开源社区和创新平署、语料数据等大模型服进人工智能大模型产业发展〔2024〕4号北京联合头部企业开展大模型产品研发水平和行业赋能育一批人工智能大模型垂《北京经济技术开发区关于生产业创新高地的若干政策》〔2024〕10号北京北京经济技术开发区管理委13.打造人工智能公共服务硬件协同创新与适配验证能软硬件行业解决方案测建设人工智能开源开放平开源深度学习框架研发攻关和代码托管镜像平台建《广东省人民政府办公厅印发广东省关于人工智能赋能千行百业若干号广东省7.建设大模型开源社区。建设原创性基础大模型资示人工智能的开源服务体《北京市推动“人工智能+”北京北京市发委员会,北和信息化局,北京市委员会,中关村科技建设运营北京算力互联互开放并汇聚高价值行业数大模型训练提供算力、数持基础大模型在各行业领控的基础大模型为底座加速训练细分行业垂类大模型,完善大模型应用工具型和数据集托管云服务平台,促进开发者分享和协开源大模型的应用风险不仅影响广泛,还体现出高度的复杂关联性和生成渐进性,因此,企业需构建统一的开源大模型治理体系,以统筹开展开源大模型风险防控工作。开源大模型治理需要企业构建专门的治理组织,该类组织通常是一个跨部门、多角色的协作体系,旨在确保企业使用开源大模型时的合规性、安全性、高效性和创新性。以下是企业开源大模型治理组织可能包含的主要角色和职责分工。一是开源大模型治理委员会。治理委员会负责制定开源大模型的使用策略、合规标准、风险管理政策等,并监控相关政策实施情况,进行定期修订。治理委员会一般由企业高管、法务专家、技术专家等关键角色组成,以确保决策的全面性和权威性。性能优化等工作,该团队相关人员需具备深厚的技术背景和创新能力,以确保开源大模型应用满足企业的业务需求。运维团队主要负责开源大模型的部署、监控、故障排查和性能调优,该团队人员需要具备丰富的运维经验和快速响应能力,以确保模型稳定运行。三是安全和合规部门。安全团队主要负责对开源大模型进行安全评估、漏洞扫描和应急响应,保障模型的安全性,此外还需密切关注安全动态,以及时应对潜在的安全威胁。合规团队负责审查开源许可协议条款,确保企业使用开源大模型符合相关法律法规和内部合规要求。合规团队人员还需关注开源社区的动态和法律法规的变化,及时调整企业的合规策略。四是社区与协作部门。社区与协作团队负责推动与开源社区的联系和合作,组织参与社区活动,贡献代码或改进建议,提升企业在开源社区中的影响力。此外,该团队一般还负责与其他企业或研究机构的合作洽谈,以推动开源大模型的技术创新和应用落地。五是支撑部门。培训与发展团队主要负责为员工提供相关技术培训和合规培训,提高员工使用和维护开源大模型的能力。该团队需关注员工的发展需求,以制定个性化的培训计划。项目管理团队负责开源大模型相关项目的整体规划、进度控制和质量管理,该类团队需要与各相关部门紧密合作,以确保项目的顺利进行和高质量完成。六是其他相关部门。根据企业的具体情况和实际需求,开源治理组织还可能包括数据科学家、产品经理、市场营销人员等相关角色,相关角色将在各自的领域内为开源大模型的治理和应用提供支持。企业面向开源大模型的治理机制明确了开源大模型治理的规则和原则,旨在确保企业高效、合规、安全的使用开源大模型。以下是开源大模型治理机制的主要组成部分。一是制定开源大模型治理政策与合规框架。企业应制定明确的开源大模型使用政策,明确开源大模型的选用标准、使用范围、贡献流程、风险评估及合规要求等。同时企业应明确开源大模型的合规性审核流程,确保企业使用的开源大模型符合其开源许可协议的义务要求,且不违反相关法律法规和企业内部规定。二是构建风险管理机制。在安全风险管理方面,企业需对开源大模型进行定期的安全风险评估,识别并修复潜在的安全漏洞。在供应链风险管理方面,企业需审查开源大模型依赖的第三方组件和库,确保其安全性和稳定性。在应急响应方面,企业应制定针对开源大模型安全事件的应急响应计划,确保相关紧急安全事件时能够迅速应对。三是开展技术治理与运维。首先,企业应使用版本控制系统管理开源大模型的版本更新,确保代码的可追溯性和可管理性。其次,企业应实施CI/CD流程,自动化构建、测试和部署过程,提高开发效率并根据实际情况进行优化调整。四是参与社区活动与贡献。企业应构建开源社区贡献机制,鼓励员工积极参与开源社区,与开发者交流、分享经验,共同推动开源大模型的发展,并在符合开源许可协议要求的前提下,向开源项目贡献代码或改进建议,提升企业在开源社区的影响力。五是加强知识产权管理。在使用开源大模型时,应进行必要的专利检索和审查,以避免侵犯他人的专利权。此外,在对外贡献时,企业应确保对开源大模型的修改和分发符合版权法规,维护企业的合法六是建立健全培训与文化建设。企业应提供开源大模型主题技术培训和风险防控培训,提高员工使用、维护开源大模型的能力及风险防控意识。此外,在内部积极倡导、推广开源文化,鼓励员工积极参与开源项目,形成开放、协作的工作氛围。目前开源大模型项目不胜枚举,质量也层次不齐,因此企业在选用开源大模型项目时,需首先对社区及项目的稳定性、成熟度、活跃度等进行评估,以确保拟采用开源大模型项目可长期稳定运行,从而降低相关技术应用风险及运维风险。其一,企业宜进行项目代码质量和文档完整性评估。开源大模型的代码质量和文档完整性是开源大模型项目评估的基础,如果质量较低或文档不完整,会直接影响项目的可用性和可维护性。因此开源大模型使用企业应评估代码的规范性,注释的详细程度以及文档包括部署指南的全面性等。高质量的代码和详尽的文档意味着项目的成熟度较高,可以帮助开源大模型使用企业快速上手并减少潜在的错误。其二,企业宜进行项目更新频率和活跃度评估。开源大模型项目的更新频率和社区活跃度是评估其生命力和持续发展能力的重要指标,较低频次的更新和低活跃度的社区可能意味着项目无法得到及时的漏洞修复和新功能的引入。开源大模型应用企业可以通过查看项目的提交历史、发布日志和社区讨论来评估其活跃度,以评估项目的稳其三,企业宜进行项目贡献者评估。开源大模型项目的成功很大程度上依赖于社区的贡献者质量和数量,丰富且高质量的贡献者群体可以确保项目的持续发展和有效管理。开源大模型使用企业应关注项目的贡献者数量、质量以及活跃度,如是否有明确的领导者、是否有足够的贡献者等以评估开源大模型项目是否可得到持续、有力的支持。其四,企业宜进行社区治理结构评估。治理结构是指社区内部成员之间权利与责任的分配方式,以及决策流程和协调机制的集合。开源大模型使用企业应深入了解开源社区的治理结构和决策流程,包括项目的领导者和核心贡献者以及其他成员之间的权责分配、决策的集中度等。如在一个高度去中心化的社区中个别成员的离开可能不会对整体造成太大影响,而在一个中心化程度较高的社区中关键人物的缺失可能导致项目陷入困境。因此,治理结构的评估有助于使用企业理解项目的构成、方向和决策过程。企业可从开源大模型应用全生命周期进行开源大模型安全风险——模型引入阶段:企业在开源大模型引入阶段应做好安全准备工作,包括制定开源大模型安全指导政策、组建开源大模型安全团队以及采购或开发开源大模型安全检测工具或平台等。此外,在进行开源大模型选型时,企业应评估项目是否存在已知的安全隐患和漏洞,并了解项目在数据保护、隐私安全和系统稳定性方面的表现。同时,针对算法安全风险,企业可基于模型公开的测评数据或自主进行模型鲁棒性测评、模型“幻觉”测评以及模型偏见性测评等模型内生安全测评,以评估大模型的算法安全性是否满足公司相关政策。——模型部署/优化阶段:若企业采用新数据进行模型优化,宜在数据收集和处理阶段采取必要安全措施,包括数据分类与保护、数据脱敏、数据源审核、差分隐私和同态加密等,并针对数据集开展违法不良数据检测、数据投毒污染检测、数据隐私检测以及数据多样性检企业可构建安全对齐数据集,包括构建正样本数据,以帮助模型更好构建外部对齐数据,为模型输出建立法律和道德约束。21在算法优化方面,企业可通过提示词语义增强和结构增强、调整算法模型结构、扩充多样化的训练数据集等方式增强大模型的鲁棒性,提升算法抵抗大模型后门检测能力,以及时发现异常行为。——模型再发布/对外提供服务阶段:企业在利用开源大模型提供服务阶段应通过安全检测手段,如在大模型应用过程中持续检测是否存在提示注入攻击、对抗攻击和隐私攻击,以及时预警和处理。同时,针对模型生成内容,可通过自动化或人工方式进以防止模型生成违法不良信息。此外,企业还应通过水印技术标识人工智能合成内容,以降低大模型生成虚假信息或误导性信息的有害性。企业若计划对外开源优化后的大模型,还应进行充分的代码审查和安全测试以确保模型的安全性。3.合规风险防控建议在许可协议合规方面,企业使用开源大模型的合规流程一般包含——模型引入阶段:企业应先做好合规准备工作,包括制定开源大模型合规管理指导政策、组建合规专业团队、开发或采购开源大模型代码检测及合规管理工具与平台、开展开源大模型合规培训等。其次,在进行开源大模型选型时,企业首先应确保开源大模型来源合法结合未来使用方式和使用场景判断拟引入开源大模型是否满足公司合规政策。同时,企业应对开源大模型的知识产权情况进行审慎包括进行相关专利的检索等,以避免发生法律纠纷。最后,企业应
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度企业合并合同的股东权益保护3篇
- 2024年度租赁物购买合同:某租赁公司与某制造商之间的租赁物购买合作3篇
- 二零二四年度设备采购合同服务内容扩展协议2篇
- 2024年度影视制作合同(电影)
- 2024年度租赁终止合同:含有高科技企业研发基地违约金与赔偿3篇
- 燕山大学EDA课程设计速度表
- 2024年度农业公司与农产品加工厂农产品采购合同3篇
- 二零二四年度二手车交易市场建设合同2篇
- 2024年度智能机器人研发合同在某高科技研究所3篇
- 2024年度子女抚养权协议2篇
- 高三英语一轮复习阅读理解天天练(Agriculture+农业 Society社会)选自China+Daily
- 慢性病(高血压、糖尿病)培训资料
- 《创新创业基础-理论、案例与训练》教案 第10课 选择商业模式
- 纪录片创作与理论
- (HAF603)民用核安全设备焊工认证考试题库 (单选题)
- 小学五项管理家长会课件
- 微机原理与接口技术-基于8086和Proteus仿真(第3版)习题答案
- 10米深基坑施工方案
- 广东省广州市黄埔区2023-2024学年数学四年级第一学期期末达标检测试题含答案
- 开开心心上学去第一课时(说课稿)全国通用一年级下册综合实践活动
- 中药外敷疼痛方剂整理
评论
0/150
提交评论