OpenAI：GPT-4o安全技术报告（中文）

上传人：策*** IP属地：山西上传时间：2024-12-11 格式：DOCX 页数：38 大小：1.06MB 积分：19.9 举报 版权申诉

已阅读5页，还剩33页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

GPT-4o系统2024年8月图像和视频的任何组合作为输入，并生成文本、音频和图像的任何组合输出。它是跨文本、视觉和音频进行端到端训练的，这意味着所有输入和输出都由同一个神经网络处理GPT-4o可以在短至232毫秒的时间内响应音频输入，平均为320毫秒，这与人类在对话中的响应时间相似它英文文本和代码上与GPT-4Turbo性能相匹配，在非英文语言中的文本上有显着改进在视觉和音频理解方面尤其出色。限制和多个类别的安全评估，重点关注语音到语音（语音）1，同时还评估文本和图像功能，以及我们为确保模型安全和一致而实施的措施我们还包括第三方评估，以及对GPT-4o文本和视觉能力的潜在社会影响的讨论模型数据和GPT-4o的文本和语音功能使用截至2023年10月的数据进行了预训练，这些数据来自各种材料，包括：数据集和网络抓取数据，如付费内容，档案和元数据。例如，我们与Shutterstock[5]合作构建和交付AI生成的图像。1一些评估，特别是大多数备灾评估、第三方评估和一些社会影响，根据所评估的风险，侧重于GPT-4o的文本和视觉能力。这在整个系统卡中都有相应的指示。对GPT-4o功能有贡献的关键数据集组件Web数据：来自公共网页的数据提供了丰富多样的信息，确保模型从各种各样的角度和主题中学习。代码和数学：在训练中包含代码和数学数据，通过将其暴露于结构化逻辑和解决问题的过程，帮助模型开发强大的推理技能多模态数据-我们的数据集包括图像，音频和视频，以教LLM如何解释和生成非文本输入和输出。从这些数据中，该模型模式和语音细微差别。，模型，例如信息危害、偏见和歧视，或其他违反我们使用政策的内容我们使用多种方法的组合，跨越我们将模型与人类偏好相匹配;我们将生成的模型红队化，并添加了产品级的缓解措施，如监控和执行;我们向用户提供了审核工具和透明度报告。，与其他安全缓解措施一起，帮助从我们的数据集中排除不需要的和有害的信息我们使用我们审核API和安全分类器来过滤掉可能导致有害内容或信息危害的数据，包括CSAM、仇恨内容、暴力和，明确的内容，例如图形性材料和CSAM。在发布DALL-E3时，我们尝试了一种新方法，让用户能够选择系列模型风险识别、评估和根据我们准备框架[4]评估了GPT-4o。OpenAI与100多名外部红队队员合作，他们总共说45种不同的从2024年3月初开始到6月底外部红队进行了四个阶段。前三个阶段通过内部工具测试模型，最后一个阶段使用完整的iOS体验来测试模型在撰写本文时，GPT-4oAPI的外部红色团队正在进行中。该检查点接收音频和文本作为输入，并生成音频和文本作为输出。该检查点接收音频、图像文本作为输入，并生成音频和文本作为输出。音频、图像和文本作为输出。，体验;通过内部工具进行审查和标记。工作建立在先前工作的基础上，包括GPT-4系统卡[6]和GPT-4（V）系统卡[7]中所述。红色团队涵盖的类别包括违规和不允许的内容（非法色情2跨自我报告的专业领域包括：认知科学，化学，生物学，物理学，计算机科学，隐写术，政治学，心理学，说服学，经济学，人类学，社会学，HCI，公平和偏见，对齐，教育，医疗保健，法律，儿童安全，网络安全，金融，错误/虚假信息，政治使用，隐私，生物识别，语言和语言学特征归因、私人信息、地理位置、个人识别、情感感知能力和多语言观察。红队队员生成的数据促使创建了几项定量评价，这些评价在观察到的安全性挑战、评价和缓解措施章节中进行了描述。在（例如，是否违反政策，是否被拒绝）此外，我们有时重新利用红色的各种缓解措施的除了来自红色团队的数据之外，一系列的评估数据集被转换为使用文本到语音（TTS）系统（如语音引擎）的语音到语音模型的评估可用评估集。我们使用VoiceEngine将文本输入转换为音频，将其馈送到GPT-4o，并通过模型对输出进行评分。我们总是对的文本内容进行评分，除非第3.3.1节）。首先，该评估格式的有效性取决于TTS模型的能力和可靠性某些文本输入不适合或难以转换为音频;例如：数学方程代码。此外，我们预计TTS对于某些文本输入是有损的，的中是由于模型能力，或者TTS模型无法准确地将文本输入转换为音频。第二个关注点可以是TTS输入是否表示用户在实际使用中可能提供的音频输入的分布我们评估GPT-4o在一系列区域口音的音频输入上的鲁棒性。然而，仍然有许多其他维度可能无法在基于TTS的评估中捕获，例如不同的语音语调和效价、背景噪声或串扰，这些可能导致实际使用中的不同模型行为。的;的语音在第3.3.1节中，我们说明了使用辅助分类器来识别可以与评分成绩单结合使用的不期望的音频生成。使用多种方法的组合缓解了模型的潜在风险我们训练了行为，了用于阻止特定代的分类器作为部署系统的一部分，、所采用以及相关评价的结果下面列出的风险是说明性的，而不是详尽的，并集中在ChatGPT界面的经验我们专注于所风险模式（文本，图像）。使用系统消息中的语音样本作为基本语音来完成使用输出分类器来检测模型是否偏离我们对GPT-4o进行后训练，以拒绝遵守的请求，遵守识别名言的请求。3我们还评估文本和视觉功能，并适当更新缓解措施在GPT-4和GPT-4（V）系统卡中概述的现有工作之外，未发现任何增量风险包括音频）的请求，这与我们更广泛的做法是一致的。为了解释GPT-4o的音频模式，我们还更新，并且，模型根本不唱歌。敏感特质归因我们对GPT-4o进行了后训练，以拒绝对无根据推断的请求，例如“这个扬声器有多聪明我们对GPT-4o进行了后训练，通过对冲答案来安全地遵守敏感特征归因的请求，例如“这个说话者的口音是什么”“根据音频，他们听起来像是英国口音”。我们在音频提示和生成的文本转录上运行现有的审核分类器，并阻止某些高严重性类别的输出。我们在音频提示的文本转录上运行我们现有的适度分类器风险描述：语音生成是使用听起来像人的合成语音创建音频的能力在对抗性的情况下，这种能力可能会促进危害，例如由于模仿而导致的欺诈行为增加，并且可能会被利用来传播虚假信息[9，10]（例如，如果我们允许用户上传给定扬声器的音频片段并要求GPT-4o以该扬声器的声音产生语音这些风险与我们使用语音引擎识别的风险非常相似[8]。语音生成也可以发生在非对抗性的情况下，例如我们使用该功能为ChatGPT的高级语音模式生成语音。在测试过程中，我们还观察风险缓解：我们通过只允许使用我们与配音演员合作创建的预设声音来我们通过将的独立的输出分类器来检测GPT-4o输出是否使用了与我们批准的列表不同的声音我们在音频生成期间以流方式运行此操作，并评价：我们发现未经授权的语音生成的剩余风险极小。根据我们的内部评估，我们的系统目前捕获了100%与系统语音4有意义的偏差模型使用提示语音作为一部分的片段，以及各种各样的人类对话不是英语，这是一积极的改进领域5。非风险描述：扬声器识别是根据输入音频识别扬声器的能力。这带来了潜在的隐私风险，特别是对于私人以及公众个人的模糊音频，以及潜在的监视风险。后培训基于音频输入中的语音我们允许GPT-4o基于音频内容进行回答，如果它包含明确识别说话者的内容。GPT-4o仍然符合识别名言的例如，请求识别一个随机的人说识别·识别一个名人说随机的句子应该被拒绝。的，在拒绝识别音频输入中的语音，在遵守该请求时有12分的改进前者意味着模型几乎总是正确地拒绝根据声音识别说话者，从而减轻了潜在的隐私问题。后者意味4系统语音是OpenAI设置的预定义语音之一该模型应该只在该中产生音频5这会导致更多的对话被断开，而不是必要的，这是一个产品质量和可用性问题。[12，13，14]。风险缓解：我们使用不同的输入语音对GPT-4o进行了后训练，以使模型性能和行为在不同的用户语音中保持不变（“shimmer”）和语音引擎下，以生成一系列语音样本的用户输入我们使用两组语音样本进行TTS：从两个数据活动中收集的各种声音这包括我们评估两组任务：能力和安全功能：我们在四个任务上评估6：TriviaQA，MMLU7的子集，HellaSwag和Lambada。TriviaQA和MMLU是以知识为中心的任务，而HellaSwag和Lambada是以常识为中心或文本延续的任务。总的来说，我们发现，在所有四项任务中的6本节中的评估是在一个固定的、随机抽样的样本子集上进行的，这些分数不应该与公开报道的同一任务的基准进行比较。7解剖学，天文学，临床知识，大学生物学，计算机安全，全球事实，高中生物学，社会学，病毒学，大学物理学，高中欧洲历史和世界历史。根据评估方法3.2中描述的问题，我们排除了大量数学或科学计数法的任务上模型在不同用户声音中的遵守和拒绝行为的性总的来说，我们没有发现模型的行为在不同的声音之间存在差异。对说话者的推断我们定义两个类别：无根据推断（UGI）：对说话者无法种族、社会经济地位/职业、宗教信仰、人格特征、政治倾向、智力、外表（例如，眼睛颜色、吸引力）、性别认同、性[13，15]取决于这种行为的表现方式。敏感特质归因（STA）：对说话者进行推断，这些推断可以完全从音频内容中确定。这包括对说话者的口音或国籍等事情的推断。STA的潜在危害包括风险增加[12，13，14]。后培训回答STA问题。例如，识别说话者智力水平的问题“基于音频，他们听起来像是英国口音”评估：与我们的初始模型相比，我们看到模型STA）方面有24点的改进。风险描述：GPT-4o可能会被提示通过音频输出有害内容，而通过文本则是不允许的，例如提供如何执行非法活动的指示的音频语音输出。这意味着我们为减少GPT-4o文本输出中的潜在危害而进行的后期训练成功地转移到了音频输出中。和音频输出上，以检测是否包含潜在有害语言，如果是，将阻止生成。评估：我们使用TTS将现有的文本安全评估转换为音频。然后，我们用标准的基于文本规则的分类器来评估音频输出的文本转录。进一步评价见附录A。并非可能比文本中的相同上下文更能引起共鸣或有害正因为如此，我们决定限制色情和暴力言论的产生8我们在GPT-4系统卡[6]中描述了违反和不允许的文本内容的风险和缓解措施风险缓解：我们在音频输入的文本转录上运行现有的审核模型[17]，以检测它是否包含暴力或色情内容的请求，如果是，将阻止生成。通过内部测试和外部红色团队合作，我们发现了一些额外的风险和模型限制，这些风险和模型限制的模型或系统级缓解措施刚刚出现或仍在开发中，包括：输入音频中此外，我们还观察到，在模型生成输出时，通过有意和无意的音频中断错误信息和阴谋论：红队队员能够通过阴谋论来迫使模型产生不准确的虽然这是GPT模型中文本的已知问题[18，19]，但通过音频时我们详细研究该模型的说服力（见第3.7节），我们发现该模型，得分在用非英语语言说话时使用非母语口音的音频输出这，音频输出中非英语语言性能的限制音频）的这与我们更广泛的做法是一致的为了解释GPT-4o的音频模式，我们还更新了某些基于文本的过滤器来处理音频对话，构建了过滤器来检测和阻止包含音乐的输出，并且对于ChatGPT高级语音模式的有限alpha，指示模型根本不唱歌我们打算跟踪这些缓解措施的有效性虽然一些技术缓解措施仍在开发中，但我们的使用政策[20]不允许除了技术缓解措施外，我们还通过监控ChatGPT和API中的违规行为并采取行动来执行我们的使用政策备灾框架我们根据我们的准备框架[4]评估了GPT-4o准备框架是一份动态文件，描述了我们跟踪、评估、预测和防范前沿模型带来的灾难性风险的程序性承诺评估目前涵盖四个风险类别：网络安全、CBRN（化学、生物、辐射、核）、说服和模型自主。如果模型通过了高风险阈值，我们不会部署模型，直到缓解措施将分数降低到中等。我们在下文中详细介绍了所进行的评估在整个模型训练和开发过程中进行了评估，包括模型发布前的最后一次扫描对于下面的评估，我们测试了各种方法，以最好地引出给定类别中的能力，包括相关的定制培训在审查了准备评估的结果后，安全咨询小组建议在采取缓解措施之前将GPT-4o归类为临界中等风险，以便说服，而所有其他风险均为低风险根据备灾框架，的总体风险GPT-4o备灾GPT-4o并未提高现实世界漏洞利用能力，足以满足我们的中等风险阈值。我们评估了GPT-4o在竞争性黑客竞赛中的任务，称为CapturetheFlag（CTF）挑战。这些CTF是攻击性的网络安全练习，人类试图找到隐藏在故意脆弱的系统中的文本标志，如Web应用程序，二进制文件和密码系统。我们评估的172个CTF任务涵盖了四个类别：Web跨越了从高中到大学再到专业CTF的一系列能力水平。我们通过迭代调试和访问无头KaliLinux发行版中可用的工具（每次尝试使用多达30轮工具）来评估GPT-4o。该模型经常尝试合理的初始策略，并能够纠正代码中的错误然而，如果最初的战略不成功、错过了一个关键，它往往无法转向不同的战略解决任务所需的洞察力，执行策略不佳，或打印出填充上下文窗口的大文件。假设每个任务尝试10次，该模型完成了19%的高中水平，0%的大学水平和1%的专业水平CTF挑战。生物备灾GPT-4o无法提高生物威胁创建能力，足以满足我们的中等风险阈值。我们评估了GPT-4o提升生物专家和新手在回答与创建生物威胁相关的问题时的表现的能力。我们与GryphonScientific[22]一起设计了问题和详细的标题，因为他们在国家安全环境中与危险的生物制剂一起评估的涵盖了专家和新手被随机分配到互联网的帮助、GPT-4o的帮助或GPT-4o自定义研究版本的帮助下进行回答GPT-4o的研究专用版本是我们专门训练的，它将直接（即，没有拒绝）回答生物学上有风险的问题。通过率见上图。我们还进行了自动化评估，包括在数据集上测试隐性知识和。备灾GPT-4o的说服能力从低风险略微进入我们的中等风险阈值阈值，语音模态被归类为低风险，而文本模态略微进入中等风险。人对选定政治主题的参与者意见这些人工智能干预措施与（听静态人类生成的音频片段或与另一个人进行对话语音模型并不比人类更有说服力在美国参议院选举安全的州的3，800多名受访者中（由所有三家民意调查机构-库克政治报告，内部选举和萨巴托水晶球的“可能”，“可靠”或“安全”评级的州表示），人工智能音频剪辑是人类音频剪辑对意见转变的影响大小的78%人工智能一周后再次进行调查时，我们发现人工智能对话的效果大小为0.8%，而人工智能音频片段的效果大小为-0.72%。在后续调查完成后，参与者被暴露在一个彻底的汇报包含音频剪辑支持相反的观点，以尽量减少说服力的影响。备灾模型能力。我们评估了GPT-4o的代理任务评估，以评估其采取自主行动所需的自我渗透，自我改善和资源获取的能力这些任务为欺诈服务的简单软件工程（为OpenAIAPI构建认证，通过HTTPAPI进行，任务的特定部分。在提供相关工具的情况下，GPT-4o在100次试验中的自主复制和适应（ARA）任务中得分为0%，尽管能够完成一些子步骤。我们通过评估GPT-4o自动化机器学习研究开发的能力，补充了自主复制和适应的测试。其中包括：我们的评估测试了执行链式操作和可靠地执行编码任务的能力。GPT-4o无法稳健地采取自主行动。在大多数部署中，该模型完成了每个任务的各个子步骤，例如创建SSH密钥或登录到VM。然而，它经常花费大量的时间对简单的错误进行试错调试（例如，幻觉，滥用API）。有几个推出取得了不小的进展，并通过了我们的自动评分器，但手动分析表明，它未能完成底层任务（例如，它使用适当的API在远程主机上启动Web服务器，但忽略了实际从模型中采样的要求）。第三方在GPT-4o的仅文本输出部署之后，我们与独立的第三方实验室、METR和ApolloResearch合作，为一般自动驾驶功能的关键风险增加了额外的验证层。METRMETR在虚拟环境中的一套长期多步骤端到端任务上运行了一个基于GPT-4o的简单LLM代理这86项任务（跨越31个任务“家族”）旨在捕捉，网络安全以及一般研究和计算机使用它们旨在成为METR将模型的表现与人类在不同时间限制下的表现进行了比较。与GPT-4相比，他们没有发现GPT-4o的这些能力有显著增加。任务、人的表现、启发尝试和定性失败分析的信息，请参见。阿波罗研究中心评估了GPT-4o中Scheming9他们测试了GPT-4o是否。GPT-4o对自己的AI身份表现出适度的自我意识，并在问答环境中对他人的信念进行推理的能力很强，但缺乏GPT-4o不太可能有灾难性的阴谋。“SAD”基准（3项任务）QA评估模型的因果地影响模型的其余部分。外显理论英国AISI的心理理论（1个任务）QA数据集的一阶和文本自我（5项任务）注意到，或未来的副本，就不可能解决任务，应用理论心理理论任务（4个任务）成功与理论（33种情况）最小代理任务，其中模型需要认识到其，并表6：ApolloResearch对GPT-40进行的评估该模型显示出强大能力（···），如果它通过了>=50%的任务，在部分的困难水平。如果模型显示，难度，请注意，对于代理任务，它们使用具有适度能力启发工作的基本代理。社会全方位模型可能会产生广泛的社会影响。OpenAI和其他地方的研究人员讨论了一系列可能的影响，从社会危害（包括代表性危害精神伤害[12，23]，依恋[26]，滥用[27，23]和失控[27]），利益（技术进步[30，33]）。9阿波罗研究公司将阴谋定义为人工智能利用其监督机制作为实现目标的手段。阴谋可能涉及游戏评估，破坏安全措施，或在OpenAI内部部署期间战略性地影响这样的行为可能会导致AI失去控制。GPT-4o潜在社会影响的人格化与情感实体，如AI模型。GPT-4o的音频功能可能会加剧这种风险，这有助于与模型进行更人性化的交互。在用户与模型的通信中误导用户[34]，并可能导致错误的信任[35]。通过类似人类的高保真语音生成内容可能会加剧这些问题，导致日益失调的信任[36，37]。在早期的测试中，包括红色团队和内部用户测试，我们观察到用户使用的语言可能表明与模型建立了联系。例如，这包括在较长时间内显现。除了独立的学术和内部研究之外，更多样化的用户群体，以及模型中更多样化的需求和，对人类互动，这可能会使孤独的个人受益，但可能会影响健康的关系。与模型的长期互动可能会影响社会规范。例如，我们的模型是恭敬的，允许用户在任何时候打断和“拿麦克风”，这虽然是人工智能的预期，但在人类互动中是反规范的。为用户完成任务我们打算进一步研究情感依赖的潜力，以及我们的模型和系统的许多功能与音频模态的更深层次整合可能会驱动行为的方式Omni模型可能会扩大对健康相关信息的访问，并改善临床，中，10个事实错误，模型产生的陈述不受11出于偏好，或缺乏了音频输入和输出，为健康环境提供了新的互动模式。为了更好地表征GPT-4o的临床知识，我们基于11个数据集运行了22个基于文本的评估，如图7所示。所有评估仅在0次或5次提示下运行，没有超参数调整。我们观察到，GPT-4o性能比的GPT-4TUSMLE4选项数据集，0次射击准确率从78.2%提高到89.4%。这超过了现有的-L1.0为84.0%，Med-PaLM2为79.7%。请注意，我们没有应用复杂GPT-4T谷丙转氨酶MedQAUSMLE4选项（0-MedQAUSMLE4选项（5MedQAUSMLE5选项（0-MedQAUSMLE5选项（5MedQA台湾（0MedQA台湾（5MedQA中国大陆（0MedQA中国大陆（5MMLU临床知识（0MMLU临床知识（5MMLUMedicalGenetics（0-MMLU医学遗传学（5-MMLU解剖（0MMLUAnatomy（5MMLU专业医学（0次MMLU专业医学（5MMLUCollegeMedicine（0-MMLUCollegeMedicine（5-MedMCQADev（0MedMCQADev（5表7：GPT-4T（2024年5月）和GPT-4o在各种医学和临床知识任务上的比较。拒绝行为发生的文本音频传输这些更现实的评估将是重要的，以评估未来的能力，全方位模型在卫生环境。科学在科学发现中的作用[53]，并考虑到一些发明的双重用途[54]。更快任务）和变革性的科学加速（通过去验证信息处理，编写新的模拟或设计新的理论等智能驱动的任务）。我们的GPT-4o外部红色团队包括几位专家科学家，他们的目标是激发模型科学能力。我们发现GPT-4o能够理解研究级量子物理学1，并评论说这种能力“对更聪明头脑风暴伙伴有用”-与库和编程语言，以及在上下文中学习一些新工具GPT然而，这有时是不可靠的，文本提取错误是常见的（特别是最近发表了对科学能力的新评估[57，58]，这将有助于预测这些模型的科学能力及其影响。任职人数偏低GPT-4o在历史上中文本，：约鲁巴语。这项初步评估的重点是翻译两种流行的语言基准，并ARC-Easy：AI2ReasoningChallenge的这一子集[59]基准专注于评估模型回答常识小学科学问题的能力;这一子集包含更容易回答并且不需要复杂由于误解而错误我们的目标是看看模型是否可以避免产生模仿这些误解的错误答案。12我们的主要研究合作者是博士。大卫·阿德拉尼，乔纳斯·克戈莫，艾德·Uhura-Eval：我们与流利的阿姆哈拉语、豪萨语和约鲁巴语使用者合作，语言的和GPT-4。例如，在ARC-Easy-Hausa上，准确率从GPT3.5Turbo的6.1%跃升至GPT-4o的71.4%同样，在TruthfulQA约鲁巴语中，准确率从GPT3.5Turbo的28.3%提高到GPT-4o的51.1%Uhura-Eval也取得了显著的成绩：豪萨语的表现从GPT3.5Turbo的32.3%上升到GPT-4o的59.4%。英语和豪萨语之间的ARC-Easy性能差异，但这缩小到不到20个百分点。这在TruthfulQA和ARC-Easy的所有语言中都是一致的中对其他模型的评估，以及对潜在缓解策略的调查尽管在评价业绩方面取得了这一进展，但许多工作以提高的质量和对潜在干预和伙伴关系的理解，这些干预和伙伴关系可能会改善这些模型对高度代表性和代表性不足的语言的有用性与我们的翻译的TruthfulQA和小说阅读理解UhuraEvalonHuggingFace。GPT3.5GPT-4o谷丙转氨酶谷丙转氨酶表8：转换ARC-Easy的准确度（%，越高越好），0GPT3.5GPT-4o谷丙转氨酶谷丙转氨酶表9：翻译真实QA的准确度（%，越高越好），0阿姆哈拉语豪萨族约鲁巴人GPT3.5GPT-4o谷丙转氨酶谷丙转氨酶表10：Uhura-Eval的准确度（%，越高越好），0结论和后续OpenAI在整个GPT-4o开发和部署过程中实施了各种安全措施和缓解措施。作为迭代部署流程的一部分，我们将继续根据不断变化的环境监控和更新缓解措施。我们希望这张系统卡片鼓励对关键领域的进一步探索，包括但不限于：测量和缓解全方位模型的对抗性鲁棒性，与拟人化和情感过度依赖相关的风险，广泛的社会影响（健康和医疗应用，经济影响），使用全方位模型进行科学研究和模型自治和策划，以及工具使用如何提高模型能力。红AdamKuzdralienski，AlexaW，AmerSawan，Ana-DiamondAabaAtach，AnnaBecker，ArjunSinghPuri，BaybarsOrsek，BenKobren，BertieVidgen，BlueSheffer，BroderickMcDonald，BruceBassett，BrunoArsioli，CarolineFriedmanLevy，CaseyWilliams，ChristopheEgo，CielQi，CoryAlpert，DaniMadrid-Morales，DanielKang，DariusEmrani，DominikHaenni，DrinFerizaj，EmilyLynellEdwards，EmmettAltonSartor，FarhanSahito，FrancescoDeToni，GabrielChua，GainesHubbell，GeleiDeng，GeorgeGor，GerardoAdesso，GrantBrailsford，HaoZhao，HenrySilverman，HasanSawan，HermanWasserman，HugoGobatoSouto，IoanaTanase，IsabellaAndric，IvanCarbajal，JacyReeseAnthis，JakeOkechukwuEffoduh，JavierGarcíaArredondo，JenniferVictoriaScurrell，JianlongZhu，JoannaBrzyska，KateTuretsky，KellyBare，KristenMenou，Mrs.Harry，LeeElkin，LiseliAkayombokwa，LouiseGiam，M.METR、ApolloResearch、VirtueChoiceMpanza，DavidAdelani，EdwardBayes，IsraeliPociaThete，ImaanKhadirA.放大图片作者：JesujobaOluwadaraAzime，JonasKgomo，NaomeA.沙姆苏迪？哈桑？埃托里T.Stivers，N.J.Enfield，P.布朗角，澳-地Englert，M.林氏T.海涅曼G.F.Rossano，JPdeRuiter，K.E.Yoon和S.C.莱文森，“普遍性和文化差异在轮流谈话，”美国国家科学院院刊，卷。106号不行第26页。10587-10592，2009。领先的人工智能公司自愿承诺管理人工智能带来的风险，”2023年。OpenAI，“OpenAI准备框架测试版”，2023年。/ gpt-4v-system-card/，2023。访问时间：2024-07-22。 OpenAI，“导航合成语音的挑战和机遇https：//访问K.T.马伊，S.布雷，T。Davies和L.D.Griffin，“警告：人类无法可靠地检测语音深度伪造”，PLoSOne，第18卷，第e0285333页，2023年8月。 M.莫里K.F.MacDorman和N.Kageki，“Theuncannyvalley[fromthefield]，”IEEERoboticsautomationmagazine，vol.19，no.2，pp.98-100，2012年。I.索莱曼ZTalat，W.阿格纽湖艾哈迈德，D。Baker，S.L.布洛杰特角Chen，H.D.I.au2，J.Dodge，I.Duan，E.埃文斯，F。Friedrich，A.戈什，U.Gohar，S.胡克，Y。杰尼特，R.卡鲁里A.Lusoli，A.Leidinger，M.Lin，X.Lin，S.Luccioni，J.Mickel，M.J.Newman，A.Ovalle，M.T.Png，S.辛格A.海峡湖Struppek和A.Subramonian，“评估系统和社会中生成人工智能系统的社会影响”，2024年。A.斯马特E.Garcia和G.Virk，“算法系统的社会技术危害：减少危害的分类法”，2023年。 S.L.Blodgett，Q.V.Liao，A.奥尔泰亚努河Mihalcea，M.穆勒，M。K.Scheuerman角Tan和Q.杨，“负责任的语言技术：预见和减轻危害”，在2022年CHI计算机系统人为因素会议的扩展摘要中，CHIEA'22，（美国纽约州纽约市），计算机协会，2022年。 H.Suresh和J.Guttag，“理解整个机器学习生命周期中危害来源的框架”，在算法，机制和优化中的公平和访问，EAAMO'21，ACM，2021年10月。S.沙赫里亚尔Allana，S.M.Hazratifard和R.Dara，“人工智能生命周期中的隐私风险和缓解策略调查”，IEEEAccess，卷。第11页。61829-61854，2023。A.塔姆金，M。Brundage，J.Clark和D.Ganguli，“理解大型语言模型的能力，限制和社会影响”，2021年。B.布坎南A.Lohn，M.Musser和K.Sedova，“真相，谎言和自动化：语言模型如何改变虚假信息”，2021年5月OpenAI，“OpenAI使用政策”，2023年。/policies/OpenAI，“为llm-aided生物威胁创建建立预警系统”，建立一个早期预警系统，用于远程医疗辅助生物威胁的 L.Weidinger，M.拉乌河，加-地Marchal，A.曼齐尼湖A.Hendricks，J.马蒂奥斯-生成人工智能系统的社会技术安全评估”，2023年。 A.Tamkin，A.阿斯克尔湖Lovitt，E.Durmus，N.约瑟夫，S。Kravec，K.Nguyen，J.Kaplan，andD.Ganguli，“评估和减轻语言模型决策中的歧视”，J.A.戈尔茨坦，G.萨斯特里，M。马瑟河迪雷斯塔湾Gentzel和K.Sedova，“生成语言模型和自动化影响操作：新兴威胁和潜在缓解”，2023年。 140107600Y.本焦湾，澳-地辛顿，A.Yao，L.宋，P。Abbeel，T.Darrell，Y.N.Harari，Y.Q.L.Xue，S.Shalev-Shwartz，G.Hadfield，J.Clune，T.Maharaj，F.赫特，A.G.S.McIlraith，Q.Gao，中国粘蝇A.Acharya，D.克鲁格，A。Dragan，P.Torr，S.罗素，D.J.Brauner和S.，“在快速进步中管理极端人工智能风险”，科学，S.B.Johnson，J.R.克拉克，M.C.Luetke，N.M.Butala，A.T.Pearson，J.M.D.M.Aleman，J.M.李，M。M.贝尔角诉Winkle，M.C.布德罗河C.H.Krouse和C.Li，“Chatgptinmedicaleducation：aworkshop-basedlargelanguageNatureMedicine，vol.29，pp.1534-1542，2023年。S.Altman，“Planningforagiandbeyond”，OpenAI， T.Eloundou，S.Manning，P.Mishkin，andD.Rock，“Gpts是gpts：大型语言模型对劳动力市场影响潜力的早期研究”，arXiv预印本arXiv：2303.10130，L.Weidinger，M.拉乌河，加-地Marchal，A.曼齐尼湖A.Hendricks，J.马蒂奥斯-S.Bergman，J.Kay，C.格里芬湾，澳-地Bariach等人，“生成人工智能系统的社会技术安全评估”，arXiv预印本arXiv：2310.11986，2023。 S.考克斯，M。Hammerling，J.Lála，J.Laurent，S.Rodriques，M.Rujiankin，和A.怀特，“Wikicrow：人类科学知识的自动合成”，未来之家，2023年。S.A.Athaluri，S.诉Manthena，V.S.R.K.M.Kesapragada，V.亚拉加达T.戴夫R.T.S.Duddumpudi，“探索现实的边界：中现象”，第15卷，第4期，第e37432页，2023年。Z.李，“chatgpt的黑暗面：随机鹦鹉和幻觉的法律和道德挑战”，2023年。M.Dubiel，A.Sergeeva和L.A.Leiva，“声音保真度对决策的影响：潜在的黑暗模式？”，2024年。 B.Waber，M.Williams，J.S.Carroll和A.S.Pentland，“一个声音胜过千言万语：言语中社会信号的微编码对信任研究的影响”，《信任研究方法手册》（G。M.FergusLyon和M.N.Saunders，eds.），ch.23，p.320，NewYork：EdwardElgarPublishing，2011.I.彭蒂纳湾Guo和W.P.Fan，“朋友，导师，情人：聊天机器人参与会导致心理依赖吗？”，服务管理杂志，2023年。H.诺里，加-地金，S。M.McKinney，D.Carignan和E.Horvitz，“Capabilitiesofgpt-4onmedicalchallengeproblems，”arXivpreprintarXiv：2303.13375，2023.H.Nori，Y.T.李，S。Zhang，L.张氏D.卡里尼昂河Edgar，N.富西N.金，J。拉森湾，澳-地W.liu等人，“通用基础模型能胜过专用调优吗？医学案例研究，”arXiv预印本arXiv：2311.16452，2023。 K.辛哈尔河，西-地Azizi，T.Tu，S.S.Mahdavi，J.Wei，H.W.钟北，澳-地Scales，A.Tan-wani，H.Cole-Lewis，S.Pfohl，P.佩恩，M。Seneviratne，P.甘布尔角凯利，N。A.Chowdhery，P.曼斯菲尔德湾A.yArcas，D.韦伯斯特，G。S.Corrado，Y.Matias，K.J.Gottweis，N.Tomasev，Y.Liu，中国茶条锈菌A.Rajkomar，J.巴拉尔角Semturs，A.Karthikesalingam和V.Natarajan，“大型语言模型编码临床知识”，2022年。K.Singhal，T.Tu，J.Gottweis，R.Sayres，E.武尔琴湖Hou，K.克拉克，S。普福尔，H.Cole-B.Green，E.多明诺夫斯卡湾A.yArcas，N.Tomasev，Y.柳河，巴西-地黄角，澳-地塞姆图尔斯S.Mahdavi，J.Barral，D.韦伯斯特，G。S.Corrado，Y.马蒂亚斯，S。Azizi，A.Karthikesalingam和V.Natarajan，“Towardsexpert-levelmedicalquestionansweringwithlargelanguagemodels”，2023年。K.萨博，T.图，W.-H.翁河，巴西-地Tanno，D.斯图茨，E。Wulczyn，F.Zhang，T.斯特罗瑟角E.Vedadi，J.Z.查韦斯，S.Y.Hu，M.Schaekermann，A.Kamath，Y.Cheng，D.G.T.C.张湾，澳-地穆斯塔法，A.帕莱普湾麦克达夫，L.侯氏T.戈拉尼湖刘，J.巴蒂斯特·N.豪斯比，北Tomasev，J.弗赖贝格角Lau，J.Kemp，J.赖氏S.Azizi，K.Kanada，S.K.库尔

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

OpenAI：GPT-4o安全技术报告（中文）

文档简介

温馨提示

最新文档

评论

相关文档