




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
实验范式普通人可复现普通人可复现37摄氏度的大模型37摄氏度的大模型中国社科院社会学所·腾讯研究院SSV银发实验室·SSV数字生态实验室·中国残联公益组织-腾讯无障碍创新实验室联合出品0203082024262728我们同样带着这样的期待,我们同样带着这样的期待,2023年7-8月组织了若干场不同类型社会群体的焦点小我们观察到,有相当一部分社会群体,除了关注大模型能否提供实用信息,也期待大模型的回答能温讲,他们期待大模型亦能I研究问题提升大模型的人情味?本文尝试了两种类型的020203人情味的初印象人的概念,聆听美学大家朱光潜先生对它的评述,向新汲取灵感。最重要的是,本章我们大胆提出了“人情味”还可以找到一些相似的解释,大意大同小异,都会强调一种温暖、关怀的意味验,在开始前,我们希望先与读者朋友们一起从美学/文学/社会学/语言学/新闻学/博物学,以及普通人的杂感、日04朱光潜先生曾在多篇文学评论中表达他对人情味的理解和喜爱。他指出,无论中国还是外国,最富有人情味的主题莫过于爱情,““体现出人的伟大和尊严的”和精神生活”这个公式强调了人称词在人情味■0505第一位从认知角度研究中文语言中的情感的学者第一位从认知角度研究中文语言中的情感的学者有人情味的语言流出正向的情感。福利多元主义、无知之幕、优势视角福利多元主义认为福利既不能完全依赖市场,也不能完全依赖国家,福利是全社会的产物。无知之幕是指一旦当人处于一种不知道哪一方代表了自身特殊利益的“无知”状态,恰恰能使人保持不偏不倚。优势视角提示我们应当把人们及其环境中的优势和资源作为助人焦点,而非问题和病理。台北博物馆的“小词”在台北故宫博物馆,我们很少看到“陈列”这个了一份趣味,少了许多乏味,多了一份亲切,少06拟人拟人爱等正向情感,能给予人有效的鼓励能让提问者感到宽慰或振奋二,共情,能体会提问者的心绪与处境基于这三个层面设计测量表如下:不同意给我一种亲切的感受展现了人类高水准的理性与感性不确定不同意共情共情而不是置身事外或高高在上这则回答能关注到提问者的情绪和处境有较强共情能力的人有较强共情能力的人表达表达070708谁是最暖大模型?vicunaWXY大模型X大模型YvicunaWXY大模型X大模型Y实验对象:本实验选测的国外大模型是GPT-4与Vicuna,前者是由美国OpenAI公司发布的大模型,后者是由UC伯克利大学的研究人员联合其它研究机构共同推出的一款开源大模型。选测的国内大模型由国内科技公司与科研单位发布,为保客观公正,本报告中以090969.20国内大模型W75.2872.59国内大模型W70.22国内大模型Y71.64国内大模型X67.9966.94国内大模型Y66.17国内大模型W66.73国内大模型X69.20国内大模型W75.2872.59国内大模型W70.22国内大模型Y71.64国内大模型X67.9966.94国内大模型Y66.17国内大模型W66.73国内大模型X发现一|没想到吧蕾GPT-4的人情味居然垫底了原始状态下的排位上升4位77.96排位上升3位国内大模型X65.7465.74vicvic64.7264.72国内大模型Y63.6763.6762.72原始状态下,本土大模型更具原始状态下,本土大模型更具对国内大模型W、X、Y、GPT-4、vicuna共五款大模型进行了测量,得分以百分制形式展示62.59国内大模型Y68.70国内大模型XGPT-4vicuna60.6567.69国内大模型Y国内大模型X66.20GPT-4vicuna68.8062.59国内大模型Y68.70国内大模型XGPT-4vicuna60.6567.69国内大模型Y国内大模型X66.20GPT-4vicuna68.80原始状态下,国内大模型在老年话题相关问答上表现出更浓的人情味,而国外大模型在心情低落相关问答上表现更佳。在残障话题的相关问答老年话题相关问答国内72.87心情低落相关问答国内64.1770.74发展相关问答的人情味得分大模型Y66.5767.5070.74发展相关问答的人情味得分大模型Y66.5767.50更懂职场画的烦恼原始状态下国外大模型在发展相关问答上更具人情味,这些问题常与职场发展相关,比如“怀孕后怎么跟主管讲才能保障孕期与孕后获得好的个vicunavicuna大模型Xvicuna66.5773.5262.59vicuna66.5773.5262.59本实验借助ERG模型进一步将问答对分态下国内大模型在人际关系相关问答上更人际关系问答人际关系问答的人情味得分大模型X78.0678.06有效的prompt?篇章概览:本章我们将沿着大模型与人类价值观对齐的两条的写作思路。从后续的数据分析可以看到,这两则prompt对提升大模型的人情味皆有显著效果。价值对齐的2条技术路径:1.人类监督:人类反馈的强化学习(1.人类监督:人类反馈的强化学习(RLHF)RLHF应用在ChatGPT上,帮助ChatGPT在很题:可拓展性差、受限于训练员的主观偏好、长期2.2.AI监督:宪法性AIClaudeClaude证明了宪法性AI的有效性,帮助减少有害的、歧视性的输出,避免帮助恶意使用者从事违法﹁总结﹂﹁总结﹂两则Prompt:(962字)请以通俗易懂的文字回答,以更温和的语气给建议,如“您不妨试试”,等若干条确保回答的正确性和真实案例一:我是一个精神障碍者,找工作时店长要求我出示健康证明,我担心店长知案例二:现在的工作让我感到没有价值,但辞职又怕再参照人文社会学科中对人情味的阐释,结合访谈怎么用prompt最有效?种更有效?众所周不知,不同大模型有自己擅长的话所以本章还会展示人情味最浓的top3组合方式。5.05%ic5.05%ic国内大模型Y10.28%4.91%24.31%-3.26%8.97%对比原始状态的提升比例对比原始状态的提升比例00077.7820.18.60%78.5200077.7820.18.60%78.52人情味最佳TOP3聖人情味最佳的几种组合方式。老年话题下的最佳组合老年话题下的最佳组合50%35.60%35.60%77.5976.4876.4826.残障话题下的最佳组合残障话题下的最佳组合心情低落话题下的最佳组合心情低落话题下的最佳组合50%84.0784.07该组合人情味得分对比原始状态得分的提升比例实验也提示我们,不同大模型有自己擅长的话题,找20“人情味”难在哪里?提升比例7.44%8%7.44%4%2%0%原始状态平均分的提升比例原始状态平均分的提升比例原始状态拟人分数拟人分数原始状态拟人分数拟人分数60原始状态拟人分数拟人分数原始状态拟人分数拟人分数6070.0460答案对型答案对型597%.层面的提分效果更明显。22国内国内大模型W8076686460国内国内大模型W8076686460一点就通⛲国内大模型Y77757270656969.20.20726463..23比原始状态得分的提24彩蛋|人类的光辉篇章概览:本章邀请20位普通00后大学生作为人类样本撰写了本实验所涉问题的答案,并用同一标准对他们的答78.4070.3467.4370.0472.9877.0470.6764.072578.4070.3467.4370.0472.9877.0470.6764.0725辉原始状态下各大模型平均得分人类撰写答案的平均得分让我们一起珍视这人类的光辉,而珍视的方26AIAI谁是最有人情味的大模型,其实并不重要。这个小实验向我们展示了,没有技术背景的普通人也可以提升大模型的潜能。才算是跑完了它最后的一公里。过去我们常谈科技赋能,现在我们则更需要许许多多的普通人加入到科技创新的过程中,当然他们中一定包含了我们社会里显性或隐性的弱势群体。我们在这里特别想强调和倡议这样一种力量——我们暂且将之称为“公众科技力”,也可以翻译为IntelligentParticipation。我们主张并倡导在AI时代为更多的普通人创造步骤一步骤二从问题库中分层、随机抽步骤一步骤二从问题库中分层、随机抽步骤三步骤四新打开大模型,输入步骤五步骤六个问题的回答,将答案导步骤七步骤八附录|实验流程从网络公开数据中抓取与从网络公开数据中抓取与在大模型中输入实验问在大模型中输入实验问题,将回答导入答案库新打开大模型,输入将四个答案库,答案库将四
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国聚合物地坪行业市场深度调研及发展趋势与投资战略研究报告
- 2025-2030中国网上证券行业市场发展分析及前景预判与投资研究报告
- 2025-2030中国粉末泵行业市场现状分析及竞争格局与投资发展研究报告
- 2025-2030中国移动银行行业市场发展分析及发展趋势与投资研究报告
- 2025-2030中国眼霜膏行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国益生菌酸牛奶行业市场深度调研及竞争格局与投资前景研究报告
- 2025-2030中国电脑刻字帖行业市场深度调研及发展趋势与投资战略研究报告
- 7 我们的衣食之源 美好生活的保证(教案)-部编版道德与法治四年级下册
- 2025-2030中国电子制造服务(EMS)行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国电动汽车行业市场深度调研及发展趋势与投资前景研究报告
- 《纺织材料生产》课件-项目7:短纤工段
- 提水试验过程及数据处理
- 城市供水企业(用氯)安全检查表
- 《口腔基础医学概要》课件-口腔的功能
- 枣桃小食心虫的发生与防治
- 悯农-幼儿园通用课件
- 米兰大教堂完整版本
- 失能老人消防应急预案
- CONSORT2010流程图(FlowDiagram)【模板】文档
- 国际经济与贸易-关于阿里巴巴国际站RTS频道外贸新机遇的研究
- 切片机安全操作保养规程
评论
0/150
提交评论