版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
豆包MarsCode
落地编程助手场景的探索实践源豆包MarsCode
编程助手起豆包MarsCode
的现状与发展未来展望01豆包MarsCode
编程助手起源IDE
智能化探索开发者对
AI
Coding
的诉求豆包MarsCode
的历程IDE
智能化探索开发者对
AI
Coding
的诉求豆包MarsCode
的历程2022
年初代码智能团队开始探索
LLM
驱动的代码补全产品自研代码
LLM评测集和自动评测系统构建数据链路和线上
A/B
测试体系引入基于对话的编程助手更高自动化编程能力引入代码补全
Pro编辑推荐功能更多....源豆包MarsCode
编程助手起豆包MarsCode
的现状与发展未来展望02
豆包MarsCode
的现状与发展代码补全Prompt
工程科学的测评体系代码补全
Pro概述数据构造产品交互代码补全
-
Prompt
工程代码补全
-
科学的测评体系代码补全的采纳率不是好指标采纳率
=
采纳次数
/
推荐次数只关注采纳率进行优化,
容易被误导不容易拆解分析,
归纳可指标链路优化路径更适合作为体验指标代码补全
-
科学的测评体系CPO
-
更科学的指标(Codeium)尝试率:
每当用户在编辑器中进行操作,比如输入新字符或删除一些代码时,都是
AI
给出补全建议的机会。「尝试率」指标反映了AI
实际为用户提供建议的频率。AI
不进行尝试可能是由于延迟(如Debounce)或需要根据上下文情况来决定是否给出补全建议CPO(Characterper
Opportunity)=(尝试率)
*(反馈率)
*(采纳率)
*(每次采纳平均
token
数)
*(token
平均字符长度)例子:用户敲击了
10
次按键,只有其中
6
次触发了请求,那么尝试率是
6/10代码补全
-
科学的测评体系CPO-
更科学的指标(Codeium)反馈率:
AI
在给出补全建议时是存在延迟的,包括上下文检索到网络开销再到实际模型推理都会引入延迟。如果延迟太高,开发人员将继续在编辑器中执行新的操作,触发新的推荐机会并使现有推荐机会变得无意义。此外,在推荐完成后,工具可能因各种原因决定不向开发人员显示建议:比如置信度不够高、触发了过滤器等。反馈率代表了有多少比例的建议最终被传递给开发人员以获得人类「反馈」。CPO(Character
perOpportunity)
=(尝试率)
*(反馈率)
*(采纳率)
*(每次采纳平均
token
数)
*(token
平均字符长度)例子:插件发起了
6
次请求,最后只有
3
次被展示,那么反馈率是
3/6代码补全
-
科学的测评体系CPO
-
更科学的指标(Codeium)采纳率:即使补全建议已经给到开发者,他们也可能觉得建议并不完美而拒绝。接受率反映了展示出的建议中有多少被开发者采纳。CPO(Character
perOpportunity)
=(尝试率)
*(反馈率)
*(采纳率)
*(每次采纳平均
token
数)
*(token
平均字符长度)如果展示的
3
次推荐,最后只有
1
次被采纳,那么采纳率是1/3代码补全
-
科学的测评体系CPO
-
更科学的指标(Codeium)每次采纳平均
token
数:在其它条件相同的情况下,较长和较短的代码推荐所带来的价值有很大差异。
大型语言模型以
tokens的形式处理输入并生成输出,这些
tokens通常是一小段字符,因此每个被采纳建议中平均
token
数反映了每条被采纳建议所传递出的实际价值CPO(Character
perOpportunity)
=(尝试率)
*(反馈率)
*(采纳率)
*(每次采纳平均
token
数)
*(token
平均字符长度)代码补全
-
科学的测评体系CPO
-
更科学的指标(Codeium)token
的平均字符数:开发人员看到的是字符而不是
token,不同的大语言模型可以有不同的「分词器」,因此,如果一个大语言模型的每个
token
生成了更多字符,实际上它会写出更多代码,而每个
token
的平均字符数正好体现了这一点CPO(Character
perOpportunity)
=(尝试率)
*(反馈率)
*(采纳率)
*(每次采纳平均
token
数)
*(token
平均字符长度)代码补全
-
科学的测评体系通过
A/B
快速验证和迭代模型、Prompt策略代码补全
Pro
-
预测下一次动作代码补全
Pro
-
概述举个例子:打印日志的场景开发者实现了一个
log
函数,并在
do_something和
do_something_else 两个函数中调用代码补全
Pro
-
概述接下来我们给
log
函数增加
sourceMethod
和
level两个参数,用于打印日志触发时所在的方法及日志级别。这时开发者需要同时修改
do_something()
和do_something_else
函数代码补全
Pro
-
概述为什么不让
AI
完成修改的操作呢?当我们在
log
函数增加两个参数,
自动在do_something和
do_something_else两个函数中,将参数补齐代码补全
Pro
-
产品交互代码补全
Pro
-
数据构建Git
仓库中海量的
commit
历史记录是个巨大的数据宝库,包含了丰富的用户编辑行为信息Git
commit
信息中的噪音也是很多的,需要构造一系列的启发式规则,用于提取出有关联的修改记录通过
CT
和
SFT
模型能够理解
diff格式数据源豆包MarsCode
编程助手起豆包MarsCode
的现状与发展未来展望03
未来展望编程助手业界趋势观察产品形态的展望编程助手业界趋势观察模型指令追随和语义理解能力更强模型具备代码编辑能力更长的上下文支持,
百
K
甚至
M
级别长度更多...产品IDE
原有交互的深度集成,
比如在
Editor
中支持输入自然语言生成代码更强的代码编辑能力,
支持更长、更多代码片段的修改和应用更多...产品形态的展望NL2Code
能力与
Editor
深度集成VSCodeJetBrains产品形态的展望Sketchthe
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建立知识共享平台的计划
- 财务预测模型解析计划
- 领导者在危机中的决策与反应计划
- 生物课程知识分享计划
- 喷洒车辆相关项目投资计划书范本
- 《软件测试培训讲义》课件
- 投诉处理与顾客满意度培训
- 校外辅导机构保安措施计划
- 情感交流班主任与学生的纽带计划
- 吹塑机械行业相关投资计划提议
- 部编版道德与法治二年级上册全册教案
- 农村民兵连指导员述职报告范本
- 二年级数学上册100道口算题大全 (每日一套共26套)
- 2024年农业学:农村农业基础知识考试题库(附含答案)
- 六盘水事业单位笔试真题及答案2024
- 中国体育奥林匹克运动会发展历史讲解课件模板
- 2024年电大考试资源与运营管理试题及答案
- 大国兵器智慧树知到期末考试答案章节答案2024年中北大学
- 2025高考数学一轮复习-7.6-利用空间向量求空间角、距离【课件】
- 2024年国家开放大学电大《政治学原理》期末考试题题库
- JBT 8906-2014 悬臂起重机标准规范
评论
0/150
提交评论