




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
王楠JinaAI联合创始人兼CTO王楠博士,JinaAI的联合创始人兼首席技术官,博士毕业于德国波鸿大学计算神经科学专业。之后曾在欧洲知名电商Zalando和腾讯公司担任高级算法工程师,负责搜索和推荐业务,并在这些领域积累了丰富的模型设计、实现和部署经验。自2020年起创立JinaAI,作为联合创始人兼CTO,王楠博士领导团队开发及开源了神经搜索框架jina。作为LinuxFoundationAI&Data基金的TAC成员,他推动DocArray从LinuxFoundationAI&DATA毕业。王楠博士组织开发和开源了多个文本和多模态向量模型,全球累计下载量超过1000万。王楠博士热衷于AI技术在搜索领域的实际应用,并且积极推动AI技术的开源发展,他在AI技术领域的杰出贡献使他荣获2023年中国开源先锋33人的称号演讲主题:检索增强生成RAG的实践、挑战与发展JinaAIJinaAIBeijingBerlinHQShenzhenRaisedOfficeMembersAICompany$38MBerlin/Beijing/Shenzhen30+Top-tier●基于检索结果●●基于检索结果●保证可解释性和可回答可以验证追溯●更新检索知识库●支持增删改查知识可以频繁更新●●支持本地部署●本地存储私有数据●不需要微调模型私有数据安全●推理成本低低LLM推理成本有效降低LLM成本长文本大模型不会取代RAGjina-embeddingsjina-embeddings-v22023年10月发布,全球第一个支持8k输入jina-embeddings-v2●避免英文语料的偏差●避免多语言模型过大的词表●针对不同任务使用不同的损失函数jina-embeddings-v3●使用LoRA适配不同任务●使用MRL自定义向量维度通用向量模型vs垂类向量模型●微调垂类模型对于RAG整体性能提升有限●企业缺少专业人才训练垂类向量模型●缺少微调垂类向量模型的数据●计算量介于向量模型和●捕捉query和文本间细颗粒度语义相似jina-reranker-v1●分阶段训练:逐步提升模型排序能力;●迁移学习:将Embedding模型学习到的知识迁移到Reranker模型;●训练数据:使用和Embedding模型相同来源的训练数据;jina-reranker-v1-turbo/tiny●使用模型蒸馏技术,平衡准确率和推理速度jina-reranker-v2●针对结构化数据和代码数据专门优化●使用模型蒸馏和flash-attention优化推理速度重排序-RankGPTPE-Rank●使用embedding作为模型输入●显著提升大模型排序效率2006年冬季奥林匹克运动会.txt:焦点单板滑雪-美国选手塞思·韦斯科特(SethWescott)获得男子技巧赛第一名,在首度成为冬季奥运竞赛之一的项目上称王。冬季两项-法国女将弗洛伦斯·巴维雷尔-罗贝尔(Baverel-Robert)于7.5公里小项中获得金牌。银牌花落瑞典的安娜·卡伦·奥洛夫松(AnnaCarinOlofsson铜牌则由乌克兰的莉莉娅·叶夫列莫娃捧走。上届世界杯优胜者德国籍奥运卫冕冠军凯蒂威廉表现失常,只获得第七名。北欧两项-在北欧两项团体赛项目中,奥地利选手在该项目夺冠。速度滑冰-东道主意大利在男子速度滑冰比赛中战胜加拿大选手,以2.82秒之差拿下金牌。越野滑雪-爱沙尼亚选手安德鲁斯·维尔帕鲁在越野滑雪女子传统技术10公里的比赛中获得金牌,挪威选手包揽了二到四位。中国选手王春丽获得18名,这是中国运动员在此项目比赛上花样滑冰-在花样滑冰的男单的比赛中俄罗斯“冰王子”普鲁申科,以90.66分的个人历史最高分获得冠军。○文本块过小,上下文背景信息丢失2024年夏季奥林匹克运动会.txt:会徽本届奥运及帕运首次共享同个会徽,会徽由金牌、火焰与法国人民和革命象征的玛丽安娜三元素构成。?增加向量的维度?增加向量的维度,可以有效提升向量模型性能○一个固定长度的浮点数数组Chunking)●先计算向量表示●后进行文本切分●解决背景信息丢失问题queryquery:巴黎奥运会的会徽设计有什么含义?2024年夏季奥林匹克运动会.txt:会徽2024年夏季奥林匹克运动会…一般称为2024巴黎奥运会(英语:Paris2024…本届奥运及帕运首次共享同个会徽,会徽由金牌、火焰与法国人民和革命象征的玛丽安娜三元素构成。迟分(latechunking)●查询时计算query的每个token●与每个Document中token的jina-colbert-v1●第一款支持8k长度的ColBERT模型长文本上效果优于长文本上效果优于ColBERTv2jina-colbert-v2●使用MRL支持最低64维向量GraphRAG●使用LLM构建知识图谱,通过构建的知识图谱增强结构化信息GraphRAG○用实体表示不同的语义颗粒度queryquery:中国在奥运会上有哪些重要历史时刻?2006年冬季奥林匹克运动会.txt:焦点===第六天-2月16日===单板滑雪-美国选手塞思·韦斯科特(SethWescott)获得男子技巧赛第一名,在首度成为冬季奥运竞赛之一的项目上称王。冬季两项-法国女将弗洛伦斯·巴维雷尔-罗贝尔(Baverel-Robert)于7.5公里小项中获得金牌。银牌花落瑞典的安娜·卡伦·奥洛夫松(AnnaCarinOlofsson铜牌则由乌克兰的莉莉娅·叶夫列莫娃捧走。上届世界杯优胜者德国籍奥运卫冕冠军凯蒂威廉表现失常,只获得第七名。北欧两项-在北欧两项团体赛项目中,奥地利选手在该项目夺冠。速度滑冰-东道主意大利在男子速度滑冰比赛中战胜加拿大选手,以2.82秒之差拿下金牌。越野滑雪-爱沙尼亚选手安德鲁斯·维尔帕鲁在越野滑雪女子传统技术10公里的比赛中获得金牌,挪威选手花样滑冰-在花样滑冰的男单的比赛中俄罗斯“冰王子”普鲁申科,以90.66分的个人历史最高分获得冠军。Q:记者有多少时间用于内部会议讨论?Q:有多少用户使用LinkedIn找工jina-CLIP-v1●使用CLIP模型对文本和图片进行●文本和图片在同一个向量空间ColPali•文本内容的抽取和解析jina-reader●生产环境下的必备工具○提示词版本控制•通用文本RAG模型是目前的主流,文本块切分是RAG的主要问题。X:/nanwang_tGitHub:/nan-wangjina-embeddingsjina-embeddings有监督学习●收集MSMarco,NaturalQuestions,NLI,fever,ESCI(EN)数据集●构造高质量正负样本三元组共300万条○针对检索任务,使用Hardnegativemining○(anchor,positive,negative_1,...,negative_●尽可能增大batchsize○使用activationcheckpoint○基于DeepSpeed○使用MiniBatch○使用gradientc
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二项式定理专项训练解析版
- 2025年妇幼保健员考试中的重点领域试题及答案
- 二零二五年度房屋翻新项目装修工人雇佣合同
- 二零二五年度房屋买卖合同解除与房地产交易纠纷解决协议
- 二零二五年度特色茶楼入股经营管理合同
- 2025年度旅游大巴车租赁及景区导览服务合同
- 2025年度茶楼转让与茶叶经营服务协议
- 二零二五年度上市公司股权转让与工商变更服务协议
- 二零二五年度吊装作业风险评估与管理协议合同
- 二零二五年度土地使用权出让合同主体变更及土地规划调整协议
- 2025年八省联考物理试卷答案解析版(陕西、山西、宁夏、青海)
- 采购合同风险分析与控制要点3篇
- 全国扶贫开发信息系统业务管理子系统用户操作手册20241110(升级版)
- GB/T 31771-2024家政服务母婴护理服务质量规范
- 环境监测试题库与参考答案
- 2024-2025学年地质版体育与健康一年级全一册教案
- 知识产权侵权案例课件
- 14 三级等保整体设计方案、网络安全等级保护方案
- 水利信息化数据中心及软件系统单元工程质量验收评定表、检查记录
- 《轻资产运营模式探究的国内外文献综述》2200字
- 美容师实习合同协议书范文
评论
0/150
提交评论