




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
#专利大模型的实践与问答探索专利大模型介绍训练过程专利检索+专利大模型挑战和展望目录#01专利大模型智慧芽垂直领域大模型Leading
Algorithm
Capabilities…AI专家检索AI-powered
ExpertRetrieval自动生成检索式
AutomaticallyGenerateSearch
ExpressionsAI技术问答
Conversational
Answers
toTechnical
QuestionsPharm
GPT内容生成
ContentGeneration算法能力Patent
GPT精准检索和专业推荐
Precision
Search
andProfessional
RecommendationMaterials
GPT对话问答 多语言翻译Dialogue
MultilingualQ&A
Translation总结分析
Summarizeand
Analyze基于领域专家反馈的强化学习
Reinforcement
Learning
withExpert
Feedback监督精调
SupervisedFine-tuningRAG检索增强生成
Retrieval-AugmentedGenerationAI标引
AutomaticIndexing药物情报助手
Drug
SearchAssistant自研大模型Self-developedlarge-scale
modelAI助手AI
AssistantAI技术预研
AI专利对比AI-powered
Technical
AI-powered
TechnicalPre-research Pre-researchAI专利和论文解读AI-powered
Interpretationof
Patent
and
Papers垂直数据基石
Patsnap
Data
sets专利
Patent生物序列
Bio
Sequences文献
Literature新闻
News书籍
Books化学结构
Chemical
Structures适应症
Indication药物
Drug靶点
Target论文
Papers材料性质
Material
PropertyAI缴费
AssistedPaying实践的一些经验:有差异化的海量数据有小模型+大模型大模型:CPT+SFT+Reward+PPO(DPO)应用场景数据提取产品场景RAG在SAAS行业是必要的组合飞轮算法LLM
Algorithm数据基石Data数十个小模型Bert
Based
models芽仔专利申请书撰写助手
Assisted
PatentDrafting#02专利大模型训练领域数据(专利论文等246B
tokens
)专利大模型:三个版本,不断试错PatentGPT①
差异化数据集Patent
GPT:超246B训练数据,包括全球170个受理局的超1.8亿专利、超1.6亿论文、超2100万新闻、超50万投融资、超1.1亿企业、超78万市场报告以及40万本书籍数据。②
算法面向业务大小模型结合:结合智慧芽沉淀的几十种小模型算法能力,数据处理+SFT数据挖掘+小模型的监督数据;数据配方:基于垂直大模型的应用场景建立独特的数据配方;基于领域专家反馈的强化学习:拥有超过50位知识产权和生物医药专家,反馈2万条训练效果数据,与人类意图保持一致;RAG检索增强生成:RAG技术加强大模型理解能力,结合知识库,更好理解企业私有数据,实现问答能力的拓展。(专利搜索)③
只比垂直业务能力,不比通用能力垂直行业能力超越ChatGPT-3.5,部分超越
ChatGPT-4;专利撰写、专利对比、专利搜索。PatentGPT通过中国专利代理师资格考试Model
Training
eGPT-3
Apr/2020TFLnd
Chip
type (V100OP/smax)
Chip
cou130
10,00Wall
clocknt (0
15time
Totaldays)
(ydays
405timeears)
Cost
($US)years
$9MLlama
1
Jan/2023A100312
2,048
21days
118years
$4MLlama
2
Jun/2023GPT-4
Aug/2022A100A100312
2,04312
25,008
350
95days
196days
6,507years
$7Myears
$224MGemini
Nov/2023TPUv4275
57,000
100days
15,616years
$440MBase
ModelParamsC
o
n
t
e
x
tLengthTokensLRPatentGPT-0.5LLAMA213
B16
k246
B2
10-5PatentGPT-1.0LLAMA270B4
k246
B2
10-5PatentGPT-1.5Mistral
8
7B45
B16
k246
B3
10-5CPT+SFT+Reward+DPO(PPO)专利大模型:数据Data
sizeData
recipeDatasets
for
LargeLanguageModels:
A
Comprehensive
SurveyPatentGPT的数据配比/guides/large-language-models#model-size-and-performance专利大模型:算法是一系列模型大小模型结合:结合智慧芽沉淀的 几十种小模型算法能力,在精度, 性能,稳定性,安全,长文本上发 挥更大优势;独特数据配方和策略:基于垂直大 模型的应用场景建立独特的数据配 方;基于领域专家反馈的强化学习:拥有超过50位知识产权专家,2w条专家撰写的反馈数据。形成2w
SFT和10w条人类偏好数据。RAG检索增强生成:R
for
G;Gfor
R;独立的业务Embedding(非对称,X关系对比学习等)b)a)c)d)b)SFT:InstructionTuning
unlock
pretrain
model三类数据数量:Double
descent
phenomenon融合到pretrain去预学习(
OPT-IML)Multi-stage
Instruction
Tuning/
weighted质量(quality)Perplexity
score?正确性,gpt4-score?)多样性(diversity)(前两者的组合增加指标和LOSS选择参考:INSTRUCTION
MINING:INSTRUCTION
DATA
SELEC-TION
FOR
TUNING
LARGE
LANGUAGE
MODELS训练策略数据三核心专利大模型:评估MMLUC-EvalAveragePatentGPT-0.5514548PatentGPT-1.0614653.5PatentGPT-1.5595255.5ChatGPT-3.5-turbo664756.5通用能力是否正常:MMLU,C-EVAL专利领域公开测试集:Patent-Match@misc{ni2024mozip,title={MoZIP:
A
Multilingual
Benchmark
to
Evaluate
Large
Language
Models
in
Intellectual
Property},author={Shiwen
Ni
and
Minghuan
Tan
and
Yuelin
Bai
etc}year={2024},eprint={2402.16389},archivePrefix={arXiv},primaryClass={cs.CL}}*PatentGPT
1.5
SFT还有一些问题。PatentMatch-ENPatentMatch-ZHAverageChatGPT-3.5
turbo34.64338.8PatentGPT
0.549.559.254.4PatentGPT
1.066.27269.1PatentGPT
1.570.665.865.7专利领域自建测试集(面向业务):Patent-Bench专利撰写(Drafting)、专利总结(Summary)、专利问答(QA)(PatentGPT
vs
GPT3.5-turbo,
GPT-4
evaluate)专利抽取:抗体轻重链提取+抗原配对信息抗原:BAFF配对抗体信息:轻链重链SEQ
IDNo.1SEQ
IDNo.2CN101851291B
一种抗人BAFF单克隆抗体的重链和轻链可变区[0017]所述的轻链可变区的氨基酸序列如SEQ
ID
NO.1所示,重链可变区的氨基酸序列如SEQ
ID
NO.2所示。[0018]所述的编码轻链可变区的基因序列如SEQIDNO.3所示,编码重链可变区的基因序列如SEQ
ID
NO.4所示。[0019]抗人BAFF单克隆抗体的重链和轻链的可变区应用于以人BAFF分子为靶点的基因工程抗体或疫苗的制备。质量+后处理圈定专利+标注平台搭建人工(400+人天)5个月“LLM加速”LLM+规则4人天完成,取代大量人工标注“传统方法”4人天提取2万组抗体,准确率>99%,较人工效率提升100倍示例文本:输出结果PatentBert+FineTuning圈定专利+标注平台搭建人工标注(100+人天)2个月“小模型方法”技术方案对比:抗体抗原实验结果实验结论含有海量领域知识,对解决问题,更加符合“业务”Finetune之后可以取得可观的下游任务性能提升,但多任务的“配方指令”数据是挑战。在少监督数据下,多元关系抽取,传统模型很难取得好的结果,PatentGPT有明显的优势目前阶段,模型规模比模型架构更加重要(scaling
law)PRF1PRF1PRF1抗体轻重链配对51.8%53.7%52.7%93.7%73.3%82.2%95.5%69.5%80.4%抗原名称提取54.9%78.3%64.5%78.6%85%81.6%90.4%85%87.6%抗体-抗原关系提取53.4%52.5%53.1%79.8%62.5%70.1%90.2%65.7%76%Bert
BasedOpenAI
GPT3.5
zeroshot(1750亿参数)PatentGPT
v0.3(130亿参数)#03专利搜索与大模型结合为什么要RAG(Retrieval
Augmented
generation)模型层面减少幻觉解决更新信息的问题少量高价值数据的利用问题业务层面获取更可信正确的结果有引用链接,提高可解释性获取新增领域信息解决产品迭代RAG架构:Retrieval-Augmented
Generation
for
Large
Language
Models以前的搜索积累是否可以用?要做哪些改变关键词抽取算法的优化,PositionRank、Copyrnn、NER、POS
Rules.(可以重新做)对比学习,样本量的突破(10w->1000w) IPC/CPC分类算法的优化,TextCNN,BERT
classify;(标量向量相结合的平台)Pretrain:
PatentBertModel
ParameterTotal
sizeH=768,
L=12,A=12110MH=768,
L=12,A=12Patent_BERT_CN
(our)Patent_BERT_EN_Uncased_v2.0
(our)Pa
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中数学苏科版七年级上册2.4 绝对值与相反数教案设计
- 北师大版(2013)六年级下册第二十九课 小小理财师教案配套
- 五一节前安全教育培训
- 重症肌无力小讲课
- 浙教版七年级科学上 4.8 物理性质和化学性质教学设计
- 二婚夫妻合同终止条款
- 人教版小学二年级上册数学 第4单元 第3课时 5的乘法口诀 教案
- 供应商合作合同样本
- 人教版实验活动1 氧气的实验室制取与性质教案配套
- 2025网络视频广告投放合同范本
- 2024年湖南省各市州湘能农电服务有限公司招聘笔试参考题库含答案解析
- 三年级下册面积单位换算练习200道及答案
- 《游园》(教案)-高中语文统编版必修下册
- 正大天虹方矩管镀锌方矩管材质书
- 《婚姻继承法第四章》课件
- 血液透析并发症护理查房课件
- 全子宫切除术后教学查房
- 大门改造施工方案
- 化疗药外溢处理应急预案
- 颠覆:迎接第二次量子革命
- 液冷数据中心白皮书 2023:数据中心液冷革命解锁未来的数字冰河
评论
0/150
提交评论