大语言模型与知识图谱_第1页
大语言模型与知识图谱_第2页
大语言模型与知识图谱_第3页
大语言模型与知识图谱_第4页
大语言模型与知识图谱_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

#大语言模型与知识图谱机会与挑战https://drops.dagstuhl.de/storage/08tgdk/tgdk-vol001/tgdk-vol001-issue001/TGDK.1.1.2/TGDK.1.1.2.pdf#从知识表示的角度看

KG+LLM知识表示知识表示–Knowledge

Representationtext

ELIZA

RDF/OWL1960s

2000s2010sKG2020sLLM知识表示显式知识(Explicit

Knowledge)非结构化知识(文本、图片、视频等)结构化知识(编码了逻辑信息的,知识图谱、数据库等)长期共识:并不是所有的知识都适合显示化表示知识表示–Knowledge

Representationtext

ELIZA

RDF/OWL1960s

2000s2010s

2020sKGLLM知识表示显式知识(Explicit

Knowledge)非结构化知识(文本、图片、视频等)结构化知识(编码了逻辑信息的,知识图谱、数据库等)长期共识:并不是所有的知识都适合显示化表示参数化知识(Parametric

Knowledge)并不是所有的参数化知识都能被转化为显式知识判断句子的情感极性谁是登上月球的第一人知识表示–Knowledge

Representationtext

ELIZA

RDF/OWL1960s

2000s2010s

2020sKGLLM知识表示显式知识(Explicit

Knowledge)非结构化知识(文本、图片、视频等)结构化知识(编码了逻辑信息的,知识图谱、数据库等)长期共识:并不是所有的知识都适合显示化表示参数化知识(Parametric

Knowledge)并不是所有的参数化知识都能被转化为显式知识判断句子的情感极性谁是登上月球的第一人显示的知识表示方法--参数化的知识表示方法–-混合的知识表示方法(知识图谱) (大语言模型) (知识图谱+大语言模型)知识表示–Knowledge

Representationtext

ELIZA

RDF/OWL1960s

2000s2010s

2020sKGLLM知识表示显式知识(Explicit

Knowledge)非结构化知识(文本、图片、视频等)结构化知识(编码了逻辑信息的,知识图谱、数据库等)长期共识:并不是所有的知识都适合显示化表示参数化知识(Parametric

Knowledge)并不是所有的参数化知识都能被转化为显式知识判断句子的情感极性谁是登上月球的第一人显示的知识表示方法--参数化的知识表示方法–-混合的知识表示方法(知识图谱) (大语言模型) (知识图谱+大语言模型)知识表示–Knowledge

Representationtext

ELIZA

RDF/OWL1960s

2000s2010s

2020sKGLLM问:图书馆馆长的孩子中最🎧名的是谁?976

results

in

6721

msIIIllIlIl)

Wikidata

Query

Service

Examples

@

HelpJ

#NosI

famous

chitd

o

f

a

Tib

ra

rian#Children

of

librarians

with

the

most

number

of

sitelinks

(as

a

proxy

for

Name)SELECT

7person

?personLabet

?parentLabel

?linkcount

WHERE

(?parent

wdt:P106

md:Q182436

.?parentWdt:P40?person.?person

wikibase:sitelinks

?linkcount

.SERVICE

wikiba

se:

\.abeI

{

bd

:

se

rv

icePa

ram

wikiba

se

:

language

"

[AUT0_LANGUAGE

]

,

en

,

de

,

e

s,

a

r

,

f

r"

}‹

GROUP

BY

?I

inkcount

?pe

rson

?

pe

rsonLabe

I

?parent

?pa

rent

Label

fJ

ORDER

BY

DESC

(

?I

inkcount

)O

More

toolsOuery

Builder.

Table

-

epersonQ

wd:Q79015CI

wd:Q162005Q

wd:Q71031Q

wd:Q76556Q

wd:Q151872personLabelSupermanPaul

AllenRobert

BunsenRichard

DedekindAmos

OzparentLabelLara

Lor-VanKenneth

S.

AllenChristian

BunsenJulius

DedekindYehuda

Arieh

KlausnerA

Englishlinkcount10484817365让我们一起看看一些辩题让我们一起看看一些辩题知识表示和推理(显式or隐式):语言模型中知识的学习依赖的是统计模式,并不是真正的理解和推理。LLM缺乏显式的知识存储,会产生高概率但错误的回答LLM是否能够具有directional

entailment的能力,推理概念包含关系?知识图谱构建成本高LLM训练成本也很高但是LLM可用性很强,让AI从幕后到台前总结:准确率V.S.召回率之间的均衡让我们一起看看一些辩题知识表示和推理(显式or隐式):语言模型中知识的学习依赖的是统计模式,并不是真正的理解和推理。LLM缺乏显式的知识存储,会产生高概率但错误的回答LLM是否能够具有directional

entailment的能力,推理概念包含关系?知识图谱构建成本高LLM训练成本也很高但是LLM可用性很强,让AI从幕后到台前总结:准确率V.S.召回率之间的均衡高准确度的KG构建方法YAGO:>95%准确性Knowledge

Vault没有产品化:在测试集上没有达到99%准确率基于LLM的KG构建方法尚未达到高准确度的要求总结:高准确度的KG构建方法有待研究让我们一起看看一些辩题知识表示和推理(显式or隐式):语言模型中知识的学习依赖的是统计模式,并不是真正的理解和推理。LLM缺乏显式的知识存储,会产生高概率但错误的回答LLM是否能够具有directional

entailment的能力,推理概念包含关系?知识图谱构建成本高LLM训练成本也很高

但是LLM可用性很强,让AI从幕后到台前总结:准确率V.S.召回率之间的均衡高准确度的KG构建方法YAGO:>95%准确性Knowledge

Vault没有产品化:在测试集上没有达到99%准确率基于LLM的KG构建方法尚未达到高准确度的要求总结:高准确度的KG构建方法有待研究LLM能否准确记忆和运用数值知识?人的生日/年龄等让我们一起看看一些辩题长尾知识:LLM到底记忆了多少知识?有实验表明LLM对wikidata中尾部知识的记忆明显差于头部知识但KG中可以准确存储长尾的信息让我们一起看看一些辩题长尾知识:LLM到底记忆了多少知识?有实验表明LLM对wikidata中尾部知识的记忆明显差于头部知识但KG中可以准确存储长尾的信息偏见、公平性、版权训练数据中的偏见-->LLM输出的偏见(是否会被放大?)需要处理LLM训练数据中存在的偏见从模型的参数知识中删除知识,比在显式知识中删除难很多让我们一起看看一些辩题长尾知识:LLM到底记忆了多少知识?有实验表明LLM对wikidata中尾部知识的记忆明显差于头部知识但KG中可以准确存储长尾的信息偏见、公平性、版权训练数据中的偏见-->LLM输出的偏见(是否会被放大?)需要处理LLM训练数据中存在的偏见从模型的参数知识中删除知识,比在显式知识中删除难很多可解释性知识图谱在可解释性需求很强的领域受到较大欢迎LLM不可解释,输出是如何生成的解析注意力值/模型反思/CoT/资料溯源等机会与展望即时访问大规模文本语料借用LLM对大规模文本进行处理和访问,避免数据收集、数据存储、大规模数据查询机会与展望即时访问大规模文本语料借用LLM对大规模文本进行处理和访问,避免数据收集、数据存储、大规模数据查询提供更丰富的知识(LLM

for

KG)LLM极大地简化了知识工程流程通过少样本微调、提示便可以让LLM学会实体识别、关系抽取、语法依存树解析等知识图谱的构建规模和质量有望得到提升将显式知识和LLM进行交互,提升可应用性总结:Knowledge

is

power机会与展望即时访问大规模文本语料借用LLM对大规模文本进行处理和访问,避免数据收集、数据存储、大规模数据查询提供更丰富的知识(LLM

for

KG)LLM极大地简化了知识工程流程通过少样本微调、提示便可以让LLM学会实体识别、关系抽取、语法依存树解析等知识图谱的构建规模和质量有望得到提升将显式知识和LLM进行交互,提升可应用性总结:Knowledge

is

power更好的语言理解效果(KG

for

LLM)语言歧义、排版错误、重复等手写的、网络爬取的、其他嘈杂形式的机会与展望即时访问大规模文本语料借用LLM对大规模文本进行处理和访问,避免数据收集、数据存储、大规模数据查询提供更丰富的知识(LLM

for

KG)LLM极大地简化了知识工程流程通过少样本微调、提示便可以让LLM学会实体识别、关系抽取、语法依存树解析等知识图谱的构建规模和质量有望得到提升将显式知识和LLM进行交互,提升可应用性总结:Knowledge

is

power更好的语言理解效果(KG

for

LLM)语言歧义、排版错误、重复等手写的、网络爬取的、其他嘈杂形式的压缩即是整合传统知识工程需要对冲突的信息进行整合•

LLM压缩文本信息自然地完成了这个过程机会与展望即时访问大规模文本语料借用LLM对大规模文本进行处理和访问,避免数据收集、数据存储、大规模数据查询提供更丰富的知识(LLM

for

KG)LLM极大地简化了知识工程流程通过少样本微调、提示便可以让LLM学会实体识别、关系抽取、语法依存树解析等知识图谱的构建规模和质量有望得到提升将显式知识和LLM进行交互,提升可应用性总结:Knowledge

is

power更好的语言理解效果(KG

for

LLM)语言歧义、排版错误、重复等手写的、网络爬取的、其他嘈杂形式的压缩即是整合传统知识工程需要对冲突的信息进行整合LLM->KG:增强KG的规模、质量和可用性•

LLM压缩文本信息自然地完成了这个过程KG->LLM:提升、实例化、校验LLM的输出,增强LLM的可信度和可用性表格知识抽取Knowledge

Extraction

from

TabularData知识图谱补全三元组抽取Triple

Extraction本体模式构建(Inductive)

Link

PredictionOntological

Schema

Construction表格知识抽取Knowledge

Extraction

from

TabularData知识图谱补全三元组抽取Triple

Extraction本体模式构建(Inductive)

Link

PredictionOntological

Schema

Construction*表格均来自网络*表格均来自网络元数据定义不清:表格名称,列名等结构复杂多模态信息大语言模型增强知识图谱–表格知识抽取表格预训练TURL[1][1]

Xiang

Deng,

Huan

Sun,

Alyssa

Lees,

You

Wu,

Cong

Yu:

TURL:

Table

Understanding

through

Representation

Learning.

SIGMOD

Rec.

51(1):

33-40

(2022)[2]

Nan

Tang,

Ju

Fan,

Fangyi

Li,

Jianhong

Tu,

Xiaoyong

Du,

Guoliang

Li,

Samuel

Madden,

Mourad

Ouzzani:

RPT:

Relational

Pre-trained

Transformer

Is

AlmosAll

You

Need

towards

Democratizing

Data

Preparation.

Proc.

VLDB

Endow.

14(8):

1254-1261

(2021)大语言模型增强知识图谱–表格知识抽取表格预训练TURL[1]RPT[2]RPT(Bart)应用效果[1]

Xiang

Deng,

Huan

Sun,

Alyssa

Lees,

You

Wu,

Cong

Yu:

TURL:

Table

Understanding

through

Representation

Learning.

SIGMOD

Rec.

51(1):

33-40

(2022)[2]

Nan

Tang,

Ju

Fan,

Fangyi

Li,

Jianhong

Tu,

Xiaoyong

Du,

Guoliang

Li,

Samuel

Madden,

Mourad

Ouzzani:

RPT:

Relational

Pre-trained

Transformer

Is

AlmosAll

You

Need

towards

Democratizing

Data

Preparation.

Proc.

VLDB

Endow.

14(8):

1254-1261

(2021)大语言模型增强知识图谱–表格知识抽取表格语义标注DODUO[1][1]

Yoshihiko

Suhara,

Jinfeng

Li,

Yuliang

Li,

Dan

Zhang,

Çağatay

Demiralp,

Chen

Chen,

and

Wang-

Chiew

Tan.

Annotating

columns

withpre-trainedlanguage

models.

In

SIGMOD,

pages

1493–1503,

2022.

doi:10.1145/3514221.3517906.[2]

Keti

Korini

and

Christian

Bizer.

Column

type

annotation

using

chatgpt.

arXiv,2023.大语言模型增强知识图谱–表格知识抽取表格语义标注DODUO[1]使用ChatGPT[2][1]

Yoshihiko

Suhara,

Jinfeng

Li,

Yuliang

Li,

Dan

Zhang,

Çağatay

Demiralp,

Chen

Chen,

and

Wang-

Chiew

Tan.

Annotating

columns

withpre-trainedlanguage

models.

In

SIGMOD,

pages

1493–1503,

2022.

doi:10.1145/3514221.3517906.[2]

Keti

Korini

and

Christian

Bizer.

Column

type

annotation

using

chatgpt.

arXiv,2023.大语言模型增强知识图谱–表格知识抽取表格语义标注DODUO[1]使用ChatGPT[2]挑战与机会:将表格转化为序列的方法:转化为序列才能输入到语言模型中充分挖掘非文字性的表格数据:数值、日期、图片等提取表格知识:LLM常被用于处理和理解表格,但是并没有用于知识抽取[1]

Yoshihiko

Suhara,

Jinfeng

Li,

Yuliang

Li,

Dan

Zhang,

Çağatay

Demiralp,

Chen

Chen,

and

Wang-

Chiew

Tan.

Annotating

columns

withpre-trainedlanguage

models.

In

SIGMOD,

pages

1493–1503,

2022.

doi:10.1145/3514221.3517906.[2]

Keti

Korini

and

Christian

Bizer.

Column

type

annotation

using

chatgpt.

arXiv,2023.表格知识抽取Knowledge

Extraction

from

TabularData知识图谱补全(Inductive)

Link

Prediction三元组抽取Triple

Extraction本体模式构建Ontological

Schema

Construction大语言模型增强知识图谱–链接预测直推式链接预测归纳式链接预测[1][2][3][4]KomalK.Teru,

EtienneG.Denis,

WilliamL.Hamilton:

Inductive

Relation

PredictionbySubgraph

Reasoning.ICML2020:

9448-9457Liang

Yao,

Chengsheng

Mao,

Yuan

Luo:

KG-BERT:

BERT

for

Knowledge

Graph

Completion.

CoRR

abs/1909.03193

(2019)Russa

Biswas,

Radina

Sofronova,

Mehwish

Alam,

and

Harald

Sack.

Contextual

language

models

for

knowledge

graph

completion.

In

MLSMKG,

2021.Bo

Wang,

Tao

Shen,

Guodong

Long,

Tianyi

Zhou,

Ying

Wang,

and

Yi

Chang.

Structure-augmented

text

representation

learning

for

efficient

knowledge

graphcompletion.

In

WWW,

pages

1737–1748,

2021.图片来自[1]大语言模型增强知识图谱–链接预测增加文本信息KGBert

[2]KGGPT[3]StAR

[4]直推式链接预测归纳式链接预测图片来自[1]GPT-2[1][2][3][4]KomalK.Teru,

EtienneG.Denis,

WilliamL.Hamilton:

Inductive

Relation

PredictionbySubgraph

Reasoning.ICML2020:

9448-9457Liang

Yao,

Chengsheng

Mao,

Yuan

Luo:

KG-BERT:

BERT

for

Knowledge

Graph

Completion.

CoRR

abs/1909.03193

(2019)Russa

Biswas,

Radina

Sofronova,

Mehwish

Alam,

and

Harald

Sack.

Contextual

language

models

for

knowledge

graph

completion.

In

MLSMKG,

2021.Bo

Wang,

Tao

Shen,

Guodong

Long,

Tianyi

Zhou,

Ying

Wang,

and

Yi

Chang.

Structure-augmented

text

representation

learning

for

efficient

knowledge

graphcompletion.

In

WWW,

pages

1737–1748,

2021.大语言模型增强知识图谱–链接预测机会与挑战LLM生成信息的正确性:事实正确性是否已经包含在图谱中了(实体有多个名称)链接预测的评估指标主要是排序指标,需要对所有候选集打分,这个对LLM是巨大的挑战链接预测评估的是从已有三元组中预测新知识的能力,LLM是因为记得相关事实而输出答案,还是推理得出很难判断对于LLM没有训练的领域,面对新知识,需要给语言模型输入对应的schema,设计prompt的比较复杂,需要多次尝试,对于GPT4这样的模型成本较高将结构信息融入LLM中直推式链接预测归纳式链接预测[1][2][3][4]KomalK.Teru,

EtienneG.Denis,

WilliamL.Hamilton:

Inductive

Relation

PredictionbySubgraph

Reasoning.ICML2020:

9448-9457Liang

Yao,

Chengsheng

Mao,

Yuan

Luo:

KG-BERT:

BERT

for

Knowledge

Graph

Completion.

CoRR

abs/1909.03193

(2019)Russa

Biswas,

Radina

Sofronova,

Mehwish

Alam,

and

Harald

Sack.

Contextual

language

models

for

knowledge

graph

completion.

In

MLSMKG,

2021.Bo

Wang,

Tao

Shen,

Guodong

Long,

Tianyi

Zhou,

Ying

Wang,

and

Yi

Chang.

Structure-augmented

text

representation

learning

for

efficient

knowledge

graphcompletion.

In

WWW,

pages

1737–1748,

2021.图片来自[1]表格知识抽取Knowledge

Extraction

from

TabularData知识图谱补全(Inductive)

Link

Prediction三元组抽取Triple

Extraction本体模式构建Ontological

Schema

Construction大语言模型增强知识图谱–三元组抽取LAMA

Benchmark[1][1]

Fabio

Petroni,

Tim

Rocktäschel,

Sebastian

Riedel,

Patrick

Lewis,

Anton

Bakhtin,

Yuxiang

Wu,

and

Alexander

Miller.

Language

models

as

knowledge

bases?In

Proceedings

of

the

2019

Conference

on

Empirical

Methods

in

Natural

Language

Pro-

cessing

and

the

9th

International

Joint

Confer-

ence

on

NaturalLanguageProcessing(EMNLP-IJCNLP),

pages2463–2473,HongKong,China,nov2019.Association

for

Computational

Linguist-

ics.

doi:10.18653/V1/D19-1250.[2]

Kai

Sun,

Yifan

Ethan

Xu,

Hanwen

Zha,

Yue

Liu,

Xin

Luna

Dong:

Head-to-Tail:

How

Knowledgeable

are

Large

Language

Models(LLM)?A.K.A.

WillLLMs

Replace

Knowledge

Graphs?

CoRR

abs/2308.10168

(2023)[3]

Blerta

Veseli,

Simon

Razniewski,

Jan-Christoph

Kalo,

Gerhard

Weikum:

Evaluating

the

Knowledge

Base

Completion

Potential

of

GPT.

EMNLP

(Findings)

2023:6432-6443LM-as-KB

paradigm

?大语言模型增强知识图谱–三元组抽取LAMA

Benchmark[1]LLM对于不同分布的实体预测效果[2]LLM在保证一定预测准确率下的预测召回率[3][1]

Fabio

Petroni,

Tim

Rocktäschel,

Sebastian

Riedel,

Patrick

Lewis,

Anton

Bakhtin,

Yuxiang

Wu,

and

Alexander

Miller.

Language

models

as

knowledge

bases?In

Proceedings

of

the

2019

Conference

on

Empirical

Methods

in

Natural

Language

Pro-

cessing

and

the

9th

International

Joint

Confer-

ence

on

NaturalLanguageProcessing(EMNLP-IJCNLP),

pages2463–2473,HongKong,China,nov2019.Association

for

Computational

Linguist-

ics.

doi:10.18653/V1/D19-1250.[2]

Kai

Sun,

Yifan

Ethan

Xu,

Hanwen

Zha,

Yue

Liu,

Xin

Luna

Dong:

Head-to-Tail:

How

Knowledgeable

are

Large

Language

Models(LLM)?A.K.A.

WillLLMs

Replace

Knowledge

Graphs?

CoRR

abs/2308.10168

(2023)[3]

Blerta

Veseli,

Simon

Razniewski,

Jan-Christoph

Kalo,

Gerhard

Weikum:

Evaluating

the

Knowledge

Base

Completion

Potential

of

GPT.

EMNLP

(Findings)

2023:6432-6443LM-as-KB

paradigm

?大语言模型增强知识图谱–三元组抽取LAMA

Benchmark[1][1]

Fabio

Petroni,

Tim

Rocktäschel,

Sebastian

Riedel,

Patrick

Lewis,

Anton

Bakhtin,

Yuxiang

Wu,

and

Alexander

Miller.

Language

models

as

knowledge

bases?In

Proceedings

of

the

2019

Conference

on

Empirical

Methods

in

Natural

Language

Pro-

cessing

and

the

9th

International

Joint

Confer-

ence

on

NaturalLanguageProcessing(EMNLP-IJCNLP),

pages2463–2473,HongKong,China,nov2019.Association

for

Computational

Linguist-

ics.

doi:10.18653/V1/D19-1250.[2]

Kai

Sun,

Yifan

Ethan

Xu,

Hanwen

Zha,

Yue

Liu,

Xin

Luna

Dong:

Head-to-Tail:

How

Knowledgeable

are

Large

Language

Models(LLM)?A.K.A.

WillLLMs

Replace

Knowledge

Graphs?

CoRR

abs/2308.10168

(2023)[3]

Blerta

Veseli,

Simon

Razniewski,

Jan-Christoph

Kalo,

Gerhard

Weikum:

Evaluating

the

Knowledge

Base

Completion

Potential

of

GPT.

EMNLP

(Findings)

2023:6432-6443LM-as-KB

paradigm

?LLM对于不同分布的实体预测效果[2]LLM在保证一定预测准确率下的预测召回率[3]一些已有发现:Prompt优化可以提升效果增加信息可以提升效果有害信息会降低效果低资源信息效果不佳Zero-shot能力不佳模型记忆了训练数据现在的LLM远远无法代替符号知识库有时不能准确召回事实大语言模型增强知识图谱–三元组抽取LLM的一些倾向(biase)表示大多数representation

of

the

majority忽略多角度的不同意见,遵从多数LLM到底是学会的了可迁移的泛化性还是巧妙地利用了数据中的捷径?三元组抽取的自动提示工程大语言模型增强知识图谱–三元组抽取LLM的一些倾向(biase)表示大多数representation

of

the

majority忽略多角度的不同意见,遵从多数LLM到底是学会的了可迁移的泛化性还是巧妙地利用了数据中的捷径?三元组抽取的自动提示工程机会与挑战实体消歧:不同词组表示同一个实体、同一个词组表示不同实体。没出现在训练数据中的实体难消歧处理长尾实体/理解并利用上下文信息进行消歧/提升指代消解效果长尾实体:没能正确记忆事实的时候会生成错误的信息缺乏一致性检索增强/微调等技术可用高精确度LLM-KG:LLM如何能以准确率优先?LLM是否可以用于校验validation缺乏信息出处表格知识抽取Knowledge

Extraction

from

TabularData知识图谱补全(Inductive)

Link

Prediction三元组抽取Triple

Extraction本体模式构建Ontological

Schema

Construction大语言模型增强知识图谱–本体模式构建知识图谱=实例层+本体层图片来自[link][1]

Yushan

Zhu,Huaixiao

Zhao,

Wen

Zha

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论