电商知识图谱建设及大模型应用探索_第1页
电商知识图谱建设及大模型应用探索_第2页
电商知识图谱建设及大模型应用探索_第3页
电商知识图谱建设及大模型应用探索_第4页
电商知识图谱建设及大模型应用探索_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

#电商知识图谱建设及大模型应用探索01电商知识图谱概览02电商知识图谱构建03电商知识图谱应用04知识图谱与大模型探索目录

CONTENT#01电商知识图谱概览电商平台为什么需要知识图谱Product商品Buyer买家Seller卖家EcommercePlatform电商平台卖家与买家的语言表达习惯不同,如何将意图与商品匹配起来?不同卖家之间的语言表达习惯不同,如何将平台上的商品统一管理?不同市场的语言不同,跨境电商平台如何对齐不同市场商品,高效管理?电商平台为什么需要知识图谱深度学习或大模型优点:在很多任务上效果可观泛化能力强缺点:隐式模型,缺乏可解释性需要海量数据和强大算力存在模型幻觉问题知识图谱优点将异构数据源转换为结构化知识:实体,关系,属性可解释性好缺点:构建难度大泛化能力有限V.S.电商平台为什么需要知识图谱知识图谱优点将异构数据源转换为结构化知识可解释性好缺点:构建难度大泛化能力有限卖家买家电商平台用户体验管理逻辑运营成本同款商品横向比较不同商品相同维度对比不同维度补足多种维度挖掘商品商品多元表达各异数据异构层级不同店铺内商品管理同市场内同款商品对比同市场内不同商品补足跨市场商品输出同类商品聚合管理跨市场商品对比和输出同类和跨类别商品效率分析品类上新、招商统一的商品知识图谱电商平台知识图谱多维度:商品卖家买家多层级:类目标品跨信息源:市场场景商品+评论#02电商知识图谱构建电商知识图谱构建难点来源多:卖家商品信息买家搜索、评论表达方式多样:不同卖家表述习惯不同不同语言表达方式不同商品展现方式不同:文本、图片东南亚常用表达

错误拼写信息缺失信息错误信息冗余特定类别需领域知识鉴定信息准确性信息多元Shopee

为例:数十亿商品8个市场6种语言质量参差不齐依赖领域知识数据量大保质信息领域知识电商知识图谱构建基本框架电商知识图谱构建方法-数据源TitleVariationSpecificationImageDescriptionComment电商知识图谱构建方法-信息抽取电商知识图谱的基石:Ontology定义和结构构建方法:专家领域知识数据主动挖掘Ontology结构:基础定义层类别:L1-L5属性:关键属性,销售属性组合定义层:场景:多类目组合标签:类目+属性,或多属性,宽松定义标品:类目+属性,严格定义电商知识图谱构建方法-信息抽取信息抽取-类目信息质量参差不齐:文本和图片信息质量检测信息模糊、不完整:文本+图片交叉验证多语言适配:不同语言实体拉齐E.g.1

首图图片嘈杂,很难分辨商品主体,选择商品明确的图片作为模型输入E.g.1

单从图片看可能属于乐器类目,但从标题中可以明确知道是儿童玩具Replace电商知识图谱构建方法-信息抽取信息抽取-类目信息质量参差不齐:文本和图片信息质量检测信息模糊、不完整:文本+图片交叉验证多语言适配:不同语言实体拉齐Image

Quality

ScoreImage

resolutionObject

NumberTextBackground…Text

Quality

ScoreRule-engine:

token

number

intitleMulti-task

cross

check:

classification

andkeywords

detection…Item

TitleSentence

Embedding......TrmTrmTrmTrmClassifierAttention

weightsInput

categoryInput

Keyphrase(s)电商知识图谱构建方法-信息抽取Li,

Junnan,

et

al.

"Align

before

fuse:

Vision

and

language

representation

learning

with

momentum

distillation."

Advances

inneural

informationprocessing

systems

34

(2021):9694-9705.Oquab,Maxime,et

al.

"Dinov2:Learningrobust

visual

featureswithoutsupervision."arXiv

preprintarXiv:2304.07193(2023).信息抽取-类目信息质量参差不齐:文本和图片信息质量检测信息模糊、不完整:文本+图片交叉验证多语言适配:不同语言实体拉齐Labse-DinoV2-Vit

improves

~5.9%accuracy

than

Albef

on

hard

categories,e.g.

Health,

Gaming,

Stationary,

etc.电商知识图谱构建方法-信息抽取信息抽取-类目信息质量校验:文本和图片信息质量检测信息模糊、不完整:文本+图片交叉验证多语言适配:不同语言实体拉齐LabseLlamaFlan-T5MiniLMEncoderDecoderEncoderDecoderRaffel,

Colin,

et

al."Exploringthe

limits

of

transferlearningwith

aunifiedtext-to-texttransformer."Journalof

machinelearningresearch

21.140

(2020):

1-67.Touvron,

Hugo,

et

al.

"Llama

2:

Open

foundation

and

fine-tuned

chat

models."

arXiv

preprint

arXiv:2307.09288

(2023).Feng,Fangxiaoyu,

et

al.

"Language-agnostic

BERT

sentenceembedding."

arXivpreprint

arXiv:2007.01852(2020).Wang,

Wenhui,etal."Minilmv2:

Multi-headself-attention

relation

distillation

forcompressing

pretrained

transformers."arXivpreprint

arXiv:2012.15828

(2020).电商知识图谱构建方法-知识融合1.

Li,

Junnan,

et

al.

"Blip-2:

Bootstrapping

language-image

pre-training

with

frozen

image

encoders

and

largelanguage

models."

International

conference

onmachine

learning.

PMLR,2023.Text

Image

Alignment知识融合-实体消歧:类目:文本和图片商品冲突属性:一个属性抽取了多个属性值,例如e.g.,['red',Color,title],['black',Color,description]多个属性值抽取了相同属性值:e.g.,['gold',Color,title],['gold',Material,title]属性值边界跨不同属性:e.g.,['red',Color,title],['red

mi',Brand,title]tshirt

orshort?top

->

tshirt电商知识图谱构建方法-知识融合/thunlp/OpenPromptRaffel,

Colin,

et

al."Exploringthe

limits

of

transfer

learningwith

a

unifiedtext-to-texttransformer."

Journalof

machine

learning

research

21.140

(2020):

1-67.Gen-T5

improve

~12%

accuracy

thanBERT-based

NER

onambiguousattribute

value

extraction.知识融合-实体消歧:类目:文本和图片商品冲突属性:一个属性抽取了多个属性值,例如e.g.,['red',Color,title],['black',Color,description]多个属性抽取了相同属性值:e.g.,['gold',Color,title],['gold',Material,title]属性值边界跨不同属性:e.g.,['red',Color,title],['red

mi',Brand,title]电商知识图谱构建方法-知识融合知识融合-实体对齐:属性:拼写错误:edit

distance,semantic

similarity,common

wrong

case不同语言:multi-lingual

embedding

similarity,MTcross

validation同近义词:e.g.color,clear

v.s.transparent不同表达:不同单位计算,e.g.50cm

v.s.0.5m标准值选择:popularity

(item

occurrence,

query

occurrence)perplexity

(n-gram,

pretrained

multilingual

GPT)standard

score

(standard

value

model)return

the

top

one

as

the

standard

value

using

combinedstandard

score.同义词判断电商知识图谱构建方法-知识加工Model:iphone

14Model:iphone

15Model:ipad

miniBrand:

AppleModel:Galaxy

note

4Brand:

XiaomiModel:iwatch

series

3知识加工-信息推理:属性商品信息不全:通过已有类目属性信息做推理补全知识加工-不一致检测:属性商品信息错误:属性值组合冲突方法:AMIEKGE

ReasoningShi,

Baoxu,

and

Tim

Weninger.

"Open-world

knowledge

graph

completion."

AAAI

2018.Yao,Zhen,

et

al.

"Analogical

inference

enhanced

knowledge

graph

embedding."

Proceedings

of

the

AAAIConference

on

Artificial

Intelligence.

Vol.

37.

No.

4.

2023.AnalogicalReasoningInductiveReasoning#03电商知识图谱应用电商知识图谱应用ToC:知识图谱与流量应用结合RecommendationSearchHomepageLanding

PageVLP

Search:Query

属性、标签识别Item

属性、标签识别Query-Item

属性、标签对齐应用方式:补充召回提升相关性效果:转化效率明显提升HomepageDaily

Discovery:细粒度品类召回

细粒度品类排序打散,增加商品丰富度应用方式:补充召回提升多样性效果:用户兴趣度明显提升电商知识图谱应用ToB:知识图谱与商家、运营结合Seller

Center,CMT,Pricing

Center等商家系统选品系统知识推理做不一致检测并推荐给卖家修改将不同类目、属性、标签等跟商品关联,并为大促活动等做商品筛选#04知识图谱与大模型探索知识图谱与大模型Pan,

Shirui,

et

al.

"Unifying

large

language

models

andknowledge

graphs:

A

roadmap."IEEE

Transactions

on

Knowledge

and

Data

Engineering

(2024).现状:知识图谱做大模型输入大模型做知识图谱输入大模型和知识图谱协同训练问题:知识图谱通常很难覆盖十分全面,借助大模型根据不断更新的知识自动补全知识图谱仍然是个难点借助大模型自动补全的信息准确性校验也有待研究电商知识图谱与大模型电商知识图谱构建与大模型结合大模型和知识图谱协同训练基于RAG

及时更新LLM

以及KG推理速度优化多模态知识图谱Fan,

Siqi,

et

al.

"Not

all

Layers

of

LLMs

are

Necessary

during

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论