AI时代的数据处理技术_第1页
AI时代的数据处理技术_第2页
AI时代的数据处理技术_第3页
AI时代的数据处理技术_第4页
AI时代的数据处理技术_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

AI

时代的数据处理技术陈文光清华大学

/

蚂蚁技术研究院大数据:数据量,数据生成的速度和多模态数据量(Volume)

和数据生成速度(Velocity)图片,文档,图,时序,交易物联网、边缘设备和用户行为产生大量数据多模态数据

(Variety)(in

zettabytes)Volumeofdata/informationcreated,captured,copied,andconsumedworldwidefrom2010to2025©Statista

2021https:///statistics/871513/worldwide-data-created/数据处理的深度也在增加/hackernoon/the-ai-hierarchy-of-needs-18f111fcc007大模型崛起引领大数据新需求高质量训练数据是进一步提升基础模型性能的关键模型发布时间参数量预训练数据量GPT-12018年6⽉1.17亿约5

GBGPT-22019年2⽉15亿40

GBGPT-32020年5⽉1750亿45

TBGPT-3.5(ChatGPT)2022年11⽉千亿级百

TB

级?GPT-42023年3⽉万亿级(估)未披露大模型需要大数据如何获得更多数据?如何提升数据质量?如何高效处理海量数据?80%

Data20%

Model+ =Better

AI吴恩达(Andrew

Ng.)吴恩达的“二八定律”:深度学习应当从

Model-centric

Data-centric

转变向量数据库是提升模型服务能力的核心技术搜索增强的内容生成:RAGVector

databaseQuestion?PromptNearest

neighborsAnswerUser大模型崛起引领大数据新趋势在线离线一体化向量数据库与关系数据库一体化数据处理与AI计算一体化趋势一:在线离线一体化AppsDatabase(MySQL)Queue(Kafka)RealTime

ETL(Flink,SPARK)OLTP(Hbase,

KV,ES)ETL(Flink,Spark+HUDI)DataLake(MPPDB,HDFS)OLAP(Presto,CK)Analysts实时链路离线链路Online

ModelUpdate(PyTorch,TF)Model

Serving(PyTorch,TF)Batch

Training/Test(PyTorch,TF)问

题在线模型(策略)表现与离线不一致数据不一致模型效果不一致2-in-1

Architecture:

TP

&

AP

一体化HTAP引擎(TP

+AP)SQL优化器并行执行存储过程用于事务和分析工作负载的一份数据副本双计算引擎原生多租户架构Oracle

兼容性MySQL

兼容性与多租户高度兼容,实现资源隔离兼容

MySQL

Oracle单机分布式一体化架构分布式存储分布式事务分布式调度可以独立部署,也可以分布式部署架构创新Zhifeng

Yang,

Quanqing

Xu,

Shanyan

Gao,

Chuanhui

Yang,

Guoping

Wang,

Yuzhong

Zhao,

Fanyu

Kong,

Hao

Liu,

Wanhong

Wang,

Jinliang

Xiao.

OceanBase

Paetica:

A

Hybrid

Shared-nothing/Shared-everythingDatabase

for

Supporting

Single

Machine

and

Distributed

Cluster.

PVLDB,

16(12):

3728

-

3740,

2023.OceanBase

:

分布式

HTAP

数据库实时数据分析和决策对于企业来说非常重要:OceanBase

采用分布式架构,具有优异的

TP

性能,同时支持分析和批处理(AP)复杂查询优化自动计划不断演变线性化实时

OLAP

处理能力水平可扩展性(数百亿条数据记录)和低延迟(秒)TP

&

AP同一套引擎同时处理TP和AP查询集群级别的并发控制优化资源分配和流量控制的灵活策略,混合负载Traditional

processingHTAP

processingStep2

OLAPrequestsOceanBaseclusterOLTP+OLAPrequestsStep1

OLTPrequestsTP&

AP

同一套引擎HTAP+

DBaaS:

成本优化和简化维护HTAP

引擎成本优化,维护方便OLTP

workloadOLTP

systemOLAP

systemOLAP

workload图风控方案中的在线离线一体化:问题分布式图数据库,支持自定义图查询语言

GQueryTuGraph

DB流图计算系统,支持

GremlinTuGraph

Dataflow在线近线数据不一致模型效果不一致TuGraphDBMessage

QueueTuGraphDataflowTuGraphDataflowDecision

EngineStreamingWriteRule

basedServingDataServingDecision

MakingHistoricalPlaybackApplication以在线数据库内容为准,同步到近线系统保证在线近线数据一致避免不同语言语义的不一致性很多细节,比如

Nodelimit在线近线系统使用同样的查询语言TuGraph

DB

:分布式图数据库,支持国际标准图查询语言ISO-GQLTuGraph

Dataflow:

流图计算系统,支持国际标准图查询语言

ISO-GQLTuGraphDBMessage

QueueTuGraphDataflowTuGraphDataflowDecision

EngineStreamingWriteRule

basedServingDataServingDecision

MakingHistoricalPlaybackApplication图风控方案中的在线离线一体化:解决方案趋势二:向量数据库与关系数据库一体化存储引擎事务引擎SQL引擎向量索引向量搜索引擎向量存储SQL查询向量查询OceanBase蚂蚁VSAG库查询处理器查询请求应用场景一体化的优点OceanBase

以插件形式实现向量数据库指将向量数据处理能力和关系型数据管理能力结合在一起的技术策略蚂蚁

VSAG提供通用向量检索和构建接口(与

Faiss

形式类似)Add

/

Build:增量/批量

构建向量索引KnnSearch/RangeSearch:向量检索(返回行号和距离)Serialize

/

Deserialize:向量索引

序列化/反序列化VSAG

是面向蚂蚁的通用向量索引库提供最佳实现的HNSW生产可用的DiskANN支持

INT8

类型向量检索(非SQ/PQ)PQ(进行中)包含目前主流的向量索引实现自适应指令集加速(SIMD

指令集加速)索引分区Top1/TopK

召回优化向量间距离计算优化针对场景的优化VSAG

Faiss

的区别VSAGFAISS提供最佳实现的

HNSW提供生产可用的

DiskANN支持

INT8

类型向量检索(非

SQ/PQ)提供

x86、ARM

平台编译和

SIMD

运行提供大量

low

level

的算法,可自由组合(IVF、PQ、SQ、Refine)提供最佳实现的

GPU

支持提供

Binary

向量索引算法IVF

算法对于批量搜索有很大加速低门槛使用,无需算法专业知识,不需要算法选型,直接通过简单接入,可以快速获得向量检索能力,拥有内存和磁盘两个场景下极致解决方案的索引库向量检索工具箱,可以深度定制向量检索算法,对于特定的场景/workload

可以有更好的性能,需要用户对于检索算法/参数非常了解,有最好的

GPU

算法实现,面对高写入/高

QPS

场景有巨大优势在

OceanBase

中集成

VSAGOceanBase

提供模块化机制引入

VSAGVector

Search

RequestVSAG

LibOceanBase

NodeExtensionsVSAG

LibOceanBase

NodeExtensionsVSAG

LibOceanBase

NodeExtensionsOOcOeceaeananBnBaBasasesePePrPororxoxyxy检索过程与分析型索引类似针对所有

OceanBase

节点进行检索对所有节点结果进行合并OceanBase

新增向量二级索引与

OceanBase

中的本地二级索引类似趋势三:

数据处理与AI

计算一体化大数据流程AI

流程CCNet流程大模型训练数据处理——Data+AI

典型场景Common

Crawl

是一个海量的、非结构化的、多语言的网页数据集,包含近

10

年的随机网络数据,PB级规模,可从

Amazon

S3

上免费获取。GPT-3

训练数据的

60%来自

Common

Crawl。CCNet

Facebook

发布的数据清洗流程,希望从Common

Crawl

中能够提取出高质量的文本数据集。删冗以正则化后的文档哈希值为键,保留首次出现的文档分词基于

SentencePiece

分词器,支持48种语言质量评估使用

KenLM

库中的一个文本质量模型评估perplexity过滤分桶根据用户提供的语言白名单、黑名单过滤,根据质量分桶语言分类基于

fastText

的预训练语言分类模型(126MB)解析从

WARC

中分离

HTML请求与响应头、HTML

内容。Common

Crawl原始数据清洗后高质量文本数据AI

和大数据处理在硬件层面也有很大差别数据处理与

AI

融合问题处理器网络主要编程语言编程框架NVLink

+

IB/100Gbps+10Gbps

–25Gbps-PythonJava

/

ScalaPythonPyTorch,Tensorflow,PaddlePaddleSQL,Spark,DataFramePandas,NumpySciPy,NotepadAIGPU

AI

加速器大数据处理通用

CPU小数据处理CPUAI

计算在数据中心的比例将持续显著增加,主要是Python生态分布式大数据处理主要是

Java

生态“小数据”处理主要是

Python

生态数据与

AI

独立生态的问题SparkTF/PyTorchSpark预处理神经网络后处理1.

两类软硬件生态的开发、调试、部署和维护都更加复杂2.

系统间数据传输开销降低性能3.

需要招聘两类程序员,或精通两者的程序员问

题只支持

CPU,不支持

GPU

和异构加速器重新开发深度学习模块,不能复用

TF

中的功能Spark

本身性能有缺陷一种尝试:BigDL

*

深度学习的

Java

化*Dai,

J.

J.,

Wang,

Y.,

Qiu,

X.,

Ding,

D.,

Zhang,

Y.,

Wang,

Y.,

...

&

Wang,

J.

(2019,

November).

Bigdl:

A

distributed

deep

learning

framework

for

big

data.

SoCC

2019另一种尝试:Spark

Python

化Koalas

EvolutionLaunched

at

Spark+Al

Summit

2019Now~3

million

PyPI

downloadspermont

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论