版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
AI
时代的数据处理技术陈文光清华大学
/
蚂蚁技术研究院大数据:数据量,数据生成的速度和多模态数据量(Volume)
和数据生成速度(Velocity)图片,文档,图,时序,交易物联网、边缘设备和用户行为产生大量数据多模态数据
(Variety)(in
zettabytes)Volumeofdata/informationcreated,captured,copied,andconsumedworldwidefrom2010to2025©Statista
2021https:///statistics/871513/worldwide-data-created/数据处理的深度也在增加/hackernoon/the-ai-hierarchy-of-needs-18f111fcc007大模型崛起引领大数据新需求高质量训练数据是进一步提升基础模型性能的关键模型发布时间参数量预训练数据量GPT-12018年6⽉1.17亿约5
GBGPT-22019年2⽉15亿40
GBGPT-32020年5⽉1750亿45
TBGPT-3.5(ChatGPT)2022年11⽉千亿级百
TB
级?GPT-42023年3⽉万亿级(估)未披露大模型需要大数据如何获得更多数据?如何提升数据质量?如何高效处理海量数据?80%
Data20%
Model+ =Better
AI吴恩达(Andrew
Ng.)吴恩达的“二八定律”:深度学习应当从
Model-centric
向
Data-centric
转变向量数据库是提升模型服务能力的核心技术搜索增强的内容生成:RAGVector
databaseQuestion?PromptNearest
neighborsAnswerUser大模型崛起引领大数据新趋势在线离线一体化向量数据库与关系数据库一体化数据处理与AI计算一体化趋势一:在线离线一体化AppsDatabase(MySQL)Queue(Kafka)RealTime
ETL(Flink,SPARK)OLTP(Hbase,
KV,ES)ETL(Flink,Spark+HUDI)DataLake(MPPDB,HDFS)OLAP(Presto,CK)Analysts实时链路离线链路Online
ModelUpdate(PyTorch,TF)Model
Serving(PyTorch,TF)Batch
Training/Test(PyTorch,TF)问
题在线模型(策略)表现与离线不一致数据不一致模型效果不一致2-in-1
Architecture:
TP
&
AP
一体化HTAP引擎(TP
+AP)SQL优化器并行执行存储过程用于事务和分析工作负载的一份数据副本双计算引擎原生多租户架构Oracle
兼容性MySQL
兼容性与多租户高度兼容,实现资源隔离兼容
MySQL
和
Oracle单机分布式一体化架构分布式存储分布式事务分布式调度可以独立部署,也可以分布式部署架构创新Zhifeng
Yang,
Quanqing
Xu,
Shanyan
Gao,
Chuanhui
Yang,
Guoping
Wang,
Yuzhong
Zhao,
Fanyu
Kong,
Hao
Liu,
Wanhong
Wang,
Jinliang
Xiao.
OceanBase
Paetica:
A
Hybrid
Shared-nothing/Shared-everythingDatabase
for
Supporting
Single
Machine
and
Distributed
Cluster.
PVLDB,
16(12):
3728
-
3740,
2023.OceanBase
:
分布式
HTAP
数据库实时数据分析和决策对于企业来说非常重要:OceanBase
采用分布式架构,具有优异的
TP
性能,同时支持分析和批处理(AP)复杂查询优化自动计划不断演变线性化实时
OLAP
处理能力水平可扩展性(数百亿条数据记录)和低延迟(秒)TP
&
AP同一套引擎同时处理TP和AP查询集群级别的并发控制优化资源分配和流量控制的灵活策略,混合负载Traditional
processingHTAP
processingStep2
OLAPrequestsOceanBaseclusterOLTP+OLAPrequestsStep1
OLTPrequestsTP&
AP
同一套引擎HTAP+
DBaaS:
成本优化和简化维护HTAP
引擎成本优化,维护方便OLTP
workloadOLTP
systemOLAP
systemOLAP
workload图风控方案中的在线离线一体化:问题分布式图数据库,支持自定义图查询语言
GQueryTuGraph
DB流图计算系统,支持
GremlinTuGraph
Dataflow在线近线数据不一致模型效果不一致TuGraphDBMessage
QueueTuGraphDataflowTuGraphDataflowDecision
EngineStreamingWriteRule
basedServingDataServingDecision
MakingHistoricalPlaybackApplication以在线数据库内容为准,同步到近线系统保证在线近线数据一致避免不同语言语义的不一致性很多细节,比如
Nodelimit在线近线系统使用同样的查询语言TuGraph
DB
:分布式图数据库,支持国际标准图查询语言ISO-GQLTuGraph
Dataflow:
流图计算系统,支持国际标准图查询语言
ISO-GQLTuGraphDBMessage
QueueTuGraphDataflowTuGraphDataflowDecision
EngineStreamingWriteRule
basedServingDataServingDecision
MakingHistoricalPlaybackApplication图风控方案中的在线离线一体化:解决方案趋势二:向量数据库与关系数据库一体化存储引擎事务引擎SQL引擎向量索引向量搜索引擎向量存储SQL查询向量查询OceanBase蚂蚁VSAG库查询处理器查询请求应用场景一体化的优点OceanBase
以插件形式实现向量数据库指将向量数据处理能力和关系型数据管理能力结合在一起的技术策略蚂蚁
VSAG提供通用向量检索和构建接口(与
Faiss
形式类似)Add
/
Build:增量/批量
构建向量索引KnnSearch/RangeSearch:向量检索(返回行号和距离)Serialize
/
Deserialize:向量索引
序列化/反序列化VSAG
是面向蚂蚁的通用向量索引库提供最佳实现的HNSW生产可用的DiskANN支持
INT8
类型向量检索(非SQ/PQ)PQ(进行中)包含目前主流的向量索引实现自适应指令集加速(SIMD
指令集加速)索引分区Top1/TopK
召回优化向量间距离计算优化针对场景的优化VSAG
与
Faiss
的区别VSAGFAISS提供最佳实现的
HNSW提供生产可用的
DiskANN支持
INT8
类型向量检索(非
SQ/PQ)提供
x86、ARM
平台编译和
SIMD
运行提供大量
low
level
的算法,可自由组合(IVF、PQ、SQ、Refine)提供最佳实现的
GPU
支持提供
Binary
向量索引算法IVF
算法对于批量搜索有很大加速低门槛使用,无需算法专业知识,不需要算法选型,直接通过简单接入,可以快速获得向量检索能力,拥有内存和磁盘两个场景下极致解决方案的索引库向量检索工具箱,可以深度定制向量检索算法,对于特定的场景/workload
可以有更好的性能,需要用户对于检索算法/参数非常了解,有最好的
GPU
算法实现,面对高写入/高
QPS
场景有巨大优势在
OceanBase
中集成
VSAGOceanBase
提供模块化机制引入
VSAGVector
Search
RequestVSAG
LibOceanBase
NodeExtensionsVSAG
LibOceanBase
NodeExtensionsVSAG
LibOceanBase
NodeExtensionsOOcOeceaeananBnBaBasasesePePrPororxoxyxy检索过程与分析型索引类似针对所有
OceanBase
节点进行检索对所有节点结果进行合并OceanBase
新增向量二级索引与
OceanBase
中的本地二级索引类似趋势三:
数据处理与AI
计算一体化大数据流程AI
流程CCNet流程大模型训练数据处理——Data+AI
典型场景Common
Crawl
是一个海量的、非结构化的、多语言的网页数据集,包含近
10
年的随机网络数据,PB级规模,可从
Amazon
S3
上免费获取。GPT-3
训练数据的
60%来自
Common
Crawl。CCNet
是
发布的数据清洗流程,希望从Common
Crawl
中能够提取出高质量的文本数据集。删冗以正则化后的文档哈希值为键,保留首次出现的文档分词基于
SentencePiece
分词器,支持48种语言质量评估使用
KenLM
库中的一个文本质量模型评估perplexity过滤分桶根据用户提供的语言白名单、黑名单过滤,根据质量分桶语言分类基于
fastText
的预训练语言分类模型(126MB)解析从
WARC
中分离
HTML请求与响应头、HTML
内容。Common
Crawl原始数据清洗后高质量文本数据AI
和大数据处理在硬件层面也有很大差别数据处理与
AI
融合问题处理器网络主要编程语言编程框架NVLink
+
IB/100Gbps+10Gbps
–25Gbps-PythonJava
/
ScalaPythonPyTorch,Tensorflow,PaddlePaddleSQL,Spark,DataFramePandas,NumpySciPy,NotepadAIGPU
或
AI
加速器大数据处理通用
CPU小数据处理CPUAI
计算在数据中心的比例将持续显著增加,主要是Python生态分布式大数据处理主要是
Java
生态“小数据”处理主要是
Python
生态数据与
AI
独立生态的问题SparkTF/PyTorchSpark预处理神经网络后处理1.
两类软硬件生态的开发、调试、部署和维护都更加复杂2.
系统间数据传输开销降低性能3.
需要招聘两类程序员,或精通两者的程序员问
题只支持
CPU,不支持
GPU
和异构加速器重新开发深度学习模块,不能复用
TF
中的功能Spark
本身性能有缺陷一种尝试:BigDL
*
深度学习的
Java
化*Dai,
J.
J.,
Wang,
Y.,
Qiu,
X.,
Ding,
D.,
Zhang,
Y.,
Wang,
Y.,
...
&
Wang,
J.
(2019,
November).
Bigdl:
A
distributed
deep
learning
framework
for
big
data.
SoCC
2019另一种尝试:Spark
的
Python
化Koalas
EvolutionLaunched
at
Spark+Al
Summit
2019Now~3
million
PyPI
downloadspermont
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年汽车修理厂租赁合同版B版
- 会计学的课程设计
- 2024年智能节水水暖设备研发与承包合同3篇
- 2024年环保设施运行委托检验合同范本3篇
- 2024年智能家电产品研发合作合同
- 煤矿课程设计前言
- 电子信息工程 课程设计
- 2024年标准采购合同中英版本详尽条款版B版
- 太阳能工程课程设计
- 感恩 教育 课程设计
- 《妇科肿瘤化疗方案》课件
- 关于二十四节气的常识
- 微积分第一学期期末试卷汇总
- 《幼儿园家长工作指导》 课件 模块三 项目2 幼儿园家长工作特殊指导
- 体育学科2022版新课程标准测试题含答案
- 部门王者荣耀比赛策划方案
- 传统村落景观风貌保护与复兴研究以传统村落王硇村为例
- 安徽省芜湖市镜湖区芜湖市师范学校附属小学2023-2024学年五年级上学期期末语文试题
- 文旅企业消防安全培训课件
- 政府专项债务知识讲座
- 中国银屑病诊疗指南(2018完整版)
评论
0/150
提交评论