腾讯:2023腾讯云工具指南06期:AGI时代首选的全栈式数据管理方案_第1页
腾讯:2023腾讯云工具指南06期:AGI时代首选的全栈式数据管理方案_第2页
腾讯:2023腾讯云工具指南06期:AGI时代首选的全栈式数据管理方案_第3页
腾讯:2023腾讯云工具指南06期:AGI时代首选的全栈式数据管理方案_第4页
腾讯:2023腾讯云工具指南06期:AGI时代首选的全栈式数据管理方案_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Tencen腾讯Tencen腾讯TECH)DAY腾讯技术开放日腾讯云工具指南06AGI时代首选的全栈式数据管理方案IDC数据解读:数据管理赛道趋势IDC中国企业软件市场高级分析师王楠 04腾讯云数据管理产品全景解析腾讯云副总裁黄世飞 06产产品价值:一图读懂腾讯云数据管理产品矩阵02更弹性高效的“数据存储” 08更灵活智能的“数据处理与集成” 08更实时敏捷的“数据分析与应用” 09面向数据管理全流程的“数据安全防护” 09行业实践:行业实践:各行业数据管理具体场景痛点及解法微信读书腾讯云ESRAG如何支持微信读书实现AI问书功能? 博世腾讯云全栈式数据管理如何助力博世自动驾驶数据闭环? 福建海峡银行腾讯云TDSQL助力海峡银行核心系统升级 20极光腾讯云大数据如何帮助极光实现大数据平台架构优化? 22通过五大能力建设破解企业数据安全主要威胁 25PARTPART01趋势洞悉AGI时代下数据管理的新思路·数据在AGI时代价值愈发重要:数据已经成为社会和企业运行的关键生产要素,随着智能时代的到来,数据将发挥更大作用,甚至成为企业竞争的核心壁垒;·新时代应用“全面系统、化繁为简”的视角系统看待数据管理:不能只关注数据库、大数据具体产品的可靠性指标,更需要彼此的系统性协同;·腾讯云以数据为基的敏捷结构贯穿数据旅程统筹管理:这包括Iaas层,对数据原材料的存储、读写、调用处理;也包括paas层,基于大数据、数据库等产品的数据价值挖掘及数据安全保障;更包括saas层,在不同行业场景中,例如LBs、AIGC应用的灵活部署。趋势洞悉——AGI时代下数据管理的新思路IDC数据解读:数据管理赛道趋势IDC中国企业软件市场高级分析师王楠随着技术的进步和应用场景的扩展,数据将成为各行各业优化决策和提升效率的核心资产,数据管理也随之成为企业战略的核心之一。为此,企业需着眼于发展趋势,明确数字化转型核心价值优先级,打造以数据业务化应用场景为核心的路线图,优选战略伙伴共同构建高效的数据管理系统,确保数据质量和安全性。数据库与大数据依然是核心产品●如今,本土数据库崛起十分明显。2023年本地部署模式的关系型数据库市场中,ToP5本土厂商份额从2019的22%增加到36%,而ToP5国际厂商份额从65%下降至38%。中国数据库管理软件市场预测,2022-2027($B)中国——增长率年复合增长率1630%14.21412108645.525%20%15%10%5%0%2022202320242025202620272023年全年,中国数据库软件市场规模达到65亿美元,同比增长17%。预计到2027年市场规模将达到142亿美元,2022-27年复合增长率达为21%。●与此同时,大数据的价值亟待挖掘。调研显示,企业认为60%的业务数据具有价值,但实际上仅有56%得到了分析。此外,非结构化数据管理需求日益增加,预计至2027年,全球非结构化数据将占数据总量的86.8%,大数据市场整体规模将增长至425亿美元,年均增长率(CAGR)达21.5%。中国大数据市场IT支出预测(2022-2027)450004000035000300002500020000150001000050000单位:百万美元0大数据管理软件成为增长最快的方向硬件服务软件202220232024202520262027来源:IDC中国,2024腾讯云工具指南.AGI时代首选的全栈式数据管理方案/04趋势洞悉——AGI时代下数据管理的新思路高高低市场采纳度数据治理和数据安全需要拥抱新技术●随着数据量的激增和数据类型的多样化,企业对数据治理和数据安全的需求不断提升。未来五年,数据治理将与AI深度融合,带动产品的新一轮升级,实现更敏捷、高效和精确的数据治理方式。 来源:IDC《企业大数据治理及安全可信研究报告》以最契合当前市场需求和极具未来发展潜力的数据资产助理为例,其利用生成式AI等技术来自动管理数据资产,功能覆盖元数据管理、数据质量治理、数据资产自运维、自动化构建资产图谱等,并通过交互式AI支持数据的快速查询、开发和监管。●在数据安全领域,中国的数据安全市场也将快速增长,AI、区块链和隐私计算技术将被广泛应用于数据安全管理,推动数据流转新型信任底座的建立。企业将越来越重视数据安全防护措施的全面性和先进性,以应对不断变化的网络威胁和数据泄露风险。通过实施数据加密、访问控制、多因素认证等策略,企业能有效保护敏感数据的安全。同时,随着数据安全法规和合规要求的持续完善,企业需确保其数据管理和处理活动遵守最新的法律规定,以保护数据安全和隐私。数据安全领域相关技术Al赋能数据安全已有技术上的不断迭代更新Al赋能数据安全已有技术上的不断迭代更新技术将重塑市场数据丢失防护数据加密数据脱敏企业级秘钥管理数据访问治理零信任之数据安全隐私计算-多方安全计算e数据风险管理数据安全基础设施管理平台隐私计算-多方安全计算eApl安全数据发现与分类数据隐私与合规隐私计算-联邦学习隐私计算-机密计算数字版权管理硬件安全模块满足某些特定场景需求下的技术短技术发展时间长腾讯云工具指南.AGI时代首选的全栈式数据管理方案/05趋势洞悉——AGI时代下数据管理的新思路腾讯云数据管理产品全景解析腾讯云副总裁黄世飞数据“上云”趋势为企业带来创新机遇的同时,也加快了数据管理多个领域的变革。在面对不确定宏观环境时,企业需应对降本提效的挑战;同时,从长远视角看,生成式AI对数据管理的影响成为企业CI0在推动业务创新时必须考虑的关键因素。在不断提升产品性能和稳定性的过程中,我们认识到,企业需要用系统性思维来全局统筹数据管理来发挥自身的数据价值。腾讯云致力于提供全面的数据管理解决方案,整合数据底座、通用工具能力和行业属性应用服务并协同,实现企业数据的系统管理。●在数据底座方面,腾讯云提供的数据底座服务包括高效、稳定的AI存储服务和分布式数据库TDSQL,支持云原生数据仓库TCHouse、一站式开发治理平台weData,以及数据湖仓一体化智能引擎TBDS。此外,我们还推出了基于混元大模型的智能分析助手ChatBI,通过对话式分析让用户能够快速获取直观的分析结果,致力于打造一个轻快、易用的智能大数据平台。●在通用工具能力方面,我们通过数据应用、BI、向量数据库等产品,助力企业快速部署AI应用,挖掘数据价值,快速构建精准营销体系,并确保数据安全和合规。●在具体行业应用侧,我们专注满足各行业的特定需求,如LBS和数字孪生等产品和服务,通过提供客情大数据和热力图服务,为文旅行业提供更精准的市场分析和营销策略支持。我们深知,数据是企业数字化转型的基石和创新发展的源泉。因此,我们致力于持续创新和优化数据管理产品和服务,以满足企业日益增长的需求,并成为AGI时代企业首选的全栈数据管理合作伙伴。application security securitystorage腾讯云全栈式数据管理方案腾讯云工具指南.AGI时代首选的全栈式数据管理方案/06PARTPART02产品价值一图读懂腾讯云数据管理产品矩阵腾讯云依托其在数据管理领域的深厚技术积累,推出了一系列明星产品:产品类型产品产品场景数据库分布式数据库TDSQL实时高并发事务系统、金融级核心交易系统、HTAP业务系统、物联网类应用系统DBbrain数据库日常运维、安全威胁识别、混合云管理数据库、掌上数据运维云存储对象存储C0S静态网站托管、CDN分发加速、数据备份归档、大数据分析数据源等云端对象存储场景数据湖存储GooseFS机器学习、大数据分析、交互式查询、AI训练仿真场景、高性能计算场景数据万象CI图片处理、版权保护、AI内容识别、媒体处理、文档预览、内容审核大数据弹性存储EMR大数据迁移上云、云原生数据湖构建、离线数据分析、在线业务查询、流式数据处理TCHouse用户行为分析、企业经营分析、多维商业分析weData轻量数据开发、多源数据集成、全域资产治理、多维数据质量、自主运维中心、全面数据安全腾讯云BI数据门户看板搭建、自助式数据分析数据安全数据安全治理中心DSGC敏感数据梳理、数据分类分级、数据安全风险评估、安全能力协同云数据安全网关海量请求访问公网、安全访问公网数据安全审计DSAudit危险操作感知、安全事件追责、性能监控、安全信息统计、混合云部署产品价值——一图读懂腾讯云数据管理产品矩阵腾讯云存储腾讯云数据库腾讯云工具指南.AGI时代首选的全栈式数据管理方案/08产品价值——一图读懂腾讯云数据管理产品矩阵腾讯云大数据腾讯云数据安全腾讯云工具指南.AGI时代首选的全栈式数据管理方案/09PARTPART03行业实践各行业数据管理具体场景痛点及解法腾讯云一直致力于为企业提供全面、系统的数据管理解决方案,包括分布式数据库、高性能存储、数据安全治理体系以及大数据应用等,助力各行各业的企业全量盘活数字资产,提升数据管理的效率与安全性,帮助优化数据架构、强化数据安全、提升存储性能,为数据全面驱动业务创新奠定安全可靠的数字化基石。文旅零售泛互公益工业金融政务能源交通汽车行业实践——各行业数据管理具体场景痛点及解法微信读书腾讯云ESRAG如何支持微信读书实现AI问书功能?微信读书自2015年上线至今,已经积累2.1亿用户,日活超过200w,并从传统书籍衍伸到有声读物领域。伴随着用户量的增长,微信读书也在结合AI能力提高用户体验上做了很多的尝试——1.0阶段:书籍标签提取(如科幻、理财,当用户搜索命中关键词则呈现相关结果)●标签词数量与用户搜索词差距大(关键词数量占用户搜索量不足1%)●无法表达复杂语义(如组合词、问题型)●一本书关键词多,难以判断质量(如一本《三体》数干关键词难以评估相关性)●无在线阅读新鲜体验感(标签与出版社分类一致)2.0阶段:观点提取(召回不同句子判断是否作为观点与知识展示与引导)●无法回答复杂问题(观点之间缺乏相关性)●用户体验上无创新(类似传统全文搜索增加过滤与重排序)3.0阶段:书籍RAG(如搜索《茶馆》,能关联性搜索“老舍”相关作品)●用户问题缺乏深度,检索单一(95%用户搜索关键词不超过5个字,召回多为百科式,缺乏新意)现阶段:书籍RAG+问题生成关键挑战及解法在书籍处理上—— 1内容切分颗粒度难把控:1综合书籍、百科、二次加工内容(图谱&大纲),经过预处理(剔除不合格内容)、文本切分、内容质量模型判断,再进行向量化处理;1在用户提问上——232用户问题缺乏深度:通过问题扩写,增加搜索内容深度及广度;2343搜索结果重复高:通过多路召回,包括向量搜索、文本搜索等扩大搜索面带来搜索结果惊喜;44回答内容质量参差不齐:通过评测系统,包括相关性、重复性、格式等判定,进行检索结果排序。腾讯云工具指南.AGI时代首选的全栈式数据管理方案/11行业实践——各行业数据管理具体场景痛点及解法最初,微信读书不是采用腾讯云ES方案,而是单点的vectorsearch方案,但存在比较大的技术挑战——●数据规模大整体数据超10亿级向量规模,存储成本高。早期预估30亿768维的向量,需要超过400台64G机器,运营成本百万级;●运维成本高除了文本搜索,同时还需部署向量化服务,在外部进行向量化后,写入到向量数据库,同时向量数据库不存储原始meta信息,还需要额外部署正排服务,相当于需要同时运维四套系统。(文本搜索,向量搜索、文本转向量、存储meta信息正排服务);●开发成本高调试召回过程中,需要在外部进行向量化后,从向量数据库召回,然后再用召回id访问正排获取meta信息。相当于每一次召回调试需要3次操作,跨越4个系统;●稳定性要求高在线读书平台超亿级用户,稳定性要求5个9以上。●RAG领域的一站式解决方案相关内容5.LLM进行re-ranking3.数据处理与向量转换上下文窗口3公共互联网数据您的知识库数据1相关内容5.LLM进行re-ranking3.数据处理与向量转换上下文窗口3公共互联网数据您的知识库数据1你的问题2正确答案2generate和actionsGAI/LLIM4.4.ModelasAnalyzer微信读书的Al问书能力,需要兼顾文本搜索、向量搜索及存储meta信息正排服务,而传统的数据方案一般只做向量存储、检索,部分兼顾生成能力,所以造成了开发及运维的压力。ES搜索可以一站式实现文本、稀疏向量、稠密向量内容聚合;灵活嵌入成熟模型;文档级权限管控,这其中主要能力包括——1向量转换:1内置模型eIser&muItiguaI-e5,并支持自部署(modeIasanaIyzer)、在线调用模型(inferenceApls)。自部署在线调用模型腾讯云工具指南.AGl时代首选的全栈式数据管理方案/12行业实践——各行业数据管理具体场景痛点及解法 2召回排序:内置REF排序,亦可通过LTR能力嵌入训练后的排序能力。排序学习 3混合搜索基于关键词的文本搜索与基于相关性的向量搜索各有千秋——相比于文本搜索,向量搜索优势在于处理模糊表达;捕捉语义;支持跨文本、跨语言、跨模态;先文本搜索相比于向量搜索,文本搜索优势在于短文本精准匹配强、计算成本低、可解释性及调优性强先文本搜索混合搜索先通过关键词大范围文本搜索,再通过向量搜索二次分析,综合两者优势:更精准、多样、可解释。再向量搜索●腾讯云ES进一步增强RAG能力umumx:模型3 血与此同时,在实际应用场景中,考虑到微信读书Al问书多读少写的特点,以及海量用户访问对稳定性、高性能严格的要求,腾讯云ES针对通用方案做了进一步RAG增强优化,这主要包括——腾讯云工具指南.AGl时代首选的全栈式数据管理方案/13行业实践——各行业数据管理具体场景痛点及解法1资源层面1支持专有机器节点部署并隔离数据节点,提高推理能力的同时保证在线业务稳定性。支持上传管理部署向量模型与数据节点隔离2硬件层面2全球唯一支持GPU的Es服务,与自研芯片“紫霄”软硬结合性能更强;紫霄V1具有高能效、高吞吐、高带宽等特点,设计算力规格NVIDIAA10相当,显存带宽比A10高30%,最高可比A10性能高50%-100%。 3内核层面针对“读多写少”的典型场景特点做更多优化;分片架构优化●针对向量场景,合并查询跟归并流程,总体查询性能提升2倍以上;块存储跟查询优化●通过对segment进行合并收敛,减少查询随机10,总体查询性能提升2倍以上;查询并行化●多线程文档切分、多segment并行化处理、精准拉取文件数据段;Iucene查询缓存锁改造●大幅提高了查询的并发能力,Qps提升50%以上。四、腾讯云ES为微信读书AI问书实现的价值?●从400台64G下降到30台:向量量化及不要求全内存索引,大幅降低硬件成本;●从1次调优跨4套系统,到“所见即所得”:一站式检索方案开发运维人员在kibana上即可调试召回流程;●数亿量级索引召回平均耗时在100ms以下:基于腾讯云强大的专业支持团队保证稳定性及可靠性。腾讯云工具指南.AGI时代首选的全栈式数据管理方案/14行业实践——各行业数据管理具体场景痛点及解法腾讯云全栈式数据管理如何助力博世自动驾驶数据闭环?一、博世高阶智能驾驶的数据闭环包括哪些环节?博世的高阶智能驾驶数据闭环工具链包括车辆调度、数据采集、AI模型训练和仿真评测等,涵盖了六大主要应用——●车队管理平台:负责车辆调度和任务分发,将采集需求下发到车端进行数据采集。●数据采集平台:接收到任务和场景采集需求后,车端采集场景数据和模型训练数据,并上传至数据管理平台。●数据管理平台:作为数据接收和处理中心,负责数据上传、处理和挖掘。处理后的数据,推送至标注平台。●标注平台:对数据进行标注和管理。●深度学习平台:进行模型的分布式训练和算法集成。●仿真评测平台:用于场景和事故分析及仿真评测。●数据采集场景复杂度高:需同时满足数据可靠性、场景丰富性及算法训练需求;●数据流转及调度效率要求高:数据合规及隔离、冷热分区、多模态数据处理;●数据溯源要求高:业务类型增长要求高数据溯源,满足模型训练的场景验证及大规模分布式训练;●整体数据闭环流程成本高:包括数据的被动选择、存储及计算成本高、重复及冗余数据导致资源浪费。腾讯云工具指南.AGI时代首选的全栈式数据管理方案/15行业实践——各行业数据管理具体场景痛点及解法三、腾讯云如何通过全栈式方案解决问题?针对博世完整数据逻辑闭环的要求,腾讯云基于自身丰富的产品能力,协助博世实现了高效“车云协同”方案,这其中主要包括——腾讯云对象存储c0S(数据采集及存储)腾讯云数据加速器GooseFS(数据缓存加速)腾讯云容器服务TKE(数据处理统一调度、解析、挖掘和脱敏)腾讯云弹性MaPReduce服务EMR(数据分析计算)腾讯云向量数据库vectorDB(图像检索)环节一:数据采集与上传在智能驾驶的早期阶段,博世发现尽管每台测试车每天采集的数据量以TB计,实际用于模型训练的数据比例非常低。主要原因1)数据采集有效率低:车端无法精准感知模型训练所需的场景和数据需求;2)设备和传感器问题:极端驾驶环境容易导致传感器和设备损坏,云端无法及时感知车辆异常,导致大量不合格数据流入云端。对此,腾讯云为博世采用“车云协同”的解决方案:在博世三种开发环境(车端、公网、专区)进行协同,实现数据的合规上传和安全存储。受控专线1)通过云端算法及工具团队将需求推给车端,让车端更明确训练需求,比如数据质量、场景特征等;2)通过容器特性,可以敏捷感知各个车端传感器工作状态及质检结果上报,及时修正问题;3)数据采集完成后,通过插盘自动上传至c0S,吞吐速度单个磁盘300MBPs,每天可实现400TB的数据上传,解决了大量采集车数据堆积的问题;4)合规审计:所有采集的数据经过腾讯云提供的合规审计方式进行内容审计,确保数据安全、合规后上传至专有云进行存储、处理和分析。腾讯云工具指南.AGl时代首选的全栈式数据管理方案/16行业实践——各行业数据管理具体场景痛点及解法环节二:数据存储与管理●针对存储管理环节,腾讯云主要通过统一调度及分区管理的方式实现灵活处理与成本控制的平衡,这其中——1)基于腾讯云TKE的统一调度能力,结构化数据存储于Mysql等关系型数据库,半结构化数据存储于Redis、MongoDB等非关系型数据库当中,部分数据推送到Es进行缓存和检索;非结构化数据(点云、视频)存于对象存储c0s;2)利用腾讯云c0s生命周期管理能力,对持续使用的数据存储在c0s标准存储中,将周期性未使用的数据放在c0s低频存储中,长期未使用的数据存储在c0s归档存储中,优化云端存储成本;3)基于腾讯云大数据EMR,构建智能驾驶领域的大数据湖仓体系,为业务分析平台和报表平台做数据支撑。●同时支持数据的实时及在线处理——1)实时监控与问题修正:通过公网环境实时监控车端各工具的运行状态和质检结果,及时修正问题,并通过远程迭代和快速修正机制,提高数据采集的准确性和质量;2)在线预览与标注:通过在线预览大量数据,进行数据标注并推送给用户,支持算法团队进行模型演练。腾讯云工具指南.AGl时代首选的全栈式数据管理方案/17行业实践——各行业数据管理具体场景痛点及解法环节三:模型训练与仿真评测随着业务种类增长,要求数据溯源满足场景验证及大规模分布式训练,这其中——●针对模型训练,训练数据集存储在c0s上,通过GooseFs-cache进行数据缓存,大幅度提升训练效率。并通过c0s生命周期管理,冷热数据分层,满足大规模分布式训练的需求,降低存储成本;●针对仿真评测,仿真数据存储在c0s上,通过GooseFs-Lite和c0ssDK提供仿真测试工具长期稳定的回放数据完成场景验证;onemorething:借助图像检索进一步降本增效目前,博世高阶智能驾驶现有AI平台已经建立了一个完善的数据闭环系统,但在数据集检索和处理过程中,每一个环节的成本都非常高。为此,博世在实现数据驱动的闭环增效时,系统设计里首次引入腾讯云的向量数据库,实现基于文本/内容的两种图像检索能力。图像搜索,比如在把车尾灯倒影判断为障碍物,导致无法行驶的场景下。通过一张简单的模糊不清截图来提取关键特征,图像检索服务就可以搜索到大量相关的数据,提升算法团队对类似场景做算法优化的效率。腾讯云工具指南.AGI时代首选的全栈式数据管理方案/18行业实践——各行业数据管理具体场景痛点及解法文搜图:比如搜索车辆左侧开门状态,传统模型挑选或人工挑选消耗大量精力,但图像检索仅需几秒钟就可以完成任务。腾讯云工具指南.AGI时代首选的全栈式数据管理方案/19行业实践——各行业数据管理具体场景痛点及解法腾讯云TDSQL助力海峡银行核心系统升级一、客户背景福建海峡银行成立于1996年12月,是一家省级股份制商业银行。其核心系统建设较早,技术架构相对落后,采用的I0E集中式架构存在无法弹性扩容、高投入成本等挑战,以及技术支持不足等风险。面对挑战,福建海峡银行于2020年启动新一代核心系统项目群建设,并于2022年5月实现了新一代核心系统投产运营。二、场景痛点系统架构落后:核心系统传统的I0E集中式架构,投入成本高,并存在技术支持下降风险。性能瓶颈:传统集中式核心系统难以支撑日处理超千万笔交易和超TB数据量的存储与吞吐需求。扩展性不足:随着金融业务的发展快速,当前系统架构难以灵活适应日益增长的业务量和场景创新需求。灾备与扩容问题:传统架构在提高部署效率、实现快速交付及高效扩容和容灾方面的支持能力不足。三、关键目标业务目标:以客户为中心、支持产品快速创新,支持灵活定价,业务流程优化,灵活账户体系和管理支持。技术目标:高性能,响应快,大容量,易扩展,具备快速交付能力。业务连续性:高可用,两地三中心部署,同城双中心均衡负载运行,提供365x7x24小时服务。安全可控+降本增效:全面国产化产品,安全可控,全面实现国密算法,多种安全方式相互补充,全面掌控各平台源代码,具备自研能力,分布式系统架构,去I0E,全面降本增效。四、产品/方案选型分布式数据库TDSQL、DBbrain五、解决方案通过实施腾讯云TDSQL解决方案,福建海峡银行实现了核心系统的全面升级,支持两地三中心的高可用架构,实现了同城双活和异地容灾,并通过微服务架构增强了系统的扩展性和灵活性。这些优化显著提升了系统性能和扩展性,确保了数据安全和业务连续性,有效支持了业务的快速发展。腾讯云工具指南.AGI时代首选的全栈式数据管理方案/20行业实践——各行业数据管理具体场景痛点及解法关键方案包括:●高性能:通过TDSQL的高并发处理能力,解决了传统系统的性能瓶颈,提升了核心系统的处理能力。●强扩展性:基于分布式数据库和微服务架构,使核心系统能够灵活扩展,满足了业务增长和创新业务场景的需求。●数据安全与灾备:实现了两地三中心高可用架构,同城双活和异地容灾,系统可用率99.999%,保障数据安全和业务连续性。●高效运维:打通TDSQL与行内监控,实现TDSQL分布式数据库集群,集中管控和告警收敛,并结合TDSQL运维特点,完善和提升了运维体系、工具和能力。。数据丢失数据丢失与带宽和延时相关A生产 互联网客户外联单位异地数据丢失与带宽相关BC架构示意图部署架构图。数据丢失数据丢失与带宽和延时相关A生产 互联网客户外联单位异地数据丢失与带宽相关BC主生产集群异地灾备集群同城主中心业务应用系统业务应用系统光纤同城备中心业务应用系统业务应用系统光纤异地灾备中心业务应用系统业务应用系统主要架构目标主要架构目标两地三中心灾备架构设计目标:保证同城中心业务连续,异地灾备中心保证数据一致性灾备架构采取“一二三”型架构方式:一个系统,两个城市,三个中心,两套TDSQL集群部署六、价值展现腾讯云数据库TDSQL助力福建海峡银行全面升级和重构了核心系统,此次系统建设既满足了金融级高可用要求,也大幅提升了系统能力,预计将支持海峡银行未来10年的业务发展需求。腾讯云工具指南.AGl时代首选的全栈式数据管理方案/21行业实践——各行业数据管理具体场景痛点及解法腾讯云大数据如何帮助极光实现大数据平台架构优化?一、极光为何要进行大数据平台优化?极光的大数据平台最初在自建的lDC上运行,随着业务的发展,极光大数据逐渐形成以下三个特征:1)离线数据量大:lDC节点规模过干台,历史数据加上每天新增的数据近百PB,每天调度数万任务。2)实时数据量大:每天有近百TB的实时数据进入,对基础测试影响较大。3)跨云数据同步:业务集群和大数据集群分开不同环境,涉及跨云同步的问题。为了更轻快的支撑好公司对数据价值的挖掘,极光决定将具备上述特征的大数据平台迁移到腾讯云大数据。二、大数据平台面临怎样的业务场景与挑战?关键业务场景1)业务数据生产:数仓中间层存在万亿级单表、百亿级别lD量,需要进行百亿节点图计算,业务场景需要频繁进行大表间关联Join,任务耗时从几小时到一两天不等。腾讯云工具指南.AGl时代首选的全栈式数据管理方案/22行业实践——各行业数据管理具体场景痛点及解法2)数据服务:提供RTA场景的服务,要求时延在100毫秒以下,单表规模超过100TB,涉及最多14个版本的数据回溯。面临的挑战1)文件数和RPC请求大:超4亿文件数,RPC请求高,导致NameNode压力大。2)代码质量不一:客户代码质量不同,导致高负荷甚至宕机,需要现场定位问题。3)坏盘故障:任务写入坏盘导致重新运行任务,浪费时间和资源。4)资源争抢:大任务的l0写入写出非常高,业务高峰期资源争抢严重。三、腾讯云大数据如何助力极光打破困局?极光以腾讯云EMR和TCHouse等产品来构建云大数据平台整体的框架。腾讯云工具指南.AGl时代首选的全栈式数据管理方案/23行业实践——各行业数据管理具体场景痛点及解法基于腾讯云EMR架构及组件内核优化:1、基于腾讯云EMR离在线混合部署架构,利用业务TKE容器闲时充足资源,补充大数据平台算力,提升TKE闲时利用率50%,同时结合弹性能力及存算分离场景下基于数据热度分层存储,整体成本下降30%以上。2、基于腾讯云EMRHDFSNameNodeRBF联邦部署架构,降低单组NameNodeRPC请求压力60%,容量日增近百TB对现有基础设施带来挑战NameNode容量日增近百TB对现有基础设施带来挑战3、优化核心业务链路及部分核心SQL及UDF,大表场景下,优化及消除groupby分组逻辑,避免数据Shuffle落盘,核心链路任务SLA提升7个小时。HDFsc0s标准存储c0s归档存储4、腾讯云EMRSpark兼容Hive桶表优化,大表Shuffle由原需要Shuffle36TB降低到18HDFsc0s标准存储c0s归档存储50%,提升集群运行稳定性。四、未来更多合作可能●大数据层面当前核心基于腾讯云EMR及TCHouse-C构建了云原生大数据平台,未来将与腾讯基于TCHouse-D及DLC构建LakeHouse实时湖仓架构。●大模型层面极光推出新的Al产品GPTBots,这是一套基于RAG的工具类产品。今年希望结合腾讯混元大模型着力国内场开拓。腾讯云工具指南.AGl时代首选的全栈式数据管理方案/24行业实践——各行业数据管理具体场景痛点及解法通过五大能力建设破解企业数据安全主要威胁一、新趋势下的企业数据安全正处在怎样的环境中?从大数据技术探索、大数据成为新的生产力要素,到去年数据作为企业资产进行资产入表,都表明数据在企业生产经营以及社会和国家的框架中地位越来越高。同时伴随着过去几年,人工智能非常快速的发展,尤其是从去年chatGPT推出以后,大数据给整个生产生活带来新的驱动力。无论是数据或大模型,新的技术产生和应用的过程中,数据安全都会面临新的挑战——●整个领域持续遭受各种各样的攻击,外部的攻击和威胁持续在衍生和存在,而且其他的攻击,比如加密勒索等,对企业造成了非常大的损失。1)2017-2018年数据,全国公开被泄漏的数据大概20亿条左右在市场上售卖,2018年达到50亿条。2)2023年,根据信通院公布的数据,全球泄露的数据达到干亿条以上。●伴随着大模型技术衍生的应用,利用大模型和人工智能进行的自动化攻击,以及针对大模型本身业务的问题,也在快速的产生。二、企业的数据安全以及大模型保护需面对何种挑战?1、企业数据安全面临四大挑战——1)怎样建立完备的数据安全治理框架,能够统筹兼顾企业的合规风险以及业务的发展?2)怎样识别关键数据资产,进行数据全流程的跟踪分析,以及进行数据的风险评估?3)数据安全规范链很长,什么节点上运用什么样合适的技术,采取什么策略进行保护?尤其针对存量数据如何进行数据安全保护改造?4)新的攻击手段不断涌现,如何持续运营管理数据安全体系,及时发现和响应新威胁?2、为应对上述挑战,腾讯云经过多年探索和实践,形成了一套完整的企业数据安全治理能力框架。在这套框架下我们需要从三个视角观察数据安全的威胁——●组织视角:数据在企业里,从组织层面贯穿于自上而下的各层组织,贯穿于各个部门。●技术视角:数据贯穿于业务系统和应用系统、数据库以及基础设施。●生命周期视角:数据从数采集、传输、存储、处理到销毁有比较长的链条。腾讯云工具指南.AGl时代首选的全栈式数据管理方案/25行业实践——各行业数据管理具体场景痛点及解法3、同时对于传统数据安全和大模型下的数据安全需要进行区分:●传统场景下的企业数据安全——数据在企业中根据用户使用方式及数据本身特点存在形态差异及场景化差异。这些差异会导致数据在不同的场景下,面临不同的风险,需要采用不同的安全机制进行保护。企业内数据分布典型场景:办公场景、在线数据库、大数据、研发环境、运维环境等。●人工智能和大模型下的企业数据安全——人工智能和大模型的领域对传统企业的数据安全问题有两侧的延伸,由于海量数据的原始存储资源以及训练的过程,涉及基础设施和模型集成厂商,所以需要考虑更多不同的责任主体,更多不同类型和数据以及系统用户的用户来源。腾讯云工具指南.AGl时代首选的全栈式数据管理方案/26行业实践——各行业数据管理具体场景痛点及解法三、腾讯云如何通过五大能力应对企业数据安全挑战?针对企业整体的风险的分布以及大模型特有的安全问题,腾讯云提出了的数据安全治理框架。在框架内,企业的数据安全治理涵盖的事项分为五个层次——●法律合规:依循国内外法律法规和行业标准,将合规要求精准映射到企业组织架构、业务流程及安全保护体系。●组织保障体系:建立贯彻“最终责任人制”的数据治理组织体系,明确业务部门为数据安全保护的主体责任方,全员参与配合。●风险治理流程体系:形成包括数据识别、分类分级、风险评估、风险治理、持续运营等关键环节的端到端闭环流程。●风险治理技术体系:根据办公、在线数据库、大数据、人工智能等不同场景的数据特征差异,采取差异化的安全防护技术措施。●安全基础设施:搭建安全基础设施,为不同场景数据安全最终落地提供能力支撑。基于上述治理体系,过去几年腾讯积累了一整套具备五大能力的数据安全治理解决方案,包括资产清查、风险评估、数据保护、风险监控和持续运营,形成了数据安全能力体系闭环。腾讯云工具指南.AGl时代首选的全栈式数据管理方案/27行业实践——各行业数据管理具体场景痛点及解法●能力一数据资产管理与分类分级1)数据资产管理的工具:可以自动化的对主要的标准和数据类别进行自动化的识别和分类分级,具备敏感数据识别发现、扫描效率优化、扫描规则优化等优势,实现效率提升。2)AI辅助敏感数据识别:解决传统规则引擎局限,显著降低误报和漏报率。挑战:传统规则由于性能和灵活性存在瓶颈√部分场景误报率较高,例如密码√检测对象难以穷尽,例如公司名称√检测规则难以创建,例如姓名应对:数据驱动,覆盖复杂和未知场景,突破传统规则束缚√面向60类敏感数据,训练AINER模型,约3亿参数√通过预训练提高准确率,负样本压制误报率√业务落地运行效果:准确率93.14%,召回率90.99%●能力二数据安全风险评估与持续监测AI引擎工作流程组织实体名称识别示例1)风险评估模型:对数据建立了风险评估的模型,对数据常见的安全攻击和威胁进行自动化的检测,并形成评估报告。腾讯云工具指南.AGl时代首选的全栈式数据管理方案/282)数据安全情报判研与风险持续监测:通过联合智能方式,结合情报,对数据安全风险进行持续的监控和闭环。优势:以DSGC智能化能力为数据安全运营抓手,围绕核心数据资产(重要数据、敏感数据),结合威胁情报、Al等技术,构建多维度的数据安全事件监测能力,降低MTTD、MTTR。3)数据安全运营:基于S0AR技术的自动化运营智能体,实现工具和流程统一化管理,从而达到数据安全治理流程的自动化。●能力三数据安全防护策略与细粒度数据保护1)数据安全统一保护平台:通过Apl接入和数据透明访问,用网关技术实现对数据的一次性接触和多种策略灵活的保护。如:数据加密、动态脱敏、行为审计、运维管控等。腾讯云工具指南.AGl时代首选的全栈式数据管理方案/29行业实践——各行业数据管理具

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论