平安银行的混沌工程实践_第1页
平安银行的混沌工程实践_第2页
平安银行的混沌工程实践_第3页
平安银行的混沌工程实践_第4页
平安银行的混沌工程实践_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

平安银行的混沌工程实践目录ContentsASTA前世今生拥抱混沌工程ASTA解决方案与成果典型案例场景分享01 ASTA前世今生ASTA的缘起平安银行A+新核心专项测试

02测试、开发、运维共同完成性能测试、破坏性测试、混沌工程同时运用在测试环境和投产演练环境进行充分测试和验证PaaS平台&Starlink平台立项

01平安银行Starlink开发运维一体化平台为我行分布式微服务PaaS平台开发与运行提供保障。在测试领域,Starlink对PaaS平台进行了大量破坏性测试——覆盖高可靠、高可用、可运维的大部分测试场景。04

Starlink混沌工程实验室ASTA产品化、平台化发展,为平安银行端到端交付流程提供混沌工程模块的服务能力。03

Starlink整合测试域工具单纯的、孤立的混沌工具已经不能满足Starlink支持银行各类测试场景的需求。ASTAStarlink-Asta

产研活动透明 透明IT活动、透明IT成本,过程可见,可追溯;关注项目、需求价值流动。效率需求交付周期提升18%-48%;交付产能提升30%,流水线构建时长缩短46%,自动化构建提升56.4%平均发版时长降低,标准化操作,节省人力

质量 通过质量门禁进行安全与质量风险拦截,首移有效率提升6%,自动化测试覆盖率提升33.1%

安全合规 平台引入DecSecOps实践,

2020年9月和12月,分别通过信通院《DevOps能力成熟度模型》系统和工具、和DevSecOps的首批评级,实现敏捷与安全协同,创造更大价值JIRA 代码仓库 Git 自动化 Seiya 发布 发布Admin 效能 Jira、需 测试 管理 全景 Starlink求 DLM CICD流水线 ACE性能测 Seiya代码扫描 SonarQube 试 部署 Lotus、UCD 用户 Starlink单元测试 Unit

Sprint 管理 K8S、Pafa

评价项 Starlink 功能测 TMS目 包管理 Artifactory 试 运维 运维工作台缺陷管 管理 ITSM包库扫描 Xary 理 TMS安全漏洞扫 Fortify描SQL扫描 SQMCMS 4A Jenkins 数据管理 confluence统一视图展现质量/安全管

理Starlink功能全景➢

Starlink,实现平安银行数字化研发管理,融入银行EPG研发管理基线、内建质量、安全SDLC流程,实现端到端自动化,提供精细化效能度量。➢

Starlink作为全行组织级研发运维一体化平台。研发领域承担全行100%代码、制品管控,发布领域全行99%应用工具发版接入。混沌工程ASTA项目及需求管理研发管理测试管理发布管理效能管理02 拥抱混沌工程银行需要混沌工程吗?对韧性的需求对可靠性的要求复杂系统子系统与应用处于不断的变化中系统日益庞大与复杂生产应急预案,内部风险检视,研发流程检视运维、开发、测试和QA共同应对风险,提供系统韧性生产环境与测试环境都需要及时发现漏洞,提高韧性高可靠的硬件设施也可能发生故障应用的高可靠设计可能引起系统故障如何实践混沌工程价值和意义暴露系统未知的、脆弱的环节及时修复、加固,防患于未然提高服务的可用性和持久性降低维护成本,改进事故处理流程增强故障应对能力,提供故障抗性假设实验定义定义并测试系统的“稳定状态” 创建假设论证模拟现实世界中可能发生的事情 证明or反驳你的假设基本原则建立一个稳定状态的假说用多样的真实世界事件作验证在生产环境中运行实验持续自动化运行实验最小化爆炸半径混沌工程工具的选型决策Chaos

MonkeyChaos

bladeChaos

Mesh开发者NetflixAlibabaPingCAP当前版本2.0.2@2016-11-221.2.0@2021-5-311.2.2@2021-6-29开源是是是开发语言Go

99.5%Go

93.1%Go

等社区活跃度*10.9k3.9k3.7k采用公司数量*33容器化是是优点平台化有应用实践平台化不足未平台化仅开源一小部分只支持容器,侧重数据库故障注入03 ASTA解决方案与成果ASTA

混沌工程系统模型场景实验案例执行业务场景提供流量注入,用户自由定制故障注入场景涵盖大多数实验将场景组合形成实验便于用户选择丰富的基础实验,拓展方便确定实验的范围和目标确定实验执行的规则收集独立的日志便于分析链接监控系统便于观察系统状态变迁多样化的故障场景故障注入能力涵盖大部分实验→参数设置满足不同的实验要求网络流控丢包延时分区硬件资源CPU占用CPU故障内存占用⚫

IO占用文件系统空间耗尽NFS故障文件权限进程异常退出进程挂住IPC异常服务器⚫

系统重启⚫

硬重启NTP⚫

网络时移ASTA

的实验支持IaaS、PaaS、SaaS和数据库四类实验实验内容可以根据参数进行定制用户可以组合场景定制自己的实验IaaS实验网络故障FS故障资源占用网络时移进程故障服务器故障PaaS实验消息队列数据网关注册中心配置中心监控中心SaaS实验单点故障多点故障集群故障IDC故障脑裂DB实验主库故障从库故障分库故障Proxy故障自定义实验……平台特性/原则:与Starlink融合持续集成通过Starlink向ASTA发起混沌实验测试结果向制品打标实验过程融合实验已知事件+预期结果已知事件+意外结果未知事件+意外结果监控状态恢复系统测试右移和开发人员确认系统相关故障模拟和重现生产故障平台特性/原则:安全合规物理安全网络安全生产与测试环境隔离服务器安全测试负责人专职管理授权登录统一运维与监控权限控制服务器登录权限应用部署权限测试权限资源安全用户单点登录权限管理:案例、服务器应用应用的相关用户从CMS系统同步恢复系统访问权限控制数据安全生产数据脱敏DB服务器独立管理,不可登录04 实践案例分布式事务的数据库网络实验StorageRMDBAccountRMDBTMOrderRMDBTCDB案例场景已有的网络混沌实验没有发现问题——网络实验(丢包、延时、限流)未发现问题故障演练发现问题——DB

Proxy故障演练发现连接池链接超时问题分析及改进方案根因分析Proxy故障导致MySQL登录请求丢失,应用一直等待响应直到连接超时改进的实验方案约束:根据安全合规要求,即使测试环境也不能登录DB服务器进行故障注入操作SQL请求分析:分析分布式事务中所有SQL请求,对SQL请求进行分类模拟方案:利用iptables+tc针对某类SQL请求进行随机丢包或限流实验来模拟网络故障实验设计和验证实验场景针对数据库分类SQL请求模拟网络丢包或限流,验证不同丢包概率和流量下的实验结果。Try阶段创建全局事务SQLTry阶段创建分支事务SQLTry阶段业务SQLCommit阶段异步事务

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论