云质量报告2016.2线上_第1页
云质量报告2016.2线上_第2页
云质量报告2016.2线上_第3页
云质量报告2016.2线上_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1. 线上质量概述a)春节期间整体质量:春节期间整体质量平稳,春节当天流量和上传流量都达到了最低值,年后上传流量以 8%的速度持续上涨,直到元宵节,带宽起伏不定增长率在 1%到 8%之间。16 年春节较 15 年春节相比没有出现骤增的情况,应急预案也没有启用。b)稳定性相关:1)Netdisk:99.9718%服务 SLA 达标 2)Petdisk-mongo:99.8678%|xcloud-mongo:99.9559%)2 月份持续不达标,经过业务方调整以及 RD 同学的不断优化,在 3 月份 SLA到了 99.97%以上。3)POMS(SLA:99.9054%)&PCS(SLA:99.93

2、38%)2 月份不达标;PCS 由于异步的重试导致 PCS 的25 号夜间出现了内网带宽资源紧张导致部分的 5xx 出现; POMS 在导致拥塞,异步入库压力过大导致的雪崩。POMS&PCS 整个 2 月份除 25 号之外都达标,从另一个方面反映出底层服务的故障期间的止损能力比较差,一次故障将拉低整个月的服务SLA。 4)object:经过一个月的排查优化Object 的部分集群由长期不达标改善为读写均达标(主机群读 99.977%/写 99.9882%,副集群读 99.9888%/写 99.9968%),整个集群的读写服务能力大大提高。另外还遗留部分集群的机器故障问题导致的服务波动,还希望O

3、bject RD &OP 继续跟进。c)优化相关:2 月份成立优化虚拟小组从质量数据分析入手,通过数据驱动 CDN 质量优化、优化流量调度、改善客户端的连接方式和缓冲。2 月份主要进展:1)细化省份、运营商等卡顿数据分析。2)优化CDN 回源跨运营商问题,回源速度得到(大于 100K 的比例期从70%优化 406到 95%,低峰期由 95%到 99%);无法问题优化,率下降 5 个百分点,同时带来 60G 带错误,无法宽的上涨,目前该优化已经下线。3)CDN 优化缓存机制提高(命中率1%),优化边缘节点 DNS 缓存机制降低 DNS 耗时,全面支持HTTP 长连接为客户端的连接复用做支撑。4)

4、客户端目前支持长连接复用以及分片缓冲的功能已经完成开发。d)企业云:2 月份企业云处于公测阶段,公测阶段用户的使用活跃度不高,企业用户的认知度有待提高。目前存在大文件上传失败、文档预览失败等问题。QA 进行了竞品:上传速度优于联想、非限速优于联想。全文检索查全率为 41%,达到 94%。整体服务结果:联想金山 整体使用体验结果:联想金山2. 线上数据详情 标红处为长期性问题,标黄为本月突涨维度质量项2 月数据数据解读用户舆情用户口 碑AppStore 春节期间比较低跌至 51 名,假期结束后上升到 20 名以内,由于上瘾的下架,把云的推升到前十名。评分为 4.5突涨反 馈春节期间的反馈比较平稳

5、,反馈较多的两个问题是云管家已经点对点慢以及失败,数据安全相关为第 CDN 同学进行的反馈:【】云管家失败,由于云管家调用 IE 的内核进行播放,出现无法加载的情况,目前通过人工的重装 IE 来解决。【点对点】点对点变慢,目前可能是 PCS 的 meta 获取速度变慢导致。需要 PCS & Netdisk 持续关注接口的性能问题。【数据安全】1)的 Badcase 清除逻辑出问题导致 389 个的被删除但是用户却能请求,表现为 CDN 回源数据是出现一定量级的 404 的情况。2)失败:pomsmeta 引入 bug 导致用户网盘数据时需要 CDN 回源的请求,flowserver 通过buc

6、ket/object 来 pomsmeta获取 region 信息时 meta 返回文件被标记为已经被 md5dedup,最终用户失败。会员特权提速特 权会员上传失败率1.3%会员失败率2.2%慢速比3.695%大文件 大文件上传失败率【长期】54%客户端串行并增加重试次数的临时解决方案预计 2 月超级会员下一版本上线,服务器通过 superfile3 长期方案预计 Q2 予以支持云解压 云解压预览失败率0.25%特权卡顿率6.1%会员的无法 率远低于非会员是由于会员走的 不会进行流量限制,不会出现 406 的问题无法率2.94%用户体验上传上传失败率1.534%上传失败率比上个月略有增加,需

7、要长期重点关注失败率3.612%卡顿率7.39%无法率6.13%客户端 Android crash0.084%IOS Crash0.03%云笔记慢、打不开Bae 老集群无人导致性能变差。迁移新集群过程中,域名无法导致服务不可用服务器稳定性Netdisk SLA99.9718%转码失败率2.2%PCS SLA99.9338%2 月份除了 2 月 25 号 SLA 降低到 98.63%,其他时间均达标。2月 25 号:a)PCS 由于异步化的大量重试导致 pcs 的 cgi 不够用,出现大量 5xx。25 号导致整个 2 月份的SLA 不达标。POMS SLA99.9054%2 月份除了 2 月

8、25 号 SLA 降低到 97.6121%,其他时间均达标。 2 月 25 号:a)nj02 的大搜的带宽使用量骤增导致 nj02 的 bgw,PCS 业务通过打标提高优先级解决网络拥塞。b)凌晨 POMS 启动异步化入库导致雪崩,拖累 pcs 的业务导致 pcs 的cgi 也出现问题。25 号导致 2 月份的 SLA 不达标。PSS SLAnetdisk_mongo【长期】99.8678%mongodb压力过大,数据迁移过程中服务稳定性下降。3月份业务方优化后降低压力,到 3 月份目前SLA 基本达标xcloud_mongo【长期】99.9559%Mola 集群 sla主集群读/写99.9770%|99.9982%年前 Object SLA 单独统计发现 SLA 长期不达标,从 1 月份开始 Object RD & OP 跟进处理各个集群不达标 :网线故障、链路故障、日志夯住、热点 key、混布导致 IO 资源紧张、故障机器等问题,SLA得到解决。为 Object 的同学点赞。同时在 2 月底 3 月份由于更换交换机频繁导致 nj 集群的SLA 有所下降。副集群读/写9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论