微博离线计算系统介绍_第1页
微博离线计算系统介绍_第2页
微博离线计算系统介绍_第3页
微博离线计算系统介绍_第4页
微博离线计算系统介绍_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

离线计算系统介绍

姓名:杨明

部门:微博搜索

2014年12月24日提纲业务背景离线计算优质库提取改进措施其他相关Q&A平台检索在线Da-evaRouter实时库周库月库IndexBuilderSearchSearchSearchHBase离线Da-evaIndexBuilderIndex历史库……业务背景离线计算在搜索系统中的位置业务背景离线计算系统实时计算策略变化时,历史数据需要重新过一遍策略,以提升搜索体验。特点:1、数据量大,4年累积数据超过60T。2、历史全量数据Hbase在上海,索引重建需要在北京进行。优质库历史库过于庞大,重建索引开销大。从统计角度看,基本上5%的优质数据可以得到比较理想的搜索结果。现有计算资源1、上海Hadoop集群,100多台机器,原始数据保存在上海HBase。2、北京集群,24台机器,部署有一套Hadoop和Da-Eva计算系统。提纲业务背景离线计算优质库提取改进措施其他相关Q&AHBaseDA-EVA-RECOMPUTER……IndexRebuilder上海北京HDFS-AND-MPRDA-Eva-Service1.3基于DA_EVA的属性计算2.2重算结果导入HDFS5.1合并结果同步到Hbase1.1导出同步字段原始数据2.3可mpr计算的属性导出到北京5.2合并的索引字段更新数据传输3.可mpr计算的属性字段更新推送6.合并的索引字段更新信息推送2.1属性字段更新信息推送1.2可mpr计算属性计算4.重算结果合并离线计算当前实现HBaseDA-EVA-RECOMPUTER……上海北京HDFS-AND-MPRDA-Eva-Service1.3基于DA_EVA的属性计算2.策略重算结果导入上海HDFS4.合并结果同步到Hbase1.1导出同步字段原始数据1.2可mpr计算属性计算3.重算结果合并离线计算重算流程…@USERTEXT:hero@TOPIC_WORDS:hello@QI:409746@VALIDFWNM:530....@USERTEXT:playboy@TOPIC_WORDS:hello@NON_TOPIC_WORDS:abcdef@QI:278706…@NON_TOPIC_WORDS:abcmnkxyz@FWNUM:639....result_via_da_evaresult_via_mprhbase_sync_fields离线计算合并过程举例…@USERTEXT:hero@TOPIC_WORDS:hello@NON_TOPIC_WORDS:abcmnkxyz@FWNUM:639@VALIDFWNM:530@QI:278674....Merger(假设QI第5、14位有效)#historydataputeroutine#@argument:tasknamefunctiontrigger_routine(){taskname=“$1”shift#checkifthistaskisalreadyexiststask_existence_checkif[-n“${taskname}”];thentrigger“${taskname}”“hbase_task_initialization”trigger“${taskname}”“pare_snapshot”.1trigger“${taskname}”“pute_via_mpr”.2trigger“${taskname}”“pute_via_da_eva”#1.3trigger“${taskname}”“trans_back_outter_result”#2barrier“${taskname}”“pute_via_mpr”bairrer“${taskname}”“pare_snapshot”trigger“${taskname}”“pute_result”#3trigger“${taskname}”“pute_result”#4fi}离线计算重算流程HBaseDA-EVA-RECOMPUTER……上海北京HDFS-AND-MPRDA-Eva-Service1.周增数据导出2.周增数据传输至北京离线计算周增数据定期传输#incrementalweeklydatatransfertoBeijing#@argument:tasknamefunctiontrigger_routine(){taskname=“$@”

if[-n

“${taskname}”];thentrigger“${taskname}”“hbase_export_incremental”

#1

trigger“${taskname}”“trans_incremental”

#2

fi}trigger_routine“${taskname}”离线计算周增数据定期传输HBase北京24台机群……IndexRebuilder上海北京SH-HDFS2.全量数据传输到北京BJ-HDFS1.历史全量数据导出到HDFS3.全量数据导入北京HDFS4.全量数据重建索引带宽30M,数据22T(压缩后),需10天,无法忍受!离线计算离线索引重建-方案一HBase北京24台机群……IndexRebuilder上海北京SH-HDFS2.计算属性打包传输到北京BJ-HDFS-AND-MPR1.导出计算属性到HDFS3.历史原始数据导入HDFS4.计算属性数据导入HDFS5.计算属性与全量历史数据合并6.全量数据重建索引离线计算离线索引重建-方案二提纲业务背景离线计算优质库提取问题与改进措施其他相关Q&AHBase……上海北京HDFS-AND-MPR2.精选结果传输到北京1.数据进行MPR计算BJ-HDFS3.精选数据导入到北京HDFS优质库提取优质库提取流程#highqualitydatabaseselection#@argument:tasknamefunctiontrigger_routine(){taskname=“$@”

if[-n

“${taskname}”];thentrigger“${taskname}”“compute”

#1

trigger“${taskname}”“trans_result”

#2

trigger“${taskname}”“push_result”

#3

fi}trigger_routine“${taskname}”优质库提取优质库提取流程转发的微博低质微博含图片含音乐含视频中文字数>50N淘汰NNNNNYYNYYYY去重处理有效转发数<10Y入选优质库优质库提取优质库提取流程有效转发数或赞>0YN历史库总量的5%提纲业务背景离线计算优质库提取改进措施其他相关Q&A改进措施接下来有待

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论