基于Hadoop-HBase的一淘搜索离线系统_第1页
基于Hadoop-HBase的一淘搜索离线系统_第2页
基于Hadoop-HBase的一淘搜索离线系统_第3页
基于Hadoop-HBase的一淘搜索离线系统_第4页
基于Hadoop-HBase的一淘搜索离线系统_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于Hadoop/HBase的一淘搜索离线系统个人简介花名:莫问真名:王峰

2006年硕士毕业于北航计算机系毕业后加入阿里巴巴集团雅虎中国-垂直搜索团队阿里云-计算服务团队淘宝/一淘-网页抓取团队技术方向:分布式系统和大数据处理提纲一淘搜索系统架构基于HBase的分布式存储系统基于Hadoop的分布式计算平台一淘全网商品离线处理系统抓取系统

存储系统业务处理流程索引构建搜索引擎Web搜索前端

淘宝商品一淘搜索系统架构淘宝商品导入基于HBase的分布式存储系统HBase集群概述HBase主要数据HBase扩展开发基于HBase的分布式消息队列HBase集群概述集群版本:0.94.x+扩展优化集群规模:300台+存储量:300TB+每日更新量:10%监控:Ganglia+JMXHBase主要数据电子商务网页库(几十亿)全网B2C商品全网导购信息(资讯、问答、论坛、点评等)淘宝+天猫商品(40%)精选优质商品淘客返利商品HBase扩展开发定制Load

Balance插件定制Region

Split/Merge插件和工具扩展ThriftServer

API增强的MapReduce

Lib支持丰富更多的Metrics指标多种Coprocessor插件RegionServerRegionServerRegionServer……..RegionServerregionregionregionregionregionregionregionregionregionregionregionregionregionregionRS-LevelBalanceRegionServerRegionServerRegionServer……..RegionServerregionregionregionregionregionregionregionregionregionregionregionregionregionregionregionTable-LevelBalanceRegionServerRegionServerRegionServer……..RegionServerregionregionregionregionregionregionregionregionregionregionregionregionregionregionregionBoth

RS&

TableLevelBalanceQueuePartition

1Message

1Message

2Message

3…………..Partition

2Message

1Message

2Message3…………..……………………….ColumnTimesatampRowkey基于HBase的分布式消息队列(HQueue)ValuePartition

ID

+

MessageIDTopicTimestampValueQueue

is

a

HBase

TablePartition

is

a

HBase

RegionMessage

is

a

HBase

KeyValueRegionServerTimestampSequence

IDTopicValuePartition

IDRowKeyHQueue

WriterHTablePutAPIWrapperCOPROCESSOr…………2.LocateByPartitionIDSortByTSPARTITIOnMessageMessageMessageMessage1.CreateMessageKV3.SetMessageID

By

TS

and

SeqID4.AppendToPartitionRegionServerCOPROCESSOr…………PARTITIOnMessageMessageMessageMessage…………MessageIDMessage写入流程

RegionServer\\HQueue

ReaderHTableScanAPIWrapper2.LocateByPartitionID1.CreateMessageScanPartitionIDMessageID(TS)RangeMessage

TopicMessage读取流程

RegionServer……………………PARTITIOnMessageMessageMessageMessage3.

Scan

Sequencially

SortByTS4.Return

By

Order…………PARTITIOnMessageMessageMessageMessageSortByTSHQueue特性支持持久化压缩存储(继承HBase)支持自动Failover(继承HBase)支持动态负载均衡(继承HBase)支持TTL设定,自动清理过期消息(继承HBase)支持多语言客户端(扩展HBase

ThriftServer)可与HBase统一运维(本质都是HBase)可与Hadoop

MR无缝对接(开发HQueue

MR

Lib)电商网页库URL选取URL队列抓取系统Page队列抽取系统提链事件队列Dump事件队列图片、JS事件队列提链系统Dump系统图片、JS处理系统HQueue应用场景基于Hadoop的分布式计算平台Hadoop集群介绍Hadoop集群业务流程Hadoop-2.0基于Hadoop

YARN的定制计算服务集群版本:2.0.X

集群规模:300台+存储量:1PB+每日运行Job数:2万+监控:Ganglia+JMXHadoop集群介绍网页调度与选取网页链接提取网页内容抽取全网商品各维度数据挖掘一淘全网商品搜索数据Dump一淘全网商品搜索Index

BuildHadoop集群业务流程NameNodeHAHDFS所有环节无单点支持HDFS在线升级YARN引入二级调度,Not

Only

MR,可定制计算模型Cgroups资源隔离方案更彻底,让系统更稳定Hadoop-2.0MapReduce-1.0MapReduce-2.0(YARN)ResourceManagerNodeManagerAppWorkerAppMasterNodeManagerAppWorkerNodeManagerAppWorkerAppWorkerAppMasterClientNodeStatusResourceRequestAppStatusClientServiceSubmissionFork/MonitorLanchService

Worker……流式数据源(HQueue,

MySQL

DRC,

TimeTunel)中转队列Service

WorkersInputFormatInputFormatOutputFormatServiceMasterMetricsService

WorkerService

WorkerService

Worker……Service

WorkersService

WorkerService

Workerzookeeperregister基于YARN的流式计算服务Progress

CheckpointMetricsInputSplitInputSplitService

WorkerServiceMaster1.

Metrics(包括进度)InputSplitInputSplitService

WorkerService

Worker2.发现Worker处理进度太慢3.分裂Worker动态分裂计算WorkerServiceMasterInputSplitInputSplitService

WorkerService

WorkerService

WorkerInputSplitInputSplit1.

Metrics(包括进度)2.发现两个Worker比较空闲3.

合并Worker动态合并计算Worker一淘全网商品离线处理系统全网商品接入(淘宝+外网)全网商品存储(HBase)全网商品Dump(业务逻辑计算)全网商品Index

BuildHBase(全网商品库)一淘抓取系统Import

Job淘宝搜索Hadoop/HBase集群淘宝商品外网商品eHarmony

API

Service前端运营工具人工修正修正商品状态属性Import

Service全量增量一淘全网商品接入HBase(全网商品库)DumpServiceDumpJobIndexBuild

JobHQueueXML文件问天搜索引擎

索引文件实时消息定期增量XML文

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论