大数据 高鹏 数据分析领域的黑马-ClickHouse-新浪-高鹏-2017年11月24日-PDF.compressed_第1页
大数据 高鹏 数据分析领域的黑马-ClickHouse-新浪-高鹏-2017年11月24日-PDF.compressed_第2页
大数据 高鹏 数据分析领域的黑马-ClickHouse-新浪-高鹏-2017年11月24日-PDF.compressed_第3页
大数据 高鹏 数据分析领域的黑马-ClickHouse-新浪-高鹏-2017年11月24日-PDF.compressed_第4页
大数据 高鹏 数据分析领域的黑马-ClickHouse-新浪-高鹏-2017年11月24日-PDF.compressed_第5页
已阅读5页,还剩156页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

据分析领域的黑马--ClickHouse新浪-高鹏-2017年11月“世上⽆难事,只要有捷径”“⼯具选的好,下班回家早”•数据分析⾯临的问题•ClickHouse原理、架构•ClickHouse在新浪的实践与经验•ClickHouse案例、⽣态致⼒于运维⼤数据掘与分析可视化、报警、数据分析AI-OPS“表哥”“表姐”们HadoopSparkHive?太重了~求作为第⼀位~求作为第⼀位~求作为第⼀位~快速给出聚合/过滤结果WeNeed没有什么数据统计是一个SQL解决不了的。如果有,那就2个updatedinrealtime超⾼性能线性扩展不支持update/deleteBut,查询‘巨’快Let'sBegin2.Docker镜像1.修改⽹络,默认监控IPv4/v62.⾃定义数据⽬录,修改官⽅启动脚本3.Docker修改时区我们来压测⼀下~ahttps://clickhouse.yandex/docs/en/getting_started/example_datasets/ontime.html173MB4.731Sec9.3173MB4.731Sec9.3W/Sec5倍436951https://clickhouse.yandex/docs/en/getting_started/example_datasets/ontime.htmla⼩插插⼊耗时平均速度压压缩率响应时间WQPShttps://clickhouse.yandex/docs/en/getting_started/example_datasets/ontime.html•条件查询,聚合,排序https://clickhouse.yandex/docs/en/getting_started/example_datasets/ontime.html•复杂查询https://clickhouse.yandex/docs/en/getting_started/example_datasets/ontime.html1.启动Server2.usedb,createtable3.尽情select稀疏索引粒度稀疏索引粒度2.全部CPU打满,查询效率极⾼题:1.性能依赖单机(scaleup路线)2.存在单点故障⻛险(宕机数据全丢).主键查询.主键查询:最左原则.其他列查询:稀疏索引定位区间:不适合点对点查询,适合范围查询查询问题:会带来过多的IO直接落磁盘,按照主键排序,分块写⼊不⽀持删除、修改primary.idx+*.bin+*.mrk+checksums.txt+columns.txt写假的‘scaleout’实现apm_msgapm_msg_allapm_msg库分布算法集群库分布算法集群名称Distributed引擎:分布式如何做到的通过域名,写本地表apm_msg_allapm_msg_allapm_msg通过域名,写本地表apm_msg_allapm_msg_allapm_msg_all写apm_msgapm_msgapm_msgClickHapm_msg_allapm_msg写操作读操作⾃⼰还可以聚合,如top/groupby逻辑就不同ClickHouse-读操作⾃⼰还可以聚合,如top/groupby逻辑就不同ClickHapm_msg_allapm_msgapm_msg_allapm_msgapm_msg_allapm_msg通过域名,读分布式表select*fromapm_msg_allxxxyyyapm_msg_allapm_msg读拿到所有节点数据 (各⾃计算⼀次)本地汇总后读读取真实数据apm_msg_allapm_msg_allapm_msg_allapm_msg_allapm拿到所有节点数据 (各⾃计算⼀次)本地汇总后读读取真实数据apm_msg_allapm_msg_allapm_msg_allapm_msg_allapm_msgapm_msgapm_msgClickHapm_msg返回给客户端读apm_msg_allapm_msg_allapm_msg_allapm_msg_allapm_msgapm_返回给客户端读apm_msg_allapm_msg_allapm_msg_allapm_msg_allapm_msgapm_msgapm_msgClickHapm_msg读操作读取真实数据聚合返回⽂件,达到集群相互知晓⼊查询/写⼊能⼒随机器数线性增加clusterconfigupdatedonthefly表,造成数据不均匀域名映射的IP只有在初始解析3.新增节点,历史数据不会搬迁,造成不均衡4.过度的groupby,导致⼤量数据交换5.数据分⽚依赖单机稳定性,缺乏可靠性apm_msgapm_msgapm_msgapm_msgClickHouse的复制apm_msgapm_msgapm_msgapm_msg多源、多主、多向复制⾃带同步机制(物理复制)依赖ZK多源、多主、多向复制apm_msgapm_msgapm_msgapm_msg多源、多主、多向复制apm_msgapm_msgapm_msgapm_msg⾃带同步机制(物理复制)依赖ZKReplicatedMergeTree('zk路径','副本名称',⽇期列,(其他列,⽇期列),索引粒度)IDC1IDC2A''IDC3A'AB''CC'C''IDC1IDC2A''IDC3A'AB''CC'C''3个IDC使⽤复制机制做互备每个IDC3个节点,做分布式表,分担查询压⼒A/B/C分别是数据的3个分⽚,各⾃承担1/3的数据IDC1IDC3IDC2A''A'B''AC''C'CIDC1IDC3IDC2A''A'B''AC''C'C1.3个IDC,挂掉2个不影响读写恢复只需重启实例ClickHouse⾃动完成数据同步2.挂掉某个实例,如A切换读写到其他IDC,恢复实例A即可处理⽅式同上4字段500亿15TX4CPUE5-2620@2.00GHz开启超线程后24core3T*12Raid50.9秒selectdate,count(*)fromxxgroupbydate9.8秒官方demo快快快1.优秀的代码编写,强⼤的底层优化,严格的单元测试2.Avectorengine&Codegeneration4.C++新特性ClickHouse函数:ClickHouse高级函数:ClickHouse高级函数:统计类其他today()-1substring(s,ofset,length)extract(haystack,pattern)域名类IP归类目录结构conig.xmlmetrika.xmlmetrika.xmlhttp://jackpgao.github.io/2017/11/20/ClickHouse-User-Password/http://jackpgao.github.io/2017/11/20/ClickHouse-User-Password/ClickHouse的问题:1.insertintoxx(a,b,c)values('a','b','c')只能是单引号2.如果是int插⼊的是string,报错(不确定是否有类似SQL_MODE的参数)3.删除只⽀持到⽉纬度的分区rsstoreover20.3trillionrows欧洲原⼦能研究机构store欧洲原⼦能研究机构storeandprocessmetadataon10billioneventswithover1000attributespereventncialservicesinRussia 《HowCloudflareanalyzes1MDNSqueriespersecond》.做存储的公司.CARTO(formerlyCartoDB)isaSoftwareasaService(SaaS)cloudcomputingplatformthatprovidesGISandwebmappingtoolsfordisplayinawebbrowser..AltinityistheleadingserviceproviderforClickHouse.AltinityProvidesCloudVersionofClickHouseonKodiakDataMemCloud™.KodiakDataisanedge-cloudinfrastructurecompanythatallowscustomerstoeasilydeployandscalebigdatainfrastructureinbothpublicandprivatecloudsBlockchairisablockchainsearchandanalyticsengineoryoucanalsosayit'sablockchainexploreronsteroids.•Airbnb开源Python项目•Apache孵化•快速实现可视化•完美对接ClickHouse,方便分析师进行问题排查与分析.某APPAPM管理•数据处理链路短时可见,及时Trace••数据处理链路短时可见,及时Trace•如何快速数据变现.某APPAPM管理.某APPAPM管理/f1yegor/clickhouse_exporter+ClickHouseexporter+rafana运维(SSE4.2instructionsetneed)3.Raid-10isbetterIfRaid5/6/50,increasestripe_cache_size4.内存:越⼤越好,留给pagecache禁⽤swap/透明⼤⻚/NUMA5.CentOS7/Ext4/复制带宽问题使用1.batchinsert2K起步3.如果是Docker,注意修改时区4.clickhouse-client在Docker⾥,5.拒绝select*6.⽆Decimal,乘以倍率,⽤Uint64存使⽤场景构化SQL⽇志分析对⽐MySQL:复杂查询、容量,重点不在事务HDFS⽣态:简单、易⽤、查询快,规模稳定性有待验证ClickHouseClickHouseHangouttoClickHouse插件原⽣查询⽅式不灵活SQL插件复杂度有限扩展性区健壮社区正在发展Java/Python/R/PHP对⽐ES对⽐项对⽐项⽆需特别指明字段类型,兼容性好Java/PythonGPU产品datasetGPU产品datasets.GPU-acceleratedanalyticsdatabaseforreal-timeinsightsonstreaming.GPUDatabaseforFast,Interactive/benchmarks.html.HighPerformanceGPUDatabaseforBigData.World'smostadvancedGPUbasedDatabase74xto3,500xfasterthanCPUDBs..PG-StromisangnedforPostgreSQLv9.5orlater,toof-loadapartofCPUtoGPU(GraphicProcessorUnit)devices,andexecutetheminparallel开源产品商业产品性能与成本的均衡行业排名“那年我还是个DBA,饱受业务复杂查询,也就是OLAP之苦”/Summary.不好用,别撕我~HYPERLINK"mailto:gaopeng

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论