自下而上的数据仓库构建方法课件_第1页
自下而上的数据仓库构建方法课件_第2页
自下而上的数据仓库构建方法课件_第3页
自下而上的数据仓库构建方法课件_第4页
自下而上的数据仓库构建方法课件_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自下而上的数据仓库构建方法童小军(XiaoJunTong)——思考数据统计系统的需求/本源——寻找一种简易统计分析思路——尝试一种简单简简易统计的简单实现和应用1——思考数据统计系统的需求/本源1童小军(XiaoJun

Tong)2006来北京从事搜索引擎研发工作[思考搜索的智能?]2007~2008在FeedSky从事博客搜索研发(Web2.0)2008~至今北京暴风网际搜索研发主管2010~2012对外经济贸易大学UIBE国际商学院企业管理研究生[在读]微博:/tongxiaojunMSN:tongxiaojun@2童小军(XiaoJunTong)2[暴风搜索]数据平台发展几个阶段2008rsync,log文件,java分析,jsp程序2009BI,数据仓库,syslog-ng,perl/python2010[4w+r=3h],闭环反馈,数据决策,报表驱动2011管理会计,内部成本/收益核算[PV/$],ISO9001,PMI[OPM3]3[暴风搜索]数据平台发展几个阶段2008rsync,[思考]数据统计需求和本源?需求/本源?[思考]数据统计,分析的需求/本源?使用列举类推法思考[思考]数据统计需求和本源?需求/本源?[思考]数据统计4[思考]需求/本源[举例:组织结构]5[思考]需求/本源[举例:组织结构]5[思考]需求/本源[举例:质量优化]6[思考]需求/本源[举例:质量优化]6[思考]需求/本源[举例:工业控制]7[思考]需求/本源[举例:工业控制]7[思考]组织项目管理成熟度模型OPM3模型第1维成熟度的4个梯级分别是:标准化的(Standardizing)可测量的(Measuring)可控制的(Controlling)

持续改进的(ContinuouslyImproving)8[思考]组织项目管理成熟度模型OPM3模型第1维成熟度的[思考]需求/本源[简易的智能结构]需求/本源=>智能/结构商业智能[BI]性能指标:反馈周期?决策有效性?反馈成本?数据统计/分析是自动控制系统和自学习,自调整系统的核心组成部分。9[思考]需求/本源[简易的智能结构]需求/本源=>智[数据构建方法]什么是自下而上?[需求]-->[展现]-->[分析逻辑]-->[数据结构]变化可能----->越到底层越少修改成本----->越到底层越高10[数据构建方法]什么是自下而上?[需求]-->[[数据构建思路][抽象分析]-->[总结归纳]-->[数据结构]-->[各类逻辑]-->[业务需求]保留全部可能性-->总结需求的组成基本变量-->总结固定逻辑和结构-->设计满足各类需求的系统[数据构建思路][抽象分析]-->[总结归纳]-11[构建策略]自下而上,以不变应万变==自下而上构建==12[构建策略]自下而上,以不变应万变12[Log构建方法]四个构建策略1.数据公式:[4w+r=2h]2.实时汇总:[js-->nginx+perl-->syslog-ng-->python/perl-->db]3.存储格式:[一日一表]4.统计方法:[2sql方法]5.图表展现:[模板引擎]13[Log构建方法]四个构建策略1.数据公式:[4w1.Log数据公式:[4w+r=2h]4W(who,when,where,what)+R(result)=3H(why?how?win?)log统计:who=(uid,uname)用户维度when=[time,last_time,log_time]时间维度where=(url/from_url,version,host,uip,system)空间维度what=(click/search[keyword,orderfiled]))场景维度result=(time,count,iscached)结果维度=3H(whyhowwin)为何?怎么办?如何赢?141.Log数据公式:[4w+r=2h]4W(wh2.实时汇总:[js+nginx+syslog-ng+perl]流程:js-->nginx+perl-->syslog-ng-->python/perl-->dbJS[flash]:收集用户前端的感受nginx+嵌入perl模块:并发和并能syslog-ng:log{source(s_local);filter(f_cache);destination(d_cache_file);destination(d_cache_py);};db:mysql:MyISAM[列式数据库:infobright](够用就行)152.实时汇总:[js+nginx+syslog-ng+pe3.存储格式:[一日一表]1.一日一个表结构,每日凌晨压缩2.表结构[MysqlMyISAM]3.少量索引4.压缩工具:myisampack压缩40%-50%[自读]5.举例:search_log_20101011click_log_20101011163.存储格式:[一日一表]1.一日一个表结构,每日凌晨4.统计方法:[2sql方法][2sql方法[大部分满足分析需求]+程序(小部分)]数据仓库-->sql-->数据集市-->sql-->展现结果[满足大部分的分析需求]sqltask分析工具原理。log库-->统计库[配置可以在sql客户端直接调试]DEMO:#desc:搜索行为次数,实际无结果,实际无结果率[相对,绝对]搜索无结果次数/搜索行为次数#source::3306:user_action#market::3306:user_analysis#{search_result}{mode:varchar(255),count:int(11),qj_rate:float,rate:float,day:int(8),update_time:bigint(20)}selectresult_typeasmode,count(search_log_id)ascount,count(search_log_id)*100/(selectcount(search_log_id)fromlog_search_#daywhere1andresult_count='0')asrate,count(search_log_id)*100/(selectcount(search_log_id)fromlog_search_#daywhere1andsearch_begin=1)asqj_rate,'#day'asday,UNIX_TIMESTAMP(now())*1000asupdate_timefromlog_search_#daywhere1andresult_count='0'andsearch_begin=1groupbymodeorderbycountdesc;";4.统计方法:[2sql方法][2sql方法[大部分174.图表展现:[模板引擎]1.定义数据源2.定义查询语句和变化字段3.定义展现配置DEMO:#desc:搜索行为次数,实际无结果,实际无结果率[相对,绝对]搜索无结果次数/搜索行为次数#source::3306:user_action#input:#start_day#end_day#X:dayY:countType:line#{搜索行为}{mode:类型,count:搜索,qj_rate:绝对无结果,rate:比例,day:天,update_time:更新时间}selectmode,count,qj_rate,rate,day,update_timefromsearch_resultwhere1andday>=#start_dayday<=#end_dayorderbydaydesc;";4.图表展现:[模板引擎]1.定义数据源DEMO:18[发展经历]暴风搜索数据两个阶段第一阶段:js-->php-->log[n]-->rsync-->log.tar.gz->分析程序[分析逻辑]-->数据库-->数据展现[java]第二阶段:[业务知识和行业同步]js-->[nginx+perl]-->syslog-ng-->search_log入库程序-->数据仓库-->[sql]sql_task程序-->数据集市-->[sql]展现[python[邮件]/.net[桌面]]19[发展经历]暴风搜索数据两个阶段第一阶段:19数据集市[db]-->python-->data.file-->gnuplot+绘图配置-->img+data-->mailgnuplot帮助:/dsectest/dsec_cn/gnuplot/python报表邮件实现数据集市[db]-->python-->data.f20方案:sql+配置==>数据+曲线集成环境:桌面工具+方案存储+统计展现分析桌面平台的基本构思方案:sql+配置==>数据+曲线集成环境:21修改决策-->研发测试-->上线-->数据[单一决策,周期长,影响整体稳定性]修改决策-->研发测试-->分流系统-->正式环境-->数据[支持多路决策,周期端,影响小,心理成本低] -->小版本1-->数据

-->小版本2-->数据数据系统和快速决策[小版本放量数据平台]修改决策-->研发测试-->上线-->数据[单22思考那些指标影响了一个数据系统的性能?以上思路在那些方面改善了这些指标。反馈周期?决策有效性?反馈成本?什么是成功的数据系统?思考那些指标影响了一个数据系统的性能?什么是成功的数据系统23总结,我们可以以什么应对变化?==以不变应万变====以闭环反馈应万变====以4w+r=3h应万变==24总结,我们可以以什么应对变化?==以不变应万变==24题外话题外话:[个人的一个发现]关于海内外互联网alexa排名总结.Alexa排名显示:中国本土互联网繁荣。Alexa排名比例:500强:12.6%200强:12.5%100强:13%位美国后。中国本土应用遍地开花。业务涵盖搜索门户IM电子商务视频分享微博等领域。而其他国家用户多访问美国服务。数据来源:/alexa-static/top-1m.csv.zip因语言[汉英],政策差异较大[开放/半封闭]:互联网会出现两个极点!一个在美国,一个在中国。题外话题外话:[个人的一个发现]25Q&A

童小军(XiaoJunTong)微博:http:///tongxiaojun2626招聘广告-暴风:让享受电影更简单暴风影音诚聘P2P高级研发工程师精通C/C++,4年或以上P2P开发经验,对现行P2P软件的客户端及服务端的架构设计有一定了解,对某款P2P产品有深入了解更佳。有在线视频点播类产品开发经验者优先,有意者请发送简历hr@请在标题处注明来源。招聘广告-暴风:让享受电影更简单暴风影音诚聘P2P高级27自下而上的数据仓库构建方法童小军(XiaoJunTong)——思考数据统计系统的需求/本源——寻找一种简易统计分析思路——尝试一种简单简简易统计的简单实现和应用28——思考数据统计系统的需求/本源1童小军(XiaoJun

Tong)2006来北京从事搜索引擎研发工作[思考搜索的智能?]2007~2008在FeedSky从事博客搜索研发(Web2.0)2008~至今北京暴风网际搜索研发主管2010~2012对外经济贸易大学UIBE国际商学院企业管理研究生[在读]微博:/tongxiaojunMSN:tongxiaojun@29童小军(XiaoJunTong)2[暴风搜索]数据平台发展几个阶段2008rsync,log文件,java分析,jsp程序2009BI,数据仓库,syslog-ng,perl/python2010[4w+r=3h],闭环反馈,数据决策,报表驱动2011管理会计,内部成本/收益核算[PV/$],ISO9001,PMI[OPM3]30[暴风搜索]数据平台发展几个阶段2008rsync,[思考]数据统计需求和本源?需求/本源?[思考]数据统计,分析的需求/本源?使用列举类推法思考[思考]数据统计需求和本源?需求/本源?[思考]数据统计31[思考]需求/本源[举例:组织结构]32[思考]需求/本源[举例:组织结构]5[思考]需求/本源[举例:质量优化]33[思考]需求/本源[举例:质量优化]6[思考]需求/本源[举例:工业控制]34[思考]需求/本源[举例:工业控制]7[思考]组织项目管理成熟度模型OPM3模型第1维成熟度的4个梯级分别是:标准化的(Standardizing)可测量的(Measuring)可控制的(Controlling)

持续改进的(ContinuouslyImproving)35[思考]组织项目管理成熟度模型OPM3模型第1维成熟度的[思考]需求/本源[简易的智能结构]需求/本源=>智能/结构商业智能[BI]性能指标:反馈周期?决策有效性?反馈成本?数据统计/分析是自动控制系统和自学习,自调整系统的核心组成部分。36[思考]需求/本源[简易的智能结构]需求/本源=>智[数据构建方法]什么是自下而上?[需求]-->[展现]-->[分析逻辑]-->[数据结构]变化可能----->越到底层越少修改成本----->越到底层越高37[数据构建方法]什么是自下而上?[需求]-->[[数据构建思路][抽象分析]-->[总结归纳]-->[数据结构]-->[各类逻辑]-->[业务需求]保留全部可能性-->总结需求的组成基本变量-->总结固定逻辑和结构-->设计满足各类需求的系统[数据构建思路][抽象分析]-->[总结归纳]-38[构建策略]自下而上,以不变应万变==自下而上构建==39[构建策略]自下而上,以不变应万变12[Log构建方法]四个构建策略1.数据公式:[4w+r=2h]2.实时汇总:[js-->nginx+perl-->syslog-ng-->python/perl-->db]3.存储格式:[一日一表]4.统计方法:[2sql方法]5.图表展现:[模板引擎]40[Log构建方法]四个构建策略1.数据公式:[4w1.Log数据公式:[4w+r=2h]4W(who,when,where,what)+R(result)=3H(why?how?win?)log统计:who=(uid,uname)用户维度when=[time,last_time,log_time]时间维度where=(url/from_url,version,host,uip,system)空间维度what=(click/search[keyword,orderfiled]))场景维度result=(time,count,iscached)结果维度=3H(whyhowwin)为何?怎么办?如何赢?411.Log数据公式:[4w+r=2h]4W(wh2.实时汇总:[js+nginx+syslog-ng+perl]流程:js-->nginx+perl-->syslog-ng-->python/perl-->dbJS[flash]:收集用户前端的感受nginx+嵌入perl模块:并发和并能syslog-ng:log{source(s_local);filter(f_cache);destination(d_cache_file);destination(d_cache_py);};db:mysql:MyISAM[列式数据库:infobright](够用就行)422.实时汇总:[js+nginx+syslog-ng+pe3.存储格式:[一日一表]1.一日一个表结构,每日凌晨压缩2.表结构[MysqlMyISAM]3.少量索引4.压缩工具:myisampack压缩40%-50%[自读]5.举例:search_log_20101011click_log_20101011433.存储格式:[一日一表]1.一日一个表结构,每日凌晨4.统计方法:[2sql方法][2sql方法[大部分满足分析需求]+程序(小部分)]数据仓库-->sql-->数据集市-->sql-->展现结果[满足大部分的分析需求]sqltask分析工具原理。log库-->统计库[配置可以在sql客户端直接调试]DEMO:#desc:搜索行为次数,实际无结果,实际无结果率[相对,绝对]搜索无结果次数/搜索行为次数#source::3306:user_action#market::3306:user_analysis#{search_result}{mode:varchar(255),count:int(11),qj_rate:float,rate:float,day:int(8),update_time:bigint(20)}selectresult_typeasmode,count(search_log_id)ascount,count(search_log_id)*100/(selectcount(search_log_id)fromlog_search_#daywhere1andresult_count='0')asrate,count(search_log_id)*100/(selectcount(search_log_id)fromlog_search_#daywhere1andsearch_begin=1)asqj_rate,'#day'asday,UNIX_TIMESTAMP(now())*1000asupdate_timefromlog_search_#daywhere1andresult_count='0'andsearch_begin=1groupbymodeorderbycountdesc;";4.统计方法:[2sql方法][2sql方法[大部分444.图表展现:[模板引擎]1.定义数据源2.定义查询语句和变化字段3.定义展现配置DEMO:#desc:搜索行为次数,实际无结果,实际无结果率[相对,绝对]搜索无结果次数/搜索行为次数#source::3306:user_action#input:#start_day#end_day#X:dayY:countType:line#{搜索行为}{mode:类型,count:搜索,qj_rate:绝对无结果,rate:比例,day:天,update_time:更新时间}selectmode,count,qj_rate,rate,day,update_timefromsearch_resultwhere1andday>=#start_dayday<=#end_dayorderbydaydesc;";4.图表展现:[模板引擎]1.定义数据源DEMO:45[发展经历]暴风搜索数据两个阶段第一阶段:js-->php-->log[n]-->rsync-->log.tar.gz->分析程序[分析逻辑]-->数据库-->数据展现[java]第二阶段:[业务知识和行业同步]js-->[nginx+perl]-->syslog-ng-->search_log入库程序-->数据仓库-->[sql]sql_task程序-->数据集市-->[sql]展现[python[邮件]/.net[桌面]]46[发展经历]暴风搜索数据两个阶段第一阶段:19数据集市[db]-->python-->data.file-->gnuplot+绘图配置-->img+data-->mailgnuplot帮助:/dsectest/dsec_cn/gnuplot/python报表邮件实现数据集市[db]-->python-->data.f47方案:sql+配置==>数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论