ODPS权威指南 阿里大数据平台应用开发实践_第1页
ODPS权威指南 阿里大数据平台应用开发实践_第2页
ODPS权威指南 阿里大数据平台应用开发实践_第3页
ODPS权威指南 阿里大数据平台应用开发实践_第4页
ODPS权威指南 阿里大数据平台应用开发实践_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ODPS权威指南阿里大数据平台应用开发实践读书笔记模板01思维导图读书笔记作者介绍内容摘要目录分析精彩摘录目录0305020406思维导图平台应用应用指南大数据示例阿里数据数据小结分析第章场景运行应用示例管理问题准备本书关键字分析思维导图内容摘要内容摘要ODPS(OpenDataProcessingService)是阿里巴巴自主研发的海量数据处理和分析的服务平台,主要应用于数据分析、海量数据统计、数据挖掘、机器学习和商业智能等领域。目前,ODPS不仅在阿里内部得到广泛应用,享有很好的口碑,正逐步走向第三方开放市场。《ODPS权威指南阿里大数据平台应用开发实践》是学习和掌握ODPS的权威指南,作者来自阿里ODPS团队。全书共13章,主要内容包括:ODPS入门、整体架构、数据通道、MapReduce编程、SQL查询分析、安全,以及基于真实数据的各种场景分析实战。本书基于很多范例解析,通过在各种应用场景下的示例来说明如何通过ODPS完成各种需求,以期引导读者从零开始轻松掌握和使用ODPS。同时,本书不局限于示例分析,也致力于提供更多关于大数据处理的编程思想和经验分享。书中所有示例代码都可以在作者提供的站上免费下载。《ODPS权威指南阿里大数据平台应用开发实践》适合想要了解和使用ODPS的读者阅读学习,对于从事大数据存储和应用以及分布式计算的专业人士来说,也是很好的参考资料。读书笔记读书笔记这本书使我理解了信息化的本质和内涵“种下一颗种子,然后长成参天大树”。ODPS或是MaxCompute使用说明书。我是站在基于经济性、便捷性应用角度看这本书,站在业务“不对冲”的阶段推介此书。几乎不涉及底层原理,相当于一个产品手册。粗略的翻完一遍,感觉只适合一种软件体系,没有太多可扩展或借鉴的地方。大型分布式、云计算和大数据的“超音速”发展,从概念股到了现在的应用股,其经济性、运算速度、技术安全应该是比较成熟的,适合中小企业用户租用。ODPS(现在叫MaxCompute)是阿里巴巴内部使用最广泛的通用技术。这本书是对阿里云官方文档、阿里ATA技术论坛在ODPS上的一个有益补充。作为产品使用书不错,专业方面没有太深入,但文笔不错,感兴趣的同学可以看看。目录分析1.1引言1.2初识ODPS1.3基本概念1.4应用开发模式1.5一些典型场景12345第1章ODPS概述1.7小结1.6现状和前景第1章ODPS概述1.2初识ODPS1.2.1背景和挑战1.2.2为什么做ODPS1.2.3ODPS是什么1.2.4ODPS做什么1.3基本概念1.3.1账号(Account)1.3.2项目空间(Project)1.3.3表(Table)1.3.4分区(Partition)1.3.5任务(Task)、作业(Job)和作业实例(Instance)1.3.6资源(Resource)1.4应用开发模式1.4.1RESTfulAPI1.4.2ODPSSDK1.4.3ODPSCLT1.4.4管理控制台1.4.5IDE1.5一些典型场景1.5.1阿里金融数据仓库1.5.2CNZZ数据仓库1.5.3支付宝账号影响力圈1.5.4阿里金融水文衍生算法1.5.5阿里妈妈广告CTR预估2.1准备工作2.2使用管理控制台2.3配置ODPS客户端2.4站日志分析实例第2章ODPS入门2.6小结2.5获取帮助第2章ODPS入门2.1准备工作2.1.1创建云账号2.1.2开通ODPS服务2.3配置ODPS客户端2.3.1下载和配置CLT2.3.2准备dual表2.3.3CLT运行模式2.3.4下载和配置dship2.3.5通过dship上传下载数据2.4站日志分析实例2.4.1场景和数据说明2.4.2需求分析2.4.3数据准备2.4.4创建表并添加分区2.4.5数据解析和导入2.4.6数据加工2.4.7数据分析2.4.8自动化运行2.4.9应用数据集市3.1dship工具3.3MySQL数据同步到ODPS3.2收集Web日志第3章收集海量数据3.5小结3.4下载结果表第3章收集海量数据3.2收集Web日志3.2.1场景和需求说明3.2.2问题分析和设计3.2.3实现说明3.2.4进一步探讨3.2.5为什么这么难3.2.6解决方案:SLS3.3MySQL数据同步到ODPS3.3.1场景和需求说明3.3.2问题分析和实现3.3.3进一步探讨4.1ODPSSQL是什么4.3站日志分析4.2入门示例第4章使用SQL处理海量数据4.5小结4.4天猫品牌预测第4章使用SQL处理海量数据4.2入门示例4.2.1场景说明4.2.2简单的DDL操作4.2.3生成数据4.2.4单表查询4.2.5多表连接JOIN4.2.6高级查询4.2.7多表关联UNIONALL4.2.8多路输出(MULTI-INSERT)4.3站日志分析4.3.1准备数据和表4.3.2维度表4.3.3访问路径分析4.3.4TopK查询4.3.5IP黑名单4.4天猫品牌预测4.4.1主题说明和前期准备4.4.2理解数据4.4.3两个简单的实践4.4.4问题分析和算法设计4.4.5生成特征4.4.6抽取正负样本4.4.7生成模型4.4.8验证模型4.4.9预测结果5.1UDF是什么5.2入门示例5.3实际应用案例5.4SQL实现原理第5章SQL进阶5.6小结5.5SQL调优第5章SQL进阶5.3实际应用案例5.3.1URL解码5.3.2简单的LBS应用5.3.3站访问日志UserAgent解析5.4SQL实现原理5.4.1词法分析5.4.2语法分析5.4.3逻辑分析5.4.4物理分析5.5SQL调优5.5.1数据倾斜5.5.2一些优化建议5.5.3一些注意事项6.1ODPSTunnel是什么6.2入门示例6.3Tunnel原理6.4从Hadoop迁移到ODPS第6章通过Tunnel迁移数据6.6小结6.5一些注意点第6章通过Tunnel迁移数据6.2入门示例6.2.1下载和配置6.2.2准备数据6.2.3上传数据6.2.4下载数据6.3Tunnel原理6.3.1数据如何传输6.3.2客户端和服务端如何交互6.3.3如何实现高并发6.4从Hadoop迁移到ODPS6.4.1问题分析6.4.2客户端实现和分析6.4.3Mapper实现和分析6.4.4编译和运行6.4.5进一步探讨7.1MapReduce编程模型7.2MapReduce应用场景7.3初识ODPSMapReduce7.4入门示例7.5TopK查询12345第7章使用MapReduce处理数据7.7小结7.6SQL和MapReduce,用哪个?第7章使用MapReduce处理数据7.4入门示例7.4.1准备工作7.4.2问题分析7.4.3代码实现和分析7.4.4运行和输出分析7.4.5扩展:使用Combiner?7.5TopK查询7.5.1场景和数据说明7.5.2问题分析7.5.3具体实现分析7.5.4运行和结果输出7.5.5扩展:忽略StopWords7.5.6扩展:数据和任务统计7.5.7扩展:MR2模型8.1再谈Shuffle&Sort8.2好友推荐8.3LBS应用探讨:周边定位8.4MapReduce调试8.5一些注意事项8.6小结010302040506第8章MapReduce进阶8.2好友推荐8.2.1场景和数据说明8.2.2问题定义和分析8.2.3代码实现8.3LBS应用探讨:周边定位8.3.1场景和数据说明8.3.2问题定义和分析8.3.3代码实现和分析8.3.4运行和测试8.4MapReduce调试8.4.1带bug的代码8.4.2通过本地模式调试8.4.3通过Counter调试8.4.4通过log调试9.1初识ODPS算法9.2入门示例9.3几个经典的算法9.4天猫品牌预测9.5小结12345第9章机器学习算法9.2入门示例9.2.1通过CLT统计分析9.2.2通过XLab统计分析9.3几个经典的算法9.3.1逻辑回归(LogisticProgression)9.3.2随机森林(RandomForest)9.4天猫品牌预测9.4.1逻辑回归9.4.2随机森林9.4.3脚本实现和自动化9.4.4进一步探讨10.1主要的Package和接口10.2入门示例10.3基于Eclipse插件开发10.4小结第10章使用SDK访问ODPS服务10.1主要的Package和接口10.1.1主要的Package10.1.2核心接口11.1权限管理11.2资源管理11.3数据管理11.4小结第11章ODPS权限、资源和数据管理11.1权限管理11.1.1账号授权11.1.2角色(Role)授权11.1.3ACL授权特点11.1.4简单的Policy授权11.1.5RolePolicy11.1.6ACL授权和Policy授权小结11.2资源管理11.2.1Project内的资源管理11.2.2跨Project的资源共享11.3数据管理11.3.1表生命周期11.3.2数据归并(Merge)11.3.3跨Project数据同步11.3.4跨Project数据保护(ProjectProtection)12.1体系架构12.2执行流程12.3底层数据存储12.4内聚式框架第12章深入了解ODPS12.6小结12.5跨集群复制第12章深入了解ODPS12.1体系架构12.1.1客户端12.1.2接入层12.1.3逻辑层12.1.4存储/计算层12.2执行流程12.2.1提交作业12.2.2运行作业12.2.3查询作业状态12.2.4执行逻辑图12.3底层数据存储12.3.1CFILE是什么12.3.2CFILE逻辑结构12.4内聚式框架12.4.1元数据12.4.2运维管理12.4.3多控制集群和多计算集群12.5跨集群复制12.5.1数据迁移12.5.2跨集群同步13.1R语言数据探索13.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论