版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据工具概览昭远
@calio我是谁?微博:@calio邮箱:github:calio处理收集计算展现挖掘大数据处理的一般过程抽取抓取索引查询数据分析搜索我们的产品我们的做法收集:网页埋点+webserver日志收集处理:自定义的ETL脚本计算:hadoop+实时处理引擎+mysql挖掘:自定义的hadoop任务展现:amcharts收集工具收集工具Needlebase™从多种数据源获取数据(网页,xml,csv文件)合并,复制和清洗数据生成自定义视图编写代码来自动化抓取公共网站支持ruby,python,php社区特性:有很多别人写好的开放程序处理工具HadoopGoogleMapReduce架构的克隆,,最初由DougCutting开发,Yahoo!是最大的贡献献者运行在跨机器器的集群上巨大的相关工工具生态圈计算工具计算工具开源的关系型型数据库管理理系统成熟的系统,,相关资料较较多在大数据环境境下需要做shardingHadoopGoogleMapReduce架构的克隆,,最初由DougCutting开发,Yahoo!是最大的贡献献者运行在跨机器器的集群上巨大的相关工工具生态圈开源版本的GoogleBigTable底层使用HDFS存储与hadoop完美结合多客户端分布布式访问hadoop数据仓库系统统使用SQL来编写Hadoop任务延迟较高,不不能替代实时时数据库展现工具展现工具图形编程语言言积累了大量的的库,示例和和文档processing.js:processing的js实现d3.jsjavascript框架,前身为为Protovis包含了全量的的易用可视化化组件提供高层次接接口FusionTables提供类似电子子表格的在线线数据存储根据地理信息息可视化数据据数据挖掘工具具数据挖掘工具具Mahoutscikits.learn通用机器学习习算法在海量量数据之上运运行绝大部分代码码是基于Hadoop编写的分布式式作业内嵌了很多算算法来实现通通常的任务,,比如聚类、、分类、基于于用户行为的的物品推荐,,识别频繁共共现的属性python机器学习工具具标准机器学习习技术的高层层接口实验和快速原原型实现处理收集计算展现挖掘大数据处理的的一般过程抽取抓取索引查询数据分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年中职高考数学计算训练 专题06 指数、对数、幂及相关函数的计算(含答案解析)
- 小学动手能力和操作技能考核模拟试卷
- 高中英语写作技巧模拟测试试卷
- 人教版(2019)高中生物选择性必修1第2章神经调节单元测试卷含答案详解
- 儿童科学实验测验
- 如何培养小学生的良好学习习惯
- 快乐成长与成功收获
- 你最喜欢的一种吉祥物是什么
- 小学训练模拟试卷一
- 湖南省百师联盟2024-2025学年高三上学期复习联考(二)历史试题(解析版)
- 江西矿产资源概况
- 《组织架构图》课件
- 2023分布式光伏电站安装作业指导书
- 弘扬科学家精神演讲稿
- 书法作品的幅式、章法布局、题款与钤印
- 卡通学生班干部竞选自我介绍PPT模板
- 技能认证变配电运行值班员中级考试(习题卷7)
- 泌尿系结石的诊治课件
- 小学语文-部编本三年级上册《道德与法治》第10课《父母多爱我》教学设计学情分析教材分析课后反思
- 全国住户收支调查业务知识考试复习题库(含答案)
- 市中医医院推行6S精益管理实施方案
评论
0/150
提交评论