大数据工具概览_第1页
大数据工具概览_第2页
大数据工具概览_第3页
大数据工具概览_第4页
大数据工具概览_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据工具概览昭远

@calio我是谁?微博:@calio邮箱:vipcalio@github:calio处理收集计算展现挖掘大数据处理的一般过程抽取抓取索引查询数据分析搜索我们的产品我们的做法收集:网页埋点+webserver日志收集处理:自定义的ETL脚本计算:hadoop+实时处理引擎+mysql挖掘:自定义的hadoop任务展现:amcharts收集工具收集工具Needlebase™从多种数据源获取数据(网页,xml,csv文件)合并,复制和清洗数据生成自定义视图编写代码来自动化抓取公共网站支持ruby,python,php社区特性:有很多别人写好的开放程序处理工具Hadoop/GoogleMapReduce架构的克隆,最初由DougCutting开发,Yahoo!是最大的贡献者运行在跨机器的集群上巨大的相关工具生态圈计算工具计算工具开源的关系型数据库管理系统成熟的系统,相关资料较多在大数据环境下需要做shardingHadoop/GoogleMapReduce架构的克隆,最初由DougCutting开发,Yahoo!是最大的贡献者运行在跨机器的集群上巨大的相关工具生态圈开源版本的GoogleBigTable底层使用HDFS存储与hadoop完美结合多客户端分布式访问hadoop数据仓库系统使用SQL来编写Hadoop任务延迟较高,不能替代实时数据库展现工具展现工具图形编程语言积累了大量的库,示例和文档processing.js:processing的js实现d3.jsjavascript框架,前身为Protovis包含了全量的易用可视化组件提供高层次接口FusionTables提供类似电子表格的在线数据存储根据地理信息可视化数据数据挖掘工具数据挖掘工具Mahout/scikits.learn/stable/通用机器学习算法在海量数据之上运行绝大部分代码是基于Hadoop编写的分布式作业内嵌了很多算法来实现通常的任务,比如聚类、分类、基于用户行为的物品推荐,识别频繁共现的属性python机器学习工具标准机器学习技术的高层接口实验和快速原型实现处理收集计算展现挖掘大数据处理的一般过程抽取抓取索引查询数据分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论