大数据工具概览_第1页
大数据工具概览_第2页
大数据工具概览_第3页
大数据工具概览_第4页
大数据工具概览_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据工具概览昭远

@calio我是谁?微博:@calio邮箱:github:calio处理收集计算展现挖掘大数据处理的一般过程抽取抓取索引查询数据分析搜索我们的产品我们的做法收集:网页埋点+webserver日志收集处理:自定义的ETL脚本计算:hadoop+实时处理引擎+mysql挖掘:自定义的hadoop任务展现:amcharts收集工具收集工具Needlebase™从多种数据源获取数据(网页,xml,csv文件)合并,复制和清洗数据生成自定义视图编写代码来自动化抓取公共网站支持ruby,python,php社区特性:有很多别人写好的开放程序处理工具HadoopGoogleMapReduce架构的克隆,,最初由DougCutting开发,Yahoo!是最大的贡献献者运行在跨机器器的集群上巨大的相关工工具生态圈计算工具计算工具开源的关系型型数据库管理理系统成熟的系统,,相关资料较较多在大数据环境境下需要做shardingHadoopGoogleMapReduce架构的克隆,,最初由DougCutting开发,Yahoo!是最大的贡献献者运行在跨机器器的集群上巨大的相关工工具生态圈开源版本的GoogleBigTable底层使用HDFS存储与hadoop完美结合多客户端分布布式访问hadoop数据仓库系统统使用SQL来编写Hadoop任务延迟较高,不不能替代实时时数据库展现工具展现工具图形编程语言言积累了大量的的库,示例和和文档processing.js:processing的js实现d3.jsjavascript框架,前身为为Protovis包含了全量的的易用可视化化组件提供高层次接接口FusionTables提供类似电子子表格的在线线数据存储根据地理信息息可视化数据据数据挖掘工具具数据挖掘工具具Mahoutscikits.learn通用机器学习习算法在海量量数据之上运运行绝大部分代码码是基于Hadoop编写的分布式式作业内嵌了很多算算法来实现通通常的任务,,比如聚类、、分类、基于于用户行为的的物品推荐,,识别频繁共共现的属性python机器学习工具具标准机器学习习技术的高层层接口实验和快速原原型实现处理收集计算展现挖掘大数据处理的的一般过程抽取抓取索引查询数据分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论