hadoop应用开发实战案例-基础回顾_第1页
hadoop应用开发实战案例-基础回顾_第2页
hadoop应用开发实战案例-基础回顾_第3页
hadoop应用开发实战案例-基础回顾_第4页
hadoop应用开发实战案例-基础回顾_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

法律【】和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被法律和经济责任。课程详情

炼数成金培训http:

2013.08.242DATAGURU专业数据分析MahoutMahout的中文含义:象夫2013.08.243DATAGURU专业数据分析数据金字塔2013.08.244DATAGURU专业数据分析数据分析使用统计方法,有目的地对收集到的数据进行分析处理,并且解读分析结果2013.08.245DATAGURU专业数据分析数据分析常用算法2013.08.246DATAGURU专业数据分析回归2013.08.247DATAGURU专业数据分析分类器2013.08.248DATAGURU专业数据分析聚类2013.08.249DATAGURU专业数据分析数据挖掘数据挖掘是以查找隐藏在数据中的信息为目标的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐性关联,并且向用户显示这些关联数据挖掘思想来源:假设检验,模式识别,人工智能,机器学习常见数据挖掘任务:关联分析,聚类分析,孤立点分析等等例:啤酒与尿布的故事例:《Science》的文章《科学家摸索出大型数据集内的趋势》2013.08.2410DATAGURU专业数据分析频繁模式挖掘2013.08.2411DATAGURU专业数据分析数据分析工具数据分析工具2013.08.2412DATAGURU专业数据分析常用传统数据分析工具2013.08.2413DATAGURU专业数据分析传统数据分析工具的困境R,SAS,SPSS等典型应用场景为

工具处理数据量受限于内存,因此无法处理海量数据使用Oracle数据库等处理海量数据,但缺乏有效快速专业的分析功能可以采用抽样等方法,但有局限性,比如对于聚类,

系统则无法使用抽样解决方向:Hadoop集群和Map-Reduce并行计算2013.08.2414DATAGURU专业数据分析常见算法的Map-Reduce化2013.08.2415DATAGURU专业数据分析常见算法的Map-Reduce化2013.08.2416DATAGURU专业数据分析Mahout2008年成为Lucene的子项目,Lucene作为搜索引擎项目,存在很多文本数据分析和挖掘的需求(例如文本重复判断,文本自动分类等等),导致Lucene项目中部分开发者转向机器学习领域研究算法,最终这些机器学习算法形成最初的Mahout吸收开源协同过滤算法项目Taste2010年成为Apache顶级项目2013.08.2417DATAGURU专业数据分析Mahout的特点Mahout的主要目的是实现可伸缩的机器学习算法(就是算法的M-R化),但也不一定要求基于Hadoop平台,库中某些布式的算法也具有很好的性能目标是帮助开发快速建立具有机器智能的应用程序,目前比较成熟和活跃的主要包括频繁模式挖掘聚类算法分类器系统频繁子项挖掘2013.08.2418DATAGURU专业数据分析发展中的MahoutMahout目前支持和研究中的算法列表2013.08.2419DATAGURU专业数据分析参考书2013.08.2420DATAGURU专业数据分析参考书2013.08.2421DATAGURU专业数据分析M-RCookbook样板代码http:/code_download/111012013.08.2422DATAGURU专业数据分析参考书2013.08.2423DATAGURU专业数据分析和解压Mahout2013.08.2424DATAGURU专业数据分析配置环境变量export

HADOOP_HOME=/home/huang/hadoop-1.1.2export

HADOOP_CONF_DIR=/home/huang/hadoop-1.1.2/confexport

MAHOUT_HOME=/home/huang/hadoop-1.1.2/mahout-distribution-0.6export

MAHOUT_CONF_DIR=/home/huang/hadoop-1.1.2/mahout-distribution-0.6/confexport

PATH=$PATH:$MAHOUT_HOME/conf:$MAHOUT_HOME/bin几个重要环境变量JAVA_HOME mahout运行需指定jdk的MAHOUT_JAVA_HOME指定此变量可覆盖JAVA_HOME值HADOOP_HOME如果配置,则在hadoop分布式平台上运行,否则单机运行HADOOP_CONF_DIR指定hadoop的配置文件MAHOUT_LOCAL 如果此变量值不为空,则单机运行mahout。MAHOUT_CONF_DIR

mahout配置文件的路径,默认值是$MAHOUT_HOME/src/confMAHOUT_HEAPSIZE mahout运行时可用的最大heap大小2013.08.2425DATAGURU专业数据分析验证安装成功2013.08.2426DATAGURU专业数据分析源码和部分样本数据需要

源代码包(可以尝试下编译源代码方式的安装)2013.08.2427DATAGURU专业数据分析测试数据2013.08.2428DATAGURU专业数据分析将测试数据拷贝到HDFS2013.08.2429DATAGURU专业数据分析做一个kmeans聚类测试2013.08.2430DATAGURU专业数据分析输出结果2013.08.2431DATAGURU专业数据分析观察输出2013.08.2432DATAGURU专业数据分析用mahout输出2013.08.2433DATAGURU专业数据分析20Newsgroups数据集2013.08.2434DATAGURU专业数据分析使用Mahout进行文本自动分类分类器学习集测试集数据集的内容2013.08.2435DATAGURU专业数据分析文件内容2013.08.2436DATAGURU专业数据分析上传并解压数据2013.08.2437DATAGURU专业数据分析建立训练集mahout

.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups

\-p

/home/huang/data/20news-bydate-train

\-o

/home/huang/data/bayes-test-input

\-a

.apache.mahout.vectorizer.Default

yzer

\-cUTF-82013.08.2438DATAGURU专业数据分析建立训练集2013.08.2439DATAGURU专业数据分析建立测试集mahout

.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups

\-p

/home/huang/data/20news-bydate-test

\-o

/home/huang/data/bayes-test-input

\-a

.apache.mahout.vectorizer.Default

yzer

\-cUTF-82013.08.2440DATAGURU专业数据分析建立测试集2013.08.2441DATAGURU专业数据分析上传数据到HDFS2013.08.2442DATAGURU专业数据分析训练

分类器mahout

trainclassifier

\-i

/user/huang/20news/bayes-train-input

\-o

/user/huang/20news/newsmodel

\-type

cbayes-ng

2

\-source

hdfs2013.08.2443DATAGURU专业数据分析训练分类器2013.08.2444DATAGURU专业数据分析生成的模型2013.08.2445DATAGURU专业数据分析测试

分类器mahout

testclassifier

\-m

/user/huang/20news/newsmodel

\-d

/user/huang/20news/bayes-test-input

\-type

cbayes-ng

2

\-source

hdfs

\-method

mapreduce2013.08.2446DATAGURU专业数据分析测试分类器2013.08.2447DATAGURU专业数据分析参考2013.08.2448DATAGURU专业数据分析炼数成金逆向

式网络课程Dataguru(炼数成金)是专业数据分析,提供教育,,内容,社区,,数据分析业务等服务。的课程采用新兴的互联网教育形式,独创地发展了逆向式网络培训课程模式。既继承传统教育重学习氛围,重竞争压力的特点,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论