欢迎来到天天文库
浏览记录
ID:33158882
大小:230.50 KB
页数:34页
时间:2019-02-21
《hadoop streaming 编程》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、HadoopStreaming编程源地址:http://dongxicheng.org/mapreduce/hadoop-streaming-programming/1、概述HadoopStreaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer)$HADOOP_HOME/bin/hadoop jar$HADOOP_HOME/had
2、oop-streaming.jar-inputmyInputDirs-outputmyOutputDir-mappercat-reducerwc本文安排如下,第二节介绍HadoopStreaming的原理,第三节介绍HadoopStreaming的使用方法,第四节介绍HadoopStreaming的程序编写方法,在这一节中,用C++、C、shell脚本和python实现了WordCount作业,第五节总结了常见的问题。文章最后给出了程序下载地址。(本文内容基于Hadoop-0.20.2版本)(注:如果你采用
3、的语言为C或者C++,也可以使用HadoopPipes,具体可参考这篇文章:HadoopPipes编程。)关于HadoopStreaming高级编程方法,可参考这篇文章:HadoopStreaming高级编程。2、HadoopStreaming原理mapper和reducer会从标准输入中读取用户数据,一行一行处理后发送给标准输出。Streaming工具会创建MapReduce作业,发送给各个tasktracker,同时监控整个作业的执行过程。如果一个文件(可执行或者脚本)作为mapper,mapper初始化时,每
4、一个mapper任务会把该文件作为一个单独进程启动,mapper任务运行时,它把输入切分成行并把每一行提供给可执行文件进程的标准输入。同时,mapper收集可执行文件进程标准输出的内容,并把收到的每一行内容转化成key/value对,作为mapper的输出。默认情况下,一行中第一个tab之前的部分作为key,之后的(不包括tab)作为value。如果没有tab,整行作为key值,value值为null。对于reducer,类似。以上是Map/Reduce框架和streamingmapper/reducer之间的基本
5、通信协议。3、HadoopStreaming用法Usage:$HADOOP_HOME/bin/hadoopjar$HADOOP_HOME/hadoop-streaming.jar[options]options:(1)-input:输入文件路径(2)-output:输出文件路径(3)-mapper:用户自己写的mapper程序,可以是可执行文件或者脚本(4)-reducer:用户自己写的reducer程序,可以是可执行文件或者脚本(5)-file:打包文件到提交的作业中,可以是mapper或者reducer要用的
6、输入文件,如配置文件,字典等。(6)-partitioner:用户自定义的partitioner程序(7)-combiner:用户自定义的combiner程序(必须用java实现)(8)-D:作业的一些属性(以前用的是-jonconf),具体有: 1)mapred.map.tasks:maptask数目 2)mapred.reduce.tasks:reducetask数目 3)stream.map.input.field.separator/stre
7、am.map.output.field.separator:maptask输入/输出数据的分隔符,默认均为t。 4)stream.num.map.output.key.fields:指定maptask输出记录中key所占的域数目 5)stream.reduce.input.field.separator/stream.reduce.output.field.separator:reducetask输入/输出数据的分隔符,默认均为t。 6)stre
8、am.num.reduce.output.key.fields:指定reducetask输出记录中key所占的域数目另外,Hadoop本身还自带一些好用的Mapper和Reducer:(1) Hadoop聚集功能Aggregate提供一个特殊的reducer类和一个特殊的combiner类,并且有一系列的“聚合器”(例如“sum”,“max”,“min”
此文档下载收益归作者所有