hadoop streaming 编程

hadoop streaming 编程

ID:33158882

大小:230.50 KB

页数:34页

时间:2019-02-21

hadoop streaming 编程_第1页
hadoop streaming 编程_第2页
hadoop streaming 编程_第3页
hadoop streaming 编程_第4页
hadoop streaming 编程_第5页
资源描述:

《hadoop streaming 编程》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、HadoopStreaming编程源地址:http://dongxicheng.org/mapreduce/hadoop-streaming-programming/1、概述HadoopStreaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer)$HADOOP_HOME/bin/hadoop jar$HADOOP_HOME/had

2、oop-streaming.jar-inputmyInputDirs-outputmyOutputDir-mappercat-reducerwc本文安排如下,第二节介绍HadoopStreaming的原理,第三节介绍HadoopStreaming的使用方法,第四节介绍HadoopStreaming的程序编写方法,在这一节中,用C++、C、shell脚本和python实现了WordCount作业,第五节总结了常见的问题。文章最后给出了程序下载地址。(本文内容基于Hadoop-0.20.2版本)(注:如果你采用

3、的语言为C或者C++,也可以使用HadoopPipes,具体可参考这篇文章:HadoopPipes编程。)关于HadoopStreaming高级编程方法,可参考这篇文章:HadoopStreaming高级编程。2、HadoopStreaming原理mapper和reducer会从标准输入中读取用户数据,一行一行处理后发送给标准输出。Streaming工具会创建MapReduce作业,发送给各个tasktracker,同时监控整个作业的执行过程。如果一个文件(可执行或者脚本)作为mapper,mapper初始化时,每

4、一个mapper任务会把该文件作为一个单独进程启动,mapper任务运行时,它把输入切分成行并把每一行提供给可执行文件进程的标准输入。同时,mapper收集可执行文件进程标准输出的内容,并把收到的每一行内容转化成key/value对,作为mapper的输出。默认情况下,一行中第一个tab之前的部分作为key,之后的(不包括tab)作为value。如果没有tab,整行作为key值,value值为null。对于reducer,类似。以上是Map/Reduce框架和streamingmapper/reducer之间的基本

5、通信协议。3、HadoopStreaming用法Usage:$HADOOP_HOME/bin/hadoopjar$HADOOP_HOME/hadoop-streaming.jar[options]options:(1)-input:输入文件路径(2)-output:输出文件路径(3)-mapper:用户自己写的mapper程序,可以是可执行文件或者脚本(4)-reducer:用户自己写的reducer程序,可以是可执行文件或者脚本(5)-file:打包文件到提交的作业中,可以是mapper或者reducer要用的

6、输入文件,如配置文件,字典等。(6)-partitioner:用户自定义的partitioner程序(7)-combiner:用户自定义的combiner程序(必须用java实现)(8)-D:作业的一些属性(以前用的是-jonconf),具体有:            1)mapred.map.tasks:maptask数目            2)mapred.reduce.tasks:reducetask数目            3)stream.map.input.field.separator/stre

7、am.map.output.field.separator:maptask输入/输出数据的分隔符,默认均为t。            4)stream.num.map.output.key.fields:指定maptask输出记录中key所占的域数目            5)stream.reduce.input.field.separator/stream.reduce.output.field.separator:reducetask输入/输出数据的分隔符,默认均为t。            6)stre

8、am.num.reduce.output.key.fields:指定reducetask输出记录中key所占的域数目另外,Hadoop本身还自带一些好用的Mapper和Reducer:(1)   Hadoop聚集功能Aggregate提供一个特殊的reducer类和一个特殊的combiner类,并且有一系列的“聚合器”(例如“sum”,“max”,“min”

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。