hadoop streaming 编程

ID：33158882

大小：230.50 KB

页数：34页

时间：2019-02-21

资源描述：

《hadoop streaming 编程》由会员上传分享，免费在线阅读，更多相关内容在应用文档-天天文库。

1、HadoopStreaming编程源地址：http://dongxicheng.org/mapreduce/hadoop-streaming-programming/1、概述HadoopStreaming是Hadoop提供的一个编程工具，它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer，例如：采用shell脚本语言中的一些命令作为mapper和reducer（cat作为mapper，wc作为reducer）$HADOOP_HOME/bin/hadoop jar$HADOOP_HOME/had

2、oop-streaming.jar-inputmyInputDirs-outputmyOutputDir-mappercat-reducerwc本文安排如下，第二节介绍HadoopStreaming的原理，第三节介绍HadoopStreaming的使用方法，第四节介绍HadoopStreaming的程序编写方法，在这一节中，用C++、C、shell脚本和python实现了WordCount作业，第五节总结了常见的问题。文章最后给出了程序下载地址。(本文内容基于Hadoop-0.20.2版本)(注：如果你采用

3、的语言为C或者C++，也可以使用HadoopPipes，具体可参考这篇文章：HadoopPipes编程。)关于HadoopStreaming高级编程方法，可参考这篇文章：HadoopStreaming高级编程。2、HadoopStreaming原理mapper和reducer会从标准输入中读取用户数据，一行一行处理后发送给标准输出。Streaming工具会创建MapReduce作业，发送给各个tasktracker，同时监控整个作业的执行过程。如果一个文件（可执行或者脚本）作为mapper，mapper初始化时，每

4、一个mapper任务会把该文件作为一个单独进程启动，mapper任务运行时，它把输入切分成行并把每一行提供给可执行文件进程的标准输入。同时，mapper收集可执行文件进程标准输出的内容，并把收到的每一行内容转化成key/value对，作为mapper的输出。默认情况下，一行中第一个tab之前的部分作为key，之后的（不包括tab）作为value。如果没有tab，整行作为key值，value值为null。对于reducer，类似。以上是Map/Reduce框架和streamingmapper/reducer之间的基本

5、通信协议。3、HadoopStreaming用法Usage:$HADOOP_HOME/bin/hadoopjar$HADOOP_HOME/hadoop-streaming.jar[options]options：（1）-input：输入文件路径（2）-output：输出文件路径（3）-mapper：用户自己写的mapper程序，可以是可执行文件或者脚本（4）-reducer：用户自己写的reducer程序，可以是可执行文件或者脚本（5）-file：打包文件到提交的作业中，可以是mapper或者reducer要用的

6、输入文件，如配置文件，字典等。（6）-partitioner：用户自定义的partitioner程序（7）-combiner：用户自定义的combiner程序（必须用java实现）（8）-D：作业的一些属性（以前用的是-jonconf），具体有： 1）mapred.map.tasks：maptask数目 2）mapred.reduce.tasks：reducetask数目 3）stream.map.input.field.separator/stre

7、am.map.output.field.separator：maptask输入/输出数据的分隔符,默认均为t。 4）stream.num.map.output.key.fields：指定maptask输出记录中key所占的域数目 5）stream.reduce.input.field.separator/stream.reduce.output.field.separator：reducetask输入/输出数据的分隔符，默认均为t。 6）stre

8、am.num.reduce.output.key.fields：指定reducetask输出记录中key所占的域数目另外，Hadoop本身还自带一些好用的Mapper和Reducer：（1） Hadoop聚集功能Aggregate提供一个特殊的reducer类和一个特殊的combiner类，并且有一系列的“聚合器”（例如“sum”，“max”，“min”

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 34



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

hadoop streaming 编程

hadoop streaming 编程

相关文章

相关标签