我正在尝试使用mapreduce运行非常简单的任务.
mapper.py:
#!/usr/bin/env python
import sys
for line in sys.stdin:
print line
我的txt文件:
qwerty
asdfgh
zxc
运行作业的命令行:
hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.6.0-mr1-cdh5.8.0.jar \
-input /user/cloudera/In/test.txt \
-output /user/cloudera/test \
-mapper /home/cloudera/Documents/map.py \
-file /home/cloudera/Documents/map.py
错误:
INFO mapreduce.Job: Task Id : attempt_1490617885665_0008_m_000001_0, Status : Failed
Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess Failed with code 127
at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:325)
at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:538)
at org.apache.hadoop.streaming.PipeMapper.close(PipeMapper.java:130)
at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:61)
at org.apache.hadoop.streaming.PipeMapRunner.run(PipeMapRunner.java:34)
at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:453)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:343)
at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroup@R_80_404[email protected](UserGroup@R_80_404[email protected]:1693)
at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)
如何解决这个问题并运行代码?
当我使用cat /home/cloudera/Documents/test.txt |时python /home/cloudera/Documents/map.py它工作正常
!!!!! UPDATE
我的* .py文件有问题.我从github’tom white hadoop book’复制了文件,一切正常.
但我不明白是什么原因.它不是权限和字符集(如果我没有错).还有什么呢?
解决方法:
我遇到了同样的问题.
问题:
在Windows环境中创建python文件时,新行字符为CRLF.
我的hadoop在Linux上运行,它将换行字符理解为LF
解:
将CRLF更改为LF后,步骤成功运行.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。