第一个Hadoop下的Wordcount程序
这次的源码是用的Hadoop实战的源码
首先将源码拷贝进Linux下的工作目录下,在/home/hadoop/workspace下。
导入两个测试文件
echo "Hello World Bye World" file01
echo "Hello Hadoop Bye Hadoop" file02
创建一个Jar包目录:mkdir FirstJar
编译Java文件至FirstJar下:javac -classpath /usr/hadoop/hadoop-XXX-core.jar -d FirstJar WordCount.java
打包FirstJar:Java -cvf WordCount.jar -C FirstJar/ . (注意这个点不要漏掉)
在HDFS上创建输入输出目录:hadoop dfs -mkdir input,hadoop dfs -mkdir output
上传测试文件至HDFS:Hadoop dfs -put file0* input
运行Jar包:Hadoop jar WordCount.jar WordCount input output
需要说明的一点:Hadoop实战源码中有包目录,编译过程中若不删除包目录,在执行jar包是会发生找不到class类的错误,即便执行时在类前加上该目录也找不到,具体愿意还待研究。
Linux 删除目录,文件:rm -rf dirname