原创

Pentaho Work with Big Data(一)—— Kettle连接Hadoop集群

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://wxy0327.blog.csdn.net/article/details/51086821
准备研究一下Pentaho的产品如何同Hadoop协同工作。从简单的开始,今天实验了一下Kettle连接Hadoop集群。

实验目的:
配置Kettle连接Hadoop集群的HDFS。

实验环境:
4台CentOS release 6.4虚拟机,IP地址为
192.168.56.101
192.168.56.102
192.168.56.103
192.168.56.104

192.168.56.101是Hadoop集群的主,运行NameNode进程。
192.168.56.102、192.168.56.103是Hadoop的从,运行DataNode进程。
192.168.56.104安装Pentaho的PDI,安装目录为/root/data-integration。

Hadoop版本:2.7.2
PDI版本:6.0

Hadoop集群的安装配置参考http://blog.csdn.net/wzy0623/article/details/50681554

配置步骤:
1. 启动Hadoop的hdfs
在192.168.56.101上执行以下命令
start-dfs.sh

2. 拷贝Hadoop的配置文件到PDI的相应目录下
在192.168.56.101上执行以下命令
scp /home/grid/hadoop/etc/hadoop/hdfs-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/
scp /home/grid/hadoop/etc/hadoop/core-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/

下面的配置均在192.168.56.104上执行
3. 在安装PDI的主机上建立访问Hadoop集群的用户
我的Hadoop集群的属主是grid,所以执行以下命令建立相同的用户
useradd -d /home/grid -m grid
usermod -G root grid

4. 修改PDI安装目录的属主为grid
mv /root/data-integration /home/grid/
chown -R grid:root /home/grid/data-integration

5. 编辑相关配置文件
cd /home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/
在config.properties文件中添加如下一行
authentication.superuser.provider=NO_AUTH
把hdfs-site.xml、core-site.xml文件中的主机名换成相应的IP 
修改后的config.properties、hdfs-site.xml、core-site.xml文件分别如图1、图2、图3所示。


图1


图2


图3


6. 在Kettle中选择一个支持的Shim
选择菜单“工具”->“Hadoop Distribution...”,在弹窗中选择Cloudera CDH 5.4,如图4所示。


图4


7. 重启Kettle

8. 新建一个转换,在“主对象树”中选择“Hadoop cluster”,点击右键选择“New Cluster”,填写相关信息,如图5所示


图5


9. 点击“测试”,结果如图6所示,连接HDFS成功


图6


参考:
http://help.pentaho.com/Documentation/6.0/0L0/040/025
http://help.pentaho.com/Documentation/6.0/0H0/070/030/010
文章最后发布于: 2016-04-07 16:10:49
展开阅读全文
0 个人打赏
私信求帮助

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览