mac系统怎么配置maven环境变量 Apache Mahout如何使用?

[更新]
·
·
分类:互联网
2664 阅读

Apache

Apache Mahout如何使用?

Mahout如何使用?

Mahout安装详细全过程1、jdk安装 22、SSH无密码验证配置 23、 Hadoop配置 34、Hadop使用 65、Maven安装 76、安装mahout 77、hadoop集群来执行聚类算法 88、其他 8――――――――――――――――――――1、jdk安装1.1、到官网下载相关的JDK下载地址:
、打开“终端”输入:sh
1.3、设置JAVA_HOME环境系统变量输入:vi /etc/environment 在文件中添加:export JAVA_HOME/root/jdk1.6.0_24 export JRE_Home/root/jdk1.6.0_24/jre export CLASSPATH$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib 同样,修改第二个文件。输入:vi /etc/profile 在umask 022之前添加以下语句:export JAVA_HOME/root/jdk1.6.0_24 export JRE_Home/root/jdk1.6.0_24/jre export CLASSPATH$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib export PATH$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin 1.4、注销用户,检测JDK版本。输入:java -version 2、集群环境介绍集群包含三个节点:1 个 namenode,2 个 datanode,节点之间局域网连接,可以相互 ping 通。节点 IP 地址分布如下:Namenode: : slave1 @192.168.1.20Datanode2: 三台节点上均是CentOS系统,Hadoop在/root/hadoop/目录下。在/etc/hosts上添加主机名和相应的IP地址:192.168.1.10 master192.168.1.20 slave1192.168.1.21 slave23、SSH无密码验证配置2.1 Hadoop 需要使用SSH 协议,namenode 将使用SSH 协议启动 namenode和datanode 进程,伪分布式模式数据节点和名称节点均是本身,必须配置 SSH localhost无密码验证。用root用户登录,在家目录下执行如下命令:ssh-keygen -t rsa [ ~]# ssh-keygen -t rsaGenerating public/private rsa key pair.Enter
file in which to save the key (_rsa):
按回车默认路径 Created directory . 创建
目录Enter passphrase (empty for no passphrase):Enter same passphrase again: Your identification has been saved in _
public key has been saved in _
key fingerprint is:c6:7e:57:59:0a:2d:85:49:23:cc:c4:58:ff:db:5b:38 通过以上命令将在
目录下生成id_rsa私钥和id_
公钥。进入
目录在namenode节点下做如下配置:[ .ssh]# cat id_
authorized_keys[ .ssh]# scp authorized_keys [
.ssh]# scp authorized_keys
配置完毕,可通过ssh 本机IP 测试是否需要密码登录。2.2 和namenode无密码登录所有Datanode原理一样,把Datanode的公钥复制到Namenode的.ssh
目录下。[ .ssh]# scp authorized_keys1 192.168.1.10:/root [root@ ]# scp authorized_keys2 192.168.1.10:/root
将刚传过来的authorized_keys1、2加入到authorized_keys[root@ ]# cat authorized_keys1 authorized_keys[root@ ]# cat authorized_keys2 authorized_keys这样也能在Datanode上关闭和启动Hadoop服务。4、 Hadoop配置下载 hadoop-0.20.2.tar.gz
, 进行解压。tar zxvf hadoop-0.20.2.tar.gz
修改/etc/profile,加入如下:# set hadoop pathexport HADOOP_HOME/root/hadoopexport PATH$HADOOP_HOME/bin:$PATH4.1、进入hadoop/conf, 配置Hadoop配置文件4.1.1 配置
文件添加 # set java environmentexport JAVA_HOME/root/jdk1.6.0_24编辑后保存退出。4.1.2 配置core-site.xml# vi core-site.xml4.1.3 配置hdfs-site.xml# vi hdfs-site.xml4.1.4 配置mapred-site.xml# vi mapred-site.xml4.1.5 配置masters# vi masters192.168.1.104.1.6 配置slaves# vi slaves192.168.1.20192.168.1.214.2、 Hadoop启动4.2.1 进入 /root/hadoop/bin目录下,格式化namenode# ./hadoop namenode Cformat4.2.2 启动hadoop所有进程在/root/hadoop/bin 目录下,执行
命令启动完成后,可用jps命令查看hadoop进程是否启动完全。正常情况下应该有如下进程:10910 NameNode11431 Jps11176 SecondaryNameNode11053 DataNode11254 JobTracker11378 TaskTracker 我在搭建过程中,在此环节出现的问题最多,经常出现启动进程不完整的情况,要不是datanode无法正常启动,就是namenode或是TaskTracker启动异常。解决的方式如下:1)在Linux下关闭防火墙:使用service iptables stop命令;2)再次对namenode进行格式化:在/root/hadoop/bin 目录下执行hadoop namenode -format命令3)对服务器进行重启4)查看datanode或是namenode对应的日志文件,日志文件保存在/root/hadoop/logs目录下。5)再次在/bin目录下用
命令启动所有进程,通过以上的几个方法应该能解决进程启动不完全的问题了。4.2.3 查看集群状态在 bin目录下执行:hadoop dfsadmin -report# hadoop dfsadmin Creport4.3 在WEB页面下查看Hadoop工作情况打开IE浏览器输入部署Hadoop服务器的IP:http://localhost:50070http://localhost:50030。5、Hadop使用一个测试例子wordcount:计算输入文本中词语数量的程序。WordCount在Hadoop主目录下的java程序包hadoop-0.20.2-examples.jar
中,执行步骤如下:在/root/hadoop/bin/目录下进行如下操作:./hadoop fs -mkdir input(新建目录名称,可任意命名)mkdir /root/a/vi /root/a/a.txt
写入hello world hello# hadoop fs -copyFromLocal /root/a/ input在/root/hadoop/bin下执行:# ./hadoop jar hadoop-0.20.2-examples.jar
wordcount input output (提交作业,此处需注意input与output是一组任务,下次再执行wordcount程序,还要新建目录intput1与output1不能跟input与output重名)6、Maven安装6.1下载Maven解压tar vxzf apache-maven-3.0.2-bin.tar.gzmv
apache-maven-3.0.2 /root/maven6.2 vi ~
添加如下两行export M3_HOME/root/mavenexport PATH${M3_HOME}/bin:${PATH}6.3 先logout,之后再login查看maven版本,看是否安装成功mvn -version7、安装mahout安装方法见:
、hadoop集群来执行聚类算法8.1数据准备cd /root/hadoopwget http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_
./hadoop fs -mkdir testdata./hadoop fs -put synthetic_
testdata./hadoop fs -lsr testdatabin/hadoop jar /root/mahout/mahout-examples-0.4-job.jar
查看一下结果吧bin/mahout vectordump --seqFile /user/root/output/data/part-r-00000这个直接把结果显示在控制台上。9、hadoop集群来执行推荐算法分布式bin/hadoop jar /root/trunk/mahout-distribution-0.4/mahout-core-0.4-job.jar
-Dmapred.output.diroutput2伪分布式bin/hadoop jar /root/trunk/mahout-distribution-0.4/mahout-core-0.4-job.jar
--recommenderClassName
-Dmapred.output.diroutput_w10wan10、其他离开安全模式:hadoop dfsadmin -safemode leave

作为一名初学Java者,如何做简单的Java项目?

初学者想做简单的项目,建议学百战程序员-高淇老师讲的-java300集。从零基础开始讲,讲课方式风趣幽默,通俗易懂,课后就可以做小项目了,有很多小的项目让我们做呢[呲牙],然后这个资料是免费的,我跟同学们都是学java300集入门的,真的不错,而且是免费分享的呢[耶]你去他们官网就能搞到