Kā instalēt un konfigurēt Apache Hadoop vienā mezglā CentOS 7


Apache Hadoop ir atvērtā koda ietvara izplata lielu datu glabāšanai un datu apstrādei datoru kopās. Projekta pamatā ir šādas sastāvdaļas:

  1. Hadoop Common - tajā ir Java bibliotēkas un utilītas, kas nepieciešamas citiem Hadoop moduļiem.
  2. HDFS - Hadoop izplatītā failu sistēma - Java balstīta mērogojama failu sistēma, kas sadalīta vairākos mezglos.
  3. MapReduce - YARN ietvars lielo datu paralēlai apstrādei.
  4. Hadoop YARN: kopu resursu pārvaldības sistēma.

Šis raksts palīdzēs jums uzzināt, kā jūs varat instalēt Apache Hadoop vienā mezglu kopā CentOS 7 (darbojas arī RHEL 7 un Fedora 23+ versijās). Šāda veida konfigurācija tiek dēvēta arī par Hadoop pseido-izplatīto režīmu.

1. darbība: instalējiet Java CentOS 7

1. Pirms turpināt Java instalēšanu, vispirms piesakieties, izmantojot root lietotāju vai lietotāju ar root tiesībām, iestatiet datora resursdatora nosaukumu ar šādu komandu.

# hostnamectl set-hostname master

Pievienojiet arī jaunu ierakstu resursdatora failā ar savu mašīnu FQDN, lai norādītu uz jūsu sistēmas IP adresi.

# vi /etc/hosts

Pievienojiet zemāk esošo rindu:

192.168.1.41 master.hadoop.lan

Nomainiet iepriekš minētos resursdatora un FQDN ierakstus ar saviem iestatījumiem.

2. Pēc tam dodieties uz Oracle Java lejupielādes lapu un paņemiet savā sistēmā jaunāko Java SE Development Kit 8 versiju, izmantojot čokurošanās komandu:

# curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. Kad Java binārā lejupielāde ir pabeigta, instalējiet pakotni, izsniedzot šādu komandu:

# rpm -Uvh jdk-8u92-linux-x64.rpm

2. darbība: instalējiet Hadoop Framework CentOS 7

4. Pēc tam savā sistēmā izveidojiet jaunu lietotāja kontu bez root pilnvarām, ko mēs to izmantosim Hadoop instalācijas ceļam un darba videi. Jaunā konta mājas direktorija atradīsies direktorijā /opt/hadoop .

# useradd -d /opt/hadoop hadoop
# passwd hadoop

5. Nākamajā solī apmeklējiet Apache Hadoop lapu, lai iegūtu saiti uz jaunāko stabilo versiju un lejupielādētu arhīvu savā sistēmā.

# curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz 

6. Izvelciet arhīvu, nokopējiet direktorija saturu uz hadoop konta mājas ceļu. Pārliecinieties, ka esat attiecīgi mainījis arī kopēto failu atļaujas.

#  tar xfz hadoop-2.7.2.tar.gz
# cp -rf hadoop-2.7.2/* /opt/hadoop/
# chown -R hadoop:hadoop /opt/hadoop/

7. Pēc tam piesakieties ar hadoop lietotāju un konfigurējiet Hadoop un Java vides mainīgos savā sistēmā, rediģējot failu .bash_profile .

# su - hadoop
$ vi .bash_profile

Pievienojiet faila beigās šādas rindas:

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. Tagad inicializējiet vides mainīgos un pārbaudiet to statusu, izsniedzot šādas komandas:

$ source .bash_profile
$ echo $HADOOP_HOME
$ echo $JAVA_HOME

9. Visbeidzot, konfigurējiet hadoop konta ssh atslēgas autentifikāciju, izpildot zemāk norādītās komandas (attiecīgi nomainiet resursdatora nosaukumu vai FQDN pret komandu ssh-copy-id ).

Tāpat atstājiet ievadīto ieejas frāzi tukšu, lai automātiski pieteiktos, izmantojot ssh.

$ ssh-keygen -t rsa
$ ssh-copy-id master.hadoop.lan