(jp) =
非構造化データを理解し、大量のデータを分析することは、今日では別の球技です。 そのため、企業は非構造化データをより効率的に管理するために、Apache Hadoop やその他の関連技術に頼ってきました。 企業だけでなく個人も、大規模なデータセットの分析やユーザー クエリを処理できる Web サイトの作成など、さまざまな目的で Apache Hadoop を使用しています。 ただし、Ubuntu に Apache Hadoop をインストールすることは、Linux サーバーの世界に慣れていないユーザーにとっては難しい作業のように思えるかもしれません。 幸いなことに、Ubuntu に Apache Hadoop をインストールするのに経験豊富なシステム管理者である必要はありません。
次の段階的なインストール ガイドでは、ソフトウェアのダウンロードからサーバーの構成までのプロセス全体を簡単に説明します。 この記事では、Ubuntu 22.04 LTS システムに Apache Hadoop をインストールする方法を説明します。 これは、他の Ubuntu バージョンにも使用できます。
ステップ 1: Java 開発キットをインストールする
Java は Apache Hadoop の必須コンポーネントであるため、Hadoop がインストールされるネットワーク内のすべてのノードに Java Development Kit をダウンロードしてインストールする必要があります。 JRE または JDK をダウンロードできます。 Hadoop のみを実行する場合は JRE で十分ですが、Hadoop で実行するアプリケーションを作成する場合は、JDK をインストールする必要があります。 Hadoop がサポートする Java の最新バージョンは、Java 8 および 11 です。Apache の Web サイトでこれを確認し、OS に応じて適切なバージョンの Java をダウンロードできます。
- デフォルトの Ubuntu リポジトリには、Java 8 と Java 11 の両方が含まれています。 次のコマンドを使用してインストールします。
sudo apt update && sudo apt install openjdk-11-jdk
- インストールが正常に完了したら、現在の Java バージョンを確認します。
java -version
- 次のコマンドを実行すると、JAVA_HOME ディレクトリの場所を見つけることができます。 記事の後半で必要になるテキスト ファイル内の場所に注意してください。
dirname $(dirname $(readlink -f $(which java)))
ステップ 2: Hadoop のユーザーを作成する
すべての Hadoop コンポーネントは、Apache Hadoop 用に作成したユーザーとして実行され、ユーザーは Hadoop の Web インターフェイスへのログインにも使用されます。 「sudo」コマンドを使用して新しいユーザー アカウントを作成するか、「root」権限を持つユーザー アカウントを作成できます。 root 権限を持つユーザー アカウントはより安全ですが、コマンド ラインに慣れていないユーザーにとっては不便かもしれません。
- 次のコマンドを実行して、hadoop という名前の新しいユーザーを作成します。
sudo adduser hadoop
- 新しく作成した hadoop ユーザーに切り替えます。
su - hadoop
- ここで、新しく作成された hadoop ユーザーのパスワードなしの SSH アクセスを構成します。 最初に SSH キー ペアを生成します。
ssh-keygen -t rsa
- 生成された公開鍵を承認済みの鍵ファイルにコピーし、適切な権限を設定します。
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 640 ~/.ssh/authorized_keys
- ここで、ローカルホストに SSH で接続してみます。
ssh localhost
既知のホストに RSA キーを追加して、ホストを認証するよう求められます。 yes と入力して Enter キーを押し、ローカルホストを認証します。
ステップ 3: Ubuntu に Hadoop をインストールする
Java をインストールしたら、Apache Hadoop とそれに関連するすべてのコンポーネント (Hive、Pig、Sqoop など) をダウンロードできます。最新バージョンは、Hadoop の公式ダウンロード ページにあります。 必ずバイナリ アーカイブをダウンロードしてください (ソースではありません)。
- 次のコマンドを使用して、Hadoop 3.3.4 をダウンロードします。
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
- ファイルをダウンロードしたら、ハード ドライブのフォルダーに解凍できます。
tar xzf hadoop-3.3.4.tar.gz
- 抽出したフォルダーの名前を変更して、バージョン情報を削除します。 これはオプションの手順ですが、名前を変更したくない場合は、残りの構成パスを調整してください。
mv hadoop-3.3.4 hadoop
- 次に、システムで Hadoop および Java 環境変数を構成する必要があります。 ~/.bashrc ファイルを任意のテキスト エディターで開きます。
nano ~/.bashrc
以下の行をファイルに追加します。 ターミナルで dirname $(dirname $(readlink -f $(which java))) コマンドを実行すると、JAVA_HOME の場所を見つけることができます。
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOMERN=$HADOOP_HOMEDOOP$ export_COMMON_HOMERN$HADOOP_HADOOP_HOMEDOOP= export HADOOP_HOMELIB_エクスポート HA_OP_HOME =$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_OPTS=”-Djava.library.path=$HADOOP_HOME/lib/native”
書き出す JAVA_HOME=/ユーザー/ライブラリ/jvm/ジャワ–11–openjdk–amd64
書き出す HADOOP_HOME=/家/ハドゥープ/ハドゥープ
書き出す HADOOP_INSTALL=$HADOOP_HOME
書き出す HADOOP_MAPRED_HOME=$HADOOP_HOME
書き出す HADOOP_COMMON_HOME=$HADOOP_HOME
書き出す HADOOP_HDFS_HOME=$HADOOP_HOME
書き出す HADOOP_YARN_HOME=$HADOOP_HOME
書き出す HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/ライブラリ/ネイティブ
書き出す 道=$道:$HADOOP_HOME/スビン:$HADOOP_HOME/置き場
書き出す HADOOP_OPTS=“-Djava.library.path=$HADOOP_HOME/lib/native”
ファイルを保存して閉じます。
- 上記の構成を現在の環境にロードします。
source ~/.bashrc
- また、hadoop-env.sh ファイルで JAVA_HOME を構成する必要があります。 テキスト エディターで Hadoop 環境変数ファイルを編集します。
nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
「export JAVA_HOME」を検索し、手順 1 で見つかった値で構成します。以下のスクリーンショットを参照してください。
ファイルを保存して閉じます。
ステップ 4: Hadoop の構成
次に、etc ディレクトリの下にある Haddop 構成ファイルを構成します。
- 最初に、Hadoop ホーム ディレクトリ内に namode および datanode ディレクトリを作成する必要があります。 次のコマンドを実行して、両方のディレクトリを作成します。
mkdir -p ~/hadoopdata/hdfs/namenode,datanode
- 次に、 core-site.xml ファイルを作成し、システムのホスト名で更新します。
nano $HADOOP_HOME/etc/hadoop/core-site.xml
システムのホスト名に従って次の名前を変更します。
<構成> <プロパティ> <名前>fs.defaultFS名前> <値>hdfs://localhost:9000値> プロパティ> 構成>
<構成>
<プロパティ>
<名前>fs.defaultFS
<値>hdfs://localhost:9000
ファイルを保存して閉じます。
- 次に、 hdfs-site.xml ファイル:
nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
以下に示すように、NameNode および DataNode ディレクトリ パスを変更します。
dfs.replication 1 dfs.name.dir file:// /home/hadoop/hadoopdata/hdfs/namenode dfs.data.dir file:///home/hadoop/hadoopdata/hdfs/datanode <構成>
<プロパティ>
<名前>dfs.replication
<値>1
<プロパティ>
<名前>dfs.name.dir
<値>file:///home/hadoop/hadoopdata/hdfs/namenode
<プロパティ>
<名前>dfs.data.dir
<値>file:///home/hadoop/hadoopdata/hdfs/datanode
ファイルを保存して閉じます。
- 次に、 mapred-site.xml ファイル:
nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
次の変更を行います。
mapreduce.framework.name yarn <構成>
<プロパティ>
<名前>mapreduce.framework.name
<値>糸
ファイルを保存して閉じます。
- 次に、 ヤーンサイト.xml ファイル:
nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
次の変更を行います。
yarn.nodemanager.aux-services mapreduce_shuffle <構成>
<プロパティ>
<名前>yarn.nodemanager.aux-services
<値>mapreduce_shuffle
ファイルを保存して閉じます。
ステップ 5: Hadoop クラスターを起動する
Hadoop クラスターを開始する前。 Namenode を Hadoop ユーザーとしてフォーマットする必要があります。
- 次のコマンドを実行して、Hadoop Namenode をフォーマットします。
hdfs namenode -format
namode ディレクトリが hdfs ファイル システムで正常にフォーマットされると、「ストレージ ディレクトリ /home/hadoop/hadoopdata/hdfs/namenode が正常にフォーマットされました」。
- 次に、次のコマンドで Hadoop クラスターを開始します。
start-all.sh
- すべてのサービスが開始したら、http://localhost:9870 で Hadoop にアクセスできます。
- また、Hadoop アプリケーション ページは http://localhost:8088 にあります。
結論
Ubuntu に Apache Hadoop をインストールすることは、特にドキュメントの指示に従うだけの場合、初心者にとっては難しい作業になる可能性があります。 ありがたいことに、この記事では、Apache Hadoop を Ubuntu に簡単にインストールするのに役立つステップバイステップのガイドを提供します。 この記事に記載されている手順に従うだけで、Hadoop のインストールがすぐに開始され、実行されるようになります。