How to upgrade from CDH4.0 to CDH4.1 for Debian

CDH4.1のリリースがされたのでCDH4.0をアップグレードしてみました。

次の記事に書きますが、アップグレードとは別のところが原因で手間取ってしまったものの、CDH4.1へのアップグレードそのものは何も問題なくできたので、たいして楽しくない内容ですが記録しておきます。



アップグレード手順

リンク

  • 本家説明は Upgrading from an Earlier CDH4 Release
  • CDH3からの場合は過去記事を参照

  • DRBDなどの追加システムが無いものとして記述します。

    全停止とバックアップ

    アップグレード

    変更がなかった点

    CDH4.0から4.1では、必要な変更がゼロでした。

    パッケージリポジトリ

    CDH4.0から変わっていないので、そのまま apt-get update でOK。

    NameNodeメタデータ

    CDH4 Beta2以降からの場合、upgrade不要。もし実行しちゃっても実害はないです。

    ローカル&HFDSディレクトリ

    tmp や /user 、アプリケーションログのディレクトリは既にあるのでそのまま利用。
    何か新しいのを作る必要も特にありません。

    Hiveメタデータ

    一応アップグレード用のクエリファイルが用意されていますが、更新クエリは含まれていないので実行不要です。

    バージョン互換性

    CDH3の時は u3 と u4 の混在とかできませんでしたが、CDH4はパッケージリポジトリに変化がないので混在できそうだなーと思ってやってみたら、SLAVEだけ4.1にして起動してジョブの実行ができました。量が多いSLAVEだけ先にやっておけたら、いざMASTERの時に作業量が減っていいかなーと考えてやったのですが、素直に全停止から上手に並行して実行するのがよろしいかと。



    まだHiveの検証とかはきっちりやっていないですが、基本部分は平和でしたよ、ということで・・・

    次の記事では手間取った理由について紹介します。