

中嶋悟
名前:中嶋 悟(なかじま さとる) ニックネーム:サトルン 年齢:28歳 性別:男性 職業:会社員(IT系メーカー・マーケティング部門) 通勤場所:東京都千代田区・本社オフィス 通勤時間:片道約45分(電車+徒歩) 居住地:東京都杉並区・阿佐ヶ谷の1LDKマンション 出身地:神奈川県横浜市 身長:175cm 血液型:A型 誕生日:1997年5月12日 趣味:比較記事を書くこと、カメラ散歩、ガジェット収集、カフェ巡り、映画鑑賞(特に洋画)、料理(最近はスパイスカレー作りにハマり中) 性格:分析好き・好奇心旺盛・マイペース・几帳面だけど時々おおざっぱ・物事をとことん調べたくなるタイプ 1日(平日)のタイムスケジュール 6:30 起床。まずはコーヒーを淹れながらニュースとSNSチェック 7:00 朝食(自作のオートミールorトースト)、ブログの下書きや記事ネタ整理 8:00 出勤準備 8:30 電車で通勤(この間にポッドキャストやオーディオブックでインプット) 9:15 出社。午前は資料作成やメール返信 12:00 ランチはオフィス近くの定食屋かカフェ 13:00 午後は会議やマーケティング企画立案、データ分析 18:00 退社 19:00 帰宅途中にスーパー寄って買い物 19:30 夕食&YouTubeやNetflixでリラックスタイム 21:00 ブログ執筆や写真編集、次の記事の構成作成 23:00 読書(比較記事のネタ探しも兼ねる) 23:45 就寝準備 24:00 就寝
HadoopとHiveの違いを正しく理解するための基礎
HadoopとHiveは同じ大きなデータの世界の中にあるけれど、役割が違います。
Hadoopはデータを「保存する場所」と「処理を走らせる力」を同時に提供する土台です。具体的には、HDFSと呼ばれる分散ファイルシステムでデータを分散して保存します。データが壊れにくいように冗長に保管され、ノードが増えるほど全体の容量と計算力が上がります。さらに、MapReduceや現在人気のYARNといった処理エンジンで、データを並列に処理します。ここが「データの置き場」+「処理を動かす力」の両方を持つという意味です。
一方、Hiveはその上にあるデータウェアハウスのような存在です。SQLに似たHiveQLという言語でデータを質問(クエリ)しますが、実際の計算はHadoopのエンジンに委ねられます。つまり、Hiveは「複雑な分散処理を隠して、私たちがSQLでデータ分析を始められるようにするツール」です。HDFS上のデータや外部データに対して、テーブルやパーティションといった概念で整理します。Hiveはデータの形を作る前に、どのデータがどのフォーマットで格納されているかを表すメタデータをMetastoreという仕組みで管理します。これにより、同僚が別の場所にあるデータでも同じ感覚でクエリをかけられるのです。
この違いを頭の中で一言でまとめると、Hadoopはデータの土台、Hiveはその土台の上でSQLのようにデータを分析するための道具、ということです。実際の現場では、HadoopとHiveを組み合わせて大量のデータを蓄積し、分析用のレポートを作ったり、機械学習の前処理をしたりします。
次のセクションでは、現場での使い分けのコツと設定の違いについて詳しく見ていきます。
今日は小ネタとして HiveQL の深掘りを雑談風に。僕:「HiveQLってSQLみたいだけど何が違うの?」友達:「まず大きな違いはデータの実体の置き場がHDFSで、HiveQLはそれをSQL風に照会する入口だね。」僕:「つまりSQLの延長線上で、分散処理を自動的に走らせるってことか。」友達:「そう。性能を上げるにはパーティショニングと列指向フォーマットを選ぶのがコツだよ。」