ビッグデータというキーワードが登場する以前には、マーケティング等を中心に、データウェアハウス(DWH、データの倉庫)を構築する、という手法が流行したこともありました。これは分析に必要なデータをあらかじめ確定させることによって、各種データベースから必要なデータを分析専用のシステムに集約させる手法でした。
今でもビッグデータを扱うのに、同様の手法を取っている会社は多いでしょう。しかし、ビッグデータを扱う際には、あらかじめ分析目標が決まっていて、そこに向けてデータを集める、という手法が取られることは少ないです。なぜなら、集まったデータを元に、どういうことがわかるのか、と試行錯誤することが重要だからです。目標が設定されるたびに、半年から一年かけてシステムを再構築する、ということをやっていては、世の中の進歩に取り残されてしまいます。
そこで登場したのが、「データレイク」という考え方です。これは、非構造化データを含む、できるだけ生のデータを蓄積し、データ利用時に必要な整形を事後的に加える、というものです。具体的な利用事例については次回述べますが、このデータレイクの登場により、データ活用の世界に柔軟性が産まれました。