このデータ整備を簡単にするのが、冒頭でも触れたデータレイクです。
これまで主流だった DWH(データウェアハウス)では、あらかじめ決められた構造のデータしか受け取ることができませんでした。しかし、ビッグデータ以降に登場したデータレイクでは、「スキーマレス」(schemaless)と呼ばれる、構造が未知なデータや、非構造化データと呼ばれる行や列を持たないデータも扱うことができます。
データレイクは、データ分析に画期的な変化をもたらしました。DWHでは、データを集める時点で分析の目的を明らかにしたうえでシステム開発を行う必要があったのですが、データレイクではデータを集めたあとで、分析の目的を変更できるようになったのです。
これは一見メリットですが、デメリットもあります。それは分析者に要求されるスキルや技術レベルが上がるという点です。
DWHでは、設計時点でどのようなデータをシステムに取り込んで、どう処理して最終的なアウトプット用データに変換するかが決まっています。つまり、システムが自動的に定型的な処理をしてくれるというわけです。
一方でデータレイクでは、取り込まれたデータを、目的に応じて加工して構造化する作業は、分析者に委ねられます。従って、これまでシステム開発としてアウトソースできていた部分を、外部委託ではなくインハウス、内製で手当てすることが重要になります。
加えて、分析時にどういうロジックを適用するか、ロジックの変更を素早く適用することができるか、ということが競争の源泉ともなるため、特に自社のノウハウが集積されるDXや業務分析のためには、外部の企業に“外出し”することがそもそも困難になります。
データレイクは膨大なデータを取り扱うことができるのですが、それ自体は処理のスループットを高めるだけであって、何か高度な機能が内包されているわけではありません。使いこなすためには、それなりに高度なスキルが要求されます。そういう意味では導入すれば問題が自動的に片付く魔法の箱ではない、という点に注意する必要があります。むしろ派手な可視化機能を持つようなソリューションと比較すると地味な印象を与えるかもしれません。