データレイクのこのような考え方は、デジタルネイティブ、クラウドネイティブと呼ばれるような背景を持つ会社にとっては、相性が良いと考えられます。
たとえば、ウェブアクセスの履歴やクリックタイミングなど、デジタルデータは直接的にビジネスから得られますし、データを加工するソフトウェアエンジニアも大量に抱えていることが多いでしょう。ターゲットとなるKPIも、広告のクリック率や課金といったエンゲージメントなど、その効果がはっきりしています。
一方で、製造業をはじめとした伝統がある企業や、デジタル化が進んでいない企業には、ハードルが高いのは事実でしょう。しかし、DX ではここを超えることが求められているのです。
そうした企業でもデータ活用ができるよう、もう少し丁寧にデータレイク利用のプロセスを追ってみましょう。
ソフトウェアエンジニアを潤沢に抱える企業であれば、データレイクからデータを加工して、API で渡せるようなミドルウェアを組み、それを直接操作するようなウェブアプリを開発することで、タイムリーに分析をしたり、顧客が直接利用するシステムに接続するといったことも可能でしょう。GAFA を始めとしたクラウドネイティブ企業は、このようなデータ利用をしているのです。
一方で、従来業務が多く残る企業では、最初のステップとしては、まずはデータレイクからある程度利用しやすく変換したデータ(データマートと呼ばれます)を抽出し、それを元にエクセルやBIツールで可視化をする、といったやり方が適切でしょう。これなら現在DWHで実施している業務とのギャップは少なく、最初の時点では、変換ロジックを外出しで開発することもできそうです。
実現できることは、DWHでできていたことと大きく変わらないのですが、集めたデータを別の目的に再利用できる点、変換ロジックがソフトウェアとして交換可能となるので、チームの実力に応じて内製に切り換えられる点は、大きな違いになってきます。加えて、これまでは別々のシステムで開発していた変換ロジックを、汎用基盤に束ねることができれば、そのコスト削減メリットも大きくなります。
このようなデータレイクをオンプレミスで組む場合は、 HadoopやSpark といった大規模分散処理システムを利用します。クラウドで組む場合は 、Googleだと BigQuery、Amazon だとAthena、MicrosoftだとAzure Data Lake等が用意されています。UI の差は大きいですが、どれも基本的な技術は共通しているので、これらの上で組んだロジックの移植は比較的容易です。
今回は、DX におけるデータ分析の中核となるデータレイクについて、実際のプロセスとあわせて解説しました。DWHからデータレイクに移行することで、分析施策の立ち上げは簡単になり、試行錯誤の自由度が増す一方で、分析者に求められるスキルは上がるという点に注意する必要があります。
次回は、NTTコミュニケーションズにおけるデータサイエンスチームの立ち上げを追いながら、伝統的な会社がDXをその組織内に取り込む際の課題を解説します。
※掲載している情報は、記事執筆時点のものです。