私が所属するNTT Comでは、業務プロセスの一気通貫のデータを見るためのビッグデータ基盤を自社で構築しています。このデータ基盤はデータをそのままの形・構造で保存する、いわゆる「データレイク」の思想で作られており、社内のシステムからデータを一元的に集約することを目標としています。
各システムから集めるべきデータを集めるためには、業務プロセスのモデル化が必要であり、非常に泥臭い努力が求められました。基盤の設計にあたっては、単なる蓄積ではなく活用に主眼を置いているため、以下の2点を重視しています。
1.様々な形式のデータに対して、横断して比較や結合が可能なように加工すること
2.それらのデータは簡単に取り出すことができ、利用できること
詳しいことは都合により書けませんが、2020年5月に発生した当社への不正アクセスの分析においても、このビッグデータ基盤が活躍しました。VPN、プロキシのログ、社内システムにログインしたあとの行動についての認証ログやアクセスログを総合的に分析し、不正アクセスの炙り出しが可能となりました。推論エンジンには、機械学習的なアプローチも試しています。
NTT Comでの事例は、他の企業にも応用できると思います。その際、重要なことは、それぞれの企業ごとに業務プロセスがあり、システムごとの事情があるということです。データ活用に向けては、現状の業務プロセスを解きほぐさなければいけません。