GPU で切り拓くAI時代のビジネス最前線(第2回)

PFNがディープラーニング研究開発を支えるGPU計算基盤を構築

2018.05.30 Wed連載バックナンバー

 2017年9月、株式会社Preferred Networksは民間企業の計算環境としては国内最大級のプライベート・スーパーコンピュータとして「MN-1」を稼働しました。同社は深層学習や機械学習で最先端の技術を持つ企業であり、その研究開発基盤としてMN-1が活用されています。このシステムの概要や構築プロジェクトの内幕について、株式会社Preferred Networksの土井裕介氏にお話を伺いました。

【株式会社Preferred Networksについて】
IoT時代に向けた次世代ビッグデータ技術基盤の確立を目指して2014年3月設立。独自の技術により、IoT時代に相応しいコンピュータ&ネットワークアーキテクチャを確立すべく事業を展開している。

 

気になる見出しをクリック

産業界における国内ナンバーワンのスーパーコンピュータ

 設立からわずか4年でありながらトヨタやファナック、国立がん研究センター、あるいはマイクロソフトなどとAIの分野で協業・提携し、大きな成果を生み出している株式会社Preferred Networks(以下、PFN)。同社はIoTにフォーカスした深層学習技術のビジネス活用を目的に創業し、交通システムや製造業、バイオ・ヘルスケアをはじめとするさまざまな領域でイノベーションの実現を目指しているほか、オープンソースの深層学習フレームワークである「Chainer」の開発や提供も行っています。

 AIにおける機械学習や深層学習において欠かせないのは、学習に必要となる膨大な計算量を処理することができる高性能なシステムです。特に今後は、正解がないデータを学習させて構造や法則、分類などを導き出させる「教師なし学習」が非常に重要になると言われています。しかし教師なし学習は現状主流となっている「教師あり学習」よりも計算量が増加するため、より高性能なシステムが求められます。

代表的な学習方法

 このように必要となる計算資源の増加に対応するべく、PFNではNVIDIAの「Tesla P100 GPU」を1,024機搭載したプライベート・スーパーコンピュータである「MN-1」を2017年9月に稼働しました。NVIDIAのGPUはすでに機械学習および深層学習の分野で高い評価を得ており、Tesla P100はそれをハイパフォーマンスコンピューティング分野に最適化した製品です。これを1,024基搭載することで、MN-1は圧倒的なパフォーマンスを実現しました。

深層学習用研究開発基盤イメージ

「MN-1」

 実際、「LINPACK」と呼ばれるベンチマークテストの結果、2017年11月のスーパーコンピュータ性能ランキングを示すTOP500リストにおいて、MN-1は国内の産業領域で第1位、研究用等を含む世界のスーパーコンピュータランキングでも91位を獲得しています。

 PFNの土井裕介氏は「私たちのビジネスももちろん成長していますし、新しい研究のフィールドで導入されている技術も常に進化しています。それに対してキャッチアップする、あるいは追い越していくためにまとまったGPU資源を投入したい。これがMN-1を構築したいきさつになります」と話します。

GPUに加えて高速なノード間接続を実現するInfiniBandを採用

 土井氏はAIの分野は日進月歩で進化し続けており、MN-1に対する要件は固めづらい部分があったといいます。その要因として挙げられたのが、各ノード(スーパーコンピュータを構成する個々のコンピュータ)の接続です。MN-1では、そこにInfiniBandと呼ばれる極めて高速にノード間を接続できる技術を採用しました。

 前述したように、PFNでは深層学習のフレームワークとして「Chainer」を提供していますが、さらに複数のノードで分散して処理を行う分散深層学習に必要な機能を追加したパッケージ「ChainerMN」も開発しています。この分散深層学習の方法としては、データ並列とモデル並列、さらに同期型と非同期型の4象限に分けられますが、当時PFNがフォーカスしていたのはデータ並列かつ同期型でした。この方法では各ノードが協調して動作するため、大規模な分散深層学習を行う上ではノード間の通信が極めて重要になると土井氏は話し、次のように続けました。

「非同期であってもGPUを搭載した多数のノードに処理を分散すれば見かけの性能は出ます。ところが計算速度自体は速くても、正しい答えを出せるかどうかという精度の部分が非同期型では数値が上がらないのです。そうした背景から同期型にフォーカスし、ノード間を高速に接続できるInfiniBandを採用することに決めました」

「MN-1」の構成

ご覧いただくにはログインが必要です。

新規会員登録(無料)はこちら

まだ会員でない方は、会員登録(無料)いただくと、続きが読めます。

PFNがNTTコミュニケーションズグループに求める「運用」業務

 MN-1の構築では、NTTコミュニケーションズとNTTPCコミュニケーションズの高速演算処理(GPU)プラットフォームが採用されており、さらに実際のスーパーコンピュータの構築においても両社が担当しています。選定理由について、土井氏は「運用の信頼性を評価した」と話し、次のように続けました。

「MN-1については、まずできるだけ我々の工数を割かずに運用したいという思いがありました。PFN側のトリガーで何かをするといったことをできるだけ少なくしたかったのです。私たちが取り組んでいる分野は日々進化しているため、たとえば3週間で求めるものが変わることも珍しくありません。これに追従し、継続的に構成の改善に対応していくことも期待している部分です」

 1,024基という膨大な数のGPUを使った大規模なシステムであり、なおかつぎりぎりのタイミングでInfiniBandを採用することが決まるなど、MN-1の構築は極めて難易度の高いものでしたが、土井氏が「我々の無茶な要求にも柔軟に対応していただいた」と評価するように、NTTコミュニケーションズとNTTPCコミュニケーションズはPFNの要求を踏まえて構築し、無事に試験を実施するところまでたどり着きます。

 この試験において実施されたことの1つが、MN-1の全ノードを使った前出のLINPACK、そして一般に広く使われている画像分類データセットである「ImageNet」を利用したベンチマークです。

「大規模行列計算を実施するLINPACKでは、パラメータのチューニングが重要であり、ノウハウが求められる部分があります。そこに対して我々は機械学習のアプローチで改善を図りました。PFNで働いている、ハイパフォーマンスコンピューティング分野のメンバーは、自分たちのスーパーコンピュータが世界トップ100に入ったということに対して感慨深いものがあったようです。しかも、それを自分たちのためだけに使える。これは贅沢な環境だと思います」

 またMN-1上でChainerMNを利用したImageNetのベンチマークにおいても、2017年11月に世界最短記録を達成します。これらの結果を見れば、MN-1がいかにパフォーマンスの高いシステムであるかがわかるでしょう。

ご覧いただくにはログインが必要です。

新規会員登録(無料)はこちら

まだ会員でない方は、会員登録(無料)いただくと、続きが読めます。

さらなる計算資源の確保に向けた拡張に取り組む

 MN-1の導入効果として挙げられたのが研究の効率化です。

「研究ではさまざまなパターンを検証する必要がありますが、MN-1の導入前は順番に検証していたのです。この場合、検証パターンの分だけ時間がかかってしまいますが、MN-1の潤沢なリソースを使えば、複数のパターンを並列で処理することが可能であり、それだけ研究を効率化できるようになりました」

 PFNでは、敵対的学習と呼ばれる「GAN(Generative Adversarial Network:敵対的生成ネットワーク)」と呼ばれる教師なし学習の一手法をMN-1を使って研究し、その成果を論文として発表しました。この論文がGANの発明者の目に止まり、読むべき10本の論文の1つに挙げられたと土井氏は話した上で、「MN-1を導入したことでよい成果が生まれています」と語りました。

GAN(Generative Adversarial Net)敵対的生成モデル [Goodfellow+14]

 機械学習や深層学習で必要となる計算資源は膨大であり、MN-1のリソースも遠からず不足すると土井氏は予測しています。

「MN-1はジョブキューで使っている領域と、自由な開発に使える領域の2つがあります。とはいえジョブキューの領域は埋まり始めていて、開発用の領域をジョブキューに割り当て始めています。このため、今後数カ月程度でMN-1のリソースはほとんどジョブキューで埋まってしまうだろうなと思っています」

 そこでPFNでは、引き続きNTTコミュニケーションズおよびNTTPCコミュニケーションズと連携し、MN-1を拡張した「MN-1b」の構築を進めています。MN-1bでは「NVIDIA Tesla V100 32GB」を512基稼働させる予定であり、この拡張部分のみで、半精度浮動小数点数における性能では、従来の約3倍のピーク性能が実現されるとしています。

 教師なし学習や敵対的学習など、計算力が必要な学習方式が有望視されているほか、動画や高解像度の画像を使った学習まで視野に入れると、計算力の必要性は増加する一方だと土井氏は指摘します。また新たなパートナーとの新規ビジネスの立ち上げなども検討されているなど、PFNの事業は拡大し続けていることを考えると、早々にMN-1bとして拡張されることになったのは必然だと言えるでしょう。

 AIの領域はもちろん、そこで利用するためのスーパーコンピュータ環境の整備という観点においても、今後のPFNの動向から目が離せません。

※掲載されている内容は公開日時点のものです。
※掲載されているサービスの名称、内容及び条件は、改善などのために予告なく変更することがあります。

ご覧いただくにはログインが必要です。

新規会員登録(無料)はこちら

まだ会員でない方は、会員登録(無料)いただくと、続きが読めます。

このテーマについてもっと詳しく知りたい

Bizコンパス編集部

Bizコンパス編集部

このページの先頭へ
Bizコンパス公式Facebook Bizコンパス公式Twitter