GPU で切り拓くAI時代のビジネス最前線(第1回)

GPUとは?AI分野での活用事例とこれからのトレンド

2018.05.25 Fri連載バックナンバー

 産業分野における日本最高峰のプライベート・スーパーコンピュータとして、Preferred Networksの「MN-1」が大きなニュースとなりました。このMN-1で使われているのが、GPU(Graphics Processing Unit)と呼ばれるプロセッサです。GPUとは何なのか、GPUの特性やAIとの関係、MN-1構築の背景、クラウドとGPUなど、GPUを軸に幅広い話題でプレゼンテーションが行われたセミナー「GPUで切り拓く未来とビジネス(※)」の模様を紹介します。

(※)GPUで切り拓く未来とビジネス
開催:2018年2月27日
主催:NTTコミュニケーションズ株式会社、株式会社NTTPCコミュニケーションズ
登壇:エヌビディア合同会社 佐々木邦暢氏、株式会社Preferred Networks 土井裕介氏、株式会社NTTPCコミュニケーションズ 山崎俊之氏、NTTコミュニケーションズ株式会社 根本裕朗氏

 

GPUとは?なぜAIの分野で使われるようになったのか

 GPUとは、もともとコンピュータグラフィックスをリアルタイムに描画することを目的として開発されたものであり、現在でもコンピューターゲームにおける3Dグラフィックスの描画、あるいはCADをはじめとするプロフェッショナルビジュアライゼーションの分野で活用されています。では、このGPUがなぜAIの分野で使われるようになったのでしょうか。エヌビディア合同会社の佐々木邦暢氏は、2006年に発表した「CUDA(Compute Unified Device Architecture)」によってGPUを汎用的なアクセラレータとして使えるようになり、その用途の1つとしてAIがあったと説明します。

ニューラルネットワークの学習というフェーズで行われる計算を見てみると、行列という数字の固まりをひたすら掛け算するものが多いのです。グラフィックスの描画も本を正してみると大量の座標データの計算で、やっていることが違うように見えて根底には共通している部分があります。それならばAIの学習も高速化できるのではないかということで、GPUが広く使われるようになったのです」

GPUコンピューティング11年の歩み

 

気になる見出しをクリック

NVIDIAが紹介するAIの先進的な取り組み

 このGPUを使った事例の1つとして、佐々木氏が紹介したのは株式会社フジクラがエヌビディアのイベント「GTC Japan 2017」で発表した事例です。同社では高出力半導体レーザウエア外観検査において、深層学習を用いてチップの良品と不良品の高精度な自動判定の実現に向けた取り組みを進めています。

 この事例の興味深い点として、佐々木氏が挙げたのはAIの判断を可視化するための取り組みです。AIを利用すれば、たとえば入力した写真に猫が映っているかどうかを判断させるといったことができますが、なぜ猫が映っていると判断したのか、その理由はわかりません。いくら高精度であっても、理由がわからなければ使いづらいケースもあるでしょう。そこでフジクラでは、ニューラルネットワークの中にある各要素が画像のどのあたりに強く反応したのかを可視化する手法を採り入れました。

「1つの画像に対して、人間の熟練の職人による判定と、学習させたニューラルネットワークによる判定を比べます。たとえ一致していても、本当にちゃんと見るべきところを見て一致したのかを深掘りしているのが面白いところです。検証したところ、実は人間が見ているところと違うところに反応していて、それでもたまたま結果が一致していたということがあったそうです。結果としては合っていますが、これでは判断の過程に不安が残るということで、学習データを追加するなど、試行錯誤して人間を超える精度をディープラーニングで得ることができたという事例です」

高出力半導体レーザウエア外観検査

 このようにAI活用のために幅広い領域で使われているNVIDIAのGPUですが、具体的なプロダクトとして紹介されたのが「Tesla V100」です。

「Tesla V100の大きな特徴は、ディープラーニングにフォーカスした『Tensorコア』という新しい演算ユニットが組み込まれている点です。ディープラーニングでは行列の積和演算が多いことを受け、行列演算に特化したハードウェアを載せています」

NVIDIA Tesla V100

 後日開催された、NVIDIAのプライベートイベントでは、Tesla V100を高性能化した「Tesla V100 32GB」を発表したほか、それを16基搭載したシステム「NVIDIA DGX-2」を発表しています。このように、技術革新に向けた同社の取り組みは今後もAI活用に大きな影響を及ぼすことになるでしょう。

ご覧いただくにはログインが必要です。

新規会員登録(無料)はこちら

まだ会員でない方は、会員登録(無料)いただくと、続きが読めます。

AI活用による機械翻訳プラットフォームを構築

 実際にAIの活用が期待されている分野の1つとして、機械翻訳が挙げられます。昨今では一般向けに提供されている翻訳サービスでもAIの活用が進んでおり、従来よりも確実に精度が高められつつあります。このAIを使った翻訳を特許の世界で活用しようという取り組みが一般財団法人日本特許情報機構で進められています。

 この取り組みでは、パブリッククラウドとオンプレミスを用途に応じて使い分けるハイブリット構成で構築されています。

 NTTPCコミュニケーションズの山崎俊之氏は「私たちはGPUサーバーの設計・構築に加え、データセンター、ネットワークに至るまで、機械翻訳のプラットフォームをトータルで提供しました」と話します。

 

一般財団法人 日本特許情報機構 システム概要

 お客さまの取り組みを推進するためには、従来からの翻訳手法である「SMT*1(統計翻訳)」と新たに開発する「NMT*2(ニューラル機械翻訳)」の両方式の比較検証が必要となります。そのため、SMT*1に必要な「大容量かつ高速なストレージ」とNMT*2に必要な「数千~コアレベルの高い並列度」との双方を兼ね備えることが要件でした。

「既製のGPUアプライアンスやクラウドサービスだけでその要件を満たす環境は構築できません。そこでNTTPCコミュニケーションズでは、あえてネットワークストレージを用いず、SSD/HDDを組み合わせた大容量かつ高速なローカルストレージを用いた設計をすることで、ストレージ容量と転送スループットのボトルネック解消するGPU環境を構築しました。また、翻訳サーバーを高速インターコネクトでつないだマルチノード構成や、大量のGPUインスタンスを確保するAWSとの閉域接続も実現しています」(山崎氏)

*1 SMT: Statistical Machine Translation の略で、統計翻訳を指す
*2 NMT: Neural Machine Translationの略で、ニューラル機械翻訳を指す

ハイブリッド型翻訳基盤

ご覧いただくにはログインが必要です。

新規会員登録(無料)はこちら

まだ会員でない方は、会員登録(無料)いただくと、続きが読めます。

1,024基のGPUを使ったプライベート・スーパーコンピュータ

 もうひとつNTTPCコミュニケーションズの事例として紹介されたのは、株式会社Preferred Networksのプライベート・スーパーコンピュータである「MN-1」です。これはNVIDIAのTesla P100 GPUを1,024基搭載し、民間企業のプライベートなスーパーコンピュータとしては国内最大規模(2017年11月時点)となります。ここで採用されたのがNTTコミュニケーションズとNTTPCコミュニケーションズによって構築された、マルチノード型GPUプラットフォームでした。

Preferred Networks「MN-1」システム概要

 NTTPCコミュニケーションズではGPUサーバーとのマルチノード構成における高速インターコネクトの設計構築を行いました。そのポイントを山崎氏は説明しました。

「MN-1は、128台のGPUサーバー上で1,024基のTesla P100が協調動作していますが、演算パフォーマンスを高めるポイントとして大きく3つ挙げられます。まずは、単体サーバーにおける『マルチGPUの高速化』です。サーバー1台あたり8基のTesla P100が搭載されていますが、GPU DirectというDMA技術の実装とシングルルート設計により、不必要なバッファコピーを排除し、CPUオーバーヘッドを大幅に削減しています。その上で、各GPUサーバーをInfiniBandという高速インターコネクトで接続することで、『マルチノード間の高速化』を達成しました。とはいえ、GPUは高熱になりがちです。クロック数が落ちてしまっては意味がありません。そこで、サーバー内部の排熱設計やサーバラックの冷却エアフローも工夫することで、1,024基のGPUが安定したパフォーマンスで協調動作できるプラットフォームを実現しました」

Preferred Networks「MN-1」に採用された技術

 さまざまな実績を通じて蓄積されたGPUアーキテクチャへの知見・ノウハウを活かし、単に要求されたスペックを満たすだけでなく、パフォーマンスの最大化と安定稼働を実現するGPU基盤を設計・構築できること、そしてInfiniBandなどの技術を使い、大規模環境をインテグレーションできることが、NTTPCコミュニケーションズの大きな強みでしょう。

ご覧いただくにはログインが必要です。

新規会員登録(無料)はこちら

まだ会員でない方は、会員登録(無料)いただくと、続きが読めます。

専門家が語るディープラーニング研究、これからのトレンドとは

 続けて登壇したのは、実際にMN-1を利用している株式会社Preferred Networksの土井裕介氏です。まず同社の事業について、土井氏は「現時点においてはIoTと分散機械学習を組み合わせた領域がメインの事業で、特に交通システムや製造業、バイオヘルスケアが中心になっている」と説明しました。

 人工知能の学習では膨大な計算量を必要としますが、土井氏は今後さらに計算量が必要になると指摘しました。その一例として挙げられたのが「教師なし学習」と呼ばれる分野です。現在広く使われている「教師あり学習」は、簡単に言えば正解が何かを学習させた上で問題を出し、それが正解かどうかを判断させるという仕組みです。一方、教師なし学習では正解かどうかに関係なく膨大なデータを学習させ、そこから法則や関係性、将来の予測などを行わせるというものになります。

 

代表的な学習方法

「この教師なし学習を使った予測学習で、たとえば動画を入力して次のコマを予測する。こういった予測学習では動画を扱う必要があり、データ量が増えることになるので計算量も増加します。このように、今後ますます計算量が必要になるだろうと考えています」

予測学習

 このような背景から構築されたのがMN-1です。このプライベート・スーパーコンピュータはLINPACKと呼ばれるベンチマークテストの結果、2017年11月のスーパーコンピュータ性能ランキングを示すTOP500リストにおいて、日本の産業領域でトップ、研究用等を含む世界中のすべてのスーパーコンピュータの中でも91位に記録されました。さらに分散深層学習パッケージChainerMNを用いて、ImageNetと呼ばれる画像データを使ったディープラーニングの学習を15分で終え、世界最高記録をたたき出しました

 こうした取り組みから得た学びとして、土井氏は「同じハードウェアを用いた計算でも、やり方の良しあしで性能は大幅に変わります。我々だけでなく、NTTコミュニケーションズ、NTTPCコミュニケーションズの皆さんにもすごく頑張っていただき、非常によいパフォーマンスを出すことができました。このように、ハードウェア構成も、ソフトウェア構成やチューニングも重要だというのが1つの学びです」と述べました。

 Preferred Networksでは、同じくNTTコミュニケーションズ/NTTPCコミュニケーションズのプラットフォームを活用し、前述した最新のNVIDIA Tesla V100 32GBを使った「MN-1b」と呼ばれる拡張プロジェクトが進んでおり、2018年7月に稼働予定としています

ご覧いただくにはログインが必要です。

新規会員登録(無料)はこちら

まだ会員でない方は、会員登録(無料)いただくと、続きが読めます。

これからの時代はGPUもクラウド化へ

 マルチノード型GPUプラットフォームがGPUサーバーのAI活用に有効だと話すのは、NTTコミュニケーションズの根本裕朗氏です。これは最新世代の開発・提供を行うNVIDIA、サーバーの調達や構築・保守を担うNTTPCコミュニケーションズ、そしてネットワーク接続やデータセンター管理、プラットフォーム運用からマネージドセキュリティをNTTコミュニケーションズの3社が連携して提供するプラットフォームです。

 MN-1はこのプラットフォームを使って構築したサーバー群を占有して使うセキュア・プライベート型の利用形態です。根本氏は「GPUを使ってパフォーマンス重視でクラスタを構成したい、というケースでは高速なネットワークが必要となるでしょう。こうしたGPUを使ったクラスタシステム一式を我々のセキュアなデータセンターの中に構築し、さらにサーバー間を接続するノード間接続にInfiniBandを採用するなど、高いパフォーマンスを追求しつつ、運用やセキュリティ監視などをアウトソース提供できる形態が大きな利点となるのです」と説明します。

マルチノード型GPUプラットフォームの活用

マルチノード型GPUのメイン構成要素

 そこまでのパフォーマンスは必要ないがGPUの高性能をより手軽に利用したいというケースであれば、NTTコミュニケーションズのクラウドサービスである「Enterprise Cloud」が利用できると根本氏は続けます。

「我々が現在提供しているEnterprise Cloudには、物理サーバーを占有するベアメタルサーバーというメニューがあります。これに最新のGPUを搭載し、使っていただくのが有効だと考えています」

マルチノード型GPUプラットフォームの構成イメージ

 まだPoC段階でGPUやAIの可能性を検証しているといったフェーズであれば、GPUを利用できるシェアード型の仮想サーバーを使う方法もあります。もし、NTTコミュニケーションズのEnterprise Cloudを利用しているお客さまであれば、運用系のシステムはEnterprise Cloudを利用し、GPUで処理を行いたい部分についてはMicrosoft Azureを使い、両者を「SD-Exchange」で連携するといったことが実現できます。

 現在多くのサーバーがクラウドに移行していますが、GPUにおいてもクラウド上で提供するリソースを活用し、持たずに使うことが当たり前になるでしょう。AI活用で乗り遅れないためには、こうしたクラウド上のリソースの積極的な活用も視野に入れる必要がありそうです。

「私どもはマルチノード型GPUプラットフォームについて、お客さまごとに最適な構成をご提案することができますので、まずはご相談いただければと思います」と、根本氏は最後に語りました。

 次回は、Preferred Networksの土井氏に、MN-1の構築に至った背景や、構築プロジェクト、さらには導入効果などについてインタビューを行った模様をお届けします。ご期待ください。

※掲載されている内容は公開日時点のものです。
※掲載されているサービスの名称、内容及び条件は、改善などのために予告なく変更することがあります。

ご覧いただくにはログインが必要です。

新規会員登録(無料)はこちら

まだ会員でない方は、会員登録(無料)いただくと、続きが読めます。

このテーマについてもっと詳しく知りたい

Bizコンパス編集部

Bizコンパス編集部

このページの先頭へ
Bizコンパス公式Facebook Bizコンパス公式Twitter