オープンソースで構築する分散ファイルシステム

膨大なデータを効率管理!分散ストレージの3大価値

2015.04.03 Fri連載バックナンバー

 「事業運営に伴って増え続ける膨大なデータを、いかに管理・運用していくべきか」――。ストレージ運用に伴うサイジングやデータ消失リスク、そしてコストパフォーマンスといったさまざまな課題は、いまや多くの企業が抱えています。そのような中、増え続ける膨大なデータを効率的に管理する“分散ストレージ”が注目を集めています。

 オープンソース・ソフトウェアとして公開されている「GlusterFS」は、優れた汎用性と拡張性、そしてデータの保全性を兼ね備えた分散ファイルシステムを実現するミドルウェアであり、エンタープライズITやクラウドサービス、ゲーム/コンテンツ配信、医療、金融、メディア、設計/製造、科学/研究などのさまざまな分野で、広く使われています。

 このGlusterFSを、事業・サービス基盤ならではの特殊なニーズに柔軟に対応可能なラインナップが強みである、世界有数のサーバーメーカー「Supermicro」に組み込み、さらに事業用途に適した「保守・保証」および「技術サポート」を付加したトータルソリューションとして、事業用途に安心して採用できるように展開しているのがNTTPCコミュニケーションズ(以下、NTTPC)です。

 同社は2007年から長きにわたって分散ストレージの調査、研究を行っており、グローバル・コミュニティ「The Gluster Community」のボードメンバーも務めています。

 そこで今回は、このGlusterFSSupermicroを組み合わせた技術・ソリューション開発に携わる、同社の菊池隆寛氏と高橋敬祐氏に、分散ファイルシステムの仕組みや特長、使いどころなどについて伺いました。

 

分散ストレージで実現する、“3つ”のユーザーメリット

 ビッグデータと呼ばれる大規模なデータ解析や、医療用などで使われる高解像度の画像データの保存、あるいは映像や音楽、ゲームといったコンテンツ配信サービスでは、数百TB~数PBに及ぶ大規模ストレージ環境が必要となる場合があります。

 しかし、それだけの大容量スケールに応えつつ、高い可用性やデータの保全性、バックアップといった機能まで備えたエンタープライズ向けのストレージ製品は極めて高価であり、その導入には大きなコスト負担が伴います。また、ストレージ容量のサイジング問題などリソースに関する悩みも尽きないでしょう。

 このようなストレージ課題を解決できるオープンソース・ソフトウェアとして、世界的に注目を集めているのが分散ファイルシステム「GlusterFS」です。

 その理由は、ペタバイト級までスケールアウト可能な“高い拡張性”と、万が一のデータ消失を防ぐ“高い保全性”、そしてこれらを兼ね備えた大規模ストレージ環境を、“非常に優れたコストパフォーマンス”で実現できる、というメリットにあります。

 特にポイントとなるのは、拡張性の高さ。ストレージ容量を容易に増やせるため、事業展開におけるスモールスタートが図れます。つまり、オーバーサイジングによる過剰な初期投資や機会ロスといったリスクを低減しながら、ビジネス成長に応じた柔軟なストレージ運用が可能になるわけです。

 また、数百TB~数PBもの大容量データになると、バックアップするのも容易ではありませんが、GlusterFSなら複数のサーバーに対して同時に、かつ同じデータを保存することができますので、万が一の障害が発生してもデータの保全性を高めることができます。さらに、遠隔地とつなぐ広域分散により、DR/BCP対策として事業継続に役立てることも可能です。

 こうした特性をもつGlusterFSが大規模ストレージ環境を低コストで実現できる理由としては、分散ファイルシステムと呼ばれる仕組みを採用していることと、汎用的なハードウェア(サーバー)でストレージ環境を構築できることが挙げられます。

 

技術開発者が語る、GlusterFSの優位性と魅力とは

 分散ファイルシステムとは、複数のストレージサーバーを集約することで、1つの大規模なストレージとして利用できる技術です。たとえばGoogleでは、GFS(Google File System)として独自に分散ファイルシステムを実装し、自社で提供している多くのサービスで利用しています。このほかにも分散ファイルシステムの実装例は数多くあり、その一つとしてオープンソースで公開されているのがGlusterFSというわけです。

 GlusterFSはさまざまな機能を提供していますが、軸となっているテクノロジーは「ディストリビューション(分散)」と「レプリケーション(複製)」です。

 「ディストリビューション(分散)」とは、各サーバーが持つストレージ領域を集約し、1つのストレージとして利用する仕組みです。ユーザーに対しては1つのストレージに見せつつ、実態は複数のサーバーから構成されるストレージに対し、「このファイルはサーバー1、このファイルはサーバー2…」といった形で、ファイルごとに配置先のサーバーを“分散”します。

 しかしながら、単純に各サーバーのストレージ領域を集約するだけでは、いずれかのサーバーが停止すると、そこに保存されているデータへのアクセスが不可能となってしまいます。

 そこで、GlusterFSに備わっているのが… 続きを読む

全文(続き)を読む

続きを読むにはログインが必要です。

まだ会員でない方は、会員登録(無料)いただくと、続きが読めます。

このテーマについてもっと詳しく知りたい

Bizコンパス編集部

Bizコンパス編集部

このページの先頭へ
Bizコンパス公式Facebook Bizコンパス公式Twitter