
こんにちは。SB C&S の間山です。
この記事では、DataDirect Networks社が提供する EXAScaler と、弊社で導入している ES400NVX2 をご紹介します。
1.1 DDNとEXAScalerとは
DDN(DataDirect Networks)は、HPCやAIなど大規模かつデータ集約型ワークロード向けのストレージに特化したベンダーです。世界中のスーパーコンピュータや研究機関、クラウドサービス事業者で採用されており「大量の計算ノードに高速にデータを供給するストレージ」という領域で高い実績を持っています。
その DDN が提供する並列分散ファイルストレージ製品が EXAScaler です。
EXAScaler は並列分散ファイルシステムである Lustre をベースとしており、大量のデータを高速に読み書きできる高スループットな共有ストレージとして、HPC だけでなく近年の AI ワークロードでも多く採用されています。
また、スケールアウト可能なアーキテクチャにより、システムの成長やワークロードの変化に応じて性能・容量を柔軟に拡張できる点も大きな特長です。
さらに、EXAScaler を採用した DDN の AI ストレージアプライアンスは、NVIDIA DGX SuperPOD ソリューションとして認定されるための性能および機能要件を満たしていることが NVIDIA の評価で確認されており、DGX SuperPOD クラスの大規模 GPU クラスタにおいても求められる性能・信頼性を満たすストレージ基盤として位置づけられています。
参考:NVIDIAによるSuperPod認定ストレージ
https://www.nvidia.com/ja-jp/data-center/dgx-superpod/
また、NSDS Applianceを追加することによって、CIFS や NFS、FTP/SFTP、S3 などのマルチプロトコルアクセスを利用しつつ同一のファイル群へアクセスすることができるため、Linux ベースの計算ノードだけでなく、汎用サーバからも共通データをシームレスに参照できる柔軟なシステム構成が可能です。
参考:NSDS Applianceの詳細
https://ddn.co.jp/exascaler-data-services-nsds/
そのほか、S3互換APIを備えたクラウドネイティブなオブジェクトストレージ製品Infinia も提供しています。Infinia は、LLMの推論で使うモデルデータや、長期保管といった用途に適しており、EXAScalerで高速に学習を回しつつ、Infiniaで大容量データを蓄積するといった役割分担も可能です。
参考:DDN Infinia、AIの進化/開発を加速するデータ基盤
https://ddn.co.jp/products/infinia/
本記事ではEXAScalerを中心に取り上げます。
1.2 Lustreとは何か / NFSとの違いと特徴
NFSとの比較
NFS では、1台(もしくは少数)の NFS サーバがディスクを持ち、複数のクライアントがそのサーバに対してファイルを読み書きします。構成がシンプルで扱いやすく、小〜中規模のシステムや一般的な業務システムでは広く使われています。
一方で、クライアント台数が増えたり、大量のファイルを高いスループットで読み書きしようとすると、単一の NFS サーバに負荷が集中し、サーバ側がボトルネックになりやすいという課題もあります。
以下NFSアクセスイメージ
Lustreのコンセプト
Lustreは、HPCやAI向けに広く利用されているオープンソースの並列分散ファイルシステムです。
長年にわたり、AI ワークロードと親和性の高い大規模 HPC 領域で実績を積んできたことに加え、役割ごとにサーバを分離したアーキテクチャにより、高いスループットと優れたスケーラビリティを実現します。また、JLUG(Japan Lustre User Group)をはじめとしたユーザコミュニティに支えられ、国内外で根強い人気と活発な利用者基盤を有している点も特徴です。
Lustre概要
参考:https://wiki.lustre.org/Main_Page
Lustreアクセスイメージ
以下がLustreファイルシステムを構成する主なコンポーネントです。
MGS (Management Server): Lustreファイルシステム全体の構成情報を一元管理するサーバ
MDS (Metadata Server): ファイル名やディレクトリ構造などのメタデータを管理するサーバ
OSS (Object Storage Server): データ本体を格納するサーバ
構成するコンポーネントが多く、複雑に感じるかもしれませんが、クライアント側から見るとこれら複数サーバの集合が 1つの大きなファイルシステムとして見えるため、通常の Linux ファイルシステムと同じように ls や cp、アプリケーションからのファイルアクセスが行えます。
以下画像は実際にEXAScalerとLustreを用いてDGXにマウントした例です。
1.3 ES400NVX2の紹介
本章では、弊社が導入している DDN EXAScaler アプライアンスES400NVX2について解説します。
ES400NVX2の特徴
ES400NVX2は、HPC や AI ワークロード向けに設計されたオールフラッシュ型のEXAScaler アプライアンスで、多数の NVMe / SSD を高密度に搭載できることが特徴です。GPU クラスタに対して高いスループットでデータを供給する用途を主眼に置いたモデルであり、DGX をはじめとするマルチ GPU サーバとの組み合わせを前提としたストレージと言えます。
また、NVIDIA GPUDirect Storage(GDS)などの高速技術に対応しており、GPU とストレージ間のデータ転送経路を最適化することで、AIワークロードの I/O ボトルネックを低減する機能も持ちます。
![]()
EXAScalerに対してGPUDirect Storage (GDS)を有効化した例
ハードウェア構成
ハードウェア構成としては、以下のように各コンポーネントが二重化されており、高い可用性を確保しています。
・コントローラノードの二重化(アクティブ/アクティブ構成)
・電源ユニットの二重化
・ネットワークインターフェース(フロントエンドポート)の二重化・多ポート
これらにより、片系に障害が発生してもシステム全体としてサービスを継続できる設計となっています。また、コンパクトな 2U 筐体のため、ラック面積の削減にも貢献します。さらに、ディスクエンクロージャの追加による容量拡張や、構成によってはノード追加によるスループット拡張など、スケールアウトも可能で、まずは小規模な構成から導入し、必要に応じて段階的に拡張していくようなシナリオにも適しています。
![]()
ES400NVX2の実機画像
出典:https://www.it-ex.com/products/maker/datadirectnetworksjapan/datadirectnetworksjapan-storage.html
1.4 導入と運用
本章では、実際にDDN EXAScalerの導入から運用までの例を紹介します。
初期構築支援
EXAScalerでは、出荷時にストレージ側の設定が一通り実施されます。
ネットワーク構成やプロトコル、マウントポイントなどの主要パラメータをヒアリングシートに記入することで、それに基づいた設定があらかじめ反映された状態で提供されます。
また、必要に応じてクライアントOS 側への Lustre モジュールのインストールや、マウント設定まで実施することも可能です。Lustreファイルシステムが初めての場合でも導入を進めやすくなります。
GUIによる監視
EXAScaler には Web ベースの管理 GUI が用意されており、簡易な作業はブラウザから実施できます。
代表的な操作としては、例えば以下のようなものがあります。
・各コンポーネント(MDT/OST) VMの起動/停止
・ファイルシステム/ボリュームの確認
・使用量などの簡易的なリソース状況の確認
・ディスクやコントローラ、電源などハードウェアの状態確認
・アラート/イベントログの確認
コマンド経由での管理も可能ですが、日常的なステータス確認などであればGUIでの操作で十分です。
![]()
ES400NVX2のWebUIを用いてストレージプールを表示している例
![]()
ES400NVX2のWebUIを用いて各コンポーネントVMを表示している例
モニタリング
さらに、DDN のモニタリング用サーバを別途構成して連携することで、複数の EXAScaler システムの状態や性能情報をまとめて監視することもできます。シンプルな環境では単体の GUI だけでも十分ですが、将来的にシステム規模が大きくなった場合にも、集中監視の仕組みによって容易にスケールさせられる構成になっています。
加えて、Slurm などのジョブスケジューラと連携することで、ジョブ単位でのリソース利用状況や性能を可視化でき、ボトルネック分析や運用チューニングに役立つ高度なジョブ連携機能も利用可能です。
1.5 まとめ
本記事では、DDN の並列分散ストレージ EXAScalerとES400NVX2の概要をご紹介しました。
EXAScalerはLustre をベースとした高スループットな共有ストレージで、大量のデータをクラスタ全体から並列に読み出す AI ワークロードで力を発揮します。
ES400NVX2は、二重化されたコントローラや電源、ネットワーク I/F を備えたコンパクトな 2U アプライアンスで、高速なNVMe ストレージを活かしつつ、ラックスペースの有効活用にも貢献します。
また、ディスクエンクロージャ追加やノード拡張によるスケールアウトも可能で、スモールスタートから段階的な増設にも対応できます。
さらに、出荷時設定や導入支援サービス、Web GUI・IPMI・監視連携により、導入・運用を進めやすい点も特徴です。
また、S3 互換のオブジェクトストレージ Infinia と組み合わせることで、学習用の高速領域と大容量の保管領域を分けた構成も実現できます。
EXAScaler は、単なる「速いストレージ」というだけでなく、AI ワークロードに必要な性能・可用性・拡張性と、実運用に耐える管理性を併せ持つ、AI インフラの中核となり得るストレージ基盤です。
他のおすすめ記事はこちら
著者紹介
SB C&S株式会社
ICT事業本部 技術本部 技術統括部
第2技術部 1課
間山 翔宇
VMware vExpert
