こんにちは。SB C&S の村上です。
この記事では2024年5月より提供が開始されたVMware Private AI Foundation with Nvidia (以降PAIF-N)について、構成要素を中心に紹介します。
VMware Private AI Foundation with NVIDIAとは
2023年のVMware Exploreで発表された、NVIDIA社とVMware社が共同開発した企業向けのプライベートAI基盤となります。
VMware Explore 2023 Las Vegas レポート - VMware Private AI
仮想化基盤としてVMware Cloud Foundation、GPUを用いたAIワークロードとしてNVIDIA AI Enterpriseを用いています。
全体像のイメージは以下のようになります。
VMware Cloud Foundationの仮想化の基盤上にNVIDIAが提供するvGPUを搭載したコンテナ実行環境が動作しています。
その上にNVIDIA AI Enterpriseにて提供されるサポータブルなAIワークロードを展開することができます。
AIワークロードについて
AIをするまでに深層学習などでモデルを作成し、それをサービスとして利用できるように展開していく必要があります。このような一連のタスクをAIワークロードと呼びます。
例えば、以下のような流れで開発から展開までに行われる一連のタスクが該当します。
- モデル開発
- 前処理:データを整理し、AIモデルのトレーニングに適した形式に変換
- 深層学習:ニューラルネットワークなどのアルゴリズムを用いてAIモデルを構築
- モデルの最適化:トレーニング後のモデルを効率的かつ高精度にするための調整
- モデル展開
- 推論:学習済みモデルをAPIとして提供し、リアルタイムでの推論を可能に
- RAG:推論結果を向上させるために、関連データをリアルタイムで補完
- ガードレール:AIの推論結果が適切であることを保証するための制御を実施
PAIF-NではNVIDIA AI Enterpriseにて提供されるソフトウェア群にてこのAIワークロードを一式構成することができます。
VMware Private AI Foundation with NVIDIA の構成要素
VMware Cloud Foundation
VMware Cloud Foundation (VCF) はVMwareが提供するvSphere、vSAN、NSXなどのソフトウェアスイートであり、オンプレミス環境にプライベートクラウドを構成できるソリューションです。
このVCFにて、後述するNVIDIA AI Enterpriseに特化した仮想マシンであるDeep Learning VMや、エンタープライズ向けKubernetes基盤であるTanzu Kubernetes Gridのクラスタを構築し、その上でAIのワークロードを動作させることができます。
また、VCFではAIの開発や利用において必要不可欠な、GPUを柔軟に利用するための以下のNVIDIA製品に対応しています。
- NVIDIA vGPU
- NVIDIA GPU Manager
NVIDIA仮想GPUソリューション
NVIDIA vGPU
NVIDIAが提供する物理のGPUを仮想化し、複数台のマシンにて利用することができるようにするソリューションになります。
VCFではESXiに搭載された物理のGPUを仮想化することで、複数の仮想マシンに割り当てて利用することで必要な仮想マシンに必要な分だけGPUリソースを割り当てることができます。
NVIDIA vGPUについてはこちらの記事をご参考ください。
【連載】NVIDIA vGPU ご紹介 第1回 vGPUのコンポーネント
NVIDIA GPU Manager
NVIDIAのGPUをESXi上にて利用するためには、GPUのドライバを各ESXiにインストールする必要があります。
vCenterがNVIDIA GPU Managerと連携することで、vSphere Clientのコンソール上にてドライバのダウンロードからインストール、管理まで一貫して行うことができます。
NVIDIA AI Enterprise
AIの開発や本番展開に最適なエンタープライズ向けのソフトウェアスイートであり、NVIDIAによって検証済みでサポートされるAI向けのソフトウェアが提供されます。
NVIDIAによってカタログが用意されており、AI向けライブラリを搭載したコンテナイメージ、学習済みモデル、GPUドライバなど必要なものが一式揃っています。他にも、本番利用向けのコンテナイメージをまとめたコレクションなども提供されています。
Private AI Foundation with NVIDIA 独自の要素
従来から提供されていたVCFやNVIDIAソフトウェアに加えて、PAIF-Nでは次のものが提供されています。AIワークロードの実行環境となるソフトウェアの他にも、PAIF-Nにて活用できるVMware製品がソリューションに含まれています。
Deployment Guide
Private AI Foundations with NVIDIAの展開を支援するガイドが提供されています。
VCFの展開にて用いるSDDC Manager上で確認でき、VCFの展開後からすぐにPAIF-Nの構築へ進むことができます。
SDDC Managerに関しては別記事でもご紹介していますのでご参考ください。
VMware Cloud FoundationのSDDC Managerとは ?
Deep Learning VM
AIワークロードの実行環境として、新たにDeep Learning VMが提供されています。
Deep Learning VMは、NVIDIA AI Enterpriseのライブラリやツールドライバなどがあらかじめインストールされた仮想マシンです。仮想マシンテンプレートとして提供されるため、素早くVCFの仮想環境上に展開して利用開始できます。
そして、利用用途に合わせて任意のフレームワークのコンテナを起動して利用できます。
Tanzu Kubernetes Grid (GPU搭載)
AIワークロードの実行環境として、GPUを搭載したTanzu Kubernetes Gridも利用可能となります。
Tanzu Kubernetes GridはVMwareが提供するエンタープライズ向けのKubernetes基盤となり、vGPUにも対応しています。
GPUの使い方として、vGPUを利用するパターンとvGPUを利用せずに利用するパススルーの方式があり、用途に応じて使い分けとなります。
Tanzu Kubernetes Gridでは、NVIDIA AI Enterpriseにて提供されるGPU-Operatorというソフトウェアによって最適化しつつ、vGPUのPod内での利用を実現しています。
Aria Operations
VCFの仮想環境上のデータを収集し、リソース使用量の可視化や最適な利用案の確認を行えるプロダクトです。PAIF-Nにおいては、GPUモニタリング機能にて、GPUメトリックの使用率やヒートマップを確認できます。
Aria Automation
VCFに含まれる、インフラストラクチャの構築や運用タスクの自動化を実現できるプロダクトです。PAIF-Nでは、AIの開発や実行に必要な環境をセルフサービス カタログとして定義しておくことで、開発者を初めとした利用者が数クリックで展開できるようになります。
Data Services Manager
VCF上にデータベースを展開し管理できるプロダクトです。PAIF-Nでは、RAGで用いられるVector DBの展開などで活用できます。
まとめ
今回はVCFでNVIDIA AI Enterpriseを活用するソリューションである、VMware Private AI Foundation with NVIDIAの概要について紹介しました。AIは昨今のIT業界でも重要視されているため、オンプレミスのエンタープライズ向けAI基盤として期待されます。
他のおすすめ記事はこちら
著者紹介
SB C&S株式会社
ICT事業本部 技術本部 技術統括部
第1技術部 1課
村上 正弥 - Seiya.Murakami -
VMware vExpert