SB C&Sの最新技術情報 発信サイト

C&S ENGINEER VOICE

SB C&S

Nutanix Filesの可用性と障害時の動作

仮想化
2021.09.30

こんにちは。SB C&Sで仮想化製品の技術支援を担当している真砂です。

今回はNutanix Filesの可用性の仕組みと障害時の動作について紹介いたします。

※投稿記事一覧
第1回 Nutanix Filesの構築手順
第2回 Nutanix Filesの分散共有フォルダの仕組みと構築手順
第3回 Nutanix Filesの可用性と障害時の動作 ←本記事

Files障害発生時の動作について

Nutanix Filesは複数のFSVMとVolumesを使い、負荷分散の仕組みが備わっていることを前回の記事にて紹介させていただきました。
この仕組みは障害時の動作においても、大きく関わってきます。

▼クライアントからのアクセスとFSVM、Volumesの関係(前回の記事で紹介)
_2021-09-27_13-22-46_.JPG


説明がしやすいようにフォルダなどの要素は除外し、FSVMのIPアドレスとクライアントからのアクセス、Filesで利用されているVolumesだけを記載した以下の図を利用して説明します。_2021-09-29_05-20-09_.JPG


各クライアントはDNSにて名前解決の結果、192.168.1.1 ~ 192.168.1.3いずれかのFSVMに接続してVolumes内のファイルにアクセスしていることがわかります。
この状態で左の1ノードダウンした場合の挙動は以下のようになります。
_2021-09-29_05-20-44_.JPG


Filesを利用するクライアントは左側のノードがダウンしたことにより、その上で動作していたFSVMとの接続が失われてしまいます。
このような状態になると、残りのFSVMが接続できなくなったFSVMのIPアドレスを持った仮想NICが作成され、クライアントからのアクセスを継続させます。
また、Volumesに関しても異なるノードで複製され、Volumes内の共有フォルダが利用できる状態を維持します。
※Volumesは各ノードに分散してデータを配置しているため、正確には上記の図とは動きが異なりますが、ここでは説明しやすい形で表現をしています。

実機の検証環境を準備

上で説明した図の状況を実機で確認してみましょう。
以下のような環境を準備しました。
_2021-09-29_05-21-16_.JPG

Filesを「EV-Files」という名称で作成し、「共有A」、「共有B」、「共有C」3つの共有フォルダを作成しています。
320.png

Volumesの一覧を見ると、Files名が含まれるVolumes名が存在することを確認できます。
317.png

SSHにて各FSVMに接続すると、これらのVolumesがマウントされていることが確認できます。
319.png


1ノード障害時の動作

上記のFilesが稼働している状況で、1ノードを強制的に停止させてみましょう。
_2021-09-29_05-22-42_.JPG


1ノード停止後、稼働しているノード上に存在するFSVMのVolumesを確認すると、停止したノード上のFSVMがマウントしていたVolumesが異なるFSVMで再マウントされていることがわかります。
321.png

また、この状態でFSVMのIPアドレスを確認すると、停止したFSVMのIPアドレス[192.168.45.110]が異なるFSVMの仮想NICとして付与されていることも確認できます。
322.png


この状態を図で表現すると、以下のようになります。
_2021-09-29_05-32-35_.JPG
1ノード停止してから上記の状態になるまで、今回の検証では1分程度で確認ができました。

さらに少し時間が経過すると、停止したFSVMが異なるノードにてHAで再起動されます。
323.png

FSVMがHAで再起動されると、障害発生直後に異なるFSVMに紐付けられたVolumesとIPアドレスはもとの状態に戻ります。
ハード障害などによってノードの復旧に時間を要する場合であっても、FSVMの台数は障害前と同じ台数で継続して運用することができるため、Filesのパフォーマンスが低下することはありません。
_2021-09-29_05-57-07_.JPG

停止したノードが起動すると、自動的にFSVMのライブマイグレーションが行われ、障害発生前の状態へ戻ります。
324.png
 

まとめ

Nutanix FilesはFSVMとVolumesを組み合わせた仕組みにより、負荷分散だけでなく可用性を実現できる機能を提供することができます。
本記事で紹介させて頂いたとおり、ノード障害が発生した場合であってもダウンタイムが非常に短いため、利用クライアントがFilesの障害に気がつくことも少ないと思います。
また、これらの仕組みは構築時・障害発生時どちらにおいても作業者・運用管理者が設定・操作することなく実現できるため、導入が非常に簡単であることも大きなメリットになると考えています。

著者紹介

SB C&S株式会社
ICT事業本部 技術本部 第3技術部 2課
真砂 暁 - Akira Masago

お客様へより良いシステムのご提供を目標に、インフラ周りのプリセールスエンジニアとして活動。
現在は仮想化製品を担当すべく、日々精進しております。