Nutanix でNetwork Segmentationをした際のHAの挙動について
記事の概要
Nutanix(AHV)でNetwork Segmentaionを導入した場合にBackplaneトラフィックが切断された際にHAが発生することを検証する
Network
Segmentationとは
NutanixにおけるNetwork Segmentationとは、AHV/CVMの管理トラフィックをBackplaneトラフィックを分離する構成のことである。
※Nutanix FlowやVMware NSXのマイクロセグメンテーションとは異なる。
詳細については以下の公式ドキュメントが詳しい
AOS
Security 7.0 - Securing Traffic Through Network Segmentation
検証内容:VMHAのハートビートについて
上記公式Docによると、VMHAの挙動に関わるトラフィックはBackplaneトラフィックに含まれると記載がある。
そのため、Network Segmentationを実施した場合、以下の挙動となることが想定される。
・管理系トラフィックの切断ではHA発生しない。
・Backplaneトラフィックの切断でHAが発生する。
この挙動を実機で検証してみる。
検証環境
モデル:Dell XC640-4 * 4ノード 10GbE*2ポート
バージョン:AOS7.0/AHV10.0
検証方法
環境に制限があるため、Physical SegmentationでBackplaneトラフィックを分離する。
手順は以下の公式Docを参照する
AOS
Security 7.0 - Physically Isolating the Backplane Traffic on an AHV Cluster
VLANは管理系と同じVLAN ID 0 (タグなし)に設定をするがサブネットを異なるものに設定する。
分離後のネットワークの切断についてはAHVからifconfig
ehtX down コマンドを実行することで実現する
任意の1ノードにて、管理トラフィックをとBackplaneトラフィックをそれぞれ切断し、VMHAの挙動を確認する
事前準備
①AOS7.0(AHV10.0)でクラスタを構成する。(10GbE
*2 ポート)
②デフォルトの仮想スイッチ(vs0)のアップリンクを冗長なしに設定する(eth2を利用)
③分離用の仮想スイッチ(vs1)を作成する(eth3を利用。冗長なし)
その後、公式Docの手順に従って、Physical Segmentationを有効にする。
※アップリンクを冗長なしにする場合はVirtual Switchの編集画面でNo
Uplink Bondを選択する
検証結果①:Backplaneトラフィックの切断時
想定通りVMHAが発生した。
疑似障害ノード(CVM/AHV)に関しては管理系の疎通が活きているためSSHでの接続やGUI表示に問題はなかった。
疑似障害からの復旧後以下のアラートが残存した。
この事象については以下のKBに解決策も含めて説明されている。
A
node can be detached from Metadata store during LCM operation
疑似障害後、120分以上経過したため仕様により該当ノードのCVMがCassandraクラスタから外されたためのアラームである。
KBの手順ですぐに復旧した。
検証結果②:管理トラフィックの切断時
管理系トラフィックの切断時にはVMHAは発生しなかった。(ドキュメントの記載通り)
ただし、切断中はGUIの表示が不安定となった。
管理系を切断しているため、疑似障害ノードのAHV/CVMへのSSHやGUI接続ができなくなることは想定通りだが、
Prism Elementの挙動が不安定となりGUIから状況が確認できなくなった。
※Prism Leaderは他のノードになっていることを確認し、Leader
IPでアクセスしてもGUIが正常に機能していなかった。
また、事象発生中に異常を示すアラートやイベントが発生していなかった。
実際の運用環境では、ネットワークも冗長化するため同様の状況になることは稀だとは思うが、アラートやイベントが出ない都合上、障害検知や異常発生時(UserVMの疎通不可など)の原因特定が遅れる可能性もあるため、Network Segmentationをする際は別途管理系のPing監視などを併用した方が良いと考えられる。
その他コメント
Network Segmentationの有効化は、サクッと終るかと思いきや、それなりの時間を要した。(該当タスクのみで1時間2分)
Network Segmentationは事前に全AHVをメンテナンスモードに入れる必要があるため、事前の準備として仮想マシンの停止とコマンドでのメンテナンスモードへの移行も必要になる。
また、既存のAHVの仮想スイッチから物理NICを分離する場合は仕様としてローリングリブートも必要になる。
そのため、運用開始後(Day2)でNetwork Segmentationを有効化する場合は少なくとも数時間のメンテナンスウインドウが必要となるため、構築時にきちんと検討しておく方が良い。
コメント
コメントを投稿