Redémarrage complet d’une infrastructure VSAN
By: Date: 8 mars 2021 Categories: Tuto Pour Les #SysAdmin,VMware <3

Vous serez peut être un jour confronté à un redémarrage complet du VSAN. C’est à dire, arrêter l’ensemble des ESX supportant l’ensemble de vos Machines virtuelles.
Je tenais donc à vous partager mon retour d’expérience ainsi que de vous partager la procédure que j’ai réalisé.
Cette tâche n’est pas simple psychologiquement parlant car vous serez confrontés à ce genre de question :
– Est ce que les VM vont être présente au redémarrage ?
– Est ce que les ESX vont démarrer ? etc …

Cette procédure n’est pas à suivre à la lettre et peut être différente entre chaque infrastructure, mais elle vous donnera certaines billes et surtout les pièges à éviter. Sachez que nous avons suivi à la lettre la procédure et le redémarrage s’est très très bien passé…

Infrastructure :

Voici l’infrastructure (dans les grandes lignes) que nous avons entièrement redémarré.

  • 6 ESX en vSphere 6.7
  • VSAN
  • 1 vCenter
  • 1 NSX Manager
  • 1 Solution Antivirus basé sur NSX

Les prérequis :

Certains de ces prérequis vont vous sembler absurde, mais on est jamais trop prudent…

  • Accès SSH aux ESX (compte et mot de passe)
  • Accès aux ESX via interface web (compte root et mot de passe)
  • Accès au VCENTER en tant que administrator@vsphere.local
  • Accès NSX Manager (compte root et mot de passe)
  • Fichiers des IP en local (si vos DC sont éteints, plus de DNS…)
  • Fichiers des mots de passe en local
  • Une IP fixe sur le PC (si vos DC sont éteints, plus de DHCP…)

ETAPE 1 : Pré arrêt du VSAN

1) Arrêt du DRS :

Avant l’arrêt des VM, nous allons désactiver le DRS afin que celui-ci ne déplace pas les VM lorsqu’on les arrête (ré équilibrage de charge entre les ESX).
Le but étant de ne pas d’avoir d’interaction entre l’arrêt des VM, les vMotions, le vcenter.

  1. Depuis l’interface WEB du vCenter, se connecter en tant que « administrator@vsphere.local »
  2. Allez sur le cluster « Nom de votre Cluster VSAN » puis « configure » 

3. Cliquez sur « vSphere DRS » , puis « DRS Automation » 

On peut voir que le DRS est en mode « Fully Automated » , nous allons le désactiver.

4. Cliquez sur « EDIT… » à droite :

5. Cliquez sur le Bouton vert « vSphere DRS » :

// Le DRS va se désactiver sur l’ensemble des ESX //

OPTIONNEL : Arrêt et Suppression des SVA et des Guest Introspection (NSX + solution antivirus)

Une fois le DRS désactivé, nous allons arrêter l’ensemble des VM. Toutefois, nous allons commencer par la couche antivirus lié à l’hyperviseur afin de limiter les IO lors de l’extinction des machines virtuelles.

  1. Depuis le vCenter, allez dans « Menu » puis  « Networking et Security »

2. Arrivez sur le Dashboard de NSX, allez dans « Installation and Upgrade » puis  « Service Deployment »

3. Sélectionnez « Votre solution Antivirus » (IMPORTANT DE BIEN COMMENCER PAR CELUI CI) puis « Delete »

4. Attendez que le vCenter face les opérations nécessaires (max 5 min). une désinstallation va se dérouler sur les ESX. Dès que la ligne « Votre solution Antivirus » disparait, vous pouvez faire la même chose avec les « Guest Introspections »

Attendez bien la désinstallation des machines virtuelles « Guest Introspection »

2) Extinction des Machines Virtuelles.

1. Vous pouvez éteindre toutes les machines virtuelles sauf :

  • Contrôleurs de domaine
  • Votre vCenter
  • Votre NSX manager

Repérez bien sur quels hosts sont ces trois machines virtuelles. Dans l’idéal, placez les sur un seul ESX (plus simple).

2. Connectez vous sur l’interface WEB de l’ESX disposant des machines virtuelles ci dessus afin de les éteindre proprement (pas de POWER OFF !!!)

Nous avons choisi cette ordre pour l’extinction :
VCENTER -> NSX Manager -> Controleurs de domaine

// Vous êtes dans le noir… plus de DNS, plus de DHCP //

3) Check de l’intégrité du VSAN :

Etat général du VSAN :

Le vCenter étant arrêté, nous allons devoir vérifier l’intégrité du vsan avant l’arrêt des ESX. Pour faire cela, connectez-vous en SSH sur un ESX (n’importe lequel du cluster VSAN) et tapez la commande suivante :

esxcli vsan health cluster list

Vous devriez avoir ceci :

Health Test Name                                    Status
 --------------------------------------------------  ----------
 Overall health                                      green (OK)
 Cluster                                             green
   ESXi vSAN Health service installation             green
   vSAN Health Service up-to-date                    green
   Advanced vSAN configuration in sync               green
   vSAN CLOMD liveness                               green
   vSAN Disk Balance                                 green
   Resync operations throttling                      green
   Software version compatibility                    green
   Disk format version                               green
 Network                                             green
   Hosts disconnected from VC                        green
   Hosts with connectivity issues                    green
   vSAN cluster partition                            green
   All hosts have a vSAN vmknic configured           green
   vSAN: Basic (unicast) connectivity check          green
   vSAN: MTU check (ping with large packet size)     green
   vMotion: Basic (unicast) connectivity check       green
   vMotion: MTU check (ping with large packet size)  green
   Network latency check                             green
 Data                                                green
   vSAN object health                                green
 Limits                                              green
   Current cluster situation                         green
   After 1 additional host failure                   green
   Host component limit                              green
 Physical disk                                       green
   Operation health                                  green
   Disk capacity                                     green
   Congestion                                        green
   Component limit health                            green
   Component metadata health                         green
   Memory pools (heaps)                              green
   Memory pools (slabs)                              green
 Performance service                                 green
   Stats DB object                                   green
   Stats master election                             green
   Performance data collection                       green
   All hosts contributing stats                      green
   Stats DB object conflicts                         green

Le plus important étant le « Overall health  green (OK) » Si ce n’est pas le cas, ne continuez pas la procédure. je vous conseille donc de redémarrer les Machines virtuelles et de régler le problème du VSAN (ticket vmware ?) avant tout redémarrage.

Etat des objets en cours de synchronisation

Ensuite, nous allons regarder si des objets sont toujours en cours de synchro entre les ESX. Il est important de ne rien avoir avant de mettre en mode maintenance les ESX.

Tapez la commande suivante sur un ESX (n’importe lequel) :

esxcli vsan debug resync summary get

Vous devriez avoir :

Total Number Of Resyncing Objects: 0
    Total Bytes Left To Resync: 0
    Total GB Left To Resync: 0.00

S’il n’y a pas d’objets en cours de synchronisation, vous pouvez continuer la procédure. Sinon, attendez quelques minutes puis relancez la commande.

ETAPE 3 : Arrêt du VSAN :

Notez bien ceci c’est très TRES IMPORTANT :
Pour un arrêt global d’un CLUSTER VSAN (c’est-à-dire, tous les hôtes du cluster) à chaque fois que vous allez mettre en mode maintenance les ESX, il faut impérativement sélectionner l’option « AUCUNE MIGRATION DE DONNEES ».
Le fait de sélectionner cette option indique à votre hôte qu’il ne doit pas déplacer les blocs de données sur les autres hôtes encore allumés.
Pour info : Si vous faite la migration de donnée, et que vous éteignez le dernier hôte, qui potentiellement va récupérer l’ensemble des données du Datastore (chose impossible) vous l’allez perdre l’ensemble du stockage et les données ne seront plus accessible.
L’infrastructure est donc perdue définitivement.

C’est très important de choisir « Aucune Migration de données »

1) Activation du mode maintenance :

Activer le mode maintenance depuis l’interface WEB de chaque ESX (un par un) :

Confirmez le mode maintenance :

Placez donc l’ensemble des hôtes en mode maintenance de la MEME MANIERE !!!

// Vous pouvez refaire un check du vsan (voir intégrité VSAN). SI c’est ok, vous pouvez arrêter les hôtes //

2) Arrêt des hôtes :

  1. Connectez-vous sur l’ensemble des hôtes en interface web (si ce n’est pas déjà le cas) et cliquez sur le bouton arrêt
  2. Faite cella sur l’ensemble des hôtes.
  3. Vous pouvez effectuer votre opération de maintenance (rack, câblage etc)

ETAPE 3 : Procédure démarrage des ESX et du VSAN :

C’est içi qu’on serre les fesses :p

1) Démarrage des ESX :

  1. Appuyer sur le bouton Power de l’ESX. Vous pouvez tous les démarrer en même temps, il n’y aucun impact.
  2. Attendre que les ESX  démarre complètement (une connexion à l’idrac de chaque ESX peut être utile) sinon attendre qu’ils répondent au ping + quelques minutes
  3. Connectez vous sur l’interface web de chaque ESX.

Et là, vous prenez peur !!!!! Car le stockage est à 0 octet ! Pas de panique, c’est normal ! Le VSAN va retrouver sa capacité au fur et à mesure que l’on enlève le mode maintenance.

2) Enlever le mode maintenance :

  1. Connecter vous sur l’ensemble des ESX via l’interface web. Vous verrez, le stockage est à 0octet et les VM auront des ID en guise de Nom. Pas de panique, encore une fois, c’est normal.
  2. Il faut enlever le mode maintenance sur chaque ESX pour que le stockage apparaisse.
  3. Faire un petit check du VSAN quand tout les hôtes sont rallumés et hors maintenance.

3) Démarrage des machines virtuelles :

Dans notre cas, nous avons redémarrer dans cette ordre nos machines virtuelles. Réponses et explications

  1. En premier, les controleurs de domaine. bien attendre que DNS et DHCP soit disponible. Accessoirement, vous pouvez faire un DCDIAG ainsi qu’un « repadmin /syncall » afin de voir si les deux controleurs (ou plus) se synchronise bien entre eux. Sachez tout de même que cela peut prendre un certain temps …
repadmin sans erreur

2. En 2eme, nous avons redémarré le NSX Manager. Pourquoi ? Celui ci est autonome, mais le vCenter est lié à celui-ci, autant le démarrer en premier, afin que le vCenter puisse s’y connecter.

Vous pouvez vous connecter au NSX manager directement afin de vérifier l’état des services avant de démarrer le vCenter.

3. Démarrer le vCenter (environ 20 à 30 minutes selon l’environnement)

Une fois le vCenter démarré et opérationnel (interface web qui fonctionne, hosts remontés etc…) Il faudra retourner sur le NSX Manager afin de vérifier la connexion avec le vCenter.
Pour cela, connectez vous à l’interface web du NSX Manager, puis cliquez « Manage » en haut à gauche puis « NSX Management Service » et à droite vérifiez que les voyants sont verts.

// Une fois le vcenter et NSx lié, pensez à réinstaller la solution antivirus avant de démarrer les autres machines virtuelles //

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *