Une des rares opérations pas vraiment transparente lorsque l’on administre des noeuds Nutanix avec ESXi comme hyperviseur concerne la mise en maintenance.

Comme vous le savez la CVM est liée au stockage local de l’hôte et ne sera pas déplacé par un vMotion pour la mise en maintenance, il faut donc l’eteindre.

Oui mais comment ? Pendant longtemps je pensais à tort qu’un “Shut Down Guest OS” était suffisant, qu’un hook avait été mis en place dans la CVM pour intercepter ce type d’ordre et proceder proprement à l’extinction. (Et en discutant autour de moi, je n’étais pas le seul à penser ça)

Sur les conseils d’un contact Nutan, j’ai ouvert un ticket au support pour en avoir le coeur net et il n’en ai rien, la seule méthode supportée consiste à se connecter à la CVM et executer la commande :

cvm_shutdown -P now

qui permet de réellement prévenir les autres noeuds du cluster que la CVM n’est plus disponible et ce point n’est pas présent via VMware.

Je vous met en lien les références Nutanix :

Shutting Down a Node in a Cluster (vSphere Web Client)

et aussi

Shutting down all nodes in a cluster for maintenance or relocation

 

Souvenez-vous, le SATADOM c’est ce module mémoire attaché à la carte mère de nos serveurs, ici Dell, qui contient les sources Nutanix avec la CVM et l’hyperviseur.

Depuis une récente mise à jour, j’avais une alerte sur l’obsolescence des firmwares de SATADOM sur mes plus anciens clusters :

Le support Dell a réalisé la première opération d’upgrade, rien de compliqué mais plusieurs heures de maintenances en webex et quelques lignes de commandes à exécuter, on était très loin du “One-clic Upgrade”.

Mais les choses ont changées puisque la dernière version de Life Cycle Management aka “LCM” prend justement en charge l’upgrade des SATA DOM !

Idéalement les CVM auront accès à internet,  au minimum *.nutanix.com, il existe même une procédure pour LCM sans connexion intituler “Using the Life Cycle Manager Without Web Access“.

1er étape, lancer un inventaire afin qu’il détermine les composants et nouvelles versions disponibles: cliquez sur “Perfom Inventory”

2eme étape upgrade des LCM :

Sélectionnez les LCM à upgrader, puis cliquez “Save Selection”

Cliquez sur “Update Selected”

 

Cliquez sur “Apply x Updates”

Update en cours :

Opération terminée avec succès, LCM en version 1.1a492718:

3eme étape, on relance un scan afin qu’il détecte les nouveaux composants: cliquez sur “Perfom Inventory” depuis LCM.

Cliquez sur “Define”

Selection des noeuds à upgrader :

Mettre à niveau la sélection, cliquez sur “Update Selected”

étrangement sur cette écran on ne peut pas appliquer les updates, retourner sur “all updates” :

L’application des updates est bien disponible ici, cliquez sur “Apply x Updates” pour lancer l’assistant de connexion au vCenter car sur ce cluster les hôtes sont des ESXi :

Entrer les informations de connexion au vCenter qui héberge les machines concernées par l’update:

 

Vous devriez constater de mutiples vMotion afin de libérer les noeuds, puis l’operation d’upgrade debute, il faut etre patient c’est assez long.

L’opération s’est terminé pour moi en un peu moins de 2h pour 3 noeuds.

Je suis content de constater qu’il n’y a pas que le hardware nutanix concerné par LCM et que les OEM ont de plus en plus de composants supporter par ce superbe outil qui fait vraiment gagner en OPEX.

Voici le script que j’utilise en ce moment pour les mises en maintenance des hôtes AHV des clusters Nutanix avec un menu à choix multiples :


Disconnect-NTNXCluster *

#Choisir le cluster 
$ClusterNut = Read-Host "Entrer the Ip or DNS name of your Nutanix Cluster to manage"

Connect-NTNXCluster $ClusterNut -AcceptInvalidSSLCerts -ForcedConnection
$Clusterlist = $null


for () {

# récupère la liste des noms d'hôtes du cluster
$Clusterlist = Get-NTNXHost

    #défini integer à 0
    $i=0

    $ClusterName = (Get-NTNXCluster).name

    Write-Host "Vous avez selectionné le cluster $($(Get-NTNXCluster).name)
    "

    # Créer un menu : Pour chaque hôte du cluster ajouter 1 à i et afficher le nom d'hôte associé
    write-host "0 : Sortir du script"
    foreach ($ht in $Clusterlist) {
        $i++
        Write-Host "$i : $($ht.Name) : état  $($ht.hypervisorState) : Hyperviseur $($ht.hypervisorAddress) : IPMI $($ht.ipmiAddress) " 
        }

    do {
    $Menu = Read-Host "Choisir le numéro d'hôte"
    #juste affichage : tant que le chiffre indiqué n'est pas un nombre d'un hôte possible on boucle ici
    if (0..$Clusterlist.Count -notcontains $Menu) {Write-Host "Merci d'indiquer le numéro correspond au noeud à mettre en maintenance" -ForegroundColor Red}
    }

    #tant que le chiffre indiqué n'est pas un nombre d'un hôte possible on boucle ici
    while (0..$Clusterlist.Count -notcontains $Menu)

    #Conserve le nom de l'hôte dans la variable ChoiceMenu le -1 sert car le count debute à 0.
    if ($menu -eq 0) {
                        #Déco
                        Disconnect-NTNXCluster *
                        exit
                      } 
    $ChoiceMenu = ($Clusterlist).name[$menu-1]
    write-host "Vous avez choisi le $ChoiceMenu"

    Write-Host -ForegroundColor Green "Choisir l'option 1 pour Mettre en Maintenance et l'option 2 pour remettre en ligne" 
    $Menu1 = Read-Host 

    if ($Menu1 -eq 1) {
        $uuid = (Get-NTNXHost | where {$_.name -like $ChoiceMenu}).uuid
        
        write-host "La tache de mise en maintenance de l'hôte $ChoiceMenu est en cours"
        Start-NTNXMaintenanceMode -Hostid $uuid -EvacuationOption LIVE_MIGRATE
        sleep 3 
        
    }

    if ($Menu1 -eq 2) {
    write-host "La tache remise en prod de l'hôte $ChoiceMenu est en cours"
    Stop-NTNXMaintenanceMode -Hostid $uuid
    sleep 3
    }
    
}

Vous avez configuré votre sauvegarde locale, mais votre collège Citrix préféré supprime et provisionne sans cesse de nouvelles VDI persistantes :

Je passe la partie authentification, mais voici quelques lignes pour ajouter automatiquement toutes nouvelles machines à la sauvegarde existante (avec le nom LocalBackup) et supprimer de la sauvegarde les machines qui ne seraient plus disponibles.

 

Détermine la liste des VMs qui ne sont pas des CVM et qui ne sont pas
# dans un ProtectionDomain, c'est l'endroit idéal pour exclure des machines
# qui ne seraient pas à ajouter comme les CVM ou d'autres VMs si votre
# convention de nommage permet de les identifier facilement.
$UnProtectedVMs =  (get-ntnxvm | where {$_.vmName -notlike "*CVM*"} | where {$_.ProtectionDomainName -like $null}).vmname

#Ajout les machines non protégées à la sauvegarde
foreach ($VM in $UnProtectedVMs){
    echo "VM à protéger : $VM"
    Add-NTNXProtectionDomainVM -name LocalBackup -names $VM -Consistencygroupname $VM
}

#Determine la liste des VMs protégées dans le dernier snapshot
$ProtectedVMs = (Get-NTNXProtectionDomainSnapshot | Sort-Object Snapshotid | select -last 1).ConsistencyGroups

#determine la liste des VMs hébergées sur le cluster Nutanix
$VMList = (get-ntnxvm | where {$_.vmName -notlike "*CVM*"}).vmname

#Compare la liste complète des VMs à la liste des VMS protégées et conserve les protégées qui n'existent plus
$VMstoRemove = (Compare-Object -DifferenceObject $VMList -ReferenceObject $Protectedvms | where {$_.Sideindicator -like "<="}).InputObject

#Supprime les $VMtoRemove du ProtectionDomain
foreach ($VMtoRemove in $VMstoRemove){
    Remove-NTNXProtectionDomainVM -name LocalBackup -input $VMtoRemove
    echo "VM à supprimer :" $VMtoRemove
}

Petite information Nutanix en passant pour l’emplacement des logs Foundation avec l’applet java :

http://localhost:9442/foundation/service_log