De Zigbee2MQTT à Proxmox : l’effet papillon d’un switch défaillant

Contexte initial

Depuis plusieurs semaines, je soupçonnais mon coordinateur Zigbee SLZB-06M (Ethernet + PoE) de provoquer des instabilités réseau sous Zigbee2MQTT. Les symptômes étaient clairs : redémarrages en boucle du service, erreurs ECONNRESET, commandes Zigbee échouées… Bref, une stack Zigbee instable malgré une configuration soignée.

J’avais tout envisagé : firmware Ember instable, problème d’alimentation PoE, bugs dans le bridge UART-to-TCP, saturation du port TCP 6638. J’ai même reflashé le dongle et validé la configuration YAML ligne par ligne. Sans succès. Toujours les mêmes erreurs :

error: zh:ember: Adapter fatal error: ERROR_SERIAL_INIT
error: zh:ember:uart:ash: Port Error: read ECONNRESET

J’envisageais déjà de tout remplacer : passer à un dongle USB, revoir le routage, refaire un mesh propre. Et puis...

L’incident du lundi matin

Un blackout complet frappe mon infra : plus aucun service local ou distant ne répond. Proxmox, Zigbee2MQTT, partages NFS, Home Assistant, NAS — tout semble mort. Même l’accès Internet est intact, mais tout ce qui repose sur mon réseau interne est figé.

J’isole alors le NAS (la machine hôte centrale qui héberge tout le stockage via Proxmox), le connecte localement via un boîtier d’acquisition HDMI. Rien. Écran noir.

Je commence à douter de tout : le câble DisplayPort ? Le boîtier HDMI ? Le BIOS ? Je teste, redémarre, écoute. Trois bips longs. Rien à l’écran. Jusqu’à ce que je réalise que j’attendais une image 1080p… alors que le BIOS sort du 640x480. Je reconfigure OBS (oui, parce que je passe par OBS pour afficher mes périphériques), ajuste la fréquence… et là, miracle :

« Press to enter Setup or to enter Boot Menu »

S’ensuivent des erreurs BIOS typiques :

ERROR - POST - Invalid date / time
ERROR - POST - Bad RTC Battery
BIOS Settings defaults loaded.

Le coupable n°1 : la pile CMOS

La pile bouton est morte. Résultat : perte des paramètres BIOS à chaque redémarrage, y compris le boot sur disque. Je la remplace par une neuve (CR2032 à 3,1V), et tout rentre dans l’ordre… en apparence.

Je replace le serveur. Et là, à nouveau : plus rien. Ping muet. Services inaccessibles. Home Assistant muet. Zigbee2MQTT en erreur.

Le vrai coupable : le switch réseau

Un doute m’envahit. Je regarde le switch PoE. Il est éteint. Plus une LED.

Je le remplace immédiatement. Nouveau switch, même câblage. Et tout revient :

Proxmox opérationnel
Partages NFS montés
Home Assistant réactif
Zigbee2MQTT sans erreur

Le lien entre les deux incidents

C’est là que tout devient limpide.

Le switch défaillant provoquait des microcoupures entre les VMs et le stockage.
Les erreurs ECONNRESET de Zigbee2MQTT venaient du lien instable entre le coordinateur Ethernet et le service.
L’instabilité du réseau expliquait les redémarrages en boucle, les commandes Zigbee échouées, les automatisations manquantes.

Et pendant ce temps, je blâmais le coordinateur Zigbee, le firmware Ember ou un bug MQTT… alors que tout venait d’un simple transformateur à 10€ du switch.

Bilan

Ce que j’ai appris :

Ne jamais sous-estimer un composant “passif” : un switch, une pile, une alimentation.
Un bug réseau peut se déguiser en bug applicatif.
Les microcoupures sont pires que les pannes franches : elles érodent les services sans les faire crasher complètement, rendant le diagnostic flou.
Observer avant d’agir, c’est vital. Sinon, on démonte tout… pour rien.

Et maintenant ?

Tout est reparti. Le coordinateur Zigbee SLZB-06M fonctionne parfaitement. Plus aucun redémarrage du service. Plus d’ECONNRESET. Les automatisations sont de retour.

Parfois, c’est "juste" un switch qu'il faut changer !