Der Grund für den Absturz liegt nach unseren Erkenntnissen im Verbrauch von Kernel-Ressourcen durch den ständigen Wiederstart des Containers im Sekundentakt.
Wünschenswert wäre jedoch zwei Dinge:
- Selbst ein extrem häufiger Wiederstart von Containern sollte nicht dazu führen, dass es im Kernel zu einen Fehler bekommt. Hier prüfen wir ein Kernel Update
- Ein solcher häufiger WIederstart sollte erkannt und an den Nutzer gemeldet werden
- Ein Server muss sich auch von so einem Kernel-Fehler erholen (indem der HW-Watchdog aktiv wird und den Server hart bootet)
DEIN Problem mit dem Server ist erledigt, weil die Ursache gelöst ist, damit kann man DEINEN Thread auch als gelöst betrachten.
Das wir darüber hinaus an Verbesserungen arbeiten ist hiervon (und vom Status des Threads) unabhängig, zumal ein Kernel-Update für die Hutschienenserver ohnehin seit Monaten in Planung ist und wir uns die Verbesserung von Systemüberwachung per HW-Watchdog ohnehin auf der Liste steht. Insofern kann man Deinen Threaf auch schließen. Werde aber nicht lange herumdiskutieren, da ich noch hundert andere Baustellen habe.
Entscheide selbst
Stefan