Seite 4 von 4

Re: (v1.5.1) TWS950 Absturz in der Nacht

Verfasst: Sa Dez 28, 2019 12:30 pm
von StefanW
Robosoc hat geschrieben: Sa Dez 28, 2019 2:30 amAber ich habe es erstmal so verstanden, dass lediglich gelöst werden konnte, warum ein Container ständig neu gestartet ist, aber wenn ich ms20de und StefanW richtig verstanden habe, dann war das vermutlich nicht der Grund für den Absturz. Oder?
Der Grund für den Absturz liegt nach unseren Erkenntnissen im Verbrauch von Kernel-Ressourcen durch den ständigen Wiederstart des Containers im Sekundentakt.

Wünschenswert wäre jedoch zwei Dinge:
  1. Selbst ein extrem häufiger Wiederstart von Containern sollte nicht dazu führen, dass es im Kernel zu einen Fehler bekommt. Hier prüfen wir ein Kernel Update
  2. Ein solcher häufiger WIederstart sollte erkannt und an den Nutzer gemeldet werden
  3. Ein Server muss sich auch von so einem Kernel-Fehler erholen (indem der HW-Watchdog aktiv wird und den Server hart bootet)
Alle drei Themen stehen bereits auf unserer Liste und sind in Bearbeitung, was auch durchaus dauern wird, weil das keine einfachen Themen sind.

DEIN Problem mit dem Server ist erledigt, weil die Ursache gelöst ist, damit kann man DEINEN Thread auch als gelöst betrachten.

Das wir darüber hinaus an Verbesserungen arbeiten ist hiervon (und vom Status des Threads) unabhängig, zumal ein Kernel-Update für die Hutschienenserver ohnehin seit Monaten in Planung ist und wir uns die Verbesserung von Systemüberwachung per HW-Watchdog ohnehin auf der Liste steht. Insofern kann man Deinen Threaf auch schließen. Werde aber nicht lange herumdiskutieren, da ich noch hundert andere Baustellen habe.

Entscheide selbst

Stefan

Re: (v1.5.1) TWS950 Absturz in der Nacht

Verfasst: Sa Dez 28, 2019 1:27 pm
von Sun1453
@StefanW Könnte man deinen Beitrag nicht kopieren und als FR anlegen. Somit könnte man verfolgen wann die Änderung erfolgt ist.

Re: (v1.5.1) TWS950 Absturz in der Nacht

Verfasst: Sa Dez 28, 2019 2:10 pm
von Robosoc
Passt für mich, wir können den gerne schließen und als "gelöst" gekennzeichnet lassen. Ich hatte das lediglich erst anders verstanden. Ist aber völlig okay für mich.