Seite 1 von 1

TWS nicht mehr erreichbar (SW 1.5.1)

Verfasst: Mo Jan 13, 2020 6:32 pm
von danik
Hi

Als ich heute Abend nach Hause kam stellte ich fest, dass die Logiken auf dem TWS nicht gelaufen sind. Ich konnte auch nicht mehr auf den TWS zugreifen. Habe dann den TWS stromlos gemacht und nun läuft das ganze wieder. Gem. Grafana-Auswertungen ist wohl irgendwo nach 11.00 Uhr etwas passiert und hat den TWS aufgehängt.

Wäre aber sicher gut wenn sich dies mal jemand ansehen könnte was da passiert ist.

lg
Dani

Re: TWS nicht mehr erreichbar (SW 1.5.1)

Verfasst: Mo Jan 13, 2020 6:41 pm
von StefanW
Oki Dani, sehen wir uns an.

Aber was macht der Thread unter Forum / Allgemeines, also in dem Bereich, in dem es um das FORUM SELBST geht?

Bitte künftig genauer schauen, weil das spart uns Arbeit

Merci

Stefan

Re: TWS nicht mehr erreichbar (SW 1.5.1)

Verfasst: Mo Jan 13, 2020 7:36 pm
von danik
StefanW hat geschrieben: Mo Jan 13, 2020 6:41 pm Aber was macht der Thread unter Forum / Allgemeines, also in dem Bereich, in dem es um das FORUM SELBST geht?

Bitte künftig genauer schauen, weil das spart uns Arbeit

Stefan
Ok gelobe Besserung. War da zu schnell nach dem Schock ...

Re: TWS nicht mehr erreichbar (SW 1.5.1)

Verfasst: Di Jan 14, 2020 12:05 pm
von Judas_z
Hi Dani,

tut uns sehr leid, dass sich dein Timberwolf Server aufgehängt hat.

Ich vermute im ersten Moment hier eine nicht ganz ideale Spannungskennlinie für die CPU. Wenn es ganz blöd läuft kann es vorkommen, dass sich die CPU verrechnet, weil die Spannung bei einem bestimmten Takt bei deinem SOM Modul gerade in einer von vielen Millionen Berechnungen einen Hauch zu niedrig war um das richtige Ergebnis zu liefern. Normalerweile wird dann einfach erneut gerechnet. Wenn der Fehler jedoch bei einer kritischen Berechnung passiert kann das System (jedes System) hängen bleiben. Wenn ganz kritisch spuckt auch Windows z.b. nichtmal mehr einen Bluescreen, sondern friert komplett ein (mein Laptop hat das ab und an ganz gerne).

Nicht jede CPU ist 100% gleich, manche braucht bei bestimmten Takten etwas mehr oder weniger Spannung.
Das ist jedoch immer so und liegt nicht an dem von uns verwendeten Modell für diejenigen die keine Übertakter oder Undervolter sind. Ein PC würde auch hängen bleiben. Beim TWS haben wir uns selbstverständlich genau an die Vorgaben des Herstellers gehalten, aber der Hersteller hat nun einen Patch herausgegeben, mit dem der Toleranzbereich minimal vergrößert wird.

Zudem arbeiten wir daran, den Hardware Watchdog zu aktivieren, damit sich der Wolf im Fehlerfall selbst neustartet (sollte zwar gar nicht passieren, aber es gibt keine völlig perfekte Technik und stehenbleiben wäre noch schlechter. Also besser Neustarten im Falle eines noch unbekannten Fehlers).

Eine neue Loadline für die CPU sollte diesen Fehler, der bei dir aufgetreten ist, soweit das bis jetzt abgeschätzt werden kann auf elegante Art eliminieren.

Es tut uns sehr leid, dass du Ärger hattest, aber wenn es für Dich akzeptabel ist, würde ich erst dann neue Hardware durch die Gegend schicken, falls der Fehler nach Ausrollen des verbesserten Kernels nochmal auftreten sollte. Weil das mit hoher Wahrscheinlichkeit durch die verbesserte Spannungskennlinie korrigiert wird.

Liebe Grüße,

Julian

Re: TWS nicht mehr erreichbar (SW 1.5.1)

Verfasst: Di Jan 14, 2020 12:14 pm
von danik
Hallo Julian

Danke für die Info, das Vorgehen passt so für mich.

Gruss
Dani