[PYTHON] Das Problem, dass das System beim Erlernen der GPU mit TensorFlow ohne Erlaubnis neu gestartet wird

Es gibt zwei mögliche Ursachen dafür, dass der TensorFlow beim Einschalten der GPU abfällt.

  1. NVIDIA-Treiberproblem
  2. Unzureichende Leistung des Netzteils (Netzteil)

2 wurde in der jüngsten TensorFlow-Community 2 </ sup> diskutiert. In vielen Fällen gab es ein Problem auf der Fahrerseite, aber es scheint, dass es aufgrund einer unzureichenden Leistung des Netzteils abfällt.

Treiber-Updates sind oft eine Brutstätte für Probleme. Die NVIDIA-Seite ist auch nicht sehr gut im Umgang mit Problemen, die durch Treiberaktualisierungen verursacht werden. (Insbesondere wenn der Spieler einen Nachteil hat, können wir nicht erwarten, dass der Treiber sofort repariert wird.)

Daher ist es möglicherweise besser zu vermuten, dass 2 die Ursache vor 1 ist.

1. NVIDIA-Treiberproblem

Abhängig von der Version des NVIDIA-Treibers kann das System abstürzen.

Bitte aktualisieren Sie den NVIDIA-Treiber.

2. Unzureichende Netzteilausgabe

Aufgrund der unzureichenden Ausgangsleistung erhält die GPU möglicherweise nicht genügend Strom und das gesamte System kann abstürzen.

Gegenmaßnahme 1

Ersetzen Sie das Netzteil durch ein Netzteil mit höherem Ausgang.

Gegenmaßnahme 2

Verwenden Sie den Befehl nvidia-smi, um eine Obergrenze für den Stromverbrauch auf der GPU-Seite festzulegen.

Wenn Sie beispielsweise in TITAN X (ursprünglich 250 W) die Leistungsgrenze auf 150 W begrenzen möchten, führen Sie den folgenden Befehl aus.

$ sudo nvidia-smi --power-limit=150

Wo die Obergrenze für den normalen Betrieb eingestellt werden muss, hängt jedoch vom Modell ab.

Darüber hinaus bedeutet das Festlegen eines Leistungslimits, dass die GPU-Funktionen eingeschränkt sind und die ursprüngliche Leistung nicht erreicht werden kann.

Grundsätzlich wird empfohlen, das Netzteil durch ein Netzteil mit höherer Leistung zu ersetzen.

Referenz

1 http://suprsonicjetboy.hatenablog.com/entry/2017/04/23/194959 2 https://github.com/tensorflow/tensorflow/issues/8858

Recommended Posts

Das Problem, dass das System beim Erlernen der GPU mit TensorFlow ohne Erlaubnis neu gestartet wird
Umgang mit Tensorflow mit GPU beim Deep Learning, das plötzlich nicht mehr funktioniert
Bis die Deep Learning-Umgebung (TensorFlow) mit GPU für Ubuntu 14.04 vorbereitet ist
Lösen Sie das japanische Problem, wenn Sie das CSV-Modul in Python verwenden.
Lösung für das Problem, dass die Anzeige beschädigt ist, wenn der Befehl .exe in der while-Schleife in wsl2 enthalten ist