NVIDIA RTX 3080 verursacht unter Last Systemneustart
- Michael H.W. Weber
- Vereinsvorstand
- Beiträge: 21995
- Registriert: 07.01.2002 01:00
- Wohnort: Marpurk
- Kontaktdaten:
NVIDIA RTX 3080 verursacht unter Last Systemneustart
...was ist da los?
Nach etlichen Stunden / Tagen startet plötzlich die Maschine neu. Es hängt eindeutig mit der Rechenlast zusammen, die man an die RTX 3080 anlegt und liegt nicht am BOINC-Client, weil ich es sowohl bei GPUGRID als auch Einstein@home beobachtet habe. Ist die GPU ungenutzt, ist alles im Lot.
Ich fand im Netz seltsame Meldungen vom letzten Jahr, wo angeblich schwache Netzteile im ursächlichen Zusammenhang stehen sollen - dies kann ich ausschließen, es werkelt dort ein 1 kW Netzteil von Corsair.
Eine andere Information hängt mit den derzeit nur noch verfügbaren V2 Editionen der RTX 3080 zusammen. Die neuen Versionen scheinen irgendwie leistungsmäßig angepaßt / beschnitten (?) worden zu sein, anscheinend wegen solcher Probleme?
Ich wäre für jeden Rat dankbar und müßte mich jetzt wohl doch mal mit Lösungsansätzen zur PowerTarget-Optimierung befassen (was wohl eh schon überfällig war).
Michael.
Nach etlichen Stunden / Tagen startet plötzlich die Maschine neu. Es hängt eindeutig mit der Rechenlast zusammen, die man an die RTX 3080 anlegt und liegt nicht am BOINC-Client, weil ich es sowohl bei GPUGRID als auch Einstein@home beobachtet habe. Ist die GPU ungenutzt, ist alles im Lot.
Ich fand im Netz seltsame Meldungen vom letzten Jahr, wo angeblich schwache Netzteile im ursächlichen Zusammenhang stehen sollen - dies kann ich ausschließen, es werkelt dort ein 1 kW Netzteil von Corsair.
Eine andere Information hängt mit den derzeit nur noch verfügbaren V2 Editionen der RTX 3080 zusammen. Die neuen Versionen scheinen irgendwie leistungsmäßig angepaßt / beschnitten (?) worden zu sein, anscheinend wegen solcher Probleme?
Ich wäre für jeden Rat dankbar und müßte mich jetzt wohl doch mal mit Lösungsansätzen zur PowerTarget-Optimierung befassen (was wohl eh schon überfällig war).
Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B

http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B


Re: NVIDIA RTX 3080 verursacht unter Last Systemneustart
Netzteil kann es dennoch sein...
Zur Sicherheit wenn vorhanden mit einem anderen NT gegentesten.
Zum anpassen des Powertarget benutze ich Nvidia-inspector
https://www.computerbase.de/downloads/s ... inspector/
Ist schön einfach gehalten und läuft stabil.
Gibt dafür noch einige andere Tools dieses ist nur meine Empfehlung.
Zur Sicherheit wenn vorhanden mit einem anderen NT gegentesten.
Zum anpassen des Powertarget benutze ich Nvidia-inspector
https://www.computerbase.de/downloads/s ... inspector/
Ist schön einfach gehalten und läuft stabil.
Gibt dafür noch einige andere Tools dieses ist nur meine Empfehlung.
Ryzen 9 3950X / 32GB Crucial BallistiX LT / ASUS RTX 3050 DUAL OC / Windows 10 Core x64


Re: NVIDIA RTX 3080 verursacht unter Last Systemneustart
Das Netzteil ist es mit Sicherheit nicht. Ich habe eine 3080ti an Board und einen AMD 5950x am Werkeln und das Ganze wird mit einem 750 Watt-Netzteil klaglos betrieben.
Meine Vermutung ist die ständige Vollauslastung der GraKa. Alle unsere GraKas sind nicht für einen Dauerbetrieb konstruiert, wie die HPC-Prozessoren ala NVIDIA-Tesla und Co.
Als die 3080er auf den Markt kamen, fielen bei EVGA etliche Karten aus, weil die Temperatursensoren falsch positioniert und dimensioniert waren. Die Karten schalteten ab oder gingen sogar durch Überhitzung kaputt.
In den meisten Fällen wurde notabgeschaltet und das System stürzte ab.
Um den Stromhunger und auch die Temperaturen auch für den Dauerbetrieb in den Griff zu bekommen, gibt es unter Windows von fast jedem Grafikkarten-Hersteller entsprechende Tools zur Über/Untertaktung.
Es ist unsinnig, eine GraKa ständig auf „Vollgas" laufen zu lassen, weil das herauskitzeln der maximalen Leistung im Endbereich nur durch sehr hohen Stromeinsatz zu erreichen ist. Schon geringfügiges heruntertakten erlaubt bei fast identischer Leistung einen wesentlich geringeren Stromeinsatz und deutliche Temperaturabsenkung.
Bei meiner 3080 ti wird durch das Tool Tech-Power-GPU-Z unter anderem die Temperatur des GraKa-Rams ausgelesen. Die beträgt in der Regel zwischen 75 und 80 °C, bei PrimeGrid auch schon mal 85 °C. Ab 110 °C beginnt der Ram zu throtteln.
Für meine Asus 3080ti benutze ich das Tool „Asus GPU Tweak", um meine Karte in ihrer Leistung abzusenken. In der Regel sind 50 % TDP ausreichend. Es gibt aber auch andere Tools von fast jedem Hersteller mit dem gleichen Zweck.
Das Gleiche gilt für die Prozessoren von Intel oder AMD. Auch dort gibt es hervorragende Tools wie AMD RyzenMaster, um den Prozessor in vernünftigen Bereichen zu fahren.
Vielleicht ist jemand aus der Linux-Fraktion so nett und schreibt etwas darüber, wie unter Linux die CPU und GPU abzusenken sind und ob es da ebenfalls Tools gibt, die da behilflich sind.

Meine Vermutung ist die ständige Vollauslastung der GraKa. Alle unsere GraKas sind nicht für einen Dauerbetrieb konstruiert, wie die HPC-Prozessoren ala NVIDIA-Tesla und Co.
Als die 3080er auf den Markt kamen, fielen bei EVGA etliche Karten aus, weil die Temperatursensoren falsch positioniert und dimensioniert waren. Die Karten schalteten ab oder gingen sogar durch Überhitzung kaputt.
In den meisten Fällen wurde notabgeschaltet und das System stürzte ab.
Um den Stromhunger und auch die Temperaturen auch für den Dauerbetrieb in den Griff zu bekommen, gibt es unter Windows von fast jedem Grafikkarten-Hersteller entsprechende Tools zur Über/Untertaktung.
Es ist unsinnig, eine GraKa ständig auf „Vollgas" laufen zu lassen, weil das herauskitzeln der maximalen Leistung im Endbereich nur durch sehr hohen Stromeinsatz zu erreichen ist. Schon geringfügiges heruntertakten erlaubt bei fast identischer Leistung einen wesentlich geringeren Stromeinsatz und deutliche Temperaturabsenkung.
Bei meiner 3080 ti wird durch das Tool Tech-Power-GPU-Z unter anderem die Temperatur des GraKa-Rams ausgelesen. Die beträgt in der Regel zwischen 75 und 80 °C, bei PrimeGrid auch schon mal 85 °C. Ab 110 °C beginnt der Ram zu throtteln.
Für meine Asus 3080ti benutze ich das Tool „Asus GPU Tweak", um meine Karte in ihrer Leistung abzusenken. In der Regel sind 50 % TDP ausreichend. Es gibt aber auch andere Tools von fast jedem Hersteller mit dem gleichen Zweck.
Das Gleiche gilt für die Prozessoren von Intel oder AMD. Auch dort gibt es hervorragende Tools wie AMD RyzenMaster, um den Prozessor in vernünftigen Bereichen zu fahren.
Vielleicht ist jemand aus der Linux-Fraktion so nett und schreibt etwas darüber, wie unter Linux die CPU und GPU abzusenken sind und ob es da ebenfalls Tools gibt, die da behilflich sind.


Zuletzt geändert von Kolossus am 16.10.2021 19:36, insgesamt 1-mal geändert.
Gruß Harald
Wer die Ärmsten dieser Welt gesehen hat, fühlt sich reich genug zu helfen. (Dr. Albert Schweitzer)

Wer die Ärmsten dieser Welt gesehen hat, fühlt sich reich genug zu helfen. (Dr. Albert Schweitzer)

-
- Task-Killer
- Beiträge: 746
- Registriert: 05.09.2001 01:00
- Wohnort: Porta Westfalica
- Kontaktdaten:
Re: NVIDIA RTX 3080 verursacht unter Last Systemneustart
Für die Graka unter opensuse verwende in nvidia-smi, was wohl mit installiert wird, wenn die Treiber installiert werden. Ist allerdings ein Kommandozeilen-Tool. Ich habe damit meine Graka auf 70 Watt begrenzt.
Für die CPU (ein AMD Ryzen) suche ich allerdings auch noch händeringend was ....
Re: NVIDIA RTX 3080 verursacht unter Last Systemneustart
Wenn alles nicht hilft, muss man für die CPU ins Bios gehen und da die PPT entsprechend einstellen. Ist natürlich nicht das Gelbe vom Ei, weil man für jede Änderung ins Bios gehen muss, aber besser als gar nichts.
Gruß Harald
Wer die Ärmsten dieser Welt gesehen hat, fühlt sich reich genug zu helfen. (Dr. Albert Schweitzer)

Wer die Ärmsten dieser Welt gesehen hat, fühlt sich reich genug zu helfen. (Dr. Albert Schweitzer)

Re: NVIDIA RTX 3080 verursacht unter Last Systemneustart
Es kann dennoch auch am Netzteil liegen…..
Bei einem Arbeitskollegen war es ähnlich er hatte ein Bequiet Dark Power Pro auch mit ca 1kW.
Das NT hatte aber ein Problem von jetzt auf gleich.
Es lief vorher 1Jahr ungefähr…..
Wurde zwar auf Garantie getauscht, er hat dann trotzdem auf ein SeaSonic gewechselt.
Bei einem Arbeitskollegen war es ähnlich er hatte ein Bequiet Dark Power Pro auch mit ca 1kW.
Das NT hatte aber ein Problem von jetzt auf gleich.
Es lief vorher 1Jahr ungefähr…..
Wurde zwar auf Garantie getauscht, er hat dann trotzdem auf ein SeaSonic gewechselt.
Ryzen 9 3950X / 32GB Crucial BallistiX LT / ASUS RTX 3050 DUAL OC / Windows 10 Core x64


Re: NVIDIA RTX 3080 verursacht unter Last Systemneustart
PPT oder Heruntertakten.
Ich nutze die zweite Möglichkeit, auch bei meinen Intels.
Dazu kommt dann das Ausschalten des Turbos.
- Michael H.W. Weber
- Vereinsvorstand
- Beiträge: 21995
- Registriert: 07.01.2002 01:00
- Wohnort: Marpurk
- Kontaktdaten:
Re: NVIDIA RTX 3080 verursacht unter Last Systemneustart
...wie konkret?
Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B

http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B


-
- Task-Killer
- Beiträge: 746
- Registriert: 05.09.2001 01:00
- Wohnort: Porta Westfalica
- Kontaktdaten:
Re: NVIDIA RTX 3080 verursacht unter Last Systemneustart
Mit
Code: Alles auswählen
rechner:/home/user/boinc # nvidia-smi -pl 70
Power limit for GPU 00000000:26:00.0 was set to 70.00 W from 70.00 W.
(ist allerdings als root auszuführen)
"nvidia-smi" ohne parameter zeigt eine kurze Übersicht.
"nvidia-smi -h" zeigt die möglichen Optionen (> 3 Bildschirmseiten!)
Re: NVIDIA RTX 3080 verursacht unter Last Systemneustart
nvidia-smi kommt als Kommandozeilentool mit dem normalen NVidia Treiber sowohl bei Windows als auch Linux mit. Unter Windows über die Admin-Konsole ausführen (Start->cmd->Als Administrator ausführen) und unter Linux als root oder mit sudo. Unter Linux sollte man auch noch zusätzlich den Persistence Mode aktivieren (via nvidia-smi -pm 1 ) damit die Werte auch bei Reinitialisierung der Graka bestehen bleiben.
Bei Ampere-karten sollte die maximale Wattzahl aber nicht zu niedrig gesetzt werden, da dann die Leistung überdurchschnittlich einbricht. Bei der 3080 Ti kann zwar zwischen 100W und 375W eingestellt werden (350W ist Werkseinstellung), allerdings verdeutlicht hier das Beispiel PrimeGrid Wall-Wall-Sun/Wieferich den Einfluss auf die Laufzeit:
11m08s @ 150W
06m16s @ 200W
05m19s @ 250W
04m55s @ 300W
04m43s @ 350W
Also ein wenig drosseln schont die Hardware und kann wohlmöglich die Rebootprobleme lösen, ob es nun Spannungsspitzen sind, welche das Netzteil nicht verträgt, oder überhitzte Bauteile auf der Graka, oder schlechte/degradierte Kondensatoren in der Stromversorgung des Ampere-Chips.
Btw. für CPU Steuerung unter Linux kann die Taktfrequenz des Prozessors über das Tool cpupower beeinflusst werden, welches Teil der Kernelpakete sein sollte (linux-tools-* unter Ubuntu/Debian). Mit
cpupower frequency-info
kann man die Möglichkeiten der CPU in Erfahrung bringen, wie z.B. die zur Verfügung stehenden Frequenzstufen ("available frequency steps: 3.40 GHz, 2.80 GHz, 2.20 GHz" bei Ryzen 9 5950X) und mit
cpupower frequency-set --max 2800000
kann die Taktfrequenz auf 2,8 GHz begrenzt werden. Bei den AMD Ryzens ist die höchste Frequenz allerdings kein fixe, sondern bewirkt, dass die BIOS Einstellungen bezüglich Boost etc. greifen, also hier auch über 3.4GHz hinaus getaktet werden könnte.
Natürlich auch alles als root.
Bei Ampere-karten sollte die maximale Wattzahl aber nicht zu niedrig gesetzt werden, da dann die Leistung überdurchschnittlich einbricht. Bei der 3080 Ti kann zwar zwischen 100W und 375W eingestellt werden (350W ist Werkseinstellung), allerdings verdeutlicht hier das Beispiel PrimeGrid Wall-Wall-Sun/Wieferich den Einfluss auf die Laufzeit:
11m08s @ 150W
06m16s @ 200W
05m19s @ 250W
04m55s @ 300W
04m43s @ 350W
Also ein wenig drosseln schont die Hardware und kann wohlmöglich die Rebootprobleme lösen, ob es nun Spannungsspitzen sind, welche das Netzteil nicht verträgt, oder überhitzte Bauteile auf der Graka, oder schlechte/degradierte Kondensatoren in der Stromversorgung des Ampere-Chips.
Btw. für CPU Steuerung unter Linux kann die Taktfrequenz des Prozessors über das Tool cpupower beeinflusst werden, welches Teil der Kernelpakete sein sollte (linux-tools-* unter Ubuntu/Debian). Mit
cpupower frequency-info
kann man die Möglichkeiten der CPU in Erfahrung bringen, wie z.B. die zur Verfügung stehenden Frequenzstufen ("available frequency steps: 3.40 GHz, 2.80 GHz, 2.20 GHz" bei Ryzen 9 5950X) und mit
cpupower frequency-set --max 2800000
kann die Taktfrequenz auf 2,8 GHz begrenzt werden. Bei den AMD Ryzens ist die höchste Frequenz allerdings kein fixe, sondern bewirkt, dass die BIOS Einstellungen bezüglich Boost etc. greifen, also hier auch über 3.4GHz hinaus getaktet werden könnte.
Natürlich auch alles als root.
Zuletzt geändert von n3Ro am 17.10.2021 14:29, insgesamt 1-mal geändert.
Re: NVIDIA RTX 3080 verursacht unter Last Systemneustart
Erstklassige Ausarbeitung, n3Ro! Danke dafür!
Meiner Meinung nach ist dies ein großer Vorteil der 3080 (ti), das man sie so breit gefächert arbeiten lassen kann. Für den Alltag reichen bescheidene 175 Watt (=50 %), um Ergebnisse oder Points zu generieren. Im Ernstfall, sprich Race, dreht man die Leistung nach Belieben auf, um so den anderen Teams das Fürchten zu lehren. Ich finde es immer herrlich, wenn man merkt, dass da jemand versucht, einen einzuholen oder zu überholen. Dann legt man immer noch ein Schüppchen drauf und noch eins und noch... und zu guter Letzt zieht man ihm davon. (Nein, ich bin nicht fies oder gemein, niiiiiiiemals)
Meiner Meinung nach ist dies ein großer Vorteil der 3080 (ti), das man sie so breit gefächert arbeiten lassen kann. Für den Alltag reichen bescheidene 175 Watt (=50 %), um Ergebnisse oder Points zu generieren. Im Ernstfall, sprich Race, dreht man die Leistung nach Belieben auf, um so den anderen Teams das Fürchten zu lehren. Ich finde es immer herrlich, wenn man merkt, dass da jemand versucht, einen einzuholen oder zu überholen. Dann legt man immer noch ein Schüppchen drauf und noch eins und noch... und zu guter Letzt zieht man ihm davon. (Nein, ich bin nicht fies oder gemein, niiiiiiiemals)
Gruß Harald
Wer die Ärmsten dieser Welt gesehen hat, fühlt sich reich genug zu helfen. (Dr. Albert Schweitzer)

Wer die Ärmsten dieser Welt gesehen hat, fühlt sich reich genug zu helfen. (Dr. Albert Schweitzer)

- Michael H.W. Weber
- Vereinsvorstand
- Beiträge: 21995
- Registriert: 07.01.2002 01:00
- Wohnort: Marpurk
- Kontaktdaten:
Re: NVIDIA RTX 3080 verursacht unter Last Systemneustart
Ja, danke für die Infos. 
Ich bin ja dennoch verwundert: Die GPU hatte zunächst wochenlang problemlos im 24/7 Betrieb gerechnet und jetzt plötzlich diese Reboots in einem ansonsten unveränderten System (außer das es kürzlich mal wieder ein Windoof-Update gab). Das Netzteil ist massiv überdimensioniert und als Ursache auszuschließen, die GPU erreichte niemals irgendwelche kritischen Temperaturen.
Ausgesprochen seltsam, das ganze Phänomen. Allerdings ist mir auch vor Jahren schon mal eine NVIDIA plötzlich verstorben. Denke mal, die Firma kann einfach auch fertigungstechnisch mit AMD nicht mithalten: Dort habe ich in >10 Jahren niemals ein Problem erlebt, obwohl die Karten dauerhaft wesentlich (!) höhere Temperaturen anliegen hatten.
Ich werde die Tage mal mit dem PowerTarget spielen, wobei ich es wie gesagt schon gewöhnungsbedüftig finde, für eine Karte böse Geld auf den Tresen legen zu müssen, die dann nicht ohne Spezialeingriffe per Werkseinstellungen durchlaufen kann.
Michael.

Ich bin ja dennoch verwundert: Die GPU hatte zunächst wochenlang problemlos im 24/7 Betrieb gerechnet und jetzt plötzlich diese Reboots in einem ansonsten unveränderten System (außer das es kürzlich mal wieder ein Windoof-Update gab). Das Netzteil ist massiv überdimensioniert und als Ursache auszuschließen, die GPU erreichte niemals irgendwelche kritischen Temperaturen.
Ausgesprochen seltsam, das ganze Phänomen. Allerdings ist mir auch vor Jahren schon mal eine NVIDIA plötzlich verstorben. Denke mal, die Firma kann einfach auch fertigungstechnisch mit AMD nicht mithalten: Dort habe ich in >10 Jahren niemals ein Problem erlebt, obwohl die Karten dauerhaft wesentlich (!) höhere Temperaturen anliegen hatten.
Ich werde die Tage mal mit dem PowerTarget spielen, wobei ich es wie gesagt schon gewöhnungsbedüftig finde, für eine Karte böse Geld auf den Tresen legen zu müssen, die dann nicht ohne Spezialeingriffe per Werkseinstellungen durchlaufen kann.
Michael.
Fördern, kooperieren und konstruieren statt fordern, konkurrieren und konsumieren.
http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B

http://signature.statseb.fr I: Kaputte Seite A
http://signature.statseb.fr II: Kaputte Seite B

