NVIDIA® GPU-Stress- und Speichertests

Ab der Version 6.20 von toolstar®testLX in Verbindung mit dem aktuellen Kernel werden jetzt bei unterstützten NVIDIA®-GPUs eine vollständige Ausgabe aller Informationen wie Gerätename, Seriennummer, Video-BIOS-Version, GSP-Version und vielem sowie das Ausführen aller GPU-Stresstests und vollständige Speichertests des gesamten verfügbaren dedizierten GPU-Speichers. Im Programm toolstar®testWIN gibt es diese Unterstützung durch Windows-Treiber schon deutlich länger. Hier wird der zusätzliche Test Vulkan-GPU-Memory mit einem der nächsten Updates hinzugekommen.


Zusätzlich zu den bisherigen Informationen aus unserer eigenen PCI-Datenbank wie Name oder Anschluss werden Ihnen ab jetzt noch folgende Informationen bei allen unterstützten NVIDIA®-GPUs angezeigt:

  • Device-Name
    Zum Beispiel NVIDIA®-GeForce RTX 2070
  • Marke
    Zum Beispiel GeForce
  • Gesamter Speicher, aktuell verwendeter und freier Speicher
    Der gesamte physikalische Speicher, der aktuell verwendete Speicher von der Karte selbst und dem Betriebssystem sowie der aktuell freie Speicher der zum Beispiel für Tests zur Verfügung steht.
  • Speicherbusbreite
    Geschwindigkeit der möglichen prallen Datenübertragung zur Karte
  • Anzahl der GPU-Kerne
    Wie viele Kerne stellt die GPU für Berechnungen zur Verfügung um zum Beispiel Bilder oder Shader zu verarbeiten oder parallele Computing-Aufgaben zu bewältigen.
  • PCIe von GPU unterstützt
    Die von der Karte unterstützte PCIe Version wie zum Beispiel 3.0. Zusätzlich dazu noch PCIe maximal auf diesem System, PCIe aktuell und PCIe-Bus-ID.
  • Board-ID
    ID des von der Karte verwendeten Boards. Eine von NVIDIA® intern verwendete Nummer ohne direkten Bezug zu einem Namen oder ähnlichem.
  • Architektur
    Die Architektur der Karte wie zum Beispiel Turing, etc.
  • Video-BIOS Version
    Die Version des aktuell installierten Video-BIOS der Karte. Kann mit der aktuell verfügbaren verglichen werden. Aktualisierungen in diesem Bereich können manche PCI-Advanced-Error-Reporting Fehler / Hinweise beheben.
  • GSP-Firmware-Version
    Die Version der aktuell installierten GSP-Firmware
  • Taktbereiche
    Die aktuellen Takte im Bereich Grafik, SM, Speicher und Video-Encoder und -Decoder. mit dem aktuellen Takt in MHz und dem aktuelle eingestelltem Maximum.
  • Hardwaremonitoring
    Die aktuellen Lüfterdrehzahlen, Temperaturen für Kerne und Speicher sowie die Energienutzung. Die Grenzwerte vom Hersteller werden automatisch innerhalb des Live-Hardware-Monitorings für automatische Fehler verwendet.

Weitere Informationen werden werden in Zukunft folgen und in die Systeminformationen integriert. Vermissen Sie einen Wert, den Sie bei Ihrer täglichen Arbeit benötigen würden? Sagen Sie uns bescheid.

GPU-Stresstest mit OpenCL

Führen Sie die GPU-OpenCL-Stresstests zur simultanen Belastung aller Chips aus und testen Sie die Karten in Ihrer aktuellen Konfiguration unter Belastung. Für mehr Belastung auch kombinierbar mit GPU-Speichertests sowie CPU-Hochlasttest und Arbeitsspeichertests. Der Workload sollte an das System angepasst werden um optimale Ergebnisse zu erzielen. Weitere Informationen finden Sie unter Hinweis zu den Ausführungszeiten weiter unten im Artikel. Eine Kombination der Tests kann sehr gut genutzt werden um gerade bei neu assemblierten Geräten einen Belastungs- und Funktionstest durchzuführen. Bei Geräten die wegen möglicher Hardwarefehler untersucht werden, ist es sinnvoll getrennte Tests durchzuführen um die Belastung gering zu halten und Fehler eindeutig einem Teil des Geräts zuordnen zu können.

GPU-Speichertest mit Vulkan oder OpenCL

Testen Sie den kompletten dedizierten GPU-Speicher der Grafikkarte mit unterschiedlichen Treiber-Implementierungen (Vulkan (3D-Grafik und Computing-Workloads) und OpenCL (Computing-Workloads)) und Zugriffsmustern. So können Sie instabile Karten erkennen und Fehler in den Speicherchips finden. Die Laufzeiten der Tests müssen dem Anforderungsprofil des Geräts entsprechen und sollten dahingehend abgestimmt sein. Weitere Informationen finden Sie unter Hinweis zu den Ausführungszeiten weiter unten im Artikel.


Hinweis zu integrated GPUs
Bei integrated CPUs wie zum Beispiel Intel-GPUs direkt in der CPU kann es vorkommen, dass der OpenCL-Treiber einen zu großen Bereich des Gerätespeichers alloziert und das Testen zu langen Hängern des Systems führt. Hier kann es unter Umständen sinnvoll sein zum Beispiel nur 90% zu testen. Abgesehen davon wird hier nur der Arbeitsspeicher getestet, der sowieso besser mit den Arbeitsspeicher-Routinen getestet wird.


In das Live-Hardware-Monitoring wurden die Werte für Temperatur, Lüfterdrehzahlen sowie Spannungen für alle unterstützten GPUs hinzugefügt (soweit das Gerät diese Werte liefert. Je nach Karte können von NVIDIA® mehr oder weniger Sensoren verbaut worden sein). So können Sie während der Tests immer sehen, wie sich die Karte unter Belastung im Bereich der Rechen – und Speicher-Chips verhält. Natürlich werden alle Werte auch aufgezeichnet und stehen nach den automatisierten Tests in den Ausgaben zur Verfügung. Dort finden Sie den minimalen, maximalen und durchschnittlichen Wert jedes einzelnen Sensors.

Systeme mit mehreren physikalischen GPUs

Sollten Sie ein Gaming- oder Compute-System mit mehreren verbauten NVIDIA®-GPUs testen, werden alle Grafikkarten nacheinander getestet. Sie müssen nichts spezielles einstellen. Alle Tests passen sich in Hinsicht auf die verfügbaren Compute- und Speicherchips der Karten an und testen diese optimal. Aktuell werden bis zu 16 GPUs pro Hersteller unterstützt. Also können Sie bis zu 16 NVIDIA®-GPUs in einem System testen. Es wird aktiv daran gearbeitet noch mehr GPUs pro System zu unterstützten.

Wie kann ich die neuen Infos und Tests verwenden?

Auf Ihrer Seite ist keine spezielle Anpassung nötig. Nachdem Sie das Update (Betriebssystem und Programm-Paket) eingespielt haben, wird auf unterstützten Geräten und für unterstützte Grafikkarten automatisch das neue System geladen und steht danach in toolstar®testLX zur Verfügung. Auf nicht unterstützten älteren Karten wird automatisch unser Fallback verwendet und Sie nutzen toolstar®testLX wie Sie es bisher gewohnt sind. Dann jedoch mit den bekannten Einschränkungen auf Seiten der GPU-Tests.

Weitere Möglichkeiten für Overclocking und "Downclocking"

Durch die Einbindung der original NVIDIA®-Hersteller-Tools besteht für Sie zusätzlich zum Auslesen und Testen über toolstar®testLX noch die Möglichkeit die Karten direkt aus dem Betriebssystem von toolstar® heraus noch zu konfigurieren. So können Sie die maximalen Taktraten anpassen oder die maximale Energieaufnahme konfigurieren. Anschließend können Sie Ihre Einstellungen direkt mit toolstar®testLX auf Stabilität prüfen. Mit der vorinstallierten Applikation nvidia-smi (System Management Interface) besteht die Möglichkeit persistente Einstellungen im Bereich Power-Management sowie Compute- und Speicher Clocks festzulegen. Das Programm bietet außerdem die Möglichkeit noch zusätzliche Werte auszulesen.

toolhouse übernimmt keine Verantwortung für die Konfiguration und bietet nur die Möglichkeit der Nutzung der Tools von NVIDIA® um diese Einstellungen vorzunehmen. toolhouse übernimmt keine Haftung für Schäden die durch eine mögliche fehlerhafte Konfiguration und deren Nutzung führen. Außerdem wird kein Support im Bereich der GPU-Einstellungen angeboten und auch keine Empfehlung gegeben.

Das Setzten von inkompatiblen oder falscher Werte kann dazu führen, dass das System nicht mehr startet oder die Karte durch Belastung nach der Umstellung schaden nimmt oder instabil wird. Ein Zurücksetzten der Werte auf Standard-Einstellungen ist nur möglich solange das System mit der Karte noch startet und Sie Zugriff auf das Gerät haben. Bitte verwenden Sie diese Optionen nur dann, wenn Sie sich sicher sind, dass die Karte diese Einstellungen vollständig unterstützt.

Standardmäßig starten alle aktuellen NVIDIA®-Karten mit den maximalen Clock-Raten. Für Gaming, Computing oder Bildbearbeitung ist das eine gute Einstellung. Sie haben jedoch die Möglichkeit zum Beispiel die Taktraten nach unten zu setzten um Strom zu sparen aber nur eine kleine Leistungseinbuße zu haben.

Angepasste Ausführungszeiten für optimale Ergebnisse

Grafikkarten sind sehr komplexe und performanten Hardwarekomponenten. Wir empfehlen deshalb eine längere Ausführungszeit der Tests um alle Aspekte mit in den Test aufzunehmen. Zu diesen Aspekten zählen die Thermik, Belastung und Laufzeit der Karten. Nur so können Sie zuverlässig Speicher- und Berechnungsfehler finden sowie Instabilitäten in der Hardware oder Konfiguration der Karte erkennen. Ein Gaming-PC läuft auch nicht nur 1 Minute und hört dann wieder auf. Die Geräte müssen über mehrere Stunden oder bei Compute-Workloads ggf. mehrere Tagen und Wochen (je nach Workload) online und stabil bleiben. Bilden Sie diese Szenarien nach Möglichkeit in Ihren Testskripten ab. Zu berücksichtigen ist auch, dass GPUs sehr schnell rechnen und Daten übertragen. Damit haben Sie auch bei einer Testzeit von zum Beispiel 10 Minuten schon hunderte GB zwischen dem Host-System und der Karte übertragen und verifiziert.

ShredderLX und Suspend-To-Ram

In vorherigen Versionen konnte es vorkommen, dass ein erneutes Aufwecken nach einem Sleep bei Geräten mit NVIDIA®-GPUs nicht möglich war, oder ein fortsetzten aufgrund eines schwarzen Bildschirms nicht möglich ist. Dieses Problem sollte bei allen unterstützten Grafikkarten nicht mehr auftreten. Sollte dieses Problem weiterhin bestehen kann es nötig sein, das Betriebssystem mit dem Kernel-Parameter NVreg_PreserveVideoMemoryAllocations=1 zu starten und damit nötige Services beim Start zu aktivieren. Dieser Parameter steht nur bei der Nutzung einer der unten aufgelisteten GPUs zur Verfügung. In allen anderen Fällen wird dieser ignoriert. Den Parameter geben Sie im GRUB-Menü bei jedem jeweils ausgewählten Kernel an.

Boot-Einträge im GRUB und SYSLINUX Menü

Der 64-bit Default Kernel bleibt auch weiterhin die passende Wahl. Dieser wird beim Start automatisch versuchen für unterstützte Karten die neuen Funktionen zu aktivieren und bei Problemen oder nicht unterstützten Karten zurück in den toolstar®-Legacy-Modus zu schalten um trotzdem zu starten. Sollte das jedoch nicht funktionieren können Sie auch gezielt innerhalb der erweiterten Starteinträge das eine oder andere System für den Start auswählen.

Aktuell vollständig unterstützte GPU-Modell

Die zur Zeit der Erstellung des Artikels unterstützten GPU-Modelle finden Sie in der Aufstellung unten. Mit jedem neuen Kernel-Release werden nach Möglichkeit weitere Karten hinzugefügt. Unterstützt werden nur Karten mit der aktuellen GSP-Firmware. Ältere Modelle greifen automatisch auf den toolstar*-Legacy-Modus zurück und sind trotzdem testbar. Jedoch mit Einschränkungen im Bereich der NVIDIA®-GPU-Tests. Aktuell werden über 730 Modelle vollständig unterstützt. Einige Karten werden mit doppeltem Namen aufgeführt, weil diese gleich heißen jedoch intern anders aufgebaut sind. Verschiedene Kern und Speichergrößen, Bus-Anbindungen oder Formfaktoren für Desktop, Server oder Notebook. Außerdem besteht die Möglichkeit, dass die Treiber auch auf Karten funktionieren, die hier unten nicht explizit aufgeführt sind. Mit jedem Kernel-Update (4 pro Jahr) werden weitere aktuelle Modell unterstützt. Diese Update sind ganz normal in ihrem Update-Service enthalten.

