Immer weider mal Abstürze meines Proxmox

Tuxtom007 · 14. Oktober 2023 um 12:50

Hallo,

mien Proxmox-Server auf eine HM90 hat immer wieder Problem, das er von einen auf den anderen Moment komplett aussteigt.
Warum weiß ich nicht nicht, ich vermute das der einfach zu heiß wird.

Ich werde jetzt mal zwei Sachen machen:

Das Teil kommt raus aus dem Rack auf den Schreibtisch um einen Monitor anschliessen zu können und direkt bei Probleme man zu sehen was los ist.
ich drucke mir gerade eine Gehäuseerweiterung, damit kommen die beiden 2,5" SSD raus aus dem HM90 Gehäuse in die Erweiterung rein und dazwischen wird dann eine 140mm Lüfter für Kühlung sorgen ( Durckdatei ist von printables )

Mal sehen ob es was bringt.

Wenn nicht, muss ich weiter forschen, weil es nervt mich langsam gewaltig, das der immer wieder aussteigt.

JonathanN1203 · 14. Oktober 2023 um 13:54

hast du einfach mal die temperaturen von dem HM90 überwacht?

Hast du mal ins log geschaut?

Tuxtom007 · 14. Oktober 2023 um 14:21

Im Log steht nichts drin, der steigt komplett aus.

Wenn man den anfasst, ist er vor allem an der unterseite recht warm um nicht zu sagen heiß.
Das ist erheblich besser geworden, als ich dem als dem Rack rausgenommen hab und der oben drauf steht, aber immer noch nicht ganz gut.
Das sind 3 SSD’s drin + 2 Speicheriegel auf engstem Raum und ohne aktive Kühlung an der Stelle, weil der CPU-Lüfter auf der anderen Seite des Board sitzt.

Daher werde ich den jetzt aktiv auch an der Unterseite kühlen.

So 3D-Druck fertig, unten kommen die SSD’s rein mit einem SATA-Verlängerungskabel, darüber ein 140mm Lüfter den ich bestellt habe. Das sollte für genug Luftbewegung sorgen.

Andrew_XNET · 14. Oktober 2023 um 15:26

schon mal im Bios geschaut ob die Drehzahl begrenzt ist? beim NAB6 ist Default die Lüfter Drehzahl auf 1/3 begrenzt, der wert von 100 ist nicht 100% sondern ein PWM wert, 255 ist in dem fall 100%

Elektromat · 14. Oktober 2023 um 22:35

Servus,

hatte es bei mir am HM90 auch sporadisch, um die ein mal im Monat.
Warm wird meiner auch gefühlt ordentlich. Mal schauen ob ich mir das erweiterungs-Teil auch mal drucke.
Die Temperatur runter zu bringen wäre sicher nicht schlecht, allerdings denk ich zumindest, das der Fehler einen anderen Grund hat um ein temperatur fehler zu sein müsste meiner häufiger aussteigen als ca. 1x im Monat.
Mal geschaut ob es mit einem Proxmox Backup Job zusammenhängen könnte wenn dieser an einer bestimmten vm oder lxc angekommen ist? Das war mein gedanke bisher. Passiert es random oder zu bestimmten Zeiten?
Hatte schon überlegt ob ich mir nen kleinen Monitor besorge um zu schauen ob er dann noch eine Ausgabe via HDMI bringt, leider aktuell keinen in der nähe.
Evtl. kommt man so der sache näher. Bei mir war er schon ne weile nicht mehr abgestürzt, schwer zu sagen ob er bei mir wieder stabil ist, bis jetzt zumindest ja.

Meiner hat 64GB RAM , ne 2tb NVME (ZFS - Proxmox) und zwei 2tb MX500 (ZFS - Truenas Scale vm durchgereicht)

Tuxtom007 · 15. Oktober 2023 um 09:45

Ich bekomme auf der Konsole Fehlermeldungen , hab mir die noch nicht genauer angesehen aber es scheinen Lese-Fehler von einer SSD zu sein.

trevon · 17. Oktober 2023 um 17:18

Vielleicht löst das das Problem.

Bei meinem HM80 hatte ich danach ruhe…

Tuxtom007 · 18. Oktober 2023 um 13:35

Auf den ersten Blick könnte das sogar das selbe Problem sein, hab leider den Screenshot gelöscht den ich gemacht hatte, muss nochmal nen Monitor an den Proxmox anschliessen.

Die Lösung mit dem Zusatzgehäuse, Auslagern der SSD und nen Lüfter da rein zu packen, finde ich mittlerweile garnicht mehr so nice.

ich hab gestern den Lüfter bekommen, extra nen Nuctua bestellt, der passt schon mal nicht ohne Nacharbeiten und dann wird es verdammt eng, die SATA-Kabel zu verlägern und nach unten durchzuführen.

Ich werde erst mal deine verlinkte Lösung probieren, vielleicht wars das dann.

Für die Kühlung baue ich mir dann evtl. was anderes - dafür gibt es ja 3D-Drucker

EDIT: Fehler ist der selbe,. ich hab mir mal den Job gebaut, den Proxmox rebootet und bisher sind keine neuen Meldungen auf der Console gekommen, lasse gerade mal den badblock Check auf der SSD laufen.
Wenn der wiederkommt, räume ich die mal leer und tausche die SSD gegen ne andere aus, hab die alten, kleinere noch hier rumliegen.

trevon · 18. Oktober 2023 um 14:44

Hoffe das du nun ruhe hast

Bei mir läufts mit diesem ^^fix^^ seit mehreren Wochen stabil.

Tuxtom007 · 18. Oktober 2023 um 15:06

Leider nicht, die SSD hat einen Schuss weg, badblock steigt mit etlichen Fehler aus, ich hab die schon leer geräumt und ausgebaut und lasse gerade den Test über die 2. SSD laufen, die hatte aber keine Fehler.

Neue SSD ist schon bestellt, zum Glück war auf der zweiten noch gerade so genug Platz für alle Disk-Images

Tuxtom007 · 23. Oktober 2023 um 10:51

So , SSD ist ausgetauscht und der Server läuft seit Freitag wieder ohne Fehlermeldungen und Probleme.

Den Umbau mit den Zusatzlüfter muss ich mir nochmal überlegen, weil das doch eine unausgereifte Lösung ist. Zum einen passen die 140mm Lüfter nicht ihnen Nacharbeiten in das Gehäuse, dann braucht es SATA-Verlängerung und die muss auch erst mal sicher untergebracht werden, dann traue ich den SATA-Anschüssen auf dem Mainboard mit ihren Mikrostecker nicht sonderlich.

Ich hab mir erst überlegt, einfach einen Lüfter unters das Gehäuse zu befestigen, bringt aber nicht viel, weil die Luftführung von den Luftschlitzen unten an den SSD’s vorbei einfach nicht vorhanden ist, der Lüfter würde nichts bringen. Dafür muss das Gehäuse bearbeitet werden.

Aber um einen Zusatzkühlung der SSD’s wird man nicht vorbeikommen, die Teile werden unten im Gehäuse einfach zu warm. Der CPU-Lüfter hat da keinen Einfluss drauf.

Kurz gesagt: Das Kühldesign des Gehäuses ist eher semioptimal.

Tuxtom007 · 30. Oktober 2023 um 09:26

Moin,

Update: die SSD war zwar wirklich kaputt, hat einige Lesefehler bei einer Reihe von Blöcken, aber die war die nicht Ursache für die ständigen Ausfälle.

Gestern abend ist der HM90 wieder ausgestiegen, Logfile ist mal wieder nichts drin zu sehen, Konsole hab ich keine Ausgabe mehr gesehen.
Also weiter stochern im trüben - und ich bin immer noch sicher, das es ein Wärmeproblem ist, weil der steht wieder in meinem Rack drin, werde den nachher wieder oben drauf stellen.

Tschak · 30. Oktober 2023 um 19:38

Hi zusammen, bin schon mal froh, dass ich nicht der Einzige bin mit dem Problem. Besonders weil es ein Problem ist, bei dem die Ursache nicht bekannt ist. Es gibt keine log Einträge dazu und die Lösung kann nur durch Probieren gelöst werden.

Ich habe ein HM90 mit 64GB Ram, Proxmox auf USB 256GB NVME, 2x Evo860 1TB im Mirror und noch eine NVME 970 Plus. Das System ist 7 Monate ohne Probleme gelaufen, nur die Temperatur der NVME war zu hoch (80 - 90 °C). Ich habe dann das Halteblech bearbeitet und der NVME eine Kühlkörper verpasst, somit auch besser.

Wie schon geschrieben nach 7 Monaten ging es los, am Anfang blieb das System also Proxmox einfach alle paar Tage hängen und nach einem Neustart ging alles wieder. Nach einem weiteren Monat blieb das System immer öfter hängen bis zum Schluss nach ca. 10-20 Min runtime.

Zuerst dachte ich evtl. an die beiden SSD 860, da schon sehr alt und der NVME wegen der anfänglich hohen Hitze. Somit alle 3 Speicher entfernt und das System nur mit der USB NVME laufen lassen, trotzdem alle 10-20 Min stoppte das System.

Ok vielleicht hat doch die Proxmox Installation einen Fehler, somit einfach die USB NVME an einen Intel NUC ran und siehe da Alles läuft tadellos und ohne Hänger. Dies ist auch der Grund warum ich alle meine Proxmox System über USB laufen lasse, da einfach anderen PC ran und start.

Nächster Gedanke Hauptspeicher aber auch ohne Probleme alles Ok.

Dann bin ich endlich auf diesen Thread gestoßen und meine Lösung war Wifi Karte raus und

for i in $(seq 0 2); do echo max_performance > "/sys/class/scsi_host/host${i}/link_power_management_policy" ; done

zumindest läuft nun das System ohne den drei Speicher über eine Stunde, also erkennbare Verbesserung

@Tuxtom007 falls ich noch Probleme bekomme könntest du mir sagen wie hast du die Lesefehler festgestellt bzw. die SSD überprüft?

PS ich bin mir auch sehr sicher, dass es nicht an der Hitze liegt, da ich schon Systeme am laufen hatte die viel heißer waren. Könntet ihr eurer Temperaturen mal mitteilen?

Tuxtom007 · 31. Oktober 2023 um 07:20

Schau dir mal den verlinken Beitrag aus dem Miniforms-Forum etwas weiter oben an, da steht drin, wie der Fehler aussieht. Ich hatte laufen Meldungen auf der Konsole.

Testen kannst du es mit:

badblocks -s /dev/sda

sda. eben die erst Disk, sdb die zweite, die NVMe musst du nachsehen, wie die heist.
Das läuft einige Zeit und bei mir kammen dann bei der ersten SSD viele Lesefehler raus.

Wie liest du den die Temperatur beim Proxmox aus, viele Werte liefert der bei mir garnicht.

Ich hab mal ein Temperatursensor unters Gehäuse geklebt und ans Multimeter gehaben, da hatte ich schon fast 40°C aussen am Gehäuse und der stand auf dem Schreibtisch. Ich hab dem Gehäuse schon höhere Füße verpasst, damit etwas Luft darunter kommt.
Ich werde dem Gehäuse unten jetzt einen Lüfter verpassen.

Die NVMe hat bei mir schon einen Kühlkörper, der bringt aber nichts, wenn die Hitze nicht aus dem Gehäuse raus kommt. Der CPU-Lüfter kommt da unters Mainboard nicht hin.

EDIT: im Miniforms Forum gibt es mehrere Threads zum dem Thema „HM90 crashed“, mit unterschiedlichen Betriebssystemen - wir sind also kein „Einzelfall“.

Tschak · 31. Oktober 2023 um 14:01

@Tuxtom007
danke für den Befehl, ja stimmt bei mir waren paar Beiträge zugeklappt. Schande über mein Haupt.

Muss noch ergänzen leider war mein HM90 heute in der früh wieder down. Haber aber jetzt schon wieder einiges andere probiert und läuft wieder mal sehen wie lange. Habe jetzt auch support angeschrieben vielleicht gebe ich den HM90 zurück.

Hier mal ein paar interessante Links:

leider habe ich schon bald den Überblick verloren was ich alles versucht habe.

Ich habe jetzt zumindest auch folgendes gemacht:

hat aber mehr mit passthrough zu tun:
amd_iommu on

cat /etc/kernel/cmdline
root=ZFS=rpool/ROOT/pve-1 boot=zfs amd_iommu=on

und im Bios
Advanced —> AMD CBS → NBIO → IOMMU=Enable

überprüft durch

dmesg | grep -e DMAR -e IOMMU
[    0.575217] pci 0000:00:00.2: AMD-Vi: IOMMU performance counters supported
[    0.578009] pci 0000:00:00.2: AMD-Vi: Found IOMMU cap 0x40
[    0.585996] perf/amd_iommu: Detected AMD IOMMU #0 (2 banks, 4 counters/bank).
[    8.917291] AMD-Vi: AMD IOMMUv2 loaded and initialized

folgende Settings im Bios geändert

boot mode select: legacy+uefi
ErP ready: enabled
Core performance boost: disabled

Global C-state control: disabled
Power Supply Idle control: Auto
P-State Adjustment : Pstate 0
Precision Boost Overdrive: AMD Default
Mode0: enabled

Mit den ganzen Forums Beiträgen bin ich mir schon fast zu 99% sicher das es nichts mit der Temperatur zu tun hat. Aber ich habe immer mehr die Vermutung das es etwas mit dem Kernel und Bios Settings zu tun hat. Ist aber auch nur so ne Vermutung.

Tschak · 31. Oktober 2023 um 15:26

update: jetzt läuft das system seit knap 4 Stunden, vielleicht hat etwas davon geholfen, Daumen drücken.

Hier mal die Antwort vom MinisForum Support:

Hello,
Thank you for your email.
Sorry for the inconvenience. Please try the following methods to restore.
Change BIOS settings
Advanced/AMD CBS/CPU Common Option/Core Performance Boost. Change from Auto to Disable and then save.
Looking forward to your reply.
Kind regards
Nina

Wie schon im vorhergehenden Post habe ich auch dieses gesetzt.

Tschak · 31. Oktober 2023 um 16:05

@Tuxtom007
hätte ich jetzt fast noch vergessen hier noch wie man Temperaturen bekommt

❯ apt install xsensors
❯ sensors
amdgpu-pci-0500
Adapter: PCI adapter
vddgfx:      931.00 mV
vddnb:       862.00 mV
edge:         +34.0°C
PPT:           7.00 W

nvme-pci-0100
Adapter: PCI adapter
Composite:    +33.9°C  (low  = -273.1°C, high = +84.8°C)
                       (crit = +84.8°C)
Sensor 1:     +33.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 2:     +33.9°C  (low  = -273.1°C, high = +65261.8°C)

k10temp-pci-00c3
Adapter: PCI adapter
Tctl:         +35.2°C

Und für die SSD und NVME

❯ smartctl -a /dev/nvme0 |grep Temp
Warning  Comp. Temp. Threshold:     85 Celsius
Critical Comp. Temp. Threshold:     85 Celsius
Temperature:                        34 Celsius
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               34 Celsius
Temperature Sensor 2:               34 Celsius

❯ smartctl -a /dev/sda |grep Temp
190 Airflow_Temperature_Cel 0x0032   067   024   000    Old_age   Always - 33 (müsste 33°C sein, bei Samsung)

❯ smartctl -a /dev/sdb |grep Temp
190 Airflow_Temperature_Cel 0x0032   067   028   000    Old_age   Always - 33 (müsste 33°C sein bei Samsung)

❯ smartctl -a /dev/sdc |grep Temp
Warning  Comp. Temp. Threshold:     75 Celsius
Critical Comp. Temp. Threshold:     80 Celsius
Temperature:                        29 Celsius
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Thermal Temp. 1 Transition Count:   76
Thermal Temp. 1 Total Time:         2490

Muss hier aber noch dazu sagen aktuell laufen keine VM oder Container darauf, da ich noch immer teste ob es nun stabil läuft.

Tuxtom007 · 1. November 2023 um 08:52

Danke für die Links, muss ich mich nachher mal in Ruhe ansehen, was ich davon noch machen kann.

Und danke für die Kommandos, sensors hab ich installiert, leider liefert die CPU aber kaum werte, wenn man sensors-detect laufen lässt, kommt von der CPU garnichts.

Bei mir ist vermutlich aber eher die NVMe/SSD’s oder der RAM das Problem.
Die Werte liegen bei mir schon höher. als bei dir.

Zum Glück sind die Abstürze bei mir nicht so häufig, im Schnitt 1 mal pro Woche, aber das nervt trotzdem gewaltig.

Ich werde dem Gehäuse nachher einen Lüfter unterm Boden verpassen, lasse ich auf 5V laufen, da ist der leise und blässt noch ganz gut. Ich hab einen 10mm dicken LowNoise-Lüfter gekauft, evtl. werde ich dem Gehäuse noch paar Luftlöcher verpassen.

Wenn das nicht viel bringt, bauen ich das Gehäuse um auf die Erweiterung, die ich weiter oben schon mal reingestellt habe. Das kommt ein 140mm Lüfter rein, auch mit 5V betrieben, dann ist der Leise und liefert noch genug Luftstrom.

amdgpu-pci-0600
Adapter: PCI adapter
vddgfx:        1.28 V
vddnb:       849.00 mV
edge:         +35.0°C
PPT:           9.00 W

nvme-pci-0100
Adapter: PCI adapter
Composite:    +44.9°C  (low  = -273.1°C, high = +81.8°C)
                       (crit = +84.8°C)
Sensor 1:     +44.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 2:     +48.9°C  (low  = -273.1°C, high = +65261.8°C)

k10temp-pci-00c3
Adapter: PCI adapter
Tctl:         +40.9°C

# smartctl -a /dev/nvme0 |grep Temp
Warning  Comp. Temp. Threshold:     82 Celsius
Critical Comp. Temp. Threshold:     85 Celsius
Temperature:                        45 Celsius
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               45 Celsius
Temperature Sensor 2:               47 Celsius
Thermal Temp. 1 Transition Count:   1
Thermal Temp. 1 Total Time:         145

# smartctl -a /dev/sda |grep Temp
190 Airflow_Temperature_Cel 0x0032   060   037   000    Old_age   Always       -       40

# smartctl -a /dev/sdb |grep Temp
190 Airflow_Temperature_Cel 0x0032   059   030   000    Old_age   Always       -       41

Tschak · 1. November 2023 um 11:14

also mein system läuft nun schon seit fast 24 Stunden, dass hatte ich schon lange nicht mehr. Schauen wir mal wenn ich jetzt das system bisschen beschäftige. Werde die VMs mal wieder zum laufen bringen.

@Tuxtom007 also wenn das Temperaturen im laufenden Betrieb sind, dann ist doch alles mehr als im grünen Bereich. Wie schon mal gesagt ich habe Systeme die haben eine viel höhere Temeratur und laufen stabil.

Tschak · 3. November 2023 um 08:32

update also anscheinend waren die letzten Einstellungen die Lösung, das System läuft nun seit fast 3 Tagen