Immer weider mal Abstürze meines Proxmox

Sehr gut

Ich hab alles an Settings bereits gemacht, die in den obigen Links genannt werden.
Ich hab dem HM90 jetzt einen 80mm Lüfter unten drunter gepappt, mal sehen was das auf Dauer bring.

Die Abstürze kommen in großen Abständen, max 1 mal pro Woche zu unterschiedlichen Zeiten , mal mitten in der Nacht, letztens wars um 21 Uhr.
Ich hatte mal ne Zeit lang die NAS im Verdacht, weil ich die nachts runterfahre und dann der Proxmox keinen Zugriff mehr auf das Netzlaufwerk hat. Das habe ich aber über eine Automatisierung abgefangen, der erst das NAS-Laufwerk auf dem Proxmox deaktiviert und dann aushängt und das die NAS erst runterfährt, funktioniert auch super. Beim Starten eben umgekehrt, erst startet die NAS üer Wake-on-Lan, und 1min später wird auf dem Proxmox das Laufwerk aktiviert und eingehangen.

Schade das es bei dir nicht hilft, bei läuft alles wieder super.

Da ich Kühlung auch immer wieder gut finde, könnest du auch mal ein Bild senden wie das von außen aussieht und wie du den HM90 dann hinstellst.

Ich kann nur soviel sagen, wegen NAS hatte ich noch nie Probleme habe ungefähr 7 pve laufen und teilweise läuft auch NAS virtuell, hatte noch mit keinem Probleme wenn der NAS aus ist und dennoch pve laufen. Ok log Einträge sind dann viele.

Der Lüfter ist einfach drunter geklebt, Strom vom USB-Anschluss das der schön langsam läuft ( 12V Lüfter an 5V ) und um den Rechner höher zu bekommen hab ich Füße aus Filzgleitern gemacht, sieht nicht schön aus aber funktioniert.
Der steht eh im Serverrack , da sieht den keiner

wie sind die Temperaturunterschiede mit und ohne?

Ja die Lüfter kenne ich einfach und gut, kühle damit meine Router aus China. Aber in dem Fall von oben. Unten wäre auch nicht schlecht.

Wenn es funktioniert ist Schönheit nebensächlich. Vielleicht kannst ja mal bei Gelegenheit doch mal ein Foto schicken. ggf. auch per PM

Lüfter von oben bringt ja nichts, da sitzt der CPU-Lüfter und dessen Luftstrom kommt nicht an die RAM-Modul und SSD ran, die sitzen nun mal unterm Mainboard.
SSD sind 4 bis 5 °C kühler, die NVMe kein Grad, da ist Optimierungsbedarf beim Luftstrom.

Das Gehäuse von dem Rechner ist einfach sch… konstruiert, viel zu dich gepackt. Zwischen den SSD’s ist kein Millimeter Platz, wo Luft durchströmen könnte. Die Luftschlitz unten drunter sind vollkommen wirkungslos, weil SSD’s bündig auf dem Gehäuseboden aufliegen - da hab ich etliche Kunststoffstege weggeschnitten, damit da überhaupt etwas Luft durchkommt.

Ich hatte gestern Abend wieder nen Absturz, kurz vor 23 Uhr - die kommen auch zu unterschiedlichen Zeit, so das es nicht mal irgendwelche zeitgesteuerten Jobs sein könnten und wieder nichts im Logfile - das stoppt plötzlich und nichts brauchbares drin, keiner Error, keine aussergewöhnlichen Aktivitäten, nichts.

Die einzigen Ideen, die ich noch habe, Firmware der SSD’s updaten und alle Bios-Settings zurücksetzen und die Empfehlungen aus den Forumsbeträgen oben noch mal neu setzen. BIOS-Updates gibt es keines, hab ich schon gesucht nach.
Dann werde ich doch mal das erweiterte Gehäuse ins Auge fassen.

Bei mir immer noch kein Absturz mehr, die Bios Einstellungen waren bei mir auf alle Fälle eine Verbesserung. Bei mir laufen auch seit dem wieder 2 VMs und 3 LXCs ohne erwähnenswärte Temperatur Probleme. Gefühlt läuft das System auch jetzt kühler aber das kann auch an der Jahreszeit liegen, da mein System im Keller ist und jetzt ist es in dem Raum schon kühler.
Aber wie schon mehrfach erwähnt glaube ich nicht an eine Temperatur Problem, dennoch Kühlung kann nicht schaden für Langlebigkeit.

Ich hab meinen HM90 umgebaut, die selbstgedruckte Erweiterung drunter gesetzt, 140mm Lüfter rein mit 5V betrieben, den hört man kaum. Die SSD’s sitzen unten drunter, werden vom angesaugten Luftstrom erfasst und die RAM + NVMe direkt angeströmt.
Mal sehen was dies bringt.

Die SSD’s sind direkt mal 5° kühler.

Im Moment ist das noch ein Provisorium, die Befestigung des Druckteils am Gehäuse passt nicht so richtig, weil auch keine ordentlichen Gewinde im HM90 Gehäuse vorhanden sind.

Hallo,

so mein Update des Gehäuse mit einem großen Zusatzlüfter hat nichts gebracht, letzte Nacht ist der HM90 wieder ausgestiegen.

Die einzigen Optionen, die ich noch habe sind:

  • BIOS-Settiings nochmal komplett durchgehen und nach Empfehlungen aus den Links weiter oben setzen - was ich aber schon gemacht hatte.
  • Firmware der SSD’s prüfen und ggf. updaten
  • anderes OS drauf packen und mal einen Stresstest von der Hardware machen ob es nicht doch ein Hardwaredefekt ist.

Wenn das nichts bringt, muss ich mir Gedanken über eine andere Hardware machen, weil so ist das nervig und unbrauchbar, wenn einmal in der Woche meine zentrale Smarthome-Software ausfällt.

mal ein Memtest gemacht? hatte das gleiche problem wie du. Vielleicht einfach nur ein ram stick sauer

RAM Test hab ich bereits mehrfach laufen lassen ohne Fehler

Also für mich klingt das so als wenn irgendwas mit einem der SATA Slots nicht stimmt. Betreib das ganze doch mal nur mit Single Disk (Ich weis… das willst du nicht… aber für Testzwecke)

Das währe noch eine Idee, die ich machen könnte.

Mal die LXC/VM’s deaktivieren, welche die zusätzlichen SSD’s nutzen und beide dann abklemmen.
Was ich noch machen wollte, auch NVMe rausnehmen und gehen eine andere tauschen, da Linux drauf und mal einen längeren Stresstest laufen lassen.

EDIT: ich hatte gestern abend wieder einen Absturz vom Proxmox. Hab mir vorhin mal die ganzen Logfiles angesehen.
Das einzige auffällige war, das kurz vor dem Crash ein Backup einer VM gelaufen ist und erfolgreich abgeschlossen ( aufs externe NAS )

Ich hab jetzt alle Backupjob rausgeworfen, die VM’s gestoppt, welche auf die beiden SSD’s zugreifen, die beiden SSD’s im Proxmox softwareseitig entfernt und neu gestartet.

Heute nachmittag ist er wieder ausgestiegen hab ich gerade bemerkt.

Ok, war nen sch… Idee, die SSD’s nur softwareseitig abzuklemmen, der ist mir gerade nochmal ausgestiegen.

Hallo,

zweiter Crash gestern wieder keine Anhaltspunke im Log, bis auf diese Meldung:

smartd[1066]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 61 to 60
die zweite hatte kurz vorher die selbe Meldung und Temperatur,

Im Vergleich zu aktuellen Werte jetzt gerade für beide SSD’s
190 Airflow_Temperature_Cel 0x0032 059 030 000 Old_age Always - 41
190 Airflow_Temperature_Cel 0x0032 061 037 000 Old_age Always - 39
NVMe: Temperature: 45 Celsius

Ich kann derzeit nicht mehr verifizieren, wann die Probleme angefangen haben, die letzte Änderungen an der Hardware von mir war der Austausch der NVMe gegen eine baugleiche mit doppelter Kapazität

Mal ein Update:

ich habe mir einen MiniPC bestellt, da werde ich als erstes mal mein HomeAssistant drauf auslagern. Wenn der fertig ist und komplett läuft, werde ich den HM90 mit Promox zerlegen und komplett neu aufsetzen, erst mal mit Linxu und dann einen längeren BurnIn-Test machen, der das Teil komplett auslastet um die Hardware zu checken ( CPU, RAM, SSD’s usw. )

Mir geht das Teil langsam gewaltig auf die Nerven, das der immer wieder ohne erkennbaren Grund und ohne irgendwelche Log-Einträge aussteigt.

Ich tippe weiter auf einen der SATA Ports. Wünsche dir viel Erfolg.

Kleines Update:

neue MiniPC bekommen, Proxmox installiert ( v7.x und dann update auf 8.x - bei direkter Neuinstallation von 8.x konnte ich die WebGUI nicht aufrufen, obwohl alle Prozesse liefen , egal )

Homeassistant runtergefahren, Backup auf meine NAS, Backup auf dem neuen eingespielt, läuft.
Heute mache ich noch Backups der restlichen VM’s/ LXC’s vom HM90, dann schalte ich den aus, baue beide SSD’s aus, mache ne neue NVMe rein, installiere Linux und lasse den mal ne Woche mit einem Testprogramm laufen, dann kommt eine SSD rein, weitere Test, dann die zweite SSD.

die NVME wird dann als letztes zurück getauscht und getestet ( die ist auch beim letzten Hwardware-Update ausgetauscht worden - 512GB → 1 TB, gleicher Samsung-Typ aber )

Hallo zusammen, habt ihr euch die Infos aus dem Minisforum raus kopiert. Leider wurde das Forum offline genommen. Dazu habe ich auch schon den Hersteller Support angeschrieben. Dieser hat mich einfach mit einem Einzeiler auf das „neue“ Forum (Discord) :crazy_face: verwiesen.

Ich habe hier einen Minisforum HM80 am laufen und bin heute beim migrieren von weiteren VMs und LXCs auf den BadCRC Fehler im Kernel-Log gestoßen.

Jan 02 00:24:06 pve2 kernel: ata1.00: exception Emask 0x10 SAct 0x0 SErr 0x2c0100 action 0x6 frozen
Jan 02 00:24:06 pve2 kernel: ata1.00: irq_stat 0x08000000, interface fatal error
Jan 02 00:24:06 pve2 kernel: ata1: SError: { UnrecovData CommWake 10B8B BadCRC }
Jan 02 00:24:06 pve2 kernel: ata1.00: failed command: READ DMA
Jan 02 00:24:06 pve2 kernel: ata1.00: cmd c8/00:60:28:ef:2b/00:00:00:00:00/e7 tag 23 dma 49152 in
         res 50/00:00:27:ef:2b/00:00:07:00:00/e7 Emask 0x10 (ATA bus error)
Jan 02 00:24:06 pve2 kernel: ata1.00: status: { DRDY }
Jan 02 00:24:06 pve2 kernel: ata1: hard resetting link
Jan 02 00:24:06 pve2 kernel: ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Jan 02 00:24:06 pve2 kernel: ata1.00: configured for UDMA/33
Jan 02 00:24:06 pve2 kernel: ata1: EH complete

Ich habe nur 2SATA Disks (WD Red SA500) und keine NVMe eingebaut.
Gruß

Moin,

Mal ein Update von mir:
Der HM90 k… mich gewaltig an - sorry für die Worte aber es ist so.

Ich hab den Rechner ausgebaut, SSD um RAM raus genommen, alles sauber gemacht mit Druckluftspray und Kontaktreiniger.
NVMe wieder rein, Linux drauf und das Teil 5 Tage mich einem Stressstest unter hoher Systemlast laufen lassen ( zw. 50 und 90% ) - nichts passiert, der ist einwandfrei durchgelaufen.

Proxmox neu installiert, die weiteren beiden SSD’s wieder rein, VM’s aus dem Backup restored, anfangs sah es gut aus, keine Problem - gestern aber wieder unvermittelt ein Absturz gegen 23 Uhr.

Meine wichtigen Systeme wie HomeAssistant und die entsprechenden Umsystem lass ich schon garnicht mehr auf dem HM90 laufen, viel zu unsicher, das morgens die Smarthomesteuerung ausgefallen ist ( die läufen auf einem einfachen, gebrauchten i5 nun, der keinerlei Probleme seit dem ersten Tag macht ).
Bin schon in der Überlegung, davon noch einen zweiten zu kaufen und den Rest der VM’s/LXC’s darauf zu packen.

Beim HM90 sind die Anschlüsse der beiden SSD’s eine Vollkatastrophe, die Stecker darf man nicht scharf anschauen. Meine Vermutung ist, die haben einen Kabelbruch oder sowas.

Ganz ehrlich, so begeistert ich von dem HM90 anfangs war, so genervt bin ich heute davon, mir kommt von dem Hersteller kein System mehr ins Haus. Eine Anfrage beim Hersteller bezüglich neuer SATA-Kabel wurde bis heute nicht beantwortet.

Mein badblock-Test war negativ, also keine gefundenen Blöcke.

Das sieht mir auch nicht wie ein Problem mit Badblocks aus, ich hatte I/O Errors einer SSD’s die Probleme machte und da ist auch der Badblocktest fehlgeschlagen.
Wobei die SSD derzeit problemlos in meinem zweiten Proxmox-Server läuft