Server sa samovoľne reštartuje

Máme starší server od HP, ktorý slúži len pre účtovnícky SW. V posledných týždňoch sa začal náhodne reštartovať. Tak 0-3x za deň. Je to dosť otravné, keď sa to stane keď človek niečo robí. Pozeral som na teploty procesorov, všetko v poriadku – pod 60°C. Zaťaženie nízke – tak do 20%. Neviem čo ešte pozrieť, aby sa problem našiel/odstránil. Server si v podstate spravujeme sami.
Event viewer ukazuje to čo priložený obrázok.
Na serveri je Windows Server 2019, 2x Xeon E5-2660, 72 GB RAM, RAID1.
Nejaký nápad čím to môže byť spôsobené/ čo skúsiť?

V details Event Viewra je:

- System

- Provider

[ Name] Microsoft-Windows-Kernel-Power
[ Guid] {331c3b3a-2005-44c2-ac5e-77220c37d6b4}

EventID 41

Version 6

Level 1

Task 63

Opcode 0

Keywords 0x8000400000000002

- TimeCreated

[ SystemTime] 2023-12-15T09:26:37.643552900Z

EventRecordID 1011174

Correlation

- Execution

[ ProcessID] 4
[ ThreadID] 8

Channel System

Computer ServerEPO

- Security

[ UserID] S-1-5-18

- EventData

BugcheckCode 0
BugcheckParameter1 0x0
BugcheckParameter2 0x0
BugcheckParameter3 0x0
BugcheckParameter4 0x0
SleepInProgress 0
PowerButtonTimestamp 0
BootAppStatus 0
Checkpoint 0
ConnectedStandbyInProgress false
SystemSleepTransitionsToOn 0
CsEntryScenarioInstanceId 0
BugcheckInfoFromEFI false
CheckpointStatus 0

- EventData

41.jpg 46.36 KiB

Předmět	Autor	Datum
Předpokládám, že server je připojený na UPS? Díval ses na stav disků (SMART)? host 15.12.2023 14:04	host	15.12.2023 14:04
UPSka tam je. Clear disk info mi neukazuje stav diskov ktoré sú v RAIDe (aspoň neviem ako na to)... DURI 15.12.2023 14:27	DURI	15.12.2023 14:27
Tak to zkus pomocí https://crystalmark.info/en/software/crystaldiskinfo/ Lukas1982 15.12.2023 14:34	Lukas1982	15.12.2023 14:34
Nie, ani ten mi neukazuje disky zapojene v RAIDe. DURI 15.12.2023 14:44	DURI	15.12.2023 14:44
Vypisovat sem detaily "chyby" Kernel Power 41 bylo zbytečné - v podstatě jde jen o hlášení systému p… Zdenál 15.12.2023 15:01	Zdenál	15.12.2023 15:01
bsod zkus číst něčím příčetným: nirsoft bsod viewer nebo pokud v tom eventvieweru dokážeš zobrazit… lední brtník 15.12.2023 16:15	lední brtník	15.12.2023 16:15
nirsoft bsod viewer mi pri 2 pádoch zobrazuje to čo priložené obr. DURI 18.12.2023 08:05	DURI	18.12.2023 08:05
Protože te udalosti nepredchazi nic, tak to podle mne vypadá na HW problém. proste to natvrdo restar… Jan Fiala 15.12.2023 18:37	Jan Fiala	15.12.2023 18:37
HP ma ilo, idrac maju Dell. fleg 15.12.2023 21:10	fleg	15.12.2023 21:10
Proto je to v zavorce. Pokud to v serveru ma, podle mne z logu zjisti problem. Jan Fiala 15.12.2023 21:15	Jan Fiala	15.12.2023 21:15
Zkusil bych aktualuzovat FW,. To už radči záznamy z ILO by nebyli ? HPE Integrated Lights-Out 2 (iLO… HPET 15.12.2023 22:39	HPET	15.12.2023 22:39
Vymenit. Bez debaty. Za posledne roky pouzivam na uctovnicke programy ako servre repasovane desktopy… fleg 15.12.2023 23:05	fleg	15.12.2023 23:05
skus takto riesit Winpam, ta firma a ich vytvor je bordel... jjj 16.12.2023 16:12	jjj	16.12.2023 16:12
Spravujem par WinIBEU (takisto IVES Kosice), ale to si sukromna firma dobrovolne neda, su nasadeny v… fleg 16.12.2023 16:54	fleg	16.12.2023 16:54
Asi to budeme musiet nakoniec takto vyriesit. Pozeram v sobotu to spadlo 4x (aj ked tam nikto nic ne… DURI 18.12.2023 08:08	DURI	18.12.2023 08:08
Take veci poznam, riesenim stravis vela hodin a mozno trt vyriesis, virtualizacia ti taketo problemy… fleg 18.12.2023 09:03	fleg	18.12.2023 09:03
Bugchecky sú nulové,tá chyba 0x8000xxx skôr vyzerá na nejaký softwarový problém-nepodarený update ,k… audax mobile 17.12.2023 20:52	audax mobile	17.12.2023 20:52
pokud to byl pád rovnou do černé obrazovky, nic se nemuselo stihnout uložit, proto ty nuly. takový p… lední brtník 17.12.2023 21:32	lední brtník	17.12.2023 21:32
Tak sme vymenili server za iný a tento "chrobačný" som začal skúšat. CCa týždeň bežal bez problémov… poslední DURI 08.01.2024 08:14	DURI	08.01.2024 08:14

Předpokládám, že server je připojený na UPS?
Díval ses na stav disků (SMART)?

UPSka tam je.
Clear disk info mi neukazuje stav diskov ktoré sú v RAIDe (aspoň neviem ako na to)...

Tak to zkus pomocí https://crystalmark.info/en/software/crystaldiskinfo/

Nie, ani ten mi neukazuje disky zapojene v RAIDe.

Vypisovat sem detaily "chyby" Kernel Power 41 bylo zbytečné - v podstatě jde jen o hlášení systému při jeho startu, že předešlý běh nebyl korektně ukončen.
Pokud v Prohlížeči neexistuje nějaká jiná chyba, půjde na 99% o HW problém a prvním podezřelým na řadě v těchto případech bývá zdroj, eventuálně napájecí kaskáda základní desky (píšeš, že server je starší, takže tam hrozí vysychání kondíků).

bsod zkus číst něčím příčetným: nirsoft bsod viewer

nebo pokud v tom eventvieweru dokážeš zobrazit události system, setříděné podle času, tam si najdi co předcházelo tomu "kernel 41"

nirsoft bsod viewer mi pri 2 pádoch zobrazuje to čo priložené obr.

41-1.jpg 95.41 KiB 41-2.jpg 96.05 KiB

Protože te udalosti nepredchazi nic, tak to podle mne vypadá na HW problém. proste to natvrdo restartne.
Má ten server hw modul pro vzdalenou správu (iDrac)?
Tam bývá možnost prohlédnout si hw logy. Jinak zkus BIOS, jestli tam nebude přistup k logům také.

HP ma ilo, idrac maju Dell.

Proto je to v zavorce. Pokud to v serveru ma, podle mne z logu zjisti problem.

Zkusil bych aktualuzovat FW,.
To už radči záznamy z ILO by nebyli ? HPE Integrated Lights-Out 2 (iLO2)

Windows Event log je ti k ničemu. Kernel41: iLO prostě detekuje že server ztratil napájení, takže se nejedná o událost restartu. Je to událost náhlého vypnutí.
Klidně může být vadný regulátor napětí a CPLD vypne server, klidne to může byt nejakym řadicem klasicky p410i nebo PSU.

1) Aktualuzovat FW
2) Zkusit zakázát ASR (pod RBSU)
3) Zkusit nastavení správy napájení na maximum
4) Checknout RAM, nebo ji zkusit jednu po druhe vyjmout.
5) Podivat se do LOG karet ve správci zařízení (nebo HP tools).

Vymenit.
Bez debaty.
Za posledne roky pouzivam na uctovnicke programy ako servre repasovane desktopy.
i5-6500 8GB RAM a 250GB SSD som predaval par tyzdnov dozadu za 130 bez DPH. Hodis tam Win10 a bezi ti na tom v pohode hocico, hoci aj s MSSQL. Nevyhoda je, ze ked to klakne pracnejsie sa to obnovuje. Ale mam desktopy, ktore bezia 3 rokom bez prestavky. Vacsinou pouzivam HP, obcas ell.
Ak to rozsirim na 16GB RAM a pridam tam 1TB SSD mozem Win server 2022 napr dokonca virtualizovat, dam k tomu dvojca a mam proxmoxovy cluster, kde nehrozi vacsi ako par minutovy vypadok.
Mam takto pod spravo veci od Krosu, Pohody, ci Oberonu, ale defacto to zvladne akykolvek uctovny server.
Podotykam, ze sa bavime aj o profi uctovnych firmach, kde naraz pracuje s SQLkom niekolko ludi.

skus takto riesit Winpam, ta firma a ich vytvor je bordel...

Spravujem par WinIBEU (takisto IVES Kosice), ale to si sukromna firma dobrovolne neda, su nasadeny vylucne v statnej sprave.
Mam aj humornu prihodu s ich supportom, ked chlapik na dialku chcel nieco opravit a evidentne sa vyznal v prostredi okien vyrazne menej ako ja, takze som mu musel trosku radit. A to mal byt ich specialista;o).

Asi to budeme musiet nakoniec takto vyriesit. Pozeram v sobotu to spadlo 4x (aj ked tam nikto nic nerobil), to uz je vela ked sa to zacne diat pocas pracovneho dna ked tam naraz robi 10-15 ludi...

Take veci poznam, riesenim stravis vela hodin a mozno trt vyriesis, virtualizacia ti taketo problemy vacsinou odstranuje.
A ak mas nedoveru v repaseovane desktopy, su aj repasove servre a nie su moc drahe.

Bugchecky sú nulové,tá chyba 0x8000xxx skôr vyzerá na nejaký softwarový problém-nepodarený update ,konflikt nejakých systémových knižníc a podobne…hlavne bugcheckParameter 2 a 4 obvykle pri hardwarovej chybe majú hodnotu 0x2 pri opravitelnej hw závade a 0x3 alebo 4 pri neopravitelnej hw závade ….

pokud to byl pád rovnou do černé obrazovky, nic se nemuselo stihnout uložit, proto ty nuly. takový pád dokáže vyvolat jen hw vada.

Tak sme vymenili server za iný a tento "chrobačný" som začal skúšat. CCa týždeň bežal bez problémov (bez toho že by PC niečo robil, len bol proste zapnutý). Potom som ale dal niečo väčšie sťahovať (nejaké ISO Linuxu) a stále do hodiny Windows spadol (odskúšané 3x). Pichol som potom ethernetový kábel do iného socketu a už mi to ide asi 5 dní bez problémov, aj keď som posťahoval niekoľko 100GB dát, ani raz to nespadlo...

Zpět do poradny Odpovědět na původní otázku Nahoru