Server sa samovoľne reštartuje
Máme starší server od HP, ktorý slúži len pre účtovnícky SW. V posledných týždňoch sa začal náhodne reštartovať. Tak 0-3x za deň. Je to dosť otravné, keď sa to stane keď človek niečo robí. Pozeral som na teploty procesorov, všetko v poriadku – pod 60°C. Zaťaženie nízke – tak do 20%. Neviem čo ešte pozrieť, aby sa problem našiel/odstránil. Server si v podstate spravujeme sami.
Event viewer ukazuje to čo priložený obrázok.
Na serveri je Windows Server 2019, 2x Xeon E5-2660, 72 GB RAM, RAID1.
Nejaký nápad čím to môže byť spôsobené/ čo skúsiť?
V details Event Viewra je:
- System
- Provider
[ Name] Microsoft-Windows-Kernel-Power
[ Guid] {331c3b3a-2005-44c2-ac5e-77220c37d6b4}
EventID 41
Version 6
Level 1
Task 63
Opcode 0
Keywords 0x8000400000000002
- TimeCreated
[ SystemTime] 2023-12-15T09:26:37.643552900Z
EventRecordID 1011174
Correlation
- Execution
[ ProcessID] 4
[ ThreadID] 8
Channel System
Computer ServerEPO
- Security
[ UserID] S-1-5-18
- EventData
BugcheckCode 0
BugcheckParameter1 0x0
BugcheckParameter2 0x0
BugcheckParameter3 0x0
BugcheckParameter4 0x0
SleepInProgress 0
PowerButtonTimestamp 0
BootAppStatus 0
Checkpoint 0
ConnectedStandbyInProgress false
SystemSleepTransitionsToOn 0
CsEntryScenarioInstanceId 0
BugcheckInfoFromEFI false
CheckpointStatus 0
- EventData
BugcheckCode 0
BugcheckParameter1 0x0
BugcheckParameter2 0x0
BugcheckParameter3 0x0
BugcheckParameter4 0x0
SleepInProgress 0
PowerButtonTimestamp 0
BootAppStatus 0
Checkpoint 0
ConnectedStandbyInProgress false
SystemSleepTransitionsToOn 0
CsEntryScenarioInstanceId 0
BugcheckInfoFromEFI false
CheckpointStatus 0
Předpokládám, že server je připojený na UPS?
Díval ses na stav disků (SMART)?
UPSka tam je.
Clear disk info mi neukazuje stav diskov ktoré sú v RAIDe (aspoň neviem ako na to)...
Tak to zkus pomocí https://crystalmark.info/en/software/crystaldiskinfo/
Nie, ani ten mi neukazuje disky zapojene v RAIDe.
Vypisovat sem detaily "chyby" Kernel Power 41 bylo zbytečné - v podstatě jde jen o hlášení systému při jeho startu, že předešlý běh nebyl korektně ukončen.
Pokud v Prohlížeči neexistuje nějaká jiná chyba, půjde na 99% o HW problém a prvním podezřelým na řadě v těchto případech bývá zdroj, eventuálně napájecí kaskáda základní desky (píšeš, že server je starší, takže tam hrozí vysychání kondíků).
bsod zkus číst něčím příčetným: nirsoft bsod viewer
nebo pokud v tom eventvieweru dokážeš zobrazit události system, setříděné podle času, tam si najdi co předcházelo tomu "kernel 41"
nirsoft bsod viewer mi pri 2 pádoch zobrazuje to čo priložené obr.
Protože te udalosti nepredchazi nic, tak to podle mne vypadá na HW problém. proste to natvrdo restartne.
Má ten server hw modul pro vzdalenou správu (iDrac)?
Tam bývá možnost prohlédnout si hw logy. Jinak zkus BIOS, jestli tam nebude přistup k logům také.
HP ma ilo, idrac maju Dell.
Proto je to v zavorce. Pokud to v serveru ma, podle mne z logu zjisti problem.
Zkusil bych aktualuzovat FW,.
To už radči záznamy z ILO by nebyli ? HPE Integrated Lights-Out 2 (iLO2)
Windows Event log je ti k ničemu. Kernel41: iLO prostě detekuje že server ztratil napájení, takže se nejedná o událost restartu. Je to událost náhlého vypnutí.
Klidně může být vadný regulátor napětí a CPLD vypne server, klidne to může byt nejakym řadicem klasicky p410i nebo PSU.
1) Aktualuzovat FW
2) Zkusit zakázát ASR (pod RBSU)
3) Zkusit nastavení správy napájení na maximum
4) Checknout RAM, nebo ji zkusit jednu po druhe vyjmout.
5) Podivat se do LOG karet ve správci zařízení (nebo HP tools).
Vymenit.
Bez debaty.
Za posledne roky pouzivam na uctovnicke programy ako servre repasovane desktopy.
i5-6500 8GB RAM a 250GB SSD som predaval par tyzdnov dozadu za 130 bez DPH. Hodis tam Win10 a bezi ti na tom v pohode hocico, hoci aj s MSSQL. Nevyhoda je, ze ked to klakne pracnejsie sa to obnovuje. Ale mam desktopy, ktore bezia 3 rokom bez prestavky. Vacsinou pouzivam HP, obcas ell.
Ak to rozsirim na 16GB RAM a pridam tam 1TB SSD mozem Win server 2022 napr dokonca virtualizovat, dam k tomu dvojca a mam proxmoxovy cluster, kde nehrozi vacsi ako par minutovy vypadok.
Mam takto pod spravo veci od Krosu, Pohody, ci Oberonu, ale defacto to zvladne akykolvek uctovny server.
Podotykam, ze sa bavime aj o profi uctovnych firmach, kde naraz pracuje s SQLkom niekolko ludi.
skus takto riesit Winpam, ta firma a ich vytvor je bordel...
Spravujem par WinIBEU (takisto IVES Kosice), ale to si sukromna firma dobrovolne neda, su nasadeny vylucne v statnej sprave.
Mam aj humornu prihodu s ich supportom, ked chlapik na dialku chcel nieco opravit a evidentne sa vyznal v prostredi okien vyrazne menej ako ja, takze som mu musel trosku radit. A to mal byt ich specialista;o).
Asi to budeme musiet nakoniec takto vyriesit. Pozeram v sobotu to spadlo 4x (aj ked tam nikto nic nerobil), to uz je vela ked sa to zacne diat pocas pracovneho dna ked tam naraz robi 10-15 ludi...
Take veci poznam, riesenim stravis vela hodin a mozno trt vyriesis, virtualizacia ti taketo problemy vacsinou odstranuje.
A ak mas nedoveru v repaseovane desktopy, su aj repasove servre a nie su moc drahe.
Bugchecky sú nulové,tá chyba 0x8000xxx skôr vyzerá na nejaký softwarový problém-nepodarený update ,konflikt nejakých systémových knižníc a podobne…hlavne bugcheckParameter 2 a 4 obvykle pri hardwarovej chybe majú hodnotu 0x2 pri opravitelnej hw závade a 0x3 alebo 4 pri neopravitelnej hw závade ….
pokud to byl pád rovnou do černé obrazovky, nic se nemuselo stihnout uložit, proto ty nuly. takový pád dokáže vyvolat jen hw vada.
Tak sme vymenili server za iný a tento "chrobačný" som začal skúšat. CCa týždeň bežal bez problémov (bez toho že by PC niečo robil, len bol proste zapnutý). Potom som ale dal niečo väčšie sťahovať (nejaké ISO Linuxu) a stále do hodiny Windows spadol (odskúšané 3x). Pichol som potom ethernetový kábel do iného socketu a už mi to ide asi 5 dní bez problémov, aj keď som posťahoval niekoľko 100GB dát, ani raz to nespadlo...