Přidat otázku mezi oblíbenéZasílat nové odpovědi e-mailemVyřešeno Nestabilita, vytuhy stroje s Ryzen 7 1700X, i po vymene MB, RAM...

Malokdy s necim otravuju, ale mam takovy zaklety pripad - tuhnouci PC.

Konfigurace:

Ryzen 7 1700X
16GB RAM
ASRock X370 Killer SLI (puvodne, viz dale)
Nvidia Quadro P2000
120GB SSD M.2 (puvodne, viz dale)
2x 1TB SSD
PCIe sitovka 10Gbe/SFP+ (intel ccosi, OEM Supermicro)

- je to jednoucelovy stroj na zpracovani videa v realnem case, proto Ryzen se 16 thready a Quadro P2000 pro HW encoding. System je Ubuntu 16.04LTS. Mam podobnych stroju vic, vetsinu na Intelech, ale i dalsi jeden presne v teto konfiguraci. Vse jede bez problemu a stabilne, i tenhle jel pres pul roku bez problemu - az minuly tyden zacaly nechtene resety. Prumerne jednou za den, nezavisle na momentalnim vytizeni, casu - neslo nic dohledat, nahla smrt a boot po ni do funkcniho stavu.

- vymenil jsem pro sichr vse tohle: zakladni desku (nyni MSI X370 GAMING PRO), pameti (HyperX 3000MHz), zdroj (nejaky 450W Corsair, stredni trida/predtim cosi podobneho jine znacky), a nakonec i systemovy disk neb na nove desce system odmitl nabootovat - po naklonovani z M.2 na 250GB SATA SSD vse OK.

V patek odpoledne spusteno, a v nedeli pred pulnoci mrtvola, tentokrat ani nenabootovala. Nenapada me uz nic jineho nez vadny cpu...? Rano jsem nasel takhle:

[82769-image1-jpg]

- napada nekoho jeste neco jineho nez vymenit CPU? Chlazeni verim ze je OK (bohuzel lmsensors mi u Ryzenu teplotu nedetekuji), zatez je na dany CPU spis nizsi - s dostatecnou rezervou. Load kolem 8-11, skaluje frekvenci jader do cca. 3000MHz, nema potrebnu jit vic nahoru, pad byl v dobe kdy vytizeni bylo spis nizsi. I pady predtim nijak nekorelovali s vytizenim.

Předmět Autor Datum
Nazdar - Co mas za verzi kernel, zkousel jsi Live 18.04 Ubuntu dela to samé ? Zkus mu nastavit : ke…
XoXoChanel 02.07.2018 09:57
XoXoChanel
4.4.0 x86_64 - na vsech strojich (je jich vic, vse identicky system), vsechny stabilni, i tenhle az…
lucifer 02.07.2018 10:02
lucifer
Takze tam byl 7A33v4A - 2018-03-13 - Improved memory compatibility. - Improved PCIE device compati…
lucifer 02.07.2018 10:53
lucifer
- To by ses divil pritelli, nas hlavne zajima Update microkodu 'AGESA' a vsak prevedc se sam, staci…
XoXoChanel 02.07.2018 11:08
XoXoChanel
jestli to začalo náhle a šíří se to přes desky, tak bych si spíše tipnul, že něco podělali v ubuntu…
touchwood 02.07.2018 10:58
touchwood
nene, umyslne neupdatuju. Po zkusenostech s automatickymi updaty zavrzeno jako cesta do pekel (by me…
lucifer 02.07.2018 11:07
lucifer
Co to mas Server ? Stopnout ho zkusit to CPU na nem asi nemuzes vid ? Zkusit nejaké LIVE@TOOLS ? na…
XoXoChanel 02.07.2018 11:21
XoXoChanel
ono samozrejme jde ty CPU prohodit, ale zbytecne si rozhodim dalsi stroj a budu trnout kdy chcipne.…
lucifer 02.07.2018 11:33
lucifer
Tož, dobře to čistí ! :-p (fofr no.. kam se hrabe TH od Intelu ) * Vic ti osobne neporadim, vic o to…
XoXoChanel 02.07.2018 11:42
XoXoChanel
ď., prinejhorsim mi zbude dalsi kompletni funkcni stroj :-) Zitra to vymenim za R7 1800X. Jinak teda…
lucifer 02.07.2018 12:34
lucifer
Taky jsem nedávno řešil podobný problém, kdy nešly nainstalovat WIN a ve finále byl opravdu vadný pr…
Lukas1982 02.07.2018 11:17
Lukas1982
- Vadne CPU nebo extreni poskozeni, nozka a podobne ? Tezko rict jestli ses stistkar nebo smolar, pa…
XoXoChanel 02.07.2018 11:29
XoXoChanel
Jj, však já jsem to taky zažil prvně. Nepočítám ohnuté piny, takových PC bylo spousta, kdy to tam už…
Lukas1982 02.07.2018 14:52
Lukas1982
Zkusil bych nějaký cpu stability test, může být vadné jádro. Prime95 je i pod linux https://www.mer…
MM_tankmobil 02.07.2018 20:23
MM_tankmobil
zdroj jsem samozrejme prohodil, psano hned v prvnim prispevku . Logicky napadlo jako jedna z moznost…
lucifer 02.07.2018 20:41
lucifer
Uzaviram jako "vyresene" - na 99% skutecne vadny procesor. Po vymene CPU uptime pres 6 dni, vse v po…
lucifer 09.07.2018 20:10
lucifer
Hustý. poslední
touchwood 09.07.2018 20:31
touchwood

Nazdar
- Co mas za verzi kernel, zkousel jsi Live 18.04 Ubuntu dela to samé ?
Zkus mu nastavit :

kernel configured:  CONFIG_RCU_NOCB_CPU=y
kernel command-line:  rcu-nocbs=0-15
processor.max_cstate=5

* BIOS zaladni desky mas aktualni vid ? (verzi AGESA mas jakou ?) Ptam se protoze Hitachi od As delala to samé

Takze tam byl 7A33v4A - 2018-03-13

- Improved memory compatibility.
- Improved PCIE device compatibility.
- Update AGESA Code 1.0.0.1a to support new upcoming processors.

flash na 7A33v4B - 2018-05-04

- Improved USB mouse compatibility.
- Improve M.2 compatibility.
- Update AGESA code 1.0.0.2a

- uprimne neverim ze to neco vyresi, objednal jsem novy Ryzen.

- To by ses divil pritelli, nas hlavne zajima Update microkodu 'AGESA' a vsak prevedc se sam, staci napsat do vyhledavani "Agesa 1.0.0.2a + Ryzen + Ubuntu" , prvnich 20 stranek bude reseni poroblému s : pad frekvence, BSOD, Ubuntu Crash etc etc.
- Samozrejme to tim byt nemusi, ale takle muzes s cistym srdcem pokracovat hledat problém jinde ;-)
* Ubuntu zacina delat ze zaplaty na Spectre Variante to samé co delalo MS, alespon podle toho jejich raportu (wiki.ubuntu.com/SecurityTeam)

jestli to začalo náhle a šíří se to přes desky, tak bych si spíše tipnul, že něco podělali v ubuntu a patch něco rozbil. Předpokládám, že patchuješ?
Můžeš nainstalovat čistý OS bez updatů a zkusit to v něm?

Vadným CPU to samozřejmě být může, ale to je IMHO až ta poslední možnost.

nene, umyslne neupdatuju. Po zkusenostech s automatickymi updaty zavrzeno jako cesta do pekel (by me sice melo tesit, ale...ne), obzvlast pro dany ucel. Maximalne se to po vyzkouseni na testovacim stroji jednou za cas patchne "rucne".

(naprosto identicky stroj se stejnym systeme a v stejnem rezimu mi o polici vedle jede v pohode, taky R7 1700X, Quadro P2000 atd. atd.)

Co to mas Server ? Stopnout ho zkusit to CPU na nem asi nemuzes vid ? Zkusit nejaké LIVE@TOOLS ? na test CPU/RAM - (ktera taky muz vratit chybu, proto se na server osazuji EEC) . TouchWood by mohl nejaké nastroje znat.
* Co tam mas origos Cooler ? To mas hned, odcvaknes klipsy vymenis spustis, nelam si zbytecne hlavu. Horsi je spis ze vadné CPU muze vyhodi|vratit chybu az u urcité instrukce, coz se numusi projevit pri startu PC.

ono samozrejme jde ty CPU prohodit, ale zbytecne si rozhodim dalsi stroj a budu trnout kdy chcipne. I na nem mi jede realtime encoding do HEVC, u tohohle postizeneho jsem to nouzove nahradil z jihych - od rana po flashnuti bezi, ale nemam odvahu to z nej pustit "ven". Delam tim streamy do lokalni "IPTV".

tohle je ten "nemocny" - hodinu jede, ale - to musi jet ne hodinu, ale mesice v kuse, jako ze predtim ano:

[82770-scrshit-pc2-07-02-18-at-11-28-am-png]

- a jeho "bracha vedle" - jednovajecne dvojce:

[82771-scrshit-pc2-07-02-18-at-11-30-am-png]

(dostava trochu vetsi kotel, neb vyrabi o jeden tv kanal vic)

Tož, dobře to čistí ! :-p (fofr no.. kam se hrabe TH od Intelu )
* Vic ti osobne neporadim, vic o tom nevim a hlubsi zkusenost s temato machinama nemam jen bych tipoval a takové rady jsou ti k nicemu, ale poprat stesti a drzet palce ti chvilku muzu ;-)..

ď., prinejhorsim mi zbude dalsi kompletni funkcni stroj :-) Zitra to vymenim za R7 1800X. Jinak teda - ja "vyhral jackpot" uz pred casem u Intelu. Po XY letech jsem skutecne mel vadny Intel CPU. Jedna z prvnich dodavek Skylake do CR, i7 6700k. Po tydnu normalniho provozu - pri urcite instrukci/kombinaci instrukci skocil "nahodne nekam jinam" a zacal delat neco jineho... Velmi zajimave a se zajimavymi dusledky. M.j., si sebedestrukcne promazal vetsinu systemoveho disku. Nevidel jsem vadny Intel snad od ery "tabulka cokolady" slot1 Pentium II.

Taky jsem nedávno řešil podobný problém, kdy nešly nainstalovat WIN a ve finále byl opravdu vadný procesor. Zkoušel jsem to samé co ty a pro potvrzení jsem deaktivoval zbylá 3 jádra procesoru a nechal aktivní jen jedno a fungovalo to. Takže šel na reklamaci... Stát se může...

zdroj jsem samozrejme prohodil, psano hned v prvnim prispevku . Logicky napadlo jako jedna z moznosti. Vytizene jsou vsechny jadra, simulovana zatez vseho nikam nevede - muzu cekat X hodin a nic.

(povzdech - hnus tohle, slusne vychovany pocitac kdyz uz, tak ma zdechnout za kourovych efektu - s velkou pompou a definitivne. Slovy klasika "kour vam ukaze cestu" - shorene vymenit - jede se dal... Ne "jednou za XY hodin se mi udela blbe, pozvracim se a lehnu, az do mne nekdo kopne zase oziju". )

Uzaviram jako "vyresene" - na 99% skutecne vadny procesor. Po vymene CPU uptime pres 6 dni, vse v poradku. A ten puvodni - ve stredu jsem nechal bezet Prime95, a nejak v prubehu prodlouzeneho vikendu mrtvolka. Presny stav a po jake dobe to kleklo netusim - dnes rano sice tocici se vetraky, deska pod napetim. Ale chladic CPU studeny, obraz z grafiky zadny, reakce na klavesnici/mys zadna - neslo nijak probrat, teda power off/on a zas "hele, ziju". Posilam na reklamaci.

Zpět do poradny Odpovědět na původní otázku Nahoru