Hjälp med felsökning av ny serverhårdvara; grafikbuggar och systemet kan frysa

Permalänk
Medlem

Hjälp med felsökning av ny serverhårdvara; grafikbuggar och systemet kan frysa

Hej,

jag har precis byggt en ny mini-ITX-baserad hemserver, som huvudsaklingen skall agera filserver/NAS, men har problem med någon del av hårdvaran och behöver input.

Till att börja med, den PSU från Antec som jag först fick var defekt (systemet bootade inte), så jag kan inte utesluta att den har skadat någon komponent.

Nuvarande hårdvarukonfiguration:
* Case: Lian-Li PC-Q25
* PSU: Corsair CX500M
* Motherboard: Jetway (J)NF9E-Q77
* CPU: Intel Core i3-3220T
* Memory: Corsair Value Select 2x8 GB 1333 MHz
* Disk drives: 2 x Intel SSD 520 60 GB and 4 x Seagate Barracuda 3 TB
7.2 kRPM, not connected when performing some testing, e.g. running
memtest86+
* CPU Cooling: Noctua NH-L9I S-1150/1155/1156
* Case Cooling: 1x140 mm + 1x120 mm fans from Noctua.

Problemet är att det slumpmässigt dyker upp horisentella linjer på skärmen (skärmen fungerar i normala fall perfekt med min MacBook Pro).

Efter en slumpmässig tid i drift så är skärmen svart när man slår på den/växlar ingång från min Mac (skärmen sover alltså inte).

Buggen uppträder både på DVI och VGA.

Det har även hänt att systemet har hängt sig, men om det är relaterat till samma eller ett relaterat hårdvarufel eller OSet ifråga (DragonFly BSD 3.2.2 64-bit) låter jag vara osagt än så länge.

Linjebuggen uppträder ibland (men mycket sällan) i BIOS, den går att återskapa i vissa skärmar i memtest86+ och det visar sig om man drar igång installationsprogrammen för både FreeBSD 9.1-RELEASE 64-bit och OpenBSD 5.2 64-bit.

Svart skärm hade jag när jag skulle kolla memtest efter att ha kört hela natten.

Linjebuggen uppträder INTE i memtest om jag kör minnena i 1066 MHz istället för 1333 MHz ELLER om jag kör med bara en minnessticka, oberoende om vilken sticka jag kör och i vilken slot. Just nu står den där hemma och snurrar med DDR-klockan på 1066 MHz så om skärmen fortfarande blir svart eller ej kan jag svara på senare ikväll.

BIOS rapporterar stabil spänning á 1,5 V för VDIMM när jag kör 1333 MHz. Stabil i som att den hoppar mellan 1,540 V och 1,552 V vilket mycket väl uppfyller JEDECs krav.

Moderkortet är köpt från mini-itx.com och jag har kontaktat dem för support i frågan. Jag har även kontaktat Intel. Övriga komponenter (inklusive processorn) är köpta från Dustin och jag pratade med dem imorse; de var inte pigga på att byta ut CPU och DRAM med följande argument:
* Intel har låg felfrekvens (1 på 80000 tror jag att hon sa). Det betyder ju dock att en av 80000 är defekt och även om sannolikheten är låg så finns det en risk att jag har fått ett sådant exemplar; Intel har trots allt stora volymer.
* Corsair anger inte att de stödjer mitt moderkort, men å andra sidan så anger de heller inte att det inte skall fungera. DDR3 SDRAM skall uppfylla JEDEC-specifikationen och det skall räcka. Det är orimligt att tro att en tillverkare av (SO-)DIMM skall verifiera sina produkter med alla möjliga moderkort.
Jag glömde dessvärre påpeka den trasiga PSUn och en eventuell risk att den har skadat något (beroende på hur säkrad DC/DC på kortet är).
* Moderkortet är inte uteslutet som felkälla.

Jag misstänker dock att det är CPUn eftersom memtest inte rapporterar några fel på åtmistone en timmas körning; min erfarenhet är att memtest brukar börja rapportera fel nästan direkt när ett minne är kasst. Problemet är troligtvis relaterat till grafikkretsen eller minneskontrollen och eftersom de är integrerade med CPUn nuförtiden så har inte moderkortet så mycket med det hela att göra (förutom spänningsmatning).

Någon som kan tillföra något?

Det enklaste vore förstås att testa med ett annat moderkort, en annan processor eller annat minne, men det har jag inte möjlighet till utan att köpa dubbelt av allt (vilket är uteslutet) eller att få mina leverantörer att byta delarna.

Permalänk
Medlem

Uppdatering: memtest fick rulla i 23 h 45 min med minnena i 1066 MHz. Inga fel rapporterades (testet fick faktiskt pass) och inga grafiska artefakter dök upp på skärmen.

Baserat på det så är min slutsats att inget är trasigt, men att det finns problem med signalintegriteten. Om det sedan beror på dålig layout från Jetways sida eller att jag har fått ett corner-case av någon IC som gör att det trillar över kanten låter jag vara osagt (jag misstänker till exempel att Corsair har stor spridning på sin Value Select-serie för att hålla priset nere); utan att haka på ett oscilloskop så är det omöjligt att avgöra vad som faktiskt är fel.

Hursomhelst, jag skall eventuellt testa med några stickor som är 1066 respektive 1600 MHz, bara för att, samt givetvis boota DragonFly BSD för att se att det uppträder som förväntat nu (det vill säga stabilt). Jag tror nämligen inte att skillnaden i minnesbandbredd mellan 1066 och 1333 MHz påverkar mig något nämnvärt.

Edit: Nu har jag provat med ett 2x8 GB-minne 1600 MHz men klockat i 1333 MHz och linjebuggen uppträder precis som med mitt 1333-minne.

Intel har ett moderkort med en snarlik arkitektur som mitt Jetway (Intel DQ77KB) och där hittar man följande information med avseende på systemminnet:
"Unbuffered, single-sided, or double-sided SO-DIMMs with the following restriction: Does not support double-sided x16 SO-DIMMs".

Corsair-minnena som jag har testat med har 16 DRAM-kapslar och är dubbelsidiga (512 MB/kapsel är billigt när det finns 4 GB-kapslar ). Eftersom antalet kapslar påverkar lasten som utgörs mot DDR3-kontrollen och sträckan som signalerna måste färdas så hänger det ju ihop med att det fungerar bättre med lägre klockfrekvenser (bättre marginaler).

Hursomhelst, Kingston har ett minne som skall fungera med Intels moderkort nämnt ovan. Så Dustin gör ett återköp (de är nog ganska trötta på mig nu) och jag provar med Kingston istället.

Edit 2: Kingstons SO-DIMM visade sig också ha 16 kapslar så jag vet faktiskt inte hur texten på Intels hemsida skall tolkas. Dessvärre så gick det inte att se på grund av etiketter när det låg i förpackningen. Om systemet verkar stabilt i övrigt så kör jag på med minnen i 1066 MHz.