ASUS X99-E WS/USB 3.1, startar om spontant eller fryser efter en timmes GPU körning med TensorFlow
Hej,
Jag har en dator jag plockat ihop själv för att den skulle ha maxad prestanda för att kunna träna neurala nät. För detta syfte använder jag ett ramverk från Google som heter TensorFlow.
Problemet är att den spontant hänger sig eller startar om efter att man kört i ungefär en timme.
Det är såpass lång tid att värme och liknande borde ha stabiliserat sig till ett stationärt tillstånd och jag har kollat temperaturer noga.
Min misstanke är att det kan vara ett fel som har att göra med moderkortet för jag har felsökt nästan allting annat man kan tänka sig och inte sett någon skillnad. Moderkortet är av modellen ASUS X99-E WS/USB 3.1, Socket-2011-3, och GPUerna (2st) är av märket Geforce Titan-X (Maxwell-arkitektur)
Jag har en dual boot med Ubuntu 16.04 och Windows 10, och jag har sett en del krascher i spel på windowsmiljö med, men ganska sporadiskt så det är svårt att vara säker på om det beror på datorn eller på buggar i spelen. Bland annat har Civilization 6 krashat ganska ofta om man kört windowed mode med DivX 12, men inte om man kört fullscreen mode med annan DivX. Elite Dangerous verkar ibland krascha i 64-bitars mode, men eventuellt kanske int i 32-bitars mode (testning pågår ännu map. detta).
Det jag dock vet är att TensorFlow (som alltså körs under Ubuntu) kraschar på ett väldigt repeterbart sätt. Jag har testat olika versioner av Ubuntu (14.04, 16.04, 17.04) och Nvidias grafik, CUDA och cuDNN drivrutiner, uppdaterat bios på moderkortet olika versioner av TensorFlow etc. etc. Men ingenting hjälper. Vi har en dator med snarlik setup på jobbet som inte har några som helst tendenser till att krascha (samma moderkort, bortsett från att den inte har USB 3.1, utan är versionen före med USB 3.0, och samma sorts GPUer.)
Någon som kan hjälpa med tips på hur jag ska komma vidare?