Task 16041790

Name	hadcm3n_ocbx_1900_40_008471104_0
Workunit	8621943
Created	27 Sep 2013, 10:02:44 UTC
Sent	1 Oct 2013, 9:43:13 UTC
Report deadline	31 Dec 2013, 17:10:24 UTC
Received	15 Oct 2013, 9:04:19 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1258442
Run time	10 days 6 hours 24 min 19 sec
CPU time	5 days 22 hours 52 min 27 sec
Validate state	Invalid
Credit	4,976.64
Device peak FLOPS	3.10 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>7.0.64</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 10:44:23 (6444): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 19:55:10 (3148): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 17:29:32 (3576): No heartbeat from core client for 30 sec - exiting 17:29:33 (3576): No heartbeat from core client for 30 sec - exiting 17:29:34 (3576): No heartbeat from core client for 30 sec - exiting 17:29:35 (3576): No heartbeat from core client for 30 sec - exiting 17:29:36 (3576): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 08:46:57 (1804): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 09:20:46 (3772): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 21:29:03 (4532): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=1368, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=1368, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=1368, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=1368, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=1368, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=1368, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
09 Oct 2013 01:44:39	1258442	16041790	hadcm3n_ocbx_1900_40_008471104_0	414,720	499,824	1.2052
08 Oct 2013 15:32:25	1258442	16041790	hadcm3n_ocbx_1900_40_008471104_0	388,800	468,698	1.2055
08 Oct 2013 02:50:32	1258442	16041790	hadcm3n_ocbx_1900_40_008471104_0	362,880	436,870	1.2039
07 Oct 2013 16:53:09	1258442	16041790	hadcm3n_ocbx_1900_40_008471104_0	336,960	405,314	1.2029
07 Oct 2013 04:52:17	1258442	16041790	hadcm3n_ocbx_1900_40_008471104_0	311,040	373,391	1.2005
06 Oct 2013 13:17:15	1258442	16041790	hadcm3n_ocbx_1900_40_008471104_0	285,120	342,214	1.2002
05 Oct 2013 23:59:52	1258442	16041790	hadcm3n_ocbx_1900_40_008471104_0	259,200	310,960	1.1997
05 Oct 2013 11:39:58	1258442	16041790	hadcm3n_ocbx_1900_40_008471104_0	233,280	280,038	1.2004
05 Oct 2013 01:35:56	1258442	16041790	hadcm3n_ocbx_1900_40_008471104_0	207,360	249,289	1.2022
04 Oct 2013 16:34:28	1258442	16041790	hadcm3n_ocbx_1900_40_008471104_0	181,440	217,584	1.1992
04 Oct 2013 06:50:18	1258442	16041790	hadcm3n_ocbx_1900_40_008471104_0	155,520	186,620	1.2000
03 Oct 2013 17:57:51	1258442	16041790	hadcm3n_ocbx_1900_40_008471104_0	129,600	155,671	1.2012
03 Oct 2013 07:15:29	1258442	16041790	hadcm3n_ocbx_1900_40_008471104_0	103,680	124,484	1.2007
02 Oct 2013 18:59:21	1258442	16041790	hadcm3n_ocbx_1900_40_008471104_0	77,760	93,474	1.2021
02 Oct 2013 08:49:30	1258442	16041790	hadcm3n_ocbx_1900_40_008471104_0	51,840	62,620	1.2079
01 Oct 2013 19:52:56	1258442	16041790	hadcm3n_ocbx_1900_40_008471104_0	25,920	31,968	1.2333