Task 12817909

Name	hadcm3n_p136_1900_40_007218994_1
Workunit	7417234
Created	26 Apr 2011, 15:16:25 UTC
Sent	4 May 2011, 11:07:22 UTC
Report deadline	3 Aug 2011, 18:34:33 UTC
Received	17 May 2011, 0:53:45 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1009626
Run time	8 days 19 hours 15 min 3 sec
CPU time	8 days 5 hours 19 min 58 sec
Validate state	Invalid
Credit	4,043.52
Device peak FLOPS	2.33 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.10.18</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 11:19:44 (5852): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - No 'heartbeat' from BOINC... 11:19:45 (5852): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 21:53:15 (3160): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 21:53:16 (3160): No heartbeat from core client for 30 sec - exiting 21:54:31 (3792): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 03:09:36 (3532): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - No 'heartbeat' from BOINC... 03:09:37 (3532): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 14:28:42 (3192): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 14:28:43 (3192): No heartbeat from core client for 30 sec - exiting 14:28:44 (3192): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 10:21:32 (4252): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 10:21:33 (4252): No heartbeat from core client for 30 sec - exiting 10:21:34 (4252): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 14:56:17 (1728): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 14:56:18 (1728): No heartbeat from core client for 30 sec - exiting 14:56:19 (1728): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 11:04:24 (528): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4944, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4944, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4944, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4944, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4944, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5276, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
14 May 2011 17:21:55	1009626	12817909	hadcm3n_p136_1900_40_007218994_1	336,960	683,509	2.0285
13 May 2011 21:30:47	1009626	12817909	hadcm3n_p136_1900_40_007218994_1	311,040	631,783	2.0312
13 May 2011 02:59:15	1009626	12817909	hadcm3n_p136_1900_40_007218994_1	285,120	578,637	2.0295
12 May 2011 06:40:58	1009626	12817909	hadcm3n_p136_1900_40_007218994_1	259,200	526,446	2.0310
11 May 2011 11:06:45	1009626	12817909	hadcm3n_p136_1900_40_007218994_1	233,280	476,796	2.0439
10 May 2011 19:04:23	1009626	12817909	hadcm3n_p136_1900_40_007218994_1	207,360	425,444	2.0517
09 May 2011 10:58:04	1009626	12817909	hadcm3n_p136_1900_40_007218994_1	181,440	372,440	2.0527
08 May 2011 19:15:20	1009626	12817909	hadcm3n_p136_1900_40_007218994_1	155,520	318,883	2.0504
07 May 2011 22:16:19	1009626	12817909	hadcm3n_p136_1900_40_007218994_1	129,600	265,965	2.0522
07 May 2011 06:10:52	1009626	12817909	hadcm3n_p136_1900_40_007218994_1	103,680	212,630	2.0508
06 May 2011 14:15:23	1009626	12817909	hadcm3n_p136_1900_40_007218994_1	77,760	159,799	2.0550
05 May 2011 22:13:48	1009626	12817909	hadcm3n_p136_1900_40_007218994_1	51,840	106,583	2.0560
05 May 2011 05:39:11	1009626	12817909	hadcm3n_p136_1900_40_007218994_1	25,920	51,149	1.9733