Task 15334576

Name	hadcm3n_zat4_1880_40_008200910_2
Workunit	8356034
Created	5 Oct 2012, 11:37:14 UTC
Sent	5 Oct 2012, 11:37:26 UTC
Report deadline	4 Jan 2013, 19:04:37 UTC
Received	31 Dec 2012, 17:00:23 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1180367
Run time	6 days 12 hours 44 min 22 sec
CPU time	6 days 11 hours 39 min 37 sec
Validate state	Invalid
Credit	7,464.96
Device peak FLOPS	2.86 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>7.0.28</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 18:23:18 (7088): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 08:51:36 (6640): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 10:09:11 (7868): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 10:09:13 (7868): No heartbeat from core client for 30 sec - exiting 10:09:14 (7868): No heartbeat from core client for 30 sec - exiting 10:09:15 (7868): No heartbeat from core client for 30 sec - exiting 10:09:16 (7868): No heartbeat from core client for 30 sec - exiting 10:09:17 (7868): No heartbeat from core client for 30 sec - exiting 10:09:18 (7868): No heartbeat from core client for 30 sec - exiting 10:09:19 (7868): No heartbeat from core client for 30 sec - exiting 10:09:20 (7868): No heartbeat from core client for 30 sec - exiting 10:09:21 (7868): No heartbeat from core client for 30 sec - exiting 10:09:22 (7868): No heartbeat from core client for 30 sec - exiting 02:56:31 (5776): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 02:56:33 (5776): No heartbeat from core client for 30 sec - exiting 02:56:34 (5776): No heartbeat from core client for 30 sec - exiting 02:56:35 (5776): No heartbeat from core client for 30 sec - exiting 02:56:36 (5776): No heartbeat from core client for 30 sec - exiting 02:56:37 (5776): No heartbeat from core client for 30 sec - exiting 02:56:38 (5776): No heartbeat from core client for 30 sec - exiting 02:56:39 (5776): No heartbeat from core client for 30 sec - exiting 02:56:40 (5776): No heartbeat from core client for 30 sec - exiting 02:56:41 (5776): No heartbeat from core client for 30 sec - exiting 02:56:42 (5776): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6820, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6820, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6820, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6820, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6820, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6820, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
16 Nov 2012 22:23:45	1180367	15334576	hadcm3n_zat4_1880_40_008200910_2	622,080	555,734	0.8933
16 Nov 2012 22:23:45	1180367	15334576	hadcm3n_zat4_1880_40_008200910_2	596,160	535,100	0.8976
16 Nov 2012 22:23:45	1180367	15334576	hadcm3n_zat4_1880_40_008200910_2	570,240	514,492	0.9022
16 Nov 2012 22:23:45	1180367	15334576	hadcm3n_zat4_1880_40_008200910_2	544,320	493,858	0.9073
16 Nov 2012 22:23:45	1180367	15334576	hadcm3n_zat4_1880_40_008200910_2	518,400	473,006	0.9124
16 Nov 2012 22:23:45	1180367	15334576	hadcm3n_zat4_1880_40_008200910_2	492,480	452,329	0.9185
16 Nov 2012 22:23:45	1180367	15334576	hadcm3n_zat4_1880_40_008200910_2	466,560	431,871	0.9256
16 Nov 2012 22:23:45	1180367	15334576	hadcm3n_zat4_1880_40_008200910_2	440,640	411,418	0.9337
16 Nov 2012 22:23:45	1180367	15334576	hadcm3n_zat4_1880_40_008200910_2	414,720	390,981	0.9428
16 Nov 2012 22:23:45	1180367	15334576	hadcm3n_zat4_1880_40_008200910_2	388,800	370,417	0.9527
16 Nov 2012 22:23:45	1180367	15334576	hadcm3n_zat4_1880_40_008200910_2	362,880	349,680	0.9636
16 Nov 2012 22:23:45	1180367	15334576	hadcm3n_zat4_1880_40_008200910_2	336,960	329,117	0.9767
16 Nov 2012 22:23:45	1180367	15334576	hadcm3n_zat4_1880_40_008200910_2	311,040	305,040	0.9807
27 Oct 2012 18:02:20	1180367	15334576	hadcm3n_zat4_1880_40_008200910_2	285,120	278,580	0.9771
27 Oct 2012 07:13:49	1180367	15334576	hadcm3n_zat4_1880_40_008200910_2	259,200	253,305	0.9773
26 Oct 2012 03:02:29	1180367	15334576	hadcm3n_zat4_1880_40_008200910_2	233,280	228,841	0.9810
25 Oct 2012 14:45:51	1180367	15334576	hadcm3n_zat4_1880_40_008200910_2	207,360	204,594	0.9867
08 Oct 2012 04:40:07	1180367	15334576	hadcm3n_zat4_1880_40_008200910_2	181,440	180,352	0.9940
07 Oct 2012 11:25:29	1180367	15334576	hadcm3n_zat4_1880_40_008200910_2	155,520	155,115	0.9974
07 Oct 2012 04:23:46	1180367	15334576	hadcm3n_zat4_1880_40_008200910_2	129,600	129,924	1.0025