Task 15889460

Name	hadcm3n_n37t_1880_40_008372737_2
Workunit	8523596
Created	9 Jul 2013, 15:40:22 UTC
Sent	9 Jul 2013, 23:34:31 UTC
Report deadline	9 Oct 2013, 7:01:42 UTC
Received	23 Jul 2013, 4:06:55 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1240132
Run time	5 days 15 hours 43 min 31 sec
CPU time	5 days 3 hours 16 min 58 sec
Validate state	Invalid
Credit	5,909.76
Device peak FLOPS	3.21 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>7.0.64</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 16:39:31 (6528): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4564, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4564, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4564, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4564, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4564, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish CPDN Monitor - Quit request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6464, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
23 Jul 2013 20:43:59	1240132	15889460	hadcm3n_n37t_1880_40_008372737_2	492,480	437,709	0.8888
23 Jul 2013 20:31:01	1240132	15889460	hadcm3n_n37t_1880_40_008372737_2	466,560	413,829	0.8870
23 Jul 2013 20:18:57	1240132	15889460	hadcm3n_n37t_1880_40_008372737_2	440,640	389,661	0.8843
23 Jul 2013 20:10:26	1240132	15889460	hadcm3n_n37t_1880_40_008372737_2	414,720	367,628	0.8864
23 Jul 2013 19:59:11	1240132	15889460	hadcm3n_n37t_1880_40_008372737_2	388,800	345,579	0.8888
23 Jul 2013 19:47:58	1240132	15889460	hadcm3n_n37t_1880_40_008372737_2	362,880	323,426	0.8913
23 Jul 2013 19:30:56	1240132	15889460	hadcm3n_n37t_1880_40_008372737_2	336,960	301,039	0.8934
23 Jul 2013 19:05:49	1240132	15889460	hadcm3n_n37t_1880_40_008372737_2	311,040	278,715	0.8961
23 Jul 2013 18:38:28	1240132	15889460	hadcm3n_n37t_1880_40_008372737_2	285,120	255,292	0.8954
23 Jul 2013 16:13:12	1240132	15889460	hadcm3n_n37t_1880_40_008372737_2	259,200	232,237	0.8960
23 Jul 2013 16:13:11	1240132	15889460	hadcm3n_n37t_1880_40_008372737_2	233,280	209,293	0.8972
23 Jul 2013 16:13:11	1240132	15889460	hadcm3n_n37t_1880_40_008372737_2	207,360	186,302	0.8984
23 Jul 2013 16:13:11	1240132	15889460	hadcm3n_n37t_1880_40_008372737_2	181,440	163,488	0.9011
23 Jul 2013 16:13:11	1240132	15889460	hadcm3n_n37t_1880_40_008372737_2	155,520	140,647	0.9044
23 Jul 2013 16:13:11	1240132	15889460	hadcm3n_n37t_1880_40_008372737_2	129,600	118,999	0.9182
23 Jul 2013 16:13:11	1240132	15889460	hadcm3n_n37t_1880_40_008372737_2	103,680	97,326	0.9387
23 Jul 2013 16:13:11	1240132	15889460	hadcm3n_n37t_1880_40_008372737_2	77,760	72,656	0.9344
10 Jul 2013 15:27:16	1240132	15889460	hadcm3n_n37t_1880_40_008372737_2	51,840	47,106	0.9087
10 Jul 2013 07:45:37	1240132	15889460	hadcm3n_n37t_1880_40_008372737_2	25,920	23,021	0.8882