Task 15864174

Name	hadcm3n_3gu2_1980_40_008395542_1
Workunit	8546401
Created	25 Jun 2013, 21:41:16 UTC
Sent	25 Jun 2013, 22:07:58 UTC
Report deadline	25 Sep 2013, 5:35:09 UTC
Received	11 Jul 2013, 2:44:59 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1222836
Run time	10 days 10 hours 2 min 13 sec
CPU time	10 days 1 hours 0 min 56 sec
Validate state	Invalid
Credit	7,776.00
Device peak FLOPS	3.03 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>7.0.64</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=1776, iMonCtr=1 Model crash detected, will try to restart... 00:59:37 (4976): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 12:30:46 (3720): No heartbeat from core client for 30 sec - exiting 12:30:47 (3720): No heartbeat from core client for 30 sec - exiting 12:30:48 (3720): No heartbeat from core client for 30 sec - exiting 12:30:49 (3720): No heartbeat from core client for 30 sec - exiting 12:30:50 (3720): No heartbeat from core client for 30 sec - exiting 12:30:51 (3720): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 12:30:52 (3720): No heartbeat from core client for 30 sec - exiting 22:57:32 (3656): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 14:30:22 (4324): No heartbeat from core client for 30 sec - exiting 14:30:23 (4324): No heartbeat from core client for 30 sec - exiting 14:30:24 (4324): No heartbeat from core client for 30 sec - exiting 14:30:25 (4324): No heartbeat from core client for 30 sec - exiting 14:30:26 (4324): No heartbeat from core client for 30 sec - exiting 14:30:27 (4324): No heartbeat from core client for 30 sec - exiting 14:30:28 (4324): No heartbeat from core client for 30 sec - exiting 14:30:29 (4324): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 14:30:30 (4324): No heartbeat from core client for 30 sec - exiting CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 03:46:28 (2976): No heartbeat from core client for 30 sec - exiting 03:46:29 (2976): No heartbeat from core client for 30 sec - exiting 03:46:30 (2976): No heartbeat from core client for 30 sec - exiting 03:46:31 (2976): No heartbeat from core client for 30 sec - exiting 03:46:32 (2976): No heartbeat from core client for 30 sec - exiting 03:46:33 (2976): No heartbeat from core client for 30 sec - exiting 03:46:34 (2976): No heartbeat from core client for 30 sec - exiting 03:46:35 (2976): No heartbeat from core client for 30 sec - exiting 03:46:36 (2976): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4168, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4168, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4168, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4168, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4168, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4168, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
10 Jul 2013 13:52:00	1222836	15864174	hadcm3n_3gu2_1980_40_008395542_1	648,000	841,136	1.2980
09 Jul 2013 16:38:17	1222836	15864174	hadcm3n_3gu2_1980_40_008395542_1	622,080	808,112	1.2990
09 Jul 2013 07:16:15	1222836	15864174	hadcm3n_3gu2_1980_40_008395542_1	596,160	774,983	1.3000
08 Jul 2013 21:50:57	1222836	15864174	hadcm3n_3gu2_1980_40_008395542_1	570,240	741,675	1.3006
08 Jul 2013 12:33:20	1222836	15864174	hadcm3n_3gu2_1980_40_008395542_1	544,320	708,305	1.3013
08 Jul 2013 03:11:08	1222836	15864174	hadcm3n_3gu2_1980_40_008395542_1	518,400	674,997	1.3021
07 Jul 2013 17:55:15	1222836	15864174	hadcm3n_3gu2_1980_40_008395542_1	492,480	641,648	1.3029
07 Jul 2013 08:30:57	1222836	15864174	hadcm3n_3gu2_1980_40_008395542_1	466,560	608,323	1.3038
06 Jul 2013 22:10:38	1222836	15864174	hadcm3n_3gu2_1980_40_008395542_1	440,640	575,009	1.3049
06 Jul 2013 12:43:41	1222836	15864174	hadcm3n_3gu2_1980_40_008395542_1	414,720	541,644	1.3060
06 Jul 2013 05:41:50	1222836	15864174	hadcm3n_3gu2_1980_40_008395542_1	388,800	508,288	1.3073
06 Jul 2013 05:20:37	1222836	15864174	hadcm3n_3gu2_1980_40_008395542_1	362,880	474,898	1.3087
06 Jul 2013 04:49:46	1222836	15864174	hadcm3n_3gu2_1980_40_008395542_1	336,960	441,514	1.3103
06 Jul 2013 04:18:19	1222836	15864174	hadcm3n_3gu2_1980_40_008395542_1	311,040	408,054	1.3119
04 Jul 2013 14:28:00	1222836	15864174	hadcm3n_3gu2_1980_40_008395542_1	285,120	374,150	1.3123
03 Jul 2013 12:17:01	1222836	15864174	hadcm3n_3gu2_1980_40_008395542_1	259,200	340,600	1.3140
03 Jul 2013 06:54:50	1222836	15864174	hadcm3n_3gu2_1980_40_008395542_1	233,280	307,201	1.3169
02 Jul 2013 15:05:44	1222836	15864174	hadcm3n_3gu2_1980_40_008395542_1	207,360	273,270	1.3179
02 Jul 2013 11:58:39	1222836	15864174	hadcm3n_3gu2_1980_40_008395542_1	181,440	239,261	1.3187
02 Jul 2013 11:58:39	1222836	15864174	hadcm3n_3gu2_1980_40_008395542_1	155,520	204,756	1.3166