Task 12752551

Name	hadcm3n_o74n_1900_40_007204570_2
Workunit	7402850
Created	28 Mar 2011, 19:16:23 UTC
Sent	28 Mar 2011, 19:21:29 UTC
Report deadline	28 Jun 2011, 2:48:40 UTC
Received	26 Apr 2011, 11:43:53 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	-226 (0xFFFFFF1E) ERR_TOO_MANY_EXITS
Computer ID	1087531
Run time	21 days 15 hours 5 min 56 sec
CPU time	20 days 7 hours 53 min 33 sec
Validate state	Invalid
Credit	6,531.84
Device peak FLOPS	2.45 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.10.58</core_client_version> <![CDATA[ <message> too many exit(0)s </message> <stderr_txt> Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 01:22:14 (1800): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 14:37:07 (5208): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 14:37:08 (5208): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 01:39:45 (5048): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Called boinc_finish Suspended CPDN Monitor - Suspend request from BOINC... 21:16:41 (4940): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5944, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5012, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5012, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2036, iMonCtr=1 Model crash detected, will try to restart... 20:22:38 (1916): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2772, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2772, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2772, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4268, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4268, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4268, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4268, iMonCtr=1 Model crash detected, will try to restart... 10:51:22 (4440): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 10:52:35 (6044): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 13:45:32 (4832): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 13:45:33 (4832): No heartbeat from core client for 30 sec - exiting 13:45:34 (4832): No heartbeat from core client for 30 sec - exiting 13:45:35 (4832): No heartbeat from core client for 30 sec - exiting 13:45:36 (4832): No heartbeat from core client for 30 sec - exiting 13:45:37 (4832): No heartbeat from core client for 30 sec - exiting 13:45:38 (4832): No heartbeat from core client for 30 sec - exiting 13:45:39 (4832): No heartbeat from core client for 30 sec - exiting 13:45:40 (4832): No heartbeat from core client for 30 sec - exiting 13:45:41 (4832): No heartbeat from core client for 30 sec - exiting 13:45:42 (4832): No heartbeat from core client for 30 sec - exiting 13:45:43 (4832): No heartbeat from core client for 30 sec - exiting 13:45:44 (4832): No heartbeat from core client for 30 sec - exiting 13:45:45 (4832): No heartbeat from core client for 30 sec - exiting 13:45:46 (4832): No heartbeat from core client for 30 sec - exiting 13:45:47 (4832): No heartbeat from core client for 30 sec - exiting 13:45:48 (4832): No heartbeat from core client for 30 sec - exiting 13:45:49 (4832): No heartbeat from core client for 30 sec - exiting 13:45:50 (4832): No heartbeat from core client for 30 sec - exiting 13:45:51 (4832): No heartbeat from core client for 30 sec - exiting 13:45:52 (4832): No heartbeat from core client for 30 sec - exiting 13:45:53 (4832): No heartbeat from core client for 30 sec - exiting 13:45:54 (4832): No heartbeat from core client for 30 sec - exiting 13:45:55 (4832): No heartbeat from core client for 30 sec - exiting 13:45:56 (4832): No heartbeat from core client for 30 sec - exiting 13:45:57 (4832): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - Suspend request from BOINC... </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
26 Apr 2011 11:46:24	1087531	12752551	hadcm3n_o74n_1900_40_007204570_2	544,320	1,722,274	3.1641
26 Apr 2011 11:46:24	1087531	12752551	hadcm3n_o74n_1900_40_007204570_2	518,400	1,687,816	3.2558
12 Apr 2011 09:04:47	1087531	12752551	hadcm3n_o74n_1900_40_007204570_2	492,480	811,931	1.6487
12 Apr 2011 09:04:22	1087531	12752551	hadcm3n_o74n_1900_40_007204570_2	466,560	767,671	1.6454
12 Apr 2011 09:03:58	1087531	12752551	hadcm3n_o74n_1900_40_007204570_2	440,640	723,913	1.6429
12 Apr 2011 09:03:51	1087531	12752551	hadcm3n_o74n_1900_40_007204570_2	414,720	678,346	1.6357
12 Apr 2011 09:02:47	1087531	12752551	hadcm3n_o74n_1900_40_007204570_2	388,800	635,154	1.6336
12 Apr 2011 09:02:04	1087531	12752551	hadcm3n_o74n_1900_40_007204570_2	362,880	592,240	1.6321
12 Apr 2011 09:02:01	1087531	12752551	hadcm3n_o74n_1900_40_007204570_2	336,960	549,507	1.6308
12 Apr 2011 08:58:48	1087531	12752551	hadcm3n_o74n_1900_40_007204570_2	311,040	507,316	1.6310
12 Apr 2011 08:58:29	1087531	12752551	hadcm3n_o74n_1900_40_007204570_2	285,120	465,170	1.6315
04 Apr 2011 15:46:11	1087531	12752551	hadcm3n_o74n_1900_40_007204570_2	259,200	421,679	1.6268
04 Apr 2011 13:02:07	1087531	12752551	hadcm3n_o74n_1900_40_007204570_2	233,280	379,461	1.6266
04 Apr 2011 13:02:07	1087531	12752551	hadcm3n_o74n_1900_40_007204570_2	207,360	337,145	1.6259
04 Apr 2011 13:02:07	1087531	12752551	hadcm3n_o74n_1900_40_007204570_2	181,440	295,343	1.6278
04 Apr 2011 13:02:07	1087531	12752551	hadcm3n_o74n_1900_40_007204570_2	155,520	253,641	1.6309
04 Apr 2011 13:02:07	1087531	12752551	hadcm3n_o74n_1900_40_007204570_2	129,600	211,839	1.6346
04 Apr 2011 13:02:07	1087531	12752551	hadcm3n_o74n_1900_40_007204570_2	103,680	169,848	1.6382
04 Apr 2011 13:02:07	1087531	12752551	hadcm3n_o74n_1900_40_007204570_2	77,760	127,888	1.6447
04 Apr 2011 13:02:07	1087531	12752551	hadcm3n_o74n_1900_40_007204570_2	51,840	84,908	1.6379