Task 15888140

Name	hadcm3n_zk2a_1960_40_008398835_1
Workunit	8549691
Created	9 Jul 2013, 1:48:40 UTC
Sent	9 Jul 2013, 2:07:21 UTC
Report deadline	8 Oct 2013, 9:34:32 UTC
Received	28 Aug 2013, 2:30:52 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	-226 (0xFFFFFF1E) ERR_TOO_MANY_EXITS
Computer ID	1266669
Run time	11 days 20 hours 34 min 24 sec
CPU time	11 days 6 hours 29 min 19 sec
Validate state	Invalid
Credit	6,531.84
Device peak FLOPS	2.51 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>7.0.28</core_client_version> <![CDATA[ <message> too many exit(0)s </message> <stderr_txt> Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=1232, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 19:02:22 (3704): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=324, iMonCtr=1 Model crash detected, will try to restart... 08:50:53 (2192): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3060, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2600, iMonCtr=1 Model crash detected, will try to restart... 17:17:34 (3688): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 17:51:05 (2140): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 17:07:49 (2816): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 18:43:46 (3312): No heartbeat from core client for 30 sec - exiting 18:43:47 (3312): No heartbeat from core client for 30 sec - exiting 18:43:48 (3312): No heartbeat from core client for 30 sec - exiting 18:43:49 (3312): No heartbeat from core client for 30 sec - exiting 18:43:50 (3312): No heartbeat from core client for 30 sec - exiting 18:43:51 (3312): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 17:01:53 (2600): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 17:19:14 (2668): No heartbeat from core client for 30 sec - exiting 17:19:15 (2668): No heartbeat from core client for 30 sec - exiting 17:19:16 (2668): No heartbeat from core client for 30 sec - exiting 17:19:18 (2668): No heartbeat from core client for 30 sec - exiting 17:19:19 (2668): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=736, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2496, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 21:24:54 (2168): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
28 Aug 2013 01:15:53	1266669	15888140	hadcm3n_zk2a_1960_40_008398835_1	544,320	969,756	1.7816
25 Aug 2013 20:30:31	1266669	15888140	hadcm3n_zk2a_1960_40_008398835_1	518,400	923,028	1.7805
25 Aug 2013 07:42:51	1266669	15888140	hadcm3n_zk2a_1960_40_008398835_1	492,480	879,725	1.7863
24 Aug 2013 13:34:19	1266669	15888140	hadcm3n_zk2a_1960_40_008398835_1	466,560	833,765	1.7870
20 Aug 2013 22:37:53	1266669	15888140	hadcm3n_zk2a_1960_40_008398835_1	440,640	787,289	1.7867
17 Aug 2013 22:07:21	1266669	15888140	hadcm3n_zk2a_1960_40_008398835_1	414,720	740,954	1.7866
16 Aug 2013 22:52:43	1266669	15888140	hadcm3n_zk2a_1960_40_008398835_1	388,800	695,487	1.7888
14 Aug 2013 21:56:06	1266669	15888140	hadcm3n_zk2a_1960_40_008398835_1	362,880	649,271	1.7892
14 Aug 2013 21:56:06	1266669	15888140	hadcm3n_zk2a_1960_40_008398835_1	336,960	602,588	1.7883
14 Aug 2013 21:56:06	1266669	15888140	hadcm3n_zk2a_1960_40_008398835_1	311,040	556,587	1.7894
14 Aug 2013 21:56:06	1266669	15888140	hadcm3n_zk2a_1960_40_008398835_1	285,120	509,868	1.7883
14 Aug 2013 21:56:06	1266669	15888140	hadcm3n_zk2a_1960_40_008398835_1	259,200	463,865	1.7896
14 Aug 2013 21:56:06	1266669	15888140	hadcm3n_zk2a_1960_40_008398835_1	233,280	418,217	1.7928
23 Jul 2013 21:59:17	1266669	15888140	hadcm3n_zk2a_1960_40_008398835_1	207,360	372,484	1.7963
23 Jul 2013 21:17:03	1266669	15888140	hadcm3n_zk2a_1960_40_008398835_1	181,440	324,910	1.7907
23 Jul 2013 20:31:37	1266669	15888140	hadcm3n_zk2a_1960_40_008398835_1	155,520	277,869	1.7867
23 Jul 2013 20:11:22	1266669	15888140	hadcm3n_zk2a_1960_40_008398835_1	129,600	230,315	1.7771
23 Jul 2013 19:49:23	1266669	15888140	hadcm3n_zk2a_1960_40_008398835_1	103,680	185,178	1.7861
23 Jul 2013 19:08:04	1266669	15888140	hadcm3n_zk2a_1960_40_008398835_1	77,760	139,117	1.7891
23 Jul 2013 19:03:12	1266669	15888140	hadcm3n_zk2a_1960_40_008398835_1	51,840	92,530	1.7849