Task 15893636

Name	hadcm3n_zgb5_1960_40_008319818_2
Workunit	8470953
Created	18 Jul 2013, 10:52:33 UTC
Sent	18 Jul 2013, 11:31:24 UTC
Report deadline	17 Oct 2013, 18:58:35 UTC
Received	11 Sep 2013, 1:52:53 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1203586
Run time	28 days 18 hours 58 min 29 sec
CPU time	26 days 14 hours 34 min 57 sec
Validate state	Invalid
Credit	9,331.20
Device peak FLOPS	2.30 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>7.0.64</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 22:01:07 (3960): No heartbeat from core client for 30 sec - exiting 22:01:11 (3960): No heartbeat from core client for 30 sec - exiting 22:01:12 (3960): No heartbeat from core client for 30 sec - exiting 22:01:13 (3960): No heartbeat from core client for 30 sec - exiting 22:01:14 (3960): No heartbeat from core client for 30 sec - exiting 22:01:15 (3960): No heartbeat from core client for 30 sec - exiting 22:01:16 (3960): No heartbeat from core client for 30 sec - exiting 22:01:17 (3960): No heartbeat from core client for 30 sec - exiting 22:01:18 (3960): No heartbeat from core client for 30 sec - exiting 22:01:19 (3960): No heartbeat from core client for 30 sec - exiting 22:01:20 (3960): No heartbeat from core client for 30 sec - exiting 22:01:21 (3960): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2120, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5068, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5068, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5068, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5068, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3316, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... 14:04:36 (1796): No heartbeat from core client for 30 sec - exiting 14:04:41 (1796): No heartbeat from core client for 30 sec - exiting 14:05:17 (1796): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 14:06:46 (1796): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 14:07:49 (5664): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3856, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3856, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3856, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3856, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3856, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3856, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
08 Sep 2013 13:53:30	1203586	15893636	hadcm3n_zgb5_1960_40_008319818_2	777,600	2,243,523	2.8852
07 Sep 2013 18:01:51	1203586	15893636	hadcm3n_zgb5_1960_40_008319818_2	751,680	2,176,953	2.8961
06 Sep 2013 22:16:33	1203586	15893636	hadcm3n_zgb5_1960_40_008319818_2	725,760	2,111,165	2.9089
05 Sep 2013 01:01:18	1203586	15893636	hadcm3n_zgb5_1960_40_008319818_2	699,840	2,046,968	2.9249
04 Sep 2013 03:59:36	1203586	15893636	hadcm3n_zgb5_1960_40_008319818_2	673,920	1,976,379	2.9327
02 Sep 2013 15:01:52	1203586	15893636	hadcm3n_zgb5_1960_40_008319818_2	648,000	1,856,026	2.8642
01 Sep 2013 02:22:05	1203586	15893636	hadcm3n_zgb5_1960_40_008319818_2	622,080	1,735,229	2.7894
30 Aug 2013 13:42:47	1203586	15893636	hadcm3n_zgb5_1960_40_008319818_2	596,160	1,614,079	2.7075
27 Aug 2013 20:14:14	1203586	15893636	hadcm3n_zgb5_1960_40_008319818_2	570,240	1,493,701	2.6194
26 Aug 2013 04:53:14	1203586	15893636	hadcm3n_zgb5_1960_40_008319818_2	544,320	1,373,381	2.5231
24 Aug 2013 12:49:10	1203586	15893636	hadcm3n_zgb5_1960_40_008319818_2	518,400	1,254,425	2.4198
23 Aug 2013 14:47:46	1203586	15893636	hadcm3n_zgb5_1960_40_008319818_2	492,480	1,182,059	2.4002
22 Aug 2013 08:24:27	1203586	15893636	hadcm3n_zgb5_1960_40_008319818_2	466,560	1,118,310	2.3969
21 Aug 2013 13:37:54	1203586	15893636	hadcm3n_zgb5_1960_40_008319818_2	440,640	1,052,108	2.3877
20 Aug 2013 17:10:42	1203586	15893636	hadcm3n_zgb5_1960_40_008319818_2	414,720	985,926	2.3773
19 Aug 2013 20:27:15	1203586	15893636	hadcm3n_zgb5_1960_40_008319818_2	388,800	917,347	2.3594
18 Aug 2013 23:52:43	1203586	15893636	hadcm3n_zgb5_1960_40_008319818_2	362,880	849,702	2.3416
18 Aug 2013 03:38:31	1203586	15893636	hadcm3n_zgb5_1960_40_008319818_2	336,960	788,099	2.3389
17 Aug 2013 16:31:13	1203586	15893636	hadcm3n_zgb5_1960_40_008319818_2	311,040	731,850	2.3529
17 Aug 2013 16:31:13	1203586	15893636	hadcm3n_zgb5_1960_40_008319818_2	285,120	669,661	2.3487