Task 15728383

Name	hadcm3n_zeqg_1960_40_008333296_2
Workunit	8484157
Created	17 Apr 2013, 17:10:24 UTC
Sent	17 Apr 2013, 17:10:52 UTC
Report deadline	18 Jul 2013, 0:38:03 UTC
Received	20 May 2013, 3:09:58 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1230346
Run time	15 days 20 hours 29 min 30 sec
CPU time	11 days 4 hours 14 min 22 sec
Validate state	Invalid
Credit	8,087.04
Device peak FLOPS	3.10 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>7.0.64</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> CPDN Monitor - Quit request from BOINC... 17:31:52 (5768): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 17:31:53 (5768): No heartbeat from core client for 30 sec - exiting 17:31:54 (5768): No heartbeat from core client for 30 sec - exiting 17:31:55 (5768): No heartbeat from core client for 30 sec - exiting 17:31:56 (5768): No heartbeat from core client for 30 sec - exiting 17:31:57 (5768): No heartbeat from core client for 30 sec - exiting 17:31:58 (5768): No heartbeat from core client for 30 sec - exiting 17:31:59 (5768): No heartbeat from core client for 30 sec - exiting 17:32:00 (5768): No heartbeat from core client for 30 sec - exiting 17:32:01 (5768): No heartbeat from core client for 30 sec - exiting 17:39:45 (10028): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 17:39:46 (10028): No heartbeat from core client for 30 sec - exiting 17:39:47 (10028): No heartbeat from core client for 30 sec - exiting 17:39:48 (10028): No heartbeat from core client for 30 sec - exiting 17:39:49 (10028): No heartbeat from core client for 30 sec - exiting 17:39:50 (10028): No heartbeat from core client for 30 sec - exiting 17:39:51 (10028): No heartbeat from core client for 30 sec - exiting 17:39:52 (10028): No heartbeat from core client for 30 sec - exiting 17:39:53 (10028): No heartbeat from core client for 30 sec - exiting 17:39:54 (10028): No heartbeat from core client for 30 sec - exiting 17:39:55 (10028): No heartbeat from core client for 30 sec - exiting 06:56:56 (9348): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 07:21:20 (7536): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 07:21:21 (7536): No heartbeat from core client for 30 sec - exiting 07:21:22 (7536): No heartbeat from core client for 30 sec - exiting 07:21:23 (7536): No heartbeat from core client for 30 sec - exiting 07:21:24 (7536): No heartbeat from core client for 30 sec - exiting 07:21:25 (7536): No heartbeat from core client for 30 sec - exiting 07:21:26 (7536): No heartbeat from core client for 30 sec - exiting 07:21:27 (7536): No heartbeat from core client for 30 sec - exiting 07:21:28 (7536): No heartbeat from core client for 30 sec - exiting 07:21:29 (7536): No heartbeat from core client for 30 sec - exiting 07:21:30 (7536): No heartbeat from core client for 30 sec - exiting 17:17:06 (9784): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 17:17:08 (9784): No heartbeat from core client for 30 sec - exiting 17:17:09 (9784): No heartbeat from core client for 30 sec - exiting 17:17:10 (9784): No heartbeat from core client for 30 sec - exiting 17:17:11 (9784): No heartbeat from core client for 30 sec - exiting 17:17:12 (9784): No heartbeat from core client for 30 sec - exiting 17:17:13 (9784): No heartbeat from core client for 30 sec - exiting 17:17:14 (9784): No heartbeat from core client for 30 sec - exiting 17:17:15 (9784): No heartbeat from core client for 30 sec - exiting 17:17:16 (9784): No heartbeat from core client for 30 sec - exiting 17:17:17 (9784): No heartbeat from core client for 30 sec - exiting 16:47:50 (14076): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 16:59:59 (12200): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 17:00:11 (12200): No heartbeat from core client for 30 sec - exiting 17:00:13 (12200): No heartbeat from core client for 30 sec - exiting 17:00:19 (12200): No heartbeat from core client for 30 sec - exiting 17:00:20 (12200): No heartbeat from core client for 30 sec - exiting 17:07:31 (8372): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 14:02:54 (7528): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 14:03:35 (10092): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Atmos Hold Restart file rename failed on atmos_restart.hold 14:11:38 (9484): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4564, iMonCtr=1 Model crash detected, will try to restart... 17:11:15 (8940): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 17:37:35 (10692): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CController:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=8976, iMonCtr=1 Model crash detected, will try to restart... 17:21:00 (8944): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 17:21:01 (8944): No heartbeat from core client for 30 sec - exiting 17:21:02 (8944): No heartbeat from core client for 30 sec - exiting 17:21:03 (8944): No heartbeat from core client for 30 sec - exiting 17:21:04 (8944): No heartbeat from core client for 30 sec - exiting 17:21:05 (8944): No heartbeat from core client for 30 sec - exiting 17:21:06 (8944): No heartbeat from core client for 30 sec - exiting 17:21:07 (8944): No heartbeat from core client for 30 sec - exiting 17:21:08 (8944): No heartbeat from core client for 30 sec - exiting 17:21:09 (8944): No heartbeat from core client for 30 sec - exiting 17:21:10 (8944): No heartbeat from core client for 30 sec - exiting CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=1468, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7996, iMonCtr=1 Model crash detected, will try to restart... 16:54:07 (7108): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 16:54:09 (7108): No heartbeat from core client for 30 sec - exiting 17:01:08 (8860): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 17:01:09 (8860): No heartbeat from core client for 30 sec - exiting 17:01:10 (8860): No heartbeat from core client for 30 sec - exiting 17:10:32 (6260): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 17:10:33 (6260): No heartbeat from core client for 30 sec - exiting 17:10:34 (6260): No heartbeat from core client for 30 sec - exiting 17:10:35 (6260): No heartbeat from core client for 30 sec - exiting 17:10:36 (6260): No heartbeat from core client for 30 sec - exiting 17:10:37 (6260): No heartbeat from core client for 30 sec - exiting 17:10:38 (6260): No heartbeat from core client for 30 sec - exiting 17:10:39 (6260): No heartbeat from core client for 30 sec - exiting 17:10:40 (6260): No heartbeat from core client for 30 sec - exiting 17:10:41 (6260): No heartbeat from core client for 30 sec - exiting 06:43:05 (3828): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Atmos Hold Restart file rename failed on atmos_restart.hold CPDN Monitor - Quit request from BOINC... 14:05:42 (8844): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7612, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7612, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7612, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7612, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7612, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7612, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
20 May 2013 03:13:56	1230346	15728383	hadcm3n_zeqg_1960_40_008333296_2	673,920	926,918	1.3754
20 May 2013 03:13:56	1230346	15728383	hadcm3n_zeqg_1960_40_008333296_2	648,000	890,925	1.3749
17 May 2013 11:36:26	1230346	15728383	hadcm3n_zeqg_1960_40_008333296_2	622,080	855,339	1.3750
16 May 2013 04:20:38	1230346	15728383	hadcm3n_zeqg_1960_40_008333296_2	596,160	821,665	1.3783
15 May 2013 14:22:29	1230346	15728383	hadcm3n_zeqg_1960_40_008333296_2	570,240	783,586	1.3741
14 May 2013 20:29:43	1230346	15728383	hadcm3n_zeqg_1960_40_008333296_2	544,320	747,747	1.3737
14 May 2013 11:39:46	1230346	15728383	hadcm3n_zeqg_1960_40_008333296_2	518,400	710,982	1.3715
13 May 2013 14:17:06	1230346	15728383	hadcm3n_zeqg_1960_40_008333296_2	492,480	674,780	1.3702
13 May 2013 12:31:19	1230346	15728383	hadcm3n_zeqg_1960_40_008333296_2	466,560	640,649	1.3731
13 May 2013 12:31:19	1230346	15728383	hadcm3n_zeqg_1960_40_008333296_2	440,640	605,635	1.3744
13 May 2013 12:31:19	1230346	15728383	hadcm3n_zeqg_1960_40_008333296_2	414,720	570,055	1.3746
13 May 2013 12:31:19	1230346	15728383	hadcm3n_zeqg_1960_40_008333296_2	388,800	534,347	1.3743
10 May 2013 20:44:48	1230346	15728383	hadcm3n_zeqg_1960_40_008333296_2	362,880	502,307	1.3842
10 May 2013 06:30:38	1230346	15728383	hadcm3n_zeqg_1960_40_008333296_2	336,960	469,404	1.3931
09 May 2013 14:35:25	1230346	15728383	hadcm3n_zeqg_1960_40_008333296_2	311,040	435,392	1.3998
09 May 2013 00:43:47	1230346	15728383	hadcm3n_zeqg_1960_40_008333296_2	285,120	399,685	1.4018
08 May 2013 11:34:54	1230346	15728383	hadcm3n_zeqg_1960_40_008333296_2	259,200	362,533	1.3987
07 May 2013 22:36:00	1230346	15728383	hadcm3n_zeqg_1960_40_008333296_2	233,280	326,021	1.3976
07 May 2013 07:21:16	1230346	15728383	hadcm3n_zeqg_1960_40_008333296_2	207,360	287,736	1.3876
06 May 2013 17:50:48	1230346	15728383	hadcm3n_zeqg_1960_40_008333296_2	181,440	250,896	1.3828