Task 15786901

Name	hadcm3n_4af5_1980_40_008369471_0
Workunit	8520330
Created	16 May 2013, 16:04:23 UTC
Sent	16 May 2013, 16:10:08 UTC
Report deadline	15 Aug 2013, 23:37:19 UTC
Received	3 Jun 2013, 13:26:42 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1210909
Run time	11 days 3 hours 41 min 55 sec
CPU time	10 days 8 hours 52 min 24 sec
Validate state	Invalid
Credit	7,153.92
Device peak FLOPS	2.75 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.10.60</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> 07:33:26 (1768): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 07:33:27 (1768): No heartbeat from core client for 30 sec - exiting 07:33:28 (1768): No heartbeat from core client for 30 sec - exiting 07:33:29 (1768): No heartbeat from core client for 30 sec - exiting 07:33:30 (1768): No heartbeat from core client for 30 sec - exiting 07:33:31 (1768): No heartbeat from core client for 30 sec - exiting 07:33:33 (1768): No heartbeat from core client for 30 sec - exiting 07:33:34 (1768): No heartbeat from core client for 30 sec - exiting 07:33:35 (1768): No heartbeat from core client for 30 sec - exiting 07:33:36 (1768): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... 07:17:43 (3696): No heartbeat from core client for 30 sec - exiting 07:17:44 (3696): No heartbeat from core client for 30 sec - exiting 07:17:45 (3696): No heartbeat from core client for 30 sec - exiting 07:17:47 (3696): No heartbeat from core client for 30 sec - exiting 07:17:48 (3696): No heartbeat from core client for 30 sec - exiting 07:17:49 (3696): No heartbeat from core client for 30 sec - exiting 07:17:50 (3696): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... 07:31:12 (3432): No heartbeat from core client for 30 sec - exiting 07:31:14 (3432): No heartbeat from core client for 30 sec - exiting 07:31:15 (3432): No heartbeat from core client for 30 sec - exiting 07:31:16 (3432): No heartbeat from core client for 30 sec - exiting 07:31:17 (3432): No heartbeat from core client for 30 sec - exiting 07:31:18 (3432): No heartbeat from core client for 30 sec - exiting 07:31:19 (3432): No heartbeat from core client for 30 sec - exiting 07:31:20 (3432): No heartbeat from core client for 30 sec - exiting 07:31:21 (3432): No heartbeat from core client for 30 sec - exiting 07:31:22 (3432): No heartbeat from core client for 30 sec - exiting 07:31:23 (3432): No heartbeat from core client for 30 sec - exiting 07:31:24 (3432): No heartbeat from core client for 30 sec - exiting 07:31:26 (3432): No heartbeat from core client for 30 sec - exiting 07:31:27 (3432): No heartbeat from core client for 30 sec - exiting 07:31:28 (3432): No heartbeat from core client for 30 sec - exiting 07:31:29 (3432): No heartbeat from core client for 30 sec - exiting 07:31:30 (3432): No heartbeat from core client for 30 sec - exiting 07:31:31 (3432): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3592, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3592, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3592, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3592, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3592, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3592, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
03 Jun 2013 13:27:41	1210909	15786901	hadcm3n_4af5_1980_40_008369471_0	596,160	873,102	1.4645
03 Jun 2013 13:27:41	1210909	15786901	hadcm3n_4af5_1980_40_008369471_0	570,240	835,453	1.4651
03 Jun 2013 13:27:41	1210909	15786901	hadcm3n_4af5_1980_40_008369471_0	544,320	797,805	1.4657
03 Jun 2013 13:27:41	1210909	15786901	hadcm3n_4af5_1980_40_008369471_0	518,400	759,509	1.4651
03 Jun 2013 13:27:41	1210909	15786901	hadcm3n_4af5_1980_40_008369471_0	492,480	720,466	1.4629
28 May 2013 15:11:05	1210909	15786901	hadcm3n_4af5_1980_40_008369471_0	466,560	685,877	1.4701
27 May 2013 17:12:21	1210909	15786901	hadcm3n_4af5_1980_40_008369471_0	440,640	647,384	1.4692
26 May 2013 21:29:23	1210909	15786901	hadcm3n_4af5_1980_40_008369471_0	414,720	608,905	1.4682
25 May 2013 20:46:14	1210909	15786901	hadcm3n_4af5_1980_40_008369471_0	388,800	570,702	1.4679
25 May 2013 08:47:08	1210909	15786901	hadcm3n_4af5_1980_40_008369471_0	362,880	532,387	1.4671
24 May 2013 20:52:05	1210909	15786901	hadcm3n_4af5_1980_40_008369471_0	336,960	494,022	1.4661
24 May 2013 09:43:12	1210909	15786901	hadcm3n_4af5_1980_40_008369471_0	311,040	455,789	1.4654
23 May 2013 21:33:29	1210909	15786901	hadcm3n_4af5_1980_40_008369471_0	285,120	417,509	1.4643
23 May 2013 09:28:20	1210909	15786901	hadcm3n_4af5_1980_40_008369471_0	259,200	379,175	1.4629
22 May 2013 21:23:15	1210909	15786901	hadcm3n_4af5_1980_40_008369471_0	233,280	340,835	1.4611
22 May 2013 09:18:33	1210909	15786901	hadcm3n_4af5_1980_40_008369471_0	207,360	302,757	1.4601
21 May 2013 21:18:14	1210909	15786901	hadcm3n_4af5_1980_40_008369471_0	181,440	264,571	1.4582
21 May 2013 09:33:19	1210909	15786901	hadcm3n_4af5_1980_40_008369471_0	155,520	226,335	1.4553
20 May 2013 21:53:35	1210909	15786901	hadcm3n_4af5_1980_40_008369471_0	129,600	188,233	1.4524
20 May 2013 10:21:27	1210909	15786901	hadcm3n_4af5_1980_40_008369471_0	103,680	150,177	1.4485