Task 15524095

Name	hadcm3n_zd4q_1880_40_008253989_2
Workunit	8409113
Created	6 Jan 2013, 5:30:48 UTC
Sent	6 Jan 2013, 5:31:10 UTC
Report deadline	7 Apr 2013, 12:58:21 UTC
Received	10 Mar 2013, 2:36:43 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1100208
Run time	21 days 14 hours 12 min 43 sec
CPU time	14 days 5 hours 49 min 40 sec
Validate state	Invalid
Credit	7,153.92
Device peak FLOPS	2.74 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>7.0.28</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 17:49:52 (4916): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - No 'heartbeat' from BOINC... 22:13:44 (328060): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 23:10:54 (347868): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 23:10:55 (347868): No heartbeat from core client for 30 sec - exiting 23:10:56 (347868): No heartbeat from core client for 30 sec - exiting 23:10:57 (347868): No heartbeat from core client for 30 sec - exiting 23:10:58 (347868): No heartbeat from core client for 30 sec - exiting 23:11:00 (347868): No heartbeat from core client for 30 sec - exiting 23:11:01 (347868): No heartbeat from core client for 30 sec - exiting 23:11:02 (347868): No heartbeat from core client for 30 sec - exiting 23:11:03 (347868): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... BUFFIN: C I/O Error feof - Unit 63 - Return code = 16 BUFFIN: C I/O Error feof - Unit 64 - Return code = 16 BUFFIN: C I/O Error feof - Unit 65 - Return code = 16 BUFFIN: C I/O Error feof - Unit 66 - Return code = 16 BUFFIN: C I/O Error feof - Unit 67 - Return code = 16 BUFFIN: C I/O Error feof - Unit 68 - Return code = 16 BUFFIN: C I/O Error feof - Unit 69 - Return code = 16 Error converting file to netcdf: dataout/zd4qko.pj97c10 Error converting file to netcdf: dataout/zd4qko.pi97c10 Error converting file to netcdf: dataout/zd4qko.pf97c10 Error converting file to netcdf: dataout/zd4qka.ph97c10 Error converting file to netcdf: dataout/zd4qka.pg97c10 Error converting file to netcdf: dataout/zd4qka.pe97c10 Error converting file to netcdf: dataout/zd4qka.pd97c10 Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2816, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2816, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2816, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2816, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2816, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2816, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
09 Mar 2013 19:35:54	1100208	15524095	hadcm3n_zd4q_1880_40_008253989_2	596,160	1,208,383	2.0269
07 Mar 2013 01:42:49	1100208	15524095	hadcm3n_zd4q_1880_40_008253989_2	570,240	1,155,629	2.0266
02 Mar 2013 04:11:12	1100208	15524095	hadcm3n_zd4q_1880_40_008253989_2	544,320	1,100,498	2.0218
28 Feb 2013 16:55:47	1100208	15524095	hadcm3n_zd4q_1880_40_008253989_2	518,400	1,040,318	2.0068
31 Jan 2013 18:46:44	1100208	15524095	hadcm3n_zd4q_1880_40_008253989_2	492,480	986,053	2.0022
30 Jan 2013 22:03:36	1100208	15524095	hadcm3n_zd4q_1880_40_008253989_2	466,560	934,120	2.0021
27 Jan 2013 11:46:36	1100208	15524095	hadcm3n_zd4q_1880_40_008253989_2	440,640	883,320	2.0046
25 Jan 2013 00:43:43	1100208	15524095	hadcm3n_zd4q_1880_40_008253989_2	414,720	833,274	2.0092
23 Jan 2013 16:05:41	1100208	15524095	hadcm3n_zd4q_1880_40_008253989_2	388,800	777,717	2.0003
22 Jan 2013 10:25:48	1100208	15524095	hadcm3n_zd4q_1880_40_008253989_2	362,880	721,659	1.9887
21 Jan 2013 09:11:18	1100208	15524095	hadcm3n_zd4q_1880_40_008253989_2	336,960	665,347	1.9746
20 Jan 2013 08:44:38	1100208	15524095	hadcm3n_zd4q_1880_40_008253989_2	311,040	609,257	1.9588
19 Jan 2013 07:04:47	1100208	15524095	hadcm3n_zd4q_1880_40_008253989_2	285,120	553,720	1.9421
18 Jan 2013 10:05:35	1100208	15524095	hadcm3n_zd4q_1880_40_008253989_2	259,200	504,418	1.9461
17 Jan 2013 13:00:41	1100208	15524095	hadcm3n_zd4q_1880_40_008253989_2	233,280	455,506	1.9526
16 Jan 2013 13:00:16	1100208	15524095	hadcm3n_zd4q_1880_40_008253989_2	207,360	406,733	1.9615
15 Jan 2013 17:56:37	1100208	15524095	hadcm3n_zd4q_1880_40_008253989_2	181,440	357,645	1.9711
14 Jan 2013 22:56:08	1100208	15524095	hadcm3n_zd4q_1880_40_008253989_2	155,520	309,513	1.9902
13 Jan 2013 23:00:05	1100208	15524095	hadcm3n_zd4q_1880_40_008253989_2	129,600	258,447	1.9942
12 Jan 2013 09:14:19	1100208	15524095	hadcm3n_zd4q_1880_40_008253989_2	103,680	206,904	1.9956