Task 15831446

Name	hadcm3n_o77v_1980_40_008388975_1
Workunit	8539834
Created	5 Jun 2013, 19:58:04 UTC
Sent	5 Jun 2013, 20:12:50 UTC
Report deadline	5 Sep 2013, 3:40:01 UTC
Received	14 Aug 2013, 20:09:03 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1228459
Run time	14 days 5 hours 35 min 23 sec
CPU time	13 days 20 hours 21 min 57 sec
Validate state	Invalid
Credit	11,508.48
Device peak FLOPS	3.34 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>7.0.64</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... BUFFIN: C I/O Error feof - Unit 63 - Return code = 16 BUFFIN: C I/O Error feof - Unit 64 - Return code = 16 BUFFIN: C I/O Error feof - Unit 65 - Return code = 16 BUFFIN: C I/O Error feof - Unit 66 - Return code = 16 BUFFIN: C I/O Error feof - Unit 67 - Return code = 16 BUFFIN: C I/O Error feof - Unit 68 - Return code = 16 BUFFIN: C I/O Error feof - Unit 69 - Return code = 16 Error converting file to netcdf: dataout/o77vko.pji6c10 Error converting file to netcdf: dataout/o77vko.pii6c10 Error converting file to netcdf: dataout/o77vko.pfi6c10 Error converting file to netcdf: dataout/o77vka.phi6c10 Error converting file to netcdf: dataout/o77vka.pgi6c10 Error converting file to netcdf: dataout/o77vka.pei6c10 Error converting file to netcdf: dataout/o77vka.pdi6c10 Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=8680, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... 09:27:04 (7552): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... 09:03:32 (6792): No heartbeat from core client for 30 sec - exiting 09:03:33 (6792): No heartbeat from core client for 30 sec - exiting 09:03:34 (6792): No heartbeat from core client for 30 sec - exiting 09:03:35 (6792): No heartbeat from core client for 30 sec - exiting 09:03:36 (6792): No heartbeat from core client for 30 sec - exiting 09:03:37 (6792): No heartbeat from core client for 30 sec - exiting 09:03:38 (6792): No heartbeat from core client for 30 sec - exiting 09:03:39 (6792): No heartbeat from core client for 30 sec - exiting 09:03:40 (6792): No heartbeat from core client for 30 sec - exiting 09:03:41 (6792): No heartbeat from core client for 30 sec - exiting 09:03:42 (6792): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... 08:34:40 (2716): No heartbeat from core client for 30 sec - exiting 08:34:42 (2716): No heartbeat from core client for 30 sec - exiting 08:34:43 (2716): No heartbeat from core client for 30 sec - exiting 08:34:44 (2716): No heartbeat from core client for 30 sec - exiting 08:34:45 (2716): No heartbeat from core client for 30 sec - exiting 08:34:46 (2716): No heartbeat from core client for 30 sec - exiting 08:34:47 (2716): No heartbeat from core client for 30 sec - exiting 08:34:48 (2716): No heartbeat from core client for 30 sec - exiting 08:34:49 (2716): No heartbeat from core client for 30 sec - exiting 08:34:50 (2716): No heartbeat from core client for 30 sec - exiting 08:34:51 (2716): No heartbeat from core client for 30 sec - exiting 08:34:52 (2716): No heartbeat from core client for 30 sec - exiting 08:34:53 (2716): No heartbeat from core client for 30 sec - exiting 08:34:54 (2716): No heartbeat from core client for 30 sec - exiting 08:34:55 (2716): No heartbeat from core client for 30 sec - exiting 08:34:56 (2716): No heartbeat from core client for 30 sec - exiting 08:34:57 (2716): No heartbeat from core client for 30 sec - exiting 08:34:58 (2716): No heartbeat from core client for 30 sec - exiting 08:34:59 (2716): No heartbeat from core client for 30 sec - exiting 08:35:00 (2716): No heartbeat from core client for 30 sec - exiting 08:35:01 (2716): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=8360, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=8188, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7308, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7308, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7308, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7308, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7308, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7308, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
14 Aug 2013 20:09:50	1228459	15831446	hadcm3n_o77v_1980_40_008388975_1	959,040	1,185,289	1.2359
14 Aug 2013 20:09:50	1228459	15831446	hadcm3n_o77v_1980_40_008388975_1	933,120	1,154,733	1.2375
14 Aug 2013 20:09:50	1228459	15831446	hadcm3n_o77v_1980_40_008388975_1	907,200	1,125,059	1.2401
14 Aug 2013 20:09:50	1228459	15831446	hadcm3n_o77v_1980_40_008388975_1	881,280	1,094,605	1.2421
14 Aug 2013 20:09:50	1228459	15831446	hadcm3n_o77v_1980_40_008388975_1	855,360	1,064,217	1.2442
14 Aug 2013 20:09:50	1228459	15831446	hadcm3n_o77v_1980_40_008388975_1	829,440	1,033,512	1.2460
14 Aug 2013 20:09:50	1228459	15831446	hadcm3n_o77v_1980_40_008388975_1	803,520	1,002,304	1.2474
14 Aug 2013 20:09:50	1228459	15831446	hadcm3n_o77v_1980_40_008388975_1	777,600	971,660	1.2496
14 Aug 2013 20:09:50	1228459	15831446	hadcm3n_o77v_1980_40_008388975_1	751,680	941,425	1.2524
14 Aug 2013 20:09:50	1228459	15831446	hadcm3n_o77v_1980_40_008388975_1	725,760	913,024	1.2580
14 Aug 2013 20:09:50	1228459	15831446	hadcm3n_o77v_1980_40_008388975_1	699,840	884,682	1.2641
14 Aug 2013 20:09:50	1228459	15831446	hadcm3n_o77v_1980_40_008388975_1	673,920	854,298	1.2677
25 Jul 2013 17:57:28	1228459	15831446	hadcm3n_o77v_1980_40_008388975_1	648,000	823,337	1.2706
25 Jul 2013 09:55:32	1228459	15831446	hadcm3n_o77v_1980_40_008388975_1	622,080	792,444	1.2739
23 Jul 2013 22:11:00	1228459	15831446	hadcm3n_o77v_1980_40_008388975_1	596,160	761,107	1.2767
23 Jul 2013 21:49:59	1228459	15831446	hadcm3n_o77v_1980_40_008388975_1	570,240	729,594	1.2795
23 Jul 2013 20:20:45	1228459	15831446	hadcm3n_o77v_1980_40_008388975_1	544,320	696,031	1.2787
07 Jul 2013 19:32:44	1228459	15831446	hadcm3n_o77v_1980_40_008388975_1	518,400	663,153	1.2792
06 Jul 2013 18:11:55	1228459	15831446	hadcm3n_o77v_1980_40_008388975_1	492,480	630,180	1.2796
06 Jul 2013 04:12:01	1228459	15831446	hadcm3n_o77v_1980_40_008388975_1	466,560	598,245	1.2822