Task 15700779

Name	hadcm3n_o24b_2140_40_008270161_2
Workunit	8425285
Created	3 Apr 2013, 9:21:36 UTC
Sent	3 Apr 2013, 9:22:04 UTC
Report deadline	3 Jul 2013, 16:49:15 UTC
Received	3 May 2013, 22:32:24 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1276878
Run time	15 days 11 hours 27 min 53 sec
CPU time	13 days 4 hours 24 min 40 sec
Validate state	Invalid
Credit	5,598.72
Device peak FLOPS	2.65 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>7.0.28</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=1228, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4180, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=1160, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5220, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=988, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3628, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3256, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=776, iMonCtr=1 Model crash detected, will try to restart... 19:46:26 (3324): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3296, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3296, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3296, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish 23:23:02 (3296): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5568, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5568, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5568, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
02 May 2013 23:00:30	1276878	15700779	hadcm3n_o24b_2140_40_008270161_2	466,560	1,101,495	2.3609
30 Apr 2013 16:36:11	1276878	15700779	hadcm3n_o24b_2140_40_008270161_2	440,640	1,038,649	2.3571
29 Apr 2013 10:48:21	1276878	15700779	hadcm3n_o24b_2140_40_008270161_2	414,720	976,287	2.3541
27 Apr 2013 14:25:22	1276878	15700779	hadcm3n_o24b_2140_40_008270161_2	388,800	914,287	2.3516
25 Apr 2013 21:43:58	1276878	15700779	hadcm3n_o24b_2140_40_008270161_2	362,880	852,124	2.3482
24 Apr 2013 15:35:40	1276878	15700779	hadcm3n_o24b_2140_40_008270161_2	336,960	790,764	2.3468
22 Apr 2013 21:50:12	1276878	15700779	hadcm3n_o24b_2140_40_008270161_2	311,040	728,246	2.3413
20 Apr 2013 17:42:52	1276878	15700779	hadcm3n_o24b_2140_40_008270161_2	285,120	668,064	2.3431
19 Apr 2013 09:28:56	1276878	15700779	hadcm3n_o24b_2140_40_008270161_2	259,200	607,310	2.3430
17 Apr 2013 15:10:35	1276878	15700779	hadcm3n_o24b_2140_40_008270161_2	233,280	545,606	2.3388
15 Apr 2013 19:12:21	1276878	15700779	hadcm3n_o24b_2140_40_008270161_2	207,360	484,559	2.3368
14 Apr 2013 11:07:21	1276878	15700779	hadcm3n_o24b_2140_40_008270161_2	181,440	424,086	2.3373
12 Apr 2013 16:21:08	1276878	15700779	hadcm3n_o24b_2140_40_008270161_2	155,520	362,853	2.3332
10 Apr 2013 18:39:59	1276878	15700779	hadcm3n_o24b_2140_40_008270161_2	129,600	302,486	2.3340
09 Apr 2013 13:21:42	1276878	15700779	hadcm3n_o24b_2140_40_008270161_2	103,680	242,977	2.3435
07 Apr 2013 19:40:35	1276878	15700779	hadcm3n_o24b_2140_40_008270161_2	77,760	181,832	2.3384
06 Apr 2013 12:04:50	1276878	15700779	hadcm3n_o24b_2140_40_008270161_2	51,840	121,542	2.3446
04 Apr 2013 16:26:07	1276878	15700779	hadcm3n_o24b_2140_40_008270161_2	25,920	61,183	2.3605