Task 13782912

Name	hadcm3n_y9aw_1940_40_007616217_1
Workunit	7794347
Created	15 Dec 2011, 14:44:02 UTC
Sent	15 Dec 2011, 14:48:44 UTC
Report deadline	15 Mar 2012, 22:15:55 UTC
Received	3 Feb 2012, 8:10:37 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1106255
Run time	11 days 9 hours 3 min 57 sec
CPU time	11 days 7 hours 43 min 51 sec
Validate state	Invalid
Credit	9,642.24
Device peak FLOPS	2.99 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.12.34</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 09:10:46 (1552): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4012, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5736, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4116, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3052, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4536, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4600, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4600, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4600, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4600, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4600, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4600, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
02 Feb 2012 17:06:57	1106255	13782912	hadcm3n_y9aw_1940_40_007616217_1	803,520	975,799	1.2144
01 Feb 2012 16:13:19	1106255	13782912	hadcm3n_y9aw_1940_40_007616217_1	777,600	943,164	1.2129
31 Jan 2012 16:31:37	1106255	13782912	hadcm3n_y9aw_1940_40_007616217_1	751,680	910,873	1.2118
30 Jan 2012 16:08:34	1106255	13782912	hadcm3n_y9aw_1940_40_007616217_1	725,760	877,571	1.2092
27 Jan 2012 16:07:45	1106255	13782912	hadcm3n_y9aw_1940_40_007616217_1	699,840	844,169	1.2062
26 Jan 2012 15:19:54	1106255	13782912	hadcm3n_y9aw_1940_40_007616217_1	673,920	812,235	1.2052
25 Jan 2012 15:58:32	1106255	13782912	hadcm3n_y9aw_1940_40_007616217_1	648,000	780,312	1.2042
24 Jan 2012 15:30:35	1106255	13782912	hadcm3n_y9aw_1940_40_007616217_1	622,080	747,364	1.2014
23 Jan 2012 15:01:53	1106255	13782912	hadcm3n_y9aw_1940_40_007616217_1	596,160	713,932	1.1976
20 Jan 2012 14:46:14	1106255	13782912	hadcm3n_y9aw_1940_40_007616217_1	570,240	680,355	1.1931
19 Jan 2012 14:03:02	1106255	13782912	hadcm3n_y9aw_1940_40_007616217_1	544,320	647,041	1.1887
18 Jan 2012 13:55:19	1106255	13782912	hadcm3n_y9aw_1940_40_007616217_1	518,400	614,504	1.1854
17 Jan 2012 13:24:16	1106255	13782912	hadcm3n_y9aw_1940_40_007616217_1	492,480	581,771	1.1813
16 Jan 2012 13:16:14	1106255	13782912	hadcm3n_y9aw_1940_40_007616217_1	466,560	549,130	1.1770
13 Jan 2012 13:33:44	1106255	13782912	hadcm3n_y9aw_1940_40_007616217_1	440,640	518,146	1.1759
12 Jan 2012 14:14:53	1106255	13782912	hadcm3n_y9aw_1940_40_007616217_1	414,720	486,612	1.1734
11 Jan 2012 10:19:18	1106255	13782912	hadcm3n_y9aw_1940_40_007616217_1	388,800	455,059	1.1704
11 Jan 2012 00:16:56	1106255	13782912	hadcm3n_y9aw_1940_40_007616217_1	362,880	422,267	1.1637
10 Jan 2012 15:04:52	1106255	13782912	hadcm3n_y9aw_1940_40_007616217_1	336,960	389,663	1.1564
05 Jan 2012 12:40:29	1106255	13782912	hadcm3n_y9aw_1940_40_007616217_1	311,040	358,577	1.1528