Task 13023911

Name	hadcm3n_t42q_1940_40_007315462_1
Workunit	7512892
Created	28 Jun 2011, 21:34:21 UTC
Sent	28 Jun 2011, 21:45:38 UTC
Report deadline	28 Sep 2011, 5:12:49 UTC
Received	27 Jul 2011, 0:23:31 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1130204
Run time	15 days 23 hours 18 min 15 sec
CPU time	15 days 10 hours 53 min 7 sec
Validate state	Invalid
Credit	9,020.16
Device peak FLOPS	3.19 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.12.26</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=8812, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... No Process Handle Worker:: CPDN process is not running, exiting, bRetVal = 1, checkPID=5252, selfPID=5252, iMonCtr=1 Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... No Process Handle Worker:: CPDN process is not running, exiting, bRetVal = 1, checkPID=6864, selfPID=6864, iMonCtr=1 CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 02:32:54 (7860): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4552, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4552, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4552, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4552, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4552, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4552, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
26 Jul 2011 06:51:00	1130204	13023911	hadcm3n_t42q_1940_40_007315462_1	751,680	1,298,617	1.7276
25 Jul 2011 22:18:42	1130204	13023911	hadcm3n_t42q_1940_40_007315462_1	725,760	1,251,913	1.7250
25 Jul 2011 20:52:22	1130204	13023911	hadcm3n_t42q_1940_40_007315462_1	699,840	1,203,853	1.7202
25 Jul 2011 15:55:17	1130204	13023911	hadcm3n_t42q_1940_40_007315462_1	673,920	1,155,991	1.7153
25 Jul 2011 15:28:30	1130204	13023911	hadcm3n_t42q_1940_40_007315462_1	648,000	1,110,978	1.7145
25 Jul 2011 14:41:57	1130204	13023911	hadcm3n_t42q_1940_40_007315462_1	622,080	1,065,602	1.7130
25 Jul 2011 14:38:27	1130204	13023911	hadcm3n_t42q_1940_40_007315462_1	596,160	1,020,657	1.7121
25 Jul 2011 14:38:27	1130204	13023911	hadcm3n_t42q_1940_40_007315462_1	570,240	976,260	1.7120
25 Jul 2011 14:38:27	1130204	13023911	hadcm3n_t42q_1940_40_007315462_1	544,320	931,230	1.7108
25 Jul 2011 14:38:27	1130204	13023911	hadcm3n_t42q_1940_40_007315462_1	518,400	886,063	1.7092
25 Jul 2011 14:38:27	1130204	13023911	hadcm3n_t42q_1940_40_007315462_1	492,480	841,619	1.7089
25 Jul 2011 14:38:26	1130204	13023911	hadcm3n_t42q_1940_40_007315462_1	466,560	796,552	1.7073
25 Jul 2011 14:38:26	1130204	13023911	hadcm3n_t42q_1940_40_007315462_1	440,640	751,543	1.7056
25 Jul 2011 14:38:26	1130204	13023911	hadcm3n_t42q_1940_40_007315462_1	414,720	704,092	1.6978
10 Jul 2011 20:33:43	1130204	13023911	hadcm3n_t42q_1940_40_007315462_1	388,800	654,805	1.6842
10 Jul 2011 06:05:49	1130204	13023911	hadcm3n_t42q_1940_40_007315462_1	362,880	607,430	1.6739
09 Jul 2011 12:06:28	1130204	13023911	hadcm3n_t42q_1940_40_007315462_1	336,960	559,883	1.6616
08 Jul 2011 22:35:31	1130204	13023911	hadcm3n_t42q_1940_40_007315462_1	311,040	512,531	1.6478
08 Jul 2011 08:58:57	1130204	13023911	hadcm3n_t42q_1940_40_007315462_1	285,120	465,229	1.6317
07 Jul 2011 18:14:49	1130204	13023911	hadcm3n_t42q_1940_40_007315462_1	259,200	418,651	1.6152