Task 15699711

Name	hadcm3n_zk02_1880_40_008279805_3
Workunit	8430940
Created	2 Apr 2013, 11:47:32 UTC
Sent	2 Apr 2013, 11:47:59 UTC
Report deadline	2 Jul 2013, 19:15:10 UTC
Received	17 Apr 2013, 11:13:05 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	25 (0x00000019) Unknown error code
Computer ID	1172989
Run time	5 days 12 hours 4 min 59 sec
CPU time	5 days 11 hours 8 min 53 sec
Validate state	Invalid
Credit	4,976.64
Device peak FLOPS	1.14 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>7.0.28</core_client_version> <![CDATA[ <message> The drive cannot locate a specific area or track on the disk. (0x19) - exit code 25 (0x19) </message> <stderr_txt> Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6872, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7144, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6676, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6936, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7480, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6868, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6640, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6344, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5612, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5324, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6124, iMonCtr=1 Model crash detected, will try to restart... 00:13:58 (6316): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6804, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 10:19:00 (5712): No heartbeat from core client for 30 sec - exiting 10:19:01 (5712): No heartbeat from core client for 30 sec - exiting 10:19:02 (5712): No heartbeat from core client for 30 sec - exiting 10:19:03 (5712): No heartbeat from core client for 30 sec - exiting 10:19:04 (5712): No heartbeat from core client for 30 sec - exiting 10:19:05 (5712): No heartbeat from core client for 30 sec - exiting 10:19:06 (5712): No heartbeat from core client for 30 sec - exiting 10:19:07 (5712): No heartbeat from core client for 30 sec - exiting 10:19:08 (5712): No heartbeat from core client for 30 sec - exiting 10:19:09 (5712): No heartbeat from core client for 30 sec - exiting 10:19:10 (5712): No heartbeat from core client for 30 sec - exiting 10:19:11 (5712): No heartbeat from core client for 30 sec - exiting 10:19:12 (5712): No heartbeat from core client for 30 sec - exiting 10:19:13 (5712): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
16 Apr 2013 07:54:26	1172989	15699711	hadcm3n_zk02_1880_40_008279805_3	414,720	444,002	1.0706
15 Apr 2013 05:14:15	1172989	15699711	hadcm3n_zk02_1880_40_008279805_3	388,800	404,506	1.0404
14 Apr 2013 10:02:02	1172989	15699711	hadcm3n_zk02_1880_40_008279805_3	362,880	366,788	1.0108
14 Apr 2013 03:24:40	1172989	15699711	hadcm3n_zk02_1880_40_008279805_3	336,960	339,492	1.0075
13 Apr 2013 09:43:50	1172989	15699711	hadcm3n_zk02_1880_40_008279805_3	311,040	304,636	0.9794
13 Apr 2013 09:43:49	1172989	15699711	hadcm3n_zk02_1880_40_008279805_3	285,120	280,575	0.9841
11 Apr 2013 09:04:07	1172989	15699711	hadcm3n_zk02_1880_40_008279805_3	259,200	253,944	0.9797
09 Apr 2013 13:35:05	1172989	15699711	hadcm3n_zk02_1880_40_008279805_3	233,280	229,482	0.9837
08 Apr 2013 10:47:51	1172989	15699711	hadcm3n_zk02_1880_40_008279805_3	207,360	204,464	0.9860
07 Apr 2013 12:44:11	1172989	15699711	hadcm3n_zk02_1880_40_008279805_3	181,440	179,799	0.9910
07 Apr 2013 05:26:48	1172989	15699711	hadcm3n_zk02_1880_40_008279805_3	155,520	155,298	0.9986
06 Apr 2013 08:33:34	1172989	15699711	hadcm3n_zk02_1880_40_008279805_3	129,600	129,248	0.9973
04 Apr 2013 11:46:48	1172989	15699711	hadcm3n_zk02_1880_40_008279805_3	103,680	98,835	0.9533
04 Apr 2013 05:04:14	1172989	15699711	hadcm3n_zk02_1880_40_008279805_3	77,760	74,811	0.9621
03 Apr 2013 23:01:42	1172989	15699711	hadcm3n_zk02_1880_40_008279805_3	51,840	50,449	0.9732
03 Apr 2013 03:38:27	1172989	15699711	hadcm3n_zk02_1880_40_008279805_3	25,920	26,081	1.0062