Task 16080947

Name	hadcm3n_o1gf_1980_40_008384072_2
Workunit	8534931
Created	15 Nov 2013, 5:37:44 UTC
Sent	15 Nov 2013, 5:37:51 UTC
Report deadline	14 Feb 2014, 13:05:02 UTC
Received	23 Jan 2014, 5:29:03 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	25 (0x00000019) Unknown error code
Computer ID	1297903
Run time	17 days 6 hours 9 min 4 sec
CPU time	16 days 6 hours 38 min
Validate state	Invalid
Credit	10,264.32
Device peak FLOPS	2.56 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>7.2.33</core_client_version> <![CDATA[ <message> Не удается найти заданную область или дорожку на диске. (0x19) - exit code 25 (0x19) </message> <stderr_txt> BUFFIN: C I/O Error feof - Unit 63 - Return code = 16 BUFFIN: C I/O Error feof - Unit 64 - Return code = 16 BUFFIN: C I/O Error feof - Unit 65 - Return code = 16 BUFFIN: C I/O Error feof - Unit 66 - Return code = 16 BUFFIN: C I/O Error feof - Unit 67 - Return code = 16 BUFFIN: C I/O Error feof - Unit 68 - Return code = 16 BUFFIN: C I/O Error feof - Unit 69 - Return code = 16 Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2956, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3160, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3904, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3708, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3120, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3500, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3340, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3428, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3428, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3444, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 12:40:51 (5024): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 12:40:52 (5024): No heartbeat from core client for 30 sec - exiting 12:40:53 (5024): No heartbeat from core client for 30 sec - exiting 12:40:54 (5024): No heartbeat from core client for 30 sec - exiting 12:40:55 (5024): No heartbeat from core client for 30 sec - exiting 12:40:56 (5024): No heartbeat from core client for 30 sec - exiting 12:40:57 (5024): No heartbeat from core client for 30 sec - exiting 12:40:58 (5024): No heartbeat from core client for 30 sec - exiting 12:40:59 (5024): No heartbeat from core client for 30 sec - exiting 12:41:00 (5024): No heartbeat from core client for 30 sec - exiting 12:41:01 (5024): No heartbeat from core client for 30 sec - exiting Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2448, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3228, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3200, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3232, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=152, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2740, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
22 Jan 2014 07:53:16	1297903	16080947	hadcm3n_o1gf_1980_40_008384072_2	855,360	1,394,866	1.6307
21 Jan 2014 07:09:36	1297903	16080947	hadcm3n_o1gf_1980_40_008384072_2	829,440	1,351,312	1.6292
20 Jan 2014 07:30:01	1297903	16080947	hadcm3n_o1gf_1980_40_008384072_2	803,520	1,320,751	1.6437
17 Jan 2014 07:11:50	1297903	16080947	hadcm3n_o1gf_1980_40_008384072_2	777,600	1,286,302	1.6542
16 Jan 2014 05:12:42	1297903	16080947	hadcm3n_o1gf_1980_40_008384072_2	751,680	1,248,895	1.6615
14 Jan 2014 13:14:25	1297903	16080947	hadcm3n_o1gf_1980_40_008384072_2	725,760	1,211,457	1.6692
13 Jan 2014 12:50:14	1297903	16080947	hadcm3n_o1gf_1980_40_008384072_2	699,840	1,176,732	1.6814
11 Jan 2014 11:08:14	1297903	16080947	hadcm3n_o1gf_1980_40_008384072_2	673,920	1,136,419	1.6863
09 Jan 2014 11:17:48	1297903	16080947	hadcm3n_o1gf_1980_40_008384072_2	648,000	1,093,097	1.6869
27 Dec 2013 12:42:07	1297903	16080947	hadcm3n_o1gf_1980_40_008384072_2	622,080	1,047,257	1.6835
26 Dec 2013 08:53:50	1297903	16080947	hadcm3n_o1gf_1980_40_008384072_2	596,160	1,000,965	1.6790
24 Dec 2013 14:35:13	1297903	16080947	hadcm3n_o1gf_1980_40_008384072_2	570,240	953,014	1.6713
23 Dec 2013 09:01:15	1297903	16080947	hadcm3n_o1gf_1980_40_008384072_2	544,320	904,719	1.6621
19 Dec 2013 13:24:44	1297903	16080947	hadcm3n_o1gf_1980_40_008384072_2	518,400	856,998	1.6532
18 Dec 2013 10:07:15	1297903	16080947	hadcm3n_o1gf_1980_40_008384072_2	492,480	808,952	1.6426
17 Dec 2013 05:50:27	1297903	16080947	hadcm3n_o1gf_1980_40_008384072_2	466,560	764,343	1.6383
14 Dec 2013 07:30:20	1297903	16080947	hadcm3n_o1gf_1980_40_008384072_2	440,640	723,466	1.6419
13 Dec 2013 07:43:06	1297903	16080947	hadcm3n_o1gf_1980_40_008384072_2	414,720	688,648	1.6605
12 Dec 2013 06:29:50	1297903	16080947	hadcm3n_o1gf_1980_40_008384072_2	388,800	654,745	1.6840
10 Dec 2013 12:52:21	1297903	16080947	hadcm3n_o1gf_1980_40_008384072_2	362,880	617,279	1.7011