Task 17115466

Name	hadam3p_pnw_ugfl_1992_1_009036811_0
Workunit	9167147
Created	2 Oct 2014, 11:27:51 UTC
Sent	2 Oct 2014, 20:00:50 UTC
Report deadline	15 Sep 2015, 1:20:50 UTC
Received	8 Oct 2014, 15:55:34 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	0 (0x00000000)
Computer ID	1224202
Run time	1 days 7 hours 7 min 44 sec
CPU time	1 days 7 hours 7 min 44 sec
Validate state	Invalid
Credit	1,758.71
Device peak FLOPS	3.44 GFLOPS
Application version	UK Met Office HadAM3P-HadRM3P Pacific North West v7.22 windows_intelx86
Stderr	<core_client_version>6.2.19</core_client_version> <![CDATA[ <stderr_txt> Suspended CPDN Monitor - Suspend request from BOINC... 07:18:27 (10684): No heartbeat from client for 30 sec - exiting 07:18:27 (10684): timer handler: client dead, exiting CPDN Monitor - No 'heartbeat' from BOINC... Global Worker:: CPDN process is not running, exiting, bRetVal = 0, checkPID=0, selfPID=11992, iMonCtr=1 07:19:32 (12260): No heartbeat from client for 30 sec - exiting 07:19:32 (12260): timer handler: client dead, exiting 07:19:33 (12260): No heartbeat from client for 30 sec - exiting 07:19:33 (12260): timer handler: client dead, exiting 07:19:34 (12260): No heartbeat from client for 30 sec - exiting 07:19:34 (12260): timer handler: client dead, exiting Regional Worker:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=0, iMonCtr=2 CPDN Monitor - No 'heartbeat' from BOINC... 07:20:33 (5296): No heartbeat from client for 30 sec - exiting 07:20:33 (5296): timer handler: client dead, exiting CPDN Monitor - No 'heartbeat' from BOINC... 07:21:34 (904): No heartbeat from client for 30 sec - exiting 07:21:34 (904): timer handler: client dead, exiting CPDN Monitor - No 'heartbeat' from BOINC... 07:23:10 (4408): No heartbeat from client for 30 sec - exiting 07:23:10 (4408): timer handler: client dead, exiting CPDN Monitor - No 'heartbeat' from BOINC... 07:24:46 (3360): No heartbeat from client for 30 sec - exiting 07:24:46 (3360): timer handler: client dead, exiting CPDN Monitor - No 'heartbeat' from BOINC... 07:25:47 (6136): No heartbeat from client for 30 sec - exiting 07:25:47 (6136): timer handler: client dead, exiting CPDN Monitor - No 'heartbeat' from BOINC... 07:27:24 (11268): No heartbeat from client for 30 sec - exiting 07:27:24 (11268): timer handler: client dead, exiting CPDN Monitor - No 'heartbeat' from BOINC... 07:29:47 (7304): No heartbeat from client for 30 sec - exiting 07:29:47 (7304): timer handler: client dead, exiting CPDN Monitor - No 'heartbeat' from BOINC... 07:31:24 (3060): No heartbeat from client for 30 sec - exiting 07:31:24 (3060): timer handler: client dead, exiting CPDN Monitor - No 'heartbeat' from BOINC... 07:33:00 (2888): No heartbeat from client for 30 sec - exiting 07:33:00 (2888): timer handler: client dead, exiting CPDN Monitor - No 'heartbeat' from BOINC... 07:34:01 (8088): No heartbeat from client for 30 sec - exiting 07:34:01 (8088): timer handler: client dead, exiting CPDN Monitor - No 'heartbeat' from BOINC... 07:35:37 (12240): No heartbeat from client for 30 sec - exiting 07:35:37 (12240): timer handler: client dead, exiting CPDN Monitor - No 'heartbeat' from BOINC... 07:37:13 (8288): No heartbeat from client for 30 sec - exiting 07:37:13 (8288): timer handler: client dead, exiting CPDN Monitor - No 'heartbeat' from BOINC... 07:38:14 (880): No heartbeat from client for 30 sec - exiting 07:38:14 (880): timer handler: client dead, exiting CPDN Monitor - No 'heartbeat' from BOINC... Global Worker:: CPDN process is not running, exiting, bRetVal = 0, checkPID=0, selfPID=5880, iMonCtr=1 Regional Worker:: CPDN process is not running, exiting, bRetVal = 1, checkPID=9100, selfPID=9100, iMonCtr=2 Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=9100, selfPID=5340, iMonCtr=1 Model crash detected, will try to restart... Leaving CPDN_Main::Monitor... 07:38:42 (5340): called boinc_finish </stderr_txt> <message> <file_xfer_error> <file_name>hadam3p_pnw_ugfl_1992_1_009036811_0_8.zip</file_name> <error_code>-161</error_code> </file_xfer_error> <file_xfer_error> <file_name>hadam3p_pnw_ugfl_1992_1_009036811_0_9.zip</file_name> <error_code>-161</error_code> </file_xfer_error> <file_xfer_error> <file_name>hadam3p_pnw_ugfl_1992_1_009036811_0_10.zip</file_name> <error_code>-161</error_code> </file_xfer_error> <file_xfer_error> <file_name>hadam3p_pnw_ugfl_1992_1_009036811_0_11.zip</file_name> <error_code>-161</error_code> </file_xfer_error> <file_xfer_error> <file_name>hadam3p_pnw_ugfl_1992_1_009036811_0_12.zip</file_name> <error_code>-161</error_code> </file_xfer_error> </message> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
08 Oct 2014 15:59:15	1224202	17115466	hadam3p_pnw_ugfl_1992_1_009036811_0	80,939	110,948	1.3708
08 Oct 2014 15:59:15	1224202	17115466	hadam3p_pnw_ugfl_1992_1_009036811_0	69,419	95,358	1.3737
08 Oct 2014 05:50:33	1224202	17115466	hadam3p_pnw_ugfl_1992_1_009036811_0	57,899	79,405	1.3714
08 Oct 2014 00:50:01	1224202	17115466	hadam3p_pnw_ugfl_1992_1_009036811_0	46,379	63,264	1.3641
07 Oct 2014 20:47:21	1224202	17115466	hadam3p_pnw_ugfl_1992_1_009036811_0	34,859	47,268	1.3560
07 Oct 2014 15:14:13	1224202	17115466	hadam3p_pnw_ugfl_1992_1_009036811_0	23,339	31,359	1.3436
07 Oct 2014 10:53:49	1224202	17115466	hadam3p_pnw_ugfl_1992_1_009036811_0	11,819	15,944	1.3490