Extending Grid Engine job runtimes with an execd softstop (2012-06-16)

List users@gridengine.org
Subject [gridengine users] qalter not successful
Poster Schmidt U. uschmidt at mpi-halle.mpg.de via gridengine.org
Date: 11 January 2012 19:42

for i in {1..10} ; do
  echo -n $i " "
  date
  sleep 60
done

s_rt                  00:02:15

     +-sge_execd-+-sge_shepherd---sh---sleep
     |           +-4*[{sge_execd}]

qsub_time    Sun Jun 17 11:43:05 2012
start_time   Sun Jun 17 11:43:05 2012
end_time     Sun Jun 17 11:45:21 2012

1  Sun Jun 17 11:48:20 NZST 2012
2  Sun Jun 17 11:49:20 NZST 2012
3  Sun Jun 17 11:50:20 NZST 2012

     +-sge_execd-+-sge_shepherd---sh---sleep
     |           +-4*[{sge_execd}]

# service sgeexecd.vuwscifachpc01 softstop

sgeadmin  1971     1  0 11:48 ?        00:00:00 sge_shepherd-6 -bg
buckleke  1972  1971  0 11:48 ?        00:00:00 -sh /var/opt/gridengine/default/spool/scifachpc-c01n03/job_scripts/6

   +-sge_shepherd---sh---sleep

1  Sun Jun 17 11:48:20 NZST 2012
2  Sun Jun 17 11:49:20 NZST 2012
3  Sun Jun 17 11:50:20 NZST 2012
4  Sun Jun 17 11:51:20 NZST 2012
5  Sun Jun 17 11:52:20 NZST 2012

06/17/2012 11:52:33|  main|scifachpc-c01n03|I|starting up GE 6.2u5 (lx24-amd64)
06/17/2012 11:52:33|  main|scifachpc-c01n03|W|job 6.1 exceeded soft wallclock time - initiate soft notify method

qsub_time    Sun Jun 17 11:48:08 2012
start_time   Sun Jun 17 11:48:20 2012
end_time     Sun Jun 17 11:52:33 2012

execd_spool_dir              /var/opt/gridengine/default/spool
gid_range                    20000-20100

execd_spool_dir              /var/opt/gridengine/default/spool2
gid_range                    20101-20200

scifachpc-c01n04# /etc/init.d/sgeexecd.vuwscifachpc01 softstop

scifachpc10# qconf -sconf scifachpc-c01n04

scifachpc-c01n04# /etc/init.d/sgeexecd.vuwscifachpc01 start

# qstat -f -u \*
queuename                      qtype resv/used/tot. load_avg arch        states
-------------------------------------------------------------------------------
all.q@scifachpc-c01n03.local   BIP   0/0/1          0.00     lx24-amd64
-------------------------------------------------------------------------------
all.q@scifachpc-c01n04.local   BIP   0/1/1          0.00     lx24-amd64
      7 0.55500 qsub2.sh   buckleke     r     06/17/2012 12:00:05     1

     +-sge_execd---4*[{sge_execd}]
     +-sge_shepherd---sh---sleep

# qstat -f -u \*
queuename                      qtype resv/used/tot. load_avg arch        states
-------------------------------------------------------------------------------
all.q@scifachpc-c01n03.local   BIP   0/0/1          0.00     lx24-amd64
-------------------------------------------------------------------------------
all.q@scifachpc-c01n04.local   BIP   0/1/2          0.00     lx24-amd64
      7 0.55500 qsub2.sh   buckleke     r     06/17/2012 12:00:05     1

job-ID  prior   name       user         state submit/start at     queue                          slots ja-task-ID
-----------------------------------------------------------------------------------------------------------------
      7 0.55500 qsub2.sh   buckleke     r     06/17/2012 12:00:05 all.q@scifachpc-c01n04.local       1
      8 0.55500 qsub3.sh   buckleke     r     06/17/2012 12:07:05 all.q@scifachpc-c01n04.local       1

     +-sge_execd-+-sge_shepherd---sh---sleep
     |           +-4*[{sge_execd}]
     +-sge_shepherd---sh---sleep

# qstat -f -u \*
queuename                      qtype resv/used/tot. load_avg arch        states
-------------------------------------------------------------------------------
all.q@scifachpc-c01n03.local   BIP   0/0/1          0.00     lx24-amd64
-------------------------------------------------------------------------------
all.q@scifachpc-c01n04.local   BIP   0/2/2          0.01     lx24-amd64
      7 0.55500 qsub2.sh   buckleke     r     06/17/2012 12:00:05     1
      8 0.55500 qsub3.sh   buckleke     r     06/17/2012 12:07:05     1

# qstat -f -u \*
queuename                      qtype resv/used/tot. load_avg arch        states
-------------------------------------------------------------------------------
all.q@scifachpc-c01n03.local   BIP   0/0/1          0.00     lx24-amd64
-------------------------------------------------------------------------------
all.q@scifachpc-c01n04.local   BIP   0/1/2          0.00     lx24-amd64
      7 0.55500 qsub2.sh   buckleke     r     06/17/2012 12:00:05     1

# qacct -j 7
error: job id 7 not found

$ qstat
job-ID  prior   name       user         state submit/start at     queue                          slots ja-task-ID
-----------------------------------------------------------------------------------------------------------------
      7 0.55500 qsub2.sh   buckleke     r     06/17/2012 12:00:05 all.q@scifachpc-c01n04.local       1

     +-sge_execd---4*[{sge_execd}]

qsub_time    Sun Jun 17 11:59:53 2012
start_time   Sun Jun 17 12:00:05 2012
end_time     Sun Jun 17 12:10:05 2012

06/17/2012 12:00:22|  main|scifachpc-c01n04|I|controlled shutdown 6.2u5
06/17/2012 12:23:32|  main|scifachpc-c01n04|W|local configuration scifachpc-c01n04.local not defined - using global configuration
06/17/2012 12:23:32|  main|scifachpc-c01n04|I|starting up GE 6.2u5 (lx24-amd64)
06/17/2012 12:23:32|  main|scifachpc-c01n04|W|job 7.1 exceeded soft wallclock time - initiate soft notify method

06/17/2012 12:02:09|  main|scifachpc-c01n04|I|starting up GE 6.2u5 (lx24-amd64)
06/17/2012 12:09:20|  main|scifachpc-c01n04|W|job 8.1 exceeded soft wallclock time - initiate soft notify method
06/17/2012 12:21:52|  main|scifachpc-c01n04|I|controlled shutdown 6.2u5

Extending Grid Engine job runtimes with an execd softstop (2012-06-16)

Notes

Extending Grid Engine job runtimes.