<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 TRANSITIONAL//EN">
<HTML>
<HEAD>
  <META HTTP-EQUIV="Content-Type" CONTENT="text/html; CHARSET=UTF-8">
  <META NAME="GENERATOR" CONTENT="GtkHTML/3.30.2">
</HEAD>
<BODY>
Dnia 2010-08-23, pon o godzinie 15:05 +0200, Sebastian Harl pisze:
<BLOCKQUOTE TYPE=CITE>
<PRE>
On Mon, Aug 23, 2010 at 02:50:33PM +0200, XANi wrote:
&gt; Dnia 2010-08-23, pon o godzinie 13:42 +0200, Sebastian Harl pisze:
&gt; &gt; On Mon, Aug 23, 2010 at 01:34:08PM +0200, XANi wrote:
&gt; &gt; &gt; Dnia 2010-08-23, pon o godzinie 13:11 +0200, Sebastian Harl pisze:
&gt; &gt; &gt; &gt; On Mon, Aug 23, 2010 at 04:02:57AM +0200, XANi wrote:
&gt; &gt; &gt; &gt; &gt; So after running something like:  
&gt; &gt; &gt; &gt; &gt; while sleep 30 ; do /etc/init.d/collectd restart; done
&gt; &gt; &gt; &gt; &gt; after some time (sometimes few minutes sometimes an hour or more) i get
&gt; &gt; &gt; &gt; &gt; tons of collectd processes lying around (ive added output of ps aux as
&gt; &gt; &gt; &gt; &gt; attachment) and sometimes after restart.
&gt; &gt; &gt; &gt; [&#8230;]
&gt; &gt; &gt; &gt; &gt; It seems to trigger when both exec and unixsock plugins are on, if i
&gt; &gt; &gt; &gt; &gt; turn off one of them it works fine. Ah and im using 64 bit debian
&gt; &gt; &gt; &gt; &gt; testing.
&gt; &gt; &gt; &gt; 
&gt; &gt; &gt; &gt; Uhm, strange. Could you please check (e.g. using &quot;strace -p &lt;pid&gt;&quot;) what
&gt; &gt; &gt; &gt; those collectd processes are doing? What's the parent of those processes
&gt; &gt; &gt; &gt; (PPID in &quot;ps ax -l&quot; or use something like &quot;ps axjf&quot;)? Are you able to
&gt; &gt; &gt; &gt; kill those processes using signal SIGINT or SIGTERM?
&gt; &gt; 
&gt; &gt; &gt; Ok so:
&gt; &gt; &gt; --
&gt; &gt; &gt; # ps ax |grep col
&gt; &gt; &gt; 4792 ?        SLsl   0:00 /usr/sbin/collectd
&gt; &gt; &gt; -C /etc/collectd/collectd.conf -P /var/run/collectd.pid
&gt; &gt; &gt; 4800 ?        S      0:00 /usr/sbin/collectd
&gt; &gt; &gt; -C /etc/collectd/collectd.conf -P /var/run/collectd.pid
&gt; &gt; &gt; --
&gt; &gt; &gt; as attachment result of strace -t -ff -o /tmp/4792 -p 4792 and
&gt; &gt; &gt; strace -t -ff -o /tmp/4800 -p 4800
&gt; &gt; &gt; 
&gt; &gt; &gt; parent of PID 4800 is 4792
&gt; &gt; &gt; 4792 reacts on sigterm, 4800 both SIGTERM and SIGQUIT doesn't work, only
&gt; &gt; &gt; SIGKILL
&gt; &gt; 
&gt; &gt; &gt; 4800.4800:
&gt; &gt; &gt; 13:25:33 futex(0x7fe9098f7550, FUTEX_WAIT_PRIVATE, 2, NULL &lt;unfinished ...&gt;
&gt; &gt; 
&gt; &gt; Thanks. Looks like some kind of deadlock :-/ I'll look into that.
&gt; 
&gt; If u want i can give u access to VM with that bug already &quot;trigerred&quot;
&gt; and root access so u can install debug tools, just send me ur ssh pubkey

Thanks. I'll have a look at the code first but I might come back to that
offer after that ;-) Not quite sure when I'll have some time for that
though. Possibly some time this week.

Cheers,
Sebastian

</PRE>
</BLOCKQUOTE>
<BR>
Ive noticed it's much easier to trigger on VM too (maybe because host is quite busy with other machines), on my desktop it sometimes takes an hour or 2 to trigger, on VM its triggered after few mintutes max. Also i noticed that &quot;locked&quot; process is running as user ive told exec plugin to run script as so<BR>
Exec postfix &quot;/usr/local/bin/a.pl&quot;<BR>
results in:<BR>
template:~# ps aux |grep coll|grep -v grep<BR>
root&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2469&nbsp; 0.0&nbsp; 0.2 162764&nbsp; 1436 ?&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; S&lt;Lsl 15:22&nbsp;&nbsp; 0:00 /usr/sbin/collectd -C /etc/collectd/collectd.conf -P /var/run/collectd.pid<BR>
postfix&nbsp;&nbsp; 2476&nbsp; 0.0&nbsp; 0.2 101408&nbsp; 1168 ?&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; S&lt;&nbsp;&nbsp; 15:22&nbsp;&nbsp; 0:00 /usr/sbin/collectd -C /etc/collectd/collectd.conf -P /var/run/collectd.pid<BR>
<BR>
Hope that helps :)<BR>
<BR>
<TABLE CELLSPACING="0" CELLPADDING="0" WIDTH="100%">
<TR>
<TD>
<PRE>
-- 
Mariusz Gronczewski (XANi) &lt;<A HREF="mailto:xani666@gmail.com">xani666@gmail.com</A>&gt;
GnuPG: 0xEA8ACE64
<A HREF="http://devrandom.pl">http://devrandom.pl</A>
</PRE>
</TD>
</TR>
</TABLE>
</BODY>
</HTML>