<div dir="ltr">Hi all,<div><br></div><div>Apologies for the delay in reply - I've been at a conference all day and haven't had the chance to try any of this.  I'll give it a shot and report back soon.  Thanks for your very rapid responses!</div><div><br></div><div>--Brian</div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Jun 3, 2015 at 1:15 PM, Kacper Kowalik <span dir="ltr"><<a href="mailto:xarthisius.kk@gmail.com" target="_blank">xarthisius.kk@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">On 06/03/2015 11:53 AM, Kacper Kowalik wrote:<br>
> On 06/03/2015 08:06 AM, Matthew Turk wrote:<br>
>> Hi Brian,<br>
>><br>
>> If I had to guess, I'd say that it's not related to MPI, since you're<br>
>> excluding the infiniband.  I think it's more likely there's an issue<br>
>> with yt freeing or not freeing one or more of the Rockstar global data<br>
>> structures, and MPI is the one that catches it or throws the segfault<br>
>> somehow.  Can you try to get a core dump, check the most recent stack<br>
>> frame in all threads that lives inside Python space, and see if you<br>
>> can get a coarse estimate of where it's happening?<br>
>><br>
>> -Matt<br>
><br>
> Hi Brian,<br>
> I've debugged this a bit. SIGSEGV happens in:<br>
><br>
> yt/analysis_modules/halo_finding/rockstar/rockstar.py:<br>
> RockstarHaloFinder.__del__<br>
><br>
> I think you can safely remove that method, as worker pool cleaning also<br>
> happens in .run(). When I'm 100% sure it's the right way to do I'll<br>
> issue PR.<br>
<br>
</span>Ha! It's not even necessary. In your original you only create instance<br>
of RockstarHaloFinder then exit(). If you actually run it, by: rh.run()<br>
it will work ok and exit cleanly.<br>
<br>
__del__() was always a magical method for me. I'm not sure how to "fix"<br>
it properly.<br>
Cheers,<br>
Kacper<br>
<div class="HOEnZb"><div class="h5"><br>
> One word of caution: I don't really see any significant speed<br>
> improvement with 8 procs versus minimum case of 3 procs. However, that<br>
> may be caused by the fact that your datasets are fairly small.<br>
><br>
> Cheers,<br>
> Kacper<br>
><br>
>> On Tue, Jun 2, 2015 at 9:31 PM, Brian O'Shea <<a href="mailto:bwoshea@gmail.com">bwoshea@gmail.com</a>> wrote:<br>
>>> Hi folks,<br>
>>><br>
>>> I'm having some problems creating a time series of halo catalogs with<br>
>>> Rockstar on a small cosmology run, using the tip of yt 3.2-dev (changeset<br>
>>> a2b03516ed2c) with mpi4py v1.3.1 (and OpenMPI v1.4.3) installed on a local<br>
>>> Linux cluster.<br>
>>><br>
>>> I'm pretty confident that it has something specifically to do with a time<br>
>>> series. When I use this script to call rockstar on a single dataset:<br>
>>><br>
>>>     <a href="http://paste.yt-project.org/show/5586/" target="_blank">http://paste.yt-project.org/show/5586/</a><br>
>>><br>
>>> with this command line:<br>
>>><br>
>>>     mpirun -np 8 --mca btl ^openib python new_rockstar_ts.py --parallel<br>
>>><br>
>>> everything works just fine, and does so for every RDNNNN dataset.  However,<br>
>>> when I uncomment lines 40-44 and comment out lines 47-53 in the same script<br>
>>> (i.e., like this: <a href="http://paste.yt-project.org/show/5587/" target="_blank">http://paste.yt-project.org/show/5587/</a>) so that the code<br>
>>> now uses a time series of all of the RDNNNN datasets rather than a single<br>
>>> dataset, and use the same command line, I immediately get a seg fault that<br>
>>> appears to be related to the mpi4py package:<br>
>>><br>
>>> <a href="http://paste.yt-project.org/show/5588/" target="_blank">http://paste.yt-project.org/show/5588/</a><br>
>>><br>
>>> The datasets that I'm using for the time series can be found here:<br>
>>><br>
>>> <a href="http://galactica.pa.msu.edu/~bwoshea/data/datasets/rockstar_timeseries.tar.gz" target="_blank">http://galactica.pa.msu.edu/~bwoshea/data/datasets/rockstar_timeseries.tar.gz</a><br>
>>><br>
>>> (total size ~300 MB).<br>
>>><br>
>>> Does anybody have any idea what's going on?<br>
>>><br>
>>> Thanks!<br>
>>><br>
>>> --Brian<br>
>>><br>
>>><br>
>>><br>
>>><br>
>>><br>
>>> _______________________________________________<br>
>>> yt-users mailing list<br>
>>> <a href="mailto:yt-users@lists.spacepope.org">yt-users@lists.spacepope.org</a><br>
>>> <a href="http://lists.spacepope.org/listinfo.cgi/yt-users-spacepope.org" target="_blank">http://lists.spacepope.org/listinfo.cgi/yt-users-spacepope.org</a><br>
>>><br>
>> _______________________________________________<br>
>> yt-users mailing list<br>
>> <a href="mailto:yt-users@lists.spacepope.org">yt-users@lists.spacepope.org</a><br>
>> <a href="http://lists.spacepope.org/listinfo.cgi/yt-users-spacepope.org" target="_blank">http://lists.spacepope.org/listinfo.cgi/yt-users-spacepope.org</a><br>
>><br>
><br>
><br>
<br>
<br>
</div></div><br>_______________________________________________<br>
yt-users mailing list<br>
<a href="mailto:yt-users@lists.spacepope.org">yt-users@lists.spacepope.org</a><br>
<a href="http://lists.spacepope.org/listinfo.cgi/yt-users-spacepope.org" target="_blank">http://lists.spacepope.org/listinfo.cgi/yt-users-spacepope.org</a><br>
<br></blockquote></div><br></div>